...
O3 Performance Suite continúa con la política de agregar nuevas técnicas de análisis de datos. El objetivo es potenciar aún más el poder de análisis de este producto contemplando las solicitudes de nuestro nuestros clientes. Es así que en la versión 5.0 se podrán realizar diferentes nuevos cálculos estadísticos, algunos de ellos definiendo medidas con nuevos métodos de agregación y otros agregando cálculos a la grilla utilizando las nuevas expresiones estadísticas desde el O3Browser.
Si Sin deternos en este momento a diferenciar la forma de utilización de cada una de las nuevas funciones, presentamos en la siguiente lista las nuevas funciones estadísticas inlcuidas en la versión:
Función | Nombre Español | Nombre Inglés |
---|---|---|
Desviación Estándar Muestral | DesvEst | StDev |
Desviación Estándar Poblacional | DesvEstP | StDevP |
Varianza Muestral | Var | Var |
Varianza Poblacional | VarP | VarP |
Media Cuadrática | MediaCuad | QuadMean |
Covarianza Muestral | Covar | Covar |
Covarianza Poblacional | CovarP | CovarP |
Coeficiente de Correlación | Pearson | Pearson |
Distribución Normal | Normal | Normal |
Inversa de la Distribución Normal | InvNormal | InvNormal |
Regresión Lineal | se ofrece como nuevo tipo de gráfico | se ofrece como nuevo tipo de gráfico |
...
En general cuando se analiza un conjunto de datos se tiene interés en calcular primeramente las estadísticas básicas, ya que se trata del primer conjunto de información sobre dichos datos. Algunas de estas estadísticas ya estaban implementadas en O3 Performance Suite, como ser cálculos estadíscticos básicos son: Suma, Máximo, Mínimo, Promedio, Cantidad.
En la versión 5 Dentro de los cálculos estadísticos avanzados se ofrece también la posibilidad de calcular:
...
Estas 3 funciones estadísticas pueden ser definidas desde el componente O3Studio al momento de especificar el modelo de análisis o puede pueden ser definidas como expresiones calculadas agregadas por el usuario en el componente O3Browser.
Presentaremos a continuación cómo pueden ser especificadas al momento de definir el modelo multidimensional, es decir desde el componente O3Studio, lo que permite armar un conjunto de medidas que facilitarán el análisis por parte de los usuarios finales.
Definición de las funciones estadísticas
...
Consideramos oportuno repasar cómo es la definición de estas funciones estadísticas y con qué fines suelen ser utilizadas:
Varianza Poblacional | VarP | medida de la variabilidad de los datos en relación a su promedio poblacional. La desventaja de la varianza es que su unidad de medida no es la misma unidad que la de los datos originales, o sea, si los datos originales se expresan en litros, la unidad de medida de la varianza será litros cuadrado cuadrados |
|
Desviación Estándar Poblacional | DesvEstP | medida de la variación de los datos en relación a su promedio poblacional. En la práctica es mas utilizada que la varianza ya que tiene la misma unidad de medida que los datos originales |
|
Desviación Estándar Muestral | DesvEst | mide la variación de los datos en relación al promedio de la muestra |
|
Media Cuadrática | MediaCuad | |
Cómo se define la desviación estándar desde O3Studio
Anchor | ||||
---|---|---|---|---|
|
Para definir la desviación estándar O3 Performance Suite ofrece un nuevo método de agregación de medidas tal como se muestra en la siguiente figura.
|
Figura 1. Definición de Desviación Estándar a través de Métodos de agregación |
Supongamos que el Gerente de Marketing de la empresa que vende los diversos tipos de vinos espera lanzar una nueva campaña con el objetivo de aumentar las ventas de sus productos. Por otro lado el presupuesto que le fue asignado para tal campaña no le permite realizar una campaña masiva para cada uno de los diferentes vinos que su empresa comercializa. Así es que el Gerente decide hacer un análisis de las ventas de sus productos que le permita decidir en cuáles de sus vinos concentrará su próxima campaña.
De esta forma decide obetener obtener las siguientes estadísticas para cada uno de los tipos de vinos, a lo largo del tiempo y teniendo en cuenta el volumen de litros vendidos:
...
Este conjunto de datos le permitirá determinar cuáles son los tipos de vinos que han presentado menor estabilidad en las ventas, los cuales pueden tomados como candidatos objetivos en la campaña de marketing.
|
Figura 2: Resultados obtenidos |
...
Algunas de estas nuevas funciones también están implementadas en el módulo Browser o sea, O3 Performance Suite permite que a través del módulo Browser el propio usuario construya agregue sus estadísticas básicascálculos estadísticos.
La diferencia entre utilizar estas nuevas funciones a nivel del Browser y la opción de dejarlas implementadas O3Browser e implementarlas como métodos de agregación en el Designer O3Studio es que como método de agregación, los datos de las ventas individuales (hoja) es que datos de entrada al modelo) serán utilizadas en los cálculos mientras que cuando estas funciones son armadas directamente a nivel del Browserdefinidas directamente en O3Browser, los datos utilizados para los cálculos son los datos que están siendo desplegados en este dicho momento.
Siendo así, si nuestro interés es estudiar la variabilidad de las ventas del vino Cabernet Sauvignon, Merlot utilizando para esto las funciones de usuarios en BrowserO3Browser, necesitaremos que los datos del cubo tengan el nivel suficiente para esto, o sea, el cubo debe permitir mirar los datos a nivel de las ventas individuales.
...
Si nuestro interés es estudiar la variabilidad de cada uno de los vinos del tipo corte, la función desviación estándar poblacional deberá ser definida como DesEstP([this]) o DesEstP([group]). De esta forma obtenemos los mismo mismos resultados que los presentados en la figura (2).
Con la flexibilidad ofrecida por O3 Performance Suite permitiendo trabajar con estas de permitir agregar funciones estadísticas a nivel de Browser hace con que los usuarios puedan seguir analizando dentro del conjunto de expresiones calculadas en el Browser, los usuarios pueden continuar el análisis de sus datos desde otras perspectivas.
Por ejemplo, ahora que ya es conocida se conoce la dispersión de los datos de ventas de cada uno de los distintos tipos de vinos se puede analizar como cómo es la variabilidad de los grandes tipos de vino, o sea, será que el grupo de vino tipo Corte tiene la misma variabilidad que el tipo Varietal?
Un otro datos interesante que está disponible a partir de la versión 5 de O3 Performance Suite Otros cálculos interesantes para nuestro análsis, es la posibilidad de obtener el valor de la distribución Normal estándar N(0,1) dado el un punto, o sea, dado el valor de z, determinar cual es el valor de P(Z < z) donde Z ˜ N(0,1). Como generalmente z es un numero real o sea con decimales, hay que cuidar la forma de representación de este número, o sea, si z=1,36 entonces en el momento de informar a O3 este valor hay que asegurarse que se esta utilizando la comma y no el punto para separar la parte decimal.
|
---|
Figura 5: Distribución Normal estándar N(0,1) |
También se encuentra disponible a partir de la versión 5 la función inversa de la Normal, o sea, encontrar el valor del punto z que hace con que el área abajo de la curva tenga la probabilidad informada.
Continuando con los análisis de datos de las ventas de vino, nuestro objetivo ahora es colaborar con el Analista Financiero en chequear la hipótesis que la variación en los costos del vino Tannat en relación a las ventas bruta, a partir de un determinando momento pasa a ser casi despreciable, o en otras palabras que el costo marginal tiende a cero, como muestra la figura abajo:
|
Figura 6: Costo Marginal por ventas |
Para este análisis, en Browser seleccionamos los vinos tipo Tannat y elegimos el nivel de trimestre para la fecha. En seguida hacemos A partir de esto, hacer la gráfica de dispersión XY:
...
Observando esta gráfica (Figura 7) vemos que la hipótesis planteada no se se esta cumpliendo ya que la tendencia mostrada reta.Ya cumple, ya que la tendencia es claramente una función lineal se puede ajustar por una reta a recta este conjunto de datos
|
---|
Figura 8: Ajuste de una función lineal |
Para que sean mostrados los parámetro parámetros de la reta recta ajustada utilizamos la opción "Mostrar Correlación" obteniendo así la figura abajo:
|
---|
Figura 9: Mostrar los parámetros valores de la reta recta ajustada |
Las características propias de herramientas OLAP como es el caso de O3 Perfomance Suite para hacer análisis sobre distintas perspectivas nos permite seguir continuar analizando este conjunto de datos de una forma muy amigable. Por ejemplo si nuestro interés además de los análisis de los datos a nivel de trimestres, hay interés en saber si estas mismas tendencias sobre las ventas de los vinos se mantienen a nivel a largo de los meses, es suficiente cambiar el nivel de análisis de la dimensión fecha. Así podríamos seguir los con análisis intentando contestar varias inquietudes a cerca de sobre este mismo conjunto de datos.
Vale la pena resaltar que por mas que O3 Perfomance Suite no sea un producto especifico para "limpieza de datos" puede nos ayudar en esta tarea ya que dispone de una gran variedad de tipos de gráficas, que en determinados casos ayudan a identificar posibles puntos extremos y/o outliers, como es lo que ocurre con el tipo de vino "Pinot Noir, Merlot, Malbec".
...
Si estuviéramos trabajando a nivel de la grilla entonces el calculo cálculo de la correlación lineal seria sería hecho utilizando la opción "Agregar una fila calculada" y seleccionando la función "Pearson" dentro del grupo de funciones Estadísticas.
|
---|
Figura 11 : Correlación lineal de Pearson |
En este el grupo de funciones estadísticas incorporadas a estadísticas avanzadas de O3 Performance Suite a partir de la versión 5, además de la función de correlación lineal de Pearson, se puede encontrar por ejemplo la covarianza (populacional o muestral),
Observación:
En Es importante notar la relevancia de la cantidad de cifras decimales utilizada en los cálculos estadísticos. Veamos el siguiente ejemplo: en la figura abajo, se puede observar que los tipos de vino varietal tiene una varianza poblacional correspondiente a 823947,46.
|
---|
Figura 12. Varianza y desviación estándar poblacional |
...
Si a partir de la varianza calculamos la desviación estándar manualmente, obtenemos:
σ= √σ2= √823947,46 = 907,715517109 ≈ 907,72
...
σ = 907,72 entonces σ2 = (907,72)2= 823955,5984
o sea, encontramos una diferencia.
...
σ = 907,7155 entonces σ2 = (907,7155)2= 823947,4289