Tutorial Nuevas Funciones Estadísticas
Nuevas funciones estadísticas
O3 Performance Suite continúa con la política de agregar nuevas técnicas de análisis de datos. El objetivo es potenciar aún más el poder de análisis de este producto contemplando las solicitudes de nuestros clientes. Es así que se podrán realizar nuevos cálculos estadísticos, algunos de ellos definiendo medidas con nuevos métodos de agregación y otros agregando cálculos a la grilla utilizando las nuevas expresiones estadísticas desde el O3Browser.
Sin deternos en este momento a diferenciar la forma de utilización de cada una de las funciones, presentamos en la siguiente lista las nuevas funciones estadísticas:
Función | Nombre Español | Nombre Inglés |
---|---|---|
Desviación Estándar Muestral | DesvEst | StDev |
Desviación Estándar Poblacional | DesvEstP | StDevP |
Varianza Muestral | Var | Var |
Varianza Poblacional | VarP | VarP |
Media Cuadrática | MediaCuad | QuadMean |
Covarianza Muestral | Covar | Covar |
Covarianza Poblacional | CovarP | CovarP |
Coeficiente de Correlación | Pearson | Pearson |
Distribución Normal | Normal | Normal |
Inversa de la Distribución Normal | InvNormal | InvNormal |
Regresión Lineal | se ofrece como nuevo tipo de gráfico | se ofrece como nuevo tipo de gráfico |
Introducción de un caso de uso
Presentamos a continuación un caso de uso que utilizaremos como contexto para introducir y describir los nuevos cálculos estadísticos incorporados. El mismo se irá desarrollando a medida que avanza este tutorial y se basa en el análisis de las ventas de vinos, modelo de análisis distribuido con la instalación del producto O3 Perfomance Suite.
En general cuando se analiza un conjunto de datos se tiene interés en calcular primeramente las estadísticas básicas, ya que se trata del primer conjunto de información sobre dichos datos. Algunas cálculos estadíscticos básicos son: Suma, Máximo, Mínimo, Promedio, Cantidad.
Dentro de los cálculos estadísticos avanzados se ofrece la posibilidad de calcular:
- desviación estándar poblacional
- varianza poblacional
- media cuadrática.
Estas 3 funciones estadísticas pueden ser definidas desde el componente O3Studio al momento de especificar el modelo de análisis o pueden ser definidas como expresiones calculadas agregadas por el usuario en el componente O3Browser.
Presentaremos a continuación cómo pueden ser especificadas al momento de definir el modelo multidimensional, es decir desde el componente O3Studio, lo que permite armar un conjunto de medidas que facilitarán el análisis por parte de los usuarios finales.
Definición de las funciones estadísticas
Consideramos oportuno repasar cómo es la definición de estas funciones estadísticas y con qué fines suelen ser utilizadas:
Varianza Poblacional | VarP | medida de la variabilidad de los datos en relación a su promedio poblacional. La desventaja de la varianza es que su unidad de medida no es la misma unidad que la de los datos originales, o sea, si los datos originales se expresan en litros, la unidad de medida de la varianza será litros cuadrados | |
Desviación Estándar Poblacional | DesvEstP | medida de la variación de los datos en relación a su promedio poblacional. En la práctica es mas utilizada que la varianza ya que tiene la misma unidad de medida que los datos originales | |
Desviación Estándar Muestral | DesvEst | mide la variación de los datos en relación al promedio de la muestra | |
Media Cuadrática | MediaCuad |
Cómo se define la desviación estándar desde O3Studio
Para definir la desviación estándar O3 Performance Suite ofrece un nuevo método de agregación de medidas tal como se muestra en la siguiente figura.
Figura 1. Definición de Desviación Estándar a través de Métodos de agregación |
Supongamos que el Gerente de Marketing de la empresa que vende los diversos tipos de vinos espera lanzar una nueva campaña con el objetivo de aumentar las ventas de sus productos. Por otro lado el presupuesto que le fue asignado no le permite realizar una campaña masiva para cada uno de los diferentes vinos que su empresa comercializa. Así es que el Gerente decide hacer un análisis de las ventas de sus productos que le permita decidir en cuáles de sus vinos concentrará su próxima campaña.
De esta forma decide obtener las siguientes estadísticas para cada uno de los tipos de vinos, a lo largo del tiempo y teniendo en cuenta el volumen de litros vendidos:
- Total de litros vendidos
- Promedio de litros vendidos
- Desviación estándar de los litros vendidos
- La máximo cantidad de litros vendidos
- La mínima cantidad de litros vendidos.
Las estadísticas de máximo y mínimo valor permitirán calcular cuál es la amplitud de la cantidad de litros vendidos, dando así una idea de la variabilidad existente en las ventas de cada uno de los tipos de vinos.
Para analizar un poco más en profundidad esta variación de las ventas en términos de litros, el Gerente analizará el promedio de las ventas juntamente con la información de la desviación estándar.
Este conjunto de datos le permitirá determinar cuáles son los tipos de vinos que han presentado menor estabilidad en las ventas, los cuales pueden tomados como candidatos objetivos en la campaña de marketing.
Figura 2: Resultados obtenidos |
Si además de estas estadísticas se quiere agregar por ejemplo la varianza poblacional esto se puede hacer definiendo una medida derivada y seleccionando la opción de ESTADISTICAS de esta ventana. Se elige como TIPO la varianza y como MEDIDA aquella variable que tenemos interés que sea calculada esta estadística.
Vale resaltar que en esta ventana, las medidas mostradas son solo las medidas para las cuales ya fueron definido la desviación estándar, o sea, si hay interés en calcular la varianza y/o la media cuadrática de alguna medida, primeramente se debe definir una medida que sea la desviación estándar de esta.
Figura 3: Medidas derivadas: Varianza y Media Cuadrática |
Algunas de estas nuevas funciones también están implementadas en el módulo Browser o sea, O3 Performance Suite permite que a través del módulo Browser el propio usuario agregue sus cálculos estadísticos.
La diferencia entre utilizar estas nuevas funciones a nivel del O3Browser e implementarlas como métodos de agregación en O3Studio es que como método de agregación, los datos de las ventas individuales (datos de entrada al modelo) serán utilizadas en los cálculos mientras que cuando estas funciones son definidas directamente en O3Browser, los datos utilizados para los cálculos son los datos que están siendo desplegados en dicho momento.
Siendo así, si nuestro interés es estudiar la variabilidad de las ventas del vino Cabernet Sauvignon, Merlot utilizando para esto las funciones de usuarios en O3Browser, necesitaremos que los datos del cubo tengan el nivel suficiente para esto, o sea, el cubo debe permitir mirar los datos a nivel de las ventas individuales.
Si esto es posible entonces para obtener la desviación estándar poblacional hacemos:
Figura 4. Desviación Estándar Poblacional |
Si nuestro interés es estudiar la variabilidad de cada uno de los vinos del tipo corte, la función desviación estándar poblacional deberá ser definida como DesEstP([this]) o DesEstP([group]). De esta forma obtenemos los mismos resultados que los presentados en la figura (2).
Con la flexibilidad ofrecida por O3 Performance Suite de permitir agregar funciones estadísticas dentro del conjunto de expresiones calculadas en el Browser, los usuarios pueden continuar el análisis de sus datos desde otras perspectivas.
Por ejemplo, ahora que ya se conoce la dispersión de los datos de ventas de cada uno de los distintos tipos de vinos se puede analizar cómo es la variabilidad de los grandes tipos de vino, o sea, será que el grupo de vino tipo Corte tiene la misma variabilidad que el tipo Varietal?
Otros cálculos interesantes para nuestro análsis, es la posibilidad de obtener el valor de la distribución Normal estándar N(0,1) dado un punto, o sea, dado el valor de z, determinar cual es el valor de P(Z < z) donde Z ˜ N(0,1). Como generalmente z es un numero real o sea con decimales, hay que cuidar la forma de representación de este número, o sea, si z=1,36 entonces en el momento de informar a O3 este valor hay que asegurarse que se esta utilizando la comma y no el punto para separar la parte decimal.
Figura 5: Distribución Normal estándar N(0,1) |
También se encuentra disponible la función inversa de la Normal, o sea, encontrar el valor del punto z que hace con que el área abajo de la curva tenga la probabilidad informada.
Continuando con los análisis de datos de las ventas de vino, nuestro objetivo ahora es colaborar con el Analista Financiero en chequear la hipótesis que la variación en los costos del vino Tannat en relación a las ventas bruta, a partir de un determinando momento pasa a ser casi despreciable, o en otras palabras que el costo marginal tiende a cero, como muestra la figura abajo:
Figura 6: Costo Marginal por ventas |
Para este análisis, en Browser seleccionamos los vinos tipo Tannat y elegimos el nivel de trimestre para la fecha. En seguida hacemos A partir de esto, hacer la gráfica de dispersión XY:
Figura 7: Gráfica de dispersión XY - Venta Bruta x Costo |
Observando esta gráfica (Figura 7) vemos que la hipótesis planteada no se se cumple, ya que la tendencia es claramente una función lineal se puede ajustar por una recta este conjunto de datos
Figura 8: Ajuste de una función lineal |
Para que sean mostrados los parámetros de la recta ajustada utilizamos la opción "Mostrar Correlación" obteniendo así la figura abajo:
Figura 9: Mostrar los valores de la recta ajustada |
Las características propias de herramientas OLAP como es el caso de O3 Perfomance Suite para hacer análisis sobre distintas perspectivas nos permite continuar analizando este conjunto de datos de una forma muy amigable. Por ejemplo si nuestro interés además de los análisis de los datos a nivel de trimestres, hay interés en saber si estas mismas tendencias sobre las ventas de los vinos se mantienen a nivel a largo de los meses, es suficiente cambiar el nivel de análisis de la dimensión fecha. Así podríamos seguir los con análisis intentando contestar varias inquietudes sobre este mismo conjunto de datos.
Vale la pena resaltar que por mas que O3 Perfomance Suite no sea un producto especifico para "limpieza de datos" puede ayudar en esta tarea ya que dispone de una gran variedad de tipos de gráficas, que en determinados casos ayudan a identificar posibles puntos extremos y/o outliers, como es lo que ocurre con el tipo de vino "Pinot Noir, Merlot, Malbec".
Figura 10: Posible punto extremo |
Si estuviéramos trabajando a nivel de la grilla entonces el cálculo de la correlación lineal sería hecho utilizando la opción "Agregar una fila calculada" y seleccionando la función "Pearson" dentro del grupo de funciones Estadísticas.
Figura 11 : Correlación lineal de Pearson |
En el grupo de funciones estadísticas avanzadas de O3 Performance Suite, además de la función de correlación lineal de Pearson, se puede encontrar por ejemplo la covarianza (populacional o muestral),
Observación:
Es importante notar la relevancia de la cantidad de cifras decimales utilizada en los cálculos estadísticos. Veamos el siguiente ejemplo: en la figura abajo, se puede observar que los tipos de vino varietal tiene una varianza poblacional correspondiente a 823947,46.
Figura 12. Varianza y desviación estándar poblacional |
Si a partir de la varianza calculamos la desviación estándar manualmente, obtenemos:
σ= √σ2= √823947,46 = 907,715517109 ≈ 907,72
el que corresponde al valor mostrado en la figura arriba.
Si a partir de la desviación estándar queremos obtener la varianza, hay que cuidar la cantidad de cifras decimales, o sea,
a) si consideramos
σ = 907,72 entonces σ2 = (907,72)2= 823955,5984
o sea, encontramos una diferencia.
b) Simplemente con aumentar la cantidad de cifras decimales para este calculo logramos reducir sensiblemente esta diferencia:
σ = 907,7155 entonces σ2 = (907,7155)2= 823947,4289