Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 115 Next »

Nuevas funciones estadísticas

O3 Performance Suite continúa con la política de agregar nuevas técnicas de análisis de datos. El objetivo es potenciar aún más el poder de análisis de este producto contemplando las solicitudes de nuestro clientes. Es así que en la versión 5.0 se podrán realizar diferentes cálculos estadísticos, algunos de ellos definiendo medidas con nuevos métodos de agregación y otros agregando cálculos a la grilla utilizando las nuevas expresiones estadísticas desde el O3Browser.

Si deternos en este momento a diferenciar la forma de utilización de cada una de las nuevas funciones, presentamos en la siguiente lista las nuevas funciones estadísticas inlcuidas en la versión:

Función

Nombre Español

Nombre Inglés

Desviación Estándar Muestral

DesvEst

StDev

Desviación Estándar Poblacional

DesvEstP

StDevP

Varianza Muestral

Var

Var

Varianza Poblacional

VarP

VarP

Media Cuadrática

MediaCuad

QuadMean

Covarianza Muestral

Covar

Covar

Covarianza Poblacional

CovarP

CovarP

Coeficiente de Correlación

Pearson

Pearson

Distribución Normal

Normal

Normal

Inversa de la Distribución Normal

InvNormal

InvNormal

Regresión Lineal

se ofrece como nuevo tipo de gráfico

se ofrece como nuevo tipo de gráfico

Introducción de un caso de uso

Presentamos a continuación un caso de uso que utilizaremos como contexto para introducir y describir los nuevos cálculos estadísticos incorporados. El mismo se irá desarrollando a medida que avanza este tutorial y se basa en el análisis de las ventas de vinos, modelo de análisis distribuido con la instalación del producto O3 Perfomance Suite.

En general cuando se analiza un conjunto de datos se tiene interés en calcular primeramente las estadísticas básicas, ya que se trata del primer conjunto de información sobre dichos datos. Algunas de estas estadísticas ya estaban implementadas en O3 Performance Suite, como ser Suma, Máximo, Mínimo, Promedio, Cantidad.

En la versión 5 se ofrece también la posibilidad de calcular:

  • desviación estándar poblacional
  • varianza poblacional
  • media cuadrática.

Estas 3 funciones estadísticas pueden ser definidas desde el componente O3Studio al momento de especificar el modelo de análisis o puede ser definidas como expresiones calculadas agregadas por el usuario en el componente O3Browser.

Presentaremos a continuación cómo pueden ser especificadas al momento de definir el modelo multidimensional, es decir desde el componente O3Studio, lo que permite armar un conjunto de medidas que facilitarán el análisis por parte de los usuarios finales.

Definición de las funciones estadísticas básicas

Consideramos oportuno repasar cómo es la definición de estas funciones estadísticas y con qué fines suelen ser utilizadas:

Varianza Poblacional

VarP

medida de la variabilidad de los datos en relación a su promedio poblacional. La desventaja de la varianza es que su unidad de medida no es la misma unidad que la de los datos originales, o sea, si los datos originales se expresan en litros, la unidad de medida de la varianza será litros cuadrado

Desviación Estándar Poblacional

DesvEstP

medida de la variación de los datos en relación a su promedio poblacional. En la práctica es mas utilizada que la varianza ya que tiene la misma unidad de medida que los datos originales

Desviación Estándar Muestral

DesvEst

mide la variación de los datos en relación al promedio de la muestra

Media Cuadrática

MediaCuad



Cómo se define la desviación estándar desde O3Studio

Para definir la desviación estándar O3 Performance Suite ofrece un nuevo método de agregación de medidas tal como se muestra en la siguiente figura.




Figura 1. Definición de Desviación Estándar a través de Métodos de agregación

Supongamos que el Gerente de Marketing de la empresa que vende los diversos tipos de vinos espera lanzar una nueva campaña con el objetivo de aumentar las ventas de sus productos. Por otro lado el presupuesto que le fue asignado para tal campaña no permite realizar una campaña masiva para cada uno de los diferentes vinos que su empresa comercializa. Así es que el Gerente decide hacer un análisis de las ventas de sus productos que le permita decidir en cuáles de sus vinos concentrará su próxima campaña.

De esta forma decide obetener las siguientes estadísticas para cada uno de los tipos de vinos, a lo largo del tiempo y teniendo en cuenta el volumen de litros vendidos:

  1. Total de litros vendidos
  2. Promedio de litros vendidos
  3. Desviación estándar de los litros vendidos
  4. La máximo cantidad de litros vendidos
  5. La mínima cantidad de litros vendidos.

Las estadísticas de máximo y mínimo valor permitirán calcular cuál es la amplitud de la cantidad de litros vendidos, dando así una idea de la variabilidad existente en las ventas de cada uno de los tipos de vinos.

Para analizar un poco más en profundidad esta variación de las ventas en términos de litros, el Gerente analizará el promedio de las ventas juntamente con la información de la desviación estándar.

Este conjunto de datos le permitirá determinar cuáles son los tipos de vinos que han presentado menor estabilidad en las ventas, los cuales pueden tomados como candidatos objetivos en la campaña de marketing.

Figura 2: Resultados obtenidos

Si además de estas estadísticas  se quiere agregar por ejemplo la varianza poblacional esto se puede hacer definiendo una medida derivada y seleccionando la opción de  ESTADISTICAS de esta ventana. Se elige como TIPO  la varianza y como MEDIDA aquella variable que tenemos interés que sea calculada esta estadística.

Vale resaltar que en esta ventana, las medidas mostradas son solo las medidas para las cuales ya fueron definido la desviación estándar, o sea, si hay interés en calcular la varianza y/o la media cuadrática de alguna medida, primeramente se debe definir una medida que sea la desviación estándar de esta.

Figura 3: Medidas derivadas: Varianza y Media Cuadrática

Algunas de estas nuevas funciones también están implementadas en el módulo Browser o sea, O3 Performance Suite permite que a través del módulo Browser el propio usuario construya sus estadísticas básicas.

La diferencia entre utilizar estas nuevas funciones a nivel del Browser y la opción de dejarlas implementadas como métodos de agregación en el Designer es que como método de agregación los datos de las ventas individuales (hoja) es que serán utilizadas en los cálculos mientras que cuando estas funciones son armadas directamente a nivel del Browser, los datos utilizados para los cálculos son los datos que están siendo desplegados en este momento.

Siendo así, si nuestro interés es estudiar la variabilidad de las ventas del vino Cabernet Sauvignon, Merlot utilizando para esto las funciones de usuarios en Browser, necesitaremos que los datos del cubo tengan el nivel suficiente para esto, o sea, el cubo debe permitir mirar los datos a nivel de las ventas individuales.

Si esto es posible entonces para obtener la desviación estándar  poblacional hacemos:                                                                               

Figura 4. Desviación Estándar Poblacional

Si nuestro interés es estudiar la variabilidad de cada uno de los vinos del tipo corte, la función desviación estándar poblacional deberá ser definida como DesEstP([ISLab:this]) o DesEstP([ISLab:group]).  De esta forma obtenemos los mismo resultados presentados en la figura (2).

Con la flexibilidad ofrecida por O3 Performance Suite permitiendo trabajar con estas funciones estadísticas a nivel de Browser hace con que los usuarios puedan seguir analizando sus datos desde otras  perspectivas.

Por ejemplo, ahora  que ya es conocida la dispersión de los datos de ventas de cada uno de los distintos tipos de vinos  se puede analizar como  es la variabilidad de los grandes tipos de vino, o sea, será que  el grupo de vino tipo Corte tiene  la misma variabilidad que el tipo Varietal?

Un otro datos interesante que está disponible a partir de la versión 5 de O3  Performance Suite es la posibilidad de obtener el valor de la distribución Normal estándar N(0,1) dado el  un punto, o sea,  dado el valor de z, determinar cual es el valor de P(Z < z) donde Z ˜ N(0,1). Como generalmente z es un numero real o sea con decimales, hay que cuidar la forma de representación de este número, o sea, si z=1,36 entonces en el momento de informar a O3 este valor hay que asegurarse que se esta utilizando la comma y no el punto para separar la parte decimal.

Figura 5: Distribución Normal estándar  N(0,1)

También se encuentra disponible a partir de la versión 5 la función inversa de la Normal, o sea, encontrar el valor del punto z que hace con que el área abajo de la curva tenga la probabilidad informada.

Continuando  con los análisis de datos de las ventas de vino, nuestro objetivo ahora es colaborar con el Analista Financiero en chequear la hipótesis que la variación en los costos del vino Tannat en relación a las ventas bruta, a partir de un determinando momento pasa a ser casi despreciable, o en otras palabras que el costo marginal tiende a cero, como muestra la figura abajo:

Figura 6: Costo Marginal por ventas

Para este análisis, en Browser seleccionamos los vinos tipo Tannat y elegimos el nivel de trimestre para la fecha. En seguida hacemos A partir de esto,  hacer la gráfica de dispersión XY:


Figura 7: Gráfica de dispersión XY - Venta Bruta x Costo

Observando esta gráfica (Figura 7) vemos que la hipótesis planteada no se esta cumpliendo ya que la tendencia mostrada reta.

Ya que la tendencia es claramente una función lineal se puede ajustar una reta a este conjunto de datos

Figura 8: Ajuste de una función lineal

Para que sean mostrados los parámetro de la reta ajustada utilizamos la opción "Mostrar Correlación" obteniendo así la figura abajo:

Figura 9: Mostrar los parámetros de la reta ajustada

Las características propias de herramientas OLAP como es el caso de O3 Perfomance Suite para hacer análisis sobre distintas perspectivas nos permite seguir analizando este conjunto de datos de una forma muy amigable.Por ejemplo si nuestro interés además de los análisis de los datos a nivel de trimestres, hay interés en saber si estas mismas tendencias sobre las ventas de los vinos se mantienen a nivel a largo de los meses, es suficiente cambiar el nivel de análisis de la dimensión fecha. Así podríamos seguir los con análisis intentando contestar varias inquietudes a cerca de este mismo conjunto de datos.

Vale la pena resaltar que por mas que O3 Perfomance Suite no sea un producto especifico para "limpieza de datos" puede nos ayudar en esta tarea ya que dispone de una gran variedad de tipos de gráficas, que en determinados casos ayudan a identificar posibles puntos extremos y/o outliers, como es lo que ocurre con el tipo de vino "Pinot Noir, Merlot, Malbec".

Figura 10: Posible punto extremo

Si estuviéramos trabajando a nivel de la grilla entonces el calculo de la correlación lineal seria hecho utilizando la opción "Agregar una fila calculada" y seleccionando la función "Pearson" dentro del grupo de funciones Estadísticas.

Figura 11 : Correlación lineal de Pearson

En este grupo de funciones estadísticas  incorporadas a O3 Performance Suite a partir de la  versión 5, además de la función de correlación lineal de Pearson, se puede encontrar por  ejemplo la covarianza (populacional  o muestral), 

Observación:

En la figura abajo, se puede observar que los tipos de vino varietal tiene una varianza poblacional correspondiente a 823947,46.

Figura 12. Varianza y desviación estándar poblacional

Si a partir de la varianza calculamos la desviación estándar manualmente, obtenemos:
σ= σ2= √823947,46 = 907,715517109 ≈ 907,72

el que corresponde al valor mostrado en la figura arriba.

Si a partir de la desviación estándar queremos obtener la varianza, hay que cuidar la cantidad de cifras decimales, o sea,

a) si consideramos

                        σ = 907,72 entonces σ2 = (907,72)2= 823955,5984

o sea, encontramos una diferencia.

b) Simplemente con aumentar la cantidad de cifras decimales para este calculo logramos reducir sensiblemente esta diferencia:

                        σ = 907,7155 entonces σ2 = (907,7155)2= 823947,4289

  • No labels