Ir al contenido principal

Medidas descriptivas en la Estadística

 



A continuación se definen las medidas descriptivas más usadas en las investigaciones estadísticas. Estas medidas, que permiten localizar con cierta precisión un conjunto de datos, pueden ser de tres tipos:

- De tendencia central.

- De variabilidad.

- De posición.

- De forma.

Las medidas de tendencia central

Tratan de ubicar la parte central de un conjunto de datos. Estas son: la media aritmética, la mediana y el modo. 

La media aritmética (promedio)

Dado un conjunto de n datos de una muestra, se define la media aritmética:

Dado el conjunto de los N datos de una población, se define la media aritmética:

Dada una muestra conformada por un conjunto de k valores; si cada uno de estos se repite con una frecuencia fi, o si cada uno tiene un peso o ponderado wi, entonces las medias aritméticas serán, respectivamente:

A esta última se le denomina media aritmética ponderada.

Si en lugar de contar sólo con datos muestrales se tuviera todos los datos poblacionales, para calcular la media aritmética se emplearían estas dos mismas fórmulas.

Si se tienen k muestras de tamaños n1, n2, ... , nk, con medias aritméticas  respectivamente; entonces la media aritmética del conjunto será:

Ejemplo 1:

Una entidad financiera ofrece los siguientes intereses anuales, según los montos que depositen los ahorristas a plazo fijo: 6% para depósitos A (de 1000 dólares); 8% para depósitos B (de 2000 dólares) y 10% para depósitos C (de 5000 dólares). ¿Cuál es el interés anual promedio que está pagando el banco si hay 15 depósitos A, 10 depósitos B y 5 depósitos C?

Ejemplo 2:

Se han registrado los pesos de las bolsas de arroz empacadas por una empresa durante 7 horas, resultando un promedio de 0,992 Kg. Si cada hora se embolsan 30 unidades, ¿cuál será el peso promedio si en la octava hora se registra un peso promedio de 1,025 Kg?

En este caso se debe hallar la media de dos medias aritméticas, donde los pesos o ponderaciones pueden ser 7 y 1, o 210 y 30.

La mediana

Dado un conjunto de n datos, si los datos se ordenan en orden creciente (o decreciente), la mediana es aquel dato que ocupa la posición central. Si el número de datos es par, la mediana será la media aritmética de los dos datos que ocupen la posición central.

Si algunos datos se repiten con una determinada frecuencia, el cálculo de la mediana se complica; pero no vale la pena ahondar en esto, pues se puede recurrir a una herramienta tan accesible como Excel para hacer este cálculo.

La moda

Dado un conjunto de datos, la moda (Mo) es el valor que se repite con mayor frecuencia. Cuando dos o más datos son los que tienen la mayor frecuencia, se dice que el conjunto de datos es bimodal o multimodal, respectivamente.

Las medidas de variabilidad

Indican qué tan dispersos se encuentran los datos. Estas son: la amplitud, la desviación media, la varianza y la desviación estándar, .

En muchas situaciones es importante conocer la variabilidad de los datos. Por ejemplo, entre dos procesos de elaboración de planchas de acero del mismo espesor, es más eficiente aquel cuyas medidas de espesor tienen una menor variabilidad. Igualmente, entre dos negocios con similar promedio de ganancias, quien tiene aversión al riesgo preferirá aquel que tenga menor variabilidad, pues así puede evitar una posible ganancia muy baja o una pérdida.

La amplitud (o rango)

Dado un conjunto de datos, la amplitud es la diferencia entre el mayor y el menor. Es una medida que puede ser muy útil, dada la facilidad con que se calcula; pero en ciertas ocasiones puede dar una idea equivocada de la variabilidad de los datos; por ejemplo, cuando uno de los datos difiere significativamente de los demás (dato atípico).

La desviación media

Dado un conjunto de datos, la desviación media es la media aritmética de los valores absolutos de lo que se desvía cada valor respecto a la media aritmética. Es una medida poco usada debido a la dificultad al hacer cálculos con la función valor absoluto.

La varianza

Dado un conjunto de n datos, que conforman una muestra de una población, se define la varianza:


Dado un conjunto de k datos, de una muestra de una población, si cada uno se repite con una frecuencia fi, la varianza será:

Si se cuenta con el total de datos (N) de una población, la varianza es:

La desviación estándar

Es la raíz cuadrada positiva de la varianza. Es la medida de variabilidad que más se emplea, debido a que se expresa en las mismas unidades que los datos y la media aritmética.

El coeficiente de variación

Se define como el cociente entre la desviación estándar y la media aritmética de un conjunto de datos. Según se trate de una muestra o población, el coeficiente de variación será:

A esta medida se le suele llamar desviación estándar relativa a la media.

Esta medida se suele usar para comparar el grado de dispersión de dos o más conjuntos de datos; incluso si se trata de medidas diferentes. Suele ser de gran utilidad también cuando se desea comparar las dispersiones de dos conjuntos de datos cuyas medias difieren significativamente.

Ejemplo:

Medio año después de haber sembrado 50 semillas, se miden las alturas de las plantas, obteniéndose una media de 43,6 cm. y una desviación estándar de 5,1 cm. Al cumplir un año, se vuelven a medir las alturas de las plantas, encontrándose una media de 128,7 cm. y una desviación estándar de 6,6 cm. Compare las dispersiones de las plantas en ambos momentos.

Al medio año: v1 = 5,1/43,6 = 0,117

Al año: v2 = 6,6/128,7 = 0,051

Si se comparasen las desviaciones estándar, lógicamente se afirmaría que la dispersión aumentó; pero comparando las dispersiones respecto a las alturas (representadas por las medias aritméticas), se puede afirmar que la dispersión relativa ha disminuido.

Las medidas de posición

Localizan los datos respecto a los demás. Estas son: los cuartiles y los percentiles.

Los cuartiles

Dado un conjunto de datos ordenados en forma ascendente, los cuartiles lo dividen en cuatro partes iguales.

El primer cuartil, Q1, es un valor tal que, a lo sumo, la cuarta parte de los datos es menor que Q1, y, a lo sumo, las tres cuartas partes son mayores.

El segundo cuartil, Q2, coincide con la mediana.

El tercer cuartil, Q3, es un valor tal que, a lo sumo, las tres cuartas partes de los datos son menores que Q3, y, a lo sumo, la cuarta parte es mayor.

Ejemplo 1:

Ejemplo 2:

Para el cálculo de los cuartiles se recomienda recurrir a una herramienta tan accesible y de tan fácil uso como Excel.

Los percentiles

Dado un conjunto de datos ordenados en forma ascendente, los percentiles lo dividen en cien partes iguales.

El k-ésimo percentil, Pk, es un valor tal que, a lo sumo, el k por ciento de los datos son menores que Pk. Para determinar los percentiles se puede usar Excel.

Las medidas de forma

Expresan la forma en que se distribuye un conjunto de datos. Estas son: el coeficiente de asimetría y la curtosis.

Coeficiente de asimetría

Mide si un conjunto de datos están más dispersos por encima de la media aritmética o por debajo de ella. Si hay más datos por encima de la media, el coeficiente de asimetría es positivo; si hay más datos por debajo de la media, el coeficiente de asimetría es negativo; y si los datos están igualmente dispersos por encima y por debajo de la media, el coeficiente de asimetría es cero.

El coeficiente de asimetría puede calcularse mediante la siguiente fórmula, aunque lo más práctico es calcularlo en Excel.

Curtosis

Mide el grado en que los datos están agrupados alrededor de la media aritmética. Si la mayor parte de los datos están cerca de la media, la curtosis es positiva, y se dice que los datos tienen una distribución leptocúrtica; en caso contrario, si la mayor parte de los datos están lejos de la media, la curtosis es negativa, y se dice que los datos tienen una distribución platocúrtica. Si los datos se distribuyen normalmente (capítulo 8), la curtosis es cero, y se dice que la distribución es mesocúrtica.

Es importante aclarar que la curtosis no es una medida de la variabilidad de los datos; que un conjunto de datos tenga una distribución leptocúrtica no indica que tenga menor desviación estándar.

Para medir la curtosis se puede emplear la siguiente fórmula, aunque lo más práctico es calcularla en Excel.



Comentarios

Entradas más populares de este blog

Interpretación de histogramas

Los histogramas nos pueden brindar mucha información que en las empresas ni se imaginan. Para una persona que conozca un proceso cualquiera, la forma que tiene  un histograma construido a partir de una muestra de datos extraídos de dicho proceso, le indicará qué podría estar ocurriendo con su proceso. A continuación se muestran los distintos tipos de histogramas que se podrían encontrar, con una interpretación de lo que probablemente esté ocurriendo. Histograma general : la media del histograma está en el centro del rango de datos. La frecuencia es mayor en el centro y disminuye gradualmente hacia los extremos, ajustándose a una distribución normal. Se presenta en casi todos los casos en que se representa una medida importante en un proceso productivo. Histograma con sesgo positivo o negativo : tiene forma asimétrica. La media del histograma está a la izquierda (o a la derecha) y la frecuencia disminuye lentamente hacia la derecha (o hacia la izquierda). Se presen

Gráficos o cartas de control

El 16 de mayo de 1924, Walter A. Shewhart, un físico estadounidense, entregó un informe de una página a su jefe en Bell Technologies , destinado a cambiar la historia de la calidad. En él, un breve texto acompañaba a un gráfico, hoy conocido como gráfico o carta de control. Actualmente, pese a que sus gráficos de control siguen siendo útiles, muchos los emplean de manera incorrecta por el desconocimiento que tienen de los fundamentos estadísticos que los sustentan. Los gráficos de control nos permiten visualizar cómo va cambiando la variabilidad de una determinada medida (por ejemplo, el peso del agua embotellada que va saliendo de un proceso de producción), a lo largo del tiempo. Un gráfico de control está conformado por una línea central, que suele medir un promedio; dos límites de control, uno por encima y otro por debajo de la línea central; y una serie de valores característicos registrados en el gráfico que representan el estado de una medida de un proceso a lo largo de

La distribución normal (la campana de Gauss)

La curva normal o campana de Gauss Todas las medidas tomadas en cualquier proceso productivo tienen una distribución simétrica en forma de campana, si es que el proceso productivo está bajo control, es decir, si todo está funcionando dentro de lo establecido. Ejemplo de medidas tomadas en un proceso productivo: El peso de las bolsas que se llenan con azúcar con una máquina automática. El diámetro de los pistones que se elaboran en un taller. El volumen de las botellas que se llenan con cerveza con una máquina automática. La temperatura de un horno de cocción en un proceso de fabricación de harina de pescado. El voltaje que llegan a las viviendas en una ciudad. Estas medidas suelen tener una distribución simétrica en forma de campana debido a que, al haber un control sobre estas, la gran mayoría resultan muy cercanas al valor nominal establecido, y muy pocas resultan más lejanas a dicho valor. ¿Y cómo es esa distribución simétrica en forma de campana? Imagínense q