A continuación se definen las medidas descriptivas más usadas en las investigaciones estadísticas. Estas medidas, que permiten localizar con cierta precisión un conjunto de datos, pueden ser de tres tipos:
- De tendencia central.
- De variabilidad.
- De posición.
- De forma.
Las medidas de tendencia central
Tratan de ubicar la parte central de un conjunto de datos. Estas son: la media aritmética, la mediana y el modo.
La media aritmética (promedio)
Dado un conjunto de n datos de una muestra, se define la media aritmética:
Dado el conjunto de los N datos de una población, se define la media aritmética:
Dada una muestra conformada por un conjunto de k valores; si cada uno de estos se repite con una frecuencia fi, o si cada uno tiene un peso o ponderado wi, entonces las medias aritméticas serán, respectivamente:
A esta última
se le denomina media aritmética ponderada.
Si en lugar de contar sólo con datos muestrales se tuviera todos
los datos poblacionales, para calcular la media aritmética se emplearían estas
dos mismas fórmulas.
Si se tienen k
muestras de tamaños n1, n2, ... , nk, con medias
aritméticas
Ejemplo 1:
Una entidad financiera ofrece los siguientes
intereses anuales, según los montos que depositen los ahorristas a plazo fijo:
6% para depósitos A (de 1000 dólares); 8% para depósitos B (de 2000 dólares) y
10% para depósitos C (de 5000 dólares). ¿Cuál es el interés anual promedio que
está pagando el banco si hay 15 depósitos A, 10 depósitos B y 5 depósitos C?
Ejemplo 2:
Se han registrado los
pesos de las bolsas de arroz empacadas por una empresa durante 7 horas,
resultando un promedio de 0,992 Kg. Si cada hora se embolsan 30 unidades, ¿cuál
será el peso promedio si en la octava hora se registra un peso promedio de
1,025 Kg?
En este caso se debe hallar la media de dos medias
aritméticas, donde los pesos o ponderaciones pueden ser 7 y 1, o 210 y 30.
La mediana
Dado un conjunto de n datos, si los datos se ordenan en orden creciente (o
decreciente), la mediana es aquel dato que ocupa la posición central. Si el
número de datos es par, la mediana será la media aritmética de los dos datos
que ocupen la posición central.
Si algunos datos se repiten con una determinada
frecuencia, el cálculo de la mediana se complica; pero no vale la pena ahondar
en esto, pues se puede recurrir a una herramienta tan accesible como Excel para
hacer este cálculo.
La moda
Dado un conjunto de datos, la moda (Mo)
es el valor que se repite con mayor frecuencia. Cuando dos o más datos son los
que tienen la mayor frecuencia, se dice que el conjunto de datos es bimodal o
multimodal, respectivamente.
Las medidas de variabilidad
Indican qué tan dispersos se encuentran los datos. Estas son: la amplitud, la desviación media, la varianza y la desviación estándar, .
En muchas situaciones es importante conocer la variabilidad de los datos. Por ejemplo, entre dos procesos de elaboración de planchas de acero del mismo espesor, es más eficiente aquel cuyas medidas de espesor tienen una menor variabilidad. Igualmente, entre dos negocios con similar promedio de ganancias, quien tiene aversión al riesgo preferirá aquel que tenga menor variabilidad, pues así puede evitar una posible ganancia muy baja o una pérdida.
La amplitud (o rango)
Dado un conjunto de datos, la amplitud es la diferencia entre el mayor y el menor. Es una medida que puede ser muy útil, dada la facilidad con que se calcula; pero en ciertas ocasiones puede dar una idea equivocada de la variabilidad de los datos; por ejemplo, cuando uno de los datos difiere significativamente de los demás (dato atípico).
La desviación media
Dado un conjunto de datos, la desviación media es la media aritmética de los valores absolutos de lo que se desvía cada valor respecto a la media aritmética. Es una medida poco usada debido a la dificultad al hacer cálculos con la función valor absoluto.
La varianza
Dado un conjunto de n datos, que conforman una muestra de una población, se define la varianza:
Si se cuenta con el total de datos (N) de una población, la varianza es:
La desviación estándar
Es la raíz cuadrada positiva de la varianza. Es la medida de variabilidad que más se emplea, debido a que se expresa en las mismas unidades que los datos y la media aritmética.
El coeficiente de variación
Se define como el cociente entre la desviación estándar y la media aritmética de un conjunto de datos. Según se trate de una muestra o población, el coeficiente de variación será:
A esta medida se le suele llamar desviación estándar relativa a la media.
Esta medida se suele usar para comparar
el grado de dispersión de dos o más conjuntos de datos; incluso si se trata de
medidas diferentes. Suele ser de gran utilidad también cuando se desea comparar las
dispersiones de dos conjuntos de datos cuyas medias difieren
significativamente.
Ejemplo:
Medio año después de haber sembrado 50 semillas, se miden las alturas de las plantas, obteniéndose una media de 43,6 cm. y una desviación estándar de 5,1 cm. Al cumplir un año, se vuelven a medir las alturas de las plantas, encontrándose una media de 128,7 cm. y una desviación estándar de 6,6 cm. Compare las dispersiones de las plantas en ambos momentos.
Al medio año: v1 = 5,1/43,6 = 0,117
Al año: v2 = 6,6/128,7 = 0,051
Si se comparasen las desviaciones estándar, lógicamente se afirmaría que la dispersión aumentó; pero comparando las dispersiones respecto a las alturas (representadas por las medias aritméticas), se puede afirmar que la dispersión relativa ha disminuido.
Las medidas de posición
Localizan los datos respecto a los demás. Estas son: los cuartiles y los percentiles.
Los cuartiles
Dado un conjunto de datos ordenados en
forma ascendente, los cuartiles lo dividen en cuatro partes iguales.
El primer cuartil, Q1,
es un valor tal que, a lo sumo, la cuarta parte de los datos es menor que Q1,
y, a lo sumo, las tres cuartas partes son mayores.
El segundo cuartil, Q2,
coincide con la mediana.
El tercer cuartil, Q3, es un valor tal que, a lo sumo, las tres cuartas partes de los datos son menores que Q3, y, a lo sumo, la cuarta parte es mayor.
Ejemplo 1:
Ejemplo 2:
Para el cálculo de los cuartiles se recomienda recurrir a una herramienta tan accesible y de tan fácil uso como Excel.
Los percentiles
Dado un conjunto de datos ordenados en
forma ascendente, los percentiles lo dividen en cien partes iguales.
El k-ésimo percentil, Pk, es un valor tal que, a lo sumo, el k por ciento de los datos son menores que Pk. Para determinar los percentiles se puede usar Excel.
Las medidas de forma
Expresan la forma en que se distribuye un conjunto de datos. Estas son: el coeficiente de asimetría y la curtosis.
Coeficiente de asimetría
Mide si un conjunto de datos están más
dispersos por encima de la media aritmética o por debajo de ella. Si hay más
datos por encima de la media, el coeficiente de asimetría es positivo; si hay
más datos por debajo de la media, el coeficiente de asimetría es negativo; y si
los datos están igualmente dispersos por encima y por debajo de la media, el
coeficiente de asimetría es cero.
El coeficiente de asimetría puede calcularse mediante la siguiente fórmula, aunque lo más práctico es calcularlo en Excel.
Curtosis
Mide el grado en que los datos están
agrupados alrededor de la media aritmética. Si la mayor parte de los datos
están cerca de la media, la curtosis es positiva, y se dice que los datos
tienen una distribución leptocúrtica; en caso contrario, si la mayor parte de
los datos están lejos de la media, la curtosis es negativa, y se dice que los
datos tienen una distribución platocúrtica. Si los datos se distribuyen
normalmente (capítulo 8), la curtosis es cero, y se dice que la distribución es
mesocúrtica.
Es importante aclarar que la curtosis no
es una medida de la variabilidad de los datos; que un conjunto de datos tenga
una distribución leptocúrtica no indica que tenga menor desviación estándar.
Para medir la curtosis se puede emplear la
siguiente fórmula, aunque lo más práctico es calcularla en Excel.
Comentarios
Publicar un comentario