Ir al contenido principal

Cómo agrupar y representar un conjunto de datos con la ayuda de Excel: el histograma

Terminología estadística

En primer lugar, para que el lector se familiarice con la terminología estadística, recordemos algunos conceptos básicos:

-        Variable aleatoria: es una variable que toma valores al azar.

-        Variable aleatoria discreta: es una variable aleatoria que puede tomar un número finito o numerablemente infinito de valores discretos.

Por ejemplo:
-        El número de clientes que llega a una farmacia en un lapso de 10 minutos.
-        El número de estudiantes de un colegio que llega tarde un día cualquiera.
-        El número de ciudadanos de un país que votaría por cierto candidato.

-        Variable aleatoria continua: es una variable aleatoria que puede tomar infinitos valores de números reales.

Por ejemplo:
-        El diámetro de una tapa para un frasco.
-        El peso de una bolsa de cemento.
-        El volumen de agua de una botella.

-        Frecuencia: es la cantidad de veces que se repite un dato, o la cantidad de datos que hay en un determinado rango.

-        Rango o amplitud: es la diferencia entre el mayor y el menor de los datos de una muestra o población.

Histograma

Más que una técnica, agrupar un conjunto de datos en intervalos y representarlo gráficamente, suele ser un arte. El objetivo es que el histograma resultante pueda ser fácilmente interpretado.


Existe una fórmula matemática (Regla de Sturges: k = 1+log n) que se emplea para determinar el número de intervalos que conviene tener, y a partir de este resultado determinar los tamaños de estos intervalos; pero en la mayoría de los casos se obtienen valores poco prácticos que dificultan la visualización o la interpretación de los histogramas resultantes.

Para agrupar en forma adecuada un conjunto de datos, se propone, mejor, seguir los siguientes pasos:

1)  Determinar la amplitud, A.
2)  Determinar el número de agrupaciones o clases, m, y la longitud de cada clase, k, de tal forma que el producto mk sea mayor o igual que A. Es recomendable que el número de clases esté comprendido entre 6 y 15, para una mejor interpretación, y que la longitud de las clases sea múltiplo de 10 o de 5. De esta manera se podrá visualizar mejor los intervalos (eje X).
3)  Determinar uno por uno los límites de cada clase, procurando que los límites superiores sean múltiplos de 5, 10, 100, 1 000, etc., para facilitar su visualización.
4)  Contar el número de elementos de cada clase; estas son las frecuencias (f)

Ejemplo: agrupe los siguientes 100 datos y labore un histograma.


Utilizando las funciones Max y Min de Excel se obtiene:
Máx = 423.76; Mín = 374.22  ;  A = 49.54

Recuérdese que se debe cumplir: mk >= 49.54

Como conviene que k sea múltiplo de 5 o 10, se elige: k = 5. Por lo tanto: m = 10. De esta manera el producto mk supera ligeramente el valor de la amplitud, que es 49.54.
Ahora hay que determinar los límites inferior y superior de cada uno de los intervalos, de tal manera que el menor de los datos esté incluido en el primer intervalo, y el mayor de los datos esté incluido en el último intervalo.

Primer intervalo:    de 370.01 a 380.00
Segundo intervalo: de 380.01 a 390.00
Tercer intervalo:     de 390.01 a 400.00
Cuarto intervalo:    de 400.01 a 410.00
Quinto intervalo:    de 400.01 a 410.00
Sexto intervalo:      de 410.01 a 420.00
Séptimo intervalo:  de 420.01 a 430.00

Una vez definidos los intervalos, se ingresa al menú de Excel: Datos/Análisis de datos/Histograma. Excel abre un cuadro de diálogo que pide:
·   Rango de entrada: aquí se ingresa el rango de celdas donde están los datos.
·   Rango de clases: aquí se ingresa el rango de celdas donde están los límites superiores de clase, que el usuario ha ingresado previamente en una columna de Excel. Si no se ingresa nada en Rango de clases, es Excel quien escoge los límites superiores de clase. Estos límites pueden servir de guía para que el usuario escoja unos límites más apropiados.

Para los datos de salida, se puede escoger entre las siguientes tres opciones de salida:
·   Rango de salida: aquí se ingresa la celda desde donde se va a construir la tabla de distribución de frecuencias agrupadas y el histograma, si se desea hacerlo en la misma hoja de cálculo.
·   En una hoja nueva: aquí se puede ingresar el nombre de la hoja de cálculo donde se desea construir la tabla de distribución de frecuencias agrupadas y el histograma. Si se deja en blanco, Excel le asignará un nombre, por ejemplo, Hoja4.
·   En un libro nuevo: se elige esta opción si se desea construir la tabla de distribución de frecuencias agrupadas y el histograma en un nuevo archivo. Excel le asigna un nombre a este archivo, por ejemplo, Libro2. Posteriormente, si lo desea, el usuario puede cambiarle el nombre a este archivo.
Finalmente se selecciona la opción Crear gráfico.


También se puede construir la tabla de distribución de frecuencias agrupadas usando la función FRECUENCIA, teniendo en cuenta que en Grupos se ingresa el rango de celdas donde están los límites superiores de clase, que el usuario ha ingresado previamente en una columna de Excel.

De esta manera se puede obtener el siguiente histograma, donde se ha arreglado los valores en el eje X, pues Excel los coloca desfasados.





Comentarios

Entradas más populares de este blog

Interpretación de histogramas

Los histogramas nos pueden brindar mucha información que en las empresas ni se imaginan. Para una persona que conozca un proceso cualquiera, la forma que tiene  un histograma construido a partir de una muestra de datos extraídos de dicho proceso, le indicará qué podría estar ocurriendo con su proceso. A continuación se muestran los distintos tipos de histogramas que se podrían encontrar, con una interpretación de lo que probablemente esté ocurriendo. Histograma general : la media del histograma está en el centro del rango de datos. La frecuencia es mayor en el centro y disminuye gradualmente hacia los extremos, ajustándose a una distribución normal. Se presenta en casi todos los casos en que se representa una medida importante en un proceso productivo. Histograma con sesgo positivo o negativo : tiene forma asimétrica. La media del histograma está a la izquierda (o a la derecha) y la frecuencia disminuye lentamente hacia la derecha (o hacia la izquierda). Se presen

Gráficos o cartas de control

El 16 de mayo de 1924, Walter A. Shewhart, un físico estadounidense, entregó un informe de una página a su jefe en Bell Technologies , destinado a cambiar la historia de la calidad. En él, un breve texto acompañaba a un gráfico, hoy conocido como gráfico o carta de control. Actualmente, pese a que sus gráficos de control siguen siendo útiles, muchos los emplean de manera incorrecta por el desconocimiento que tienen de los fundamentos estadísticos que los sustentan. Los gráficos de control nos permiten visualizar cómo va cambiando la variabilidad de una determinada medida (por ejemplo, el peso del agua embotellada que va saliendo de un proceso de producción), a lo largo del tiempo. Un gráfico de control está conformado por una línea central, que suele medir un promedio; dos límites de control, uno por encima y otro por debajo de la línea central; y una serie de valores característicos registrados en el gráfico que representan el estado de una medida de un proceso a lo largo de

La distribución normal (la campana de Gauss)

La curva normal o campana de Gauss Todas las medidas tomadas en cualquier proceso productivo tienen una distribución simétrica en forma de campana, si es que el proceso productivo está bajo control, es decir, si todo está funcionando dentro de lo establecido. Ejemplo de medidas tomadas en un proceso productivo: El peso de las bolsas que se llenan con azúcar con una máquina automática. El diámetro de los pistones que se elaboran en un taller. El volumen de las botellas que se llenan con cerveza con una máquina automática. La temperatura de un horno de cocción en un proceso de fabricación de harina de pescado. El voltaje que llegan a las viviendas en una ciudad. Estas medidas suelen tener una distribución simétrica en forma de campana debido a que, al haber un control sobre estas, la gran mayoría resultan muy cercanas al valor nominal establecido, y muy pocas resultan más lejanas a dicho valor. ¿Y cómo es esa distribución simétrica en forma de campana? Imagínense q