Ir al contenido principal

Datos atípicos (outliers)

Se denominan datos atípicos a aquellos que se encuentran muy distanciados del resto de datos de una población. Estos datos no siempre pueden ser calificados como beneficiosos o como problemáticos; más bien deben considerarse como objeto de análisis, por la información que podrían proporcionar.


Si estos datos no son representativos de la población, como suelen distorsionar el comportamiento real de una variable, se les suele eliminar.

Aunque existen varios métodos para definir qué datos se consideran atípicos, les presento uno de los más usados, por ser muy práctico, conocido como el "test de Tukey"Se trata de un método paramétrico que supone que la población es normal. No obstante, también existen métodos no paramétricos cuando la muestra no supere la prueba de normalidad correspondiente.


Antes es necesario recordar la definición de cuartil.

Dado un conjunto de datos ordenados en forma ascendente, los cuartiles lo dividen en cuatro partes iguales:
- El primer cuartil, Q1, es un valor tal que, a lo sumo, la cuarta parte de los datos es menor que Q1.
- El segundo cuartil, Q2, coincide con la mediana.
- El tercer cuartil, Q3, es un valor tal que, a lo sumo, las tres cuartas partes de los datos son menores que Q3.
Nota: una función de Excel calcula los cuartiles

Para considerar que un dato es atípico, se usa el concepto del Rango Intercuartílico: RIC
RIC = Q3 – Q1
Se consideran datos atípicos a aquellos que están por encima de Q3, a una distancia de al menos 1,5 veces el rango intercuartílico (1,5 RIC), o por debajo de Q1, a una distancia de al menos 1,5 veces el rango intercuartílico (1,5 RIC), como se muestra en la siguiente figura.



Comentarios

Entradas más populares de este blog

Interpretación de histogramas

Los histogramas nos pueden brindar mucha información que en las empresas ni se imaginan. Para una persona que conozca un proceso cualquiera, la forma que tiene  un histograma construido a partir de una muestra de datos extraídos de dicho proceso, le indicará qué podría estar ocurriendo con su proceso. A continuación se muestran los distintos tipos de histogramas que se podrían encontrar, con una interpretación de lo que probablemente esté ocurriendo. Histograma general : la media del histograma está en el centro del rango de datos. La frecuencia es mayor en el centro y disminuye gradualmente hacia los extremos, ajustándose a una distribución normal. Se presenta en casi todos los casos en que se representa una medida importante en un proceso productivo. Histograma con sesgo positivo o negativo : tiene forma asimétrica. La media del histograma está a la izquierda (o a la derecha) y la frecuencia disminuye lentamente hacia la derecha (o hacia la izquierda). Se presen

Gráficos o cartas de control

El 16 de mayo de 1924, Walter A. Shewhart, un físico estadounidense, entregó un informe de una página a su jefe en Bell Technologies , destinado a cambiar la historia de la calidad. En él, un breve texto acompañaba a un gráfico, hoy conocido como gráfico o carta de control. Actualmente, pese a que sus gráficos de control siguen siendo útiles, muchos los emplean de manera incorrecta por el desconocimiento que tienen de los fundamentos estadísticos que los sustentan. Los gráficos de control nos permiten visualizar cómo va cambiando la variabilidad de una determinada medida (por ejemplo, el peso del agua embotellada que va saliendo de un proceso de producción), a lo largo del tiempo. Un gráfico de control está conformado por una línea central, que suele medir un promedio; dos límites de control, uno por encima y otro por debajo de la línea central; y una serie de valores característicos registrados en el gráfico que representan el estado de una medida de un proceso a lo largo de

La distribución normal (la campana de Gauss)

La curva normal o campana de Gauss Todas las medidas tomadas en cualquier proceso productivo tienen una distribución simétrica en forma de campana, si es que el proceso productivo está bajo control, es decir, si todo está funcionando dentro de lo establecido. Ejemplo de medidas tomadas en un proceso productivo: El peso de las bolsas que se llenan con azúcar con una máquina automática. El diámetro de los pistones que se elaboran en un taller. El volumen de las botellas que se llenan con cerveza con una máquina automática. La temperatura de un horno de cocción en un proceso de fabricación de harina de pescado. El voltaje que llegan a las viviendas en una ciudad. Estas medidas suelen tener una distribución simétrica en forma de campana debido a que, al haber un control sobre estas, la gran mayoría resultan muy cercanas al valor nominal establecido, y muy pocas resultan más lejanas a dicho valor. ¿Y cómo es esa distribución simétrica en forma de campana? Imagínense q