Ir al contenido principal

Datos atípicos (outliers)

Se denominan datos atípicos a aquellos que se encuentran muy distanciados del resto de datos de una población. Estos datos no siempre pueden ser calificados como beneficiosos o como problemáticos; más bien deben considerarse como objeto de análisis, por la información que podrían proporcionar.


Si estos datos no son representativos de la población, como suelen distorsionar el comportamiento real de una variable, se les suele eliminar.

Aunque existen varios métodos para definir qué datos se consideran atípicos, les presento uno de los más usados, por ser muy práctico, conocido como el "test de Tukey"Se trata de un método paramétrico que supone que la población es normal. No obstante, también existen métodos no paramétricos cuando la muestra no supere la prueba de normalidad correspondiente.


Antes es necesario recordar la definición de cuartil.

Dado un conjunto de datos ordenados en forma ascendente, los cuartiles lo dividen en cuatro partes iguales:
- El primer cuartil, Q1, es un valor tal que, a lo sumo, la cuarta parte de los datos es menor que Q1.
- El segundo cuartil, Q2, coincide con la mediana.
- El tercer cuartil, Q3, es un valor tal que, a lo sumo, las tres cuartas partes de los datos son menores que Q3.
Nota: una función de Excel calcula los cuartiles

Para considerar que un dato es atípico, se usa el concepto del Rango Intercuartílico: RIC
RIC = Q3 – Q1
Se consideran datos atípicos a aquellos que están por encima de Q3, a una distancia de al menos 1,5 veces el rango intercuartílico (1,5 RIC), o por debajo de Q1, a una distancia de al menos 1,5 veces el rango intercuartílico (1,5 RIC), como se muestra en la siguiente figura.



Comentarios