Se
denominan datos atípicos a aquellos que se encuentran muy distanciados del
resto de datos de una población. Estos
datos no siempre pueden ser calificados como beneficiosos o como problemáticos;
más bien deben considerarse como objeto de análisis, por la información que
podrían proporcionar.
Si estos datos no son representativos de la población, como suelen distorsionar el
comportamiento real de una variable, se les suele eliminar.
Aunque existen varios métodos para definir qué datos se consideran atípicos, les presento uno de los más usados, por ser muy práctico, conocido como el "test de Tukey". Se trata de un método paramétrico que supone que la población es normal. No obstante, también existen métodos no paramétricos cuando la muestra no supere la prueba de normalidad correspondiente.
Antes es necesario recordar la definición de cuartil.
Dado un conjunto de datos ordenados en
forma ascendente, los cuartiles lo dividen en cuatro partes iguales:
- El primer cuartil, Q1,
es un valor tal que, a lo sumo, la cuarta parte de los datos es menor que Q1.
- El segundo cuartil, Q2,
coincide con la mediana.
- El tercer cuartil, Q3, es un
valor tal que, a lo sumo, las tres cuartas partes de los datos son menores que Q3.
Nota: una función de Excel calcula los cuartiles
Para
considerar que un dato es atípico, se usa el concepto del Rango
Intercuartílico: RIC
RIC = Q3 – Q1
Se consideran datos
atípicos a aquellos que están por encima de Q3, a una
distancia de al menos 1,5 veces el rango intercuartílico (1,5 RIC), o por
debajo de Q1, a una distancia de al menos 1,5 veces el rango
intercuartílico (1,5 RIC), como se muestra en la siguiente figura.
Comentarios
Publicar un comentario