Para que el análisis de varianza tenga validez se requiere
que las poblaciones muestreadas sean normales y que las varianzas de dichas
poblaciones sean iguales. Una estimación de esta varianza común, s
2, que sería también una estimación de la varianza de todas las
muestras, estará conformada por dos varianzas: la varianza entre las medias de
las muestras y la varianza promedio dentro de las muestras.
Para entender la naturaleza del análisis de varianza, supóngase que se quiere averiguar si son iguales o no las medias de tres poblaciones: μ1, μ2 y μ3. Para esto, se extrae una muestra de cada población, cuyas medidas se expresan en el eje horizontal de la Figura 1.
|
Supóngase ahora que se quiere averiguar si las medias de las
tres poblaciones representadas en la figura 2 son iguales o no.
Se aprecia en la Figura 2 que las medias muestrales son
diferentes; pero esta vez difieren menos. La varianza entre las medias
muestrales es, en este caso, ligeramente mayor que la varianza promedio dentro
de las muestras. Nuevamente se podrá afirmar que las medias poblacionales
difieren significativamente.
Supóngase, finalmente, que se desea averiguar si las medias
de las tres poblaciones representadas en la Figura 3 son iguales o no. Nuevamente se debe asumir que no conoce las medias poblacionales, aunque en la
figura se aprecie que estos valores son iguales.
En esta última situación, la varianza entre las medias
muestrales es menor que la varianza promedio dentro de las muestras, lo cual
indica que las medias muestrales no difieren significativamente. Se concluye
entonces que las medias poblacionales son iguales.
Ahora se entiende cómo un análisis de varianza permite
probar si las medias de varias poblaciones son todas iguales o no son todas
iguales.
Análisis de varianza de un factor
Se denomina análisis de varianza de un factor o
unidireccional, al análisis que se hace cuando los factores externos se
controlan mediante un diseño completamente aleatorio del experimento. Entonces,
se considera que el único factor que actúa sobre las unidades experimentales son
los tratamientos. En el ejemplo anterior de las distintas fórmulas nuevas de
detergente que se aplican a distintos grupos de prendas de vestir, los
tratamientos serán precisamente las distintas fórmulas del detergente.
Si se quiere comparar las medias de k poblaciones, se plantean las siguientes hipótesis:
H0
: μ1
= μ2
= … = μk
H1
: Al menos una media es diferente
Como ya se dijo
antes, se va a comparar la varianza de las medias muestrales con la
varianza promedio dentro de las muestras; pero la primera suele ser menor, pues
las medias muestrales suelen estar más cercanas entre sí que los datos de las
muestras entre sí. Para que ambas varianzas sean comparables, se multiplica la
varianza de las medias muestrales por n,
en virtud del teorema del límite central. A esta se le conoce como varianza explicada, porque explica qué
parte de la varianza total es explicada por la acción de los tratamientos.
La varianza explicada es:
En esta expresión, al numerador se le conoce como suma de
los cuadrados de los tratamientos (SST),
y el denominador representa el número de grados de libertad. A este cociente
también se le llama promedio de los cuadrados de los tratamientos (PPT).
La varianza promedio dentro de las muestras se conoce como varianza no explicada o error, pues se atribuye al azar. Esta varianza constituye otra estimación de la varianza de la población.
La varianza no explicada es:
En esta última expresión, al numerador se le conoce como suma de los cuadrados del error (SSE), y el denominador representa el número de grados de libertad. A este cociente también se le llama promedio de los cuadrados del error (PPE).
Para determinar si la varianza explicada o varianza de los tratamientos es mayor que la varianza no explicada o varianza del error, se hace la Prueba F de comparación de varianzas. Si ocurre esto, se podrá afirmar que la varianza de los tratamientos es muy grande, y por lo tanto se podrá afirmar que las medias de los tratamientos difieren significativamente.
Se plantean las siguientes hipótesis:
Ejemplo 1:
En primer lugar, se plantean las siguientes hipótesis:
H0
: μ1
= μ2
= μ3
H1
: Al menos una media es diferente
La tabla ANOVA que presenta Excel tiene una columna más que
la tabla ANOVA presentada anteriormente, con P = p-value = 0,3337; que
representa la probabilidad de que se obtenga un valor de F mayor o igual que 1,2042. Lógicamente, si esta probabilidad es
mayor que a;
se aceptará H0.
Resulta: F < F*; por lo tanto se acepta la hipótesis
nula de igualdad de varianzas y se acepta también la hipótesis nula de igualdad de medias (H0: μ1 = μ2 = μ3).
Análisis de varianza de dos factores, sin interacción entre los
factores
Se denomina análisis de varianza de dos factores o
bidireccional, al análisis que se hace cuando los factores externos se
controlan mediante un diseño aleatorizado por bloques. Se consideran dos
factores que actúan sobre las unidades experimentales: los tratamientos y el
factor externo que se desea eliminar mediante la formación de bloques.
Cabe la posibilidad de que estos dos factores interactúen
uno sobre el otro. Por ejemplo, una fórmula del detergente que se va a
experimentar puede actuar mejor o peor sobre determinados materiales de ropa. En
este apartado no se va a considerar esta posibilidad de interacción entre los
factores.
Ya que se están considerando dos factores que actúan sobre
las unidades experimentales, se puede aprovechar esto para hacer
simultáneamente dos investigaciones: comparar las medias de los k tratamientos y comparar las medias de
los n bloques. Se pueden plantear
entonces las siguientes hipótesis:
Para los tratamientos: H0 : m1
= m2
= … = mk
H1 : Al menos una
media es diferente
Para
los bloques: H0 : m1 = m2
= … = mn
H1 : Al menos una media es diferente
En este caso se considera la varianza explicada de los
tratamientos y la varianza explicada
de los bloques. La varianza explicada de
los tratamientos sET2
se calcula nuevamente con la expresión:
Al numerador se le conoce como suma de los cuadrados de los tratamientos (SST), y el denominador
representa el número de grados de
libertad. A este cociente también se le llama promedio de los cuadrados de los tratamientos (PPT).
La varianza explicada de los bloques sEB2 se calcula con una expresión similar. El número de bloques es n, y el número de datos en cada bloque es k. La varianza explicada de los bloques será:
Al numerador se le conoce como suma de los cuadrados de los bloques (SSB), y el denominador
representa el número de grados de
libertad. A este cociente también se le llama promedio de los cuadrados de los bloques (PPB).
La varianza no
explicada o error es:
En esta última expresión, al numerador se le conoce como suma de los cuadrados del error (SSE),
y el denominador representa el número de
grados de libertad. A este cociente también se le llama promedio de los cuadrados del error (PPE).
Para determinar si la varianza explicada o varianza de los
tratamientos es mayor que la varianza no explicada o varianza del error, se
hace la Prueba F de comparación de varianzas. Igualmente se podrá determinar
si la varianza de los bloques es mayor que la varianza no explicada o varianza
del error mediante otra Prueba F.
Se plantean entonces, independientemente, las hipótesis:
Se aceptará cada hipótesis nula si:
Si se acepta la primera hipótesis nula para los tratamientos (de igualdad de varianzas), se estaría aceptando que las medias de los tratamientos no
difieren significativamente, es decir, que las medias de los tratamientos son
iguales (H0: m1
= m2
= … = mk).
Igualmente, si se acepta la hipótesis nula para los bloques (de igualdad de varianzas), se estaría aceptando que las medias de los bloques no
difieren significativamente, es decir, que las medias de los bloques son
iguales (H0: m1
= m2
= … = mn).
Tabla ANOVA
Los valores que se calculan para este análisis de varianza
suelen expresarse en una tabla, como se muestra en la siguiente tabla.
Ejemplo 2:
El gerente de producción de una fábrica quiere evaluar tres
máquinas. Para esto asigna cinco empleados a cada máquina, distribuyéndolos de
acuerdo a su nivel académico, de manera tal que cada máquina sea operada por
empleados de los cinco niveles en que se les ha clasificado previamente. De
esta forma ninguna máquina se verá favorecida al asignarle más operarios de
mayor nivel académico. En la tabla adjunta se muestra la producción diaria.
¿Se puede afirmar que las tres máquinas tienen la misma
productividad?
En primer lugar, se plantean las siguientes hipótesis:
Para
los tratamientos: H0 : m1 = m2
= m3
(máquinas) H1
: Al menos una media es diferente
Para
los bloques: H0 : m1 = m2
= m3
= m4
= m5
(niveles académicos) H1 : Al menos
una media es diferente
Ingresando al menú Datos
/Análisis de datos /Análisis de varianza de dos factores con una sola muestra
por grupo, Excel muestra el cuadro de diálogo de la siguiente figura. En este
cuadro ya se han ingresado los datos del problema, que están entre las celdas
B2 y D6.
Aceptando los datos ingresados en el cuadro de diálogo,
Excel presenta dos tablas: la primera es un resumen de los datos del problema,
incluyendo medias y varianzas; y la segunda es la tabla ANOVA del problema,
como se muestra a continuación:
Como se puede ver en esta tabla y en la tabla ANOVA que se
muestra a continuación, lo que Excel denomina filas corresponde a los bloques
(niveles académicos) y lo que denomina columnas
corresponde a los tratamientos (tipos
de máquina).
Para las filas resulta: F
> F*; por lo tanto se rechaza la
hipótesis nula (H0: m1
= m2
= m3).
Se puede afirmar entonces que las tres máquinas no tienen la
misma productividad.
Para las columnas: F
< F*; por lo tanto se acepta la
hipótesis nula (H0: m1
= m2
= m3
= m4
= m5).
Se puede afirmar entonces que la productividad es la misma
en los distintos niveles académicos de los empleados.
El lector debe llegar a estas mismas dos conclusiones
interpretando los valores de Probabilidad (p-value),
tal como se hizo en el apartado anterior.
Análisis de varianza de dos factores, con interacción entre los
factores
Nuevamente se consideran dos factores que actúan sobre las
unidades experimentales: los tratamientos y el factor externo que se desea
eliminar mediante la formación de bloques; pero esta vez se considera la
posibilidad de que haya interacción entre los factores.
Se podría dar el caso, por ejemplo, de que un grupo de
empleados de cierto nivel académico sean más productivos que un grupo de otro
nivel, cuando operan cierta máquina; pero con las otras máquinas podrían tener
menor productividad. Esto indicaría que hay interacción entre el nivel
académico y el tipo de máquina.
Para probar si hay interacción entre los dos factores es
necesario diseñar el experimento por bloques con al menos dos datos para cada
combinación tratamiento – bloque.
De esta manera se pueden investigar las hipótesis:
Para los tratamientos: H0
: m1
= m2
= … = mk
H1
: Al menos una media es diferente
Para los bloques: H0
: m1
= m2
= … = mn
H1
: Al menos una media es diferente
Para la interacción: H0
: Los factores no interactúan respecto a la variable investigada.
H1
: Los factores sí interactúan respecto a la variable investigada.
En este caso se consideran tres varianzas explicadas: de los
tratamientos, de los bloques y de la
interacción.
Si r es el número de datos en cada
combinación tratamiento – bloque, y n el número de bloques en
cada muestra, el número total de datos que hay en cada muestra es nr; por lo tanto, la varianza explicada de los tratamientos sET2 se
calcula con la expresión:
Al numerador se le conoce como suma de los cuadrados de los tratamientos (SST), y el denominador
representa el número de grados de
libertad. A este cociente también se le llama promedio de los cuadrados de los tratamientos (PPT).
La varianza explicada de los bloques se calcula con una expresión similar. El
número de bloques es n, y el número
de datos en cada bloque es kr. La
varianza explicada de los bloques será entonces:
Al numerador se le conoce como suma de los cuadrados de los bloques (SSB), y el denominador
representa el número de grados de
libertad. A este cociente también se le llama promedio de los cuadrados de los bloques (PPB).
Se considera que hay interacción entre los dos factores que
actúan sobre las unidades experimentales, si la diferencia entre la media de
los r datos de una combinación
tratamiento – bloque y la media total
Simplificando, cada interacción resulta:
La interacción total se mide con la varianza explicada de la interacción, que se calcula entonces con
la siguiente expresión:
Al numerador se le conoce como suma de los cuadrados de la interacción (SSI), y el denominador
representa el número de grados de
libertad. A este cociente también se le llama promedio de los cuadrados de la interacción (PPI).
La varianza no
explicada o error es:
En esta última expresión, al numerador se le conoce como suma de los cuadrados del error (SSE),
y el denominador representa el número de
grados de libertad. A este cociente también se le llama promedio de los cuadrados del error (PPE).
Para determinar si cada una de las tres varianzas explicadas
es mayor que la varianza no explicada o varianza del error, se hacen tres Pruebas
F de comparación de varianzas:
Se aceptará cada hipótesis nula
si:
Si se acepta la hipótesis nula de la varianza de las medias de los tratamientos, se estaría aceptando que las medias de los tratamientos no
difieren significativamente, es decir, que las medias de los tratamientos son
iguales (H0: m1
= m2
= … = mk).
Si se acepta la hipótesis nula de la varianza de las medias de los bloques, se estaría aceptando que las medias de los bloques no
difieren significativamente, es decir, que las medias de los bloques son
iguales (H0: m1
= m2
= … = mn).
Si se acepta la hipótesis nula de la varianza de las medias de los tratamientos, se estaría aceptando que las interacciones medidas en cada
combinación tratamiento – bloque son muy pequeñas, es decir, se estaría
aceptando que no hay interacción.
Tabla ANOVA
Los valores que se calculan para este análisis de varianza
se expresan en la siguiente tabla.
Ejemplo 3:
El gerente de producción de una fábrica quiere evaluar tres
máquinas. Para esto asigna cinco empleados a cada máquina, distribuyéndolos de
acuerdo a su nivel académico, de manera tal que cada máquina sea operada por
empleados de los cinco niveles en que se les ha clasificado previamente. De
esta forma ninguna máquina se verá favorecida al asignarle más operarios de
mayor nivel académico. Como es probable que haya interacción entre el tipo de
máquina y el nivel académico de los empleados, respecto a la productividad de
estos, se consideraron dos empleados para cada combinación tipo de máquina –
nivel académico. En la tabla adjunta se muestra la producción diaria.
¿Se
puede afirmar que las tres máquinas tienen la misma productividad?
Se plantean las siguientes
hipótesis:
Para
los tratamientos: H0 : m1 = m2
= m3
(máquinas) H1 : Al menos una media es diferente
Para
los bloques: H0 : m1 = m2
= m3
= m4
= m5
(niveles académicos) H1 : Al menos
una media es diferente
Para
la interacción: H0 : No hay interacción entre el tipo de
máquina y el nivel académico de los empleados, respecto a la productividad de
estos.
H1
: Sí hay interacción entre dichos factores.
Ingresando al menú Datos/Análisis de datos/Análisis de varianza de dos factores con varias muestras por grupo, Excel muestra el cuadro de diálogo de la siguiente figura. En este cuadro ya se han ingresado los datos del problema.
Hay dos particularidades en el cuadro de diálogo de Excel
para este análisis que incluye la posible interacción entre los factores. La primera es que en el rango de entrada deben incluirse no solo los
datos (valores numéricos) sino también los títulos (rótulos) de las filas y
columnas. Esto era opcional en los dos casos anteriores. A continuación se
presentan los datos de este problema, tal como se escribieron en la hoja de
cálculo de Excel:
La segunda particularidad es la opción Fila por muestra del mismo cuadro de diálogo antes visto,
donde se debe indicar el número de datos que hay en cada combinación
tratamiento – bloque. En este problema hay dos datos por cada combinación.
Aceptando los datos ingresados en el cuadro de diálogo,
Excel presenta dos tablas: la primera es un resumen de los datos de cada bloque
y de cada tratamiento, incluyendo sus respectivas medias y varianzas; y la
segunda es la tabla ANOVA del problema, como se muestra a continuación:
En esta última tabla ANOVA, Excel expresa “muestra” en vez
de filas, como debería ser.
Para las filas resulta: F
> F*; por lo tanto se rechaza la
hipótesis nula (H0: m1
= m2
= m3).
Se puede afirmar entonces que las tres máquinas no tienen la misma
productividad.
Para las columnas: F
> F*; por lo tanto se rechaza la
hipótesis nula (H0: m1
= m2
= m3
= m4
= m5).
Se puede afirmar entonces que la productividad no es la misma en los distintos
niveles académicos de los empleados.
Para la interacción: F
> F*; por lo tanto, se rechaza la
hipótesis de que los factores no interactúan. Se puede afirmar entonces que el
tipo de máquina y el nivel académico sí interactúan, lo cual afecta la
productividad de los empleados.
El lector debe llegar a estas mismas tres conclusiones interpretando los valores de Probabilidad (p-value) de la tabla ANOVA, tal como se hizo en el ejemplo 1.
Comentarios
Publicar un comentario