Defina bien su objetivo
Para determinar el tamaño de una muestra, en primer lugar se debe tener claro cuál es el objetivo, es decir, para qué se quiere obtener una muestra de la población.Generalmente hay dos posibles objetivos: estimar la media de una población, o estimar una proporción de una población. Algunas veces, por ejemplo, en las encuestas de estudios de mercado, se tienen ambos objetivos.
Objetivo 1: Muestreo para estimar la media de una población
Si se desea estimar una media poblacional, por ejemplo, el peso promedio de las bolsas de cemento producidas en un mes, o el volumen promedio de las botellas de agua producidas en una semana, o la edad promedio de los alumnos universitarios en Lima, el tamaño de la muestra se puede determinar a partir de la siguiente fórmula:En esta Fórmula 1:
- N = tamaño de la población.
- z = valor estandarizado que corresponde a la confiabilidad que se desee. Para una confiabilidad
del 95%, el valor de z es 1.96.
- σ = desviación estándar de la población. Si no se conoce, se puede estimar con una
muestra lo suficientemente grande (lo ideal es que sea de al menos 30 datos).
- eM = error muestral máximo que se desea tener (en las mismas unidades de los datos).
También se le conoce como "margen de error".
Ejemplo 1:
Se quiere determinar el peso promedio de las latas de conservas de pescado (en gramos) que se han elaborado en una fábrica durante una semana. Como no se conoce la desviación estándar de los pesos de las conservas, se extrae una pequeña muestra de 40 latas:
Resulta: s = 2.361796 g.
En esta fábrica se han elaborado 12,000 latas durante una semana. Entonces, N = 12,000.
Se desea un error muestral máximo de 0.5 gramos. Entonces eM = 0.5.
Se desea una confiabilidad del 95%. Entonces z = 1.96.
Una vez que se realice el muestreo y se calcule la media de la muestra obtenida (M), se podrá afirmar que la media de la población está en el siguiente rango: M +/- 0.5, con una probabilidad (confiabilidad) del 95%.
Aplicando la fórmula, resulta: n = 85.11
Se redondea al entero superior (n = 86) para evitar que el error sea mayor que 0.5 g.
Por lo tanto, se necesita una muestra de 86 latas. Como ya se extrajeron 40, será necesario extraer 46 latas más.
Objetivo 2: Muestreo para estimar una proporción (o porcentaje) de una población
Si se desea estimar una proporción de una población, por ejemplo, la proporción de peruanos que piensan votar por un candidato, o la proporción de unidades defectuosas en un mes de producción en una fábrica, o la proporción de familias de Piura que consumen un determinado jabón, el tamaño de la muestra se puede determinar a partir de la siguiente fórmula:
En esta Fórmula 2:
- z = valor estandarizado que corresponde a la confiabilidad que se desee. Para una confiabilidad
del 95%, el valor de z es 1.96.
- pq = p y q se desconocen; pero se puede saber el máximo valor que podría tomar el producto pq
que es 0.25.
- eM = error máximo que se desea tener (en %). También se le conoce como "margen de error".
Ejemplo 2:
Se quiere saber qué porcentaje de familias de una ciudad consume una determinada marca de dentífrico. ¿De qué tamaño debe ser la muestra?
En la ciudad hay 125,000 familias. Entonces N = 125,000
Se desea un error máximo del 4%. Entonces eM = 0.04
Se desea tener una confiabilidad del 95%. Entonces z = 1.96
Una vez que se realice el muestreo y se calcule el porcentaje de familias que consume la marca de dentífrico en la muestra obtenida (P), se podrá afirmar que dicho porcentaje está en el siguiente rango: P +/- 4%, con una probabilidad (confiabilidad) del 95%.
Una vez que se realice el muestreo y se calcule el porcentaje de familias que consume la marca de dentífrico en la muestra obtenida (P), se podrá afirmar que dicho porcentaje está en el siguiente rango: P +/- 4%, con una probabilidad (confiabilidad) del 95%.
Aplicando la fórmula, resulta: n = 597.36
Se redondea al entero superior (n = 598) para evitar que el error sea mayor que 4%.
Por lo tanto se necesita una muestra de 598 familias.
¿Y si el objetivo es estimar la media o una proporción de cada uno de los estratos en que se divide una población?
En este caso se tendrá que fijar la confiabilidad y el máximo error muestral que se desea cometer para cada uno de los estratos en que se ha dividido la población.
Los estratos podrían ser: por edades, socioeconómicos, por regiones, etc.
Los estratos podrían ser: por edades, socioeconómicos, por regiones, etc.
Para determinar el tamaño de la muestra para cada estrato, se puede proceder de dos formas:
Primera forma: manteniendo la proporcionalidad de los estratos
Si se desea mantener la proporcionalidad en los tamaños de los estratos, lo ideal sería asignar el máximo error muestral posible al estrato más pequeño. De esta manera los demás estratos, al tener muestras más grandes, tendrán un error muestral máximo más pequeño que el que se determinó para el estrato más pequeño.
- Subpoblación A: representa el 10% de la población.
- Subpoblación B: representa el 15% de la población.
- Subpoblación C: representa el 25% de la población.
- Subpoblación D: representa el 30% de la población.
- Subpoblación E: representa el 20% de la población.
Ejemplo 3:
Supóngase que una población está divida en cinco estratos (pueden ser considerados como subpoblaciones): A, B, C, D y E, de la siguiente manera:- Subpoblación A: representa el 10% de la población.
- Subpoblación B: representa el 15% de la población.
- Subpoblación C: representa el 25% de la población.
- Subpoblación D: representa el 30% de la población.
- Subpoblación E: representa el 20% de la población.
Para determinar el tamaño de las submuestras correspondientes, considerando que se desea que estas conformen la muestra total con los mismos porcentajes de las subpoblaciones, a la subpoblación más pequeña (A) se le asigna el error muestral máximo que se desee tener: eM. De esta manera se obtiene nA, utilizando una fórmula antes vista, según se desee estimar una media (Fórmula 1) o una proporción (Fórmula 2). Supóngase que, aplicando una de las fórmulas mencionadas, el tamaño de la muestra para la subpoblación A resulta: nA = 300.
Como A es el 10% de la población, con una sencilla regla de tres simple se obtiene n:
n ...... 100
300 ...... 10
Resulta entonces: n = 300 (100)/10 = 3,000
A partir del tamaño de la muestra total, utilizando reglas de tres simple, se pueden obtener los restantes tamaños de muestra:
nB = 450
nC = 750
nD = 900
nE = 600
Se puede verificar que: nA + nB + nC + nD + nE = 3000
Segunda forma: asignándole a cada estrato el máximo error muestral que se desee tener:
En este caso, a cada subpoblación se aplica una fórmula antes vista para determinar cada tamaño de muestra, según se desee estimar una media (Fórmula 1) o una proporción (Fórmula 2), considerando cada estrato (subpoblación) como si fuese una población independiente.
Con este procedimiento, los tamaños de las muestras para cada estrato resultarán muy similares, y el tamaño de muestra total resultará más pequeño, como es de esperarse.
Con este procedimiento, los tamaños de las muestras para cada estrato resultarán muy similares, y el tamaño de muestra total resultará más pequeño, como es de esperarse.
Estimado profesor: Actualmente me encuentro en un proyecto de migración de datos a otra arquitectura. En la empresa, existe una herramienta en la cual puedo ejecutar una regla que identificas defectos y puedo ingresar un # de muestra que escoge aleatorio. Estaba pensando usar 'el muestreo para estimar 1 proporción de 1 población' siendo la siguiente mi definición : la proporción de registros defectuosos de un campo de dato en 1 mes migrado en el datalake. Por ello, mi N, ¿sería la suma de nro de registros migrados del campo en 1 mes?
ResponderBorrarPor otro lado, la herramienta puede escoger cualquier mes del año migrado, puedo delimitar que escoga la muestra en 1 mes, 3 meses o 12 meses. En este caso, ¿qué me recomienda?
Estimada Brenda:
BorrarRespecto a tu primera pregunta, efectivamente, N sería el número de registros migrados en un mes.
Respecto a tu segunda pregunta, no sé si los datos tienen características similares durante los 12 meses del año. De todas maneras, si quieres obtener una muestra del todo un año, N sería el número de registros de todo el año. Entonces, calcula n para todo el año, y luego determina las submuestras correspondientes a cada mes, proporcionalmente al número de registros que tiene cada mes.