Ir al contenido principal

Cómo determinar el tamaño de una muestra

Defina bien su objetivo

Para determinar el tamaño de una muestra, en primer lugar se debe tener claro cuál es el objetivo, es decir, para qué se quiere obtener una muestra de la población.

Generalmente hay dos posibles objetivos: estimar la media de una población, o estimar una proporción de una población. Algunas veces, por ejemplo, en las encuestas de estudios de mercado, se tienen ambos objetivos.

Objetivo 1: Muestreo para estimar la media de una población

Si se desea estimar una media poblacional, por ejemplo, el peso promedio de las bolsas de cemento producidas en un mes, o el volumen promedio de las botellas de agua producidas en una semana, o la edad promedio de los alumnos universitarios en Lima, el tamaño de la muestra se puede determinar a partir de la siguiente fórmula:
  ...  Fórmula 1
En esta Fórmula 1:

- N =  tamaño de la población.
- z  =  valor estandarizado que corresponde a la confiabilidad que se desee. Para una confiabilidad
          del 95%, el valor de z es 1.96.
- σ =  desviación estándar de la población. Si no se conoce, se puede estimar con una
          muestra lo suficientemente grande (lo ideal es que sea de al menos 30 datos).
eM = error muestral máximo que se desea tener (en las mismas unidades de los datos).
           También se le conoce como "margen de error".

Ejemplo 1:

Se quiere determinar el peso promedio de las latas de conservas de pescado (en gramos) que se han elaborado en una fábrica durante una semana. Como no se conoce la desviación estándar de los pesos de las conservas, se extrae una pequeña muestra de 40 latas:

Resulta: s = 2.361796 g.

En esta fábrica se han elaborado 12,000 latas durante una semana. Entonces, N = 12,000.

Se desea un error muestral máximo de 0.5 gramos. Entonces eM = 0.5. 

Se desea una confiabilidad del 95%. Entonces z = 1.96.

Una vez que se realice el muestreo y se calcule la media de la muestra obtenida (M), se podrá afirmar que la media de la población está en el siguiente rango: M +/- 0.5, con una probabilidad (confiabilidad) del 95%.

Aplicando la fórmula, resulta: n = 85.11

Se redondea al entero superior (n = 86) para evitar que el error sea mayor que 0.5 g.

Por lo tanto, se necesita una muestra de 86 latas. Como ya se extrajeron 40, será necesario extraer 46 latas más.

Objetivo 2: Muestreo para estimar una proporción (o porcentaje) de una población

Si se desea estimar una proporción de una población, por ejemplo, la proporción de peruanos que piensan votar por un candidato, o la proporción de unidades defectuosas en un mes de producción en una fábrica, o la proporción de familias de Piura que consumen un determinado jabón, el tamaño de la  muestra se puede determinar a partir de la siguiente fórmula:
   ...  Fórmula 2
En esta Fórmula 2:

- N = tamaño de la población.
- z  = valor estandarizado que corresponde a la confiabilidad que se desee. Para una confiabilidad
          del 95%, el valor de z es 1.96.
- pq = p y q se desconocen; pero se puede saber el máximo valor que podría tomar el producto pq
           que es 0.25.
eM = error máximo que se desea tener (en %). También se le conoce como "margen de error".

Ejemplo 2:

Se quiere saber qué porcentaje de familias de una ciudad consume una determinada marca de dentífrico. ¿De qué tamaño debe ser la muestra?

En la ciudad hay 125,000 familias. Entonces N = 125,000

Se desea un error máximo del 4%. Entonces eM = 0.04

Se desea tener una confiabilidad del 95%. Entonces z = 1.96

Una vez que se realice el muestreo y se calcule el porcentaje de familias que consume la marca de dentífrico en la muestra obtenida (P), se podrá afirmar que dicho porcentaje está en el siguiente rango: P +/- 4%, con una probabilidad (confiabilidad) del 95%.

Aplicando la fórmula, resulta: n = 597.36

Se redondea al entero superior (n = 598) para evitar que el error sea mayor que 4%.

Por lo tanto se necesita una muestra de 598 familias.

¿Y si el objetivo es estimar la media o una proporción de cada uno de los estratos en que se divide una población?

En este caso se tendrá que fijar la confiabilidad y el máximo error muestral que se desea cometer para cada uno de los estratos en que se ha dividido la población.

Los estratos podrían ser: por edades, socioeconómicos, por regiones, etc.

Para determinar el tamaño de la muestra para cada estrato, se puede proceder de dos formas:

Primera forma: manteniendo la proporcionalidad de los estratos

Si se desea mantener la proporcionalidad en los tamaños de los estratos, lo ideal sería asignar el máximo error muestral posible al estrato más pequeño. De esta manera los demás estratos, al tener muestras más grandes, tendrán un error muestral máximo más pequeño que el que se determinó para el estrato más pequeño.

Ejemplo 3:

Supóngase que una población está divida en cinco estratos (pueden ser considerados como subpoblaciones): A, B, C, D y E, de la siguiente manera:

- Subpoblación A: representa el 10% de la población.
- Subpoblación B: representa el 15% de la población.
- Subpoblación C: representa el 25% de la población.
- Subpoblación D: representa el 30% de la población.
- Subpoblación E: representa el 20% de la población.

Para determinar el tamaño de las submuestras correspondientes, considerando que se desea que estas conformen la muestra total con los mismos porcentajes de las subpoblaciones, a la subpoblación más pequeña (A) se le asigna el error muestral máximo que se desee tener: eM. De esta manera se obtiene nA, utilizando una fórmula antes vista, según se desee estimar una media (Fórmula 1) o una proporción (Fórmula 2). Supóngase que, aplicando una de las fórmulas mencionadas, el tamaño de la muestra para la subpoblación A resulta:  nA = 300.

Como A es el 10% de la población, con una sencilla regla de tres simple se obtiene n:
        n   ...... 100
      300  ......  10

Resulta entonces: n = 300 (100)/10 = 3,000

A partir del tamaño de la muestra total, utilizando reglas de tres simple, se pueden obtener los restantes tamaños de muestra:
     nB = 450
     nC = 750
     nD = 900
     nE = 600

Se puede verificar que: nA + nB + nC + nD + nE = 3000

Segunda forma: asignándole a cada estrato el máximo error muestral que se desee tener:

En este caso, a cada subpoblación se aplica una fórmula antes vista para determinar cada tamaño de muestra, según se desee estimar una media (Fórmula 1) o una proporción (Fórmula 2), considerando cada estrato (subpoblación) como si fuese una población independiente.

Con este procedimiento, los tamaños de las muestras para cada estrato resultarán muy similares, y el tamaño de muestra total resultará más pequeño, como es de esperarse. 


Comentarios

  1. Estimado profesor: Actualmente me encuentro en un proyecto de migración de datos a otra arquitectura. En la empresa, existe una herramienta en la cual puedo ejecutar una regla que identificas defectos y puedo ingresar un # de muestra que escoge aleatorio. Estaba pensando usar 'el muestreo para estimar 1 proporción de 1 población' siendo la siguiente mi definición : la proporción de registros defectuosos de un campo de dato en 1 mes migrado en el datalake. Por ello, mi N, ¿sería la suma de nro de registros migrados del campo en 1 mes?
    Por otro lado, la herramienta puede escoger cualquier mes del año migrado, puedo delimitar que escoga la muestra en 1 mes, 3 meses o 12 meses. En este caso, ¿qué me recomienda?

    ResponderBorrar
    Respuestas
    1. Estimada Brenda:
      Respecto a tu primera pregunta, efectivamente, N sería el número de registros migrados en un mes.
      Respecto a tu segunda pregunta, no sé si los datos tienen características similares durante los 12 meses del año. De todas maneras, si quieres obtener una muestra del todo un año, N sería el número de registros de todo el año. Entonces, calcula n para todo el año, y luego determina las submuestras correspondientes a cada mes, proporcionalmente al número de registros que tiene cada mes.

      Borrar

Publicar un comentario

Entradas más populares de este blog

Interpretación de histogramas

Los histogramas nos pueden brindar mucha información que en las empresas ni se imaginan. Para una persona que conozca un proceso cualquiera, la forma que tiene  un histograma construido a partir de una muestra de datos extraídos de dicho proceso, le indicará qué podría estar ocurriendo con su proceso. A continuación se muestran los distintos tipos de histogramas que se podrían encontrar, con una interpretación de lo que probablemente esté ocurriendo. Histograma general : la media del histograma está en el centro del rango de datos. La frecuencia es mayor en el centro y disminuye gradualmente hacia los extremos, ajustándose a una distribución normal. Se presenta en casi todos los casos en que se representa una medida importante en un proceso productivo. Histograma con sesgo positivo o negativo : tiene forma asimétrica. La media del histograma está a la izquierda (o a la derecha) y la frecuencia disminuye lentamente hacia la derecha (o hacia la izquierda). Se presen

Gráficos o cartas de control

El 16 de mayo de 1924, Walter A. Shewhart, un físico estadounidense, entregó un informe de una página a su jefe en Bell Technologies , destinado a cambiar la historia de la calidad. En él, un breve texto acompañaba a un gráfico, hoy conocido como gráfico o carta de control. Actualmente, pese a que sus gráficos de control siguen siendo útiles, muchos los emplean de manera incorrecta por el desconocimiento que tienen de los fundamentos estadísticos que los sustentan. Los gráficos de control nos permiten visualizar cómo va cambiando la variabilidad de una determinada medida (por ejemplo, el peso del agua embotellada que va saliendo de un proceso de producción), a lo largo del tiempo. Un gráfico de control está conformado por una línea central, que suele medir un promedio; dos límites de control, uno por encima y otro por debajo de la línea central; y una serie de valores característicos registrados en el gráfico que representan el estado de una medida de un proceso a lo largo de

La distribución normal (la campana de Gauss)

La curva normal o campana de Gauss Todas las medidas tomadas en cualquier proceso productivo tienen una distribución simétrica en forma de campana, si es que el proceso productivo está bajo control, es decir, si todo está funcionando dentro de lo establecido. Ejemplo de medidas tomadas en un proceso productivo: El peso de las bolsas que se llenan con azúcar con una máquina automática. El diámetro de los pistones que se elaboran en un taller. El volumen de las botellas que se llenan con cerveza con una máquina automática. La temperatura de un horno de cocción en un proceso de fabricación de harina de pescado. El voltaje que llegan a las viviendas en una ciudad. Estas medidas suelen tener una distribución simétrica en forma de campana debido a que, al haber un control sobre estas, la gran mayoría resultan muy cercanas al valor nominal establecido, y muy pocas resultan más lejanas a dicho valor. ¿Y cómo es esa distribución simétrica en forma de campana? Imagínense q