Ir al contenido principal

La distribución binomial: la distribución de una proporción

Para entender cómo se obtiene la fórmula de la probabilidad binomial, veamos el siguiente ejemplo:

Ejemplo de cálculo de una probabilidad aplicando el teorema de la multiplicación:

Supóngase que el 30% de los alumnos de Ingeniería estudian más de 20 horas/semana. Si se selecciona una muestra de ocho alumnos de Ingeniería ¿cuál es la probabilidad de que tres de ellos estudien más de 20 horas/semana?

Para calcular esta probabilidad:
-     Supongamos que se selecciona aleatoriamente el primer estudiante. La probabilidad de que estudie más de 20 horas/semana es:
P = 0.30.
-     Ahora se selecciona aleatoriamente el segundo estudiante. La probabilidad de que el primer y segundo estudiante seleccionados estudien más de 20 horas/semana es:
     P = 0.30 × 0.30
-     A continuación se selecciona aleatoriamente el tercer estudiante. La probabilidad de que el primero, el segundo y el tercer estudiante seleccionados estudien más de 20 horas/semana es:
     P = 0.30 × 0.30 × 0.30
-     Supongamos ahora que se selecciona aleatoriamente  el cuarto estudiante. La probabilidad de que los tres primeros estudiantes seleccionados estudien más de 20 horas/semana, y el cuarto no estudie más de 20 horas/semana es:
     P = 0.30 × 0.30 × 0.30 × 0.70
-     Así sucesivamente, se selecciona aleatoriamente el quinto, el sexto, el séptimo y el octavo estudiante. La probabilidad de que los tres primeros estudiantes seleccionados estudien más de 20 horas/semana, y los cinco últimos seleccionados no estudien más de 20 horas/semana es:
     P = (0.30)³ × (0.70)⁵

     Esta probabilidad considera un orden establecido: los tres primeros estudiantes seleccionados estudian más de 20 horas/semana, y los cinco últimos no estudian más de 20 horas/semana.

     Cualquiera que sea el orden en que se seleccionen los dos tipos de estudiantes, la probabilidad resultante es la misma, pues el orden de los factores no altera el producto.

     Entonces, si se multiplica este resultado obtenido, por el número de formas en que se pueden ordenar los 8 alumnos seleccionados (3 que estudian más de 20 horas/semana y 5 que no estudian más de 20 horas/semana), se obtendrá la probabilidad de que 3 de los 8 estudiantes estudien más de 20 horas/semana:

     P =  (0.30)³ × (0.70)⁵ × 8!/(3! × 5!)

Probabilidad binomial

En el ejemplo visto se ha calculado, en términos generales, la probabilidad de que, de una muestra de n elementos (n = 8), x tengan cierta característica (x = 3), y los restantes (nx) no tengan dicha característica (n – x = 5); siendo constante la probabilidad (p) de que un elemento cualquiera tenga la característica (p = 0.30), así como la probabilidad (q = 1 – pde que un elemento no tenga la mencionada característica (q = 0.70).

En situaciones como esta, la probabilidad de que, de una muestra de n elementos, x tengan dicha característica, es:
A esta probabilidad se le llama probabilidad binomial.

La media o valor esperado de x es: 𝝻 = np
La varianza de x es: 𝞂 ² = npq

Ejemplos de cálculo de probabilidades binomiales con Excel:

Sea: n = 10; p = 0,2. 

Para calcular P(0), P(1), P(2), ... P(9), P(10), se ingresan los datos de n y p y se confecciona una tabla, tal como se muestra a continuación:


Usando la función de Excel: DISTR.BINOM.N, se calculan todas las probabilidades binomiales posibles.


La probabilidades binomiales resultan:


Un diagrama de barras nos muestra cómo se distribuye esta variable binomial (x):


El valor más probable de x es 3. Los demás valores son menos probables. Véase, por ejemplo, que los valores 8, 9 y 10 son posibles, pero muy poco probables.

Aproximación de la distribución binomial a la distribución normal

A medida que crece el tamaño de la muestra (n), la distribución de x se hace más simétrica y se parece mucho a una distribución normal (campana de Gauss), como se puede apreciar en el siguiente diagrama de barras, trazado para n = 400 y p = 0.12


Como se ve en el diagrama de barras, si el 12% de una población tiene cierta característica (p = 0.12),  en una muestra de 400 elementos se espera que 0.12 × 400 = 48 elementos tengan dicha característica, en promedio. Pero, como se ve en el diagrama de barras, se puede esperar que 28, 29, 30, ...67, 68 elementos tengan la característica. Recuérdese que la altura de cada barra representa la probabilidad de ocurrencia para cada valor de x.

Asimismo, se ve en el gráfico que, de los 400 elementos, es muy poco probable que menos de 28 o más de 68 elementos tengan la característica (las barras casi desaparecen).

En toda variable que siga una distribución normal, el 99.73% de los datos se encuentran distribuidos entre 𝝻 ± 3𝞂. En la distribución binomial: 𝝻 = np = 48; 𝞂 = Raíz(npq) = Raíz (400×0.12×0.88) = 6.499 ≅ 6.5. Por lo tanto, se espera que el 99.73% de los datos de la población esté comprendido entre:
- Límite inferior:  48 - 3×6.5 = 28.5
- Límite superior: 48 + 3×6.5 = 67.5

Estos resultados corroboran lo que se dedujo viendo el diagrama de barras.

DISTRIBUCIÓN DE UNA PROPORCIÓN

Si cada valor de x (número de elementos de la muestra que tienen cierta característica) se divide entre n (el tamaño de la muestra), se obtienen las proporciones de la muestra que tienen la mencionada característica (p₁). Por ejemplo, para x = 40, p₁ = 40/400 = 0.1.

El diagrama de barras que se obtiene para cada valor de p₁ será el mismo que el que se obtuvo para cada valor de x. Véase la siguiente figura.


La media o valor esperado de p₁ será: 𝝻/n = np/n = p

La varianza de x es: 𝞂 ²/n² = npq/n² = pq/n
La desviación estándar será entonces: Raíz(pq/n)



Se podría afirmar que, si se quisiera estimar la verdadera proporción de una población que tiene cierta característica (supongamos que es p = 0.12, pero no se sabe), a partir de una muestra de tamaño 400, se obtendrá una proporción cercana a 0.12, pero que puede resultar comprendida entre 0.07 y 0.17, aproximadamente. Evidentemente los valores más probables son los más cercanos a 0.12.


Se espera que el 99.73% de los datos de la población esté comprendido entre:

- Límite inferior:  28.5/400 = 0.07125
- Límite superior: 67.5/400 = 0.16875

Si la muestra hubiese sido más grande, por ejemplo n = 1000, el diagrama de barras hubiese tenido mucho menos variabilidad, pues la desviación estándar, que es Raíz(pq/n), resultaría más pequeña. A continuación se muestra el diagrama de barras resultante:




Como se ve en el diagrama de barras, con una muestra de tamaño 1000 se estimará mejor la proporción p = 0.12. La proporción que se obtenga con esta muestra será un valor comprendido entre 0.09 y 0.15, que es un rango mucho menor que el que se obtuvo con una muestra de tamaño 400.

Comentarios

Entradas más populares de este blog

Interpretación de histogramas

Los histogramas nos pueden brindar mucha información que en las empresas ni se imaginan. Para una persona que conozca un proceso cualquiera, la forma que tiene  un histograma construido a partir de una muestra de datos extraídos de dicho proceso, le indicará qué podría estar ocurriendo con su proceso. A continuación se muestran los distintos tipos de histogramas que se podrían encontrar, con una interpretación de lo que probablemente esté ocurriendo. Histograma general : la media del histograma está en el centro del rango de datos. La frecuencia es mayor en el centro y disminuye gradualmente hacia los extremos, ajustándose a una distribución normal. Se presenta en casi todos los casos en que se representa una medida importante en un proceso productivo. Histograma con sesgo positivo o negativo : tiene forma asimétrica. La media del histograma está a la izquierda (o a la derecha) y la frecuencia disminuye lentamente hacia la derecha (o hacia la izquierda). Se presen

Gráficos o cartas de control

El 16 de mayo de 1924, Walter A. Shewhart, un físico estadounidense, entregó un informe de una página a su jefe en Bell Technologies , destinado a cambiar la historia de la calidad. En él, un breve texto acompañaba a un gráfico, hoy conocido como gráfico o carta de control. Actualmente, pese a que sus gráficos de control siguen siendo útiles, muchos los emplean de manera incorrecta por el desconocimiento que tienen de los fundamentos estadísticos que los sustentan. Los gráficos de control nos permiten visualizar cómo va cambiando la variabilidad de una determinada medida (por ejemplo, el peso del agua embotellada que va saliendo de un proceso de producción), a lo largo del tiempo. Un gráfico de control está conformado por una línea central, que suele medir un promedio; dos límites de control, uno por encima y otro por debajo de la línea central; y una serie de valores característicos registrados en el gráfico que representan el estado de una medida de un proceso a lo largo de

La distribución normal (la campana de Gauss)

La curva normal o campana de Gauss Todas las medidas tomadas en cualquier proceso productivo tienen una distribución simétrica en forma de campana, si es que el proceso productivo está bajo control, es decir, si todo está funcionando dentro de lo establecido. Ejemplo de medidas tomadas en un proceso productivo: El peso de las bolsas que se llenan con azúcar con una máquina automática. El diámetro de los pistones que se elaboran en un taller. El volumen de las botellas que se llenan con cerveza con una máquina automática. La temperatura de un horno de cocción en un proceso de fabricación de harina de pescado. El voltaje que llegan a las viviendas en una ciudad. Estas medidas suelen tener una distribución simétrica en forma de campana debido a que, al haber un control sobre estas, la gran mayoría resultan muy cercanas al valor nominal establecido, y muy pocas resultan más lejanas a dicho valor. ¿Y cómo es esa distribución simétrica en forma de campana? Imagínense q