Para entender cómo se obtiene la fórmula de la probabilidad binomial, veamos el siguiente ejemplo:
Ejemplo de cálculo de una probabilidad aplicando el teorema de la multiplicación:
Supóngase que el
30% de los alumnos de Ingeniería estudian más de 20 horas/semana. Si se
selecciona una muestra de ocho alumnos de Ingeniería ¿cuál es la probabilidad de
que tres de ellos estudien más de 20 horas/semana?
Para calcular esta probabilidad:
- Supongamos que se selecciona aleatoriamente el primer estudiante. La probabilidad de que estudie más de 20 horas/semana es:
P = 0.30.
- Ahora se selecciona aleatoriamente el segundo estudiante. La probabilidad de que el primer y segundo estudiante
seleccionados estudien más de 20 horas/semana es:
P = 0.30 × 0.30
- A continuación se selecciona aleatoriamente el tercer estudiante. La probabilidad de que el primero, el segundo y el tercer estudiante seleccionados estudien más de 20 horas/semana es:
P = 0.30 × 0.30 × 0.30
- Supongamos ahora que se selecciona aleatoriamente el cuarto estudiante. La probabilidad de que los tres primeros estudiantes seleccionados estudien más de 20 horas/semana, y el cuarto no estudie más de 20 horas/semana es:
P = 0.30 × 0.30 × 0.30 × 0.70
- Así sucesivamente, se selecciona aleatoriamente el quinto, el sexto, el séptimo y el octavo estudiante. La probabilidad de que los tres primeros estudiantes seleccionados estudien más de 20 horas/semana, y los cinco últimos seleccionados no estudien más de 20 horas/semana es:
P = (0.30)³ × (0.70)⁵
Esta probabilidad considera un orden establecido: los tres primeros estudiantes seleccionados estudian más de 20 horas/semana, y los cinco últimos no estudian más de 20 horas/semana.
Cualquiera que sea el orden en que se seleccionen los dos tipos de estudiantes, la probabilidad resultante es la misma, pues el orden de los factores no altera el producto.
Entonces, si se multiplica este resultado obtenido, por el número de formas en que se pueden ordenar los 8 alumnos seleccionados (3 que estudian más de 20 horas/semana y 5 que no estudian más de 20 horas/semana), se obtendrá la probabilidad de que 3 de los 8 estudiantes estudien más de 20 horas/semana:
P = (0.30)³ × (0.70)⁵ × 8!/(3! × 5!)
Probabilidad binomial
En el ejemplo visto se ha calculado, en términos generales, la probabilidad de que, de
una muestra de n elementos (n = 8), x tengan cierta característica (x = 3), y
los restantes (n – x) no tengan dicha característica (n – x = 5); siendo constante la probabilidad (p) de que un elemento cualquiera
tenga la característica (p = 0.30), así como la probabilidad (q = 1 – p) de que un elemento no tenga la
mencionada característica (q = 0.70).
En situaciones como esta,
la probabilidad de que, de una muestra de n elementos, x tengan dicha
característica, es:
A esta probabilidad se le llama probabilidad binomial.
La media o valor esperado de x es: 𝝻 = np
La varianza de x es: 𝞂 ² = npq
La media o valor esperado de x es: 𝝻 = np
La varianza de x es: 𝞂 ² = npq
Ejemplos de cálculo de probabilidades binomiales con Excel:
Sea: n = 10; p = 0,2.
Para calcular P(0), P(1), P(2), ... P(9), P(10), se ingresan los datos de n y p y se confecciona una tabla, tal como se muestra a continuación:
Usando la función de Excel: DISTR.BINOM.N, se calculan todas las probabilidades binomiales posibles.
La probabilidades binomiales resultan:
Un diagrama de barras nos muestra cómo se distribuye esta variable binomial (x):
El valor más probable de x es 3. Los demás valores son menos probables. Véase, por ejemplo, que los valores 8, 9 y 10 son posibles, pero muy poco probables.
Aproximación de la distribución binomial a la distribución normal
A medida que crece el tamaño de la muestra (n), la distribución de x se hace más simétrica y se parece mucho a una distribución normal (campana de Gauss), como se puede apreciar en el siguiente diagrama de barras, trazado para n = 400 y p = 0.12
Como se ve en el diagrama de barras, si el 12% de una población tiene cierta característica (p = 0.12), en una muestra de 400 elementos se espera que 0.12 × 400 = 48 elementos tengan dicha característica, en promedio. Pero, como se ve en el diagrama de barras, se puede esperar que 28, 29, 30, ...67, 68 elementos tengan la característica. Recuérdese que la altura de cada barra representa la probabilidad de ocurrencia para cada valor de x.
Asimismo, se ve en el gráfico que, de los 400 elementos, es muy poco probable que menos de 28 o más de 68 elementos tengan la característica (las barras casi desaparecen).
En toda variable que siga una distribución normal, el 99.73% de los datos se encuentran distribuidos entre 𝝻 ± 3𝞂. En la distribución binomial: 𝝻 = np = 48; 𝞂 = Raíz(npq) = Raíz (400×0.12×0.88) = 6.499 ≅ 6.5. Por lo tanto, se espera que el 99.73% de los datos de la población esté comprendido entre:
- Límite inferior: 48 - 3×6.5 = 28.5
- Límite superior: 48 + 3×6.5 = 67.5
Estos resultados corroboran lo que se dedujo viendo el diagrama de barras.
El diagrama de barras que se obtiene para cada valor de p₁ será el mismo que el que se obtuvo para cada valor de x. Véase la siguiente figura.
La media o valor esperado de p₁ será: 𝝻/n = np/n = p
La varianza de x es: 𝞂 ²/n² = npq/n² = pq/n
La desviación estándar será entonces: Raíz(pq/n)
Se podría afirmar que, si se quisiera estimar la verdadera proporción de una población que tiene cierta característica (supongamos que es p = 0.12, pero no se sabe), a partir de una muestra de tamaño 400, se obtendrá una proporción cercana a 0.12, pero que puede resultar comprendida entre 0.07 y 0.17, aproximadamente. Evidentemente los valores más probables son los más cercanos a 0.12.
Se espera que el 99.73% de los datos de la población esté comprendido entre:
- Límite inferior: 28.5/400 = 0.07125
- Límite superior: 67.5/400 = 0.16875
Si la muestra hubiese sido más grande, por ejemplo n = 1000, el diagrama de barras hubiese tenido mucho menos variabilidad, pues la desviación estándar, que es Raíz(pq/n), resultaría más pequeña. A continuación se muestra el diagrama de barras resultante:
Como se ve en el diagrama de barras, con una muestra de tamaño 1000 se estimará mejor la proporción p = 0.12. La proporción que se obtenga con esta muestra será un valor comprendido entre 0.09 y 0.15, que es un rango mucho menor que el que se obtuvo con una muestra de tamaño 400.
- Límite inferior: 48 - 3×6.5 = 28.5
- Límite superior: 48 + 3×6.5 = 67.5
Estos resultados corroboran lo que se dedujo viendo el diagrama de barras.
DISTRIBUCIÓN DE UNA PROPORCIÓN
Si cada valor de x (número de elementos de la muestra que tienen cierta característica) se divide entre n (el tamaño de la muestra), se obtienen las proporciones de la muestra que tienen la mencionada característica (p₁). Por ejemplo, para x = 40, p₁ = 40/400 = 0.1.El diagrama de barras que se obtiene para cada valor de p₁ será el mismo que el que se obtuvo para cada valor de x. Véase la siguiente figura.
La media o valor esperado de p₁ será: 𝝻/n = np/n = p
La varianza de x es: 𝞂 ²/n² = npq/n² = pq/n
La desviación estándar será entonces: Raíz(pq/n)
Se podría afirmar que, si se quisiera estimar la verdadera proporción de una población que tiene cierta característica (supongamos que es p = 0.12, pero no se sabe), a partir de una muestra de tamaño 400, se obtendrá una proporción cercana a 0.12, pero que puede resultar comprendida entre 0.07 y 0.17, aproximadamente. Evidentemente los valores más probables son los más cercanos a 0.12.
Se espera que el 99.73% de los datos de la población esté comprendido entre:
- Límite inferior: 28.5/400 = 0.07125
- Límite superior: 67.5/400 = 0.16875
Si la muestra hubiese sido más grande, por ejemplo n = 1000, el diagrama de barras hubiese tenido mucho menos variabilidad, pues la desviación estándar, que es Raíz(pq/n), resultaría más pequeña. A continuación se muestra el diagrama de barras resultante:
Como se ve en el diagrama de barras, con una muestra de tamaño 1000 se estimará mejor la proporción p = 0.12. La proporción que se obtenga con esta muestra será un valor comprendido entre 0.09 y 0.15, que es un rango mucho menor que el que se obtuvo con una muestra de tamaño 400.
Comentarios
Publicar un comentario