Inferencias para proporciones

Pruebas binomiales

Javier Santibáñez

30 de enero de 2018

Planteamiento

Suponer que en un estudio clínico para detectar cierta enfermedad el resultado depende del conteo de glóbulos blancos en la sangre del paciente, si el conteo es menor o igual a cierto valor \(c\) fijo y conocido de antemano, entonces el resultado del análisis es positivo para la enfermedad. De lo contrario, el resultado del análisis en negativo. Interesa estimar la probabilidad de que un paciente de positivo en el análisis.
Denotemos \(X_i\) denota el conteo de glóbulos blancos en la sangre del \(i\)-ésimo paciente. Podemos suponer que \(X_1, X_2, X_3, \ldots, \sim F(\cdot)\), para alguna función de distribución \(F\). En este caso, no interesa hacer inferencias sobre \(F\) completa, sino solamente en \(F(c) = \theta\), la probabilidad de que el conteo de glóbulos de un paciente sea menor o igual al valor establecido para dar como positivo en el análisis.

Inferencias para proporciones

El problema de hacer inferencias sobre \(\theta = F(c)\) se puede trasladar a un problema paramétrico a partir de la siguiente transformación \[ Y_i = I\{X_i \leq x\}, \qquad i = 1,2, 3, \ldots \]
Las variables aleatorias \(Y_i\) tienen una distribución de Bernoulli con parámetro \(\theta\). Hacer inferencias sobre \(\theta\) a partir una muestra aleatoria de las \(Y_i\) es uno de los casos paramétricos más sencillos. Por ejemplo, el UMVUE de \(\theta\) a partir de una muestra aleatoria \(Y_1, \ldots, Y_n\) es \(\frac{1}{n}\sum_{i=1}^nY_i\).

Ejemplo: inferencias para proporciones

Se seleccionó una muestra de 20 escuelas para determinar si cumplían con ciertos estándares de excelencia. Los resultados mostraron que sólo 7 escuelas fueron calificadas como de excelencia. Obtener un intervalo de confianza 95% para la verdadera proporción de escualas de excelencia en la población, \(\theta\).

La proporción de escuelas de excelencia se estima como

theta_hat <-  7 / 20
theta_hat

## [1] 0.35

Un intervalo de confianza aproximada 95% para \(\theta\) está dado por \[ \hat{\theta} \pm z^{(0.975)}\sqrt{\frac{\hat{\theta}(1-\hat{\theta})}{n}} \]

Los resultados son

IC_theta <- theta_hat + c(-1, 1) * qnorm(0.975) * sqrt(theta_hat * (1 - theta_hat)/20)
IC_theta

## [1] 0.1409627 0.5590373

Por lo tanto, la verdadera proporción de escuelas de excelencia está entre 0.141 y 0.559 aproximadamente con un 95% de confianza.

Fijando \(\alpha_1 = 0.025\) y \(\alpha_2 = 0.025\), el intervalo de confianza exacto para \(\theta\) se obtiene al resolver las ecuaciones \[ \sum_{k=0}^6\binom{20}{k}\theta^k(1-\theta)^{20-k} = 0.975 \qquad \text{y} \qquad \sum_{k=0}^7\binom{20}{k}\theta^k(1-\theta)^{20-k} = 0.025 \]

Primero programamos las funciones anteriores y las graficamos para explorar cómo se comportan.

theta1 <- function(theta) sum(dbinom(0:6, 20, theta))
theta2 <- function(theta) sum(dbinom(0:7, 20, theta))

Para resolver las ecuaciones utilizamos las herramientas de optimización que tiene R. Para ello programamos dos nuevas funciones que tengan un mínimo igual a cero en la solución de las ecuaciones anteriores.

lim_inf = function(theta) abs(sum(dbinom(0:6, 20, theta)) - 0.975)
lim_sup = function(theta) abs(sum(dbinom(0:7, 20, theta)) - 0.025)

Para minimizar utilizamos la función optimize para resolver las ecuaciones. Los resultados se muestran a continuación.

theta_inf <- optimize(lim_inf, interval = c(0, 1))$minimum
theta_sup <- optimize(lim_sup, interval = c(0, 1))$minimum
c(theta_inf, theta_sup)

## [1] 0.1538962 0.5921921

Por lo tanto, con una confianza exacta del 95% la verdadera proporción de escuelas de excelencia está entre 0.154 y 0.592. Estos resultados coinciden con los indicados en el libro de Conover.