Javier Santibáñez
30 de enero de 2018
Suponer que en un estudio clínico para detectar cierta enfermedad el resultado depende del conteo de glóbulos blancos en la sangre del paciente, si el conteo es menor o igual a cierto valor \(c\) fijo y conocido de antemano, entonces el resultado del análisis es positivo para la enfermedad. De lo contrario, el resultado del análisis en negativo. Interesa estimar la probabilidad de que un paciente de positivo en el análisis.
Denotemos \(X_i\) denota el conteo de glóbulos blancos en la sangre del \(i\)-ésimo paciente. Podemos suponer que \(X_1, X_2, X_3, \ldots, \sim F(\cdot)\), para alguna función de distribución \(F\). En este caso, no interesa hacer inferencias sobre \(F\) completa, sino solamente en \(F(c) = \theta\), la probabilidad de que el conteo de glóbulos de un paciente sea menor o igual al valor establecido para dar como positivo en el análisis.
El problema de hacer inferencias sobre \(\theta = F(c)\) se puede trasladar a un problema paramétrico a partir de la siguiente transformación \[ Y_i = I\{X_i \leq x\}, \qquad i = 1,2, 3, \ldots \]
Las variables aleatorias \(Y_i\) tienen una distribución de Bernoulli con parámetro \(\theta\). Hacer inferencias sobre \(\theta\) a partir una muestra aleatoria de las \(Y_i\) es uno de los casos paramétricos más sencillos. Por ejemplo, el UMVUE de \(\theta\) a partir de una muestra aleatoria \(Y_1, \ldots, Y_n\) es \(\frac{1}{n}\sum_{i=1}^nY_i\).
Se seleccionó una muestra de 20 escuelas para determinar si cumplían con ciertos estándares de excelencia. Los resultados mostraron que sólo 7 escuelas fueron calificadas como de excelencia. Obtener un intervalo de confianza 95% para la verdadera proporción de escualas de excelencia en la población, \(\theta\).
theta_hat <- 7 / 20
theta_hat
## [1] 0.35
Los resultados son
IC_theta <- theta_hat + c(-1, 1) * qnorm(0.975) * sqrt(theta_hat * (1 - theta_hat)/20)
IC_theta
## [1] 0.1409627 0.5590373
Por lo tanto, la verdadera proporción de escuelas de excelencia está entre 0.141 y 0.559 aproximadamente con un 95% de confianza.
Primero programamos las funciones anteriores y las graficamos para explorar cómo se comportan.
theta1 <- function(theta) sum(dbinom(0:6, 20, theta))
theta2 <- function(theta) sum(dbinom(0:7, 20, theta))
Para resolver las ecuaciones utilizamos las herramientas de optimización que tiene R
. Para ello programamos dos nuevas funciones que tengan un mínimo igual a cero en la solución de las ecuaciones anteriores.
lim_inf = function(theta) abs(sum(dbinom(0:6, 20, theta)) - 0.975)
lim_sup = function(theta) abs(sum(dbinom(0:7, 20, theta)) - 0.025)
Para minimizar utilizamos la función optimize
para resolver las ecuaciones. Los resultados se muestran a continuación.
theta_inf <- optimize(lim_inf, interval = c(0, 1))$minimum
theta_sup <- optimize(lim_sup, interval = c(0, 1))$minimum
c(theta_inf, theta_sup)
## [1] 0.1538962 0.5921921
Por lo tanto, con una confianza exacta del 95% la verdadera proporción de escuelas de excelencia está entre 0.154 y 0.592. Estos resultados coinciden con los indicados en el libro de Conover.