Javier Santibáñez
9 de febrero de 2018
El objetivo de las pruebas de bondad de ajuste es contrastar las hipótesis \[ H_0: F = F_0 \qquad \text{vs.} \qquad F \neq F_0 \] donde \(F_0\) es una función de distribución completa o parcialmente conocida, a partir de una muestra aleatoria \(X_1, \ldots, X_n\) de \(F(x)\).
La prueba de Pearson se utiliza directamente para distribuciones discretas con un número finito de saltos y se puede adaptar para distribuciones continuas o discretas con infinitos saltos (por ejemplo, las distribuciones geométrica o la de Poisson).
El objetivo es comparar las frecuencias observadas en cada categoría contra las frecuencias esperadas bajo el supuesto que \(F = F_0\). Cuando la distribución no es discreta con un número finito de saltos se induce una discretización para formar categorías.
Si \(F_0\) es continua o tiene infinitos saltos, primero se determina el número de categorías a utilizar y los extremos de los intevalos que las definen.
Si se eligen \(c\) categorías y constantes \[ -\infty = a_0 < a_1 < a_2 < \ldots < a_{c-1} < a_c = \infty \] de manera que se formen \(c\) intervalos donde el k-ésimo está dado por
\[ S_k = \left\lbrace \begin{array}{ll} (a_{k-1}, a_k], & \text{para } k = 1, \ldots, c-1. \\ (a_{c-1}, \infty), & \text{si } k = c. \end{array} \right. \]
Una vez definidas las categorías a partir de los intervalos, se calculan las fecuencias observadas como \[ O_k = \sum_{i = 1}^n 1\{ X_i \in S_k \}, \qquad k = 1, \ldots, c. \]
Las frecuencias esperadas se calculan como \[ E_k = nPr\{X \in S_k \,\vert\, H_0\} = n\left(F_0(a_k) - F_0(a_{k-1}) \right), \qquad k = 1, \ldots, c. \]
Si \(F_0\) es discreta con un número finito de saltos se puede pensar en una variable aleatoria \(X\) con un número finito de valores, por ejemplo, \(\{x_1, \ldots, x_c \}\). En este caso las frecuencias se calcular directamente como \[ O_k = \sum_{i=1}^n I\{ X_i = x_k \}, \qquad k = 1, \ldots, c. \]
En este caso, \(F_0\) está caracterizada por los valores \(P\{X = x_k \} = p_{0k}\), por lo que las frecuencias esperadas se calculan directamente como \[ E_k = nP\{X = x_k \} = np_{0k}, \qquad k = 1, \ldots, c. \]
Para medir la discrepancia entre lo observado y lo esperado Pearson propuso utilizar el estadístico \[ X^2 = \sum_{k=1}^c \frac{(O_k - E_k)^2}{E_k} \]
La distribución de \(X^2\) bajo \(H_0\) es aproximadamente \(\chi^2_{(c-1)}\), por lo que para rechazar \(H_0\) se compara \(X^2\) con los valores críticos esta distribución (véase Cramér, 1946: 416-419).
La calidad de la aproximación depende de las frecuencias observadas. La recomendación es elegir el número de categorías y los extremos de los intervalos tales que \(O_e \geq 5\), \(k = 1, \ldots, c\).
Otra alternativa es aproximar la distribución de \(X^2\) con simulación, ya que \(F_0\) está completamente específicada.
El vector de frecuencias observadas \(\mathbf{O} = (O_1, \ldots, O_c)\) sigue una distribución multinomial con parámetros \(n\) y vector de probabilidades \[ \mathbf{P}_0 = (Pr(X \in S_1\,\vert\, H_0), \ldots, Pr(X \in S_c\,\vert\, H_0)) \] o bien \[ \mathbf{P}_0 = (Pr\{X = x_1\}, \ldots, Pr\{X = x_c \}). \] Se puede utilizar el siguiente procedimiento para simular observaciones de la distribución verdadera de \(X^2\).
Se genera un vector \(\mathbf{O}_1\) de la distribución \(Multinomial(n, \mathbf{P}_0)\).
A partir de las frecuencias \(O_{1,1}, \ldots, O_{c,1}\) se calcula el estadístico \(X^2_1\).
Lo anterior se repite un número grande de veces \(m\) para obtener \(X^2_1, \ldots, X^2_m\).
La distribucion de frecuencias de los valores \(X^2_1, \ldots, X^2_m\) se puede utilizar para aproximar la distribución verdadera de \(X^2\), en cada caso en particular.
Una planta de jardín presenta dos variedades: una de flores rojas y hojas alargadas y otra de flores blancas y hojas pequeñas. El carácter color de las flores sigue una herencia intermedia y el carácter tamaño de la hoja presenta una dominancia del carácter alargado. Las proporciones fenotípicas esperadas en la segunda generación son las siguientes
Fenotipo | Proporción |
---|---|
rosas/alargadas | 3/8 |
rosas/pequeñas | 1/8 |
rojas/alargadas | 3/16 |
rojas/pequeñas | 1/16 |
blancas/alargadas | 3/16 |
blancas/pequeñas | 1/16 |
En un experimento de cruza de especímenes de las dos varieades se obtuvieron 654 plantas en la segunda generación y se observaron los siguientes resultados.
Fenotipo | Frecuencia |
---|---|
rosas/alargadas | 248 |
rosas/pequeñas | 157 |
rojas/alargadas | 78 |
rojas/pequeñas | 49 |
blancas/alargadas | 77 |
blancas/pequeñas | 45 |
Utilizar la prueba Ji-cuadrada para comprobar si los resultados del experimento son consistentes con la teoría.
Fenotipo | Frecuencia | E_k | Diff | Diff2_Ek |
---|---|---|---|---|
rosas/alargadas | 248 | 245.25 | 2.75 | 0.03 |
rosas/pequeñas | 157 | 163.50 | -6.50 | 0.26 |
rojas/alargadas | 78 | 81.75 | -3.75 | 0.17 |
rojas/pequeñas | 49 | 40.88 | 8.12 | 1.62 |
blancas/alargadas | 77 | 81.75 | -4.75 | 0.28 |
blancas/pequeñas | 45 | 40.88 | 4.12 | 0.42 |
donde E_k representa las frecuencias esperadas (\(E_k\)), Diff representa diferencia entre la frecuencia observada y la esperada (\(O_k-E_k\)), y Diff2_Ek representa \((O_k - E_k)^2/E_k\).
## [1] 2.768603
Si se toma \(\alpha = 0.01\), el valor crítico para concluir que los resultados del experimento respaldan el modelo dado para las proporciones de los fenotipos, está dado por el cuantil \(0.99\) de la distribución \(\chi^2_{(5)}\), que vale 15.09. Los grados de libertad corresponden al número de categorías \(c = 6\) menos uno.
Como \(X^2 = 2.77 < 15.1 = \chi^2_{(5)}(0.99)\) se concluye que el experimento valida el modelo dado para las proporciones de los fenotipos.
set.seed(1010)
ejemplo1 <- rt(47, 1)
Arbitrariamente se decide construir \(c = 4\) categorías que correspondan a los intervalos definidos por los cuartiles de la distribución \(N(0, 1)\), de manera que las fecuencias observadas sean iguales.
Los extremos de los intervalos son:
a <- qnorm(c(0.25, 0.5, 0.75)); a
## [1] -0.6744898 0.0000000 0.6744898
O <- c()
O[1] <- sum(ejemplo1 <= a[1])
O[2] <- sum(ejemplo1 <= a[2]) - sum(ejemplo1 <= a[1])
O[3] <- sum(ejemplo1 <= a[3]) - sum(ejemplo1 <= a[2])
O[4] <- sum(ejemplo1 > a[3]); O
## [1] 13 7 11 16
Las fecuencias esperadas son todas iguales, \(E_k = 0.25n = 11.75\).
Se calcula el estadístico \(X^2\).
x2 <- sum((O-11.75)^2/11.75); x2
## [1] 3.638298
Bajo \(H_0\) la distribución aproximada de \(X^2\) es \(\chi^2_{(3)}\), dado que se tomaron 4 categorias.
Para decidir si se rechaza \(H_0\) podemos utilizar el p-value del estadístico calculado con los datos.
pchisq(x2, 3, lower.tail = F)
## [1] 0.3032633
También podemos aproximar el p-value con simulación con el procedimiento descrito anteriormente.
En R
, se utiliza la función rmultinom
para simular valores de la distribución multinomial.
El siguiente código se utiliza para simular 75,000 observaciones de la distribución de \(X^2\) bajo \(H_0\).
o_sim <- rmultinom(75E3, 47, rep(0.25, 4))
x2_sim <- apply(o_sim, 2, function(x) sum((x-11.75)^2/11.75))
mean(x2 < x2_sim)
## [1] 0.3018667
ejemplo2 <- rgamma(23, 3, 2)
Ahora elegimos forman categorías \(c = 5\) que correspondan a los intervalos definidos por los cuantiles 0.2, 0.4, 0.6 y 0.8 de la distribución \(Exp(2/3)\).
Los extremos de los intervalos son:
a <- qexp(c(0.2, 0.4, 0.6, 0.8), 2/3); a
## [1] 0.3347153 0.7662384 1.3744361 2.4141569
O <- c()
O[1] <- sum(ejemplo2 <= a[1])
O[2] <- sum(ejemplo2 <= a[2]) - sum(ejemplo2 <= a[1])
O[3] <- sum(ejemplo2 <= a[3]) - sum(ejemplo2 <= a[2])
O[4] <- sum(ejemplo2 <= a[4]) - sum(ejemplo2 <= a[3])
O[5] <- sum(ejemplo2 > a[4]); O
## [1] 0 4 8 9 2
Las fecuencias esperadas son todas iguales, \(E_k = 0.20n = 4.6\).
Se calcula el estadístico \(X^2\).
x2 <- sum((O-4.6)^2/4.6); x2
## [1] 12.86957
Bajo \(H_0\) la distribución aproximada de \(X^2\) es \(\chi^2_{(4)}\), dado que se tomaron 5 categorias.
Para decidir si se rechaza \(H_0\) podemos utilizar el p-value del estadístico calculado con los datos.
pchisq(x2, 4, lower.tail = F)
## [1] 0.01193102
También podemos aproximar el p-value con simulación con el procedimiento descrito anteriormente.
En R
, se utiliza la función rmultinom
para simular valores de la distribución multinomial.
El siguiente código se utiliza para simular 75,000 observaciones de la distribución de \(X^2\) bajo \(H_0\).
o_sim <- rmultinom(75E3, 23, rep(0.2, 5))
x2_sim <- apply(o_sim, 2, function(x) sum((x-4.6)^2/4.6))
mean(x2 < x2_sim)
## [1] 0.00932
Existe una versión, quizá más útil, de la prueba \(\chi^2\) cuando \(H_0\) es compuesta, es decir, cuando \(F_0\) tiene parámetros desconocidos.
Suponer que se desea contrastar las hipótesis \(H_0: F(\cdot) = F_0(\cdot \,\vert\, \boldsymbol{\theta})\) vs. \(H_1: F \neq F_0(\cdot \,\vert\, \boldsymbol{\theta})\), donde \(\boldsymbol{\beta}\) es el vector de parámetros desconocidos.
Al igual que cuando \(H_0\) es simple se elige un numéro de categorias \(c\) y de definen los intervalos \(S_1, \ldots, S_c\).
La diferencia radica en que las probabilidades \(P_{0k}=Pr(X \in S_k \,\vert\, H_0)\) dependen del vector de parámetros desconocidos \(\boldsymbol{\theta}\) y a su vez, las fecuencias esperadas \(E_1, \ldots, E_c\) dependen de los parámetros desconocidos.
La corrección consiste en estimar \(\boldsymbol{\theta}\) a partir de los datos y hacer un plug-in para estimar \(P_{0k}\) y \(E_k\).
También existe una versión del Teorema de Pearson que justifica que la distribución asintótica del estadístico \(X^2\) cuando \(F_0\) tiene \(r\) parámetros desconocidos, es \(X^2_{(c-r-1)}\).
Para estimar \(\boldsymbol{\theta}\) se recomienda utilizar los estimadores de mínima \(\chi^2\) que se definen precisamente como los estimadores que minimizan el valor del estadístico \(X^2\) calculado haciendo un plug-in para el cálculo de \(E_k\). El inconveniente es que estos estimadores no siempre son fáciles de calcular.
En los libros de Conover (1999) y Villegas (2005) se pueden consultar más detalles sobre esta modificación de la prueba \(\chi^2\). En el libro de Crámer (1946) se puede consultar la demostración de ambos Teoremas de Pearson sobre las distribuciones asintóticas de los estadísticos \(\chi^2\).
Conover, W. J. (1999). Practical Nonparametric Statistics, 3ra edición. New York: John Wiley & Sons.
Cramér, H. (1946). Mathematical Methods of Statistics. Princeton University Press.
Villegas, M. Á. G. (2005). Inferencia estadística. Ediciones Díaz de Santos.