Javier Santibáñez
9 de febrero de 2018
El objetivo de las pruebas de bondad de ajuste es contrastar las hipótesis \[ H_0: F = F_0 \qquad \text{vs.} \qquad F \neq F_0 \] donde \(F_0\) es una función de distribución completa o parcialmente conocida, a partir de una muestra aleatoria \(X_1, \ldots, X_n\) de \(F(x)\).
La prueba de Pearson se utiliza directamente para distribuciones discretas con un número finito de saltos y se puede adaptar para distribuciones continuas o discretas con infinitos saltos (por ejemplo, las distribuciones geométrica o la de Poisson).
El objetivo es comparar las frecuencias observadas en cada categoría contra las frecuencias esperadas bajo el supuesto que \(F = F_0\). Cuando la distribución no es discreta con un número finito de saltos se induce una discretización para formar categorías.
Si \(F_0\) es continua o tiene infinitos saltos, primero se determina el número de categorías a utilizar y los extremos de los intevalos que las definen.
Si se eligen \(c\) categorías y constantes \[ -\infty = a_0 < a_1 < a_2 < \ldots < a_{c-1} < a_c = \infty \] de manera que se formen \(c\) intervalos donde el k-ésimo está dado por
\[ S_k = \left\lbrace \begin{array}{ll} (a_{k-1}, a_k], & \text{para } k = 1, \ldots, c-1. \\ (a_{c-1}, \infty), & \text{si } k = c. \end{array} \right. \]
Una vez definidas las categorías a partir de los intervalos, se calculan las fecuencias observadas como \[ O_k = \sum_{i = 1}^n 1\{ X_i \in S_k \}, \qquad k = 1, \ldots, c. \]
Las frecuencias esperadas se calculan como \[ E_k = nPr\{X \in S_k \,\vert\, H_0\} = n\left(F_0(a_k) - F_0(a_{k-1}) \right), \qquad k = 1, \ldots, c. \]
Si \(F_0\) es discreta con un número finito de saltos se puede pensar en una variable aleatoria \(X\) con un número finito de valores, por ejemplo, \(\{x_1, \ldots, x_c \}\). En este caso las frecuencias se calcular directamente como \[ O_k = \sum_{i=1}^n I\{ X_i = x_k \}, \qquad k = 1, \ldots, c. \]
En este caso, \(F_0\) está caracterizada por los valores \(P\{X = x_k \} = p_{0k}\), por lo que las frecuencias esperadas se calculan directamente como \[ E_k = nP\{X = x_k \} = np_{0k}, \qquad k = 1, \ldots, c. \]
Para medir la discrepancia entre lo observado y lo esperado Pearson propuso utilizar el estadístico \[ X^2 = \sum_{k=1}^c \frac{(O_k - E_k)^2}{E_k} \]
La distribución de \(X^2\) bajo \(H_0\) es aproximadamente \(\chi^2_{(c-1)}\), por lo que para rechazar \(H_0\) se compara \(X^2\) con los valores críticos esta distribución (véase Cramér, 1946: 416-419).
La calidad de la aproximación depende de las frecuencias observadas. La recomendación es elegir el número de categorías y los extremos de los intervalos tales que \(O_e \geq 5\), \(k = 1, \ldots, c\).
Otra alternativa es aproximar la distribución de \(X^2\) con simulación, ya que \(F_0\) está completamente específicada.
El vector de frecuencias observadas \(\mathbf{O} = (O_1, \ldots, O_c)\) sigue una distribución multinomial con parámetros \(n\) y vector de probabilidades \[ \mathbf{P}_0 = (Pr(X \in S_1\,\vert\, H_0), \ldots, Pr(X \in S_c\,\vert\, H_0)) \] o bien \[ \mathbf{P}_0 = (Pr\{X = x_1\}, \ldots, Pr\{X = x_c \}). \] Se puede utilizar el siguiente procedimiento para simular observaciones de la distribución verdadera de \(X^2\).
Se genera un vector \(\mathbf{O}_1\) de la distribución \(Multinomial(n, \mathbf{P}_0)\).
A partir de las frecuencias \(O_{1,1}, \ldots, O_{c,1}\) se calcula el estadístico \(X^2_1\).
Lo anterior se repite un número grande de veces \(m\) para obtener \(X^2_1, \ldots, X^2_m\).
La distribucion de frecuencias de los valores \(X^2_1, \ldots, X^2_m\) se puede utilizar para aproximar la distribución verdadera de \(X^2\), en cada caso en particular.
Una planta de jardín presenta dos variedades: una de flores rojas y hojas alargadas y otra de flores blancas y hojas pequeñas. El carácter color de las flores sigue una herencia intermedia y el carácter tamaño de la hoja presenta una dominancia del carácter alargado. Las proporciones fenotípicas esperadas en la segunda generación son las siguientes
| Fenotipo | Proporción |
|---|---|
| rosas/alargadas | 3/8 |
| rosas/pequeñas | 1/8 |
| rojas/alargadas | 3/16 |
| rojas/pequeñas | 1/16 |
| blancas/alargadas | 3/16 |
| blancas/pequeñas | 1/16 |
En un experimento de cruza de especímenes de las dos varieades se obtuvieron 654 plantas en la segunda generación y se observaron los siguientes resultados.
| Fenotipo | Frecuencia |
|---|---|
| rosas/alargadas | 248 |
| rosas/pequeñas | 157 |
| rojas/alargadas | 78 |
| rojas/pequeñas | 49 |
| blancas/alargadas | 77 |
| blancas/pequeñas | 45 |
Utilizar la prueba Ji-cuadrada para comprobar si los resultados del experimento son consistentes con la teoría.
| Fenotipo | Frecuencia | E_k | Diff | Diff2_Ek |
|---|---|---|---|---|
| rosas/alargadas | 248 | 245.25 | 2.75 | 0.03 |
| rosas/pequeñas | 157 | 163.50 | -6.50 | 0.26 |
| rojas/alargadas | 78 | 81.75 | -3.75 | 0.17 |
| rojas/pequeñas | 49 | 40.88 | 8.12 | 1.62 |
| blancas/alargadas | 77 | 81.75 | -4.75 | 0.28 |
| blancas/pequeñas | 45 | 40.88 | 4.12 | 0.42 |
donde E_k representa las frecuencias esperadas (\(E_k\)), Diff representa diferencia entre la frecuencia observada y la esperada (\(O_k-E_k\)), y Diff2_Ek representa \((O_k - E_k)^2/E_k\).
## [1] 2.768603
Si se toma \(\alpha = 0.01\), el valor crítico para concluir que los resultados del experimento respaldan el modelo dado para las proporciones de los fenotipos, está dado por el cuantil \(0.99\) de la distribución \(\chi^2_{(5)}\), que vale 15.09. Los grados de libertad corresponden al número de categorías \(c = 6\) menos uno.
Como \(X^2 = 2.77 < 15.1 = \chi^2_{(5)}(0.99)\) se concluye que el experimento valida el modelo dado para las proporciones de los fenotipos.
set.seed(1010)
ejemplo1 <- rt(47, 1)Arbitrariamente se decide construir \(c = 4\) categorías que correspondan a los intervalos definidos por los cuartiles de la distribución \(N(0, 1)\), de manera que las fecuencias observadas sean iguales.
Los extremos de los intervalos son:
a <- qnorm(c(0.25, 0.5, 0.75)); a## [1] -0.6744898 0.0000000 0.6744898
O <- c()
O[1] <- sum(ejemplo1 <= a[1])
O[2] <- sum(ejemplo1 <= a[2]) - sum(ejemplo1 <= a[1])
O[3] <- sum(ejemplo1 <= a[3]) - sum(ejemplo1 <= a[2])
O[4] <- sum(ejemplo1 > a[3]); O## [1] 13 7 11 16
Las fecuencias esperadas son todas iguales, \(E_k = 0.25n = 11.75\).
Se calcula el estadístico \(X^2\).
x2 <- sum((O-11.75)^2/11.75); x2## [1] 3.638298
Bajo \(H_0\) la distribución aproximada de \(X^2\) es \(\chi^2_{(3)}\), dado que se tomaron 4 categorias.
Para decidir si se rechaza \(H_0\) podemos utilizar el p-value del estadístico calculado con los datos.
pchisq(x2, 3, lower.tail = F)## [1] 0.3032633
También podemos aproximar el p-value con simulación con el procedimiento descrito anteriormente.
En R, se utiliza la función rmultinom para simular valores de la distribución multinomial.
El siguiente código se utiliza para simular 75,000 observaciones de la distribución de \(X^2\) bajo \(H_0\).
o_sim <- rmultinom(75E3, 47, rep(0.25, 4))
x2_sim <- apply(o_sim, 2, function(x) sum((x-11.75)^2/11.75)) mean(x2 < x2_sim)## [1] 0.3018667
ejemplo2 <- rgamma(23, 3, 2)Ahora elegimos forman categorías \(c = 5\) que correspondan a los intervalos definidos por los cuantiles 0.2, 0.4, 0.6 y 0.8 de la distribución \(Exp(2/3)\).
Los extremos de los intervalos son:
a <- qexp(c(0.2, 0.4, 0.6, 0.8), 2/3); a## [1] 0.3347153 0.7662384 1.3744361 2.4141569
O <- c()
O[1] <- sum(ejemplo2 <= a[1])
O[2] <- sum(ejemplo2 <= a[2]) - sum(ejemplo2 <= a[1])
O[3] <- sum(ejemplo2 <= a[3]) - sum(ejemplo2 <= a[2])
O[4] <- sum(ejemplo2 <= a[4]) - sum(ejemplo2 <= a[3])
O[5] <- sum(ejemplo2 > a[4]); O## [1] 0 4 8 9 2
Las fecuencias esperadas son todas iguales, \(E_k = 0.20n = 4.6\).
Se calcula el estadístico \(X^2\).
x2 <- sum((O-4.6)^2/4.6); x2## [1] 12.86957
Bajo \(H_0\) la distribución aproximada de \(X^2\) es \(\chi^2_{(4)}\), dado que se tomaron 5 categorias.
Para decidir si se rechaza \(H_0\) podemos utilizar el p-value del estadístico calculado con los datos.
pchisq(x2, 4, lower.tail = F)## [1] 0.01193102
También podemos aproximar el p-value con simulación con el procedimiento descrito anteriormente.
En R, se utiliza la función rmultinom para simular valores de la distribución multinomial.
El siguiente código se utiliza para simular 75,000 observaciones de la distribución de \(X^2\) bajo \(H_0\).
o_sim <- rmultinom(75E3, 23, rep(0.2, 5))
x2_sim <- apply(o_sim, 2, function(x) sum((x-4.6)^2/4.6)) mean(x2 < x2_sim)## [1] 0.00932
Existe una versión, quizá más útil, de la prueba \(\chi^2\) cuando \(H_0\) es compuesta, es decir, cuando \(F_0\) tiene parámetros desconocidos.
Suponer que se desea contrastar las hipótesis \(H_0: F(\cdot) = F_0(\cdot \,\vert\, \boldsymbol{\theta})\) vs. \(H_1: F \neq F_0(\cdot \,\vert\, \boldsymbol{\theta})\), donde \(\boldsymbol{\beta}\) es el vector de parámetros desconocidos.
Al igual que cuando \(H_0\) es simple se elige un numéro de categorias \(c\) y de definen los intervalos \(S_1, \ldots, S_c\).
La diferencia radica en que las probabilidades \(P_{0k}=Pr(X \in S_k \,\vert\, H_0)\) dependen del vector de parámetros desconocidos \(\boldsymbol{\theta}\) y a su vez, las fecuencias esperadas \(E_1, \ldots, E_c\) dependen de los parámetros desconocidos.
La corrección consiste en estimar \(\boldsymbol{\theta}\) a partir de los datos y hacer un plug-in para estimar \(P_{0k}\) y \(E_k\).
También existe una versión del Teorema de Pearson que justifica que la distribución asintótica del estadístico \(X^2\) cuando \(F_0\) tiene \(r\) parámetros desconocidos, es \(X^2_{(c-r-1)}\).
Para estimar \(\boldsymbol{\theta}\) se recomienda utilizar los estimadores de mínima \(\chi^2\) que se definen precisamente como los estimadores que minimizan el valor del estadístico \(X^2\) calculado haciendo un plug-in para el cálculo de \(E_k\). El inconveniente es que estos estimadores no siempre son fáciles de calcular.
En los libros de Conover (1999) y Villegas (2005) se pueden consultar más detalles sobre esta modificación de la prueba \(\chi^2\). En el libro de Crámer (1946) se puede consultar la demostración de ambos Teoremas de Pearson sobre las distribuciones asintóticas de los estadísticos \(\chi^2\).
Conover, W. J. (1999). Practical Nonparametric Statistics, 3ra edición. New York: John Wiley & Sons.
Cramér, H. (1946). Mathematical Methods of Statistics. Princeton University Press.
Villegas, M. Á. G. (2005). Inferencia estadística. Ediciones Díaz de Santos.