Prueba ji-cuadrada de Pearson

Estadísticas más utilizadas en bondad de ajuste

Javier Santibáñez

9 de febrero de 2018

Planteamiento

Procedimiento

\[ S_k = \left\lbrace \begin{array}{ll} (a_{k-1}, a_k], & \text{para } k = 1, \ldots, c-1. \\ (a_{c-1}, \infty), & \text{si } k = c. \end{array} \right. \]

Procedimiento

Procedimiento

Aproximación de la distrabución de \(X^2\)

El vector de frecuencias observadas \(\mathbf{O} = (O_1, \ldots, O_c)\) sigue una distribución multinomial con parámetros \(n\) y vector de probabilidades \[ \mathbf{P}_0 = (Pr(X \in S_1\,\vert\, H_0), \ldots, Pr(X \in S_c\,\vert\, H_0)) \] o bien \[ \mathbf{P}_0 = (Pr\{X = x_1\}, \ldots, Pr\{X = x_c \}). \] Se puede utilizar el siguiente procedimiento para simular observaciones de la distribución verdadera de \(X^2\).

Ejemplo: distribución discreta

Una planta de jardín presenta dos variedades: una de flores rojas y hojas alargadas y otra de flores blancas y hojas pequeñas. El carácter color de las flores sigue una herencia intermedia y el carácter tamaño de la hoja presenta una dominancia del carácter alargado. Las proporciones fenotípicas esperadas en la segunda generación son las siguientes

Fenotipo Proporción
rosas/alargadas 3/8
rosas/pequeñas 1/8
rojas/alargadas 3/16
rojas/pequeñas 1/16
blancas/alargadas 3/16
blancas/pequeñas 1/16

En un experimento de cruza de especímenes de las dos varieades se obtuvieron 654 plantas en la segunda generación y se observaron los siguientes resultados.

Fenotipo Frecuencia
rosas/alargadas 248
rosas/pequeñas 157
rojas/alargadas 78
rojas/pequeñas 49
blancas/alargadas 77
blancas/pequeñas 45

Utilizar la prueba Ji-cuadrada para comprobar si los resultados del experimento son consistentes con la teoría.

Fenotipo Frecuencia E_k Diff Diff2_Ek
rosas/alargadas 248 245.25 2.75 0.03
rosas/pequeñas 157 163.50 -6.50 0.26
rojas/alargadas 78 81.75 -3.75 0.17
rojas/pequeñas 49 40.88 8.12 1.62
blancas/alargadas 77 81.75 -4.75 0.28
blancas/pequeñas 45 40.88 4.12 0.42

donde E_k representa las frecuencias esperadas (\(E_k\)), Diff representa diferencia entre la frecuencia observada y la esperada (\(O_k-E_k\)), y Diff2_Ek representa \((O_k - E_k)^2/E_k\).

## [1] 2.768603

Ejemplo: distribución normal estándar

set.seed(1010)
ejemplo1 <- rt(47, 1)
a <- qnorm(c(0.25, 0.5, 0.75)); a
## [1] -0.6744898  0.0000000  0.6744898
O <- c()
O[1] <- sum(ejemplo1 <= a[1])
O[2] <- sum(ejemplo1 <= a[2]) - sum(ejemplo1 <= a[1])
O[3] <- sum(ejemplo1 <= a[3]) - sum(ejemplo1 <= a[2])
O[4] <- sum(ejemplo1 > a[3]); O
## [1] 13  7 11 16
x2 <- sum((O-11.75)^2/11.75); x2
## [1] 3.638298

Solución aproximada asintótica

pchisq(x2, 3, lower.tail = F)
## [1] 0.3032633

Solución aproximada con simulación

o_sim <- rmultinom(75E3, 47, rep(0.25, 4))
x2_sim <- apply(o_sim, 2, function(x) sum((x-11.75)^2/11.75)) 

mean(x2 < x2_sim)
## [1] 0.3018667

Ejemplo: distribución exponencial

ejemplo2 <- rgamma(23, 3, 2)
a <- qexp(c(0.2, 0.4, 0.6, 0.8), 2/3); a
## [1] 0.3347153 0.7662384 1.3744361 2.4141569
O <- c()
O[1] <- sum(ejemplo2 <= a[1])
O[2] <- sum(ejemplo2 <= a[2]) - sum(ejemplo2 <= a[1])
O[3] <- sum(ejemplo2 <= a[3]) - sum(ejemplo2 <= a[2])
O[4] <- sum(ejemplo2 <= a[4]) - sum(ejemplo2 <= a[3])
O[5] <- sum(ejemplo2 > a[4]); O
## [1] 0 4 8 9 2
x2 <- sum((O-4.6)^2/4.6); x2
## [1] 12.86957

Solución aproximada asintótica

pchisq(x2, 4, lower.tail = F)
## [1] 0.01193102

Solución aproximada con simulación

o_sim <- rmultinom(75E3, 23, rep(0.2, 5))
x2_sim <- apply(o_sim, 2, function(x) sum((x-4.6)^2/4.6)) 

mean(x2 < x2_sim)
## [1] 0.00932

\(\chi^2\) para hipótesis compuestas

Referencias