Javier Santibáñez
1 de febrero de 2018
El planteamiento hasta ahora ha sido el siguiente. Tenemos una población que puede ser modelada con una distribución de probabilidades \(F\) y nuestro interés es hacer inferencias sobre \(F\), sin hacer supuestos sobre su forma.
Para hacer inferencias sobre los cuantiles de la distribución vamos a pensar en el problema inverso al que resolvimos para proporciones. Ahora, fijamos una probabilidad \(p\) y nos intesea hacer inferencias sobre \(\gamma^{(p)} = F^{-1}(p)\), es decir, sobre el cuantil \(p\) de la distribución \(F\).
Si tenemos una función de distribución \(F\), \(p \in (0, 1)\) se define el cuantil \(p\) de \(F\) como el número real \(\gamma^{(p)}\) tal que \(F(\gamma^{(p)}) = p\).
Si la distribución \(F\) es (absolutamente) continua, entonces siempre podemos encontrar \(\gamma^{(p)}\) para cualquier \(p\) en \((0,1)\).
Si la distribución \(F\) no es (absolutamte) continua, es decir, es discreta o mixta, la definición de cuantil se cambia a la siguiente: para \(p \in (0, 1)\) el cuantil \(p\) de \(F\) es el número real \(\gamma^{(p)}\) tal que \[ F(\gamma^{(p)}) \geq p \qquad y \qquad F(\gamma^{(p)}-) \leq p \] donde \[ F(a-) = \lim_{x \uparrow a} F(x) \]
En el caso continuo, los cuantiles se han utilizado en los intervalos de confianza.
Dada una función de distribución \(F\), se define la función de cuantiles de \(F\) como la función \(Q: [0, 1] \rightarrow \mathbb{R}\), dada por \[ Q(p) = \inf\{ x : F(x) \geq p \} \]
Se puede verificar que \(Q(p) = \gamma^{(p)}\), para \(p \in (0, 1)\).
0 | 1 | 2 | 3 | 4 | 5 | |
---|---|---|---|---|---|---|
fmp | 0.078 | 0.259 | 0.346 | 0.230 | 0.077 | 0.010 |
fda | 0.078 | 0.337 | 0.683 | 0.913 | 0.990 | 1.000 |
Si \(p \leq 0.078\), entonces \(\gamma^{(p)} = 0\), ya que \[ F(0-) = 0 < 0.078 \qquad \text{y} \qquad F(0) = 0.078 \]
Y así para el resto de valores de \(p\).
Se puede usar la función de distribución empírica para hacer inferencias sobre los cuantiles de la verdadera distribución, para ello se define la función de cuantiles empírica como sigue \[ Q_n(p) = \inf\{x: F_n(x) \geq p\}, \quad p \in (0, 1). \]
Se puede mostrar que \[ Q_n(p) = X_{(i)}, \quad \text{si} \quad p \in \left(\frac{i-1}{n}, \frac{i}{n}\right], \quad \text{para} \quad i = 1, \ldots, n. \] donde \(X_{(i)}\) representa el \(i\)-ésimo estadístico de orden de la muestra.
Suponer que se tienen las siguientes observaciones \[ \{10.9, \quad 9.9, \quad 12.5, \quad 1.2, \quad 8.3 \} \]
Los estadísticos de orden son \[ x_{(1)} = 1.2, \quad x_{(2)} = 8.3, \quad x_{(3)} = 9.9, \quad x_{(4)} = 10.9, \quad x_{(5)} = 12.5 \]
En el caso más general, \(H_0\) es equivalente a la proposición \[ F(x^*) \geq p \quad \text{y} \quad F(x^*-) \leq p, \] Si se definen \(F(x^*) = p^*\) y \(F(x^*-) = p_*\), entonces \(H_0\) es equivalente a \[ p^* \geq p \qquad \text{y} \qquad p_* \leq p \]
Para contrastar \(H_0\) se utilizan los siguientes estadísticos \[ T_1 = \sum_{i=1}^nI\{X_i \leq x^*\} \qquad \text{y} \qquad T_2 = \sum_{i=1}^nI\{X_i<x^*\} \] En general \(T_2 \leq T_1\) y cuando \(F\) es absolutamente continua, \(T_2 = T_1\) con probabilidad 1. Cuando ninguna observación es igual a \(x^*\), \(T_1 = T_2\). La distribución de \(T_1\) es \(Bin(n, p^*)\) mientras que la distribución de \(T_2\) es \(Bin(n, p_*)\).
\[ H_1: \text{el cuantil } p \text{ de } F \text{ es menor a } x^*, \] o en símbolos, \(H_1: p^* < p\).
\(H_0\) establece que \(p^* \geq p\), por lo que valores pequeños de \(T_1\) indican evidencia en contra de \(H_0\) y a favor de \(H_1\). Esto nos indica que la regla de decisión para contrastar las hipótesis dadas consiste en rechazar \(H_0\) si \(T_1 < t_1\), donde \(t_1\) debe ser determinado según el tamaño de prueba deseado.
Dado que \(H_0\) es compuesta (no específica una única distribución \(F\)), el tamaño de prueba se define como \[ \alpha = \sup_{p^*\geq p}P\{ T_1 < t_1 \,\vert\, p^*\}. \]
Se puede mostrar que, para \(t_1\) dado, \(P\{T_1 < t_1\}\) es una función decreciente de en \(p^*\), por lo que el tamaño de prueba es \(\alpha = P\{T_1 < t_1 \,\vert\, p^* = p\}\).
A continuación se muestra un ejemplo con \(n=5\) y \(p=0.5\). Para distintos valores de \(t_1\) se muestra \(P\{T_1 < t_1\}\) como función de \(p^*\). Se puede observar como las curvas son decrecientes, por lo que todas se máximizan cuando \(p^* = p\).
Dicho lo anterior, \(t_1\) se determina de acuerdo a la distribución de \(T_1\) cuando \(p^* = p\). Para tener un tamaño de prueba (aproximadamente) igual a \(\alpha\) se elige \(t_1 = \gamma^{(\alpha)}_{(n, p)}\), el cuantil \(\alpha\) de la distribución \(Bin(n, p)\).
En conclusión, para contrastar las hipótesis \[ H_0: x^* \text{ es el cuantil } p \text{ de } F \qquad \text{vs.} \qquad H_1: \text{el cuantil } p \text{ de } F \text{ es menor a } x^*, \] con un tamaño de prueba \(\alpha\), se rechaza \(H_0\) si \(T_1 < \gamma^{(\alpha)}_{(n,p)}\).
\[ H_1: \text{el cuantil } p \text{ de } F \text{ es mayor a } x^*, \] o en símbolos, \(H_1: p_* > p\).
\(H_0\) establece que \(p_* \leq p\), por lo que valores grandes de \(T_2\) indican evidencia en contra de \(H_0\) y a favor de \(H_1\). Esto nos indica que la regla de decisión para contrastar las hipótesis dadas consiste en rechazar \(H_0\) si \(T_2 > t_2\), donde \(t_2\) debe ser determinado según el tamaño de prueba deseado.
De nuevo, dado que \(H_0\) es compuesta (no específica una única distribución \(F\)), el tamaño de prueba se define como \[ \alpha = \sup_{p_*\leq p}P\{ T_2 > t_2 \,\vert\, p_*\}. \]
Se puede mostrar que, para \(t_2\) dado, \(P\{T_2 > t_2\}\) es una función creciente de en \(p_*\), por lo que el tamaño de prueba es \(\alpha = P\{T_2 > t_2 \,\vert\, p_* = p\}\).
Otra vez, se muestra un ejemplo con \(n=5\) y \(p=0.5\). Para distintos valores de \(t_2\) se grafica \(P\{T_2 > t_2\}\) como función de \(p_*\). Se puede observar como las curvas son crecientes, por lo que todas se máximizan cuando \(p_* = p\).
Por lo tanto, \(t_2\) se determina de acuerdo a la distribución de \(T_2\) cuando \(p_* = p\). Para tener un tamaño de prueba (aproximadamente) igual a \(\alpha\) se elige \(t_2 = \gamma^{(1-\alpha)}_{(n, p)}\), el cuantil \(1-\alpha\) de la distribución \(Bin(n, p)\).
En conclusión, para contrastar las hipótesis \[ H_0: x^* \text{ es el cuantil } p \text{ de } F \qquad \text{vs.} \qquad H_1: \text{el cuantil } p \text{ de } F \text{ es mayor a } x^*, \] con un tamaño de prueba \(\alpha\), se rechaza \(H_0\) si \(T_2 > \gamma^{(1-\alpha)}_{(n,p)}\).
A partir de los resultados anteriores es más sencillo plantear el contraste con hipótesis alternativa de dos colas \[ H_1: x^* \text{ no es el cuantil } p \text{ de } F, \] en símbolos \(H_1: p^* \neq p\).
La evidencia en contra de \(H_0\) está dada por valores pequeños de \(T_1\) o valores grandes de \(T_2\). Para rechazar \(H_0\) se toman las reglas dadas en la pruebas unilaterales con la diferencia que el tamaño de prueba \(\alpha\) se divide en dos, para ello se toman constantes \(\alpha_1\) y \(\alpha_2\) tales que \(\alpha_1 + \alpha_2 = \alpha\).
La regla de decisión consiste en rechazar \(H_0\) si \(T_1 < t_1\) o \(T_2 > t_2\), donde \(t_1\) se toma como el cuantil \(\alpha_1\) de la distribución \(Bin(n, p)\) y \(t_2\) se toma como el cuantil \(1-\alpha_2\) de la distribución \(Bin(n, p)\). Con un tamaño de prueba \(\alpha = \alpha_1 + \alpha_2\).
Se tiene interés en estudiar el procentaje de alumnos de excelencia en matemáticas en las escuelas de nivel medio superior de la Ciudad de México. Como referencia se toman los resultados de la prueba Enlace 2014. La base con los resultados se puede descargar de aquí. Para este ejemplo se utilizará el porcentaje de alumnos con nivel de desempeño Excelente en matemáticas.
El conjunto de datos tiene información de 423 escuelas de nivel medio superior. A continuación se muestran las primeras siete observaciones y un resumen del conjunto completo:
## [1] 6.0 3.2 5.4 3.4 3.4 3.7 3.4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 0.95 5.50 12.66 17.35 98.10
Utilizar la información para realizar los siguientes contrastes
El los tres casos usar un tamaño \(\alpha \approx 0.1\).
Las hipótesis son: \[ H_0: q_{0.25} \geq 1.5 \qquad \text{y} \qquad H_1: q_{0.25} < 1.5. \] Como la alternativa es de cola izquierda, el estadístico que se usa es \[ T_1 = \sum_{i=1}^{423} I\{X_i \leq 1.5\} \]
T1 <- sum(calif <= 1.5); T1
## [1] 119
\(T_1\) se compara con el cuantil \(0.1\) de la distribución \(Bin(423, 0.25)\). Utilizamos la siguiente línea de código para calcular este cuantil
qbinom(0.1, 423, 0.25)
## [1] 94
Como \(T1 = 119 \geq 94\), se concluye que no hay evidencia suficiente para rechazar que el primer cuartil de la distribución de los porcentajes es al menos 1.5%, con un tamaño de prueba (aproximado) \(\alpha = 0.1\) (el valor exacto es 0.1021668).
Las hipótesis son: \[ H_0: q_{0.5} = 5 \qquad \text{vs.} \qquad H_1: q_{0.5} \neq 5. \] Como la alternativa es de dos colas, se utilizan los dos estadísticos \[ T_1 = \sum_{i=1}^{423} I\{X_i \leq 5 \} \qquad \text{y} \qquad T_2 = \sum_{i=1}^{423}I\{X_i < 5\}. \]
T1 <- sum(calif <= 7.5); T1
## [1] 245
T2 <- sum(calif < 7.5); T2
## [1] 245
Como no hay observaciones iguales a 7.5%, \(T_1\) y \(T_2\) son iguales. Se divide el tamaño de la prueba \(\alpha = 0.1\) en \(\alpha_1 = 0.05\) y \(\alpha_2 = 0.05\) y entonces \(T_1\) se compara con el cuantil 0.05 y \(T_2\) con el cuantil 0.95, ambos de la distribución \(Bin(423, 0.5)\).
qbinom(0.05, 423, 0.5)
## [1] 195
qbinom(0.95, 423, 0.5)
## [1] 228
Como \(T_2 = 245 > 228\), aunque \(T_1 = 245 \geq 195\) se concluye rechazar \(H_0\). De lo anterior, se rechaza que la mediana de la distribución de porcentajes de alumnos de excelencia sea igual a 7.5% con un tamaño de prueba aproximado \(\alpha = 0.1\) (el tamaño exacto es 0.1089091).
Las hipótesis son: \[ H_0: q_{0.90} \leq 30 \qquad \text{vs.} \qquad H_1: q_{0.90} > 30. \] Como la alternativa es de cola derecha, se utiliza el estadístico \[ T_2 = \sum_{i=1}^{423} I\{X_i < 30 \} \]
T2 <- sum(calif < 30); T2
## [1] 363
\(T_2\) se compara con el cuantil 0.90 de la distribución \(Bin(423, 0.90)\):
qbinom(0.9, 423, 0.9)
## [1] 389
Como \(T_2 = 363 \leq 389\) se concluye no rechazar \(H_0\), esto es, no hay evidencia sufienciente para rechazar que el 90% de las escuelas tengan porcentajes de excelencia menores a 30%, con un tamaño de prueba (aproximado) \(\alpha = 0.1\) (el tamaño exacto es 0.073259).
El problema de hacer inferencias sobre los cuantiles es el inverso de hacer inferencias sobre proporciones. Para proporciones, se fija una constante \(x_0\) y el objetivo es hacer inferencias sobre \(F(x_0)\). Con los cuantiles se fija \(p_0\) y el objetivo es hacer inferecias sobre \(x^* = Q^{-1}(p_0)\).
Los intervalos de confianza para cuantiles se conforman de posibles valores para el verdadero cuantil de la distribución y se basan en los estadísticos de orden de la muestra. El objetivo es encontrar enteros \(\ell\) y \(u\), \(\ell, u \in\{1, \ldots, n\}\) tales que \[ P\left\lbrace X_{(\ell)} \leq x^* \leq X_{(u)} \right\rbrace \geq 1 - \alpha. \] De esta forma \(X_{(\ell)}\) y \(X_{(u)}\) forman un intervalo de confianza \(1-\alpha\) para \(x^*\).
El evento \(\left\lbrace X_{(\ell)} \leq x^* \leq X_{(u)} \right\rbrace\) es equivalente al evento \(\{X_{(u)}\geq x^*\} \setminus \{X_{(\ell)} > x^*\}\) y como \(\{X_{(\ell)}>x^*\} \subset \{X_{(u)}\geq x^*\}\), se sigue que \[ P\left\lbrace X_{(\ell)} \leq x^* \leq X_{(u)} \right\rbrace = P\{X_{(u)} \geq x^* \} - P\{X_{(\ell)}>x^*\}. \]
Si \(x^*\) es el verdadero cuantil \(p\) de la distribución \(F\), entonces \[ F(x^*) = P(X \leq x^*) \geq p \qquad \text{y} \qquad F(x^*-) = P(X < x^*) \leq p. \] De lo anterior se sigue que \(P\{X \geq x^* \} \geq 1 - p\) y \(P\{X > x^*\} \leq 1 - p\).
Para \(t \in \{1, \ldots, n\}\), se puede mostrar que \[ P\{X_{(t)} \geq x^*\} \geq \sum_{k=1}^{t-1} \binom{n}{k}p^k(1-p)^{n-k} \quad \text{y} \quad P\{X_{(t)} > x^* \} \leq \sum_{k=1}^{t-1} \binom{n}{k}p^k(1-p)^{n-k}. \] (véase Conover, 1980: 115-116.)
Por lo que un intervalo de confianza \(100(1-\alpha)\%\) para \(x^*\) está dado por \[ \left(X_{(\ell)}, X_{(u)} \right). \]
La mediana (el cuantil 0.50) de la distribución \(Exp(1)\) es \(\log(2)\). Comprobar la cobertura de los intervalos de confianza obtenidos a partir de los estadísticos de orden usando muestras de tamaño \(n = 25\) y \(m = 5,000\) repeticiones.
Se construirán intervalos de confianza 95% (aproximadamente, depende de los cuantiles de la distribución binomial), por lo que \(\alpha \approx 0.05\). En este caso \(p = 0.5\) y se eligen \(\alpha_1 = \alpha_2 \approx 0.025\).
La función pbinom
calcula las probabilidades acumuladas de la distribución binomial. A continuación se muestran las probabilidades acumuladas de la distribución \(Bin(25, 0.5)\) (redondeadas a 5 decimales).
## 0 1 2 3 4 5 6 7 8
## 0.00000 0.00000 0.00001 0.00008 0.00046 0.00204 0.00732 0.02164 0.05388
## 9 10 11 12 13 14 15 16 17
## 0.11476 0.21218 0.34502 0.50000 0.65498 0.78782 0.88524 0.94612 0.97836
## 18 19 20 21 22 23 24 25
## 0.99268 0.99796 0.99954 0.99992 0.99999 1.00000 1.00000 1.00000
De los resultados anteriores se ve que \(\ell = 8\) y \(u = 18\) se cumple \[ \sum_{k=1}^{\ell-1} \binom{n}{k}p^k(1-p)^{n-k} = 0.02164 \qquad \text{y} \qquad \sum_{k=1}^{u-1} \binom{n}{k}p^k(1-p)^{n-k} = 0.97836, \] de donde se sigue que \(\alpha_1 = \alpha_2 = 0.02164\), por lo que \(\alpha = 0.04328\), que resulta en un intervalo de confianza 95.8%, muy cercana a la específicada. Se debe notar que si se toman otros valores de \(\ell\) y \(u\) la confianza que resulta se aleja demasiado de 95%.
Por lo tanto, para una muestra de tamaño \(n=25\), el intervalo de confianza 95.8% para la mediana está dado por \(X_{(8)}\) y \(X_{(18)}\).
Con el siguiente código se comprueba la cobertura del intervalo del confianza para la mediana. Se generan \(m=5,000\) muestras de tamaño \(n=25\) de la distribución \(Exp(1)\), para cada muestra se verifica si el intervalo contiene o no a la verdadera mediana \(\log(2)\), finalmente se calcula el porcentaje de intervalos que sí contienen a la mediana.
cobertura <- c()
for(j in 1:5000)
{
muestra <- rexp(25)
xl <- sort(muestra)[8]
xu <- sort(muestra)[18]
cobertura[j] <- (xl <= log(2)) & (log(2) <= xu) + 0
}
pct_cobertura <- 100 * sum(cobertura) / 5000
pct_cobertura
## [1] 96.08