Inferencias para cuantiles

Javier Santibáñez

1 de febrero de 2018

Planteamiento

El planteamiento hasta ahora ha sido el siguiente. Tenemos una población que puede ser modelada con una distribución de probabilidades \(F\) y nuestro interés es hacer inferencias sobre \(F\), sin hacer supuestos sobre su forma.
Para hacer inferencias sobre los cuantiles de la distribución vamos a pensar en el problema inverso al que resolvimos para proporciones. Ahora, fijamos una probabilidad \(p\) y nos intesea hacer inferencias sobre \(\gamma^{(p)} = F^{-1}(p)\), es decir, sobre el cuantil \(p\) de la distribución \(F\).

Cuantiles distribucionales

Si tenemos una función de distribución \(F\), \(p \in (0, 1)\) se define el cuantil \(p\) de \(F\) como el número real \(\gamma^{(p)}\) tal que \(F(\gamma^{(p)}) = p\).
Si la distribución \(F\) es (absolutamente) continua, entonces siempre podemos encontrar \(\gamma^{(p)}\) para cualquier \(p\) en \((0,1)\).
Si la distribución \(F\) no es (absolutamte) continua, es decir, es discreta o mixta, la definición de cuantil se cambia a la siguiente: para \(p \in (0, 1)\) el cuantil \(p\) de \(F\) es el número real \(\gamma^{(p)}\) tal que \[ F(\gamma^{(p)}) \geq p \qquad y \qquad F(\gamma^{(p)}-) \leq p \] donde \[ F(a-) = \lim_{x \uparrow a} F(x) \]
En el caso continuo, los cuantiles se han utilizado en los intervalos de confianza.
Dada una función de distribución \(F\), se define la función de cuantiles de \(F\) como la función \(Q: [0, 1] \rightarrow \mathbb{R}\), dada por \[ Q(p) = \inf\{ x : F(x) \geq p \} \]
Se puede verificar que \(Q(p) = \gamma^{(p)}\), para \(p \in (0, 1)\).

Ejemplo: cuantiles de la distribución binomial

Consideremos los cuantiles de la distribución \(Bin(5, 0.4)\). La función masa de probabilidades y la función de distribución acumulada son

	0	1	2	3	4	5
fmp	0.078	0.259	0.346	0.230	0.077	0.010
fda	0.078	0.337	0.683	0.913	0.990	1.000

Podemos graficar la función de distribución acumulada y la función de cuantiles y usarlas para entender la definición en el caso discreto.

Si \(p \leq 0.078\), entonces \(\gamma^{(p)} = 0\), ya que \[ F(0-) = 0 < 0.078 \qquad \text{y} \qquad F(0) = 0.078 \]
Si \(p \in (0.078, 0.337]\), entonces \(\gamma^{(p)} = 1\), ya que \[ F(1-) = 0.078 < 0.337 \qquad \text{y} \qquad F(1) = 0.337 \]
Y así para el resto de valores de \(p\).

La función de cuantiles empírica

Se puede usar la función de distribución empírica para hacer inferencias sobre los cuantiles de la verdadera distribución, para ello se define la función de cuantiles empírica como sigue \[ Q_n(p) = \inf\{x: F_n(x) \geq p\}, \quad p \in (0, 1). \]
Se puede mostrar que \[ Q_n(p) = X_{(i)}, \quad \text{si} \quad p \in \left(\frac{i-1}{n}, \frac{i}{n}\right], \quad \text{para} \quad i = 1, \ldots, n. \] donde \(X_{(i)}\) representa el \(i\)-ésimo estadístico de orden de la muestra.

Ejemplo: inferencias para cuantiles

Suponer que se tienen las siguientes observaciones \[ \{10.9, \quad 9.9, \quad 12.5, \quad 1.2, \quad 8.3 \} \]

Los estadísticos de orden son \[ x_{(1)} = 1.2, \quad x_{(2)} = 8.3, \quad x_{(3)} = 9.9, \quad x_{(4)} = 10.9, \quad x_{(5)} = 12.5 \]

Si \(p \in (0.0, 0.2]\), entonces \(Q_n(p) = 1.2\).
Si \(p \in (0.2, 0.4]\), entonces \(Q_n(p) = 8.3\).
Si \(p \in (0.4, 0.6]\), entonces \(Q_n(p) = 9.9\).
Si \(p \in (0.4, 0.6]\), entonces \(Q_n(p) = 9.9\).
Si \(p \in (0.6, 0.8]\), entonces \(Q_n(p) = 10.9\).
Si \(p \in (0.8, 1.0)\), entonces \(Q_n(p) = 12.5\).

Pruebas de hipótesis para cuantiles

Suponer que, dadas constantes \(p \in (0,1)\) y \(x^* \in \mathbb{R}\), se tiene interés en contrastar la hipótesis \[ H_0: x^* \text{ es el cuantil } p \text{ de } F \]
En el caso más general, \(H_0\) es equivalente a la proposición \[ F(x^*) \geq p \quad \text{y} \quad F(x^*-) \leq p, \] Si se definen \(F(x^*) = p^*\) y \(F(x^*-) = p_*\), entonces \(H_0\) es equivalente a \[ p^* \geq p \qquad \text{y} \qquad p_* \leq p \]
Para contrastar \(H_0\) se utilizan los siguientes estadísticos \[ T_1 = \sum_{i=1}^nI\{X_i \leq x^*\} \qquad \text{y} \qquad T_2 = \sum_{i=1}^nI\{X_i<x^*\} \] En general \(T_2 \leq T_1\) y cuando \(F\) es absolutamente continua, \(T_2 = T_1\) con probabilidad 1. Cuando ninguna observación es igual a \(x^*\), \(T_1 = T_2\). La distribución de \(T_1\) es \(Bin(n, p^*)\) mientras que la distribución de \(T_2\) es \(Bin(n, p_*)\).

Prueba de cola izquierda

La hipótesis alternativa a \(H_0\) de cola izquierda se establece como

\[ H_1: \text{el cuantil } p \text{ de } F \text{ es menor a } x^*, \] o en símbolos, \(H_1: p^* < p\).

\(H_0\) establece que \(p^* \geq p\), por lo que valores pequeños de \(T_1\) indican evidencia en contra de \(H_0\) y a favor de \(H_1\). Esto nos indica que la regla de decisión para contrastar las hipótesis dadas consiste en rechazar \(H_0\) si \(T_1 < t_1\), donde \(t_1\) debe ser determinado según el tamaño de prueba deseado.
Dado que \(H_0\) es compuesta (no específica una única distribución \(F\)), el tamaño de prueba se define como \[ \alpha = \sup_{p^*\geq p}P\{ T_1 < t_1 \,\vert\, p^*\}. \]
Se puede mostrar que, para \(t_1\) dado, \(P\{T_1 < t_1\}\) es una función decreciente de en \(p^*\), por lo que el tamaño de prueba es \(\alpha = P\{T_1 < t_1 \,\vert\, p^* = p\}\).
A continuación se muestra un ejemplo con \(n=5\) y \(p=0.5\). Para distintos valores de \(t_1\) se muestra \(P\{T_1 < t_1\}\) como función de \(p^*\). Se puede observar como las curvas son decrecientes, por lo que todas se máximizan cuando \(p^* = p\).

Dicho lo anterior, \(t_1\) se determina de acuerdo a la distribución de \(T_1\) cuando \(p^* = p\). Para tener un tamaño de prueba (aproximadamente) igual a \(\alpha\) se elige \(t_1 = \gamma^{(\alpha)}_{(n, p)}\), el cuantil \(\alpha\) de la distribución \(Bin(n, p)\).
En conclusión, para contrastar las hipótesis \[ H_0: x^* \text{ es el cuantil } p \text{ de } F \qquad \text{vs.} \qquad H_1: \text{el cuantil } p \text{ de } F \text{ es menor a } x^*, \] con un tamaño de prueba \(\alpha\), se rechaza \(H_0\) si \(T_1 < \gamma^{(\alpha)}_{(n,p)}\).

Prueba de cola derecha

La hipótesis alternativa a \(H_0\) de cola derecha se establece como

\[ H_1: \text{el cuantil } p \text{ de } F \text{ es mayor a } x^*, \] o en símbolos, \(H_1: p_* > p\).

\(H_0\) establece que \(p_* \leq p\), por lo que valores grandes de \(T_2\) indican evidencia en contra de \(H_0\) y a favor de \(H_1\). Esto nos indica que la regla de decisión para contrastar las hipótesis dadas consiste en rechazar \(H_0\) si \(T_2 > t_2\), donde \(t_2\) debe ser determinado según el tamaño de prueba deseado.
De nuevo, dado que \(H_0\) es compuesta (no específica una única distribución \(F\)), el tamaño de prueba se define como \[ \alpha = \sup_{p_*\leq p}P\{ T_2 > t_2 \,\vert\, p_*\}. \]
Se puede mostrar que, para \(t_2\) dado, \(P\{T_2 > t_2\}\) es una función creciente de en \(p_*\), por lo que el tamaño de prueba es \(\alpha = P\{T_2 > t_2 \,\vert\, p_* = p\}\).
Otra vez, se muestra un ejemplo con \(n=5\) y \(p=0.5\). Para distintos valores de \(t_2\) se grafica \(P\{T_2 > t_2\}\) como función de \(p_*\). Se puede observar como las curvas son crecientes, por lo que todas se máximizan cuando \(p_* = p\).

Por lo tanto, \(t_2\) se determina de acuerdo a la distribución de \(T_2\) cuando \(p_* = p\). Para tener un tamaño de prueba (aproximadamente) igual a \(\alpha\) se elige \(t_2 = \gamma^{(1-\alpha)}_{(n, p)}\), el cuantil \(1-\alpha\) de la distribución \(Bin(n, p)\).
En conclusión, para contrastar las hipótesis \[ H_0: x^* \text{ es el cuantil } p \text{ de } F \qquad \text{vs.} \qquad H_1: \text{el cuantil } p \text{ de } F \text{ es mayor a } x^*, \] con un tamaño de prueba \(\alpha\), se rechaza \(H_0\) si \(T_2 > \gamma^{(1-\alpha)}_{(n,p)}\).

Prueba de dos colas

A partir de los resultados anteriores es más sencillo plantear el contraste con hipótesis alternativa de dos colas \[ H_1: x^* \text{ no es el cuantil } p \text{ de } F, \] en símbolos \(H_1: p^* \neq p\).
La evidencia en contra de \(H_0\) está dada por valores pequeños de \(T_1\) o valores grandes de \(T_2\). Para rechazar \(H_0\) se toman las reglas dadas en la pruebas unilaterales con la diferencia que el tamaño de prueba \(\alpha\) se divide en dos, para ello se toman constantes \(\alpha_1\) y \(\alpha_2\) tales que \(\alpha_1 + \alpha_2 = \alpha\).
La regla de decisión consiste en rechazar \(H_0\) si \(T_1 < t_1\) o \(T_2 > t_2\), donde \(t_1\) se toma como el cuantil \(\alpha_1\) de la distribución \(Bin(n, p)\) y \(t_2\) se toma como el cuantil \(1-\alpha_2\) de la distribución \(Bin(n, p)\). Con un tamaño de prueba \(\alpha = \alpha_1 + \alpha_2\).

Ejemplo: pruebas de hipótesis

Se tiene interés en estudiar el procentaje de alumnos de excelencia en matemáticas en las escuelas de nivel medio superior de la Ciudad de México. Como referencia se toman los resultados de la prueba Enlace 2014. La base con los resultados se puede descargar de aquí. Para este ejemplo se utilizará el porcentaje de alumnos con nivel de desempeño Excelente en matemáticas.

El conjunto de datos tiene información de 423 escuelas de nivel medio superior. A continuación se muestran las primeras siete observaciones y un resumen del conjunto completo:

## [1] 6.0 3.2 5.4 3.4 3.4 3.7 3.4

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.95    5.50   12.66   17.35   98.10

Utilizar la información para realizar los siguientes contrastes

\(H_0:\) El primer cuartil es al menos 1.5%.
\(H_0:\) La mediana es igual a 7.5%.
\(H_0:\) El cuantil 0.90 es a lo más 30%.

El los tres casos usar un tamaño \(\alpha \approx 0.1\).

Primera prueba

Las hipótesis son: \[ H_0: q_{0.25} \geq 1.5 \qquad \text{y} \qquad H_1: q_{0.25} < 1.5. \] Como la alternativa es de cola izquierda, el estadístico que se usa es \[ T_1 = \sum_{i=1}^{423} I\{X_i \leq 1.5\} \]

T1 <- sum(calif <= 1.5); T1

## [1] 119

\(T_1\) se compara con el cuantil \(0.1\) de la distribución \(Bin(423, 0.25)\). Utilizamos la siguiente línea de código para calcular este cuantil

qbinom(0.1, 423, 0.25)

## [1] 94

Como \(T1 = 119 \geq 94\), se concluye que no hay evidencia suficiente para rechazar que el primer cuartil de la distribución de los porcentajes es al menos 1.5%, con un tamaño de prueba (aproximado) \(\alpha = 0.1\) (el valor exacto es 0.1021668).

Segunda prueba

Las hipótesis son: \[ H_0: q_{0.5} = 5 \qquad \text{vs.} \qquad H_1: q_{0.5} \neq 5. \] Como la alternativa es de dos colas, se utilizan los dos estadísticos \[ T_1 = \sum_{i=1}^{423} I\{X_i \leq 5 \} \qquad \text{y} \qquad T_2 = \sum_{i=1}^{423}I\{X_i < 5\}. \]

T1 <- sum(calif <= 7.5); T1

## [1] 245

T2 <- sum(calif < 7.5); T2

## [1] 245

Como no hay observaciones iguales a 7.5%, \(T_1\) y \(T_2\) son iguales. Se divide el tamaño de la prueba \(\alpha = 0.1\) en \(\alpha_1 = 0.05\) y \(\alpha_2 = 0.05\) y entonces \(T_1\) se compara con el cuantil 0.05 y \(T_2\) con el cuantil 0.95, ambos de la distribución \(Bin(423, 0.5)\).

qbinom(0.05, 423, 0.5)

## [1] 195

qbinom(0.95, 423, 0.5)

## [1] 228

Como \(T_2 = 245 > 228\), aunque \(T_1 = 245 \geq 195\) se concluye rechazar \(H_0\). De lo anterior, se rechaza que la mediana de la distribución de porcentajes de alumnos de excelencia sea igual a 7.5% con un tamaño de prueba aproximado \(\alpha = 0.1\) (el tamaño exacto es 0.1089091).

Los resultados sugieren que la mediana es mayor a 7.5%.

Tercera prueba

Las hipótesis son: \[ H_0: q_{0.90} \leq 30 \qquad \text{vs.} \qquad H_1: q_{0.90} > 30. \] Como la alternativa es de cola derecha, se utiliza el estadístico \[ T_2 = \sum_{i=1}^{423} I\{X_i < 30 \} \]

T2 <- sum(calif < 30); T2

## [1] 363

\(T_2\) se compara con el cuantil 0.90 de la distribución \(Bin(423, 0.90)\):

qbinom(0.9, 423, 0.9)

## [1] 389

Como \(T_2 = 363 \leq 389\) se concluye no rechazar \(H_0\), esto es, no hay evidencia sufienciente para rechazar que el 90% de las escuelas tengan porcentajes de excelencia menores a 30%, con un tamaño de prueba (aproximado) \(\alpha = 0.1\) (el tamaño exacto es 0.073259).

Intervalos de confianza para cuantiles

El problema de hacer inferencias sobre los cuantiles es el inverso de hacer inferencias sobre proporciones. Para proporciones, se fija una constante \(x_0\) y el objetivo es hacer inferencias sobre \(F(x_0)\). Con los cuantiles se fija \(p_0\) y el objetivo es hacer inferecias sobre \(x^* = Q^{-1}(p_0)\).
Los intervalos de confianza para cuantiles se conforman de posibles valores para el verdadero cuantil de la distribución y se basan en los estadísticos de orden de la muestra. El objetivo es encontrar enteros \(\ell\) y \(u\), \(\ell, u \in\{1, \ldots, n\}\) tales que \[ P\left\lbrace X_{(\ell)} \leq x^* \leq X_{(u)} \right\rbrace \geq 1 - \alpha. \] De esta forma \(X_{(\ell)}\) y \(X_{(u)}\) forman un intervalo de confianza \(1-\alpha\) para \(x^*\).
El evento \(\left\lbrace X_{(\ell)} \leq x^* \leq X_{(u)} \right\rbrace\) es equivalente al evento \(\{X_{(u)}\geq x^*\} \setminus \{X_{(\ell)} > x^*\}\) y como \(\{X_{(\ell)}>x^*\} \subset \{X_{(u)}\geq x^*\}\), se sigue que \[ P\left\lbrace X_{(\ell)} \leq x^* \leq X_{(u)} \right\rbrace = P\{X_{(u)} \geq x^* \} - P\{X_{(\ell)}>x^*\}. \]
Si \(x^*\) es el verdadero cuantil \(p\) de la distribución \(F\), entonces \[ F(x^*) = P(X \leq x^*) \geq p \qquad \text{y} \qquad F(x^*-) = P(X < x^*) \leq p. \] De lo anterior se sigue que \(P\{X \geq x^* \} \geq 1 - p\) y \(P\{X > x^*\} \leq 1 - p\).

Intervalos de confiaza para cuantiles

Para \(t \in \{1, \ldots, n\}\), se puede mostrar que \[ P\{X_{(t)} \geq x^*\} \geq \sum_{k=1}^{t-1} \binom{n}{k}p^k(1-p)^{n-k} \quad \text{y} \quad P\{X_{(t)} > x^* \} \leq \sum_{k=1}^{t-1} \binom{n}{k}p^k(1-p)^{n-k}. \] (véase Conover, 1980: 115-116.)
Si se eligen \(\ell\) y \(u\) tales que \[ \sum_{k=1}^{\ell-1} \binom{n}{k}p^k(1-p)^{n-k} \approx \alpha_1 \qquad \text{y} \qquad \sum_{k=1}^{u-1} \binom{n}{k}p^k(1-p)^{n-k} \approx 1 - \alpha_2, \] con \(\alpha_1 + \alpha_2 = \alpha\), entonces \[\begin{align*} P\left\lbrace X_{(\ell)} \leq x^* \leq X_{(u)} \right\rbrace &= P\{X_{(u)} \geq x^* \} - P\{X_{(\ell)}>x^*\} \\ &\geq \sum_{k=1}^{u-1} \binom{n}{k}p^k(1-p)^{n-k} - \sum_{k=1}^{\ell-1} \binom{n}{k}p^k(1-p)^{n-k} \\ &\geq 1- \alpha_1 - \alpha_2 \\ &\approx 1 - \alpha. \end{align*}\]
Por lo que un intervalo de confianza \(100(1-\alpha)\%\) para \(x^*\) está dado por \[ \left(X_{(\ell)}, X_{(u)} \right). \]

Ejemplo: intervalos de confianza

La mediana (el cuantil 0.50) de la distribución \(Exp(1)\) es \(\log(2)\). Comprobar la cobertura de los intervalos de confianza obtenidos a partir de los estadísticos de orden usando muestras de tamaño \(n = 25\) y \(m = 5,000\) repeticiones.

Se construirán intervalos de confianza 95% (aproximadamente, depende de los cuantiles de la distribución binomial), por lo que \(\alpha \approx 0.05\). En este caso \(p = 0.5\) y se eligen \(\alpha_1 = \alpha_2 \approx 0.025\).
La función pbinom calcula las probabilidades acumuladas de la distribución binomial. A continuación se muestran las probabilidades acumuladas de la distribución \(Bin(25, 0.5)\) (redondeadas a 5 decimales).

##       0       1       2       3       4       5       6       7       8 
## 0.00000 0.00000 0.00001 0.00008 0.00046 0.00204 0.00732 0.02164 0.05388 
##       9      10      11      12      13      14      15      16      17 
## 0.11476 0.21218 0.34502 0.50000 0.65498 0.78782 0.88524 0.94612 0.97836 
##      18      19      20      21      22      23      24      25 
## 0.99268 0.99796 0.99954 0.99992 0.99999 1.00000 1.00000 1.00000

De los resultados anteriores se ve que \(\ell = 8\) y \(u = 18\) se cumple \[ \sum_{k=1}^{\ell-1} \binom{n}{k}p^k(1-p)^{n-k} = 0.02164 \qquad \text{y} \qquad \sum_{k=1}^{u-1} \binom{n}{k}p^k(1-p)^{n-k} = 0.97836, \] de donde se sigue que \(\alpha_1 = \alpha_2 = 0.02164\), por lo que \(\alpha = 0.04328\), que resulta en un intervalo de confianza 95.8%, muy cercana a la específicada. Se debe notar que si se toman otros valores de \(\ell\) y \(u\) la confianza que resulta se aleja demasiado de 95%.
Por lo tanto, para una muestra de tamaño \(n=25\), el intervalo de confianza 95.8% para la mediana está dado por \(X_{(8)}\) y \(X_{(18)}\).
Con el siguiente código se comprueba la cobertura del intervalo del confianza para la mediana. Se generan \(m=5,000\) muestras de tamaño \(n=25\) de la distribución \(Exp(1)\), para cada muestra se verifica si el intervalo contiene o no a la verdadera mediana \(\log(2)\), finalmente se calcula el porcentaje de intervalos que sí contienen a la mediana.

cobertura <- c()
for(j in 1:5000)
{
  muestra <- rexp(25)
  xl <- sort(muestra)[8]
  xu <- sort(muestra)[18]
  cobertura[j] <- (xl <= log(2)) & (log(2) <= xu) + 0
}
pct_cobertura <- 100 * sum(cobertura) / 5000
pct_cobertura

## [1] 96.08

Como se puede ver en los resultados, de los \(5,000\) intervalos calculados, el 96.1% sí contiene a la verdadera mediana de la distribución. Este porcentaje es muy cercano al 95.8% especificado. Si se corre el código varias veces, se obtienen porcentajes de cobertura cercanos a 95.8%.