Contraste de hipótesis

Ejemplos. Caso Simple vs. Simple

Javier Santibáñez

30/11/2017

Ejemplo 1

Se tiene una muestra aleatoria de tamaño \(n\) de una distribución \(Ga(3, \lambda)\), \(\lambda > 0\) desconocido. Se tiene interés en constrastar las hipótesis \[ H_0: \lambda = \lambda_0 \qquad. \text{vs.} \qquad H_1: \lambda = \lambda_1, \] con \(\lambda_0 < \lambda_1\) constantes conocidas. Responder lo siguiente.

Encontrar la prueba basada en el cociente de verosimilitudes e tamaño \(\alpha\) para contrastar las hipótesis anteriores.
Encontrar la prueba más potente de tamaño \(\alpha = 0.01\) si \(n = 15\), \(\lambda_0 = 3\) y \(\lambda_1 = 5\).
Calcular la potencia de la prueba anterior.
Concluir si se rechaza \(H_0\) si los datos obtenidos son

##  [1] 0.8749 0.4135 1.3455 2.1436 1.2900 1.3653 0.8692 0.2490 0.5526 1.3482
## [11] 0.5055 0.7681 0.8234 0.7113 0.9142

Solución ejemplo 1

Primera parte

Bajo \(H_0\) la distribución de los datos es \(Ga(3, \lambda_0\)), entonces la verosimilitud bajo \(H_0\) es \[\begin{align*} L(\lambda_0 \,\vert\, \mathbf{x}) &= \prod_{i=1}^n Ga(x_i \,\vert\, 3, \lambda_0) \\ &= \prod_{i=1}^n \frac{\lambda^3}{2}x^2 e^{-\lambda_0x_i} \\ &= \frac{\lambda_0^{3n}}{2^n} \left(\prod_{i=1}^n x_i^2 \right) e^{-\lambda_0 \sum_{i=1}^n x_i}. \end{align*}\]

De manera similar se concluye que bajo \(H_1\) la verosimilitud es \[ L(\lambda_1\,\vert\,\mathbf{x}) = \frac{\lambda_1^{3n}}{2^n} \left(\prod_{i=1}^n x_i^2 \right) e^{-\lambda_1 \sum_{i=1}^n x_i}. \]

Entonces, el cociente de verosimilitudes es \[ \Lambda = \frac{ L(\lambda_0 \,\vert\, \mathbf{x})}{ L(\lambda_1 \,\vert\, \mathbf{x})} = \left(\frac{\lambda_0}{\lambda_1}\right)^{3n} e^{(\lambda_1-\lambda_0)\sum_{i=1}^n x_i} \]

La prueba basada en el cociente de verosimilitudes tiene región de rechazo \[ \Lambda < k \] donde \(k\) debe ser determinado para tener un tamaño de prueba \(\alpha\). \[\begin{align*} \lambda < k_1 &\Leftrightarrow \left(\frac{\lambda_0}{\lambda_1}\right)^{3n} e^{(\lambda_1-\lambda_0)\sum_{i=1}^n x_i} < k_1\\ &\Leftrightarrow e^{(\lambda_1-\lambda_0)\sum_{i=1}^n x_i} < k_2 \\ &\Leftrightarrow (\lambda_1-\lambda_0)\sum_{i=1}^n x_i < k_3 \\ &\Leftrightarrow \sum_{i=1}^n x_i < k_4 \end{align*}\]

donde \(k_2 = k_1 \left(\frac{\lambda_1}{\lambda_0}\right)^{3n}\), \(k_3 = \log{k_2}\) y \(k_4 = k_3/(\lambda_1 - \lambda_0)\).

Por lo tanto, la prueba basada en el cociente de verosimilitudes tiene una región de rechazo que es equivalente a \[ \sum_{i=1}^n x_i < k \] donde aún hace falta determinar \(k\) para tener un tamaño de prueba \(\alpha\), es decir, \(k\) debe cumplir con \[ Pr(\sum_{i=1}^nX_i < k \,\vert\, H_0) = \alpha \] De lo anterior se sigue que \(k\) debe ser el cuantil \(\alpha\) de la distribución de \(\sum_{i=1}^nX_i\) bajo \(H_0\). Resulta que bajo \(H_0\), la distribución de \(\sum_{i=1}^n X_i\) es \(Ga(3n, \lambda_0)\). Por lo tanto, \(k\) es el cuantil \(\alpha\) de la distribución \(Ga(3n, \lambda_0)\), \(k = \gamma^{(\alpha)}_{(3n, \lambda_0)}\).

Segunda parte

Si \(\alpha = 0.01\), \(\lambda_0 = 3\) y \(n=15\), entonces podemos utilizar \(k = \gamma^{(0.01)}_{(45, 3)}\). Podemos utilizar R para calcular este cuantil.

k <- qgamma(0.01, 45, 3)
k

## [1] 10.29235

Tercera parte

La potencia de la prueba es la probabilidad de rechazar \(H_0\) bajo el supuesto que \(H_1\) es verdadera, en nuestro caso \[ \pi = Pr(\sum_{i=1}^nX_i < 10.3 \,\vert\, H_1) \] bajo \(H_1\) la distribución de \(\sum_{i=1}^nX_i\) es \(Ga(45, 5)\). Podemos usar R para calcular la probabilida anterior

potencia <- pgamma(k, 45, 5)
potencia

## [1] 0.8339306

Cuarta parte

Datos los datos, soló necesitamos calcular \(\sum_{i=1}^nx_i\) para decidir si se rechaza \(H_0\) o no. Los datos están almacenados en un vector llamado x.

sum(x)

## [1] 14.17457

Como \(\sum_{i=1}^nx_i = 17.4 > k = 10.4\), la muestra no cae en la región de rechazo y entonces concluimos que no hay evidencia suficiente para rechazar \(H_0\).

Adicional

Además de concluir si la hipótesis se rechaza o no, se acostumbra reportar una cantidad nombrada p-value, que corresponde a la probabilidad de observar un conjunto de datos más extremos que los observados, en el sentido dado por la región de rechazo de la prueba utilizada, bajo el supuesto que \(H_0\) es verdadera.
El p-value se utiliza como evidencia en contra de \(H_0\). De manera que valores pequeños (cercanos a cero) proporcionan evidencia fuerte en contra de la hipótesis nula, ya que indican que la probabilidad de observar una muestra más extrema que la actual es pequeña.
En nuestro caso, la región de rechazo es \(\{\mathbf{x}:\sum_{i=1}^nx_i < 10.3 \}\) y para nuestro conjunto de datos, \(\sum_{i=1}^nx_i = 17.4\), por lo que el p-value se calcula como \[ p = Pr(\sum_{i=1}^nX_i < 17.4 \,\vert\,H_0) \] Como ya se había mencionado, bajo \(H_0\), \(\sum_{i=1}^nX_i \sim Ga(45, 3)\). Podemos utilizar R para calcular la probabilidad anterior.

pgamma(sum(x), 45, 3)

## [1] 0.3721384

Por lo tanto, el p-value es 0.85, lo que significa que los datos observados no son tan extremos como para indicar evidencia en contra de \(H_0\).

Ejemplo 2

Se tiene una muestra aleatoria de tamaño \(n\) de una distribución \(N(\mu_1, \sigma^2)\), \(\mu \in \mathbb{R}\) desconocida y \(\sigma > 0\) conocida. Se tiene interés en constrastar las hipótesis \[ H_0: \mu = \mu_0 \qquad. \text{vs.} \qquad H_1: \mu = \mu_1, \] con \(\mu_0 < \mu_1\) constantes conocidas. Responder lo siguiente.

Encontrar la prueba basada en el cociente de verosimilitudes e tamaño \(\alpha\) para contrastar las hipótesis anteriores.
Encontrar la prueba más potente de tamaño \(\alpha = 0.01\) si \(n = 12\), \(\mu_0 = 1\), \(\mu_1 = 3\) y \(\sigma = 2\).
Calcular la potencia de la prueba anterior.
Concluir si se rechaza \(H_0\) si los datos obtenidos son

##  [1]  1.5952  1.5684  3.6697  4.9297  1.5675  4.4246  2.1279  4.9775
##  [9]  2.8624  1.3961  2.9282 -0.1757

Solución ejemplo 2

Primera parte

Bajo \(H_0\) la distribución de los datos es \(N(\mu_0, \sigma^2)\), entonces la verosimilitud bajo \(H_0\) es \[\begin{align*} L(\lambda_0 \,\vert\, \mathbf{x}) &= \prod_{i=1}^n N(x_i \,\vert\, \mu_0, \sigma^2) \\ &= \prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x_i-\mu_0)^2}{2\sigma^2}}\\ &= \left(\sigma \sqrt{2\pi}\right)^{-n} \exp\left\lbrace -\frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu_0)^2 \right\rbrace \end{align*}\]

De manera similar se concluye que bajo \(H_1\) la verosimilitud es \[ L(\mu_1\,\vert\,\mathbf{x}) = \left(\sigma\sqrt{2\pi}\right)^{-n} \exp\left\lbrace -\frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu_1)^2 \right\rbrace \]

Entonces, el cociente de verosimilitudes es \[ \Lambda = \frac{ L(\mu_0 \,\vert\, \mathbf{x})}{ L(\mu_1 \,\vert\, \mathbf{x})} = \exp\left\lbrace \frac{1}{2\sigma^2}\left( \sum_{i=1}^n(x_i - \mu_1)^2 - \sum_{i=1}^n(x_i - \mu_0)^2 \right)\right\rbrace \]

Haciendo algunas operaciones adicionales se llega a la expresión \[ \Lambda = \exp\left\lbrace \frac{(\mu_0-\mu_1)}{\sigma^2}\sum_{i=1}^n x_i \right\rbrace \exp\left\lbrace \frac{n(\mu_1^2 - \mu_0^2)}{2\sigma^2}\right\rbrace \]

La prueba basada en el cociente de verosimilitudes tiene región de rechazo \[ \Lambda < k \] donde \(k\) debe ser determinado para tener un tamaño de prueba \(\alpha\). \[\begin{align*} \lambda < k_1 &\Leftrightarrow \exp\left\lbrace \frac{(\mu_0-\mu_1)}{\sigma^2}\sum_{i=1}^n x_i \right\rbrace \exp\left\lbrace \frac{n(\mu_1^2 - \mu_0^2)}{2\sigma^2}\right\rbrace < k_1\\ &\Leftrightarrow exp\left\lbrace \frac{(\mu_0-\mu_1)}{\sigma^2}\sum_{i=1}^n x_i \right\rbrace < k_2 \\ &\Leftrightarrow (\mu_0-\mu_1)\sum_{i=1}^n x_i < k_3 \\ &\Leftrightarrow \sum_{i=1}^n x_i > k_4 \\ &\Leftrightarrow \bar{x}_n > k_5 \end{align*}\]

donde \(k_2 = k_1 \exp\left\lbrace \frac{n(\mu_0^2 - \mu_1^2)}{2\sigma^2}\right\rbrace\), \(k_3 = \log{k_2}\), \(k_4 = k_3/(\mu_0 - \mu_1)\) y \(k_5 = k_4/n\). Como \(\mu_0 < \mu_1\) se cambia el signo de la desigualdad.

Por lo tanto, la prueba basada en el cociente de verosimilitudes tiene una región de rechazo que es equivalente a \[ \bar{x}_n > k \] donde aún hace falta determinar \(k\) para tener un tamaño de prueba \(\alpha\), es decir, \(k\) debe cumplir con \[ Pr(\bar{X}_n > k \,\vert\, H_0) = \alpha \] De lo anterior se sigue que \(k\) debe ser el cuantil \(1-\alpha\) de la distribución de \(\bar{X}_n\) bajo \(H_0\). Resulta que bajo \(H_0\), la distribución de \(\bar{X}_n\) es \(N(\mu_0, \sigma^2/n)\). Por lo tanto, \(k\) es el cuantil \(\alpha\) de la distribución \(N(\mu_0, \sigma^2/n)\).

Segunda parte

Si \(\alpha = 0.01\), \(\lambda_0 = 1\), \(n=12\) y \(\sigma^2 = 4\). Podemos utilizar R para calcular este cuantil.

k <- qnorm(0.99, 1, sqrt(4/12))
k

## [1] 2.343118

Tercera parte

La potencia de la prueba es la probabilidad de rechazar \(H_0\) bajo el supuesto que \(H_1\) es verdadera, en nuestro caso \[ \pi = Pr(\bar{X}_n > 2.34 \,\vert\, H_1) \] bajo \(H_1\) la distribución de \(\sum_{i=1}^nX_i\) es \(Ga(45, 5)\). Podemos usar R para calcular la probabilida anterior

potencia <- pnorm(k, 3, sqrt(4/12), lower.tail = F)
potencia

## [1] 0.8723883

Cuarta parte

Datos los datos, soló necesitamos calcular \(\sum_{i=1}^nx_i\) para decidir si se rechaza \(H_0\) o no. Los datos están almacenados en un vector llamado x.

mean(x)

## [1] 2.655953

Como \(\bar{x}_n = 2.65 > k = 2.34\), la muestra cae en la región de rechazo y entonces concluimos que hay evidencia suficiente para rechazar \(H_0\).

El p-value se calcula como sigue

pnorm(mean(x), 1, sqrt(4/12), lower.tail = F)

## [1] 0.002064109