Contraste de hipótesis

Ejemplos. Caso Simple vs. Simple

Javier Santibáñez

30/11/2017

Ejemplo 1

Se tiene una muestra aleatoria de tamaño \(n\) de una distribución \(Ga(3, \lambda)\), \(\lambda > 0\) desconocido. Se tiene interés en constrastar las hipótesis \[ H_0: \lambda = \lambda_0 \qquad. \text{vs.} \qquad H_1: \lambda = \lambda_1, \] con \(\lambda_0 < \lambda_1\) constantes conocidas. Responder lo siguiente.

##  [1] 0.8749 0.4135 1.3455 2.1436 1.2900 1.3653 0.8692 0.2490 0.5526 1.3482
## [11] 0.5055 0.7681 0.8234 0.7113 0.9142

Solución ejemplo 1

Primera parte

Bajo \(H_0\) la distribución de los datos es \(Ga(3, \lambda_0\)), entonces la verosimilitud bajo \(H_0\) es \[\begin{align*} L(\lambda_0 \,\vert\, \mathbf{x}) &= \prod_{i=1}^n Ga(x_i \,\vert\, 3, \lambda_0) \\ &= \prod_{i=1}^n \frac{\lambda^3}{2}x^2 e^{-\lambda_0x_i} \\ &= \frac{\lambda_0^{3n}}{2^n} \left(\prod_{i=1}^n x_i^2 \right) e^{-\lambda_0 \sum_{i=1}^n x_i}. \end{align*}\]

De manera similar se concluye que bajo \(H_1\) la verosimilitud es \[ L(\lambda_1\,\vert\,\mathbf{x}) = \frac{\lambda_1^{3n}}{2^n} \left(\prod_{i=1}^n x_i^2 \right) e^{-\lambda_1 \sum_{i=1}^n x_i}. \]

Entonces, el cociente de verosimilitudes es \[ \Lambda = \frac{ L(\lambda_0 \,\vert\, \mathbf{x})}{ L(\lambda_1 \,\vert\, \mathbf{x})} = \left(\frac{\lambda_0}{\lambda_1}\right)^{3n} e^{(\lambda_1-\lambda_0)\sum_{i=1}^n x_i} \]

La prueba basada en el cociente de verosimilitudes tiene región de rechazo \[ \Lambda < k \] donde \(k\) debe ser determinado para tener un tamaño de prueba \(\alpha\). \[\begin{align*} \lambda < k_1 &\Leftrightarrow \left(\frac{\lambda_0}{\lambda_1}\right)^{3n} e^{(\lambda_1-\lambda_0)\sum_{i=1}^n x_i} < k_1\\ &\Leftrightarrow e^{(\lambda_1-\lambda_0)\sum_{i=1}^n x_i} < k_2 \\ &\Leftrightarrow (\lambda_1-\lambda_0)\sum_{i=1}^n x_i < k_3 \\ &\Leftrightarrow \sum_{i=1}^n x_i < k_4 \end{align*}\]

donde \(k_2 = k_1 \left(\frac{\lambda_1}{\lambda_0}\right)^{3n}\), \(k_3 = \log{k_2}\) y \(k_4 = k_3/(\lambda_1 - \lambda_0)\).

Por lo tanto, la prueba basada en el cociente de verosimilitudes tiene una región de rechazo que es equivalente a \[ \sum_{i=1}^n x_i < k \] donde aún hace falta determinar \(k\) para tener un tamaño de prueba \(\alpha\), es decir, \(k\) debe cumplir con \[ Pr(\sum_{i=1}^nX_i < k \,\vert\, H_0) = \alpha \] De lo anterior se sigue que \(k\) debe ser el cuantil \(\alpha\) de la distribución de \(\sum_{i=1}^nX_i\) bajo \(H_0\). Resulta que bajo \(H_0\), la distribución de \(\sum_{i=1}^n X_i\) es \(Ga(3n, \lambda_0)\). Por lo tanto, \(k\) es el cuantil \(\alpha\) de la distribución \(Ga(3n, \lambda_0)\), \(k = \gamma^{(\alpha)}_{(3n, \lambda_0)}\).

Segunda parte

Si \(\alpha = 0.01\), \(\lambda_0 = 3\) y \(n=15\), entonces podemos utilizar \(k = \gamma^{(0.01)}_{(45, 3)}\). Podemos utilizar R para calcular este cuantil.

k <- qgamma(0.01, 45, 3)
k
## [1] 10.29235

Tercera parte

La potencia de la prueba es la probabilidad de rechazar \(H_0\) bajo el supuesto que \(H_1\) es verdadera, en nuestro caso \[ \pi = Pr(\sum_{i=1}^nX_i < 10.3 \,\vert\, H_1) \] bajo \(H_1\) la distribución de \(\sum_{i=1}^nX_i\) es \(Ga(45, 5)\). Podemos usar R para calcular la probabilida anterior

potencia <- pgamma(k, 45, 5)
potencia
## [1] 0.8339306

Cuarta parte

Datos los datos, soló necesitamos calcular \(\sum_{i=1}^nx_i\) para decidir si se rechaza \(H_0\) o no. Los datos están almacenados en un vector llamado x.

sum(x)
## [1] 14.17457

Como \(\sum_{i=1}^nx_i = 17.4 > k = 10.4\), la muestra no cae en la región de rechazo y entonces concluimos que no hay evidencia suficiente para rechazar \(H_0\).

Adicional

pgamma(sum(x), 45, 3)
## [1] 0.3721384

Por lo tanto, el p-value es 0.85, lo que significa que los datos observados no son tan extremos como para indicar evidencia en contra de \(H_0\).

Ejemplo 2

Se tiene una muestra aleatoria de tamaño \(n\) de una distribución \(N(\mu_1, \sigma^2)\), \(\mu \in \mathbb{R}\) desconocida y \(\sigma > 0\) conocida. Se tiene interés en constrastar las hipótesis \[ H_0: \mu = \mu_0 \qquad. \text{vs.} \qquad H_1: \mu = \mu_1, \] con \(\mu_0 < \mu_1\) constantes conocidas. Responder lo siguiente.

##  [1]  1.5952  1.5684  3.6697  4.9297  1.5675  4.4246  2.1279  4.9775
##  [9]  2.8624  1.3961  2.9282 -0.1757

Solución ejemplo 2

Primera parte

Bajo \(H_0\) la distribución de los datos es \(N(\mu_0, \sigma^2)\), entonces la verosimilitud bajo \(H_0\) es \[\begin{align*} L(\lambda_0 \,\vert\, \mathbf{x}) &= \prod_{i=1}^n N(x_i \,\vert\, \mu_0, \sigma^2) \\ &= \prod_{i=1}^n \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x_i-\mu_0)^2}{2\sigma^2}}\\ &= \left(\sigma \sqrt{2\pi}\right)^{-n} \exp\left\lbrace -\frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu_0)^2 \right\rbrace \end{align*}\]

De manera similar se concluye que bajo \(H_1\) la verosimilitud es \[ L(\mu_1\,\vert\,\mathbf{x}) = \left(\sigma\sqrt{2\pi}\right)^{-n} \exp\left\lbrace -\frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu_1)^2 \right\rbrace \]

Entonces, el cociente de verosimilitudes es \[ \Lambda = \frac{ L(\mu_0 \,\vert\, \mathbf{x})}{ L(\mu_1 \,\vert\, \mathbf{x})} = \exp\left\lbrace \frac{1}{2\sigma^2}\left( \sum_{i=1}^n(x_i - \mu_1)^2 - \sum_{i=1}^n(x_i - \mu_0)^2 \right)\right\rbrace \]

Haciendo algunas operaciones adicionales se llega a la expresión \[ \Lambda = \exp\left\lbrace \frac{(\mu_0-\mu_1)}{\sigma^2}\sum_{i=1}^n x_i \right\rbrace \exp\left\lbrace \frac{n(\mu_1^2 - \mu_0^2)}{2\sigma^2}\right\rbrace \]

La prueba basada en el cociente de verosimilitudes tiene región de rechazo \[ \Lambda < k \] donde \(k\) debe ser determinado para tener un tamaño de prueba \(\alpha\). \[\begin{align*} \lambda < k_1 &\Leftrightarrow \exp\left\lbrace \frac{(\mu_0-\mu_1)}{\sigma^2}\sum_{i=1}^n x_i \right\rbrace \exp\left\lbrace \frac{n(\mu_1^2 - \mu_0^2)}{2\sigma^2}\right\rbrace < k_1\\ &\Leftrightarrow exp\left\lbrace \frac{(\mu_0-\mu_1)}{\sigma^2}\sum_{i=1}^n x_i \right\rbrace < k_2 \\ &\Leftrightarrow (\mu_0-\mu_1)\sum_{i=1}^n x_i < k_3 \\ &\Leftrightarrow \sum_{i=1}^n x_i > k_4 \\ &\Leftrightarrow \bar{x}_n > k_5 \end{align*}\]

donde \(k_2 = k_1 \exp\left\lbrace \frac{n(\mu_0^2 - \mu_1^2)}{2\sigma^2}\right\rbrace\), \(k_3 = \log{k_2}\), \(k_4 = k_3/(\mu_0 - \mu_1)\) y \(k_5 = k_4/n\). Como \(\mu_0 < \mu_1\) se cambia el signo de la desigualdad.

Por lo tanto, la prueba basada en el cociente de verosimilitudes tiene una región de rechazo que es equivalente a \[ \bar{x}_n > k \] donde aún hace falta determinar \(k\) para tener un tamaño de prueba \(\alpha\), es decir, \(k\) debe cumplir con \[ Pr(\bar{X}_n > k \,\vert\, H_0) = \alpha \] De lo anterior se sigue que \(k\) debe ser el cuantil \(1-\alpha\) de la distribución de \(\bar{X}_n\) bajo \(H_0\). Resulta que bajo \(H_0\), la distribución de \(\bar{X}_n\) es \(N(\mu_0, \sigma^2/n)\). Por lo tanto, \(k\) es el cuantil \(\alpha\) de la distribución \(N(\mu_0, \sigma^2/n)\).

Segunda parte

Si \(\alpha = 0.01\), \(\lambda_0 = 1\), \(n=12\) y \(\sigma^2 = 4\). Podemos utilizar R para calcular este cuantil.

k <- qnorm(0.99, 1, sqrt(4/12))
k
## [1] 2.343118

Tercera parte

La potencia de la prueba es la probabilidad de rechazar \(H_0\) bajo el supuesto que \(H_1\) es verdadera, en nuestro caso \[ \pi = Pr(\bar{X}_n > 2.34 \,\vert\, H_1) \] bajo \(H_1\) la distribución de \(\sum_{i=1}^nX_i\) es \(Ga(45, 5)\). Podemos usar R para calcular la probabilida anterior

potencia <- pnorm(k, 3, sqrt(4/12), lower.tail = F)
potencia
## [1] 0.8723883

Cuarta parte

Datos los datos, soló necesitamos calcular \(\sum_{i=1}^nx_i\) para decidir si se rechaza \(H_0\) o no. Los datos están almacenados en un vector llamado x.

mean(x)
## [1] 2.655953

Como \(\bar{x}_n = 2.65 > k = 2.34\), la muestra cae en la región de rechazo y entonces concluimos que hay evidencia suficiente para rechazar \(H_0\).

El p-value se calcula como sigue

pnorm(mean(x), 1, sqrt(4/12), lower.tail = F)
## [1] 0.002064109