Javier Santibáñez
30/11/2017
Se tiene una muestra aleatoria de tamaño \(n\) de una distribución \(Ga(3, \lambda)\), \(\lambda > 0\) desconocido. Se tiene interés en constrastar las hipótesis \[ H_0: \lambda = \lambda_0 \qquad. \text{vs.} \qquad H_1: \lambda = \lambda_1, \] con \(\lambda_0 < \lambda_1\) constantes conocidas. Responder lo siguiente.
Encontrar la prueba basada en el cociente de verosimilitudes e tamaño \(\alpha\) para contrastar las hipótesis anteriores.
Encontrar la prueba más potente de tamaño \(\alpha = 0.01\) si \(n = 15\), \(\lambda_0 = 3\) y \(\lambda_1 = 5\).
Calcular la potencia de la prueba anterior.
Concluir si se rechaza \(H_0\) si los datos obtenidos son
## [1] 0.8749 0.4135 1.3455 2.1436 1.2900 1.3653 0.8692 0.2490 0.5526 1.3482
## [11] 0.5055 0.7681 0.8234 0.7113 0.9142
De manera similar se concluye que bajo \(H_1\) la verosimilitud es \[ L(\lambda_1\,\vert\,\mathbf{x}) = \frac{\lambda_1^{3n}}{2^n} \left(\prod_{i=1}^n x_i^2 \right) e^{-\lambda_1 \sum_{i=1}^n x_i}. \]
Entonces, el cociente de verosimilitudes es \[ \Lambda = \frac{ L(\lambda_0 \,\vert\, \mathbf{x})}{ L(\lambda_1 \,\vert\, \mathbf{x})} = \left(\frac{\lambda_0}{\lambda_1}\right)^{3n} e^{(\lambda_1-\lambda_0)\sum_{i=1}^n x_i} \]
La prueba basada en el cociente de verosimilitudes tiene región de rechazo \[ \Lambda < k \] donde \(k\) debe ser determinado para tener un tamaño de prueba \(\alpha\). \[\begin{align*} \lambda < k_1 &\Leftrightarrow \left(\frac{\lambda_0}{\lambda_1}\right)^{3n} e^{(\lambda_1-\lambda_0)\sum_{i=1}^n x_i} < k_1\\ &\Leftrightarrow e^{(\lambda_1-\lambda_0)\sum_{i=1}^n x_i} < k_2 \\ &\Leftrightarrow (\lambda_1-\lambda_0)\sum_{i=1}^n x_i < k_3 \\ &\Leftrightarrow \sum_{i=1}^n x_i < k_4 \end{align*}\]donde \(k_2 = k_1 \left(\frac{\lambda_1}{\lambda_0}\right)^{3n}\), \(k_3 = \log{k_2}\) y \(k_4 = k_3/(\lambda_1 - \lambda_0)\).
Por lo tanto, la prueba basada en el cociente de verosimilitudes tiene una región de rechazo que es equivalente a \[ \sum_{i=1}^n x_i < k \] donde aún hace falta determinar \(k\) para tener un tamaño de prueba \(\alpha\), es decir, \(k\) debe cumplir con \[ Pr(\sum_{i=1}^nX_i < k \,\vert\, H_0) = \alpha \] De lo anterior se sigue que \(k\) debe ser el cuantil \(\alpha\) de la distribución de \(\sum_{i=1}^nX_i\) bajo \(H_0\). Resulta que bajo \(H_0\), la distribución de \(\sum_{i=1}^n X_i\) es \(Ga(3n, \lambda_0)\). Por lo tanto, \(k\) es el cuantil \(\alpha\) de la distribución \(Ga(3n, \lambda_0)\), \(k = \gamma^{(\alpha)}_{(3n, \lambda_0)}\).
Si \(\alpha = 0.01\), \(\lambda_0 = 3\) y \(n=15\), entonces podemos utilizar \(k = \gamma^{(0.01)}_{(45, 3)}\). Podemos utilizar R
para calcular este cuantil.
k <- qgamma(0.01, 45, 3)
k
## [1] 10.29235
La potencia de la prueba es la probabilidad de rechazar \(H_0\) bajo el supuesto que \(H_1\) es verdadera, en nuestro caso \[
\pi = Pr(\sum_{i=1}^nX_i < 10.3 \,\vert\, H_1)
\] bajo \(H_1\) la distribución de \(\sum_{i=1}^nX_i\) es \(Ga(45, 5)\). Podemos usar R
para calcular la probabilida anterior
potencia <- pgamma(k, 45, 5)
potencia
## [1] 0.8339306
Datos los datos, soló necesitamos calcular \(\sum_{i=1}^nx_i\) para decidir si se rechaza \(H_0\) o no. Los datos están almacenados en un vector llamado x
.
sum(x)
## [1] 14.17457
Como \(\sum_{i=1}^nx_i = 17.4 > k = 10.4\), la muestra no cae en la región de rechazo y entonces concluimos que no hay evidencia suficiente para rechazar \(H_0\).
Además de concluir si la hipótesis se rechaza o no, se acostumbra reportar una cantidad nombrada p-value, que corresponde a la probabilidad de observar un conjunto de datos más extremos que los observados, en el sentido dado por la región de rechazo de la prueba utilizada, bajo el supuesto que \(H_0\) es verdadera.
El p-value se utiliza como evidencia en contra de \(H_0\). De manera que valores pequeños (cercanos a cero) proporcionan evidencia fuerte en contra de la hipótesis nula, ya que indican que la probabilidad de observar una muestra más extrema que la actual es pequeña.
En nuestro caso, la región de rechazo es \(\{\mathbf{x}:\sum_{i=1}^nx_i < 10.3 \}\) y para nuestro conjunto de datos, \(\sum_{i=1}^nx_i = 17.4\), por lo que el p-value se calcula como \[
p = Pr(\sum_{i=1}^nX_i < 17.4 \,\vert\,H_0)
\] Como ya se había mencionado, bajo \(H_0\), \(\sum_{i=1}^nX_i \sim Ga(45, 3)\). Podemos utilizar R
para calcular la probabilidad anterior.
pgamma(sum(x), 45, 3)
## [1] 0.3721384
Por lo tanto, el p-value es 0.85, lo que significa que los datos observados no son tan extremos como para indicar evidencia en contra de \(H_0\).
Se tiene una muestra aleatoria de tamaño \(n\) de una distribución \(N(\mu_1, \sigma^2)\), \(\mu \in \mathbb{R}\) desconocida y \(\sigma > 0\) conocida. Se tiene interés en constrastar las hipótesis \[ H_0: \mu = \mu_0 \qquad. \text{vs.} \qquad H_1: \mu = \mu_1, \] con \(\mu_0 < \mu_1\) constantes conocidas. Responder lo siguiente.
Encontrar la prueba basada en el cociente de verosimilitudes e tamaño \(\alpha\) para contrastar las hipótesis anteriores.
Encontrar la prueba más potente de tamaño \(\alpha = 0.01\) si \(n = 12\), \(\mu_0 = 1\), \(\mu_1 = 3\) y \(\sigma = 2\).
Calcular la potencia de la prueba anterior.
Concluir si se rechaza \(H_0\) si los datos obtenidos son
## [1] 1.5952 1.5684 3.6697 4.9297 1.5675 4.4246 2.1279 4.9775
## [9] 2.8624 1.3961 2.9282 -0.1757
De manera similar se concluye que bajo \(H_1\) la verosimilitud es \[ L(\mu_1\,\vert\,\mathbf{x}) = \left(\sigma\sqrt{2\pi}\right)^{-n} \exp\left\lbrace -\frac{1}{2\sigma^2} \sum_{i=1}^n(x_i - \mu_1)^2 \right\rbrace \]
Entonces, el cociente de verosimilitudes es \[ \Lambda = \frac{ L(\mu_0 \,\vert\, \mathbf{x})}{ L(\mu_1 \,\vert\, \mathbf{x})} = \exp\left\lbrace \frac{1}{2\sigma^2}\left( \sum_{i=1}^n(x_i - \mu_1)^2 - \sum_{i=1}^n(x_i - \mu_0)^2 \right)\right\rbrace \]
Haciendo algunas operaciones adicionales se llega a la expresión \[ \Lambda = \exp\left\lbrace \frac{(\mu_0-\mu_1)}{\sigma^2}\sum_{i=1}^n x_i \right\rbrace \exp\left\lbrace \frac{n(\mu_1^2 - \mu_0^2)}{2\sigma^2}\right\rbrace \]
La prueba basada en el cociente de verosimilitudes tiene región de rechazo \[ \Lambda < k \] donde \(k\) debe ser determinado para tener un tamaño de prueba \(\alpha\). \[\begin{align*} \lambda < k_1 &\Leftrightarrow \exp\left\lbrace \frac{(\mu_0-\mu_1)}{\sigma^2}\sum_{i=1}^n x_i \right\rbrace \exp\left\lbrace \frac{n(\mu_1^2 - \mu_0^2)}{2\sigma^2}\right\rbrace < k_1\\ &\Leftrightarrow exp\left\lbrace \frac{(\mu_0-\mu_1)}{\sigma^2}\sum_{i=1}^n x_i \right\rbrace < k_2 \\ &\Leftrightarrow (\mu_0-\mu_1)\sum_{i=1}^n x_i < k_3 \\ &\Leftrightarrow \sum_{i=1}^n x_i > k_4 \\ &\Leftrightarrow \bar{x}_n > k_5 \end{align*}\]donde \(k_2 = k_1 \exp\left\lbrace \frac{n(\mu_0^2 - \mu_1^2)}{2\sigma^2}\right\rbrace\), \(k_3 = \log{k_2}\), \(k_4 = k_3/(\mu_0 - \mu_1)\) y \(k_5 = k_4/n\). Como \(\mu_0 < \mu_1\) se cambia el signo de la desigualdad.
Por lo tanto, la prueba basada en el cociente de verosimilitudes tiene una región de rechazo que es equivalente a \[ \bar{x}_n > k \] donde aún hace falta determinar \(k\) para tener un tamaño de prueba \(\alpha\), es decir, \(k\) debe cumplir con \[ Pr(\bar{X}_n > k \,\vert\, H_0) = \alpha \] De lo anterior se sigue que \(k\) debe ser el cuantil \(1-\alpha\) de la distribución de \(\bar{X}_n\) bajo \(H_0\). Resulta que bajo \(H_0\), la distribución de \(\bar{X}_n\) es \(N(\mu_0, \sigma^2/n)\). Por lo tanto, \(k\) es el cuantil \(\alpha\) de la distribución \(N(\mu_0, \sigma^2/n)\).
Si \(\alpha = 0.01\), \(\lambda_0 = 1\), \(n=12\) y \(\sigma^2 = 4\). Podemos utilizar R
para calcular este cuantil.
k <- qnorm(0.99, 1, sqrt(4/12))
k
## [1] 2.343118
La potencia de la prueba es la probabilidad de rechazar \(H_0\) bajo el supuesto que \(H_1\) es verdadera, en nuestro caso \[
\pi = Pr(\bar{X}_n > 2.34 \,\vert\, H_1)
\] bajo \(H_1\) la distribución de \(\sum_{i=1}^nX_i\) es \(Ga(45, 5)\). Podemos usar R
para calcular la probabilida anterior
potencia <- pnorm(k, 3, sqrt(4/12), lower.tail = F)
potencia
## [1] 0.8723883
Datos los datos, soló necesitamos calcular \(\sum_{i=1}^nx_i\) para decidir si se rechaza \(H_0\) o no. Los datos están almacenados en un vector llamado x
.
mean(x)
## [1] 2.655953
Como \(\bar{x}_n = 2.65 > k = 2.34\), la muestra cae en la región de rechazo y entonces concluimos que hay evidencia suficiente para rechazar \(H_0\).
El p-value se calcula como sigue
pnorm(mean(x), 1, sqrt(4/12), lower.tail = F)
## [1] 0.002064109