21 de febrero de 2018

Prueba Lilliefors

La prueba Lilliefors es una adaptación de la prueba KS, esto es porque esta prueba se basa en la misma idea de Kolmogorov-Smirnov, sólo que aplicado al caso de \(Normalidad\), en este caso dada una muestra aleatoria \(X_1,\dots,X_n\) se desea hacer la siguiente prueba:

\[ H_0:F_X(x)=N(\mu,\sigma^2)\,\,\,v.s\,\,\,H_1:F_X(x)\neq N(\mu,\sigma^2) \]

La gran ventaja de esta prueba es que no necesariamente se tienen que conocer los parámetros exactos de la distribución, pues estos se podrian estimar sin mayor complejidad.

Procedimiento (\(\mu \,\,\, y \,\,\, \sigma^2\) desconocidas)

Si ambos parámetros se desconocen, entonces los estimaremos de la siguiente manera:

  • \(\hat{\mu}=\bar{X}=\frac{\sum_{i=1}^n X_i}{n}\)
  • \(\hat{\sigma}^2=S^2=\frac{\sum_{i=1}^n (X_i-\bar{X})^2}{n-1}\)

Lo hacemos de esta manera porque se ha demostrado que \(\bar{X}\) y \(S^2\) son estimadores insesgados para los parámetros \(\mu\) y \(\sigma^2\) respectivamente.

Después de estimar los parámetros procederemos a estandarizar nuestra muestra, es decir:

  • \(Z_i=\frac{X_i-\bar{X}}{S}\) con \(S=\sqrt{S^2}\)

De esta manera sabremos que bajo \(H_0\), \(Z_i \sim N(0,1)\).

Por lo tanto estariamos probando la siguiente hipótesis:

\[ H_0:F_Z(z)=N(0,1)\,\,\,v.s\,\,\,H_1:F_Z(z)\neq N(0,1) \] Y el estadístico de prueba sería:

\[ L_n=\sup_{z \in \mathbb{R}} \vert F_n(z)-F^*_Z(z)\vert =\sup_{z \in \mathbb{R}} \vert F_n(z)-\phi(z)\vert \]

Observemos dos aspectos importantes bajo \(H_0\):

  • La distribución de \(L_n\) no dependerá de parámetros desconocidos.
  • Si \(H_0\) es cierta entonces \(L_n\rightarrow 0\) y se rechazaría \(H_0\) cuando \(L_n>\omega_{L}^{(1-\alpha)}\), donde \(\omega_{L}^{(1-\alpha)}\) es el cuantil que acomula \(1-\alpha\) de probabilidad.

Aplicación de la prueba

Dada una muestra observada \(x_1,\dots,x_n\) y una función de distribución \(N(\mu,\sigma^2)\):

  • Se ordena la muestra, es decir se obtienen los estadísticos de orden \(x_{(1)},x_{(2)},\dots,x_{(n)}\)
  • Se calcula \(\bar{x}\) y \(s^2\)
  • Se transforma la muestra en: \(z_{(i)}=\frac{x_{(i)}-\bar{x}}{s}\), con \(s=\sqrt{s^2}\)
  • Se calcula \(\phi(z_{(i)})\,\,\,\forall \,i\in\{1,\dots,n\}\)
  • Se calcula \(F_n(Z_{(i)})=\frac{i}{n}\,\,\,\forall \,i\in\{1,\dots,n\}\)

  • Se calcula \(L^+_n=\max\{\vert F_n(z_{(i)})-\phi(z_{(i)}) \vert \}\)
  • Se calcula \(L^-_n=\max\{\vert \phi(z_{(i)})-F_n(z_{(i-1)}) \vert \}\) (Recordando que \(F_n(z_{(0)})=0\)).
  • Se calcula \(L_n=\max\{L^+_n,L^-_n\}\)
  • Se obtiene el \(p-vale\) o el cuantil \(\omega_{L}^{(1-\alpha)}\) y se determina si se rechaza o no se rechaza \(H_0\) (Se rechaza \(H_0\) si \(p-value < \alpha\) o si \(L_n>\omega_{L}^{(1-\alpha)}\)).

Simulación de la distribución Lilliefors

El siguiente código en R nos permite generar 75,000 observaciones de la distribución de la distribución Lilliefors para n=30.

set.seed(1010)
m <- 7.5E4; n <- 30; L <- c()
for(i in 1:m)
{
  x <- rnorm(n)
  mu=mean(x) 
  sigma.2=var(x)
  z=(x-mu)/sqrt(sigma.2)
  z <- sort(z)
  fn <- ecdf(z)
  z0 <- c(min(z)-1, z[-n])
  dif1 <- max(abs(fn(z) - pnorm(z)))
  dif2 <- max(abs(pnorm(z) - fn(z0)))
  L[i] <- max(dif1, dif2)
}

v_criticos <- quantile(L, probs = c(0.80, 0.85, 0.90, 0.95, 0.99))
round(v_criticos, 3)
##   80%   85%   90%   95%   99% 
## 0.131 0.138 0.146 0.159 0.185
hist(L,freq=FALSE,breaks=100, main="Distribucion Lilliefors")
lines(density(L))

Ejemplo

Un estudio se midio la temperatura (en grados fahrenheit) del cuerpo humano en una localidad, los resultados fueron los siguiente:

##       Temperatura Temperatura Temperatura
##  [1,]        97.4        98.2        98.1
##  [2,]        98.1        98.4        98.1
##  [3,]        98.9        98.6        97.9
##  [4,]        98.7        97.5        98.4
##  [5,]        98.0        98.3        97.4
##  [6,]        97.3        98.2        98.5
##  [7,]        98.4        98.2        97.2
##  [8,]        97.9        97.7        97.6
##  [9,]        98.3        97.4        98.0
## [10,]        97.3        97.8        97.9

Cargamos la función de la la prueba Lilliefors

PLPD<-function(x){
  n <- length(x) 
  mu <- mean(x) 
  sigma.2 <- var(x)
  z=(x-mu)/sqrt(sigma.2) 
  #Ordenamos la muestra 
  z=sort(z) 
  #Calculamos la funcion de distribucion empirica 
  Fn=ecdf(z) 
  #A la muestra ordenada le agregamos un nuevo minimo al principio 
  #Sirve para tener definido el caso F_n(z(0))=0 
  y=c(min(z)-1,z)
  #Inicializamos busqueda de supremo 
  D1=0 
  D2=0 

  for (i in 2:(n+1)){ 
    D1[i]=abs(Fn(y[i])-pnorm(y[i],0,1)) 
    D2[i]=abs(Fn(y[i-1])-pnorm(y[i],0,1)) 
  }
  Dn=max(D1,D2) 
  Dn
}

Entonces nos gustaría saber si nuestros datos siguen una distribución \(N(\mu,\sigma^2)\)

Fn<-ecdf(dat)
plot(Fn,col="darkblue")
curve(pnorm(x,mean(dat),sd(dat)),col="green4",add=TRUE,lwd=2)

Parece ser que las distribuciones se parecen, así que aplicaremos la prueba \(Lilliefors\)

PLPD(dat)
## [1] 0.121994
#Los cuantiles los obtuvimos previamente
##  90%     95%    99%
## 0.146   0.159  0.185

Por lotanto como \(L_n=0.121994\) es menor a \(\omega_{L}^{(95\%)} =0.159\) no se rechazaría \(H_0\), es decir, parece ser que la distribución \(N(\hat{\mu},\hat{\sigma}^2)\) se ajusta bien a la temperatura del cuerpo humano.

Pruebas de un parámetro desconocido

\(\textbf{Caso 1)}\) \(\,\mu\,\) conocida Como tenemos un parámetro conocido, ahora se tendría la siguiente hipótesis:

\[ H_0:F_X(x)=N(\mu_0,\sigma^2)\,\,\,v.s\,\,\,H_1:F_X(x)\neq N(\mu_0,\sigma^2) \]

En este caso sólo se procedería a estimar \(\sigma^2\) de la siguiente manera:

  • \(\hat{\sigma}^2=\frac{\sum_{i=1}^{n} (X_i-\mu_0)^2}{n}\)

Después de estimar el parámetro procederemos a estandarizar nuestra muestra, es decir:

  • \(Z_i=\frac{X_i-\mu_0}{\hat{\sigma}}\) con \(\hat{\sigma}=\sqrt{\hat{\sigma}^2}\)

De esta manera sabremos que bajo \(H_0\), \(Z_i \sim N(0,1)\).

Por lo tanto estariamos probando la siguiente hipótesis:

\[ H_0:F_Z(z)=N(0,1)\,\,\,v.s\,\,\,H_1:F_Z(z)\neq N(0,1) \] Y el estadístico de prueba sería:

\[ L_n=\sup_{z \in \mathbb{R}} \vert F_n(z)-F^*_Z(z)\vert =\sup_{z \in \mathbb{R}} \vert F_n(z)-\phi(z)\vert \]

Observemos dos aspectos importantes bajo \(H_0\):

  • La distribución de \(L_n\) no dependerá de parámetros desconocidos.
  • Si \(H_0\) es cierta entonces \(L_n\rightarrow 0\) y se rechazaría \(H_0\) cuando \(L_n>\omega_{L}^{(1-\alpha)}\), donde \(\omega_{L}^{(1-\alpha)}\) es el cuantil que acomula \(1-\alpha\) de probabilidad.

Aplicación de la prueba

Dada una muestra observada \(x_1,\dots,x_n\) y una función de distribución \(N(\mu_0,\sigma^2)\):

  • Se ordena la muestra, es decir se obtienen los estadísticos de orden \(x_{(1)},x_{(2)},\dots,x_{(n)}\)
  • Se calculará \(\hat{\sigma}^2\)
  • Se transforma la muestra en: \(z_{(i)}=\frac{x_{(i)}-\mu_0}{\hat{\sigma}}\), con \(\hat{\sigma}=\sqrt{\hat{\sigma^2}}\)
  • Se calcula \(\phi(z_{(i)})\,\,\,\forall \,i\in\{1,\dots,n\}\)
  • Se calcula \(F_n(Z_{(i)})=\frac{i}{n}\,\,\,\forall \,i\in\{1,\dots,n\}\)

  • Se calcula \(L^+_n=\max\{\vert F_n(z_{(i)})-\phi(z_{(i)}) \vert \}\)
  • Se calcula \(L^-_n=\max\{\vert \phi(z_{(i)})-F_n(z_{(i-1)}) \vert \}\) (Recordando que \(F_n(z_{(0)})=0\)).
  • Se calcula \(L_n=\max\{L^+_n,L^-_n\}\)
  • Se obtiene el \(p-vale\) o el cuantil \(\omega_{L}^{(1-\alpha)}\) y se determina si se rechaza o no se rechaza \(H_0\) (Se rechaza \(H_0\) si \(p-value < \alpha\) o si \(L_n>\omega_{L}^{(1-\alpha)}\)).

Pruebas de un parámetro desconocido

\(\textbf{Caso 2)}\) \(\,\sigma^2\,\) conocida

Como tenemos un parámetro conocido, ahora se tendría la siguiente hipótesis:

\[ H_0:F_X(x)=N(\mu,\sigma^2_0)\,\,\,v.s\,\,\,H_1:F_X(x)\neq N(\mu,\sigma^2_0) \]

En este caso sólo se procedería a estimar \(\mu\) de la siguiente manera:

  • \(\hat{\mu}=\bar{X}=\frac{\sum_{i=1}^{n} X_i}{n}\)

Después de estimar el parámetro procederemos a estandarizar nuestra muestra, es decir:

  • \(Z_i=\frac{X_i-\bar{X}}{\sigma}\) con \(\sigma=\sqrt{\sigma^2}\)

De esta manera sabremos que bajo \(H_0\), \(Z_i \sim N(0,1)\).

Por lo tanto estariamos probando la siguiente hipótesis:

\[ H_0:F_Z(z)=N(0,1)\,\,\,v.s\,\,\,H_1:F_Z(z)\neq N(0,1) \] Y el estadístico de prueba sería:

\[ L_n=\sup_{z \in \mathbb{R}} \vert F_n(z)-F^*_Z(z)\vert =\sup_{z \in \mathbb{R}} \vert F_n(z)-\phi(z)\vert \]

Observemos dos aspectos importantes bajo \(H_0\):

  • La distribución de \(L_n\) no dependerá de parámetros desconocidos.
  • Si \(H_0\) es cierta entonces \(L_n\rightarrow 0\) y se rechazaría \(H_0\) cuando \(L_n>\omega_{L}^{(1-\alpha)}\), donde \(\omega_{L}^{(1-\alpha)}\) es el cuantil que acomula \(1-\alpha\) de probabilidad.

Aplicación de la prueba

Dada una muestra observada \(x_1,\dots,x_n\) y una función de distribución \(N(\mu,\sigma^2_0)\):

  • Se ordena la muestra, es decir se obtienen los estadísticos de orden \(x_{(1)},x_{(2)},\dots,x_{(n)}\)
  • Se calculará \(\hat{\mu}=\bar{x}\)
  • Se transforma la muestra en: \(z_{(i)}=\frac{x_{(i)}-\bar{x}}{\sigma_0}\), con \(\sigma_0=\sqrt{\sigma^2_0}\)
  • Se calcula \(\phi(z_{(i)})\,\,\,\forall \,i\in\{1,\dots,n\}\)
  • Se calcula \(F_n(Z_{(i)})=\frac{i}{n}\,\,\,\forall \,i\in\{1,\dots,n\}\)

  • Se calcula \(L^+_n=\max\{\vert F_n(z_{(i)})-\phi(z_{(i)}) \vert \}\)
  • Se calcula \(L^-_n=\max\{\vert \phi(z_{(i)})-F_n(z_{(i-1)}) \vert \}\) (Recordando que \(F_n(z_{(0)})=0\)).
  • Se calcula \(L_n=\max\{L^+_n,L^-_n\}\)
  • Se obtiene el \(p-vale\) o el cuantil \(\omega_{L}^{(1-\alpha)}\) y se determina si se rechaza o no se rechaza \(H_0\) (Se rechaza \(H_0\) si \(p-value < \alpha\) o si \(L_n>\omega_{L}^{(1-\alpha)}\)).

Bandas de confianza

Una de las grandes ventajas que tenemos al conocer la distribución de \(L_n\), es que podemos obtener bandas de confianza para \(F_Z(z)=N(0,1)\) o de manera análoga para \(F_x(x)=N(\mu,\sigma^2)\) bajo \(H_0\).

\[ \mathbb{P}(L_n\leq\omega_{L}^{(1-\alpha)}) = \mathbb{P}(\sup_{z \in \mathbb{R}} \vert F_n(z)-\phi(z)\vert\leq\omega_{L}^{(1-\alpha)}) \\ \\ = \mathbb{P}(\vert F_n(z)-\phi(z)\vert\leq\omega_{L}^{(1-\alpha)})\,\,\,\forall\,\,\,z \in \mathbb{R} \\ = \mathbb{P}( -\omega_{L}^{(1-\alpha)})\leq \phi(z)-F_n(z)\leq\omega_{L}^{(1-\alpha)})\,\,\,\forall\,\,\,z \in \mathbb{R} \\ =\mathbb{P}( F_n(z)-\omega_{L}^{(1-\alpha)}\leq \phi(z)\leq F_n(z)+\omega_{L}^{(1-\alpha)})\,\,\,\forall\,\,\,z \in \mathbb{R} \\ \therefore \phi(z)\in(F_n(z)-\omega_{L}^{(1-\alpha)},F_n(z)+\omega_{L}^{(1-\alpha)}) \]

Observaciones adicionales

  • Como la idea intuitiva proviene de la prueba \(K-S\), se herendan varias de sus propiedas, justo la prueba Lillefors es un caso partitular de la prueba \(K-S\).
  • También se pueden aplicar las pruebas de una cola.
  • De manera general se hace el contraste con una distribución \(N(\mu,\sigma^2)\) bajo \(H_0\).