20 de febrero de 2018

Prueba de dos colas

Dada una muestra \(X_1,\dots,X_n\) de variables aleatorias independientientes e identicamente distribuidas de cierta distribución desconocida \(F_X(x)\), nos interesará hacer pruebas del estilo \(F_X(x)=F^*_X(x)\), donde \(F^*_X(x)\) es una distribucón completamente conocida (es decir además de conocer la familia a la que pertenece, también conocemos sus parámetros). Es decir se planteará la siguiente hipótesis:

\[ H_0:F_X(x)=F^*_X(x)\,\,\,v.s\,\,\,H_1:F_X(x)\neq F^*_X(x) \]

Entonces una idea intuitiva sería ver que tanto difieren \(F_X(x)\) y \(F^*_X(x)\), pero esto no se puede tomar así tal cual porque como mencionamos \(F_X(x)\) es desconocida, entonces no podriamos evaluar la muestra en algo que no conocemos, por lo que usaremos un estimador insesgado y consistente, en este caso es \(F_n(x)\), pues:

\[ \mathbb{E}(F_n(x))=F_X(x) \,\,\,\,y\,\,\,\,\lim_{n\rightarrow\infty}ECM(F_n(x))=0 \]

Antes de comenzar con la prueba recordemos el siguiente resultado

\(\textbf{Teorema}\,\, \textit{(Teorema de Glivenko-Cantelli)}\).

Sea \(X_1,\dots,X_n\) m.a. de \(F_X(x)\) y sea \(F_n(x)\) la respectiva función de distribución empírica. Entonces: \[ \sup_{x \in \mathbb{R}} \vert F_n(x)-F_X(x)\vert \rightarrow 0 \]

Es decir, que conforme tenemos más muestra entones \(F_n(x)\) prácticamente reproduce a la verdadera función de distribución.

Una observación importante es que la distribución ese supremo no depende de \(F_X(x)\), sólo depende de \(n\).

\(\textbf{Teorema}\). Si \(F_X(x)\) es continua entonces la distribución de \[ \sup_{x \in \mathbb{R}} \vert F_n(x)-F_X(x)\vert \]

no depende de \(F_X\).

Procedimiento

Con lo anterior Kolmogorov y Smirnov definieron a su estadístico de prueba de la siguiente manera: \[ D_n=\sup_{x \in \mathbb{R}} \vert F_n(x)-F^*_X(x)\vert \]

Observemos dos aspectos importantes bajo \(H_0\):

  • La distribución de \(D_n\) no dependerá de parámetros desconocidos.
  • Si \(H_0\) es cierta entonces \(D_n\rightarrow 0\) y se rechazaría \(H_0\) cuando \(D_n>\omega_{K-S}^{(1-\alpha)}\), donde \(\omega_{K-S}^{(1-\alpha)}\) es el cuantil que acomula \(1-\alpha\) de probabilidad.

Aplicación de la prueba

Dada una muestra observada \(x_1,\dots,x_n\) y una función de distribución completamente conocida \(F^*_X(x)\):

  • Se ordena la muestra, es decir se obtienen los estadísticos de orden \(x_{(1)},x_{(2)},\dots,x_{(n)}\)
  • Se calcula \(F^*_X(x_{(i)})\,\,\,\forall \,i\in\{1,\dots,n\}\)
  • Se calcula \(F_n(x_{(i)})=\frac{i}{n}\,\,\,\forall \,i\in\{1,\dots,n\}\)
  • Se calcula \(D^+_n=\max\{\vert F_n(x_{(i)})-F^*_X(x_{(i)}) \vert \}\)

  • Se calcula \(D^-_n=\max\{\vert F^*_X(x_{(i)})-F_n(x_{(i-1)}) \vert \}\) (Recordando que \(F_n(x_{(0)})=0\)).
  • Se calcula \(D_n=\max\{D^+_n,D^-_n\}\)
  • Se obtiene el \(p-vale\) o el cuantil \(\omega_{K-S}^{(1-\alpha)}\) y se determina si se rechaza o no se rechaza \(H_0\) (Se rechaza \(H_0\) si \(p-value < \alpha\) o si \(D_n>\omega_{K-S}^{(1-\alpha)}\)).

Simulación de la distribución K-S

El siguiente código en R nos permite generar 75,000 observaciones de la distribución de la distribución KS para n=30.

set.seed(1010)
m <- 7.5E4; n <- 30; D <- c()
for(i in 1:m)
{
  x <- runif(n,0,1)
  x <- sort(x)
  fn <- ecdf(x)
  x0 <- c(0, x[-n])
  dif1 <- max(abs(fn(x) - x))
  dif2 <- max(abs(x - fn(x0)))
  D[i] <- max(dif1, dif2)
}

v_criticos <- quantile(D, probs = c(0.80, 0.85, 0.90, 0.95, 0.99))
round(v_criticos, 3)
##   80%   85%   90%   95%   99% 
## 0.191 0.203 0.218 0.243 0.292
hist(D,freq=FALSE,breaks=100, main="Distribucion KS")
lines(density(D))

Bandas de confianza

Una de las grandes ventajas que tenemos al conocer la distribución de \(D_n\), es que podemos obtener bandas de confianza para \(F_x(x)\) bajo \(H_0\).

\[ \mathbb{P}(D_n\leq\omega_{K-S}^{(1-\alpha)}) = \mathbb{P}(\sup_{x \in \mathbb{R}} \vert F_n(x)-F_X(x)\vert\leq\omega_{K-S}^{(1-\alpha)}) \\ \\ = \mathbb{P}(\vert F_n(x)-F_X(x)\vert\leq\omega_{K-S}^{(1-\alpha)})\,\,\,\forall\,\,\,x \in \mathbb{R} \\ = \mathbb{P}( -\omega_{K-S}^{(1-\alpha)})\leq F_X(x)-F_n(x)\leq\omega_{K-S}^{(1-\alpha)})\,\,\,\forall\,\,\,x \in \mathbb{R} \\ =\mathbb{P}( F_n(x)-\omega_{K-S}^{(1-\alpha)})\leq F_X(x)\leq F_n(x)+\omega_{K-S}^{(1-\alpha)})\,\,\,\forall\,\,\,x \in \mathbb{R} \\ \therefore F_X(x)\in(F_n(x)-\omega_{K-S}^{(1-\alpha)}),F_n(x)+\omega_{K-S}^{(1-\alpha)})) \]

Ejemplo

Un estudio calculo el tiempo (en segundos) que tardan los alumnos en trasladarse desde su casa hasta la escuela. los resultados fueron los siguiente:

##    Alumnos  Tiempo Alumnos  Tiempo Alumnos  Tiempo
## 1        1  600.50      11  403.95      21 2145.92
## 2        2  715.20      12  365.32      22 1532.66
## 3        3 1000.50      13  379.75      23  341.50
## 4        4  506.15      14  277.59      24  550.61
## 5        5  767.01      15  581.63      25  631.69
## 6        6 1177.75      16  936.58      26 1927.87
## 7        7  382.64      17 1122.80      27 2120.93
## 8        8 1389.46      18  690.99      28  856.49
## 9        9  214.08      19  232.64      29  761.32
## 10      10  302.30      20  624.20      30 1140.83

Cargamos la función de la la prueba KS

PKS<-function(x,d,a,b){
  n=length(x) 
  #Ordenamos la muestra 
  x=sort(x)
  #Calculamos la funcion de distribucion empirica 
  Fn=ecdf(x) 
  #A la muestra ordenada le agregamos el 0 al principio 
  #Sirve para el caso F_n(x(0))=0 
  y=c(0,x) 
  #Inicializamos busqueda de supremo 
  #Aquí se optiene D+
  D1=0 
  #Aquí se optiene D-
  D2=0

  #Sí la distribución sólo necesita un parámetro
  if(b!=0){
    for (i in 2:(n+1)){ 
      D1[i]=abs(Fn(y[i])-d(y[i],a,b)) 
      D2[i]=abs(Fn(y[i-1])-d(y[i],a,b)) 
    }
  }
  #Sí la distribución sólo necesita dos parámetros
  if(b==0){
    for (i in 2:(n+1)){ 
      D1[i]=abs(Fn(y[i])-d(y[i],a)) 
      D2[i]=abs(Fn(y[i-1])-d(y[i],a)) 
    }
  }
  #Obtenemos el estadistico de prueba 
  D.n= max(D1,D2) 
  return(D.n)
}

Entonces nos gustaría saber si nuestros datos siguen una distribución exponencial con \(\lambda=1/820\)

Fn<-ecdf(dat[,2])
plot(Fn,col="darkblue")
curve(pexp(x,1/820),col="green4",add=TRUE,lwd=2)

Parece ser que las distribuciones se parecen, así que aplicaremos la prueba \(KS\)

PKS(dat[,2],pexp,a=1/820,b=0)
## [1] 0.2297754
#Los cuantiles los obtuvimos previamente
##  90%     95%    99%
## 0.218   0.243  0.292

Por lotanto como \(D_n=0.2297754\) es menor a \(\omega_{KS}^{(95\%)} =0.243\) no se rechazaría \(H_0\), es decir, parece ser que la distribución \(\exp(\frac{1}{820})\) se ajusta bien al tiempo que tardan los alumnos en llegar de su casa a la escuela.

Pruebas de una cola

\(\textbf{Caso 1)}\)

  • Planteamiento de Hipótesis

\[ H_0:F_X(x)\leq F^*_X(x)\,\,\,v.s\,\,\,H_1:F_X(x) > F^*_X(x) \] - Estadístico de prueba \(D_n^+=\sup_{x \in \mathbb{R}} \{F_n(x)-F^*_X(x)\}\)

  • Se rechaza \(H_0\) cuando: \(D_n^+> \psi_{K-S}^{(1-\alpha)}\), donde \(\psi_{K-S}^{(1-\alpha)}\) es el cuantil \(1-\alpha\) de la distribucón de \(D_n^+\)

Aplicación de la prueba (Caso 1)

Dada una muestra observada \(x_1,\dots,x_n\) y una función de distribución completamente conocida \(F^*_X(x)\):

  • Se ordena la muestra, es decir se obtienen los estadísticos de orden \(x_{(1)},x_{(2)},\dots,x_{(n)}\)
  • Se calcula \(F^*_X(x_{(i)})\,\,\,\forall \,i\in\{1,\dots,n\}\)
  • Se calcula \(F_n(x_{(i)})=\frac{i}{n}\,\,\,\forall \,i\in\{1,\dots,n\}\)
  • Se calcula \(D^+_n=\max\{\vert F_n(x_{(i)})-F^*_X(x_{(i)}) \vert \}\)
  • Se obtiene el \(p-vale\) o el cuantil \(\psi_{K-S}^{(1-\alpha)}\) y se determina si se rechaza o no se rechaza \(H_0\) (Se rechaza \(H_0\) si \(p-value < \alpha\) o si \(D_n^+>\psi_{K-S}^{(1-\alpha)}\)).

\(\textbf{Caso 2)}\)

  • Planteamiento de Hipótesis

\[ H_0:F_X(x)\geq F^*_X(x)\,\,\,v.s\,\,\,H_1:F_X(x) < F^*_X(x) \]

  • Estadístico de prueba \(D_n^-=\sup_{x \in \mathbb{R}} \{F^*_X(x)-F_n(x)\}\)

  • Se rechaza \(H_0\) cuando: \(D_n^-> \xi_{K-S}^{(1-\alpha)}\), donde \(\xi_{K-S}^{(1-\alpha)}\) es el cuantil \(1-\alpha\) de la distribucón de \(D_n^-\)

Aplicación de la prueba (Caso 2)

Dada una muestra observada \(x_1,\dots,x_n\) y una función de distribución completamente conocida \(F^*_X(x)\):

  • Se ordena la muestra, es decir se obtienen los estadísticos de orden \(x_{(1)},x_{(2)},\dots,x_{(n)}\)
  • Se calcula \(F^*_X(x_{(i)})\,\,\,\forall \,i\in\{1,\dots,n\}\)
  • Se calcula \(F_n(x_{(i)})=\frac{i}{n}\,\,\,\forall \,i\in\{1,\dots,n\}\)
  • Se calcula \(D^-_n=\max\{\vert F^*_X(x_{(i)})-F_n(x_{(i-1)}) \vert \}\) (Recordando que \(F_n(x_{(0)})=0\)).
  • Se obtiene el \(p-vale\) o el cuantil \(\xi_{K-S}^{(1-\alpha)}\) y se determina si se rechaza o no se rechaza \(H_0\) (Se rechaza \(H_0\) si \(p-value < \alpha\) o si \(D_n^->\xi_{K-S}^{(1-\alpha)}\)).