Javier Santibáñez
29 de enero de 2018
Se tiene interés en estudiar una o más características de los elementos de la población. La medición de estas características se denota por \(X\), en el caso univariado o \(\mathbf{X}\) en el caso multivariado.
A priori se desconocen las mediciones de los elementos de la población, por lo que se asume que la incertidumbre asociada a la medición del \(i\)-ésimo elemento \(X_i = X(u_i)\) puede ser modelada con una distribución de probabilidad.
En el caso paramétrico, se asume que \[ X_i \sim F(\cdot \,\vert\, \theta) \] donde \(F\) es una función de distribución de probabilidades y se asume que tiene una forma conocida, pero que incluye algunas constantes desconocidas \(\theta\), llamadas parámetros.
El conjunto de valores posibles de \(\theta\) se denota como \(\Theta\) y se llama espacio parametral. En el esquema paramétrico se asume que la dimensión de \(\Theta\) es finita.
El objetivo es hacer inferencias sobre \(\theta\) a partir de las mediciones asociadas a una muestra aleatoria de elementos de la población, es decir, a partir de un conjunto finito de variables aleatorias independietes e idénticamente distribuidas como \(F(\cdot\,\vert\, \theta)\).
En el curso de inferencia estadística aprendieron métodos de estimación, a evaluar estimadores y a enconrar los mejores estimadores, a obtener intervalos de confianza y a contrastar hipótesis estadísticas.
El enfoque paramétrico tiene la desventaja de limitar las conclusiones obtenidas debido a que se basa en el supuesto de que la forma del modelo \(F\) es conocida.
En el enfoque no paramétrico, se elimina el supuesto de que la forma del modelo es conocida y las inferencias se realizan sobre la distribución completa. En este caso, el paramétro es \(F\), por lo que el espación parametral, que ahora se denota por \(\mathcal{F}\) tiene dimesión infinita. En el caso más general, \(\mathcal{F}\) es el conjunto de todas las funciones de distribución.
Entonces, en este esquema de inferencia, se asume que \[ X_i \sim F(\cdot), \qquad \text{con} \qquad F\in\mathcal{F}. \]
Como ya se mencionó, en el caso más general \(\mathcal{F}\) puede ser el conjunto de todas las funciones de distribución, o por ejemplo, de las distribuciones simétricas alrededor de su media, o definidas en los reales positivos, o definidas en los enteros, etcétera.
El propósito de la primera parte de este curso es mostrar algunos de los resultados importantes del esquema de infrencia no paramétrico.
Como se mencionó, en el enfoque no paramétrico interesa hacer inferencias sobre la función de distribución \(F\) sin hacer supuestos adicionales sobre su forma. A continuación se define un estimador no paramétrico de la función de distribución.
Se define la función de distribución empírica (FDE) de una muestra aleatoria \(X_1, \ldots, X_n \sim F(\cdot)\) como la función \(F_n : \mathbb{R} \rightarrow [0,1]\) dada por \[ F_n(x) = \frac{1}{n} \sum_{i=1}^n I\left\lbrace X_i \leq x\right\rbrace, \quad \text{para todo } x \in \mathbb{R}. \] donde \(I\{X_i \leq x\}\) es la función indicadora del evento \(\{X_i \leq x \}\).
Para cada \(x\), \(F_n(x)\) se calcula como la proporción de observaciones en la muestra que son menores o iguales a \(x\). De acuerdo con la interpretación frecuentista de la probabilidad \(F(x)\) es el límite de la proporción de observaciones en la muestra que son menores o iguales a \(x\) cuando el tamaño de muestra crece.
\(F_n\) cumple las siguientes propiedades.
Suponer que se tienen las siguientes observaciones son una realización de una muestra aleatoria de una población con distribución \(F\) desconocida.
set.seed(1011)
datos <- round(rchisq(10, 6), 1); datos
## [1] 8.1 3.3 8.8 2.1 5.9 5.0 3.8 5.8 3.9 5.5
En R
se utiliza la función ecdf
para calcular la función de distribución empírica de un vector de datos.
fn <- ecdf(datos)
curve(fn(x), xlim = c(0, 2*max(datos)), col = 'blue3', lwd = 3)
curve(pchisq(x, 6), add = T, col = 'red3', lwd = 3)
datos <- round(rchisq(50, 6), 1)
fn <- ecdf(datos)
curve(fn(x), xlim = c(0, 2*max(datos)), col = 'blue3', lwd = 3)
curve(pchisq(x, 6), add = T, col = 'red3', lwd = 3)
A partir de la desigualdad de Dvoretsky-Keifer-Wolfowitz se puden obtener bandas de confianza para \(F\). En primer lugar, la desigualdad es equivalente a \[ P\left( \sup_{x \in \mathbb{R}} \vert\, F_n(x) - F(x) \,\vert \leq \epsilon \right) \geq 1 - 2e^{-2n\epsilon^2}. \] A partir de la igualdad \[ \left\lbrace \sup_{x \in \mathbb{R}} \vert\, F_n(x) - F(x) \,\vert \leq \epsilon \right\rbrace = \bigcap_{x\in \mathbb{R}} \left\lbrace \vert\, F_n(x) - F(x) \,\vert \leq \epsilon \right\rbrace \] Se sigue que \[ P\left(\bigcap_{x\in \mathbb{R}} \left\lbrace F_n(x) - \epsilon \leq F(x) \leq F_n(x) + \epsilon \right\rbrace \right) \geq 1 - 2e^{-2n\epsilon^2}. \] Al tomar \(\epsilon = \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)}\) resulta \[ P\left(\bigcap_{x\in \mathbb{R}} \left\lbrace F_n(x) - \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)} \leq F(x) \leq F_n(x) + \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)} \right\rbrace \right) \geq 1 - \alpha. \]
De la última expresión se concluye que \[ L(x) = \max\left\lbrace F_n(x) - \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)}, 0 \right\rbrace \\ U(x) = \min\left\lbrace F_n(x) + \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)}, 1 \right\rbrace \] forman una banda de confianza \(100(1-\alpha)\%\) para \(F\), esto es, \(L(x)\) y \(U(x)\) son tales que la probabilidad de que \(L(x) \leq F(x) \leq U(x)\) simultáneamente para todo \(x \in \mathbb{R}\) es al menos \(1-\alpha\), en símbolos \[ P\left( \bigcap_{x\in\mathbb{R}} \{ L(x) \leq F(x) \leq U(x) \} \right) \geq 1- \alpha. \]
Suponer que se tienen las siguientes \(n = 20\) observaciones de la distribución \(Exp(2)\).
## [1] 0.12 0.08 0.87 1.40 0.16 1.21 0.44 0.09 0.93 0.29 0.65 0.73 0.04 0.26
## [15] 1.45 0.30 0.12 0.70 0.20 0.02
Calcular la FDE y una banda de confianza 90% para la distribución \(Exp(2)\).
fn <- ecdf(datos)
Para tener una confianza 90%, se toma \[ \sqrt{\frac{1}{20}\log\left(\frac{2}{0.1}\right)} = 0.387 \]
Ahora se definen las funciones que darán los límites de la banda de confianza
U90 <- function(x) max(fn(x) - 0.387, 0)
L90 <- function(x) min(fn(x) + 0.387, 1)