Modelos no paraméricos y de regresión

Javier Santibáñez

29 de enero de 2018

Contenido

Estadística no paramétrica

Introducción
Inferencias en una población
Inferencias en dos o más poblaciones

Regresión lineal

Introducción
Regresión lineal simple
Regresión lineal múltiple
Diagnósticos del modelo y medidas correctivas
Selección de modelos

Evaluación

Actividades a evaluar

Tareas semanales en equipo (14-15) 30%
Exámenes parciales individuales (4) 50%
Proyecto final en equipos 10%
Exposiciones en equipos 10%

Fechas relevantes

Primer examen parcial: 23 de febrero
Segundo examen parcial: 23 de marzo
Tercer examen parcial (regresión simple): 27 de abril
Cuarto examen parcial (regresión múltiple): 25 de mayo
Proyecto final: 8 de junio

El esquema paramétrico

En el esquema de inferecia estadística frecuentista se parte de la existencia de una población con un número infinito de elementos \[ \mathcal{U} = \left\lbrace u_1, u_2, u_3, \ldots \right\rbrace \]
Se tiene interés en estudiar una o más características de los elementos de la población. La medición de estas características se denota por \(X\), en el caso univariado o \(\mathbf{X}\) en el caso multivariado.
A priori se desconocen las mediciones de los elementos de la población, por lo que se asume que la incertidumbre asociada a la medición del \(i\)-ésimo elemento \(X_i = X(u_i)\) puede ser modelada con una distribución de probabilidad.
En el caso paramétrico, se asume que \[ X_i \sim F(\cdot \,\vert\, \theta) \] donde \(F\) es una función de distribución de probabilidades y se asume que tiene una forma conocida, pero que incluye algunas constantes desconocidas \(\theta\), llamadas parámetros.
El conjunto de valores posibles de \(\theta\) se denota como \(\Theta\) y se llama espacio parametral. En el esquema paramétrico se asume que la dimensión de \(\Theta\) es finita.
El objetivo es hacer inferencias sobre \(\theta\) a partir de las mediciones asociadas a una muestra aleatoria de elementos de la población, es decir, a partir de un conjunto finito de variables aleatorias independietes e idénticamente distribuidas como \(F(\cdot\,\vert\, \theta)\).
En el curso de inferencia estadística aprendieron métodos de estimación, a evaluar estimadores y a enconrar los mejores estimadores, a obtener intervalos de confianza y a contrastar hipótesis estadísticas.
El enfoque paramétrico tiene la desventaja de limitar las conclusiones obtenidas debido a que se basa en el supuesto de que la forma del modelo \(F\) es conocida.

El esquema no paramétrico

En el enfoque no paramétrico, se elimina el supuesto de que la forma del modelo es conocida y las inferencias se realizan sobre la distribución completa. En este caso, el paramétro es \(F\), por lo que el espación parametral, que ahora se denota por \(\mathcal{F}\) tiene dimesión infinita. En el caso más general, \(\mathcal{F}\) es el conjunto de todas las funciones de distribución.
Entonces, en este esquema de inferencia, se asume que \[ X_i \sim F(\cdot), \qquad \text{con} \qquad F\in\mathcal{F}. \]
Como ya se mencionó, en el caso más general \(\mathcal{F}\) puede ser el conjunto de todas las funciones de distribución, o por ejemplo, de las distribuciones simétricas alrededor de su media, o definidas en los reales positivos, o definidas en los enteros, etcétera.
El propósito de la primera parte de este curso es mostrar algunos de los resultados importantes del esquema de infrencia no paramétrico.

La función de distribución empírica

Como se mencionó, en el enfoque no paramétrico interesa hacer inferencias sobre la función de distribución \(F\) sin hacer supuestos adicionales sobre su forma. A continuación se define un estimador no paramétrico de la función de distribución.
Se define la función de distribución empírica (FDE) de una muestra aleatoria \(X_1, \ldots, X_n \sim F(\cdot)\) como la función \(F_n : \mathbb{R} \rightarrow [0,1]\) dada por \[ F_n(x) = \frac{1}{n} \sum_{i=1}^n I\left\lbrace X_i \leq x\right\rbrace, \quad \text{para todo } x \in \mathbb{R}. \] donde \(I\{X_i \leq x\}\) es la función indicadora del evento \(\{X_i \leq x \}\).
Para cada \(x\), \(F_n(x)\) se calcula como la proporción de observaciones en la muestra que son menores o iguales a \(x\). De acuerdo con la interpretación frecuentista de la probabilidad \(F(x)\) es el límite de la proporción de observaciones en la muestra que son menores o iguales a \(x\) cuando el tamaño de muestra crece.
\(F_n\) cumple las siguientes propiedades.

Para \(x \in \mathbb{R}\) fijo, \(F_n(x)\) es un estimador insesgado y consistente de \(F(x)\).
Para \(x \in \mathbb{R}\) fijo, \(nF_n(x) \sim Bin\left(F(x), nF(x)\bar{F}(x)\right)\).
(Glivenko-Cantelli) \[ \sup_{x\in \mathbb{R}} \vert\,F_n(x) - F(x) \,\vert \rightarrow 0 \quad c.s. \]
(Dvoretsky-Keifer-Wolfowitz) Para todo \(\epsilon > 0\), \[ P\left( \sup_{x\in \mathbb{R}} \vert\,F_n(x) - F(x) \,\vert > \epsilon \right) \leq 2e^{-2n\epsilon^2} \]

Ejemplo

Suponer que se tienen las siguientes observaciones son una realización de una muestra aleatoria de una población con distribución \(F\) desconocida.

set.seed(1011)
datos <- round(rchisq(10, 6), 1); datos

##  [1] 8.1 3.3 8.8 2.1 5.9 5.0 3.8 5.8 3.9 5.5

En R se utiliza la función ecdf para calcular la función de distribución empírica de un vector de datos.

fn <- ecdf(datos)

curve(fn(x), xlim = c(0, 2*max(datos)), col = 'blue3', lwd = 3)
curve(pchisq(x, 6), add = T, col = 'red3', lwd = 3)

Repetimos el ejercicio pero incrementamos el tamaño de muestra.

datos <- round(rchisq(50, 6), 1)
fn <- ecdf(datos)
curve(fn(x), xlim = c(0, 2*max(datos)), col = 'blue3', lwd = 3)
curve(pchisq(x, 6), add = T, col = 'red3', lwd = 3)

Podemos observar como al incrementar el tamaño de muestra \(F_n\) se parece más a la verdadera función de distribución.

Bandas de confianza para \(F\)

A partir de la desigualdad de Dvoretsky-Keifer-Wolfowitz se puden obtener bandas de confianza para \(F\). En primer lugar, la desigualdad es equivalente a \[ P\left( \sup_{x \in \mathbb{R}} \vert\, F_n(x) - F(x) \,\vert \leq \epsilon \right) \geq 1 - 2e^{-2n\epsilon^2}. \] A partir de la igualdad \[ \left\lbrace \sup_{x \in \mathbb{R}} \vert\, F_n(x) - F(x) \,\vert \leq \epsilon \right\rbrace = \bigcap_{x\in \mathbb{R}} \left\lbrace \vert\, F_n(x) - F(x) \,\vert \leq \epsilon \right\rbrace \] Se sigue que \[ P\left(\bigcap_{x\in \mathbb{R}} \left\lbrace F_n(x) - \epsilon \leq F(x) \leq F_n(x) + \epsilon \right\rbrace \right) \geq 1 - 2e^{-2n\epsilon^2}. \] Al tomar \(\epsilon = \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)}\) resulta \[ P\left(\bigcap_{x\in \mathbb{R}} \left\lbrace F_n(x) - \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)} \leq F(x) \leq F_n(x) + \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)} \right\rbrace \right) \geq 1 - \alpha. \]
De la última expresión se concluye que \[ L(x) = \max\left\lbrace F_n(x) - \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)}, 0 \right\rbrace \\ U(x) = \min\left\lbrace F_n(x) + \sqrt{\frac{1}{n}\log\left(\frac{2}{\alpha}\right)}, 1 \right\rbrace \] forman una banda de confianza \(100(1-\alpha)\%\) para \(F\), esto es, \(L(x)\) y \(U(x)\) son tales que la probabilidad de que \(L(x) \leq F(x) \leq U(x)\) simultáneamente para todo \(x \in \mathbb{R}\) es al menos \(1-\alpha\), en símbolos \[ P\left( \bigcap_{x\in\mathbb{R}} \{ L(x) \leq F(x) \leq U(x) \} \right) \geq 1- \alpha. \]

Ejemplo: bandas de confianza para la distribución exponencial

Suponer que se tienen las siguientes \(n = 20\) observaciones de la distribución \(Exp(2)\).

##  [1] 0.12 0.08 0.87 1.40 0.16 1.21 0.44 0.09 0.93 0.29 0.65 0.73 0.04 0.26
## [15] 1.45 0.30 0.12 0.70 0.20 0.02

Calcular la FDE y una banda de confianza 90% para la distribución \(Exp(2)\).

Primero calculamos la FDE

fn <- ecdf(datos)

Para tener una confianza 90%, se toma \[ \sqrt{\frac{1}{20}\log\left(\frac{2}{0.1}\right)} = 0.387 \]
Ahora se definen las funciones que darán los límites de la banda de confianza

U90 <- function(x) max(fn(x) - 0.387, 0)
L90 <- function(x) min(fn(x) + 0.387, 1)

Finalmente se gráfican los resultados