Modelos no paraméricos y de regresión

Javier Santibáñez

29 de enero de 2018

Contenido

  1. Estadística no paramétrica
  1. Regresión lineal

Evaluación

  1. Actividades a evaluar
  1. Fechas relevantes

El esquema paramétrico

El esquema no paramétrico

La función de distribución empírica

  1. Para \(x \in \mathbb{R}\) fijo, \(F_n(x)\) es un estimador insesgado y consistente de \(F(x)\).
  2. Para \(x \in \mathbb{R}\) fijo, \(nF_n(x) \sim Bin\left(F(x), nF(x)\bar{F}(x)\right)\).
  3. (Glivenko-Cantelli) \[ \sup_{x\in \mathbb{R}} \vert\,F_n(x) - F(x) \,\vert \rightarrow 0 \quad c.s. \]
  4. (Dvoretsky-Keifer-Wolfowitz) Para todo \(\epsilon > 0\), \[ P\left( \sup_{x\in \mathbb{R}} \vert\,F_n(x) - F(x) \,\vert > \epsilon \right) \leq 2e^{-2n\epsilon^2} \]

Ejemplo

Suponer que se tienen las siguientes observaciones son una realización de una muestra aleatoria de una población con distribución \(F\) desconocida.

set.seed(1011)
datos <- round(rchisq(10, 6), 1); datos
##  [1] 8.1 3.3 8.8 2.1 5.9 5.0 3.8 5.8 3.9 5.5

En R se utiliza la función ecdf para calcular la función de distribución empírica de un vector de datos.

fn <- ecdf(datos)
curve(fn(x), xlim = c(0, 2*max(datos)), col = 'blue3', lwd = 3)
curve(pchisq(x, 6), add = T, col = 'red3', lwd = 3)

datos <- round(rchisq(50, 6), 1)
fn <- ecdf(datos)
curve(fn(x), xlim = c(0, 2*max(datos)), col = 'blue3', lwd = 3)
curve(pchisq(x, 6), add = T, col = 'red3', lwd = 3)

Bandas de confianza para \(F\)

Ejemplo: bandas de confianza para la distribución exponencial

Suponer que se tienen las siguientes \(n = 20\) observaciones de la distribución \(Exp(2)\).

##  [1] 0.12 0.08 0.87 1.40 0.16 1.21 0.44 0.09 0.93 0.29 0.65 0.73 0.04 0.26
## [15] 1.45 0.30 0.12 0.70 0.20 0.02

Calcular la FDE y una banda de confianza 90% para la distribución \(Exp(2)\).

fn <- ecdf(datos)
U90 <- function(x) max(fn(x) - 0.387, 0)
L90 <- function(x) min(fn(x) + 0.387, 1)