Correlación y causalidad
Se cuenta con el peso corporal y el peso cerebral de 59 especies de animales terrestres. En este ejemplo sólo veremos como hacer un diagrama de dispersión de los datos y agregar una linea recta. Para graficar podemos usar o podemos usar . Primero cargamos los datos:
library(ggplot2)
animales<-read.table("x01.txt",header=TRUE,skip=30)
Exploramos rápidamente la base:
head(animales)
## Brain_Weight Body_Weight
## 1 3.385 44.5
## 2 0.480 15.5
## 3 1.350 8.1
## 4 465.000 423.0
## 5 36.330 119.5
## 6 27.660 115.0
dim(animales)
## [1] 59 2
Graficamos los datos. Para agregar una recta es posible usar \textit{geom_abline}:
ggplot(animales)+
geom_point(aes(x=Body_Weight,y=Brain_Weight), col="darkblue")+
xlab("Peso corporal")+ylab("Peso del cerebro")+
geom_abline(intercept = -12.5,slope=0.8, col="darkgreen")+
geom_abline(intercept=0, slope=0.5, col="darkred")
En este ejemplo se tiene la cantidad de ahorcamientos anuales en Estados Unidos y la cantidad de dólares (en miles de millones) gastados en ciencia por año desde 1999 hasta 2009 (ver). Primero cargamos los datos (a mano):
datos<- data.frame(hanging_suicides=c(5427,5688,6198,6462,6635,7336,7248,7491, 8161,8578,9000),
us_spending_on_cience=c(18.079,18.594,19.753, 20.734, 20.831,23.029,23.597,23.584,25.525,27.731,29.449))
A continuación calculamos el coeficiente de correlación:
cor(datos$hanging_suicides,datos$us_spending_on_cience)
## [1] 0.9920817
¿Qué indica la corralación entre las variables?, ¿cómo se vería el diagrama de dispersión?.
Graficamos el diagrama de dispersión junto con la recta de regresión utilizando la función de :
ggplot(datos,aes(x=hanging_suicides, y=us_spending_on_cience))+
geom_point()+
xlab("Ahorcamientos")+ylab("US gastados en ciencia ")+
ggtitle("Datos anuales 1999-2009")+
geom_smooth(method="lm", se=F)
## `geom_smooth()` using formula 'y ~ x'
Otra forma de graficar la recta de regresión habría sido usando la función que nos indica el intercepto y la pendiente:
modelo<-lm(us_spending_on_cience~hanging_suicides, datos)
modelo
##
## Call:
## lm(formula = us_spending_on_cience ~ hanging_suicides, data = datos)
##
## Coefficients:
## (Intercept) hanging_suicides
## 0.427435 0.003147
¿Realmente aumentar el presupuesto en ciencia provoca que aumente el número de suicidios por ahorcamiento?.
Consideremos la cantidad per cápita de queso mozzarella consumido y el número de doctorados en ingeniería civil otorgados anualmente desde 1999 hasta 2009 (ver):
datos2<-data.frame( Mozzarella=c(9.3,9.7,9.7,9.7,9.9,10.2,10.5,11,10.6,10.6),
Doctorantes=c(480,501,540,552,547,622,655,701,712,708))
cor(datos2)
## Mozzarella Doctorantes
## Mozzarella 1.0000000 0.9586478
## Doctorantes 0.9586478 1.0000000
ggplot(datos2, aes(x=Mozzarella, y=Doctorantes))+
geom_point()+
ggtitle("Datos anuales 1999-2009")+
geom_smooth(method="lm", se=F)
## `geom_smooth()` using formula 'y ~ x'
¿Será que consumir queso mozzarella nos hace mas inteligentes?