Correlación y causalidad

Ejemplo 1

Se cuenta con el peso corporal y el peso cerebral de 59 especies de animales terrestres. En este ejemplo sólo veremos como hacer un diagrama de dispersión de los datos y agregar una linea recta. Para graficar podemos usar o podemos usar . Primero cargamos los datos:

library(ggplot2)
animales<-read.table("x01.txt",header=TRUE,skip=30)

Exploramos rápidamente la base:

head(animales)

##   Brain_Weight Body_Weight
## 1        3.385        44.5
## 2        0.480        15.5
## 3        1.350         8.1
## 4      465.000       423.0
## 5       36.330       119.5
## 6       27.660       115.0

dim(animales)

## [1] 59  2

Graficamos los datos. Para agregar una recta es posible usar \textit{geom_abline}:

ggplot(animales)+
  geom_point(aes(x=Body_Weight,y=Brain_Weight), col="darkblue")+
  xlab("Peso corporal")+ylab("Peso del cerebro")+
  geom_abline(intercept = -12.5,slope=0.8, col="darkgreen")+
  geom_abline(intercept=0, slope=0.5, col="darkred")

Ejemplo 2

En este ejemplo se tiene la cantidad de ahorcamientos anuales en Estados Unidos y la cantidad de dólares (en miles de millones) gastados en ciencia por año desde 1999 hasta 2009 (ver). Primero cargamos los datos (a mano):

datos<- data.frame(hanging_suicides=c(5427,5688,6198,6462,6635,7336,7248,7491, 8161,8578,9000),
us_spending_on_cience=c(18.079,18.594,19.753, 20.734, 20.831,23.029,23.597,23.584,25.525,27.731,29.449))

A continuación calculamos el coeficiente de correlación:

cor(datos$hanging_suicides,datos$us_spending_on_cience)

## [1] 0.9920817

¿Qué indica la corralación entre las variables?, ¿cómo se vería el diagrama de dispersión?.

Graficamos el diagrama de dispersión junto con la recta de regresión utilizando la función de :

ggplot(datos,aes(x=hanging_suicides, y=us_spending_on_cience))+
  geom_point()+
  xlab("Ahorcamientos")+ylab("US gastados en ciencia ")+
  ggtitle("Datos anuales 1999-2009")+
  geom_smooth(method="lm", se=F)

## `geom_smooth()` using formula 'y ~ x'

Otra forma de graficar la recta de regresión habría sido usando la función que nos indica el intercepto y la pendiente:

modelo<-lm(us_spending_on_cience~hanging_suicides, datos)
modelo

## 
## Call:
## lm(formula = us_spending_on_cience ~ hanging_suicides, data = datos)
## 
## Coefficients:
##      (Intercept)  hanging_suicides  
##         0.427435          0.003147

¿Realmente aumentar el presupuesto en ciencia provoca que aumente el número de suicidios por ahorcamiento?.

Ejemplo 3

Consideremos la cantidad per cápita de queso mozzarella consumido y el número de doctorados en ingeniería civil otorgados anualmente desde 1999 hasta 2009 (ver):

datos2<-data.frame( Mozzarella=c(9.3,9.7,9.7,9.7,9.9,10.2,10.5,11,10.6,10.6),
                    Doctorantes=c(480,501,540,552,547,622,655,701,712,708))
cor(datos2)

##             Mozzarella Doctorantes
## Mozzarella   1.0000000   0.9586478
## Doctorantes  0.9586478   1.0000000

ggplot(datos2, aes(x=Mozzarella, y=Doctorantes))+
  geom_point()+
  ggtitle("Datos anuales 1999-2009")+
  geom_smooth(method="lm", se=F)

## `geom_smooth()` using formula 'y ~ x'

¿Será que consumir queso mozzarella nos hace mas inteligentes?

Correlación y causalidad

09/febrero/2022

Ejemplo 1

Ejemplo 2

Ejemplo 3