R para el análisis de datos

Sesión 8: Regresión lineal


Kevin Carrasco

Sociología - UAH

1er Sem 2026

R-data-analisis.netlify.com

Sesión 8


Regresión lineal

R2

Inferencia

Valores predichos



Sesión 8


Regresión lineal

R2

Inferencia

Valores predichos



Asociación: covarianza / correlación

¿Se relaciona la variación de una variable, con la variación de otra variable?

Correlación

  • Medida de co-variación lineal estandarizada

¿En qué rango varía una correlación?

  • Varía entre -1 y +1
  • Gráficamente se expresa en nubes de puntos

  • Pero ojo, correlación no implica causalidad

¿Qué es la regresión lineal?

  • Es un modelo estadístico
  • Se usa para:

    • Conocer: La relación de una variable dependiente de acuerdo a una/otras independiente(s)
    • Predecir: Estimar el valor de una variable dependiente de acuerdo al valor de otras
    • Inferir: si estas relaciones son estadísticamente significativas

¿Qué es la regresión lineal?

  • Dos tipos de regresión:
    • Regresión lineal simple (una variable independiente)
    • Regresión lineal múltimple (más de una variable independiente)

¿Qué es la regresión lineal

Terminología:

Ejemplo

#>   Educacion Ingreso
#> 1         1     250
#> 2         2     200
#> 3         3     250
#> 4         4     300
#> 5         5     400
#> 6         6     350
#> 7         7     400
#> 8         8     350

Ejemplo

Ejemplo

La recta de regresión

\[\widehat{Y}=b_{0} +b_{1}X\]

Donde

  • \(\widehat{Y}\) es el valor estimado de \(Y\)

  • \(b_{0}\) es el intercepto de la recta (el valor de Y cuando X es 0)

  • \(b_{1}\) es el coeficiente de regresión, que nos dice cuánto aumenta Y por cada punto que aumenta X

Estimación de los coeficientes de la ecuación:

\[b_{1}=\frac{Cov(XY)}{VarX}\]

\[b_{1}=\frac{\frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})} {n-1}}{\frac{\sum_{i=1}^{n}(x_i - \bar{x})(x_i - \bar{x})} {n-1}}\]

Y simplificando

\[b_{1}=\frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})} {\sum_{i=1}^{n}(x_i - \bar{x})(x_i - \bar{x})}\]

Pero este es un curso de R, así que:

#> 
#> Call:
#> lm(formula = Ingreso ~ Educacion, data = data)
#> 
#> Coefficients:
#> (Intercept)    Educacion  
#>         200           25

Estimación de los coeficientes de la ecuación:

\[\bar{Y}=b_{0}+b_{1}\bar{X}\] Reemplazando:

\[\bar{Y}=b_{0}+25\bar{X}\]

Despejando el valor de \(b_{0}\)

\[b_{0}=200-0\bar{X}\]

Ejemplo

Por cada unidad que aumenta educación, ingreso aumenta en 25 unidades

Sesión 8


Regresión lineal

R2

Inferencia

Valores predichos





Varianza explicada

  • ¿Qué porcentaje de la varianza de Y logramos explicar con X?
  • R2 = Porcentaje de la variación de Y puede ser asociado a la variación de X

Ejemplo

El ajuste del modelo a los datos se relaciona con la proporción de residuos generados por el modelo respecto de la varianza total de Y (R2)

Sesión 8


Repaso sesión anterior

Regresión lineal

R2

Inferencia

Valores predichos





Inferencia estadística

  • ¿Cómo sabemos si \(b_{1}\) es estadísticamente significativo?
  • ¿Nuestros datos se pueden extrapolar a la población?

Inferencia estadística

  • Según criterios muestrales:
    • Distribución normal
    • Desviación estándar
  • Error estándar
  Model 1
(Intercept) 200.00**
  (35.57)
Educacion 25.00*
  (7.04)
R2 0.68
Adj. R2 0.62
Num. obs. 8
***p < 0.001; **p < 0.01; *p < 0.05
  Model 1
(Intercept) 106.12*
  (33.92)
Educacion 7.07
  (6.57)
edad 5.48*
  (1.56)
R2 0.91
Adj. R2 0.87
Num. obs. 8
***p < 0.001; **p < 0.01; *p < 0.05

Parcialización

¿y la interpretación para variables categóricas?

  Model 1
Intercepto 233.33***
  (23.57)
Educación media 116.67*
  (37.27)
Educación superior 133.33*
  (33.33)
R2 0.78
Adj. R2 0.70
Num. obs. 8
***p < 0.001; **p < 0.01; *p < 0.05

Las personas que tienen educación media ganan $116mil más en comparación con quienes tienen educación básica, efecto que es estadísticamente significativo (p<0.01)

Sesión 8


Repaso sesión anterior

Regresión lineal

R2

Inferencia

Valores predichos





¿Cómo podemos predecir el valor esperado de una variable para una persona en particular?

  Model 1
Intercepto 233.33***
  (23.57)
Educación media 116.67*
  (37.27)
Educación superior 133.33*
  (33.33)
R2 0.78
Adj. R2 0.70
Num. obs. 8
***p < 0.001; **p < 0.01; *p < 0.05

\[\bar{Y}=b_{0}+b_{1}\bar{X}\]

Reemplazando:

\[\bar{Y}=233+b_{1}\bar{X}\]

¿Si una persona tuviera un nivel de educación superior?

\[\bar{Y}=233+133\] \[\bar{Y}=366\]

Graficando

Variables numéricas

  Model 1
(Intercept) 96.44*
  (33.14)
edad 6.78***
  (0.99)
R2 0.89
Adj. R2 0.87
Num. obs. 8
***p < 0.001; **p < 0.01; *p < 0.05

\[\bar{Y}=b_{0}+b_{1}\bar{X}\]

Reemplazando:

\[\bar{Y}=96.44+b_{1}*6,78\]

¿Una persona de edad 40?

\[\bar{Y}=96,44+40*6,78\] \[\bar{Y}=367.64\]

R para el análisis de datos

Sesión 8: Regresión lineal


Kevin Carrasco

Sociología - UAH

1er Sem 2026

R-data-analisis.netlify.com