import pandas as pd

ruta = f'felicidad_gdp.csv'
df = pd.read_csv(ruta)

print(df.head())

          Pais  Felicidad           GDP
0  Afghanistan     2.4038  2.011614e+10
1      Albania     5.1988  1.513187e+10
2      Algeria     5.1223  1.450090e+11
3    Argentina     5.9670  3.895910e+11
4      Armenia     5.3986  1.264121e+10

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 141 entries, 0 to 140
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Pais       141 non-null    object 
 1   Felicidad  141 non-null    float64
 2   GDP        141 non-null    float64
dtypes: float64(2), object(1)
memory usage: 3.4+ KB
None

y = df.Felicidad
x = df.GDP

%matplotlib inline
import matplotlib.pyplot as plt

plt.scatter(x, y)
plt.ylabel("Felicidad")
plt.xlabel("GDP")
plt.title("GDP vs. Felicidad")
plt.show()

import numpy as np

x_log = np.log10(x)

plt.scatter(x_log, y)
plt.ylabel("Felicidad")
plt.xlabel("GDP [log]")
plt.title("GDP [log] vs. Felicidad")
plt.show()

xBar = np.mean(x_log)
yBar = np.mean(y)
B1num = sum((x_log-xBar)*(y-yBar))
B1den = sum((x_log-xBar)**2)
B1 = B1num / B1den
B0 = yBar - (B1*xBar)
print("B0 =",B0)
print("B1 =",B1)

B0 = -1.3023500570747224
B1 = 0.6281284658810403

plt.scatter(x_log, y)
plt.ylabel("Felicidad")
plt.xlabel("GDP [log]")
plt.title("GDP [log] vs. Felicidad")
yHat = B0 + B1*x_log
plt.plot(x_log, yHat, c = "r", linewidth = 3, alpha = 0.5)
plt.show()

RSS = sum((y - yHat)**2)
print("RSS =", RSS)

n = len(x)
SEB1 = np.sqrt(RSS / ((n-2)*sum((x_log-xBar)**2)))
print("SE (B1) =",SEB1)

import scipy.stats as st
t = B1 / SEB1
p = st.t.sf(abs(t),n-2)*2
print("t-statistic =",t)
print("p-value =",p)

import scipy.stats as st
per = st.t.interval(confidence = 0.95, df = n-2)[1]
CIlow = B1 - per*SEB1
CIhigh = B1 + per*SEB1
print("Inervalo de confianza: (",CIlow,",",CIhigh,")")

RSS = 131.37383177326345
SE (B1) = 0.09983378435340723
t-statistic = 6.291742519320844
p-value = 3.825717831968791e-09
Inervalo de confianza: ( 0.4307393313073308 , 0.8255176004547499 )

ruta_comp = f'felicidad_gdp_complementado.csv'
df_comp = pd.read_csv(ruta_comp)

print(df_comp.head())
print(df_comp.info())

          Pais  Felicidad           GDP  Esperanza_vida  Desempleo  \
0  Afghanistan     2.4038  2.011614e+10            63.2     11.710   
1      Albania     5.1988  1.513187e+10            78.0     11.690   
2      Algeria     5.1223  1.450090e+11            77.1     14.057   
3    Argentina     5.9670  3.895910e+11            76.6     11.461   
4      Armenia     5.3986  1.264121e+10            76.0     18.175   

   Escolaridad_promedio_adultos  
0                      2.845718  
1                     10.121144  
2                      7.215611  
3                     11.140000  
4                     11.330000  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 141 entries, 0 to 140
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Pais                          141 non-null    object 
 1   Felicidad                     141 non-null    float64
 2   GDP                           141 non-null    float64
 3   Esperanza_vida                115 non-null    float64
 4   Desempleo                     140 non-null    float64
 5   Escolaridad_promedio_adultos  139 non-null    float64
dtypes: float64(5), object(1)
memory usage: 6.7+ KB
None

cols_requeridas = ["Felicidad", "GDP", "Esperanza_vida", "Desempleo", "Escolaridad_promedio_adultos"]
df_limpio = df_comp.dropna(subset=cols_requeridas).reset_index(drop=True)

print(df_limpio.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 114 entries, 0 to 113
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Pais                          114 non-null    object 
 1   Felicidad                     114 non-null    float64
 2   GDP                           114 non-null    float64
 3   Esperanza_vida                114 non-null    float64
 4   Desempleo                     114 non-null    float64
 5   Escolaridad_promedio_adultos  114 non-null    float64
dtypes: float64(5), object(1)
memory usage: 5.5+ KB
None

from sklearn.model_selection import train_test_split
df_limpio["GDP"] = np.log10(df_limpio["GDP"])
train, test = train_test_split(df_limpio, train_size = 0.8)
print("Train:", train.shape)
print("Test:",test.shape)
print(train.head())

Train: (91, 6)
Test: (23, 6)
               Pais  Felicidad        GDP  Esperanza_vida  Desempleo  \
81         Paraguay     5.5783  10.549398            75.8      7.548   
77  North Macedonia     5.1990  10.083394            74.8     16.575   
34          Georgia     4.9732  10.199835            73.3     11.730   
20         Colombia     5.7806  11.431846            79.3     15.983   
73      New Zealand     7.1998  11.325793            82.0      4.595   

    Escolaridad_promedio_adultos  
81                          8.86  
77                         10.23  
34                         12.78  
20                          8.86  
73                         12.94

import statsmodels.api as sm
X = train.drop(['Pais','Felicidad'], axis = 1)
Y = train.Felicidad
model = sm.OLS(Y,sm.add_constant(X))
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
==============================================================================
Dep. Variable:              Felicidad   R-squared:                       0.680
Model:                            OLS   Adj. R-squared:                  0.665
Method:                 Least Squares   F-statistic:                     45.70
Date:                Mon, 26 Jan 2026   Prob (F-statistic):           1.58e-20
Time:                        13:23:58   Log-Likelihood:                -81.677
No. Observations:                  91   AIC:                             173.4
Df Residuals:                      86   BIC:                             185.9
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
================================================================================================
                                   coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------------
const                           -1.4492      1.033     -1.403      0.164      -3.503       0.605
GDP                              0.0174      0.099      0.177      0.860      -0.178       0.213
Esperanza_vida                   0.0846      0.015      5.744      0.000       0.055       0.114
Desempleo                       -0.0338      0.013     -2.653      0.010      -0.059      -0.008
Escolaridad_promedio_adultos     0.0938      0.029      3.275      0.002       0.037       0.151
==============================================================================
Omnibus:                        6.212   Durbin-Watson:                   1.690
Prob(Omnibus):                  0.045   Jarque-Bera (JB):                5.888
Skew:                          -0.619   Prob(JB):                       0.0527
Kurtosis:                       3.141   Cond. No.                     1.22e+03
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
[2] The condition number is large, 1.22e+03. This might indicate that there are
strong multicollinearity or other numerical problems.

XTest = test.drop(['Pais','Felicidad'], axis = 1)
m = XTest.shape[1]
n = XTest.shape[0]

yhatTest = results.predict(sm.add_constant(XTest))
YTest = test.Felicidad
RSSTest = sum((YTest-yhatTest)**2)
TSSTest = sum((YTest-np.mean(YTest))**2)
nTest = XTest.shape[0]
mTest = XTest.shape[1]
RSETest = np.sqrt(RSSTest/(n-m-1))
R2Test = 1 - RSSTest / TSSTest
print("RSE =", RSETest)
print("R^2 =", R2Test)

RSE = 0.716983972557302
R^2 = 0.703703284598715

X_no_GDP = X.drop(['GDP'], axis = 1)
model = sm.OLS(Y,sm.add_constant(X_no_GDP))
results_no_GDP = model.fit()
print(results_no_GDP.summary())

                            OLS Regression Results                            
==============================================================================
Dep. Variable:              Felicidad   R-squared:                       0.680
Model:                            OLS   Adj. R-squared:                  0.669
Method:                 Least Squares   F-statistic:                     61.61
Date:                Mon, 26 Jan 2026   Prob (F-statistic):           1.87e-21
Time:                        13:23:58   Log-Likelihood:                -81.694
No. Observations:                  91   AIC:                             171.4
Df Residuals:                      87   BIC:                             181.4
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
================================================================================================
                                   coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------------
const                           -1.3411      0.828     -1.619      0.109      -2.987       0.305
Esperanza_vida                   0.0857      0.013      6.458      0.000       0.059       0.112
Desempleo                       -0.0343      0.012     -2.780      0.007      -0.059      -0.010
Escolaridad_promedio_adultos     0.0943      0.028      3.330      0.001       0.038       0.151
==============================================================================
Omnibus:                        6.036   Durbin-Watson:                   1.689
Prob(Omnibus):                  0.049   Jarque-Bera (JB):                5.709
Skew:                          -0.610   Prob(JB):                       0.0576
Kurtosis:                       3.129   Cond. No.                         972.
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

XTest = test.drop(['Pais','Felicidad', 'GDP'], axis = 1)
m = XTest.shape[1]
n = XTest.shape[0]

yhatTest = results_no_GDP.predict(sm.add_constant(XTest))
YTest = test.Felicidad
RSSTest = sum((YTest-yhatTest)**2)
TSSTest = sum((YTest-np.mean(YTest))**2)
nTest = XTest.shape[0]
mTest = XTest.shape[1]
RSETest = np.sqrt(RSSTest/(n-m-1))
R2Test = 1 - RSSTest / TSSTest
print("RSE =", RSETest)
print("R^2 =", R2Test)

RSE = 0.6955989580169021
R^2 = 0.7056209608761521

A1.2 - Regresión Lineal¶

1. Introducción¶

2. Metodología¶

Primeros 5 datos de la base de datos:¶

Información general¶

Coeficientes óptimos para demostrar una relación lineal¶

Regresión Lineal Simple¶

Resultados del modelo de regresión lineal simple¶

Regresión Lineal Múltiple¶

Descripción de variables añadidas¶

Resultados del modelo de regresión lineal múltiple¶

Validación del modelo de regresión lineal múltiple¶

Modelo sin variable explicativa "GDP"¶

Validación sin variable explicativa GDP¶

3. Análisis y Conclusiones¶