import pandas as pd
df = pd.read_csv(r'features_lasso.csv')

print("Observaciones: \t\t", df.shape[0])
print("Variables (Método Lasso): \t", df.shape[1], "\n")
print(f"Total NA: {int(df.isnull().sum().sum())}")

Observaciones: 		 3767
Variables (Método Lasso): 	 45 

Total NA: 0

# Balance de clases
balance = (
    df['est_socio']
    .value_counts()
    .sort_index()
    .rename_axis("Clase")
    .reset_index(name="Observaciones")
)

balance["Proporcion (%)"] = (balance["Observaciones"] / len(df) * 100).round(2)

print(balance.to_string(index=False))

 Clase  Observaciones  Proporcion (%)
     1            368            9.77
     2           2136           56.70
     3            744           19.75
     4            519           13.78

# Fusionar clases
df['est_socio'] = df['est_socio'].replace({
    4: 3  # Alta -> Alto
})

# Diccionario de etiquetas para interpretación
labels = {
    1: "Bajo",
    2: "Media",
    3: "Alto"
}

# Verificación del nuevo balance de clases
balance = (
    df['est_socio']
    .value_counts()
    .sort_index()
    .rename_axis("Clase")
    .reset_index(name="Observaciones")
)

balance["Clase_nombre"] = balance["Clase"].map(labels)
balance["Proporcion (%)"] = (balance["Observaciones"] / len(df) * 100).round(2)

print(balance[["Clase","Clase_nombre","Observaciones","Proporcion (%)"]].to_string(index=False))

 Clase Clase_nombre  Observaciones  Proporcion (%)
     1         Bajo            368            9.77
     2        Media           2136           56.70
     3         Alto           1263           33.53

from sklearn.model_selection import train_test_split

X = df.drop('est_socio', axis=1)
y = df['est_socio']

x_train, x_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    stratify=y,
    random_state=42
)

import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import StratifiedKFold, cross_validate, cross_val_predict
from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix

# Pipeline LDA
lda_pipe = Pipeline([
    ("scaler", StandardScaler()),
    ("model", LinearDiscriminantAnalysis())
])

# CV estratificada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

scoring = ["accuracy", "f1_macro", "f1_weighted"]
lda_cv = cross_validate(
    lda_pipe, x_train, y_train,
    cv=cv, scoring=scoring,
    return_train_score=True
)

print("Validación cruzada [LDA] (5-fold) - Promedios")
print(f"TRAIN Accuracy (mean±std):    {lda_cv['train_accuracy'].mean():.4f} ± {lda_cv['train_accuracy'].std():.4f}")
print(f"TRAIN F1-Macro (mean±std):    {lda_cv['train_f1_macro'].mean():.4f} ± {lda_cv['train_f1_macro'].std():.4f}")
print(f"TRAIN F1-Weighted (mean±std): {lda_cv['train_f1_weighted'].mean():.4f} ± {lda_cv['train_f1_weighted'].std():.4f}")

print(f"VAL   Accuracy (mean±std):    {lda_cv['test_accuracy'].mean():.4f} ± {lda_cv['test_accuracy'].std():.4f}")
print(f"VAL   F1-Macro (mean±std):    {lda_cv['test_f1_macro'].mean():.4f} ± {lda_cv['test_f1_macro'].std():.4f}")
print(f"VAL   F1-Weighted (mean±std): {lda_cv['test_f1_weighted'].mean():.4f} ± {lda_cv['test_f1_weighted'].std():.4f}")

y_train_pred = cross_val_predict(lda_pipe, x_train, y_train, cv=cv)
categorias = ["Bajo", "Medio", "Alto"]  # ajusta si tus clases/labels cambian

# Entrenamiento en train
lda_pipe.fit(x_train, y_train)

Validación cruzada [LDA] (5-fold) - Promedios
TRAIN Accuracy (mean±std):    0.7704 ± 0.0038
TRAIN F1-Macro (mean±std):    0.7411 ± 0.0067
TRAIN F1-Weighted (mean±std): 0.7709 ± 0.0039
VAL   Accuracy (mean±std):    0.7634 ± 0.0104
VAL   F1-Macro (mean±std):    0.7303 ± 0.0136
VAL   F1-Weighted (mean±std): 0.7636 ± 0.0105

Pipeline(steps=[('scaler', StandardScaler()),
                ('model', LinearDiscriminantAnalysis())])

import numpy as np
import matplotlib.pyplot as plt

# Extraer scaler y modelo LDA del pipeline ya entrenado
scaler = lda_pipe.named_steps["scaler"]
lda_model = lda_pipe.named_steps["model"]

# Proyectar a espacio discriminante (train y test)
X_train_scaled = scaler.transform(x_train)
X_test_scaled  = scaler.transform(x_test)

Z_train = lda_model.transform(X_train_scaled)
Z_test  = lda_model.transform(X_test_scaled)

# Etiquetas legibles (ajusta si cambias nombres)
label_map = {1: "Bajo", 2: "Medio", 3: "Alto"}
y_train_lbl = y_train.map(label_map) if hasattr(y_train, "map") else np.vectorize(label_map.get)(y_train)
y_test_lbl  = y_test.map(label_map) if hasattr(y_test, "map") else np.vectorize(label_map.get)(y_test)

# Caso típico con 3 clases: 2 discriminantes (LD1 y LD2)
if Z_train.shape[1] >= 2:
    fig, ax = plt.subplots(figsize=(8, 6))
    for cls in ["Bajo", "Medio", "Alto"]:
        m = (y_train_lbl == cls)
        ax.scatter(Z_train[m, 0], Z_train[m, 1], s=18, alpha=0.75, label=cls)

    ax.set_title("Proyección en funciones discriminantes (LDA) - TRAIN")
    ax.set_xlabel("LD1")
    ax.set_ylabel("LD2")
    ax.legend(title="Clase", loc="best")
    ax.grid(True, alpha=0.25)
    plt.show()

    # (Opcional) repetir en TEST para ver generalización geométrica
    fig, ax = plt.subplots(figsize=(8, 6))
    for cls in ["Bajo", "Medio", "Alto"]:
        m = (y_test_lbl == cls)
        ax.scatter(Z_test[m, 0], Z_test[m, 1], s=18, alpha=0.75, label=cls)

    ax.set_title("Proyección en funciones discriminantes (LDA) - TEST")
    ax.set_xlabel("LD1")
    ax.set_ylabel("LD2")
    ax.legend(title="Clase", loc="best")
    ax.grid(True, alpha=0.25)
    plt.show()

else:
    # Si por alguna razón solo hay 1 discriminante, graficamos LD1 como distribución
    fig, ax = plt.subplots(figsize=(8, 4))
    for cls in ["Bajo", "Medio", "Alto"]:
        m = (y_train_lbl == cls)
        ax.hist(Z_train[m, 0], bins=30, alpha=0.5, label=cls)
    ax.set_title("Distribución de LD1 (LDA) - TRAIN")
    ax.set_xlabel("LD1")
    ax.set_ylabel("Frecuencia")
    ax.legend(title="Clase", loc="best")
    ax.grid(True, alpha=0.25)
    plt.show()

y_pred_test = lda_pipe.predict(x_test)

# Si y_test es 1/2/3 -> convertimos a labels para alinear con display_labels
y_pred_test_lbl = (
    pd.Series(y_pred_test).map(label_map).values
    if "pd" in globals()
    else np.vectorize(label_map.get)(y_pred_test)
)

# Orden consistente de clases
display_labels = ["Bajo", "Medio", "Alto"]

cm_test = confusion_matrix(y_test_lbl, y_pred_test_lbl, labels=display_labels)

fig, ax_LDA = plt.subplots(figsize=(7, 6))
disp_LDA = ConfusionMatrixDisplay(confusion_matrix=cm_test, display_labels=display_labels)
disp_LDA.plot(ax=ax_LDA, values_format="d")
ax_LDA.set_title("Matriz de confusión - LDA (TEST)")
plt.show()

from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, classification_report

base_tree_no_limit = DecisionTreeClassifier(criterion="gini", random_state=42, class_weight="balanced")

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
resultados = cross_validate(
    base_tree_no_limit,
    x_train,
    y_train,
    cv=cv,
    scoring=["accuracy", "f1_macro", "f1_weighted"],
    return_train_score=True
)

print("Validación cruzada [Árbol de decisión] (5-fold) - Promedios")
print(f"TRAIN Accuracy (mean±std):    {resultados['train_accuracy'].mean():.4f} ± {resultados['train_accuracy'].std():.4f}")
print(f"TRAIN F1-Macro (mean±std):    {resultados['train_f1_macro'].mean():.4f} ± {resultados['train_f1_macro'].std():.4f}")
print(f"TRAIN F1-Weighted (mean±std): {resultados['train_f1_weighted'].mean():.4f} ± {resultados['train_f1_weighted'].std():.4f}")

print(f"VAL   Accuracy (mean±std):    {resultados['test_accuracy'].mean():.4f} ± {resultados['test_accuracy'].std():.4f}")
print(f"VAL   F1-Macro (mean±std):    {resultados['test_f1_macro'].mean():.4f} ± {resultados['test_f1_macro'].std():.4f}")
print(f"VAL   F1-Weighted (mean±std): {resultados['test_f1_weighted'].mean():.4f} ± {resultados['test_f1_weighted'].std():.4f}")

Validación cruzada [Árbol de decisión] (5-fold) - Promedios
TRAIN Accuracy (mean±std):    0.9873 ± 0.0009
TRAIN F1-Macro (mean±std):    0.9896 ± 0.0007
TRAIN F1-Weighted (mean±std): 0.9873 ± 0.0008
VAL   Accuracy (mean±std):    0.6947 ± 0.0242
VAL   F1-Macro (mean±std):    0.6428 ± 0.0307
VAL   F1-Weighted (mean±std): 0.6945 ± 0.0231

base_tree_lim = DecisionTreeClassifier(criterion="gini", max_depth=3, random_state=42, class_weight="balanced")
resultados_lim = cross_validate(
    base_tree_lim,
    x_train,
    y_train,
    cv=cv,
    scoring=["accuracy", "f1_macro", "f1_weighted"],
    return_train_score=True
)

print("Validación cruzada [Árbol de decisión (max_depth=3)] (5-fold) - Promedios")
print(f"TRAIN Accuracy (mean±std):    {resultados_lim['train_accuracy'].mean():.4f} ± {resultados_lim['train_accuracy'].std():.4f}")
print(f"TRAIN F1-Macro (mean±std):    {resultados_lim['train_f1_macro'].mean():.4f} ± {resultados_lim['train_f1_macro'].std():.4f}")
print(f"TRAIN F1-Weighted (mean±std): {resultados_lim['train_f1_weighted'].mean():.4f} ± {resultados_lim['train_f1_weighted'].std():.4f}")

print(f"VAL   Accuracy (mean±std):    {resultados_lim['test_accuracy'].mean():.4f} ± {resultados_lim['test_accuracy'].std():.4f}")
print(f"VAL   F1-Macro (mean±std):    {resultados_lim['test_f1_macro'].mean():.4f} ± {resultados_lim['test_f1_macro'].std():.4f}")
print(f"VAL   F1-Weighted (mean±std): {resultados_lim['test_f1_weighted'].mean():.4f} ± {resultados_lim['test_f1_weighted'].std():.4f}")

Validación cruzada [Árbol de decisión (max_depth=3)] (5-fold) - Promedios
TRAIN Accuracy (mean±std):    0.7248 ± 0.0215
TRAIN F1-Macro (mean±std):    0.7040 ± 0.0167
TRAIN F1-Weighted (mean±std): 0.7268 ± 0.0248
VAL   Accuracy (mean±std):    0.7129 ± 0.0295
VAL   F1-Macro (mean±std):    0.6932 ± 0.0235
VAL   F1-Weighted (mean±std): 0.7150 ± 0.0321

alphas = np.unique(base_tree_lim.cost_complexity_pruning_path(x_train, y_train).ccp_alphas)

gs = GridSearchCV(
    base_tree_lim,
    param_grid={"ccp_alpha": alphas},
    cv=cv,
    scoring="f1_macro",
    n_jobs=-1
)
gs.fit(x_train, y_train)

best_tree = gs.best_estimator_
print("Best alpha:", gs.best_params_["ccp_alpha"])
print("Best CV f1_macro:", gs.best_score_)

# 3) Evaluación en test
y_pred_test = best_tree.predict(x_test)

# Matriz de confusión 
categorias = ["Bajo", "Medio", "Alto"]
fig, ax = plt.subplots(figsize=(6, 5))
ConfusionMatrixDisplay.from_predictions(
    y_test, y_pred_test, display_labels=categorias, ax=ax, values_format="d"
)
plt.title("Matriz de confusión (Test) - Árbol podado")
plt.show()

Best alpha: 0.0024265683057462864
Best CV f1_macro: 0.6940102794992697

plt.figure(figsize=(55, 20))
plot_tree(
    best_tree,
    feature_names=getattr(x_train, "columns", None),  
    class_names=categorias,                           
    filled=True,
    rounded=True,
    fontsize=9
)
plt.title("Árbol de decisión podado (ccp_alpha óptimo)")
plt.show()

Elemento Bayes	Interpretación en el problema
Hipótesis (H)	Clase socioeconómica del hogar (Bajo, Medio, Alto).
Prior (P(H))	Proporción de cada clase en el dataset, que representa la probabilidad inicial de que un hogar pertenezca a cada nivel socioeconómico antes de observar sus características.
Evidencia (X)	Conjunto de variables observadas que describen las características del hogar (por ejemplo, condiciones de vivienda o indicadores socioeconómicos).
Likelihood (P(X \mid H))	Probabilidad de observar esas características del hogar suponiendo que pertenece a una clase socioeconómica específica.
Posterior (P(H \mid X))	Probabilidad final de que un hogar pertenezca a una clase socioeconómica determinada dadas sus características observadas.

	solver	'svd'
	shrinkage	None
	priors	None
	n_components	None
	store_covariance	False
	tol	0.0001
	covariance_estimator	None

A2.2 LDA y árboles de decisión¶

1. Introducción¶

2. Definición del problema y descripción de los datos¶

2.1 Variable de salida¶

2.2 Descripción del dataset¶

2.3 Balance de clases¶

3. Partición de los datos¶

4. Modelo basado en LDA¶

4.1 Descripción del método¶

4.2 Entrenamiento del modelo¶

4.3 Visualización de funciones discriminantes¶

5. Modelo basado en Árbol de Decisión¶

5.1 Descripción del método¶

5.2 Entrenamiento del modelo¶

5.3 Poda del árbol¶

5.4 Visualización del árbol¶

6. Comparación de los modelos¶

7. Conclusión¶

	steps	[('scaler', ...), ('model', ...)]
	transform_input	None
	memory	None
	verbose	False

	copy	True
	with_mean	True
	with_std	True