P_P2 Proyecto Final - Unidad 2
Descripción General
Este proyecto consiste en analizar el comportamiento y resolver un problema de clasificación mediante el entrenamiento y comparación de distintos modelos predictivos: Regresión Logística, Análisis Discriminante Lineal (LDA), Random Forest, Gradient Boosting, Support Vector Machine (SVM) y Redes Neuronales (MLP). El objetivo principal es evaluar el desempeño de estos enfoques para diagnosticar el estrato socioeconómico de una familia en México basándose en las características financieras y la infraestructura de su hogar.
Base de Datos
- Origen: Los datos provienen de la Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) 2024.
- Variable de salida: Se clasifica la variable objetivo (
est_socio) en cuatro categorías de estrato socioeconómico: Bajo (1), Medio bajo (2), Medio alto (3) y Alto (4).
- Variables de entrada: El conjunto de datos consta de 3,767 observaciones y utiliza 44 variables predictoras que fueron previamente seleccionadas mediante el método LASSO, las cuales se encuentran listas para usarse en el archivo
base_ENIGH_lasso.csv.
Índice de Archivos
- main.ipynb: Notebook principal con la exploración de datos, desarrollo del código, optimización de hiperparámetros (mediante
RandomizedSearchCV y GridSearchCV) y evaluación de los modelos implementados.
- main.pdf: Reporte detallado del proyecto en formato PDF que incluye el contexto de los datos, metodología, resultados comparativos y conclusiones.
- main.html: Versión exportada en HTML para visualización rápida de las gráficas y el análisis general.
- base_ENIGH_lasso.csv: Dataset que contiene las características procesadas y utilizadas para el entrenamiento y prueba de los modelos.
- base_ENIGH.csv: Dataset original y completo de la ENIGH previo al proceso de selección de atributos.
- diccionario_datos.csv y carpeta catalogos: Archivos de referencia y tablas que contienen la descripción y codificación detallada de las variables de la encuesta.