A partir del resumen del dataframe, se identifica que el dataset está compuesto por 395 observaciones y 10 variables, donde cada registro representa a un estudiante con características académicas, personales y de contexto escolar. Esta primera revisión permite clasificar las variables según su naturaleza, lo cual es clave para decidir cómo tratarlas dentro de un modelo de regresión lineal. A continuación se presenta la descripción para cada variable de acuerdo a la fuente de la base de datos ([archive.ics.uci.edu](https://archive.ics.uci.edu/dataset/320/student+performance)):
| Variable Name | Role | Type | Descripction |
|-----------|-----------|-----------|-----------|
| school | Feature | Categorical | student's school (binary: 'GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira) |
| sex | Feature | Binary | student's sex (binary: 'F' - female or 'M' - male) |
| age | Feature | Integer | student's age (numeric: from 15 to 22) |
| studytime | Feature | Integer | weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours) |
| failures | Feature | Integer | number of past class failures (numeric: n if 1<=n<3, else 4) |
| internet | Feature | Binary | Internet access at home (binary: yes or no)
| absences | Feature | Integer | number of school absences (numeric: from 0 to 93) |
| G1 | Target | Categorical | first period grade (numeric: from 0 to 20) |
| G2 | Target | Categorical | second period grade (numeric: from 0 to 20) |
| G3 | Target | Categorical | final grade (numeric: from 0 to 20, output target) |
Por un lado, se tienen variables cuantitativas discretas como Edad, HorasDeEstudio, Reprobadas, Faltas, G1, G2 y G3, que pueden incorporarse directamente al modelo porque ya están en formato numérico. Estas variables son candidatas naturales a explicar la calificación final, ya que miden comportamientos o antecedentes académicos que pueden tener relación directa con el rendimiento.
Por otro lado, existen variables cualitativas nominales como Escuela, Sexo e Internet, que no poseen un orden numérico. Estas no pueden introducirse directamente en una regresión lineal, por lo que requieren codificación previa (por ejemplo, variables dummy u one-hot encoding). Este proceso incrementa el número de variables y puede añadir complejidad al modelo. Además, es necesario evaluar si realmente aportan información relevante o solo ruido estadístico.
Finalmente, de acuerdo a la función info(), no existan valores faltantes, lo que simplifica el preprocesamiento, ya que no será necesario imputar datos ni eliminar registros, permitiendo centrar el esfuerzo en análisis de correlaciones, detección de redundancias y selección de características.
2.2 Preparación y Limpieza de Datos
Como fue mencionado, contamos con 3 variables de índole cualitativo; Escuela, Sexo e Internet. La variable Internet, como se menciona en la tabla de la fuente, es de tipo binaria, mientras que las variables Escuela y Sexo son categóricas. Adicionalmente, gracias a la funión info() podemos ver el tipo de cada variable que compone el dataframe, en este caso estas 3 variables cualitativas son de tipo _objeto_ a comparación de las variables cuantitativas que son de tipo _int8_.
Para la preparación y limpieza de datos se generarán variables dummy para representar y reemplazar a las columnas que componen las variables cualitativas de interés.