Vinueza, Toscano, Salazar y Flores.
Identificación de variables significativas en la deserción estudiantil, mediante un modelo matemático
de regresión lineal KDD
como variable explicativa ‘carrera’. El valor F1_Score del modelo de regresión
logística 4 fue mayor que el valor del F1_Score del modelo con árbol de decisión.
Palabras clave: deserción estudiantil, modelo matemático, regresión logística,
predicción con árbol de decisión, educación superior, metodología KDD
Abstract
In this research, a logistic regression model was used to estimate student dropout
from the IST Luis A. Martínez Agronómico. The data of 849 students registered
was used to build the model. The independent variables considered for the model
were: gender, marital status, age, career, repetition, occupation and economic
status. We used the KDD methodology to estimate the mathematical model, which
allows generating information from a database with the records to be studied. In
the evaluated period, 82.45% of the students did not dropout but 17.55% did it.
In the study, four logistic regression models were established, finally, it was
chosen the logistic regression model 4, which only includes the career and
repetition variables as the only significant ones. The null hypothesis was rejected
because the coefficients 1 and 2 of the variables ‘career’ and ‘repetition’ aren´t
zero. The logistic regression model 4 correctly classified 83% of the training data
and 79% of the test data. Additionally, we build a prediction model based on
decision trees, which established ‘career’ as a unique explanatory variable. The
F1_Score value of the logistic regression model 4 was higher than the F1_Score
value of the decision tree model.
Keywords: student dropout, mathematical model, logistic regression, decision
tree prediction, higher education, KDD methodology.
Introducción
La presente investigación pretende dotar de una herramienta que permita predecir
el riesgo de deserción de estudiantes que cursan una carrera de nivel tecnológico
superior en una institución del centro del país. Con este fin, se utilizarán modelos
predictivos y técnicas de minería de datos para determinar patrones de
comportamiento de los estudiantes, que determinen su condición de potencial
desertor, asociándole un índice de deserción como probabilidad de abandono del
sistema educativo. Dicha información podrá ser utilizada por las instituciones de
educación superior del país para tomar medidas que eviten o reduzcan el nivel de
deserción al mínimo posible. El modelo predictivo se desarrollará mediante un
Modelo Multivariante con Regresión Logarítmica, ya que los modelos de elección
discreta son bastantes apropiados para analizar los factores determinantes de la
probabilidad de un suceso como el que se pretende estudiar. La presente
investigación es de tipo caso de estudio, ya que estudia un sujeto o una realidad
de carácter específico. Cabe recalcar que los estudios de casos se utilizan
especialmente cuando las preguntas "cómo" o "por qué" se plantean, el
investigador tiene poco control sobre los eventos, y cuando se investiga un
fenómeno contemporáneo dentro de su contexto de la vida real, considerando que
los límites entre el fenómeno y el contexto no son claramente evidentes (Yin,
2003).
35