Modelo de predicción para la deserción en la Fundación Universitaria Konrad Lorenz
Trabajo de grado - Maestría
2022
El objetivo y alcance del proyecto de investigación es utilizar modelos de Machine Learning para la predicción de deserción en los estudiantes de pregrado de la Fundación Universitaria Konrad Lorenz, a partir de la sabana de datos del registro académico de la universidad.
Durante la investigación, se empleó la metodología CRISP-DM que consta de seis fases: comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación e implantación. En la primera fase de “compresión del negocio” se determinó la necesidad de la universidad por tener un modelo predictivo que le permita conocer la probabilidad de deserción de los estudiantes. En la segunda fase de “comprensión de los datos”, se realiza la exploración y verificación de la calidad de las tablas. En la tercera fase de “preparación de los datos”, se seleccionan las tablas a trabajar, se realiza la limpieza, se integran los datos y se dispone las tablas finales que entrarán a los modelos, estas tablas quedaron separadas por cada programa de pregrado de la universidad. En la cuarta fase de “modelado” se selecciona las técnicas de modelo y se evalúan los hiperparámetros de los modelos con la validación cruzada. En la quinta fase de “evaluación”, se evalúan los resultados de los modelos a través de las métricas mencionadas, para este caso el mejor modelo resultó ser los bosques aleatorios (Random Forest), con una exactitud superior del 95% para cada programa académico. En la sexta y última fase es la de “implantación” y se propone una arquitectura en nube que tiene como propósito integrar las fuentes y generar las salidas de los modelos para visualizarlos en un reporte. The aim and scope of the research project is to use Machine Learning models for prediction of dropout in undergraduate students of the Konrad Lorenz University Foundation, from the university’s academic record data sheet. During the investigation, the CRISP-DM methodology was used, which consists of six phases: business understanding, data understanding, data preparation, modeling, evaluation and implementation. In the first phase of "business compression" the need for the university to have a predictive model that allows it to know the probability of dropout of students was determined. In the second phase of "understanding the data", the examination and verification of the quality of the tables is performed. In the third phase of "data preparation", the tables to be worked are selected, the cleaning is carried out, the data are integrated and the final tables that will enter the models are arranged, these tables are separated by each undergraduate program of the university. In the fourth phase of "modeling" model techniques are selected and hyperparameters of models are evaluated with cross-validation. In the fifth phase of "evaluation", the results of the models are evaluated through the aforementioned metrics, for this case the best model was random forests (Random Forest), with an accuracy of more than 95% for each academic program. In the sixth and last phase is the "implementation" and a cloud architecture is proposed that aims to integrate the sources and generate the outputs of the models to visualize them in a report.
URI
Descripción:
617211002-Tesis.pdf
Título: 617211002-Tesis.pdf
Tamaño: 2.396Mb
PDFLEER EN FLIP
Descripción: 617211002-RAI.pdf
Título: 617211002-RAI.pdf
Tamaño: 1.534Mb
PDFLEER EN FLIP
Descripción: 617211002-Autorizacion.pdf
Título: 617211002-Autorizacion.pdf
Tamaño: 139.1Kb
PDF
Descripción: 617211002-Acta.pdf
Título: 617211002-Acta.pdf
Tamaño: 197.9Kb
PDF
Título: 617211002-Tesis.pdf
Tamaño: 2.396Mb
PDFLEER EN FLIP
Descripción: 617211002-RAI.pdf
Título: 617211002-RAI.pdf
Tamaño: 1.534Mb
PDFLEER EN FLIP
Descripción: 617211002-Autorizacion.pdf
Título: 617211002-Autorizacion.pdf
Tamaño: 139.1Kb
Descripción: 617211002-Acta.pdf
Título: 617211002-Acta.pdf
Tamaño: 197.9Kb