Maestría en Analítica Estratégica de Datos
https://repositorio.konradlorenz.edu.co/handle/001/2082
2024-03-29T09:16:11ZPredicción de la demanda de Smartphone de introducción al mercado Colombiano mediante modelos de Machine Learning
https://repositorio.konradlorenz.edu.co/handle/001/5210
Predicción de la demanda de Smartphone de introducción al mercado Colombiano mediante modelos de Machine Learning
Manrique, Juan Ányelo
Fundación Universitaria Konrad Lorenz
El proyecto tiene objetivo pronosticar la cantidad de ventas para productos de introducción al mercado colombiano de equipos celulares. Se entrenaron y validaron distintos modelos de machine learning como lo son: árboles de decisión, bosques aleatorios, máquinas de soporte vectorial, redes neuronales y XGBoost Regressor.
La metodología empleada se basa en la técnica CRISP_DM, la cual se aplicó para una empresa de telecomunicaciones, tomando como base los datos correspondientes a los históricos de venta de equipos celulares de línea, vendidos entre el periodo de enero a junio del año 2022. Se tomaron en consideración las características del producto como variables independientes.
El mejor modelo se seleccionó por medio de las métricas más frecuentemente usadas como el RSME, MAE y MAPE. Teniendo como resultado el modelo XGBoost Regressor por mejor desempeño.; The objective of the project is to forecast the amount of sales for products to be introduced in the Colombian market of cellular devices. Different machine learning models were trained and validated, such as: decision trees, random forests, support vector machines, neural networks and XGBoost Regressor.
The methodology used is based on the CRISP_DM technique, which was applied for a telecommunications company, taking as a basis the data corresponding to the historical sales of cellular line equipment sold between January and June 2022. Product characteristics were taken into consideration as independent variables.
The best model was selected by means of the most frequently used metrics such as RSME, MAE and MAPE. As a result, the XGBoost Regressor model was selected as the best performing model.
2022-01-01T00:00:00ZAnálisis epidemiológico en la reactivación del COVID 19 año 2021 mediante modelos de Machine Learning
https://repositorio.konradlorenz.edu.co/handle/001/5209
Análisis epidemiológico en la reactivación del COVID 19 año 2021 mediante modelos de Machine Learning
Castillo Camargo, Johan Sebastián
Fundación Universitaria Konrad Lorenz
El objetivo de la investigación es realizar mediante modelos de machine learning, predicciones que puedan identificar relación entre las variables y poder ayudar al conocimiento y mejoramiento de la institución la cual se encuentra en la ciudad de Bogotá con el fin de definir la conducta en la atención de los servicios correspondientes a consulta externa, urgencias, hospitalización y fallecidos de una institución prestadora de salud (IPS) en el año 2021.
La metodología de investigación que mejor se adapta a los datos corresponden a CRIPS–DM por su facilidad de entendimiento, organización y flexibilidad en cualquier trabajo correspondiente a minería de datos obteniendo resultados favorables, este modelo consta de seis fases:
Comprensión del negocio, comprensión de los datos, preparación de los datos, modelado, evaluación e implantación. En el primer ciclo “comprensión del negocio” se identifica la necesidad por parte de la institución prestadora de salud para determinar esas variables de afectación que influyan con la salud de los pacientes, En el segundo ciclo “comprensión de los datos” se realiza la exploración y verificación de la información. En el tercer ciclo “preparación de los datos”, se realiza extracción transformación y limpieza. En el cuarto ciclo “modelado” identificamos la variable dependiente e independientes, se determina que los datos que mejor se ajustan a nuestros modelos de machine learning de clasificación corresponden: regresión logística múltiple, máquina de soporte vectorial, arboles de decisión y redes neuronales. En el quinto ciclo “evaluación” se evalúan los resultados de los cuatro modelos donde se escoge el porcentaje de precisión más alto. En el sexto y último ciclo “implantación” se propone un tablero en la herramienta de Power BI la cual genera una descripción de los datos y un script en Google colab mediante lenguaje Python. En el cual se identifica que la edad y tipo de afiliación son significativas en las atenciones prestadas.
Palabras clave: Machine Learning, población, comorbilidades, enfermedades, modelos predictivos, descripción de los datos.
The objective of the research is to use machine learning models to make predictions that can identify the relationship between the variables and help the knowledge and improvement of the institution which is located in the city of Bogota in order to define the behavior in the care of the services corresponding to outpatient, emergency, hospitalization and deceased of a health care institution (IPS) in the year 2021.
The research methodology that best suits the data corresponds to CRIPS-DM for its ease of understanding, organization and flexibility in any work corresponding to data mining obtaining favorable results, this model consists of six phases:
Business understanding, data understanding, data preparation, modeling, evaluation and implementation. In the first cycle "understanding the business", the health care institution identifies the need to determine the variables that affect the health of patients. In the second cycle "understanding the data", the information is explored and verified. In the third cycle "data preparation", data extraction, transformation and cleaning are performed. In the fourth cycle "modeling" we identify the dependent and independent variables, it is determined that the data that best fit our classification machine learning models correspond to: multiple logistic regression, support vector machine, decision trees and neural networks. In the fifth cycle "evaluation" the results of the four models are evaluated where the highest percentage of accuracy is chosen. In the sixth and last cycle "implementation" a dashboard is proposed in the Power BI tool which generates a description of the data and a script in Google colab using Python language. In which it is identified that age and type of affiliation are significant in the care provided.
Keywords: Machine Learning, population, comorbidities, diseases, predictive models, data description.
2023-01-01T00:00:00ZModelo de recomendación de zonas laborales a los beneficiarios de préstamos Icetex que terminaron materias universitaria Konrad Lorenz
https://repositorio.konradlorenz.edu.co/handle/001/5208
Modelo de recomendación de zonas laborales a los beneficiarios de préstamos Icetex que terminaron materias universitaria Konrad Lorenz
Lacera Díaz, Donaldo José
Fundación Universitaria Konrad Lorenz
El objetivo y alcance del proyecto de investigación es encontrar un modelo que cumpla con parámetros superiores al 80% de exactitud y precisión que permita clasificar los beneficiarios que puedan caer en mora utilizando información contenida en la entidad y aplicando modelos de Machine Learning que permitan con este resultado comparar con los datos contenidos en el observatorio del MEN (Ministerio de Educación Nacional) la necesidad de esa carrera en la oferta del mercado, la información base fue tomada a partir los datos socio demográficos y de comportamiento de pago proporcionada por la entidad en el cierre mensual de cartera y sus históricos, cumpliendo con las normas de seguridad de la información. Para la investigación, se empleó la metodología CRISP-DM en sus seis fases y el resultado se entregará a la entidad para ser implementado y que el beneficiario del crédito al momento de terminar su vida académica pueda consultarlo en página.; The objective and scope of the research project is to find a model that meets parameters higher than 80% of accuracy and precision that allows classifying the beneficiaries that may fall into arrears using information contained in the entity and applying Machine Learning models that allow with this result to compare with the data contained in the observatory of the MEN (Ministry of National Education) the need for that career in the market supply, the base information was taken from the socio demographic data and payment behavior provided by the entity in the monthly closing of portfolio and its historical, complying with the rules of information security. For the research, the CRISP-DM methodology was used in its six phases and the result will be delivered to the entity to be implemented so that the beneficiary of the loan at the end of his academic life can consult it on page.
2023-01-01T00:00:00ZDesarrollo de modelo analítico para anticipar el no pago de clientes con crédito de vehículo particular
https://repositorio.konradlorenz.edu.co/handle/001/5175
Desarrollo de modelo analítico para anticipar el no pago de clientes con crédito de vehículo particular
Enciso Quintero, Oscar Fabián
Fundación Universitaria Konrad Lorenz
La gestión de cobranza se enfoca en los problemas de grupos de clientes que tienen en común algunas situaciones, pero después de la pandemia que comenzó en el año 2019 y los problemas económicos mundiales, se han generado nuevos escenarios que encendieron las alarmas de las entidades financieras.
La entidad financiera en estudio se especializa en 3 productos que son Libranza Oficial, Educativo y Vehículos, aunque ofrecen otras líneas de crédito, son reconocidos en el mercado por su gran acogida con dichos productos, el que más genera preocupación es el de vehículos, ya que por su alta representación en saldo dispara los indicadores de cartera vencida.
El objetivo de este estudio es desarrollar un modelo analítico que permita generar alertas de clientes que presentarán rodamiento en la cartera, especialmente a tramos mayores a 30 días o incluso 90, ya que esto genera un mayor aprovisionamiento por el riesgo de escalar a estado castigo.
Actualmente la entidad financiera no cuenta con modelos de machine learning como apoyo para su gestión, así que inicialmente se desarrolló una solución al producto de vehículos particulares a través de la ejecución de 4 modelos de clasificación (XGBoost, Random Forest, KNN (Vecinos más cercanos) y Arboles de decisión) donde después de realizarse el respectivo estudio y validaciones se evidenció una mayor efectividad en el modelo XGBoost.
Después de analizar todos los modelos aplicados, se pudo identificar que los clientes con menor probabilidad de pago son aquellos que tienen un alto valor de pago mínimo, con la variable "pago_mínimo" como uno de los factores más importantes. Esto se debe principalmente a las reestructuraciones o modificaciones en las condiciones del crédito y a la participación en el PAD (Programa de acompañamiento a deudores), que permite acceder a hasta cuatro meses al beneficio y aumenta las cuotas futuras.; The collection management focuses on the problems of groups of customers who have in common some situations, but after the pandemic that began in 2019 and the global economic problems, new scenarios have been generated that set off the alarms of financial institutions.
The financial entity under study specializes in 3 products which are Libranza Oficial, Educational and Vehicles, although they offer other lines of credit, they are recognized in the market for their great reception with such products, the one that generates more concern is the vehicle one, since due to its high representation in balance it triggers the overdue portfolio indicators.
The objective of this study is to develop an analytical model that allows to generate alerts of clients that will present portfolio bearing, especially in periods longer than 30 days or even 90 days, since this generates a higher provisioning due to the risk of escalating to write-off status.
Currently the financial institution does not have machine learning models to support its management, so initially a solution was developed for the product of private vehicles through the execution of 4 classification models (XGBoost, Random Forest, KNN (Nearest Neighbors) and Decision Trees) where after the respective study and validations were carried out, a greater effectiveness was evidenced in the XGBoost model.
After analyzing all the models applied, it was possible to identify that the customers with the lowest payment probability are those with a high minimum payment value, with the variable "minimum_payment" as one of the most important factors. This is mainly due to restructurings or modifications in the credit conditions and participation in the PAD (Programa de acompañamiento a deudores), which allows access to up to four months of the benefit and increases future installments.
2022-01-01T00:00:00Z