Mostrar el registro sencillo del ítem
Detección de fraude en afiliaciones a través de un modelo de clasificación de machine learning en una aseguradora de riesgos laborales en Colombia
dc.rights.license | Atribución-NoComercial 4.0 Internacional (CC BY-NC- 4.0) | |
dc.contributor.advisor | Matson Hernández, Camilo Eduardo | |
dc.contributor.author | Bogoya Contreras, Stephany Alejandra | |
dc.contributor.editor | Fundación Universitaria Konrad Lorenz | |
dc.date.accessioned | 2022-12-07T19:48:22Z | |
dc.date.available | 2022-12-07T19:48:22Z | |
dc.date.issued | 2022 | |
dc.identifier.uri | https://repositorio.konradlorenz.edu.co/handle/001/5140 | |
dc.description.abstract | El presente proyecto de investigación evalúa la predicción de empresas marcadas como fraude en el sector de riesgos laborales, utilizando diferentes modelos de machine learning como lo son Random Forest, SVM, árboles de decisión y Gradient Boosting. El desarrollo del proyecto se realizó con datos reales que fueron proporcionados por una ARL Colombiana, los cuales cuentan con una muestra reducida de empresas detectadas como fraudulentas, por lo tanto, el estudio presenta una comparación de técnicas de manejo de desequilibrio de clases y los modelos de clasificación previamente mencionados. Se observa que la combinación que arrojó mejores resultados fue la técnica SMOTETOMEK con el modelo de clasificación de Random Forest con una especificidad (recall) del 0.99% la cual es la métrica de mayor interés para la aseguradora. | spa |
dc.description.abstract | This research project evaluates the prediction of companies marked as fraudulent in the occupational risk sector, using different machine learning models such as Random Forest, SVM, decision trees and Gradient Boosting. The development of the project was carried out with real data provided by a Colombian ARL, which has a reduced sample of companies detected as fraudulent, therefore, the study presents a comparison of class imbalance management techniques and the previously mentioned classification models. It is observed that the combination that yielded the best results was the SMOTETOMEK technique with the Random Forest classification model with a specificity (recall) of 0.99%, which is the metric of greatest interest for the insurer. | eng |
dc.format.extent | 55 páginas: tablas; figuras | spa |
dc.format.mimetype | application/pdf | spa |
dc.language.iso | spa | spa |
dc.publisher | Bogotá D.C : Fundación Universitaria Konrad Lorenz, 2022 | spa |
dc.rights | Atribución – No comercial – Sin derivar: permite que otros puedan descargar las obras y compartirlas con otras personas, siempre que se reconozca su autoría, pero no se pueden cambiar de ninguna manera ni se pueden utilizar comercialmente. | spa |
dc.subject.other | Inteligencia artificial | |
dc.subject.other | Minería de datos | |
dc.subject.other | Seguridad de datos | |
dc.subject.other | Privacidad de datos | |
dc.subject.other | Ética de datos | |
dc.title | Detección de fraude en afiliaciones a través de un modelo de clasificación de machine learning en una aseguradora de riesgos laborales en Colombia | spa |
dc.type | Trabajo de grado - Maestría | spa |
dc.relation.references | Batista, G. E. A. P. A., Prati, R. C., & Monard, M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explorations: Newsletter of the Special Interest Group (SIG) on Knowledge Discovery & Data Mining, 6(1), 20–29. https://doi.org/10.1145/1007730.1007735 | spa |
dc.relation.references | Clases de riesgo para cotización en la ARL según la actividad económica. (2017, febrero 19). SafetYA®; SafetYA. https://safetya.co/clases-de-riesgo-cotizacion-arl/ | spa |
dc.relation.references | Gandhi, R. (2018, junio 7). Support vector machine — introduction to machine learning algorithms. Towards Data Science. https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47 | spa |
dc.relation.references | Hernández, C. M. (2017). Redes Neuronales para Clasificación: Una aplicación al caso de Riesgos Laborales en Colombia. Pontificia Universidad Javeriana. | spa |
dc.relation.references | Krmar, J., Džigal, M., Stojković, J., Protić, A., & Otašević, B. (2022). Gradient Boosted Tree model: A fast track tool for predicting the Atmospheric Pressure Chemical Ionization-Mass Spectrometry signal of antipsychotics based on molecular features and experimental settings. Chemometrics and Intelligent Laboratory Systems: An International Journal Sponsored by the Chemometrics Society, 224(104554), 104554. https://doi.org/10.1016/j.chemolab.2022.104554 | spa |
dc.relation.references | Lei, S., Xinming, M., Lei, X., & Xiaohong, H. (2010). Financial data mining based on support vector machines and ensemble learning. 2010 International Conference on Intelligent Computation Technology and Automation. | spa |
dc.relation.references | Matson, C (2017). Redes Neuronales para Clasificación: Una aplicación al caso de Riesgos Laborales en Colombia (trabajo de grado maestría). Pontificia Universidad Javeriana. Colombia. | spa |
dc.relation.references | Naser, M. Z., & Alavi, A. (2020). Insights into performance fitness and error metrics for machine learning. En arXiv [cs.LG]. http://arxiv.org/abs/2006.00887 | spa |
dc.relation.references | Raghavan, P., & Gayar, N. E. (2019). Fraud detection using machine learning and deep learning. 2019 International Conference on Computational Intelligence and Knowledge Economy (ICCIKE). | spa |
dc.relation.references | Severino, M. K., & Peng, Y. (2021). Machine learning algorithms for fraud prediction in property insurance: Empirical evidence using real-world microdata. Machine Learning with Applications, 5(100074), 100074. https://doi.org/10.1016/j.mlwa.2021.100074 | spa |
dc.relation.references | Vista de Hablar de fraude con base en indicadores. (s/f). Fasecolda.com. Recuperado el 31 de mayo de 2022, de https://revista.fasecolda.com/index.php/revfasecolda/article/view/701/669 | spa |
dc.relation.references | Ye, Y., Wu, Q., Zhexue Huang, J., Ng, M. K., & Li, X. (2013). Stratified sampling for feature subspace selection in random forests for high dimensional data. Pattern Recognition, 46(3), 769–787. | spa |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | spa |
dc.subject.proposal | Riesgo laboral | spa |
dc.subject.proposal | Fraude | spa |
dc.subject.proposal | Seguros | spa |
dc.subject.proposal | Modelos de clasificación | spa |
dc.subject.proposal | Machine learning | eng |
dc.subject.proposal | Random forest | eng |
dc.subject.proposal | Árboles de decisión | spa |
dc.subject.proposal | Vector machine | spa |
dc.subject.proposal | Desbalance de datos | spa |
dc.subject.proposal | Gradient Boosting | eng |
dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | spa |
dc.type.version | info:eu-repo/semantics/acceptedVersion | spa |
dc.description.degreename | Magíster en Analítica Estratégica de Datos | spa |
dc.description.degreelevel | Maestría | spa |
dc.publisher.faculty | Escuela de Posgrados | spa |
dc.type.content | Text | spa |
dc.type.coarversion | http://purl.org/coar/version/c_b1a7d7d4d402bcce | spa |
dc.coverage.country | Colombia | |
dc.description.program | Maestría en Analítica Estratégica de Datos | spa |
dc.rights.coar | http://purl.org/coar/access_right/c_14cb | spa |