Mostrar el registro sencillo del ítem

dc.rights.licenseAtribución-NoComercial 4.0 Internacional (CC BY-NC- 4.0)
dc.contributor.advisorMatson Hernández, Camilo Eduardo
dc.contributor.authorBogoya Contreras, Stephany Alejandra
dc.contributor.editorFundación Universitaria Konrad Lorenz
dc.date.accessioned2022-12-07T19:48:22Z
dc.date.available2022-12-07T19:48:22Z
dc.date.issued2022
dc.identifier.urihttps://repositorio.konradlorenz.edu.co/handle/001/5140
dc.description.abstractEl presente proyecto de investigación evalúa la predicción de empresas marcadas como fraude en el sector de riesgos laborales, utilizando diferentes modelos de machine learning como lo son Random Forest, SVM, árboles de decisión y Gradient Boosting. El desarrollo del proyecto se realizó con datos reales que fueron proporcionados por una ARL Colombiana, los cuales cuentan con una muestra reducida de empresas detectadas como fraudulentas, por lo tanto, el estudio presenta una comparación de técnicas de manejo de desequilibrio de clases y los modelos de clasificación previamente mencionados. Se observa que la combinación que arrojó mejores resultados fue la técnica SMOTETOMEK con el modelo de clasificación de Random Forest con una especificidad (recall) del 0.99% la cual es la métrica de mayor interés para la aseguradora.spa
dc.description.abstractThis research project evaluates the prediction of companies marked as fraudulent in the occupational risk sector, using different machine learning models such as Random Forest, SVM, decision trees and Gradient Boosting. The development of the project was carried out with real data provided by a Colombian ARL, which has a reduced sample of companies detected as fraudulent, therefore, the study presents a comparison of class imbalance management techniques and the previously mentioned classification models. It is observed that the combination that yielded the best results was the SMOTETOMEK technique with the Random Forest classification model with a specificity (recall) of 0.99%, which is the metric of greatest interest for the insurer.eng
dc.format.extent55 páginas: tablas; figurasspa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.publisherBogotá D.C : Fundación Universitaria Konrad Lorenz, 2022spa
dc.rightsAtribución – No comercial – Sin derivar: permite que otros puedan descargar las obras y compartirlas con otras personas, siempre que se reconozca su autoría, pero no se pueden cambiar de ninguna manera ni se pueden utilizar comercialmente.spa
dc.subject.otherInteligencia artificial
dc.subject.otherMinería de datos
dc.subject.otherSeguridad de datos
dc.subject.otherPrivacidad de datos
dc.subject.otherÉtica de datos
dc.titleDetección de fraude en afiliaciones a través de un modelo de clasificación de machine learning en una aseguradora de riesgos laborales en Colombiaspa
dc.typeTrabajo de grado - Maestríaspa
dc.relation.referencesBatista, G. E. A. P. A., Prati, R. C., & Monard, M. C. (2004). A study of the behavior of several methods for balancing machine learning training data. SIGKDD Explorations: Newsletter of the Special Interest Group (SIG) on Knowledge Discovery & Data Mining, 6(1), 20–29. https://doi.org/10.1145/1007730.1007735spa
dc.relation.referencesClases de riesgo para cotización en la ARL según la actividad económica. (2017, febrero 19). SafetYA®; SafetYA. https://safetya.co/clases-de-riesgo-cotizacion-arl/spa
dc.relation.referencesGandhi, R. (2018, junio 7). Support vector machine — introduction to machine learning algorithms. Towards Data Science. https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47spa
dc.relation.referencesHernández, C. M. (2017). Redes Neuronales para Clasificación: Una aplicación al caso de Riesgos Laborales en Colombia. Pontificia Universidad Javeriana.spa
dc.relation.referencesKrmar, J., Džigal, M., Stojković, J., Protić, A., & Otašević, B. (2022). Gradient Boosted Tree model: A fast track tool for predicting the Atmospheric Pressure Chemical Ionization-Mass Spectrometry signal of antipsychotics based on molecular features and experimental settings. Chemometrics and Intelligent Laboratory Systems: An International Journal Sponsored by the Chemometrics Society, 224(104554), 104554. https://doi.org/10.1016/j.chemolab.2022.104554spa
dc.relation.referencesLei, S., Xinming, M., Lei, X., & Xiaohong, H. (2010). Financial data mining based on support vector machines and ensemble learning. 2010 International Conference on Intelligent Computation Technology and Automation.spa
dc.relation.referencesMatson, C (2017). Redes Neuronales para Clasificación: Una aplicación al caso de Riesgos Laborales en Colombia (trabajo de grado maestría). Pontificia Universidad Javeriana. Colombia.spa
dc.relation.referencesNaser, M. Z., & Alavi, A. (2020). Insights into performance fitness and error metrics for machine learning. En arXiv [cs.LG]. http://arxiv.org/abs/2006.00887spa
dc.relation.referencesRaghavan, P., & Gayar, N. E. (2019). Fraud detection using machine learning and deep learning. 2019 International Conference on Computational Intelligence and Knowledge Economy (ICCIKE).spa
dc.relation.referencesSeverino, M. K., & Peng, Y. (2021). Machine learning algorithms for fraud prediction in property insurance: Empirical evidence using real-world microdata. Machine Learning with Applications, 5(100074), 100074. https://doi.org/10.1016/j.mlwa.2021.100074spa
dc.relation.referencesVista de Hablar de fraude con base en indicadores. (s/f). Fasecolda.com. Recuperado el 31 de mayo de 2022, de https://revista.fasecolda.com/index.php/revfasecolda/article/view/701/669spa
dc.relation.referencesYe, Y., Wu, Q., Zhexue Huang, J., Ng, M. K., & Li, X. (2013). Stratified sampling for feature subspace selection in random forests for high dimensional data. Pattern Recognition, 46(3), 769–787.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.subject.proposalRiesgo laboralspa
dc.subject.proposalFraudespa
dc.subject.proposalSegurosspa
dc.subject.proposalModelos de clasificaciónspa
dc.subject.proposalMachine learningeng
dc.subject.proposalRandom foresteng
dc.subject.proposalÁrboles de decisiónspa
dc.subject.proposalVector machinespa
dc.subject.proposalDesbalance de datosspa
dc.subject.proposalGradient Boostingeng
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
dc.description.degreenameMagíster en Analítica Estratégica de Datosspa
dc.description.degreelevelMaestríaspa
dc.publisher.facultyEscuela de Posgradosspa
dc.type.contentTextspa
dc.type.coarversionhttp://purl.org/coar/version/c_b1a7d7d4d402bccespa
dc.coverage.countryColombia
dc.description.programMaestría en Analítica Estratégica de Datosspa
dc.rights.coarhttp://purl.org/coar/access_right/c_14cbspa


Ficheros en el ítem

Thumbnail
Thumbnail
Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem