Mostrar el registro sencillo del ítem
Revisión Comparativa de Técnicas de Detección de Outliers en Aplicaciones Empresariales: Un Enfoque Práctico
dc.contributor.advisor | Cifuentes Quintero, Jenny Alexandra | es-ES |
dc.contributor.author | Rebollo Monjo, Carmen | es-ES |
dc.contributor.other | Universidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresariales | es_ES |
dc.date.accessioned | 2023-06-16T07:29:40Z | |
dc.date.available | 2023-06-16T07:29:40Z | |
dc.date.issued | 2024 | es_ES |
dc.identifier.uri | http://hdl.handle.net/11531/79198 | |
dc.description | Grado en Análisis de Negocios/Business Analytics y Grado en Derecho | es_ES |
dc.description.abstract | En la actualidad, la sociedad está rodeada de una cantidad sin precedentes de datos que, si se utilizan adecuadamente, pueden proporcionar información valiosa y servir como una ventaja competitiva en el ámbito empresarial. En esta era del big data y la toma de decisiones basadas en datos, la detección de outliers se ha convertido en una herramienta de gran utilidad para garantizar la precisión y la integridad de los análisis. Específicamente, en el ámbito del riesgo crediticio, la identificación de valores atípicos es fundamental, ya que puede revelar riesgos no detectados, prevenir fraudes y optimizar las políticas crediticias. Este trabajo se centra en abordar el problema de la detección de outliers en el contexto del riesgo crediticio, donde identificar estos valores atípicos permite descubrir riesgos ocultos y prevenir actividades fraudulentas, entre otras aplicaciones. Para ello, se han seleccionado y aplicado diversas técnicas de detección de outliers, incluyendo Gaussian Mixture Models (GMM), Análisis de Componentes Principales Probabilístico (PPCA), distancia de Mahalanobis, Local Outlier Factor (LOF) e Isolation Forest (iForest). Estas técnicas han sido elegidas por su capacidad para manejar distintos tipos de datos y contextos, permitiendo una evaluación comparativa de su efectividad en la detección de anomalías dentro de conjuntos de datos complejos. La implementación y comparación de estas metodologías proporciona una visión sobre las estrategias con mejor desempeño al identificar y gestionar outliers en el ámbito del riesgo crediticio. Para evaluar el rendimiento de las técnicas, se consideran métricas como la sensibilidad, el accuracy y la especificidad. El análisis de los resultados obtenidos muestra que iForest es la técnica más adecuada para la detección de outliers en este tipo de casos. Esta técnica demostró una alta precisión y sensibilidad, identificando de manera efectiva las anomalías sin incurrir en un gran número de falsos positivos. Por otro lado, tanto LOF como PPCA demostraron ser menos efectivas debido a su baja sensibilidad, lo que resultó en la subdetección de outliers. La baja sensibilidad de LOF y PPCA puede atribuirse a su dependencia en la densidad local y en las estructuras subyacentes de los datos, lo que no siempre captura las anomalías en conjuntos de datos altamente variados o de alta dimensionalidad. | es-ES |
dc.description.abstract | Today, society is surrounded by an unprecedented amount of data that, if used properly, can provide valuable information and serve as a competitive advantage in business. In this era of big data and data-driven decision making, the detection of outliers has become an invaluable tool for ensuring the accuracy and integrity of analysis. Specifically, in the field of credit risk, the identification of outliers is crucial as it can reveal undetected risks, prevent fraud and optimise credit policies. This paper focuses on addressing the problem of outlier detection in the context of credit risk, where identifying these outliers allows uncovering hidden risks and preventing fraudulent activities, among other applications. To this end, several outlier detection techniques have been selected and applied, including Gaussian Mixture Models (GMM), Probabilistic Principal Component Analysis (PPCA), Mahalanobis distance, Local Outlier Factor (LOF) and Isolation Forest (iForest). These techniques have been chosen for their ability to handle different data types and contexts, allowing a comparative evaluation of their effectiveness in detecting anomalies within complex datasets. The implementation and comparison of these methodologies provides insight into the best performing strategies for identifying and managing outliers in the credit risk domain. To evaluate the performance of the techniques, metrics such as sensitivity, accuracy and specificity are considered. The analysis of the results obtained shows that iForest is the most suitable technique for the detection of outliers in this type of cases. This technique demonstrated high accuracy and sensitivity, effectively identifying abnormalities without incurring a large number of false positives. On the other hand, both LOF and PPCA proved to be less effective due to their low sensitivity, resulting in the under-detection of outliers. The low sensitivity of LOF and PPCA can be attributed to their dependence on the local density and underlying structures of the data, which does not always capture anomalies in highly varied or high-dimensional data sets. | en-GB |
dc.format.mimetype | application/pdf | es_ES |
dc.language.iso | es-ES | es_ES |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES |
dc.subject.other | KBA | es_ES |
dc.title | Revisión Comparativa de Técnicas de Detección de Outliers en Aplicaciones Empresariales: Un Enfoque Práctico | es_ES |
dc.type | info:eu-repo/semantics/bachelorThesis | es_ES |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES |
dc.keywords | Detección de Outliers, Riesgo Crediticio, Gaussian Mixture Models, Análisis de Componentes Principales Probabilístico, Distancia de Mahalanobis, Local Outlier Factor, Isolation Forest, Datos Multivariados | es-ES |
dc.keywords | Outlier Detection, Credit Risk, Gaussian Mixture Models, Probabilistic Principal Component Analysis, Mahalanobis Distance, Local Outlier Factor, Isolation Forest, Multivariate Data. | en-GB |