Optimizando la Calidad de los Datos en
Aplicaciones Empresariales : Estrategias de
Detección de Outliers

Rebollo Monjo, Carmen

dc.contributor.advisor	Cifuentes Quintero, Jenny Alexandra	es-ES
dc.contributor.author	Rebollo Monjo, Carmen	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresariales	es_ES
dc.date.accessioned	2023-06-16T07:29:40Z
dc.date.available	2023-06-16T07:29:40Z
dc.date.issued	2024	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/79198
dc.description	Grado en Análisis de Negocios/Business Analytics y Grado en Derecho	es_ES
dc.description.abstract	En la actualidad, la sociedad está rodeada de una cantidad sin precedentes de datos que, si se utilizan adecuadamente, pueden proporcionar información valiosa y servir como una ventaja competitiva en el ámbito empresarial. En esta era del big data y la toma de decisiones basadas en datos, la detección de outliers se ha convertido en una herramienta de gran utilidad para garantizar la precisión y la integridad de los análisis. Específicamente, en el ámbito del riesgo crediticio, la identificación de valores atípicos es fundamental, ya que puede revelar riesgos no detectados, prevenir fraudes y optimizar las políticas crediticias. Este trabajo se centra en abordar el problema de la detección de outliers en el contexto del riesgo crediticio, donde identificar estos valores atípicos permite descubrir riesgos ocultos y prevenir actividades fraudulentas, entre otras aplicaciones. Para ello, se han seleccionado y aplicado diversas técnicas de detección de outliers, incluyendo Gaussian Mixture Models (GMM), Análisis de Componentes Principales Probabilístico (PPCA), distancia de Mahalanobis, Local Outlier Factor (LOF) e Isolation Forest (iForest). Estas técnicas han sido elegidas por su capacidad para manejar distintos tipos de datos y contextos, permitiendo una evaluación comparativa de su efectividad en la detección de anomalías dentro de conjuntos de datos complejos. La implementación y comparación de estas metodologías proporciona una visión sobre las estrategias con mejor desempeño al identificar y gestionar outliers en el ámbito del riesgo crediticio. Para evaluar el rendimiento de las técnicas, se consideran métricas como la sensibilidad, el accuracy y la especificidad. El análisis de los resultados obtenidos muestra que iForest es la técnica más adecuada para la detección de outliers en este tipo de casos. Esta técnica demostró una alta precisión y sensibilidad, identificando de manera efectiva las anomalías sin incurrir en un gran número de falsos positivos. Por otro lado, tanto LOF como PPCA demostraron ser menos efectivas debido a su baja sensibilidad, lo que resultó en la subdetección de outliers. La baja sensibilidad de LOF y PPCA puede atribuirse a su dependencia en la densidad local y en las estructuras subyacentes de los datos, lo que no siempre captura las anomalías en conjuntos de datos altamente variados o de alta dimensionalidad.	es-ES
dc.description.abstract	Today, society is surrounded by an unprecedented amount of data that, if used properly, can provide valuable information and serve as a competitive advantage in business. In this era of big data and data-driven decision making, the detection of outliers has become an invaluable tool for ensuring the accuracy and integrity of analysis. Specifically, in the field of credit risk, the identification of outliers is crucial as it can reveal undetected risks, prevent fraud and optimise credit policies. This paper focuses on addressing the problem of outlier detection in the context of credit risk, where identifying these outliers allows uncovering hidden risks and preventing fraudulent activities, among other applications. To this end, several outlier detection techniques have been selected and applied, including Gaussian Mixture Models (GMM), Probabilistic Principal Component Analysis (PPCA), Mahalanobis distance, Local Outlier Factor (LOF) and Isolation Forest (iForest). These techniques have been chosen for their ability to handle different data types and contexts, allowing a comparative evaluation of their effectiveness in detecting anomalies within complex datasets. The implementation and comparison of these methodologies provides insight into the best performing strategies for identifying and managing outliers in the credit risk domain. To evaluate the performance of the techniques, metrics such as sensitivity, accuracy and specificity are considered. The analysis of the results obtained shows that iForest is the most suitable technique for the detection of outliers in this type of cases. This technique demonstrated high accuracy and sensitivity, effectively identifying abnormalities without incurring a large number of false positives. On the other hand, both LOF and PPCA proved to be less effective due to their low sensitivity, resulting in the under-detection of outliers. The low sensitivity of LOF and PPCA can be attributed to their dependence on the local density and underlying structures of the data, which does not always capture anomalies in highly varied or high-dimensional data sets.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	es-ES	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject	12 Matemáticas	es_ES
dc.subject	1209 Estadística	es_ES
dc.subject	120903 Análisis de datos	es_ES
dc.subject.other	KBA	es_ES
dc.title	Optimizando la Calidad de los Datos en Aplicaciones Empresariales : Estrategias de Detección de Outliers	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.keywords	Detección de Outliers, Riesgo Crediticio, Gaussian Mixture Models, Análisis de Componentes Principales Probabilístico, Distancia de Mahalanobis, Local Outlier Factor, Isolation Forest, Datos Multivariados	es-ES
dc.keywords	Outlier Detection, Credit Risk, Gaussian Mixture Models, Probabilistic Principal Component Analysis, Mahalanobis Distance, Local Outlier Factor, Isolation Forest, Multivariate Data.	en-GB

Ficheros en el ítem

Nombre:: TFG - Rebollo Monjo, Carmen.pdf
Tamaño:: 1008.Kb
Formato:: PDF
Descripción:: Trabajo Fin de Grado

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

KBA-Trabajos Fin de Grado

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States

Optimizando la Calidad de los Datos en Aplicaciones Empresariales : Estrategias de Detección de Outliers

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)