Uso de aprendizaje no supervisado para lapredicción del default
Resumen
El riesgo de crédito es uno de los riesgos centrales de la actividad bancaria. Su medición suele apoyarse en modelos de credit scoring entrenados con historiales de impago. Sin embargo, en productos nuevos, carteras recientes, exposiciones con pocos eventos de default u otras situaciones similares, el número de incumplimientos observados puede ser reducido. Este problema es especialmente relevante en los Low Default Portfolios (LDP), donde la escasez de impagos limita la capacidad de los modelos supervisados para aprender patrones fiables.
Este trabajo analiza si los métodos de aprendizaje no supervisado y de detección de novedades pueden aportar señal útil de riesgo cuando las observaciones de default son escasas. Para ello, se utiliza un conjunto de datos etiquetado de crédito al consumo correspondiente al período 2019-2020, compuesto por más de 1,5 millones de solicitudes y con una tasa de impago del 3,14 %.
La metodología combina modelos supervisados de referencia con técnicas no supervisadas y de detección de novedades. Los modelos supervisados permiten comprobar que el conjunto de datos contiene señal predictiva y sirven como base de comparación. Posteriormente, se evalúa si métodos como K-Prototypes, Gaussian Mixture Models o SVDD son capaces de identificar perfiles o segmentos con mayor riesgo sin depender directamente de las etiquetas de impago durante el ajuste del modelo.
Los resultados muestran que XGBoost obtiene la mayor capacidad discriminante cuando existe suficiente historial de defaults. No obstante, K-Prototypes identifica un segmento pequeño y estable con una tasa de impago superior a la media. Además, SVDD destaca entre los métodos de detección de novedades por mantener un comportamiento más estable cuando se reduce de forma extrema el número de impagos disponibles en el entrenamiento.
En conjunto, los resultados sugieren que los métodos no supervisados no sustituyen a los modelos supervisados cuando hay datos suficientes, pero sí pueden aportar valor como herramientas complementarias en carteras con pocos impagos. Credit risk is one of the main risks in banking activity. Its measurement usually relies on credit scoring models trained with historical default data. However, in new products, recent portfolios, exposures with few default events or similar situations, the number of observed defaults may be limited. This issue is especially relevant in Low Default Portfolios (LDPs), where the scarcity of defaults limits the ability of supervised models to learn reliable patterns.
This thesis analyses whether unsupervised learning and novelty detection methods can provide useful risk signals when default labels are scarce. The empirical analysis is based on the Home Credit - Credit Risk Model Stability dataset, which contains more than 1.5 million consumer credit applications from the 2019-2020 period, with an observed default rate of 3.14 %.
The methodology combines supervised benchmark models with unsupervised and novelty detection techniques. The supervised models confirm that the dataset contains predictive signal and provide a reference point for comparison. Then, the thesis evaluates whether methods such as K-Prototypes, Gaussian Mixture Models or SVDD can identify higher-risk profiles or segments without relying directly on default labels.
The results show that XGBoost achieves the highest discriminative power when enough default history is available. Nevertheless, K-Prototypes identifies a small and stable segment with a default rate 4.1 times higher than the portfolio average. In addition, SVDD stands out among the novelty detection methods.
The LDP sensitivity analysis shows that, when the number of available defaults in training is severely reduced, the supervised model deteriorates, while SVDD remains more stable. Overall, the findings suggest that unsupervised methods do not replace supervised models when enough data are available, but they can provide value as complementary tools in portfolios with few observed defaults.
Trabajo Fin de Máster
Uso de aprendizaje no supervisado para lapredicción del defaultTitulación / Programa
Máster Universitario en Big DataMaterias/ categorías / ODS
H0ZPalabras Clave
Palabras clave: riesgo de crédito, LDP, aprendizaje no supervisado, credit scoring, K-Prototypes, SVDD.Keywords: credit risk, LDP, unsupervised learning, SVDD.


