Aplicación de un análisis de interpretabilidad de modelos de machine learning aplicado a la gestión de riesgos.
Resumen
En el campo del Machine Learning (ML), ha habido una notable evolución en la complejidad de los modelos, lo que ha mejorado su capacidad predictiva. Sin embargo, esta alta complejidad ha dado lugar a un desafío en términos de interpretación, ya que los modelos se vuelven menos comprensibles para los usuarios. En este contexto, el presente trabajo se centra en abordar el problema de la interpretabilidad local en modelos de ML, específicamente en el contexto del riesgo financiero. En el ámbito del riesgo financiero, la interpretabilidad de los modelos de ML es de vital importancia para promover la transparencia en las decisiones tomadas por dichos modelos.La capacidad de comprender y explicar las predicciones o clasificaciones es esencial para garantizar decisiones éticas y cumplir con los crecientes requisitos regulatorios en el sector financiero. Por lo tanto, el objetivo de este trabajo es identificar y aplicar las técnicas de interpretabilidad más relevantes en el ámbito del riesgo de crédito.
El enfoque se centrará en técnicas de interpretabilidad local, que permiten analizar y comprender las decisiones de los modelos a nivel de cada observación individual. Al aplicar estas técnicas a un caso concreto de riesgo de crédito, se buscará obtener una visión detallada de cómo el modelo clasifica el riesgo y qué variables influyen en dicha clasificación. Para lograr este objetivo, se presenta una variedad de técnicas de interpretabilidad local ampliamente utilizadas en la literatura. Se emplean 5 técnicas específicas: LIME, SHAP, Explicaciones contrafácticas, anclas y los gráficos de ICE. Se aplican sobre un modelo de ML específico, en este caso una red neuronal entrenada para clasificar solicitudes de préstamos como ``buenas'' o ``malas''. Cada una de estas técnicas generará explicaciones que permitirán comprender el proceso de toma de decisiones del modelo, brindando información valiosa sobre las variables más importantes que influyen en la clasificación de las solicitudes de préstamos.
Se ha realizado un análisis de resultados en 3 observaciones seleccionadas aleatoriamente, teniendo en cuenta la frecuencia con la que las variables son consideradas relevantes y la coherencia de los resultados con el contexto financiero. Estos análisis muestran la importancia de variables como la edad, la cantidad solicitada, la duración del préstamo y la presencia de una gran cantidad de dinero en la cuenta de ahorros en la clasificación del riesgo crediticio para ciertas observaciones. Sin embargo, no se llega a un consenso claro para todas las variables, lo que subraya la complejidad y la necesidad de un enfoque local robusto en la interpretabilidad de estos modelos. In the field of Machine Learning (ML), there has been a remarkable evolution in the complexity of models, which has improved their predictive capability. However, this high complexity has led to a challenge in terms of interpretability, as models become less understandable to users. In this context, this paper focuses on addressing the problem of local interpretability in ML models, specifically in the context of financial risk. In the field of financial risk, the interpretability of ML models is of vital importance to promote transparency in the decisions made by such models. The ability to understand and explain predictions or ratings is essential to ensure ethical decisions and to comply with increasing regulatory requirements in the financial sector. Therefore, the aim of this paper is to identify and apply the most relevant interpretability techniques in the field of credit risk.
The focus will be on local interpretability techniques, which allow to analyse and understand model decisions at the level of each individual observation. By applying these techniques to a specific credit risk case, the aim is to obtain a detailed view of how the model classifies risk and which variables influence this classification. To achieve this goal, a variety of local interpretability techniques widely used in the literature are presented. Five specific techniques are employed: LIME, SHAP, Counterfactual explanations, anchors and the ICE graphs. They are applied on a specific ML model, in this case a neural network trained to classify loan applications as ``good'' or ``bad''. Each of these techniques will generate explanations that will provide insight into the decision-making process of the model, providing valuable information on the most important variables that influence the classification of loan applications.
An analysis of results has been carried out on 3 randomly selected observations, considering the frequency with which the variables are considered relevant and the consistency of the results with the financial context. These analyses show the importance of variables such as age, the amount requested, the duration of the loan and the presence of a large amount of money in the savings account in the classification of credit risk for certain observations. However, no clear consensus is reached for all variables, which underlines the complexity and the need for a robust local approach in the interpretability of these models.
Trabajo Fin de Grado
Aplicación de un análisis de interpretabilidad de modelos de machine learning aplicado a la gestión de riesgos.Titulación / Programa
Grado en Administración y Dirección de Empresas y Grado en Análisis de Negocios/Business AnalyticsMaterias/ categorías / ODS
KBAPalabras Clave
interpretabilidad, riesgo de crédito, Machine Learning, SHAP, LIME, ICE, Explicaciones contrafácticas, anclas.interpretability, credit risk, Machine Learning, SHAP, LIME, ICE, counterfactual explanations, anchors.