Explicación y predicción del Default en créditos, con la implementación de modelos de Machine Learning
Resumen
Este trabajo analiza los datos de la Base de Datos de Lending Club, una plataforma de créditos localizada en Estados Unidos. A través de estos datos, este trabajo analiza las cualidades de los prestatarios que pueden llegar a provocar un Default en dichos créditos. Para ello, se lleva a cabo un análisis exploratorio de los datos, analizando todas las variables y sus diferentes valores según las observaciones que pertenecen a cada clase de la variable target. Además, usamos ciertos modelos con capacidad explicativa con la finalidad de averiguar cuales son las variables que más influyen y cuales no debemos tener tan en cuenta. Comprobamos, que de las numerosas variables que teníamos en un principio, tan solo unas 7 de ellas son verdaderamente relevantes y describen las cualidades de las personas con mayor probabilidad de generar un Default (int_rate, emp_length, dti, inq_last_6mths, Prestamo_Largo, mths_since_last_delinq y RENT).
Por otra parte, haciendo uso de distintos algoritmos de Machine Learning, intentamos generar y entrenar modelos que tengan capacidad predictiva a la hora de saber en qué créditos se podría dar un Default. Usamos modelos de Logistic Regression, KNN, Decision Tree Classifier, Random Forest Classifier, e incluso AutoML. Este último modelo usa internamente la optimización bayesiana de hiperparámetros, lo cual también explicamos dentro de este trabajo. In this project, we will analyze data from the source Lending Club, a platform that gives loans and is settled in the United States. With this data, we will analyze the main and most important characteristics of borrowers that might lead to causing a Default in said loans. To do this, we will carry out an exploratory analysis of the data, considering all the variables and their different values when the observations are split according to the target variable. Additionally, we will use models that have an explicative capacity in order to see which variables are the most influential, and which are not worth it to take into account. As an outcome, we discover that, of all the variables that we had in the beginning, only 7 of them are actually relevant and describe the qualities of a person with higher probability of causing Default (int_rate, emp_length, dti, inq_last_6mths, Prestamo_Largo, mths_since_last_delinq y RENT).
The other part of the project is to generate and train models that might have a predictive capacity when it comes to classifying between Defaults and non-Defaults. For this, we will use different kinds of Machine Learning models: Logistic Regression, KNN, Decision Tree Classifier, Random Forest Classifier and AutoML. This last one model uses, internally, Bayesian optimization of hiperparametres, which is also explained in this project.
Trabajo Fin de Grado
Explicación y predicción del Default en créditos, con la implementación de modelos de Machine LearningTitulación / Programa
Grado en Análisis de Negocios/Business Analytics y Grado en DerechoMaterias/ UNESCO
53 Ciencias económicas5302 Econometría
530201 Indicadores económicos
Materias/ categorías / ODS
KBAPalabras Clave
Riesgo de Créditos, Default, Machine Learning, Optimización Bayesiana, PythonCredit risk, Default, Machine Learning, Bayesian Optimization Python