Explicación y predicción del Default en créditos, con la implementación de modelos de Machine Learning

López Blanco, Luis Ramiro

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/57070

Título :	Explicación y predicción del Default en créditos, con la implementación de modelos de Machine Learning
Autor :	Coronado Vaca, María López Blanco, Luis Ramiro Universidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresariales
Palabras clave :	53 Ciencias económicas;5302 Econometría;530201 Indicadores económicos
Fecha de publicación :	2022
Resumen :	Este trabajo analiza los datos de la Base de Datos de Lending Club, una plataforma de créditos localizada en Estados Unidos. A través de estos datos, este trabajo analiza las cualidades de los prestatarios que pueden llegar a provocar un Default en dichos créditos. Para ello, se lleva a cabo un análisis exploratorio de los datos, analizando todas las variables y sus diferentes valores según las observaciones que pertenecen a cada clase de la variable target. Además, usamos ciertos modelos con capacidad explicativa con la finalidad de averiguar cuales son las variables que más influyen y cuales no debemos tener tan en cuenta. Comprobamos, que de las numerosas variables que teníamos en un principio, tan solo unas 7 de ellas son verdaderamente relevantes y describen las cualidades de las personas con mayor probabilidad de generar un Default (int_rate, emp_length, dti, inq_last_6mths, Prestamo_Largo, mths_since_last_delinq y RENT). Por otra parte, haciendo uso de distintos algoritmos de Machine Learning, intentamos generar y entrenar modelos que tengan capacidad predictiva a la hora de saber en qué créditos se podría dar un Default. Usamos modelos de Logistic Regression, KNN, Decision Tree Classifier, Random Forest Classifier, e incluso AutoML. Este último modelo usa internamente la optimización bayesiana de hiperparámetros, lo cual también explicamos dentro de este trabajo. In this project, we will analyze data from the source Lending Club, a platform that gives loans and is settled in the United States. With this data, we will analyze the main and most important characteristics of borrowers that might lead to causing a Default in said loans. To do this, we will carry out an exploratory analysis of the data, considering all the variables and their different values when the observations are split according to the target variable. Additionally, we will use models that have an explicative capacity in order to see which variables are the most influential, and which are not worth it to take into account. As an outcome, we discover that, of all the variables that we had in the beginning, only 7 of them are actually relevant and describe the qualities of a person with higher probability of causing Default (int_rate, emp_length, dti, inq_last_6mths, Prestamo_Largo, mths_since_last_delinq y RENT). The other part of the project is to generate and train models that might have a predictive capacity when it comes to classifying between Defaults and non-Defaults. For this, we will use different kinds of Machine Learning models: Logistic Regression, KNN, Decision Tree Classifier, Random Forest Classifier and AutoML. This last one model uses, internally, Bayesian optimization of hiperparametres, which is also explained in this project.
Descripción :	Grado en Análisis de Negocios/Business Analytics y Grado en Derecho
URI :	http://hdl.handle.net/11531/57070
Aparece en las colecciones:	KBA-Trabajos Fin de Grado

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFG - Lopez Blanco, Luis Ramiro.pdf	Trabajo Fin de Grado	1,08 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem