Sistema de inteligente de optimizacion de variables de entrada a modelos de Machine Learning

Piergili de la Escalada, María Teresa

dc.contributor.advisor	Morrás Ruiz-Falcó, Carlos	es-ES
dc.contributor.author	Piergili de la Escalada, María Teresa	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)	es_ES
dc.date.accessioned	2021-10-29T13:45:18Z
dc.date.available	2021-10-29T13:45:18Z
dc.date.issued	2022	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/63188
dc.description	Grado en Ingeniería en Tecnologías Industriales y Grado en Administración y Dirección de Empresas	es_ES
dc.description.abstract	Este proyecto tiene como principal objetivo optimalizar las variables de entrada en un modelo de Machine Learning escrito en lenguaje Python a través de un sistema que, para cualquier set de datos, los preprocese y los limpie con el fin superior de poder analizarlo en un futuro con técnicas de Machine Learning, todo ello de manera automática. Hoy en día, el porcentaje de tiempo que un analista dedica a la limpieza y depuración de los datos dentro del análisis de los datos y su modelado es un 80%, siendo por encima del tiempo empleado, un trabajo tedioso y repetitivo. El sistema presentara para un conjunto de datos brutos, un conjunto limpio y con el preprocesado completamente realizado incluyendo en forma de comentarios, la información detallada de cada transformación realizada para que el analista tenga un punto de vista interior. La validez de este sistema se ha realizado comprobaciones por un lado de carácter externo, con dos conjuntos de datos típicos, titanic dataset y credit approval, y por otro lado, una validación interna donde se compara los resultados obtenidos antes y después del uso del nuevo sistema concluyendo que para ambas comprobaciones, de carácter externo e interno, los resultados obtenidos son buenos. Los modelos han sido validados con modelos de regresión logística y obteniendo, por un lado, la curva ROC con cada AUC y por otro lado, las métricas de validez (Precisión, sensibilidad, especificidad y exactitud). Un posible trabajo futuro, puede ser la optimización de mas codificadores dentro de este sistema y su optimización con validación de los distintos modelos o la elección del modelo optimo para el conjunto de datos dados.	es-ES
dc.description.abstract	The main objective of this project is to optimize the input variables in a Machine Learning model written in Python language through a system that, for any set of data, pre-processes and cleans them to be able to analyze it in the future with machine learning techniques, all of this automatically. Nowadays, the percentage of time that an analyst spends on data cleaning and data cleansing within data analysis and modelling is 80%, which is a tedious and repetitive job. The system will present for a set of raw data, a clean and fully preprocessed dataset including, in the form of comments, detailed information on each transformation performed so that the analyst has an inside point of view. The validity of this system has been tested externally, with two typical datasets, titanic dataset, and credit approval, and internally, comparing the results obtained before and after the use of the new system, concluding that for both external and internal tests, the results obtained are good. The models have been validated with logistic regression models and obtaining, on the one hand, the ROC curve with each AUC and, on the other hand, the validity metrics (precision, sensitivity, specificity, and accuracy). A possible future work could be the optimization of more encoders within this system and their optimization with validation of the different models or the choice of the optimal model for the given data set.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	es-ES	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject	12 Matemáticas	es_ES
dc.subject	1203 Ciencias de los ordenadores	es_ES
dc.subject	120304 Inteligencia artificial	es_ES
dc.subject.other	KTI-electronica (GITI-N)	es_ES
dc.title	Sistema de inteligente de optimizacion de variables de entrada a modelos de Machine Learning	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/closedAccess	es_ES
dc.keywords	Machine Learning, Optimización, Python, Librerías, Limpieza de datos, Preproceso de datos	es-ES
dc.keywords	Machine Learning, Optimization, Python, Libraries, Data cleansing, Data preprocessing	en-GB

Files in this item

Name:: TFG-PiergiliDeLaEscalada,Maria ...
Size:: 5.880Mb
Format:: PDF
Description:: Trabajo Fin de Grado

View/Open

Name:: AnexoI_signed.pdf
Size:: 73.16Kb
Format:: PDF
Description:: Autorización

View/Open

This item appears in the following Collection(s)

KTI-Trabajos Fin de Grado

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States