Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/63188
Título : Sistema de inteligente de optimizacion de variables de entrada a modelos de Machine Learning
Autor : Morrás Ruiz-Falcó, Carlos
Piergili de la Escalada, María Teresa
Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Palabras clave : 12 Matemáticas;1203 Ciencias de los ordenadores;120304 Inteligencia artificial
Fecha de publicación : 2022
Resumen : Este proyecto tiene como principal objetivo optimalizar las variables de entrada en un modelo de Machine Learning escrito en lenguaje Python a través de un sistema que, para cualquier set de datos, los preprocese y los limpie con el fin superior de poder analizarlo en un futuro con técnicas de Machine Learning, todo ello de manera automática. Hoy en día, el porcentaje de tiempo que un analista dedica a la limpieza y depuración de los datos dentro del análisis de los datos y su modelado es un 80%, siendo por encima del tiempo empleado, un trabajo tedioso y repetitivo. El sistema presentara para un conjunto de datos brutos, un conjunto limpio y con el preprocesado completamente realizado incluyendo en forma de comentarios, la información detallada de cada transformación realizada para que el analista tenga un punto de vista interior. La validez de este sistema se ha realizado comprobaciones por un lado de carácter externo, con dos conjuntos de datos típicos, titanic dataset y credit approval, y por otro lado, una validación interna donde se compara los resultados obtenidos antes y después del uso del nuevo sistema concluyendo que para ambas comprobaciones, de carácter externo e interno, los resultados obtenidos son buenos. Los modelos han sido validados con modelos de regresión logística y obteniendo, por un lado, la curva ROC con cada AUC y por otro lado, las métricas de validez (Precisión, sensibilidad, especificidad y exactitud). Un posible trabajo futuro, puede ser la optimización de mas codificadores dentro de este sistema y su optimización con validación de los distintos modelos o la elección del modelo optimo para el conjunto de datos dados.
The main objective of this project is to optimize the input variables in a Machine Learning model written in Python language through a system that, for any set of data, pre-processes and cleans them to be able to analyze it in the future with machine learning techniques, all of this automatically. Nowadays, the percentage of time that an analyst spends on data cleaning and data cleansing within data analysis and modelling is 80%, which is a tedious and repetitive job. The system will present for a set of raw data, a clean and fully preprocessed dataset including, in the form of comments, detailed information on each transformation performed so that the analyst has an inside point of view. The validity of this system has been tested externally, with two typical datasets, titanic dataset, and credit approval, and internally, comparing the results obtained before and after the use of the new system, concluding that for both external and internal tests, the results obtained are good. The models have been validated with logistic regression models and obtaining, on the one hand, the ROC curve with each AUC and, on the other hand, the validity metrics (precision, sensitivity, specificity, and accuracy). A possible future work could be the optimization of more encoders within this system and their optimization with validation of the different models or the choice of the optimal model for the given data set.
Descripción : Grado en Ingeniería en Tecnologías Industriales y Grado en Administración y Dirección de Empresas
URI : http://hdl.handle.net/11531/63188
Aparece en las colecciones: KTI-Trabajos Fin de Grado

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFG-PiergiliDeLaEscalada,MariaTeresa_2.pdfTrabajo Fin de Grado6,02 MBAdobe PDFVista previa
Visualizar/Abrir
AnexoI_signed.pdfAutorización73,17 kBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.