Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/63188
Título : | Sistema de inteligente de optimizacion de variables de entrada a modelos de Machine Learning |
Autor : | Morrás Ruiz-Falcó, Carlos Piergili de la Escalada, María Teresa Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) |
Palabras clave : | 12 Matemáticas;1203 Ciencias de los ordenadores;120304 Inteligencia artificial |
Fecha de publicación : | 2022 |
Resumen : | Este proyecto tiene como principal objetivo optimalizar las variables de entrada en un modelo de Machine Learning escrito en lenguaje Python a través de un sistema que, para cualquier set de datos, los preprocese y los limpie con el fin superior de poder analizarlo en un futuro con técnicas de Machine Learning, todo ello de manera automática. Hoy en día, el porcentaje de tiempo que un analista dedica a la limpieza y depuración de los datos dentro del análisis de los datos y su modelado es un 80%, siendo por encima del tiempo empleado, un trabajo tedioso y repetitivo.
El sistema presentara para un conjunto de datos brutos, un conjunto limpio y con el preprocesado completamente realizado incluyendo en forma de comentarios, la información detallada de cada transformación realizada para que el analista tenga un punto de vista interior.
La validez de este sistema se ha realizado comprobaciones por un lado de carácter externo, con dos conjuntos de datos típicos, titanic dataset y credit approval, y por otro lado, una validación interna donde se compara los resultados obtenidos antes y después del uso del nuevo sistema concluyendo que para ambas comprobaciones, de carácter externo e interno, los resultados obtenidos son buenos. Los modelos han sido validados con modelos de regresión logística y obteniendo, por un lado, la curva ROC con cada AUC y por otro lado, las métricas de validez (Precisión, sensibilidad, especificidad y exactitud).
Un posible trabajo futuro, puede ser la optimización de mas codificadores dentro de este sistema y su optimización con validación de los distintos modelos o la elección del modelo optimo para el conjunto de datos dados. The main objective of this project is to optimize the input variables in a Machine Learning model written in Python language through a system that, for any set of data, pre-processes and cleans them to be able to analyze it in the future with machine learning techniques, all of this automatically. Nowadays, the percentage of time that an analyst spends on data cleaning and data cleansing within data analysis and modelling is 80%, which is a tedious and repetitive job. The system will present for a set of raw data, a clean and fully preprocessed dataset including, in the form of comments, detailed information on each transformation performed so that the analyst has an inside point of view. The validity of this system has been tested externally, with two typical datasets, titanic dataset, and credit approval, and internally, comparing the results obtained before and after the use of the new system, concluding that for both external and internal tests, the results obtained are good. The models have been validated with logistic regression models and obtaining, on the one hand, the ROC curve with each AUC and, on the other hand, the validity metrics (precision, sensitivity, specificity, and accuracy). A possible future work could be the optimization of more encoders within this system and their optimization with validation of the different models or the choice of the optimal model for the given data set. |
Descripción : | Grado en Ingeniería en Tecnologías Industriales y Grado en Administración y Dirección de Empresas |
URI : | http://hdl.handle.net/11531/63188 |
Aparece en las colecciones: | KTI-Trabajos Fin de Grado |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
TFG-PiergiliDeLaEscalada,MariaTeresa_2.pdf | Trabajo Fin de Grado | 6,02 MB | Adobe PDF | Visualizar/Abrir |
AnexoI_signed.pdf | Autorización | 73,17 kB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.