Mostrar el registro sencillo del ítem

dc.contributor.advisorMorrás Ruiz-Falcó, Carloses-ES
dc.contributor.authorPiergili de la Escalada, María Teresaes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2021-10-29T13:45:18Z
dc.date.available2021-10-29T13:45:18Z
dc.date.issued2022es_ES
dc.identifier.urihttp://hdl.handle.net/11531/63188
dc.descriptionGrado en Ingeniería en Tecnologías Industriales y Grado en Administración y Dirección de Empresases_ES
dc.description.abstractEste proyecto tiene como principal objetivo optimalizar las variables de entrada en un modelo de Machine Learning escrito en lenguaje Python a través de un sistema que, para cualquier set de datos, los preprocese y los limpie con el fin superior de poder analizarlo en un futuro con técnicas de Machine Learning, todo ello de manera automática. Hoy en día, el porcentaje de tiempo que un analista dedica a la limpieza y depuración de los datos dentro del análisis de los datos y su modelado es un 80%, siendo por encima del tiempo empleado, un trabajo tedioso y repetitivo. El sistema presentara para un conjunto de datos brutos, un conjunto limpio y con el preprocesado completamente realizado incluyendo en forma de comentarios, la información detallada de cada transformación realizada para que el analista tenga un punto de vista interior. La validez de este sistema se ha realizado comprobaciones por un lado de carácter externo, con dos conjuntos de datos típicos, titanic dataset y credit approval, y por otro lado, una validación interna donde se compara los resultados obtenidos antes y después del uso del nuevo sistema concluyendo que para ambas comprobaciones, de carácter externo e interno, los resultados obtenidos son buenos. Los modelos han sido validados con modelos de regresión logística y obteniendo, por un lado, la curva ROC con cada AUC y por otro lado, las métricas de validez (Precisión, sensibilidad, especificidad y exactitud). Un posible trabajo futuro, puede ser la optimización de mas codificadores dentro de este sistema y su optimización con validación de los distintos modelos o la elección del modelo optimo para el conjunto de datos dados.es-ES
dc.description.abstractThe main objective of this project is to optimize the input variables in a Machine Learning model written in Python language through a system that, for any set of data, pre-processes and cleans them to be able to analyze it in the future with machine learning techniques, all of this automatically. Nowadays, the percentage of time that an analyst spends on data cleaning and data cleansing within data analysis and modelling is 80%, which is a tedious and repetitive job. The system will present for a set of raw data, a clean and fully preprocessed dataset including, in the form of comments, detailed information on each transformation performed so that the analyst has an inside point of view. The validity of this system has been tested externally, with two typical datasets, titanic dataset, and credit approval, and internally, comparing the results obtained before and after the use of the new system, concluding that for both external and internal tests, the results obtained are good. The models have been validated with logistic regression models and obtaining, on the one hand, the ROC curve with each AUC and, on the other hand, the validity metrics (precision, sensitivity, specificity, and accuracy). A possible future work could be the optimization of more encoders within this system and their optimization with validation of the different models or the choice of the optimal model for the given data set.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoes-ESes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject12 Matemáticases_ES
dc.subject1203 Ciencias de los ordenadoreses_ES
dc.subject120304 Inteligencia artificiales_ES
dc.subject.otherKTI-electronica (GITI-N)es_ES
dc.titleSistema de inteligente de optimizacion de variables de entrada a modelos de Machine Learninges_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/closedAccesses_ES
dc.keywordsMachine Learning, Optimización, Python, Librerías, Limpieza de datos, Preproceso de datoses-ES
dc.keywordsMachine Learning, Optimization, Python, Libraries, Data cleansing, Data preprocessingen-GB


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 United States
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States