Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/110108
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorGuinea García-Alegre, Domingo Migueles-ES
dc.contributor.authorRodríguez Calderón, Pedroes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2026-05-16T06:36:49Z-
dc.date.available2026-05-16T06:36:49Z-
dc.date.issued2026es_ES
dc.identifier.urihttp://hdl.handle.net/11531/110108-
dc.descriptionMáster Universitario en Big Dataes_ES
dc.description.abstractEste Trabajo Fin de Máster presenta el diseño, desarrollo e implantación de un sistema integral de gobernanza y auditoría de datos para el pipeline ETL corporativo de SwitchFleet, empresa especializada en la transición energética de flotas de vehículos. El proyecto surge de la necesidad de superar las limitaciones de los mecanismos tradicionales de validación, que ofrecían una visión agregada de la calidad del dato sin capacidad para localizar incidencias concretas ni analizar su evolución temporal. La solución desarrollada se estructura en cinco pilares funcionales. En primer lugar, incorpora un agente basado en modelos de lenguaje que genera automáticamente un diccionario corporativo de reglas de validación a partir de metadatos, documentación existente y conocimiento de negocio. Este diccionario actúa como fuente única de verdad y permite formalizar el conocimiento de calidad de forma mantenible y reutilizable. A partir de dicho conocimiento, se implementa un motor de validación vectorizado capaz de auditar los datos a nivel de fila y celda, identificando con precisión los registros afectados, la regla incumplida y la severidad de cada incidencia. Además, se desarrolla un sistema histórico que consolida versiones almacenadas en AWS S3 para analizar tendencias, detectar anomalías y preservar la trazabilidad temporal de los datos. Los resultados se presentan mediante dashboards HTML autónomos orientados tanto al análisis operativo como a la toma de decisiones. Finalmente, toda la solución se integra de forma automática en el entorno productivo de SwitchFleet mediante Apache Airflow, permitiendo monitorizar de manera continua la calidad de más de 65.000 registros y 172 variables, transformando la validación de datos en un proceso de gobernanza escalable, auditable y orientado al negocio.es-ES
dc.description.abstractThis Master's Thesis presents the design, development, and implementation of a comprehensive data governance and auditing system for the corporate ETL pipeline of SwitchFleet, a company specializing in the energy transition of vehicle fleets. The project arises from the need to overcome the limitations of traditional validation mechanisms, which provided an aggregated view of data quality without the ability to pinpoint specific incidents or analyze their temporal evolution. The developed solution is structured into five functional pillars. First, it incorporates a language model-based agent that automatically generates a corporate validation rule dictionary from metadata, existing documentation, and business knowledge. This dictionary acts as a single source of truth and allows quality knowledge to be formalized in a maintainable and reusable manner. Based on this knowledge, a vectorized validation engine is implemented, capable of auditing data at the row and cell level, accurately identifying the affected records, the breached rule, and the severity of each incident. Additionally, a historical system is developed to consolidate versions stored in AWS S3 in order to analyze trends, detect anomalies, and preserve the temporal traceability of the data. The results are presented through standalone HTML dashboards aimed at both operational analysis and decision-making. Finally, the entire solution is automatically integrated into SwitchFleet's production environment using Apache Airflow, enabling the continuous quality monitoring of over 65,000 records and 172 variables, thereby transforming data validation into a scalable, auditable, and business-oriented governance process.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoes-ESes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherH0Zes_ES
dc.titleSistema de control de calidad y monitorización de la evolución de datos en la plataforma de datos de SwitchFleetes_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/restrictedAccesses_ES
dc.keywordsGobernanza de Datos, Calidad del Dato, Pipeline ETL, Auditoría de Datos, Modelos de Lenguaje (LLMs), Trazabilidad Temporal, Apache Airflowes-ES
dc.keywordsData Governance, Data Quality, ETL Pipeline, Data Auditing, Language Models (LLMs), Temporal Traceability, Apache Airflowen-GB
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFM_RodriguezCalderon, Pedro.pdfTrabajo Fin de Máster2,36 MBAdobe PDFVisualizar/Abrir     Request a copy
AnexoI_Autoria_RodriguezCalderonPedro.pdfAutorización256,57 kBAdobe PDFVisualizar/Abrir     Request a copy


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.