Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/110108
Título : Sistema de control de calidad y monitorización de la evolución de datos en la plataforma de datos de SwitchFleet
Autor : Guinea García-Alegre, Domingo Miguel
Rodríguez Calderón, Pedro
Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación : 2026
Resumen : Este Trabajo Fin de Máster presenta el diseño, desarrollo e implantación de un sistema integral de gobernanza y auditoría de datos para el pipeline ETL corporativo de SwitchFleet, empresa especializada en la transición energética de flotas de vehículos. El proyecto surge de la necesidad de superar las limitaciones de los mecanismos tradicionales de validación, que ofrecían una visión agregada de la calidad del dato sin capacidad para localizar incidencias concretas ni analizar su evolución temporal. La solución desarrollada se estructura en cinco pilares funcionales. En primer lugar, incorpora un agente basado en modelos de lenguaje que genera automáticamente un diccionario corporativo de reglas de validación a partir de metadatos, documentación existente y conocimiento de negocio. Este diccionario actúa como fuente única de verdad y permite formalizar el conocimiento de calidad de forma mantenible y reutilizable. A partir de dicho conocimiento, se implementa un motor de validación vectorizado capaz de auditar los datos a nivel de fila y celda, identificando con precisión los registros afectados, la regla incumplida y la severidad de cada incidencia. Además, se desarrolla un sistema histórico que consolida versiones almacenadas en AWS S3 para analizar tendencias, detectar anomalías y preservar la trazabilidad temporal de los datos. Los resultados se presentan mediante dashboards HTML autónomos orientados tanto al análisis operativo como a la toma de decisiones. Finalmente, toda la solución se integra de forma automática en el entorno productivo de SwitchFleet mediante Apache Airflow, permitiendo monitorizar de manera continua la calidad de más de 65.000 registros y 172 variables, transformando la validación de datos en un proceso de gobernanza escalable, auditable y orientado al negocio.
This Master's Thesis presents the design, development, and implementation of a comprehensive data governance and auditing system for the corporate ETL pipeline of SwitchFleet, a company specializing in the energy transition of vehicle fleets. The project arises from the need to overcome the limitations of traditional validation mechanisms, which provided an aggregated view of data quality without the ability to pinpoint specific incidents or analyze their temporal evolution. The developed solution is structured into five functional pillars. First, it incorporates a language model-based agent that automatically generates a corporate validation rule dictionary from metadata, existing documentation, and business knowledge. This dictionary acts as a single source of truth and allows quality knowledge to be formalized in a maintainable and reusable manner. Based on this knowledge, a vectorized validation engine is implemented, capable of auditing data at the row and cell level, accurately identifying the affected records, the breached rule, and the severity of each incident. Additionally, a historical system is developed to consolidate versions stored in AWS S3 in order to analyze trends, detect anomalies, and preserve the temporal traceability of the data. The results are presented through standalone HTML dashboards aimed at both operational analysis and decision-making. Finally, the entire solution is automatically integrated into SwitchFleet's production environment using Apache Airflow, enabling the continuous quality monitoring of over 65,000 records and 172 variables, thereby transforming data validation into a scalable, auditable, and business-oriented governance process.
Descripción : Máster Universitario en Big Data
URI : http://hdl.handle.net/11531/110108
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFM_RodriguezCalderon, Pedro.pdfTrabajo Fin de Máster2,36 MBAdobe PDFVisualizar/Abrir     Request a copy
AnexoI_Autoria_RodriguezCalderonPedro.pdfAutorización256,57 kBAdobe PDFVisualizar/Abrir     Request a copy


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.