Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/110108| Título : | Sistema de control de calidad y monitorización de la evolución de datos en la plataforma de datos de SwitchFleet |
| Autor : | Guinea García-Alegre, Domingo Miguel Rodríguez Calderón, Pedro Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) |
| Fecha de publicación : | 2026 |
| Resumen : | Este Trabajo Fin de Máster presenta el diseño, desarrollo e implantación de un sistema integral de gobernanza y auditoría de datos para el pipeline ETL corporativo de SwitchFleet, empresa especializada en la transición energética de flotas de vehículos. El proyecto surge de la necesidad de superar las limitaciones de los mecanismos tradicionales de validación, que ofrecían una visión agregada de la calidad del dato sin capacidad para localizar incidencias concretas ni analizar su evolución temporal.
La solución desarrollada se estructura en cinco pilares funcionales. En primer lugar, incorpora un agente basado en modelos de lenguaje que genera automáticamente un diccionario corporativo de reglas de validación a partir de metadatos, documentación existente y conocimiento de negocio. Este diccionario actúa como fuente única de verdad y permite formalizar el conocimiento de calidad de forma mantenible y reutilizable.
A partir de dicho conocimiento, se implementa un motor de validación vectorizado capaz de auditar los datos a nivel de fila y celda, identificando con precisión los registros afectados, la regla incumplida y la severidad de cada incidencia. Además, se desarrolla un sistema histórico que consolida versiones almacenadas en AWS S3 para analizar tendencias, detectar anomalías y preservar la trazabilidad temporal de los datos.
Los resultados se presentan mediante dashboards HTML autónomos orientados tanto al análisis operativo como a la toma de decisiones. Finalmente, toda la solución se integra de forma automática en el entorno productivo de SwitchFleet mediante Apache Airflow, permitiendo monitorizar de manera continua la calidad de más de 65.000 registros y 172 variables, transformando la validación de datos en un proceso de gobernanza escalable, auditable y orientado al negocio. This Master's Thesis presents the design, development, and implementation of a comprehensive data governance and auditing system for the corporate ETL pipeline of SwitchFleet, a company specializing in the energy transition of vehicle fleets. The project arises from the need to overcome the limitations of traditional validation mechanisms, which provided an aggregated view of data quality without the ability to pinpoint specific incidents or analyze their temporal evolution. The developed solution is structured into five functional pillars. First, it incorporates a language model-based agent that automatically generates a corporate validation rule dictionary from metadata, existing documentation, and business knowledge. This dictionary acts as a single source of truth and allows quality knowledge to be formalized in a maintainable and reusable manner. Based on this knowledge, a vectorized validation engine is implemented, capable of auditing data at the row and cell level, accurately identifying the affected records, the breached rule, and the severity of each incident. Additionally, a historical system is developed to consolidate versions stored in AWS S3 in order to analyze trends, detect anomalies, and preserve the temporal traceability of the data. The results are presented through standalone HTML dashboards aimed at both operational analysis and decision-making. Finally, the entire solution is automatically integrated into SwitchFleet's production environment using Apache Airflow, enabling the continuous quality monitoring of over 65,000 records and 172 variables, thereby transforming data validation into a scalable, auditable, and business-oriented governance process. |
| Descripción : | Máster Universitario en Big Data |
| URI : | http://hdl.handle.net/11531/110108 |
| Aparece en las colecciones: | TFG, TFM (temporales) |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| TFM_RodriguezCalderon, Pedro.pdf | Trabajo Fin de Máster | 2,36 MB | Adobe PDF | Visualizar/Abrir Request a copy |
| AnexoI_Autoria_RodriguezCalderonPedro.pdf | Autorización | 256,57 kB | Adobe PDF | Visualizar/Abrir Request a copy |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.