Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/99518
Título : Optimización de arquitectura de datos para movilidad urbana en entornos Big Data: integración de Lakehouse y análisis de rendimiento de formato de almacenamiento
Autor : Falcón López, Mary Liliana
Huchim Vela, José Arturo
Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación : 2025
Resumen : Este proyecto presenta el diseño e implementación de una arquitectura de datos tipo Data Lakehouse en la nube, orientada a integrar, transformar datos abiertos del sistema de transporte público terrestre de Madrid: Sistemas de Bicicletas (BiciMAD), autobuses de la EMT. Se desarrolló una solución modular, escalable y con gobierno, basada en una estructura de almacenamiento por capas teniendo landing, raw, curated. Todo esto dentro de Google Cloud Platform. La arquitectura permitió centralizar diversas fuentes de datos como los viajes históricos y actuales de bicicletas, información operativa de líneas de autobuses EMT y otros datos como las condiciones meteorológicas proporcionadas por AEMET Se implementaron procesos EL para la extracción y carga hacia la capa landing y posteriormente, procesos ELT con carga hacia la capa de raw y curated (teniendo la diferencia entre cómo pueden llegar los datos y como pueden ser representados). respetando buenas prácticas teniendo gobierno del dato con el etiquetado técnico de las tablas, gestión de secretos y de accesos con roles y permisos usando el privilegio mínimo. Como parte del estudio, se evaluó el impacto técnico de distintos formatos de almacenamiento cómo CSV, Avro y Parquet en el rendimiento de consultas en entornos analíticos dando como resultado Parquet con las mejores ventajas en compresión, costes, velocidad por lo que se recomienda su implementación desde raw como futuras mejoras.
This project presents the design and implements an architecture of Data Lakehouse type data in the cloud, oriented to integrate, transforming data from the public land transport system of Madrid: Bicycle Systems (BiciMAD), EMT buses. It comes with a modular, scalable and flexible solution, based on a structure to support landing, raw, curated. This is all inside Google Cloud Platform. The architecture allows centralization of many data sources as historical and current bicycle status, operational information on EMT bus lines and other data such as meteorological conditions by AEMET It was implement EL process for the extraction and loading to the landing zone and for another hand, ELT process with load data to raw and curated zone (holding the difference between how the data arrives in the system and how the data can be represented). respect the good practices of keeping the data with the technical label of the tables, management of secrets and management of access with roles and permissions to use the minimum privilege. Finally as part of the studio, we evaluate the technical impact of different formats of storage such as CSV, Avro and Parquet in analytical queries and having as the result of Parquet format with the best points regarding to compression available, costs, velocity which is recommended for raw implementation as better futures.
Descripción : Máster Universitario en Big Data
URI : http://hdl.handle.net/11531/99518
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFM - HUCHIM VELA, JOSE ARTURO.pdfTrabajo Fin de Máster1,56 MBAdobe PDFVisualizar/Abrir     Request a copy
AnexoI.docx.pdfAutorización120,2 kBAdobe PDFVisualizar/Abrir     Request a copy


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.