Diseño e Implantación de un Datalake y Capa de Consumo para Reporting Financiero
Abstract
Este proyecto tiene como objetivo el diseño e implementación de un Datalake corporativo para una entidad financiera, con el propósito de mejorar la gestión, integración y análisis de grandes volúmenes de datos procedentes de múltiples fuentes. La motivación principal del trabajo reside en la necesidad de esta entidad de ofrecer servicios más personalizados a sus clientes, partiendo de una base de datos moderna, escalable y gobernada. Como primer caso de uso sobre esta nueva arquitectura, se desarrolló un sistema de generación de informes financieros personalizados, que posteriormente serían enviados a los clientes del banco.
Para llevar a cabo el proyecto, se seleccionó Snowflake como plataforma principal de almacenamiento en la nube, debido a sus capacidades de escalabilidad, rendimiento y compatibilidad con datos estructurados y semiestructurados. Talend fue la herramienta elegida para los procesos de integración y transformación, gracias a su flexibilidad y su enfoque visual y metadata-driven.
Se diseñaron procesos ETL capaces de adaptarse dinámicamente a cambios en los datos de origen, lo que garantiza integridad, calidad y eficiencia. El Datalake se estructuró en diferentes capas funcionales (Bronze, Silver y Gold), lo que permite una organización lógica y técnica del flujo de datos. Finalmente, se automatizó la creación de archivos JSON que se utilizan para componer informes finales en formato PDF mediante servicios externos. This project aims to design and implement a corporate Data Lake for a financial institution, with the goal of improving the management, integration, and analysis of large volumes of data from multiple sources and systems. The main motivation behind this work lies in the institution's need to offer more personalized and efficient services to its clients, based on a modern, scalable, and well-governed data architecture. As the first use case on this new platform, a system was developed for generating personalized financial reports, which are later delivered to the bank’s clients through an automated pipeline.
Snowflake was selected as the primary cloud-based data storage platform due to its scalability, performance, and compatibility with both structured and semi-structured data formats. Talend was chosen as the integration and transformation tool, thanks to its flexibility and metadata-driven, visual approach that simplifies the development process.
Flexible ETL processes were designed to dynamically adapt to changes in source data, ensuring data integrity, quality, and operational efficiency. The Data Lake was structured into different functional layers (Bronze, Silver, and Gold), which provide a logical and technical organization of the data flow. Finally, the generation of JSON files was automated; these files are then used by an external service to create the final client reports in PDF format with consistent quality.
Trabajo Fin de Máster
Diseño e Implantación de un Datalake y Capa de Consumo para Reporting FinancieroTitulación / Programa
Máster Universitario en Big DataMaterias/ categorías / ODS
H0ZPalabras Clave
Datalake Snowflake ETL/ELT Talend Reporting financiero Metadata-driven Arquitectura de datosDatalake Snowflake ETL/ELT Talend Financial reporting Metadata-driven Data architecture