Implementation of a data catalog that supports metadata driven data ingestion in Data Lake
Abstract
Un lago de datos es un repositorio de datos almacenados en su forma original. Permite el almacenamiento de datos estructurados y no estructurados independientemente de la escala. Con el fin de mejorar la gestión de datos en un entorno de Big Data, en Daimler Trucks Asia se está implementando uno.
Sin embargo, al ingerir datos de fuentes muy diferentes, a veces éstos serán difícilmente distinguibles, accesibles, rastreables y comprensibles si no se presta suficiente atención a la gestión de metadatos. Un catalogo de datos es una herramienta de administración de metadatos y resulta fundamental para una adecuada gestion de estos metadatos. Por otro lado, si los datos almacenados en el lago difieren mucho de lo que se muestra en el catálogo debido a problemas de calidad, el lago de datos podría dejar de ser útil. Por lo tanto, la implementación de una solución para medir la calidad de los datos es esencial.
Este trabajo documenta el desarrollo de una prueba de concepto para la implementación de una herramienta de gestión de metadatos, también conocida como catálogo de datos, en Daimler Trucks Asia. El catálogo comprenderá los datos que son ingeridos y almacenados en el lago de datos, posibilitando una administración de metadatos adecuada. Además, se diseñará una solución de seguimiento de calidad de datos basada en los metadatos implementando una solución mínima viable, para garantizar que los datos reales almacenados en el lago sean los esperados. A data lake is a repository of data stored in its raw format. It enables the storage of structured and unstructured data regardless of the scale. In order to improve data management in a Big Data environment, Daimler Trucks Asia is implementing one.
However, when ingesting data from very different sources, it will sometimes become hardly distinguishable, accessible, traceable and understandable if not enough care is given to metadata management. A data catalog is a metadata management tool and is essential to prevent this problem. On the other hand, if the data stored in the lake differs greatly from what is shown in the catalog due to quality problems, the data lake may no longer be useful. Therefore, the implementation of a data quality tracking solution is essential.
This work documents the development of a proof of concept for a data catalog implementation at Daimler Trucks Asia. In addition, a metadata-related quality tracking solution will be designed, and a minimum viable solution implemented, in order to ensure that the actual data stored in the lake is as expected.
Trabajo Fin de Máster
Implementation of a data catalog that supports metadata driven data ingestion in Data LakeTitulación / Programa
Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada/ Master in Smart IndustryMaterias/ UNESCO
33 Ciencias tecnológicas3310 Tecnología industrial
3325 Tecnología de las telecomunicaciones
Palabras Clave
Metadatos, Lago de Datos, Calidad, CatálogoMetadata, Data Lake, Quality, Catalog