Implementation of a data catalog that supports metadata driven data ingestion in Data Lake

Diez de Rivera de Solís, Ignacio María

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/36110

Título :	Implementation of a data catalog that supports metadata driven data ingestion in Data Lake
Autor :	Gangadhar, Anupama Diez de Rivera de Solís, Ignacio María Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Palabras clave :	33 Ciencias tecnológicas;3310 Tecnología industrial;3325 Tecnología de las telecomunicaciones
Fecha de publicación :	2019
Resumen :	Un lago de datos es un repositorio de datos almacenados en su forma original. Permite el almacenamiento de datos estructurados y no estructurados independientemente de la escala. Con el fin de mejorar la gestión de datos en un entorno de Big Data, en Daimler Trucks Asia se está implementando uno. Sin embargo, al ingerir datos de fuentes muy diferentes, a veces éstos serán difícilmente distinguibles, accesibles, rastreables y comprensibles si no se presta suficiente atención a la gestión de metadatos. Un catalogo de datos es una herramienta de administración de metadatos y resulta fundamental para una adecuada gestion de estos metadatos. Por otro lado, si los datos almacenados en el lago difieren mucho de lo que se muestra en el catálogo debido a problemas de calidad, el lago de datos podría dejar de ser útil. Por lo tanto, la implementación de una solución para medir la calidad de los datos es esencial. Este trabajo documenta el desarrollo de una prueba de concepto para la implementación de una herramienta de gestión de metadatos, también conocida como catálogo de datos, en Daimler Trucks Asia. El catálogo comprenderá los datos que son ingeridos y almacenados en el lago de datos, posibilitando una administración de metadatos adecuada. Además, se diseñará una solución de seguimiento de calidad de datos basada en los metadatos implementando una solución mínima viable, para garantizar que los datos reales almacenados en el lago sean los esperados. A data lake is a repository of data stored in its raw format. It enables the storage of structured and unstructured data regardless of the scale. In order to improve data management in a Big Data environment, Daimler Trucks Asia is implementing one. However, when ingesting data from very different sources, it will sometimes become hardly distinguishable, accessible, traceable and understandable if not enough care is given to metadata management. A data catalog is a metadata management tool and is essential to prevent this problem. On the other hand, if the data stored in the lake differs greatly from what is shown in the catalog due to quality problems, the data lake may no longer be useful. Therefore, the implementation of a data quality tracking solution is essential. This work documents the development of a proof of concept for a data catalog implementation at Daimler Trucks Asia. In addition, a metadata-related quality tracking solution will be designed, and a minimum viable solution implemented, in order to ensure that the actual data stored in the lake is as expected.
Descripción :	Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada/ Master in Smart Industry
URI :	http://hdl.handle.net/11531/36110
Aparece en las colecciones:	MIC-Trabajos Fin de Máster MIC-Trabajos Fin de Máster

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
AnexoI_IDR.pdf	Autorización	227,07 kB	Adobe PDF	Visualizar/Abrir Request a copy
TFM-DiezdeRiveradeSolisIgnacio.pdf	Trabajo Fin de Máster	4,34 MB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro Dublin Core completo del ítem