Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/36110
Título : | Implementation of a data catalog that supports metadata driven data ingestion in Data Lake |
Autor : | Gangadhar, Anupama Diez de Rivera de Solís, Ignacio María Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) |
Palabras clave : | 33 Ciencias tecnológicas;3310 Tecnología industrial;3325 Tecnología de las telecomunicaciones |
Fecha de publicación : | 2019 |
Resumen : | Un lago de datos es un repositorio de datos almacenados en su forma original. Permite el almacenamiento de datos estructurados y no estructurados independientemente de la escala. Con el fin de mejorar la gestión de datos en un entorno de Big Data, en Daimler Trucks Asia se está implementando uno.
Sin embargo, al ingerir datos de fuentes muy diferentes, a veces éstos serán difícilmente distinguibles, accesibles, rastreables y comprensibles si no se presta suficiente atención a la gestión de metadatos. Un catalogo de datos es una herramienta de administración de metadatos y resulta fundamental para una adecuada gestion de estos metadatos. Por otro lado, si los datos almacenados en el lago difieren mucho de lo que se muestra en el catálogo debido a problemas de calidad, el lago de datos podría dejar de ser útil. Por lo tanto, la implementación de una solución para medir la calidad de los datos es esencial.
Este trabajo documenta el desarrollo de una prueba de concepto para la implementación de una herramienta de gestión de metadatos, también conocida como catálogo de datos, en Daimler Trucks Asia. El catálogo comprenderá los datos que son ingeridos y almacenados en el lago de datos, posibilitando una administración de metadatos adecuada. Además, se diseñará una solución de seguimiento de calidad de datos basada en los metadatos implementando una solución mínima viable, para garantizar que los datos reales almacenados en el lago sean los esperados. A data lake is a repository of data stored in its raw format. It enables the storage of structured and unstructured data regardless of the scale. In order to improve data management in a Big Data environment, Daimler Trucks Asia is implementing one. However, when ingesting data from very different sources, it will sometimes become hardly distinguishable, accessible, traceable and understandable if not enough care is given to metadata management. A data catalog is a metadata management tool and is essential to prevent this problem. On the other hand, if the data stored in the lake differs greatly from what is shown in the catalog due to quality problems, the data lake may no longer be useful. Therefore, the implementation of a data quality tracking solution is essential. This work documents the development of a proof of concept for a data catalog implementation at Daimler Trucks Asia. In addition, a metadata-related quality tracking solution will be designed, and a minimum viable solution implemented, in order to ensure that the actual data stored in the lake is as expected. |
Descripción : | Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada/ Master in Smart Industry |
URI : | http://hdl.handle.net/11531/36110 |
Aparece en las colecciones: | MIC-Trabajos Fin de Máster MIC-Trabajos Fin de Máster |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
AnexoI_IDR.pdf | Autorización | 227,07 kB | Adobe PDF | Visualizar/Abrir Request a copy |
TFM-DiezdeRiveradeSolisIgnacio.pdf | Trabajo Fin de Máster | 4,34 MB | Adobe PDF | Visualizar/Abrir Request a copy |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.