Show simple item record

dc.contributor.advisorGangadhar, Anupamaes-ES
dc.contributor.authorDiez de Rivera de Solís, Ignacio Maríaes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2019-03-29T11:30:21Z
dc.date.availablees_ES
dc.date.issued2019es_ES
dc.identifier.urihttp://hdl.handle.net/11531/36110
dc.descriptionMáster Universitario en Ingeniería Industrial + Máster en Industria Conectada/ Master in Smart Industryes_ES
dc.description.abstractUn lago de datos es un repositorio de datos almacenados en su forma original. Permite el almacenamiento de datos estructurados y no estructurados independientemente de la escala. Con el fin de mejorar la gestión de datos en un entorno de Big Data, en Daimler Trucks Asia se está implementando uno. Sin embargo, al ingerir datos de fuentes muy diferentes, a veces éstos serán difícilmente distinguibles, accesibles, rastreables y comprensibles si no se presta suficiente atención a la gestión de metadatos. Un catalogo de datos es una herramienta de administración de metadatos y resulta fundamental para una adecuada gestion de estos metadatos. Por otro lado, si los datos almacenados en el lago difieren mucho de lo que se muestra en el catálogo debido a problemas de calidad, el lago de datos podría dejar de ser útil. Por lo tanto, la implementación de una solución para medir la calidad de los datos es esencial. Este trabajo documenta el desarrollo de una prueba de concepto para la implementación de una herramienta de gestión de metadatos, también conocida como catálogo de datos, en Daimler Trucks Asia. El catálogo comprenderá los datos que son ingeridos y almacenados en el lago de datos, posibilitando una administración de metadatos adecuada. Además, se diseñará una solución de seguimiento de calidad de datos basada en los metadatos implementando una solución mínima viable, para garantizar que los datos reales almacenados en el lago sean los esperados.es-ES
dc.description.abstractA data lake is a repository of data stored in its raw format. It enables the storage of structured and unstructured data regardless of the scale. In order to improve data management in a Big Data environment, Daimler Trucks Asia is implementing one. However, when ingesting data from very different sources, it will sometimes become hardly distinguishable, accessible, traceable and understandable if not enough care is given to metadata management. A data catalog is a metadata management tool and is essential to prevent this problem. On the other hand, if the data stored in the lake differs greatly from what is shown in the catalog due to quality problems, the data lake may no longer be useful. Therefore, the implementation of a data quality tracking solution is essential. This work documents the development of a proof of concept for a data catalog implementation at Daimler Trucks Asia. In addition, a metadata-related quality tracking solution will be designed, and a minimum viable solution implemented, in order to ensure that the actual data stored in the lake is as expected.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject33 Ciencias tecnológicases_ES
dc.subject3310 Tecnología industriales_ES
dc.subject3325 Tecnología de las telecomunicacioneses_ES
dc.subject.otheres_ES
dc.titleImplementation of a data catalog that supports metadata driven data ingestion in Data Lakees_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/restrictedAccesses_ES
dc.keywordsMetadatos, Lago de Datos, Calidad, Catálogoes-ES
dc.keywordsMetadata, Data Lake, Quality, Catalogen-GB


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States