Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/98571
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | España-Heredia Llanza, Gonzalo Pablo | es-ES |
dc.contributor.author | Arnal Escudero, Fernando | es-ES |
dc.contributor.other | Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) | es_ES |
dc.date.accessioned | 2025-04-27T08:39:26Z | - |
dc.date.available | 2025-04-27T08:39:26Z | - |
dc.date.issued | 2025 | es_ES |
dc.identifier.uri | http://hdl.handle.net/11531/98571 | - |
dc.description | Máster Universitario en Big Data | es_ES |
dc.description.abstract | Este Trabajo de Fin de Máster se enmarca en el equipo de Supply Chain Data & AI de Accenture y aborda precisamente este desafío, proponiendo una solución basada en LLMs para automatizar la identificación y corrección de errores en Master Data Tables (MDT), un elemento esencial en la metodología de trabajo de cualquier proyecto dentro del grupo. El objetivo de reducir la intervención manual, mejorar la escalabilidad de los procesos de validación de datos y aumentar la precisión en la toma de decisiones operativas. A partir de un caso de uso representativo, se ha desarrollado una herramienta capaz de detectar registros duplicados o inconsistentes dentro de grandes volúmenes de datos estructurados, utilizando técnicas avanzadas de representación semántica, búsqueda por similitud y generación aumentada por recuperación (RAG). La solución propuesta combina la potencia de modelos como CANINE-C para la creación de embeddings, con un sistema orquestado mediante LangGraph que emplea agentes generadores y evaluadores basados en LLMs, coordinados a través de flujos de trabajo iterativos que permiten la autoevaluación del sistema. El proceso se completa con la integración de los resultados en bases de datos externas para su validación por expertos, cerrando así un ciclo completo de detección y trazabilidad de errores. Por lo tanto, el desarrollo se apoya en una arquitectura monolítica dividida en tres etapas funcionales y se enfrenta a desafíos como la optimización del rendimiento computacional y la consistencia de las respuestas generadas por los modelos. | es-ES |
dc.description.abstract | This Master’s Thesis is carried out within the Supply Chain Data & AI team at Accenture and directly addresses this challenge by proposing a solution based on LLMs to automate the identification and correction of errors in Master Data Tables (MDT), a core element in the working methodology of any project within the group. The main objective is to reduce manual intervention, improve the scalability of data validation processes, and increase accuracy in operational decision-making. Based on a representative use case, a tool has been developed that can detect duplicated or inconsistent records within large volumes of structured data, using advanced techniques such as semantic representation, similarity search, and Retrieval-Augmented Generation (RAG). The proposed solution combines the power of models like CANINE-C for embedding generation with a system orchestrated using LangGraph, which leverages generator and evaluator agents based on LLMs, coordinated through iterative workflows that enable self-evaluation of the system. The process concludes with the integration of the results into external databases for expert validation, thereby completing a full cycle of error detection and traceability. The development is supported by a monolithic architecture divided into three functional stages and addresses key challenges such as the optimization of computational performance and the consistency of the model outputs. | en-GB |
dc.format.mimetype | application/pdf | es_ES |
dc.language.iso | es-ES | es_ES |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES |
dc.subject.other | H0Z | es_ES |
dc.title | Supply Chain Data Harmonization using LLMs | es_ES |
dc.type | info:eu-repo/semantics/masterThesis | es_ES |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES |
dc.keywords | RAG, LLMs, Armonización de datos, Embedding, Lang Graph, Búsqueda de Similares, Clusterización | es-ES |
dc.keywords | RAG, LLMs, Data Harmonization, Embedding, Lang Graph, Similarity Search, Clustering | en-GB |
Aparece en las colecciones: | TFG, TFM (temporales) |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
Memoria del Trabajo de Fin de Master Fernando Arnal.pdf | Trabajo Fin de Máster | 2,95 MB | Adobe PDF | Visualizar/Abrir Request a copy |
AnexoATFM 1 - signed.pdf | Autorización | 124,46 kB | Adobe PDF | Visualizar/Abrir Request a copy |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.