Supply Chain Data Harmonization using LLMs
Abstract
Este Trabajo de Fin de Máster se enmarca en el equipo de Supply Chain Data & AI
de Accenture y aborda precisamente este desafío, proponiendo una solución basada en
LLMs para automatizar la identificación y corrección de errores en Master Data Tables
(MDT), un elemento esencial en la metodología de trabajo de cualquier proyecto dentro
del grupo. El objetivo de reducir la intervención manual, mejorar la escalabilidad de los
procesos de validación de datos y aumentar la precisión en la toma de decisiones operativas.
A partir de un caso de uso representativo, se ha desarrollado una herramienta capaz
de detectar registros duplicados o inconsistentes dentro de grandes volúmenes de datos
estructurados, utilizando técnicas avanzadas de representación semántica, búsqueda por
similitud y generación aumentada por recuperación (RAG). La solución propuesta combina la potencia de modelos como CANINE-C para la creación de embeddings, con un
sistema orquestado mediante LangGraph que emplea agentes generadores y evaluadores
basados en LLMs, coordinados a través de flujos de trabajo iterativos que permiten la
autoevaluación del sistema. El proceso se completa con la integración de los resultados en
bases de datos externas para su validación por expertos, cerrando así un ciclo completo
de detección y trazabilidad de errores.
Por lo tanto, el desarrollo se apoya en una arquitectura monolítica dividida en tres etapas
funcionales y se enfrenta a desafíos como la optimización del rendimiento computacional
y la consistencia de las respuestas generadas por los modelos. This Master’s Thesis is carried out within the Supply Chain Data & AI team at Accenture and directly addresses this challenge by proposing a solution based on LLMs to
automate the identification and correction of errors in Master Data Tables (MDT), a core
element in the working methodology of any project within the group. The main objective
is to reduce manual intervention, improve the scalability of data validation processes, and
increase accuracy in operational decision-making.
Based on a representative use case, a tool has been developed that can detect duplicated or inconsistent records within large volumes of structured data, using advanced
techniques such as semantic representation, similarity search, and Retrieval-Augmented
Generation (RAG). The proposed solution combines the power of models like CANINE-C
for embedding generation with a system orchestrated using LangGraph, which leverages
generator and evaluator agents based on LLMs, coordinated through iterative workflows
that enable self-evaluation of the system. The process concludes with the integration of
the results into external databases for expert validation, thereby completing a full cycle
of error detection and traceability.
The development is supported by a monolithic architecture divided into three functional
stages and addresses key challenges such as the optimization of computational performance and the consistency of the model outputs.
Trabajo Fin de Máster
Supply Chain Data Harmonization using LLMsTitulación / Programa
Máster Universitario en Big DataMaterias/ categorías / ODS
H0ZPalabras Clave
RAG, LLMs, Armonización de datos, Embedding, Lang Graph, Búsqueda de Similares, ClusterizaciónRAG, LLMs, Data Harmonization, Embedding, Lang Graph, Similarity Search, Clustering