TFG, TFM (temporales)

TFG, TFM (temporales) http://hdl.handle.net/11531/1682 2026-06-13T04:32:17Z Sistema multi-agente para el entrenamiento y optimización de modelos de Machine Learning basado en los protocolos MCP y A2A http://hdl.handle.net/11531/110573 Sistema multi-agente para el entrenamiento y optimización de modelos de Machine Learning basado en los protocolos MCP y A2A Valverde Gómez, Daniel En este trabajo se aborda el diseño e implementación de la capa de ejecución de un sistema multi-agente para la automatización del pipeline de Machine Learning. Partiendo de la infraestructura de comunicación establecida en el trabajo previo (basada en los protocolos Model Context Protocol (MCP) y Agent-to-Agent (A2A)), este trabajo se centra en los tres servidores MCP que implementan las capacidades de ML del sistema: el Data MCP Server, el ML MCP Server y el Evaluation MCP Server. El Data MCP Server implementa el ciclo completo de preparación de datos, incluyendo análisis exploratorio, detección de problemas, preprocesamiento y partición del dataset. El ML MCP Server expone un catálogo de algoritmos de Machine Learning (regresión y clasificación) con optimización de hiperparámetros y registro de experimentos. El Evaluation MCP Server calcula métricas estándar para clasificación y regresión, compara modelos entre ejecuciones históricas y genera reportes automáticos en lenguaje natural con el razonamiento completo del pipeline. El sistema se evalúa sobre cuatro datasets de benchmark y se compara con tres sistemas AutoML clásicos de referencia: AutoGluon, auto-sklearn2 y FLAML. Los resultados demuestran que el sistema propuesto puede producir modelos de calidad comparable a los sistemas AutoML tradicionales en tiempos competitivos, aportando además justificación explícita de cada decisión y trazabilidad completa del proceso. Las diferencias de rendimiento observadas son atribuibles al catálogo de herramientas disponible, no a la calidad del razonamiento del agente LLM, que seleccionó el algoritmo óptimo dentro del catálogo disponible en todos los casos evaluados.; This work addresses the design and implementation of the execution layer of a multi-agent system for Machine Learning pipeline automation. Building upon the communication infrastructure established in the previous work (based on the Model Context Protocol (MCP) and Agent-to-Agent (A2A) protocols), this work focuses on the three MCP servers that implement the system's Machine Learning capabilities: the Data MCP Server, the ML MCP Server, and the Evaluation MCP Server. The Data MCP Server implements the complete data preparation lifecycle, including exploratory data analysis, issue detection, preprocessing, and dataset splitting. The ML MCP Server exposes a catalog of Machine Learning algorithms (for both regression and classification), featuring hyperparameter optimization and experiment tracking. The Evaluation MCP Server computes standard classification and regression metrics, compares models across historical runs, and generates automatic natural-language reports containing the complete reasoning behind the pipeline. The system is evaluated on four benchmark datasets and compared against three established AutoML baselines: AutoGluon, auto-sklearn2, and FLAML. The results demonstrate that the proposed system can produce models of comparable quality to traditional AutoML systems within competitive execution times, while additionally providing explicit justification for each decision and complete process traceability. The observed performance differences are attributable to the available tool catalog rather than to the quality of the LLM agent's reasoning, as the agent selected the optimal algorithm within the available catalog in all evaluated cases. Máster Universitario en Ingeniería de Telecomunicación + Máster Universitario en Big Data 2026-01-01T00:00:00Z Diseño e implementación de un dashboard de inteligencia bancaria basado en datos agregados http://hdl.handle.net/11531/110164 Diseño e implementación de un dashboard de inteligencia bancaria basado en datos agregados Meana Iturri, Claudia Este Trabajo Fin de Máster presenta el diseño e implementación de un dashboard de inteligencia bancaria basado en datos financieros agregados. El proyecto se desarrolla en el contexto de Oliver Wyman, una firma internacional de consultoría de gestión que trabaja con empresas e instituciones en retos estratégicos, operativos, tecnológicos y de transformación [1]. Dentro de su práctica de servicios financieros, la firma trabaja con bancos, entidades de crédito, compañías de pagos e instituciones de inversión [2, 3]. En el contexto de este proyecto, el foco se sitúa principalmente en el ámbito bancario en España, donde la explotación de datos agregados puede aportar valor tanto para análisis internos como para posibles propuestas a entidades financieras. El punto de partida era una situación en la que la empresa ya disponía de datos financieros agregados procedentes de una fuente externa, pero su explotación dependía principalmente de análisis bajo demanda realizados por perfiles técnicos. Cuando un usuario de negocio necesitaba una métrica o visualización concreta, era necesario preparar el análisis mediante notebooks o herramientas locales. Aunque este enfoque permitía responder a preguntas puntuales, no era suficientemente accesible, reutilizable ni interactivo para usuarios de negocio. El objetivo del proyecto fue desarrollar una herramienta analítica que permitiera consultar y comparar información bancaria de forma más autónoma. El dashboard permite seleccionar una entidad bancaria, compararla frente a otros bancos o grupos de bancos, consultar KPIs principales y analizar dimensiones como clientes, productos financieros, volumen, penetración, concentración, oportunidades de venta cruzada y salidas hacia neobancos.; This Master’s Thesis presents the design and implementation of a banking intelligence dashboard based on aggregated financial data. The project was developed in the context of Oliver Wyman, an international management consulting firm that supports companies and institutions in strategic, operational, technological and transformation challenges [1]. Within its financial services practice, the firm works with banks, credit institutions, payment companies and investment firms [2, 3]. In this project, the focus is mainly on banking in Spain, where aggregated financial data can generate value for internal analysis and potential proposals to financial institutions. The starting point was a situation in which the company already had access to aggregated financial data from an external source, but the use of that data depended mainly on ad hoc analysis performed by technical profiles. When a business user needed a specific metric or visualization, the analysis had to be prepared through notebooks or local tools. Although this approach was useful for specific questions, it was not sufficiently accessible, reusable or interactive for business users. The objective of the project was to develop an analytical tool that would allow users to query and compare banking information more autonomously. The dashboard allows users to select a banking institution, compare it against other banks or groups of banks, consult key performance indicators and analyze dimensions such as customers, financial products, volume, penetration, concentration, cross-selling opportunities and outflows to neobanks. Máster Universitario en Big Data 2026-01-01T00:00:00Z : Predicción de comisiones en pagos internacionales y su implementación en una Herramienta de Business Intelligence http://hdl.handle.net/11531/110094 : Predicción de comisiones en pagos internacionales y su implementación en una Herramienta de Business Intelligence Miralles Gómez, Carmen En el ámbito de los pagos internacionales, la correcta estimación de los costes transaccionales representa un factor crítico para la rentabilidad de las operaciones. Ebury, entidad fintech especializada en pagos transfronterizos y gestión de divisas, se enfrentaba a la imposibilidad de predecir con precisión las comisiones cargadas por los bancos corresponsales antes de la ejecución de cada transacción, lo que generaba tanto pérdidas de margen operativo como situaciones de falta de transparencia con el cliente. En este trabajo se presenta el diseño, desarrollo e implementación de una herramienta centralizada de predicción de costes transaccionales integrada en el ecosistema de Business Intelligence de la compañía. Para ello, se ha construido un modelo de datos sobre Google BigQuery utilizando dbt como motor de transformación, procesando más de 350.000 combinaciones únicas de divisa, entidad emisora, país de destino y tramo de importe. El modelo incorpora además un componente probabilístico basado en el análisis del histórico de más de 2 millones de transacciones reales ejecutadas desde mayo de 2024, volumen que crece de forma continua al ejecutarse el modelo a diario, y que permite estimar la ruta bancaria más probable y su coste asociado para cada operación. Los resultados se exponen a través de un dashboard interactivo en Sigma Computing, accesible en tiempo real por el equipo comercial. La herramienta permite reducir la incertidumbre en la tarificación, proteger el margen operativo y mejorar la calidad de la información ofrecida al cliente. Como línea futura de trabajo, se propone la implementación de un motor de recomendación basado en la fragmentación estratégica de pagos de gran volumen.; In the field of international payments, the accurate estimation of transactional costs is a critical factor for operational profitability. Ebury, a fintech company specialising in cross-border payments and foreign exchange management, faced the inability to reliably predict the fees charged by correspondent banks prior to transaction execution, leading to margin erosion and a lack of transparency towards clients. This work presents the design, development and implementation of a centralised transactional cost prediction tool integrated into the company’s Business Intelligence ecosystem. A data model was built on Google BigQuery using dbt as the transformation engine, processing over 350,000 unique combinations of currency, issuing entity, destination country and amount bracket. The model also incorporates a probabilistic component based on the analysis of over 2 million historical transactions executed since May 2024, a volume that grows continuously as the model runs daily, enabling the estimation of the most likely banking route and its associated cost for each operation. Results are delivered through an interactive dashboard in Sigma Computing, accessible in real time by the sales team. The tool reduces pricing uncertainty, protects operational margins and improves the quality of cost information provided to clients. As a future line of work, the implementation of a recommendation engine based on the strategic splitting of high-volume payments is proposed. Máster Universitario en Big Data 2026-01-01T00:00:00Z Desarrollo de un sistema automatizado de generación de informes mediante LLMs basado en datos en consultoría cultural http://hdl.handle.net/11531/110093 Desarrollo de un sistema automatizado de generación de informes mediante LLMs basado en datos en consultoría cultural Echamendi Zugasti, Paula Introducción La elaboración de informes supone una parte significativa de la carga de trabajo en consultoría, combinando de forma repetitiva extracción de datos, cálculo de métricas y redacción de texto para cada cliente. En el ámbito de la consultoría cultural, Kultursistema elabora informes descriptivos sobre los agentes culturales de distintos territorios a partir de ficheros de datos estructurados, siguiendo una estructura narrativa consistente. Este proceso es actualmente manual, con el consiguiente coste de tiempo y una escalabilidad limitada. La redacción manual de cada informe requiere alrededor de una semana de trabajo (entre dos y tres días para el apartado de análisis de variables que aborda este trabajo), un coste que el sistema reduce al generar de forma inmediata los párrafos descriptivos y dejar al consultor la revisión y las secciones interpretativas. Este trabajo explora en qué medida los modelos de lenguaje y otras técnicas de generación automática de texto permiten automatizar, total o parcialmente, la producción de estos informes, en un contexto marcado por la escasez de informes de referencia (solo seis ejemplos validados). 2. Definición del proyecto El objetivo es desarrollar un sistema automatizado de generación de informes que, a partir de un fichero Excel normalizado (1.033 agentes y 196 variables en el caso de estudio de Vitoria-Gasteiz), produzca texto en lenguaje natural de calidad comparable al redactado por el equipo consultor. El trabajo se centra en las secciones descriptivas, derivables directamente de los datos, y aborda dos módulos complementarios: un resumen general del informe (summarization) y una clasificación de sentimiento que valore el panorama del ecosistema. Las secciones de carácter interpretativo, fruto del análisis experto, quedan fuera del alcance de la automatización. 3. Descripción del modelo/sistema/herramienta Para la generación de los párrafos descriptivos se implementaron y compararon cuatro enfoques: plantillas deterministas (f-strings de Python), fine-tuning de Flan-T5-base, prompting con Qwen2.5-7B-Instruct y Retrieval-Augmented Generation (RAG) en dos variantes, una local con Flan-T5-base y otra que accede a Llama-3.1-8B-Instruct mediante la API de Groq, recuperando ejemplos reales del corpus como guía estilística a través de embeddings (paraphrase-multilingual-MiniLM-L12-v2) e índice FAISS. El módulo de resumen emplea un modelo bert2bert en español entrenado sobre MLSUM, en modo zero-shot. El módulo de clasificación orientado a la valoración global del panorama del ecosistema se exploró con modelos preentrenados de análisis de sentimiento y enfoques zero-shot. Todo el desarrollo se realizó en Python sobre Google Colab. 4. Resultados La evaluación con ROUGE y BLEU sobre el informe real de Vitoria-Gasteiz muestra que las plantillas son el enfoque más fiable para producción, con la máxima fidelidad factual y generación inmediata (ROUGE-1 de 0,719 en tipología y 0,693 en sectores). El fine-tuning resultó inviable por el sobreajuste derivado de la escasez de datos; el prompting, pese a su buena calidad, queda descartado por su tiempo de inferencia (8 a 14 minutos por informe); y el RAG local produjo texto de baja calidad. El RAG servido a través de Groq mejora sustancialmente la naturalidad del texto (media de ROUGE-1 de 0,627 y BLEU de 21,89), por lo que se incorpora como capa opcional de refinamiento estilístico. El módulo de summarization, evaluado en modo zero-shot, produce un resumen general coherente que condensa las cinco dimensiones descriptivas del informe, si bien su utilidad se limita a ofrecer una visión de conjunto y no a sustituir los párrafos interpretativos. En el módulo de valoración global del panorama se constató que los modelos generalistas clasifican los informes descriptivos como neutros de forma sistemática, al tratarse de textos factuales sin carga valorativa explícita; no obstante, cuando el texto incorpora señal interpretativa, los métodos dirigidos permiten captar parcialmente su orientación. 5. Conclusiones Un hallazgo metodológico relevante es que, en un problema de Data-to-Text de dominio cerrado, el enfoque más complejo no es necesariamente el más adecuado. Las plantillas deterministas, pese a su sencillez, ofrecieron la mayor fidelidad factual y trazabilidad, por lo que constituyen el núcleo del sistema, sobre el que el RAG actúa como capa opcional de refinamiento estilístico. Este sistema es aplicable a cualquier ecosistema analizado por Kultursistema sin adaptaciones estructurales, siempre que se mantenga el formato normalizado del fichero Excel de entrada. Las secciones interpretativas, en cambio, dependen del juicio experto y no son automatizables de forma fiable con los recursos disponibles. En conjunto, el trabajo constituye un ejemplo representativo de un problema real de ciencia de datos con datos muy escasos, en el que la vía realista pasa por apoyarse en modelos preentrenados y en técnicas que no requieren grandes corpus, como el prompting, el RAG y el zero-shot.; Introduction Report writing accounts for a significant share of the workload in consultancy, repeatedly combining data extraction, metric computation and text drafting for each client. In cultural consultancy, Kultursistema produces descriptive reports on the cultural agents of different territories from structured data files, following a consistent narrative structure. This process is currently manual, which is time-consuming and limits scalability. Drafting each report manually takes around a week of work (two to three days for the variable-analysis section addressed in this work), a cost that the system reduces by generating the descriptive paragraphs instantly, leaving the consultant with the review and the interpretive sections. This work explores to what extent large language models and other automatic text generation techniques can automate, fully or partially, the production of these reports, in a context defined by the scarcity of reference reports (only six validated examples). 2. Project definition The aim is to develop an automated report generation system that, from a normalized Excel file (1,033 agents and 196 variables in the Vitoria-Gasteiz case study), produces natural language text of a quality comparable to that written by the consulting team. The work focuses on the descriptive sections, which derive directly from the data, and addresses two complementary modules: a general summary of the report (summarization) and a sentiment classification assessing the ecosystem outlook. The interpretive sections, resulting from expert analysis, fall outside the scope of automation. 3. Description of the system Four approaches were implemented and compared for the descriptive paragraphs: rule-based deterministic templates (Python f-strings), fine-tuning of Flan-T5-base, prompting with Qwen2.5-7B-Instruct, and Retrieval-Augmented Generation (RAG) in two variants, a local one with Flan-T5-base and another accessing Llama-3.1-8B-Instruct through the Groq API, retrieving real corpus examples as a stylistic guide via embeddings (paraphrase-multilingual-MiniLM-L12-v2) and a FAISS index. The summarization module uses a Spanish bert2bert model trained on MLSUM, in zero-shot mode. The ecosystem outlook classification module was explored using pretrained sentiment-analysis models and zero-shot approaches. The entire development was carried out in Python on Google Colab. 4. Results Evaluation with ROUGE and BLEU against the real Vitoria-Gasteiz report shows that templates are the most reliable approach for production, with maximum factual fidelity and immediate generation (ROUGE-1 of 0.719 for typology and 0.693 for sectors). Fine-tuning proved unfeasible due to overfitting caused by data scarcity; prompting, despite its good quality, is discarded because of its inference time (8 to 14 minutes per report); and local RAG produced low-quality text. RAG served through Groq substantially improves the naturalness of the text (mean ROUGE-1 of 0.627 and BLEU of 21.89) and is incorporated as an optional stylistic refinement layer. The summarization module, evaluated in a zero-shot setting, produces a coherent general summary that condenses the five descriptive dimensions of the report, although its usefulness is limited to providing an overview rather than replacing the interpretive paragraphs. In the ecosystem outlook classification module, general-purpose models systematically classified the descriptive reports as neutral, since they are factual texts with no explicit evaluative signal; however, when the text includes interpretive content, directed methods are able to capture part of its orientation. 5. Conclusions A relevant methodological finding is that, in a closed-domain Data-to-Text problem, the most complex approach is not necessarily the most suitable. Deterministic templates, despite their simplicity, provided the highest factual fidelity and traceability, and therefore form the core of the system, over which RAG acts as an optional stylistic refinement layer. This system is applicable to any ecosystem analyzed by Kultursistema without adaptations, provided that the normalized format of the input Excel file is maintained. The interpretive sections, by contrast, depend on expert judgment and cannot be reliably automated with the available resources. Overall, this work is a representative example of a real-world data science problem with very scarce data, in which the realistic path relies on pretrained language models and techniques that do not require large corpora, such as prompting, RAG and zero-shot inference. Máster Universitario en Big Data 2026-01-01T00:00:00Z