Show simple item record

dc.contributor.advisorOlavarri Niño, Mariana Teresaes-ES
dc.contributor.authorPérez Romero, Alvaroes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2026-03-22T21:07:05Z
dc.date.available2026-03-22T21:07:05Z
dc.date.issued2026es_ES
dc.identifier.urihttp://hdl.handle.net/11531/109293
dc.descriptionMáster Universitario en Big Dataes_ES
dc.description.abstractEl presente Trabajo Fin de Máster aborda la generación de datos sintéticos a partir de contratos formales, una problemática creciente dada la presión regulatoria sobre el uso de datos reales y las limitaciones de las soluciones actuales, polarizadas entre herramientas basadas en reglas que ignoran la estructura relacional y modelos generativos que requieren datos reales, son opacos y no integran contratos formales. Se ha diseñado e implementado un sistema multi-agente que toma como entrada un contrato en formato Open Data Contract Standard (ODCS) v3.x y produce como salida un dataset CSV multi-tabla validado contra el contrato. La arquitectura, articulada bajo el principio "el LLM solo decide lo que no puede decidirse determinísticamente", combina un generador determinista —que resuelve dependencias mediante el algoritmo de Tarjan y el solucionador CP-SAT— con cinco agentes basados en GPT-4.1-mini orquestados por Microsoft Agent Framework: Synthetic Planner, Semantic Profiler, Semantic Analyzer, Dataset Diagnoser y Synthetic Enricher. Un bucle iterativo de auto-corrección con rollback basado en fingerprints de issues garantiza que ningún cambio degrada el dataset, y una capa transversal de observabilidad conforme a las GenAI Semantic Conventions de OpenTelemetry produce trazas portables y un visor HTML autocontenido para análisis post-mortem. La evaluación, realizada sobre una batería de diez contratos ODCS de complejidad creciente —desde casos sintéticos diseñados para estresar patrones estructurales hasta el contrato AdventureWorks de Microsoft con sesenta y ocho tablas—, alcanza convergencia estructural sobre la totalidad sin violaciones de claves foráneas, con un coste agregado en torno a tres euros y un tiempo de ejecución cercano a cien minutos sobre la batería completa.es-ES
dc.description.abstractThis Master's Thesis addresses the generation of synthetic data from formal contracts, an increasingly relevant problem given the regulatory pressure on the use of real data and the limitations of current solutions, which are polarized between rule-based tools that ignore relational structure and generative models that require real data, are opaque and do not integrate formal contracts. A multi-agent system has been designed and implemented that takes as input a contract in Open Data Contract Standard (ODCS) v3.x format and produces as output a multi-table CSV dataset validated against the contract. The architecture, articulated under the principle "the LLM only decides what cannot be decided deterministically", combines a deterministic generator —which resolves dependencies through Tarjan's algorithm and the CP-SAT solver— with five agents based on GPT-4.1-mini orchestrated by the Microsoft Agent Framework: Synthetic Planner, Semantic Profiler, Semantic Analyzer, Dataset Diagnoser and Synthetic Enricher. An iterative self-correction loop with rollback based on issue fingerprints guarantees that no change degrades the dataset, and a cross-cutting observability layer compliant with the OpenTelemetry GenAI Semantic Conventions produces portable traces and a self-contained HTML viewer for post-mortem analysis. The evaluation, carried out on a battery of ten ODCS contracts of increasing complexity —from synthetic cases designed to stress structural patterns to Microsoft's AdventureWorks contract with sixty-eight tables—, achieves structural convergence on all of them without foreign key violations, with an aggregate cost of around three euros and an execution time close to one hundred minutes on the complete battery.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoes-ESes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherH0Zes_ES
dc.titleSistema basado en agentes para la generación de datos sintéticos a partir de Data Contracts.es_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsDatos sintéticos; Pipelines de datos; Open Data Contract Standard (ODCS); Sistemas multi-agente; Modelos de lenguaje (LLM); OpenTelemetry.es-ES
dc.keywordsSynthetic data; Data pipelines; Open Data Contract Standard (ODCS); Multi-agent systems; Large Language Models (LLM); OpenTelemetry.en-GB


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 United States
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States