| dc.contributor.advisor | Pérez Beltrán, Nicolás | es-ES |
| dc.contributor.author | Negueruela Avellaneda, Sofía | es-ES |
| dc.contributor.other | Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) | es_ES |
| dc.date.accessioned | 2025-11-15T19:06:09Z | |
| dc.date.available | 2025-11-15T19:06:09Z | |
| dc.date.issued | 2026 | es_ES |
| dc.identifier.uri | http://hdl.handle.net/11531/107205 | |
| dc.description | Grado en Ingeniería Matemática e Inteligencia Artificial | es_ES |
| dc.description.abstract | Este trabajo desarrolla y evalúa una arquitectura RAG (Retrieval-Augmented Generation) modular, extensible y multiidioma, orientada a mejorar la fiabilidad de asistentes basados en modelos de lenguaje en contextos empresariales. El proyecto nace de una limitación observada en un caso real: respuestas parciales, errores en preguntas complejas y alucinaciones al consultar conjuntos de documentaos inconexos. Como punto de partida, se implementa un RAG clásico con RAG Fusión. Sobre esta versión inicial del sistema se incorporan dos estrategias avanzadas para abordar algunas limitaciones específicas: GraphRAG, apoyado en Neo4j y Graphiti, para consultas que requieren relacionar información distribuida en documentos inconexos; y RAG con procesamiento en paralelo para preguntas donde es necesario recuperar y validar un número elevado de resultados sin perder completitud.
La solución implementada utiliza servicios gestionados de Azure, separando las responsabilidades de almacenamiento, indexación y orquestación de estrategias, lo que favorece la escalabilidad y mantenimiento del sistema. Además, integra capacidades multiidioma con detección y filtrado por idioma, junto con metadatos de trazabilidad a lo largo de toda la cadena de procesamiento. La evaluación compara las tres estrategias en distintos casos de uso e idioma mediante gold standards y métricas de calidad, completitud, latencia y coste. Los resultados muestran que no existe una estrategia única óptima para todas las preguntas: el mayor rendimiento se obtiene seleccionando la estrategia según el tipo de consulta. En conjunto, el trabajo aporta una base experimental reproducible y evidencia práctica para diseñar sistemas RAG más completos, transparentes y viables en el ámbito empresarial. | es-ES |
| dc.description.abstract | This project develops and evaluates a modular, extensible, and multilingual Retrieval-Augmented Generation (RAG) architecture aimed at improving the reliability of enterprise assistants based on large language models (LLMs). The project is motivated by a limitation observed in a real use case: partial answers, failures on complex questions, and hallucinations when asking for information in disconnected document sets. As a starting point, a classic RAG pipeline is implemented with RAG Fusion. On top of this initial system, two advanced strategies are incorporated to address specific limitations: GraphRAG, built with Neo4j and Graphiti, for queries that require relating information distributed across disconnected documents; and parallel processing RAG for questions where a high number of results must be retrieved and validated without losing completeness.
The implemented solution uses managed Azure services, separating storage, indexing, and strategy orchestration responsibilities, which improves system scalability and maintainability. It also integrates multilingual capabilities with language detection and filtering, together with traceability metadata across the full processing pipeline. The evaluation compares the three strategies across different use cases and languages using gold standards and metrics for answer quality, completeness, latency, and cost. Results show that there is no single optimal strategy for all questions: the highest performance is achieved by selecting the strategy according to the query type. Overall, the thesis contributes a reproducible experimental foundation and practical evidence for designing RAG systems that are more complete, transparent, and viable in enterprise contexts. | en-GB |
| dc.format.mimetype | application/pdf | es_ES |
| dc.language.iso | es-ES | es_ES |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES |
| dc.subject.other | KMI | es_ES |
| dc.title | Desarrollo Sistema RAG | es_ES |
| dc.type | info:eu-repo/semantics/bachelorThesis | es_ES |
| dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES |
| dc.keywords | Retrieval-Augmented Generation (RAG); GraphRAG; Procesamiento en paralelo; búsqueda/recuperación híbrida; multiidioma; trazabilidad | es-ES |
| dc.keywords | Retrieval-Augmented Generation (RAG); GraphRAG; parallel processing; hybrid search/retrieval; multilingual; traceability | en-GB |