Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/104759
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorChaquet, Jacoboes-ES
dc.contributor.authorIbinarriaga Robles, Jorgees-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2025-09-26T09:10:54Z-
dc.date.available2025-09-26T09:10:54Z-
dc.date.issued2026es_ES
dc.identifier.urihttp://hdl.handle.net/11531/104759-
dc.descriptionGrado en Ingeniería Matemática e Inteligencia Artificiales_ES
dc.description.abstractEste proyecto explora la optimización dinámica de sistemas Retrieval Augmented Generation (RAG) mediante métodos de Reinforcement Learning (RL). Se aborda la selección automática de hiperparámetros que afectan directamente a la calidad de las respuestas. El problema se modela como un multi-armed bandit (MAB), un algoritmo que aprende iterativamente qué configuraciones (brazos) producen mejores resultados; equilibrando exploración y explotación. La evaluación se basa en un dataset de preguntas y respuestas, SQuAD v2, utilizando la similitud coseno para medir el rendimiento. Los resultados sugieren que ciertas configuraciones pueden adaptarse mejor a determinados conjuntos de preguntas, destacando el potencial de enfoques adaptativos en sistemas RAG.es-ES
dc.description.abstractThis project explores the dynamic optimization of Retrieval Augmented Generation (RAG) systems through Reinforcement Learning (RL) methods. It addresses the automatic selection of hyperparameters that directly affect the quality of the answers. The problem is modeled as a multi-armed bandit (MAB), an algorithm that iteratively learns which configurations (arms) produce better results; balancing exploration and exploitation. The evaluation is based on a question-answering dataset, SQuAD v2, using cosine similarity to measure performance. The results suggest that certain configurations may adapt better to particular sets of questions, highlighting the potential of adaptive approaches in RAG systems.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherKMIes_ES
dc.titleOffline Conservative Q-Learning for Optimizing Parameters of Retrieval-AugmentedGeneration with Large Language Modelses_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsRAG; MAB; RL; LLMs; Question Answering (QA); embeddings; clusteringes-ES
dc.keywordsRAG; MAB; RL; LLMs; Question Answering (QA); embeddings; clusteringen-GB
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Anexo_I_firmado.pdfAutorización718,02 kBAdobe PDFVisualizar/Abrir
TFG Jorge Ibinarriaga Robles.pdfTrabajo Fin de Grado7,24 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.