Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/96839
Título : Cadena de automatización de medición de LLMs
Autor : Morrás Ruiz-Falcó, Carlos
Oliveira Piñeiro, Manuel
Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación : 2025
Resumen : Este trabajo de fin de máster se centra en el desarrollo de una cadena de medición automática para LLMs. Con el creciente uso de los LLMs en diversas aplicaciones de procesamiento del lenguaje natural, se hace indispensable contar con mecanismos eficientes y precisos para medir su rendimiento y capacidad. El proyecto comienza con una introducción detallada al estado del arte, abarcando los diversos problemas que rodean el ámbito de la inteligencia artificial. Se destaca la necesidad de abordar estos desafíos para mejorar la eficiencia y precisión de los modelos de lenguaje actuales. Para ello, se propone una arquitectura basada en RAG, una metodología diseñada para enriquecer la base de conocimiento del modelo. A continuación, se describe la arquitectura propuesta para el sistema. La implementación de este sistema automatizado tiene como objetivo evaluar el rendimiento del RAG, facilitando la comparación entre distintas versiones del mismo. Estas versiones varían en función de sus parámetros de arquitectura y los hiperparámetros del LLM, lo que permite un análisis exhaustivo de su rendimiento. La metodología desarrollada en este proyecto incluye varios componentes clave. En primer lugar, se aborda la generación automática de un dataset de evaluación. Luego, se procede a la selección de métricas adecuadas para evaluar el rendimiento del modelo de manera precisa. El proceso de evaluación se automatiza, lo que reduce significativamente el tiempo y esfuerzo requeridos para llevar a cabo estos análisis. Finalmente, los resultados obtenidos se validan mediante estudios comparativos. Estos estudios permiten corroborar la efectividad de la metodología propuesta y ofrecen una visión clara de las fortalezas y debilidades de cada versión del modelo evaluado.
This master’s thesis focuses on the development of an automatic measurement chain for LLMs. With the increasing use of LLMs in various natural language processing applications, it is essential to have efficient and accurate mechanisms for measuring their performance and capabilities. The project begins with a detailed introduction to the state of the art, covering the various issues surrounding the field of artificial intelligence. It highlights the need to address these challenges to improve the efficiency and accuracy of current language models. To this end, an architecture based on RAG is proposed, a methodology designed to enrich the model’s knowledge base. Next, the proposed architecture for the system is described. The implementation of this automated system aims to evaluate the performance of the RAG, facilitating the comparison between different versions of the same. These versions vary based on their architectural parameters and the hyperparameters of the LLM, allowing for a comprehensive analysis of their performance. The methodology developed in this project includes several key components. Firstly, the automatic generation of an evaluation dataset is addressed. Subsequently, the selection of appropriate metrics to accurately evaluate the model’s performance is carried out. The evaluation process is automated, significantly reducing the time and effort required to perform these analyses. Finally, the results obtained are validated through comparative studies. These studies corroborate the effectiveness of the proposed methodology and provide a clear view of the strengths and weaknesses of each version of the evaluated model.
Descripción : Máster Universitario en Big Data
URI : http://hdl.handle.net/11531/96839
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFM_ManuelOliveiraPineiro.pdfTrabajo Fin de Máster4,89 MBAdobe PDFVisualizar/Abrir     Request a copy
Anexo.pdfAutorización61,95 kBAdobe PDFVisualizar/Abrir     Request a copy


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.