Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/96839
Título : | Cadena de automatización de medición de LLMs |
Autor : | Morrás Ruiz-Falcó, Carlos Oliveira Piñeiro, Manuel Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) |
Fecha de publicación : | 2025 |
Resumen : | Este trabajo de fin de máster se centra en el desarrollo de una cadena de medición automática
para LLMs. Con el creciente uso de los LLMs en diversas aplicaciones de procesamiento del
lenguaje natural, se hace indispensable contar con mecanismos eficientes y precisos para medir
su rendimiento y capacidad.
El proyecto comienza con una introducción detallada al estado del arte, abarcando los diversos
problemas que rodean el ámbito de la inteligencia artificial. Se destaca la necesidad de abordar
estos desafíos para mejorar la eficiencia y precisión de los modelos de lenguaje actuales. Para
ello, se propone una arquitectura basada en RAG, una metodología diseñada para enriquecer la
base de conocimiento del modelo.
A continuación, se describe la arquitectura propuesta para el sistema. La implementación de
este sistema automatizado tiene como objetivo evaluar el rendimiento del RAG, facilitando la
comparación entre distintas versiones del mismo. Estas versiones varían en función de sus parámetros
de arquitectura y los hiperparámetros del LLM, lo que permite un análisis exhaustivo
de su rendimiento.
La metodología desarrollada en este proyecto incluye varios componentes clave. En primer
lugar, se aborda la generación automática de un dataset de evaluación. Luego, se procede a la
selección de métricas adecuadas para evaluar el rendimiento del modelo de manera precisa. El
proceso de evaluación se automatiza, lo que reduce significativamente el tiempo y esfuerzo requeridos
para llevar a cabo estos análisis.
Finalmente, los resultados obtenidos se validan mediante estudios comparativos. Estos estudios
permiten corroborar la efectividad de la metodología propuesta y ofrecen una visión clara
de las fortalezas y debilidades de cada versión del modelo evaluado. This master’s thesis focuses on the development of an automatic measurement chain for LLMs. With the increasing use of LLMs in various natural language processing applications, it is essential to have efficient and accurate mechanisms for measuring their performance and capabilities. The project begins with a detailed introduction to the state of the art, covering the various issues surrounding the field of artificial intelligence. It highlights the need to address these challenges to improve the efficiency and accuracy of current language models. To this end, an architecture based on RAG is proposed, a methodology designed to enrich the model’s knowledge base. Next, the proposed architecture for the system is described. The implementation of this automated system aims to evaluate the performance of the RAG, facilitating the comparison between different versions of the same. These versions vary based on their architectural parameters and the hyperparameters of the LLM, allowing for a comprehensive analysis of their performance. The methodology developed in this project includes several key components. Firstly, the automatic generation of an evaluation dataset is addressed. Subsequently, the selection of appropriate metrics to accurately evaluate the model’s performance is carried out. The evaluation process is automated, significantly reducing the time and effort required to perform these analyses. Finally, the results obtained are validated through comparative studies. These studies corroborate the effectiveness of the proposed methodology and provide a clear view of the strengths and weaknesses of each version of the evaluated model. |
Descripción : | Máster Universitario en Big Data |
URI : | http://hdl.handle.net/11531/96839 |
Aparece en las colecciones: | TFG, TFM (temporales) |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
TFM_ManuelOliveiraPineiro.pdf | Trabajo Fin de Máster | 4,89 MB | Adobe PDF | Visualizar/Abrir Request a copy |
Anexo.pdf | Autorización | 61,95 kB | Adobe PDF | Visualizar/Abrir Request a copy |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.