Cadena de automatización de medición de LLMs
Abstract
Este trabajo de fin de máster se centra en el desarrollo de una cadena de medición automática
para LLMs. Con el creciente uso de los LLMs en diversas aplicaciones de procesamiento del
lenguaje natural, se hace indispensable contar con mecanismos eficientes y precisos para medir
su rendimiento y capacidad.
El proyecto comienza con una introducción detallada al estado del arte, abarcando los diversos
problemas que rodean el ámbito de la inteligencia artificial. Se destaca la necesidad de abordar
estos desafíos para mejorar la eficiencia y precisión de los modelos de lenguaje actuales. Para
ello, se propone una arquitectura basada en RAG, una metodología diseñada para enriquecer la
base de conocimiento del modelo.
A continuación, se describe la arquitectura propuesta para el sistema. La implementación de
este sistema automatizado tiene como objetivo evaluar el rendimiento del RAG, facilitando la
comparación entre distintas versiones del mismo. Estas versiones varían en función de sus parámetros
de arquitectura y los hiperparámetros del LLM, lo que permite un análisis exhaustivo
de su rendimiento.
La metodología desarrollada en este proyecto incluye varios componentes clave. En primer
lugar, se aborda la generación automática de un dataset de evaluación. Luego, se procede a la
selección de métricas adecuadas para evaluar el rendimiento del modelo de manera precisa. El
proceso de evaluación se automatiza, lo que reduce significativamente el tiempo y esfuerzo requeridos
para llevar a cabo estos análisis.
Finalmente, los resultados obtenidos se validan mediante estudios comparativos. Estos estudios
permiten corroborar la efectividad de la metodología propuesta y ofrecen una visión clara
de las fortalezas y debilidades de cada versión del modelo evaluado. This master’s thesis focuses on the development of an automatic measurement chain for
LLMs. With the increasing use of LLMs in various natural language processing applications,
it is essential to have efficient and accurate mechanisms for measuring their performance and
capabilities.
The project begins with a detailed introduction to the state of the art, covering the various issues
surrounding the field of artificial intelligence. It highlights the need to address these challenges
to improve the efficiency and accuracy of current language models. To this end, an architecture
based on RAG is proposed, a methodology designed to enrich the model’s knowledge base.
Next, the proposed architecture for the system is described. The implementation of this automated
system aims to evaluate the performance of the RAG, facilitating the comparison between
different versions of the same. These versions vary based on their architectural parameters and
the hyperparameters of the LLM, allowing for a comprehensive analysis of their performance.
The methodology developed in this project includes several key components. Firstly, the automatic
generation of an evaluation dataset is addressed. Subsequently, the selection of appropriate
metrics to accurately evaluate the model’s performance is carried out. The evaluation
process is automated, significantly reducing the time and effort required to perform these analyses.
Finally, the results obtained are validated through comparative studies. These studies corroborate
the effectiveness of the proposed methodology and provide a clear view of the strengths
and weaknesses of each version of the evaluated model.
Trabajo Fin de Máster
Cadena de automatización de medición de LLMsTitulación / Programa
Máster Universitario en Big DataMaterias/ categorías / ODS
H0ZPalabras Clave
NLP, LLM, inteligencia artificial, evaluaciónNLP, LLM, artificial intelligence, evalutaion