ESTUDIO Y EVALUACIÓN DE LAS ESTRATEGIAS DE EXTRACCIÓN DE CONOCIMIENTO EN MODELOS LLM PERSONALIZADOS
Resumen
El auge del desarrollo de las tecnologías de inteligencia artificial (IA) ha impulsado numerosas innovaciones en el campo del procesamiento del lenguaje natural. Sin embargo, los altos costes computacionales asociados con los modelos de gran tamaño (LLM) representan un desafío considerable para su adopción a gran escala. Para abordar este problema, los modelos de código abierto emergen como una solución viable ofreciendo capacidades similares a las de un modelo de IA comercial, a un coste mucho menor.
Este proyecto se centra en el estudio de diferentes modelos de código abierto, analizando el rendimiento y las especificaciones de cada uno de ellos para llevar seleccionar aquel que ofrezca los mejores resultados. Los modelos estudiados son Falcon, LLama, Mistral, MPT y Qwen y el seleccionado es Llama3-8B. La selección del modelo se basa en sus benchmarks, la valoración de la comunidad y sus especificaciones.
Con el modelo seleccionado se llevan a cabo dos pruebas de concepto (PoC) para probar las capacidades del modelo. En la primera se realiza un ajuste fino (fine-tuning) de los parámetros del modelo en un conjunto de datos de preguntas y respuestas reales entre pacientes y doctores para dotar al modelo de la personalidad de un doctor y modificar su comportamiento. La segunda prueba de concepto explora el concepto de generación aumentada por recuperación (RAG) que permite combinar los conocimientos del modelo con una base de datos vectorial para mejorar sus respuestas aumentando el contexto. Se estudian tres técnicas de recuperación de documentos denominadas naïve, parent document y multiquery para evaluar su rendimiento en la tarea de recuperación de información de reportes médicos y elegir la técnica más adecuada para llevar a cabo dicha tarea. The advancements in the development of artificial intelligence (AI) technology have driven numerous innovations in the field of natural language processing (NLP). However, the high computational costs associated with large language models (LLM) pose a significant challenge for their large-scale adoption. To address this issue, open-source models emerge as viable solution, offering similar capabilities to a commercial AI model at much lower cost.
This project focuses on studying the different state of the art open-source models, analyzing the performance and specifications of each to select the one that offers the best results. The studied models include Falcon, Llama, Mistral, MPT and Qwen, with Llama3-8B being the selected model. The selection process involved examining its benchmarks, community ratings and specifications.
Subsequently, the selected model is used to carry out two proofs of concept (PoC) to test the model’s capabilities. The first one involves fine-tuning the model’s parameters on a dataset of real questions and answers between patients and doctors to endow the model with a doctor’s personality and modify its behavior. The second proof of concept explores the concept of Retrieval Augmented Generation (RAG), which allows combining the model’s knowledge with a vector database to enhance its responses by increasing the context. Three document retrieval techniques, named naïve, parent document, and multiquery are analyzed to evaluate their performance in the task of retrieving information from medical reports and to select the most suitable technique for this task.
Trabajo Fin de Grado
ESTUDIO Y EVALUACIÓN DE LAS ESTRATEGIAS DE EXTRACCIÓN DE CONOCIMIENTO EN MODELOS LLM PERSONALIZADOSTitulación / Programa
Grado en Ingeniería en Tecnologías de TelecomunicaciónMaterias/ categorías / ODS
KTT (GITT)Palabras Clave
IA, LLM, RAG, Código abierto, NLP, Llama, ajuste finoAI, LLM, RAG, Open-Source, NLP, Llama, fine-tuning