Desarrollo de un “chatbot” especializado en enfermedades raras basado en técnicas RAG (Retrieval Aumented Generation).
Resumen
El presente proyecto tiene como objetivo el desarrollo de un sistema de procesamiento del lenguaje natural (NLP) aplicado al dominio de las enfermedades raras, tomando como base el corpus documental de la revista newsRARE. Ante la creciente complejidad y volumen de información médica disponible, se ha diseñado una solución que facilite su organización, comprensión y consulta mediante tres bloques funcionales: análisis temático, generación automática de resúmenes y un sistema conversacional basado en la arquitectura RAG (Retrieval-Augmented Generation).
En primer lugar, el bloque de análisis temático emplea técnicas de Topic Modeling (TF-IDF, NMF) para estructurar el contenido en tópicos representativos, mejorando la navegación y la accesibilidad. En segundo lugar, se ha implementado un sistema de resumen automático con modelos generalistas y biomédicos, permitiendo condensar los textos de forma precisa y útil para su difusión en redes sociales. Por último, el chatbot RAG combina modelos generativos como BioGPT con una base de datos vectorial construida a partir de embeddings, posibilitando respuestas contextualizadas y fiables a preguntas formuladas por los usuarios.
La evaluación del sistema ha sido tanto cuantitativa como cualitativa, destacando resultados satisfactorios en coherencia temática, precisión de los resúmenes y calidad de las respuestas. El diseño modular y escalable del sistema permite su fácil adaptación a otros dominios especializados, evidenciando el potencial de las técnicas NLP y de IA generativa como herramientas clave para la democratización del conocimiento en campos altamente técnicos. This project aims to develop a natural language processing (NLP) system applied to the field of rare diseases, based on the documentary corpus of the newsRARE magazine. Given the growing complexity and volume of medical information available, a solution has been designed to facilitate its organization, understanding, and consultation through three functional blocks: thematic analysis, automatic summary generation, and a conversational system based on RAG (Retrieval-Augmented Generation) architecture.
First, the thematic analysis block uses Topic Modeling techniques (TF-IDF, NMF) to structure the content into representative topics, improving navigation and accessibility. Second, an automatic summary system has been implemented with generalist and biomedical models, allowing texts to be condensed precisely and useful for dissemination on social media. Finally, the RAG chatbot combines generative models such as BioGPT with a vector database built from embeddings, enabling contextualized and reliable responses to user questions.
The system has been evaluated both quantitatively and qualitatively, with satisfactory results in terms of thematic consistency, summary accuracy, and response quality. The modular and scalable design of the system allows for easy adaptation to other specialized domains, demonstrating the potential of NLP and generative AI techniques as key tools for the democratization of knowledge in highly technical fields.
Trabajo Fin de Máster
Desarrollo de un “chatbot” especializado en enfermedades raras basado en técnicas RAG (Retrieval Aumented Generation).Titulación / Programa
Máster Universitario en Ingeniería de Telecomunicación + Máster Universitario en Big DataMaterias/ categorías / ODS
HA8Palabras Clave
Procesamiento del Lenguaje Natural, Modelado de Temas, Resumen Automático, Chatbot, RAG, Embeddings, Modelos Generativos, TransformersNatural Language Processing, Topic Modeling, Automatic Summarization, Chatbot, Retrieval-Augmented Generation, Embeddings, Generative Models, Transformers