Detección de alucinaciones en modelos del lenguaje grandes en el ámbito médico
Abstract
Desde el lanzamiento de ChatGPT en noviembre de 2022, los grandes modelos del lenguaje (LLMs, por sus siglas en inglés) han demostrado un gran potencial en diversas aplicaciones, desde redacción de texto y generación de ideas hasta programación. Sin embargo, estos modelos tienden a generar información falsa, conocida como alucinación, lo que dificulta su adopción en ámbitos sensibles como el de la salud. Este trabajo se centra en desarrollar y evaluar técnicas de detección de alucinaciones en las respuestas de los LLMs, particularmente en el campo médico.
Diseñamos y evaluamos varios métodos de detección, incluyendo Verificación Contextual Básica (BCV), BCV con cadenas de pensamiento (BCV-CoT), Análisis Contextual por Oraciones (SCA), Contraste Iterativo de Oraciones y Muestras (ISSC) e ISSC-CoT, en datasets tanto generales como de ámbito médico. En cada benchmark, comparamos varios modelos juez como llama2, llama3, nous-hermes2, gemma y mistral.
Los resultados muestran que BCV-CoT, particularmente con nous-hermes2 como juez, alcanza el mejor rendimiento en términos de sensibilidad y especificidad. Asignar un rol de experto al modelo juez puede mejorar aún más la precisión en la detección. Estos resultados subrayan la importancia de la ingeniería de prompts y demuestran el potencial de las herramientas basadas en LLMs para aplicaciones médicas. Since the release of ChatGPT in November 2022, large language models (LLMs) have shown significant potential across various applications, including writing, idea generation, and coding. These models offer a wide range of benefits, but they also sometimes generate false information, known as hallucinations, posing challenges to wide adoption, especially in sensitive domains like healthcare. This research focuses on developing and benchmarking techniques for detecting hallucinations in LLM outputs, particularly in the medical field.
To evaluate the effectiveness of different hallucination detection methods, we benchmarked several approaches, including Basic Contextual Verification (BCV), BCV with chain-of-thought (BCV-CoT), Sentence-level Contextual Analysis (SCA), Iterative Sentence-Sample Comparison (ISSC), and ISSC-CoT, across both general knowledge and medical datasets. Each benchmark was conducted using various judge models, such as llama2, llama3, nous-hermes2, gemma, and mistral.
Our findings indicate that BCV-CoT, especially when used with the nous-hermes2 model, achieves the highest sensitivity and specificity in detecting hallucinations. Additionally, incorporating a medical expert role in the prompts can further enhance performance. These results underscore the importance of tailored prompt engineering and demonstrate the potential for improving LLM-based tools for medical applications. By refining these techniques, we can significantly enhance the reliability and usefulness of LLMs in critical fields such as healthcare.
Trabajo Fin de Grado
Detección de alucinaciones en modelos del lenguaje grandes en el ámbito médicoTitulación / Programa
Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Análisis de Negocios/Business AnalyticsMaterias/ categorías / ODS
KTT (GITT)Palabras Clave
modelos del lenguaje, alucinación, cadena de pensamiento, ingeniería de promptsLarge Language Model, hallucination, Chain of Thought, prompt engineering