Mostrar el registro sencillo del ítem

dc.contributor.advisorContreras Bárcena, Davides-ES
dc.contributor.authorDíaz de Rábago Pemán, Javieres-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2023-11-03T13:06:29Z
dc.date.available2023-11-03T13:06:29Z
dc.date.issued2024es_ES
dc.identifier.urihttp://hdl.handle.net/11531/84367es_ES
dc.descriptionGrado en Ingeniería en Tecnologías de Telecomunicación y Grado en Análisis de Negocios/Business Analyticses_ES
dc.description.abstractDesde el lanzamiento de ChatGPT en noviembre de 2022, los grandes modelos del lenguaje (LLMs, por sus siglas en inglés) han demostrado un gran potencial en diversas aplicaciones, desde redacción de texto y generación de ideas hasta programación. Sin embargo, estos modelos tienden a generar información falsa, conocida como alucinación, lo que dificulta su adopción en ámbitos sensibles como el de la salud. Este trabajo se centra en desarrollar y evaluar técnicas de detección de alucinaciones en las respuestas de los LLMs, particularmente en el campo médico. Diseñamos y evaluamos varios métodos de detección, incluyendo Verificación Contextual Básica (BCV), BCV con cadenas de pensamiento (BCV-CoT), Análisis Contextual por Oraciones (SCA), Contraste Iterativo de Oraciones y Muestras (ISSC) e ISSC-CoT, en datasets tanto generales como de ámbito médico. En cada benchmark, comparamos varios modelos juez como llama2, llama3, nous-hermes2, gemma y mistral. Los resultados muestran que BCV-CoT, particularmente con nous-hermes2 como juez, alcanza el mejor rendimiento en términos de sensibilidad y especificidad. Asignar un rol de experto al modelo juez puede mejorar aún más la precisión en la detección. Estos resultados subrayan la importancia de la ingeniería de prompts y demuestran el potencial de las herramientas basadas en LLMs para aplicaciones médicas.es-ES
dc.description.abstractSince the release of ChatGPT in November 2022, large language models (LLMs) have shown significant potential across various applications, including writing, idea generation, and coding. These models offer a wide range of benefits, but they also sometimes generate false information, known as hallucinations, posing challenges to wide adoption, especially in sensitive domains like healthcare. This research focuses on developing and benchmarking techniques for detecting hallucinations in LLM outputs, particularly in the medical field. To evaluate the effectiveness of different hallucination detection methods, we benchmarked several approaches, including Basic Contextual Verification (BCV), BCV with chain-of-thought (BCV-CoT), Sentence-level Contextual Analysis (SCA), Iterative Sentence-Sample Comparison (ISSC), and ISSC-CoT, across both general knowledge and medical datasets. Each benchmark was conducted using various judge models, such as llama2, llama3, nous-hermes2, gemma, and mistral. Our findings indicate that BCV-CoT, especially when used with the nous-hermes2 model, achieves the highest sensitivity and specificity in detecting hallucinations. Additionally, incorporating a medical expert role in the prompts can further enhance performance. These results underscore the importance of tailored prompt engineering and demonstrate the potential for improving LLM-based tools for medical applications. By refining these techniques, we can significantly enhance the reliability and usefulness of LLMs in critical fields such as healthcare.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherKTT (GITT)es_ES
dc.titleDetección de alucinaciones en modelos del lenguaje grandes en el ámbito médicoes_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsmodelos del lenguaje, alucinación, cadena de pensamiento, ingeniería de promptses-ES
dc.keywordsLarge Language Model, hallucination, Chain of Thought, prompt engineeringen-GB


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 United States
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States