Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/92012
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorContreras Bárcena, Davides-ES
dc.contributor.authorGonzález Rodríguez, Danieles-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2024-08-20T07:09:57Z-
dc.date.available2024-08-20T07:09:57Z-
dc.date.issued2024es_ES
dc.identifier.urihttp://hdl.handle.net/11531/92012-
dc.descriptionMáster Universitario en Ingeniería Industriales_ES
dc.description.abstractEste proyecto consiste en la creación de una interfaz para la evaluación de los Large Language Models (LLMs), que permite determinar la frecuencia de aparición de alucinaciones en las respuestas generadas por los mismos. La interfaz ha sido programada en Python, utilizando el entorno de desarrollo PyCharm, e integrando la plataforma Ollama, que simplifica la instalación e interacción con diferentes LLMs. La interfaz ofrece diferentes metodologías de evaluación de la eficacia de los modelos. Algunas de las metodologías desarrolladas se basan en la comparación con datasets, como el cálculo de los índices denominados correctness y adherencia al contexto. Otras metodologías son autosuficientes, como el cálculo de la consistencia, la utilización del diálogo entre agentes, o la programación de un retriever que facilita la evaluación de la Retrieved Augmented Generation (RAG) del modelo.es-ES
dc.description.abstractThis project involves the creation of an interface for evaluating the Large Language Models (LLMs), which allows the determination of the frequency in which the generated responses contain hallucinations. The interface has been programmed in Python, using the PyCharm development environment, and integrating the Ollama platform, which simplifies the installation and interaction with different LLMs. The interface offers different methodologies for evaluating the effectiveness of the models. Some of the developed methodologies are based on comparisons with datasets, such as calculating the indices known as correctness and context adherence. Other methodologies are self-sufficient, such as calculating the consistency, using a dialogue between agents, or programming a retriever that facilitates the evaluation of the model's Retrieved Augmented Generation (RAG).en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherH62-electronica (MII-N)es_ES
dc.titleInterfaz para la evaluación de los modelos LLMes_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsLarge Language Models (LLM); alucinaciones; Ollama; Python; Retrieved Augmented Generation (RAG); diálogo entre agentes; adherencia al contextoes-ES
dc.keywordsLarge Language Models (LLM); hallucinations; Ollama; Python; Retrieved Augmented Generation (RAG); dialogue between agents; context adherenceen-GB
Aparece en las colecciones: H62-Trabajos Fin de Máster

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFM-Gonzalez Rodriguez, Daniel.pdfTrabajo Fin de Máster1,59 MBAdobe PDFVista previa
Visualizar/Abrir
AnexoI_TFM_DanielGonzalezRodriguez_201705921.pdfAutorización30,51 kBAdobe PDFVista previa
Visualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.