Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/94554Registro completo de metadatos
| Campo DC | Valor | Lengua/Idioma |
|---|---|---|
| dc.contributor.advisor | López López, Álvaro Jesús | es-ES |
| dc.contributor.author | Ripoll Domínguez, Mario | es-ES |
| dc.contributor.other | Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) | es_ES |
| dc.date.accessioned | 2024-09-27T09:26:18Z | - |
| dc.date.available | 2024-09-27T09:26:18Z | - |
| dc.date.issued | 2025 | es_ES |
| dc.identifier.uri | http://hdl.handle.net/11531/94554 | es_ES |
| dc.description | Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada / in Smart Industry | es_ES |
| dc.description.abstract | Este proyecto presenta el desarrollo de un flujo de trabajo semiautomatizado para la creación de conjuntos de datos en formato de preguntas y respuestas (Q&A), con el objetivo de ajustar finamente modelos de lenguaje grande (LLMs) sobre documentación privada en entornos locales. Ante los desafíos que plantea la incorporación de LLMs en contextos corporativos —donde la privacidad, la personalización y las limitaciones computacionales son críticas— se diseña un sistema modular y reproducible que permite generar datasets fiables sin comprometer la confidencialidad de los datos. La metodología propuesta parte de la segmentación del corpus documental en fragmentos textuales coherentes (chunks), empleando como fuente documentos académicos recientes para evitar filtraciones de información ya conocida por los modelos. La generación de pares Q&A se realiza mediante inferencia con el modelo Qwen2-7B-Instruct, elegido tras una comparativa con otros modelos por su eficiencia y precisión. La validación de los resultados se lleva a cabo mediante técnicas de recuperación aumentada (RAG) utilizando Mistral-7B, asegurando la cobertura del corpus y eliminando respuestas alucinadas. Todo el proceso se optimiza mediante técnicas como la cuantización a 4 bits, lo que permite su ejecución en entornos con recursos computacionales limitados. El resultado es un dataset compuesto por más de 40.000 pares pregunta-respuesta, con una precisión del 96,73% y cobertura del 97,24%, demostrando la viabilidad del enfoque. El sistema desarrollado no solo es adaptable y seguro, sino que sienta las bases para su aplicación en contextos reales donde se requiere integrar LLMs personalizados sin recurrir a servicios en la nube. Este trabajo abre nuevas vías hacia la implementación de asistentes virtuales privados y plantea líneas futuras de investigación en modelos multimodales y trazabilidad de la información generada. | es-ES |
| dc.description.abstract | This project presents the development of a semi-automated workflow for the creation of question-and-answer (Q&A) datasets, with the goal of fine-tuning large language models (LLMs) on private documentation in local environments. Given the challenges of incorporating LLMs in corporate contexts—where privacy, customization, and computational limitations are critical—a modular and reproducible system is designed to generate reliable datasets without compromising data confidentiality. The proposed methodology begins with the segmentation of the document corpus into coherent textual fragments (chunks), using recent academic documents as the source to avoid data leakage from information already known by the models. The generation of Q&A pairs is carried out via inference using the Qwen2-7B-Instruct model, selected after a comparative analysis for its efficiency and accuracy. The validation of the results is performed using retrieval-augmented generation (RAG) techniques with Mistral-7B, ensuring full corpus coverage and eliminating hallucinated responses. The entire process is optimized with techniques such as 4-bit quantization, enabling execution in environments with limited computational resources. The outcome is a dataset composed of more than 40,000 Q&A pairs, with an accuracy of 96.73% and a coverage rate of 97.24%, demonstrating the viability of the proposed approach. The developed system is not only adaptable and secure but also lays the groundwork for real-world applications where integrating customized LLMs without relying on cloud services is essential. This work opens new avenues for the deployment of private virtual assistants and suggests future research directions in multimodal models and the traceability of generated information. | en-GB |
| dc.format.mimetype | application/pdf | es_ES |
| dc.language.iso | es-ES | es_ES |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES |
| dc.subject.other | H62-electronica (MII-N) | es_ES |
| dc.title | Creación de un conjunto de datos de preguntas y respuestas para el ajuste fino de LLMssobre documentación privada | es_ES |
| dc.type | info:eu-repo/semantics/masterThesis | es_ES |
| dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES |
| dc.keywords | LLM, dataset, inferencia, documentación privada, Q&A | es-ES |
| dc.keywords | LLM, dataset, inference, private documentation, Q&A | en-GB |
| Aparece en las colecciones: | H62-Trabajos Fin de Máster | |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| TFM-RipollDominguez,Mario.pdf | Trabajo Fin de Máster | 3,98 MB | Adobe PDF | Visualizar/Abrir |
| AnexoI.pdf | Autorización | 84,76 kB | Adobe PDF | Visualizar/Abrir Request a copy |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.