Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/96779
Título : Desarrollo de Estrategias de Adquisición y Organización de Datos para un LLM
Autor : Morrás Ruiz-Falcó, Carlos
Martínez Rubio, Blanca
Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación : 2025
Resumen : Este proyecto consiste en mejorar el rendimiento de los modelos de lenguaje de gran tamaño (LLMs) mediante técnicas avanzadas de extracción y segmentación de datos. Se centra en optimizar dichas técnicas a partir de documentos en varios formatos, como PDFs, archivos DOCX y páginas web. Utilizando la técnica de Generación Aumentada por Recuperación (RAG), el sistema integra información actual y relevante de bases de datos externas, mejorando así la capacidad del LLM para generar respuestas precisas y coherentes. Algunos de los desafíos enfrentados han sido la optimización de la velocidad de procesamiento y asegurar la escalabilidad para adaptarse a diferentes formatos de documentos, usando AWS Lambda para la implementación de los algoritmos desarrollados. Además, se han investigado las estrategias más efectivas para maximizar el rendimiento del LLM, garantizando respuestas altamente precisas. Las comparaciones con ChatGPT-4 y las pruebas realizadas con TruLens han demostrado la eficacia del sistema, evidenciando una mejora en la precisión y la relevancia de las respuestas. Los planes a futuro incluyen ampliar las capacidades de procesamiento a más formatos de documentos y refinar aún más las técnicas de segmentación y extracción de datos para mantener al sistema a la vanguardia de la tecnología de procesamiento de lenguaje natural.
This project enhances large language models (LLMs) through advanced data scraping, crawling, and chunking techniques, focusing on refining data extraction and organization from documents in various formats, including PDFs, DOCX files, and web pages. By implementing Retrieval-Augmented Generation (RAG), the system integrates up-to-date, relevant information from external databases, bolstering the LLM’s ability to generate accurate and coherent responses. Challenges such as optimizing processing speed and ensuring scalability to adapt to various document formats were addressed using AWS Lambda to implement the developed algorithms. Additionally, the project explores the best strategies to optimize LLM performance to ensure responses are as precise as possible. Comparative evaluations with ChatGPT-4 and testing with TruLens demonstrate the system’s effectiveness, showing enhanced response accuracy and relevance. Future work aims to expand processing capabilities to additional document formats and further refine chunking techniques, ensuring the system remains at the forefront of natural language processing technology.
Descripción : Máster Universitario en Big Data
URI : http://hdl.handle.net/11531/96779
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFM_Martinez_Rubio_Blanca.pdfTrabajo Fin de Máster1,92 MBAdobe PDFVisualizar/Abrir     Request a copy
AnexoI.pdfAutorización12,31 kBAdobe PDFVisualizar/Abrir     Request a copy


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.