Chatbot de Conocimiento Interno de un Equipo de Trabajo

Jiménez Carmona, José Antonio

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/98044

Título :	Chatbot de Conocimiento Interno de un Equipo de Trabajo
Autor :	Buero Viana, Juan Antonio Jiménez Carmona, José Antonio Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación :	2025
Resumen :	Team Copilot es una aplicación de chatbot que tiene como objetivo ayudar a los miembros de un equipo a realizar su trabajo mediante la gestión de un conjunto de documentos PDF y respondiendo a preguntas sobre los documentos. La aplicación está escrita en Python y tiene una API basada en FastAPI con endpoints para autenticación, carga de documentos y realización de preguntas. La aplicación tiene un agente basado en LangGraph que gestiona los chats y utiliza un modelo de embeddings remoto de Voyage AI y un modelo LLM remoto de Anthropic. La aplicación utiliza las bibliotecas de Python PyMuPDF y PyTesseract para extraer el texto de los documentos PDF. PyMuPDF se utiliza para extraer texto plano e imágenes y PyTesseract se utiliza para extraer texto de las imágenes previamente extraídas a través de OCR (Reconocimiento Óptico de Caracteres). El texto extraído de cada documento se almacena en una base de datos PostgreSQL configurada como una base de datos vectorial con la extensión PgVector de PostgreSQL. Team Copilot is a chatbot application that aims to help the members of a team do their work by managing a set of PDF documents and replying to questions about the documents. The application is written in Python and has a FastAPI based API with endpoints for authentication, uploading documents and making questions. The application has a LangGraph based agent that manages the chats and uses a remote embedding model from Voyage AI and a remote LLM model from Anthropic. The application uses the PyMuPDF and PyTesseract Python libraries to extract the text of the PDF documents. PyMuPDF is used to extract plain text and images and PyTesseract is used to extract text from the previously extracted images through OCR (Optical Character Recognition). The extracted text of each document is stored in a PostgreSQL database configured as a vector database with the PgVector PostgreSQL extension.
Descripción :	Máster Universitario en Big Data
URI :	http://hdl.handle.net/11531/98044
Aparece en las colecciones:	TFG, TFM (temporales)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFM - Jimenez Carmona, Jose Antonio.pdf	Trabajo Fin de Máster	6,93 MB	Adobe PDF	Visualizar/Abrir
declaracion_autoria_firmada.pdf	Autorización	71,26 kB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro Dublin Core completo del ítem