Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/106815| Título : | Sistema de voz en tiempo real basado en técnicas de IA |
| Autor : | Contreras Bárcena, David Martín de Argila Lorente, Carlos Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) |
| Fecha de publicación : | 2026 |
| Resumen : | En los últimos años, la gran revolución de los asistentes de voz ha sido la aparición de modelos unificados que son muy rápidos y naturales, pero que funcionan como cajas negras, ya que generan el audio directamente sin poder entender fácilmente la lógica de una respuesta. En entornos empresariales esto supone un problema ya que no se pueden controlar fácilmente. Además, como la mayoría de avances Open Source se centran en LLMs de texto, para acceder a estos modelos es necesario recurrir a APIs comerciales privadas, asumiendo su coste y riesgos de privacidad. Para solucionarlo, en este TFM se ha desarrollado una arquitectura de voz en tiempo real utilizando únicamente modelos Open Source con un enfoque modular y en cascada (VAD, ASR, LLM y TTS), lo que permite mayor flexibilidad y control.
El sistema es también un agente capaz de llamar a herramientas (tools) para interactuar con bases de datos. Se validó simulando la automatización telefónica de un restaurante aunque, cambiando las herramientas y el system prompt, se puede cambiar el escenario. Para conseguir una interacción fluida, se ha implementado un pipeline en streaming y una máquina de estados (FSM) que gestiona los turnos de palabra y reacciona de forma casi inmediata si el usuario interrumpe a la IA. Para poder elegir el LLM más adecuado, se evaluaron decenas de modelos de código abierto, eligiendo Gemma 4 31B por tener la mejor relación entre inteligencia en español y el tiempo hasta el primer token (TTFT).
Finalmente, se desarrolló un frontend para interactuar con el sistema, permitiendo hablar en tiempo real y visualizar los estados internos. La evaluación automática del pipeline sobre 300 llamadas telefónicas demostró que el asistente completaba las tareas con éxito en el 83,7% de los casos, con una latencia mediana de 812.4 ms. In recent years, the main breakthrough in voice assistants has been the appearance of unified models that are very fast and natural, but operate as black boxes, since they generate audio directly without letting us easily understand the logic behind a response. In business environments, this creates a control problem. Also, since most Open Source advances focus on text LLMs, accessing these models requires using private commercial APIs, assuming their cost and privacy risks. To solve this, this Master's Thesis develops a real-time voice architecture using only Open Source models with a modular cascaded approach (VAD, ASR, LLM, and TTS), which allows for greater flexibility and control. The system is also an agent capable of calling tools to interact with databases. It was validated by simulating the phone automation of a restaurant, although by changing the tools and the system prompt, the scenario can be changed. To achieve a fluid interaction, a streaming pipeline and a Finite State Machine (FSM) have been implemented to manage speaking turns and react almost immediately if the user interrupts the AI. To choose the most suitable LLM, dozens of open-source models were evaluated, choosing Gemma 4 31B for having the best balance between intelligence in Spanish and Time to First Token (TTFT). Finally, a frontend was developed to interact with the system, allowing real-time speech and visualizing internal states. The automatic evaluation of the pipeline over 300 phone calls showed that the assistant successfully completed the tasks in 83.7% of the cases, with a median latency of 812.4 ms. |
| Descripción : | Máster Universitario en Ingeniería de Telecomunicación y Máster Universitario en Administración de Empresas (MBA) |
| URI : | http://hdl.handle.net/11531/106815 |
| Aparece en las colecciones: | TFG, TFM (temporales) |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| TFM - Martín de Argila Lorente, Carlos.pdf | Trabajo Fin de Máster | 8,93 MB | Adobe PDF | Visualizar/Abrir |
| Anexo I Martín de Argila Lorente Carlos.pdf | Autorización | 831,7 kB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.