Mostrar el registro sencillo del ítem
Análisis de escenas para aplicaciones de robótica y telepresencia inmersiva
| dc.contributor.advisor | Orduna, Marta | es-ES | 
| dc.contributor.author | Espinosa Bogas, Juan Modesto | es-ES | 
| dc.contributor.other | Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) | es_ES | 
| dc.date.accessioned | 2024-09-25T14:41:04Z | |
| dc.date.available | 2024-09-25T14:41:04Z | |
| dc.date.issued | 2025 | es_ES | 
| dc.identifier.uri | http://hdl.handle.net/11531/94455 | |
| dc.description | Máster Universitario en Ingeniería Industrial y Máster Universitario en Administración de Empresas (MBA) | es_ES | 
| dc.description.abstract | Este Trabajo Fin de Máster presenta el desarrollo de un sistema distribuido basado en inteligencia artificial para el análisis avanzado de escenas en tiempo real. Frente a la mera detección de objetos, el análisis de escenas busca comprender relaciones espaciales y contextuales en imágenes y vídeos. El proyecto se ha desarrollado en el XRLab de Nokia Spain S.A., integrando modelos de visión y lenguaje para dotar a sistemas físicos, como robots o plataformas de telepresencia, de capacidades cognitivas que faciliten su autonomía e interacción. La arquitectura implementada sigue el esquema clásico de robótica cognitiva: sentir, pensar y actuar. Se estructura en clientes de envío, que capturan vídeo de diferentes fuentes (como un robot cuadrúpedo Unitree Go2 o un sistema inmersivo de telepresencia), servidores que procesan las imágenes con modelos de IA, y una capa de razonamiento con modelos de lenguaje que interpretan los resultados y generan respuestas en lenguaje natural. Se han evaluado y seleccionado distintos algoritmos para tres tareas clave: ViLT para responder preguntas visuales (VQA), Florence para generar descripciones de imágenes, y LLaVA-Next-Video para descripciones narrativas de secuencias de vídeo. La evaluación combinó métricas clásicas y valoración automática mediante modelos LLM. El sistema permite aplicaciones como la reconstrucción semántica de recorridos de robots, navegación autónoma basada en percepción visual, generación de informes automáticos y asistencia virtual en tareas complejas. Todo esto demuestra la viabilidad de la integración entre visión por computador, modelos de lenguaje y robótica en entornos reales. Como líneas futuras, se plantea mejorar el rendimiento en tiempo real, adaptar los modelos a contextos concretos y profundizar en la interacción directa con sistemas robóticos. El trabajo sienta las bases para construir sistemas inteligentes que integran visión, lenguaje y acción de forma coordinada y eficiente. | es-ES | 
| dc.description.abstract | This Master's Thesis presents the development of a distributed system based on artificial intelligence for advanced real-time scene analysis. Unlike basic object detection, scene analysis aims to understand spatial and contextual relationships in images and videos. The project was carried out at Nokia Spain’s XRLab, integrating vision and language models to provide physical systems—such as robots or telepresence platforms—with cognitive capabilities that enhance autonomy and human-machine interaction. The implemented architecture follows the classical sense-think-act model from cognitive robotics. It consists of sending clients that capture video from various sources (such as a Unitree Go2 quadruped robot or an immersive telepresence system), analysis servers that process the images using AI algorithms, and a reasoning layer powered by language models that interpret the outputs and generate natural language responses. Different models were evaluated and selected for three core tasks: ViLT for visual question answering (VQA), Florence for image captioning, and LLaVA-Next-Video for generating narrative descriptions of video sequences. The evaluation combined traditional metrics with automatic assessment using large language models (LLM-as-a-Judge). The system enables several applications, including semantic reconstruction of robot trajectories, autonomous navigation based on visual understanding, automatic report generation, and virtual assistance in complex tasks. These use cases demonstrate the feasibility of combining computer vision, natural language processing, and robotics in real-world environments. Future work includes improving performance under real-time conditions, fine-tuning models for specific domains, and enabling more direct interaction with robotic systems. This project establishes a solid foundation for the development of intelligent systems that integrate vision, language, and action in a coordinated and efficient manner. | en-GB | 
| dc.format.mimetype | application/pdf | es_ES | 
| dc.language.iso | en-GB | es_ES | 
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES | 
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES | 
| dc.subject.other | H62-electronica (MII-N) | es_ES | 
| dc.title | Análisis de escenas para aplicaciones de robótica y telepresencia inmersiva | es_ES | 
| dc.type | info:eu-repo/semantics/masterThesis | es_ES | 
| dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES | 
| dc.keywords | Análisis de escenas; robótica; telepresencia inmersiva; LLM. | es-ES | 
| dc.keywords | Scene analysis; robotics; immersive telepresence; LLM. | en-GB | 

