Análisis de escenas para aplicaciones de robótica y telepresencia inmersiva

Espinosa Bogas, Juan Modesto

dc.contributor.advisor	Orduna, Marta	es-ES
dc.contributor.author	Espinosa Bogas, Juan Modesto	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)	es_ES
dc.date.accessioned	2024-09-25T14:41:04Z
dc.date.available	2024-09-25T14:41:04Z
dc.date.issued	2025	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/94455
dc.description	Máster Universitario en Ingeniería Industrial y Máster Universitario en Administración de Empresas (MBA)	es_ES
dc.description.abstract	Este Trabajo Fin de Máster presenta el desarrollo de un sistema distribuido basado en inteligencia artificial para el análisis avanzado de escenas en tiempo real. Frente a la mera detección de objetos, el análisis de escenas busca comprender relaciones espaciales y contextuales en imágenes y vídeos. El proyecto se ha desarrollado en el XRLab de Nokia Spain S.A., integrando modelos de visión y lenguaje para dotar a sistemas físicos, como robots o plataformas de telepresencia, de capacidades cognitivas que faciliten su autonomía e interacción. La arquitectura implementada sigue el esquema clásico de robótica cognitiva: sentir, pensar y actuar. Se estructura en clientes de envío, que capturan vídeo de diferentes fuentes (como un robot cuadrúpedo Unitree Go2 o un sistema inmersivo de telepresencia), servidores que procesan las imágenes con modelos de IA, y una capa de razonamiento con modelos de lenguaje que interpretan los resultados y generan respuestas en lenguaje natural. Se han evaluado y seleccionado distintos algoritmos para tres tareas clave: ViLT para responder preguntas visuales (VQA), Florence para generar descripciones de imágenes, y LLaVA-Next-Video para descripciones narrativas de secuencias de vídeo. La evaluación combinó métricas clásicas y valoración automática mediante modelos LLM. El sistema permite aplicaciones como la reconstrucción semántica de recorridos de robots, navegación autónoma basada en percepción visual, generación de informes automáticos y asistencia virtual en tareas complejas. Todo esto demuestra la viabilidad de la integración entre visión por computador, modelos de lenguaje y robótica en entornos reales. Como líneas futuras, se plantea mejorar el rendimiento en tiempo real, adaptar los modelos a contextos concretos y profundizar en la interacción directa con sistemas robóticos. El trabajo sienta las bases para construir sistemas inteligentes que integran visión, lenguaje y acción de forma coordinada y eficiente.	es-ES
dc.description.abstract	This Master's Thesis presents the development of a distributed system based on artificial intelligence for advanced real-time scene analysis. Unlike basic object detection, scene analysis aims to understand spatial and contextual relationships in images and videos. The project was carried out at Nokia Spain’s XRLab, integrating vision and language models to provide physical systems—such as robots or telepresence platforms—with cognitive capabilities that enhance autonomy and human-machine interaction. The implemented architecture follows the classical sense-think-act model from cognitive robotics. It consists of sending clients that capture video from various sources (such as a Unitree Go2 quadruped robot or an immersive telepresence system), analysis servers that process the images using AI algorithms, and a reasoning layer powered by language models that interpret the outputs and generate natural language responses. Different models were evaluated and selected for three core tasks: ViLT for visual question answering (VQA), Florence for image captioning, and LLaVA-Next-Video for generating narrative descriptions of video sequences. The evaluation combined traditional metrics with automatic assessment using large language models (LLM-as-a-Judge). The system enables several applications, including semantic reconstruction of robot trajectories, autonomous navigation based on visual understanding, automatic report generation, and virtual assistance in complex tasks. These use cases demonstrate the feasibility of combining computer vision, natural language processing, and robotics in real-world environments. Future work includes improving performance under real-time conditions, fine-tuning models for specific domains, and enabling more direct interaction with robotic systems. This project establishes a solid foundation for the development of intelligent systems that integrate vision, language, and action in a coordinated and efficient manner.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	en-GB	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject.other	H62-electronica (MII-N)	es_ES
dc.title	Análisis de escenas para aplicaciones de robótica y telepresencia inmersiva	es_ES
dc.type	info:eu-repo/semantics/masterThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.keywords	Análisis de escenas; robótica; telepresencia inmersiva; LLM.	es-ES
dc.keywords	Scene analysis; robotics; immersive telepresence; LLM.	en-GB

Ficheros en el ítem

Nombre:: TFM - Espinosa Bogas, Juan ...
Tamaño:: 4.913Mb
Formato:: PDF
Descripción:: Trabajo Fin de Máster

Ver/

Nombre:: Anexo I - Espinosa Bogas, Juan ...
Tamaño:: 158.4Kb
Formato:: PDF
Descripción:: Autorización

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

H62-Trabajos Fin de Máster

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States