Mostrar el registro sencillo del ítem

dc.contributor.advisorOrduna, Martaes-ES
dc.contributor.authorEspinosa Bogas, Juan Modestoes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2024-09-25T14:41:04Z
dc.date.available2024-09-25T14:41:04Z
dc.date.issued2025es_ES
dc.identifier.urihttp://hdl.handle.net/11531/94455
dc.descriptionMáster Universitario en Ingeniería Industrial y Máster Universitario en Administración de Empresas (MBA)es_ES
dc.description.abstractEste Trabajo Fin de Máster presenta el desarrollo de un sistema distribuido basado en inteligencia artificial para el análisis avanzado de escenas en tiempo real. Frente a la mera detección de objetos, el análisis de escenas busca comprender relaciones espaciales y contextuales en imágenes y vídeos. El proyecto se ha desarrollado en el XRLab de Nokia Spain S.A., integrando modelos de visión y lenguaje para dotar a sistemas físicos, como robots o plataformas de telepresencia, de capacidades cognitivas que faciliten su autonomía e interacción. La arquitectura implementada sigue el esquema clásico de robótica cognitiva: sentir, pensar y actuar. Se estructura en clientes de envío, que capturan vídeo de diferentes fuentes (como un robot cuadrúpedo Unitree Go2 o un sistema inmersivo de telepresencia), servidores que procesan las imágenes con modelos de IA, y una capa de razonamiento con modelos de lenguaje que interpretan los resultados y generan respuestas en lenguaje natural. Se han evaluado y seleccionado distintos algoritmos para tres tareas clave: ViLT para responder preguntas visuales (VQA), Florence para generar descripciones de imágenes, y LLaVA-Next-Video para descripciones narrativas de secuencias de vídeo. La evaluación combinó métricas clásicas y valoración automática mediante modelos LLM. El sistema permite aplicaciones como la reconstrucción semántica de recorridos de robots, navegación autónoma basada en percepción visual, generación de informes automáticos y asistencia virtual en tareas complejas. Todo esto demuestra la viabilidad de la integración entre visión por computador, modelos de lenguaje y robótica en entornos reales. Como líneas futuras, se plantea mejorar el rendimiento en tiempo real, adaptar los modelos a contextos concretos y profundizar en la interacción directa con sistemas robóticos. El trabajo sienta las bases para construir sistemas inteligentes que integran visión, lenguaje y acción de forma coordinada y eficiente.es-ES
dc.description.abstractThis Master's Thesis presents the development of a distributed system based on artificial intelligence for advanced real-time scene analysis. Unlike basic object detection, scene analysis aims to understand spatial and contextual relationships in images and videos. The project was carried out at Nokia Spain’s XRLab, integrating vision and language models to provide physical systems—such as robots or telepresence platforms—with cognitive capabilities that enhance autonomy and human-machine interaction. The implemented architecture follows the classical sense-think-act model from cognitive robotics. It consists of sending clients that capture video from various sources (such as a Unitree Go2 quadruped robot or an immersive telepresence system), analysis servers that process the images using AI algorithms, and a reasoning layer powered by language models that interpret the outputs and generate natural language responses. Different models were evaluated and selected for three core tasks: ViLT for visual question answering (VQA), Florence for image captioning, and LLaVA-Next-Video for generating narrative descriptions of video sequences. The evaluation combined traditional metrics with automatic assessment using large language models (LLM-as-a-Judge). The system enables several applications, including semantic reconstruction of robot trajectories, autonomous navigation based on visual understanding, automatic report generation, and virtual assistance in complex tasks. These use cases demonstrate the feasibility of combining computer vision, natural language processing, and robotics in real-world environments. Future work includes improving performance under real-time conditions, fine-tuning models for specific domains, and enabling more direct interaction with robotic systems. This project establishes a solid foundation for the development of intelligent systems that integrate vision, language, and action in a coordinated and efficient manner.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherH62-electronica (MII-N)es_ES
dc.titleAnálisis de escenas para aplicaciones de robótica y telepresencia inmersivaes_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsAnálisis de escenas; robótica; telepresencia inmersiva; LLM.es-ES
dc.keywordsScene analysis; robotics; immersive telepresence; LLM.en-GB


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 United States
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States