Uso de la profundidad para la segmentación semántica en aplicaciones de realidad extendida

Pedrós Tobaruela, Sofía

dc.contributor.advisor	González Sosa, Ester	es-ES
dc.contributor.advisor	Contreras Bárcena, David	es-ES
dc.contributor.author	Pedrós Tobaruela, Sofía	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)	es_ES
dc.date.accessioned	2025-01-23T17:28:21Z
dc.date.available	2025-01-23T17:28:21Z
dc.date.issued	2025	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/97076
dc.description	Grado en Ingeniería Matemática e Inteligencia Artificial	es_ES
dc.description.abstract	Las tecnologías de Realidad Extendida (XR) ofrecen experiencias inmersivas que combinan entornos virtuales y reales. Para lograr una experiencia inmersiva óptima, es fundamental que los usuarios se sientan integrados en la escena virtual. Para ello, debería incorporarse una representación del usuario dentro del entorno virtual. Esto suele lograrse mediante avatares basados en video, creados a través de segmentación semántica egocéntrica. En este proceso, el cuerpo del usuario se segmenta de un video capturado desde una perspectiva en primera persona y luego se incorpora al mundo virtual. Este trabajo evalúa la integración de información de profundidad para mejorar la creación de estos avatares, con el objetivo de representar de forma más precisa el cuerpo del usuario y, en consecuencia, mejorar su percepción dentro de las aplicaciones XR. La profundidad, potencialmente, puede mejorar la calidad de la segmentación al reducir los falsos positivos en el fondo, y además permite una reconstrucción en 3D del cuerpo del usuario para mejorar la percepción de distancias. En particular, presentamos un modelo de segmentación semántica en tiempo real mejorado con profundidad, entrenado con un conjunto de datos egocéntricos RGB-D, junto con un enfoque en el que el avatar basado en video se reconstruye como una nube de puntos 3D en la aplicación final. Este trabajo muestra que el uso de profundidad mejora el rendimiento de la segmentación, con un incremento relativo del 13,75 % en la métrica mIoU (Intersección sobre Unión media) y una mejora del 39,6 % en la percepción subjetiva. Además, representar al usuario como una nube de puntos 3D mejora la percepción de distancias en un 11 % en entornos XR, comparado con implementaciones anteriores que no incorporan profundidad.	es-ES
dc.description.abstract	Extended Reality (XR) technologies offer immersive experiences that blend virtual and real environments. For an optimal immersion experience, users must feel integrated within the virtual scene. Therefore, an accurate depiction of the user should be incorporated into the virtual environment. This is often achieved by means of video-based self-avatars created via egocentric semantic segmentation. In this process, the user's body is segmented from a self-captured first-person video and incorporated into the virtual world. The present work evaluates the integration of depth to enhance the creation of these self-avatars to improve the representation of the user's body, thereby enhancing the user's perception within the XR application. Depth can potentially improve the segmentation quality, by reducing the rate of false positives in the background, and allow a 3D reconstruction of the user’s body to improve distance perception. More specifically, we introduce a real-time depth-enhanced semantic segmentation model, trained with a RGB-D egocentric dataset, and an approach where the user's video-based self-avatar is reconstructed as a 3D point cloud in the final application. We show that using depth improves segmentation performance, with a 13.75% relative increase in mIoU (mean Intersection Over Union) and a 39.6% gain in subjective quality. Furthermore, representing the user as a 3D point cloud enhances distance perception (by 11%) in XR compared to previous implementations that do not include depth.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	en-GB	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject.other	KMI	es_ES
dc.title	Uso de la profundidad para la segmentación semántica en aplicaciones de realidad extendida	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.keywords	Segmentación semántica, transformers, CNNS, Realidad Extendida, Visión egocéntrica, RGB-D	es-ES
dc.keywords	Semantic segmentation, transformers, CNNs, Extended Reality, Egocentric vision, RGB-D	en-GB

Ficheros en el ítem

Nombre:: AnexoI_signed.pdf
Tamaño:: 196.2Kb
Formato:: PDF
Descripción:: Autorización

Ver/

Nombre:: TFG - Pedros Tobaruela, Sofia.pdf
Tamaño:: 12.32Mb
Formato:: PDF
Descripción:: Trabajo Fin de Grado

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

KMI-Trabajos Fin de Grado

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States