Mostrar el registro sencillo del ítem
Uso de la profundidad para la segmentación semántica en aplicaciones de realidad extendida
| dc.contributor.advisor | González Sosa, Ester | es-ES |
| dc.contributor.advisor | Contreras Bárcena, David | es-ES |
| dc.contributor.author | Pedrós Tobaruela, Sofía | es-ES |
| dc.contributor.other | Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) | es_ES |
| dc.date.accessioned | 2025-01-23T17:28:21Z | |
| dc.date.available | 2025-01-23T17:28:21Z | |
| dc.date.issued | 2025 | es_ES |
| dc.identifier.uri | http://hdl.handle.net/11531/97076 | |
| dc.description | Grado en Ingeniería Matemática e Inteligencia Artificial | es_ES |
| dc.description.abstract | Las tecnologías de Realidad Extendida (XR) ofrecen experiencias inmersivas que combinan entornos virtuales y reales. Para lograr una experiencia inmersiva óptima, es fundamental que los usuarios se sientan integrados en la escena virtual. Para ello, debería incorporarse una representación del usuario dentro del entorno virtual. Esto suele lograrse mediante avatares basados en video, creados a través de segmentación semántica egocéntrica. En este proceso, el cuerpo del usuario se segmenta de un video capturado desde una perspectiva en primera persona y luego se incorpora al mundo virtual. Este trabajo evalúa la integración de información de profundidad para mejorar la creación de estos avatares, con el objetivo de representar de forma más precisa el cuerpo del usuario y, en consecuencia, mejorar su percepción dentro de las aplicaciones XR. La profundidad, potencialmente, puede mejorar la calidad de la segmentación al reducir los falsos positivos en el fondo, y además permite una reconstrucción en 3D del cuerpo del usuario para mejorar la percepción de distancias. En particular, presentamos un modelo de segmentación semántica en tiempo real mejorado con profundidad, entrenado con un conjunto de datos egocéntricos RGB-D, junto con un enfoque en el que el avatar basado en video se reconstruye como una nube de puntos 3D en la aplicación final. Este trabajo muestra que el uso de profundidad mejora el rendimiento de la segmentación, con un incremento relativo del 13,75 % en la métrica mIoU (Intersección sobre Unión media) y una mejora del 39,6 % en la percepción subjetiva. Además, representar al usuario como una nube de puntos 3D mejora la percepción de distancias en un 11 % en entornos XR, comparado con implementaciones anteriores que no incorporan profundidad. | es-ES |
| dc.description.abstract | Extended Reality (XR) technologies offer immersive experiences that blend virtual and real environments. For an optimal immersion experience, users must feel integrated within the virtual scene. Therefore, an accurate depiction of the user should be incorporated into the virtual environment. This is often achieved by means of video-based self-avatars created via egocentric semantic segmentation. In this process, the user's body is segmented from a self-captured first-person video and incorporated into the virtual world. The present work evaluates the integration of depth to enhance the creation of these self-avatars to improve the representation of the user's body, thereby enhancing the user's perception within the XR application. Depth can potentially improve the segmentation quality, by reducing the rate of false positives in the background, and allow a 3D reconstruction of the user’s body to improve distance perception. More specifically, we introduce a real-time depth-enhanced semantic segmentation model, trained with a RGB-D egocentric dataset, and an approach where the user's video-based self-avatar is reconstructed as a 3D point cloud in the final application. We show that using depth improves segmentation performance, with a 13.75% relative increase in mIoU (mean Intersection Over Union) and a 39.6% gain in subjective quality. Furthermore, representing the user as a 3D point cloud enhances distance perception (by 11%) in XR compared to previous implementations that do not include depth. | en-GB |
| dc.format.mimetype | application/pdf | es_ES |
| dc.language.iso | en-GB | es_ES |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES |
| dc.subject.other | KMI | es_ES |
| dc.title | Uso de la profundidad para la segmentación semántica en aplicaciones de realidad extendida | es_ES |
| dc.type | info:eu-repo/semantics/bachelorThesis | es_ES |
| dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES |
| dc.keywords | Segmentación semántica, transformers, CNNS, Realidad Extendida, Visión egocéntrica, RGB-D | es-ES |
| dc.keywords | Semantic segmentation, transformers, CNNs, Extended Reality, Egocentric vision, RGB-D | en-GB |

