Real-Time Egocentric Segmentation of Local Reality for Extended Reality Applications

Calvar Seco, Jorge

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/74703

Título :	Real-Time Egocentric Segmentation of Local Reality for Extended Reality Applications
Autor :	González-Sosa, Ester Calvar Seco, Jorge Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Palabras clave :	12 Matemáticas;1203 Ciencias de los ordenadores;120326 Simulación
Fecha de publicación :	2023
Resumen :	Este proyecto explora la aplicación de métodos de aprendizaje automático para permitir experiencias inmersivas de realidad virtual. El objetivo es detectar y clasificar los píxeles pertenecientes al cuerpo humano y los objetos con los que se interactúa, utilizando modelos de segmentación semántica de última generación. Esta tecnología tiene amplias aplicaciones en campos como la educación, los juegos y la atención médica. A lo largo del proyecto utilizamos varios conjuntos de datos e implementamos arquitecturas avanzadas. Una limitación importante es que el modelo debe ser lo suficientemente rápido para ejecutarse en tiempo real. Los modelos explorados incluyen Thundernet, PIDNet y YOLOv8, cada uno con sus fortalezas y aplicaciones únicas. Los conjuntos de datos de entrenamiento utilizados consisten en imágenes egocéntricas y exocéntricas, que se centran en el cuerpo humano y los objetos con los que interactúa la persona. Hemos realizado muchos experimentos en busca de mejoras de calidad. Los mejores resultados se lograron utilizando el modelo PIDNet entrenado en el conjunto de datos EgoHOS, logrando una IoU humana del 90,95 % y una IoU de objetos del 54,35 %. En conclusión, esta investigación demuestra el potencial de la segmentación semántica para aplicaciones de realidad virtual del mundo real. Sin embargo, la necesidad de datos etiquetados sigue siendo un desafío, ya que el etiquetado manual es costoso y requiere mucho tiempo. Exploramos ligeramente el aprovechamiento de modelos del estado del arte para el etiquetado. Los resultados fueron prometedores pero tiene sus limitaciones. This dissertation explores the application of machine learning methods to enable immersive virtual reality experiences. The goal is to detect and classify the pixels belonging to the human body and the objects being interacted with, using state-of-the-art semantic segmentation models. This technology has broad applications in fields such as education, gaming, and healthcare. Throughout the project we use various datasets and implement advanced architectures. An important limitation is that the model must be fast enough to run in real-time. The models explored include Thundernet, PIDNet, and YOLOv8, each with its unique strengths and applications. The training datasets used consist of egocentric and exocentric images, focusing on the human body and specific objects the person is interacting with. We run many experiments looking for quality improvements. The best results were achieved using the PIDNet model trained on the EgoHOS dataset, achieving a human IoU of 90.95% and an objects IoU of 54.35%. In conclusion, this research demonstrates the potential of semantic segmentation for real-world virtual reality applications. However, the need for labeled data remains a challenge, as manual labeling is costly and time-consuming. We slightly explore leveraging state-of-the-art models for labeling. This showed promising results but has its limitations.
Descripción :	Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Análisis de Negocios/Business Analytics
URI :	http://hdl.handle.net/11531/74703
Aparece en las colecciones:	KTT-Trabajos Fin de Grado

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFG - Jorge Calvar Seco.pdf	Trabajo Fin de Grado	1,6 MB	Adobe PDF	Visualizar/Abrir
AnexoI - Jorge Calvar_signed.pdf	Autorización	103,93 kB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro Dublin Core completo del ítem