Advanced Models for Computer Vision
Resumen
El principal objetivo de este proyecto ha sido analizar y desarrollar distintos modelos de visión artificial, tanto en el ámbito de clasificación de imágenes como de reconocimiento de acciones en vídeos. Para ello, se han utilizado redes neuronales convolucionales, un tipo de red neuronal que permite implementar un gran número de capas y que tiene en el procesado de imágenes su principal aplicación.
En lo referente a imágenes, se han estudiado los modelos de Faster-RCNN para clasificación mediante cajas, validando los resultados con el popular modelo de YOLO. A su vez, se ha entrenado un modelo U-Net para la segmentación de imágenes, analizando las diferencias entre ambos planteamientos, así como la influencia de los distintos parámetros que componen el modelo.
Para terminar, se ha entrenado un modelo de vídeo, SlowFast Networks, para el reconocimiento de acciones, donde no solo se ha tratado de encontrar y localizar los objetos del vídeo, como en el caso anterior, si no de entender el contexto donde se desarrolla la acción.
Los resultados obtenidos muestran el potencial de estos algoritmos, así como su posible integración en aplicaciones más complejas. La gran limitación a la hora de entrenar los modelos ha sido la disponibilidad de recursos (GPU); no obstante, esto ha llevado a una mayor optimización de las soluciones disponibles y el análisis de las mejoras para futuros desarrollos. This project analyses and trains different computer vision algorithms, for both image classification and action recognition in videos. To do so, convolutional neural networks have been used, which are the state-of-the-art solution for image recognition, allowing the network to have very deep architectures.
In terms of image classification, Faster-RCNN has been implemented for bounding box classification, validating the results with the widely-known YOLO algorithm. Moreover, U-Net has been trained for image segmentation, comparing both approaches and each model behaviour in terms of the parameters that shape the model.
Finally, SlowFast Network has been trained for action recognition in video, where the algorithm has to focus in the context of the action, not only in the object and its localization, as in the previous case.
Results have shown the potential of these algorithms, as well as their integration in more complex applications. The biggest limitation when training has been the computational requirements (GPU), always an issue in Deep Learning. However, these limitations have helped to explore the optimal solution for each task, considering each assignment individually.
Trabajo Fin de Máster
Advanced Models for Computer VisionTitulación / Programa
Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada/ Master in Smart IndustryMaterias/ categorías / ODS
M8BPalabras Clave
Visión artificial; Aprendizaje profundo; Redes neuronales convolucionales; clasificación de imágenes; clasificación de vídeo; reconocimiento de accionesComputer Vision; Deep Learning; Convolutional Neural Networks; Image Classification; Video Classification; Action recognition