Action Recognition in video with a Convolutional+LSTM Model
Abstract
Son miles de millones las cámaras de videovigilancia en todo el mundo. Estas cámaras permiten garantizar la seguridad de las personas y los bienes que están siendo grabados por las mismas, pero para garantizar esta seguridad, se requiere de una persona supervisando cada una de estas cámaras. El hecho de automatizar este proceso, o de diseñar un sistema que sirva de apoyo a estas personas encargadas de dicha supervisión, supondría un gran aumento en la seguridad y una mejora sustancial del trabajo de estas personas. En la actualidad, existe un gran interés por automatizar esta tarea, ya que no solo produciría los beneficios mencionados, sino que además supondría una gran reducción en los costes de los sistemas de seguridad de todo el mundo.
Para apoyar este avance, en este proyecto se desarrolla un pipeline completo de Visión Artificial con el objetivo de implementar un modelo capaz de detectar acciones humanas en vídeos de cámaras de videovigilancia. Dicho modelo, consiste en un modelo de Deep Learning con arquitectura de tipo Convolucional2D + LSTM.
En este documento se exponen cada una de las partes que se deben desarrollar para implementar un modelo capaz de llevar a cabo esta tarea de detectar acciones en vídeo, explicando además las diferentes opciones en el diseño de cada una de estas partes y los resultados de aplicar cada una de ellas. There are thousands of millions of video surveillance cameras around the world. These cameras ensure the security of people and property being recorded by them, but to ensure this security, a person is required to supervise each of these cameras. The fact of automating this process, or designing a system to support these people in charge of such supervision, would mean a great increase in security and a substantial improvement in the job of these people. At present, there is great interest in automating this task, since it would not only produce the aforementioned benefits, but would also mean a great reduction in the costs of security systems around the world.
To support this advance, this project develops a complete Artificial Vision pipeline with the aim of implementing a model capable of detecting human actions in videos from surveillance cameras. This model consists of a Deep Learning model with Convolutional2D + LSTM architecture.
In this document, each of the parts that must be developed to implement a model capable of carrying out this task of detecting actions in video, explaining also the different options in the design of each of these parts and the results of applying each of them.
Trabajo Fin de Máster
Action Recognition in video with a Convolutional+LSTM ModelTitulación / Programa
Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada / in Smart IndustryMaterias/ UNESCO
33 Ciencias tecnológicas3311 Instrumentación tecnológica
331101 Tecnología de la automatización
Materias/ categorías / ODS
M8BPalabras Clave
Visión, Artificial, Machine, Learning, Deep, Vídeo, Identificación, AccionesArtificial, Vision, Machine, Learning, Deep, Video, Action, Recognition