Identificación de acciones en formato video con un modelo de redes convolucionales 3D (3DCNN)

Castillo Rodríguez, Alberto

dc.contributor.advisor	Güitta López, Lucía	es-ES
dc.contributor.advisor	López López, Álvaro Jesús	es-ES
dc.contributor.author	Castillo Rodríguez, Alberto	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)	es_ES
dc.date.accessioned	2020-10-06T07:22:11Z
dc.date.available	2020-10-06T07:22:11Z
dc.date.issued	2021	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/51546
dc.description	Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada / in Smart Industry	es_ES
dc.description.abstract	Este proyecto tiene como objetivo el desarrollo de algoritmos basados en modelos de redes convolucionales 3D que sean capaces de detectar acciones en videos de cámaras de seguridad. Para ello se ha generado una base de datos de fuentes públicas como UCF101 y YouTube y se ha estudiado el bias y la ética de las muestras. En cuanto al post procesamiento, se recortaron y clasificaron las muestras, se dividió la base de datos, se aplicaron técnicas de data augmentation y se desarrolló un filtro de movimiento. Usando PyTorch como framework, se desarrollo el pipeline optimizando los recursos de procesamiento disponibles. Tras un estudio extensivo, se eligió usar el optimizador Adam y la función de perdidas Cross-Entropy. La optimización de hiperparámetros se realizó manualmente con expectativas de automatizar el proceso en un futuro. El guardado y visualización de los resultados se realizó con la librería TensorBoard, la cual permite comparar distintos entrenamientos y configuraciones. El algoritmo debe superar los problemas intrínsecos de la tarea, como puede ser la aparición de varias personas en el mismo fotograma, que estas estén en categorías distintas y, a diferencia de otros problemas de reconocimiento de acciones, el entorno no es representativo de la acción. El modelo desarrollado consta de capas convolucionales con métodos de regularización. Se cumplieron todos los objetivos a excepción de la obtención de un modelo con una alta precisión. Esto es debido a la falta de suficientes vídeos y la reducida calidad de estos. Además, las limitaciones de capacidad de computación limitaban la complejidad de los modelos lo que impedía superar estos obstáculos.	es-ES
dc.description.abstract	This project aims to develop algorithms based on 3D convolutional network models that are able to detect actions in security camera videos. For this purpose, a database has been generated from public sources such as UCF101 and YouTube and the bias and ethics of the samples have been studied. As for post-processing, the samples were trimmed and classified, the database was split, data augmentation techniques were applied and a motion filter was developed. Using PyTorch as a framework, the pipeline was developed by optimizing the available processing resources. After extensive study, the Adam optimizer and the Cross-Entropy loss function were chosen. Hyperparameter optimization was performed manually with the expectation of automating the process in the future. Saving and visualization of the results were done with the TensorBoard library, which allows comparing different runs and configurations. The algorithm must overcome the intrinsic problems of the task, such as the appearance of several people in the same frame, the fact that they are in different categories and, unlike other action recognition problems, the environment is not representative of the action. The developed model consists of convolutional layers with regularization methods. All objectives were met with the exception of obtaining a model with high accuracy. This is due to the lack of sufficient videos and the reduced quality of the videos. In addition, computational capacity constraints limited the complexity of the models, which prevented overcoming these obstacles.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	es-ES	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject	33 Ciencias tecnológicas	es_ES
dc.subject	3325 Tecnología de las telecomunicaciones	es_ES
dc.subject.other	H62-electronica (MII-N)	es_ES
dc.title	Identificación de acciones en formato video con un modelo de redes convolucionales 3D (3DCNN)	es_ES
dc.type	info:eu-repo/semantics/masterThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/closedAccess	es_ES
dc.keywords	Entrenamiento profundo, 3DCNN, reconocimiento de acciones, PyTorch, TensorBoard, ética en la IA	es-ES
dc.keywords	Deep learning, 3DCNN, action recognition, PyTorch, TensorBoard, AI ethics	en-GB

Ficheros en el ítem

Nombre:: TFM- Castillo Rodriguez, Alber ...
Tamaño:: 5.438Mb
Formato:: PDF
Descripción:: Trabajo Fin de Máster

Ver/

Nombre:: AnexoI.pdf
Tamaño:: 449.7Kb
Formato:: PDF
Descripción:: Autorización

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

H62-Trabajos Fin de Máster

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States