Mostrar el registro sencillo del ítem

dc.contributor.advisorGüitta López, Lucíaes-ES
dc.contributor.advisorLópez López, Álvaro Jesúses-ES
dc.contributor.authorHuertas Collado, Migueles-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2020-06-10T14:18:52Z
dc.date.available2020-06-10T14:18:52Z
dc.date.issued2020es_ES
dc.identifier.urihttp://hdl.handle.net/11531/46858
dc.descriptionMáster Universitario en Ingeniería Industrial + Máster en Industria Conectada/ Master in Smart Industryes_ES
dc.description.abstractEl principal objetivo de este proyecto ha sido analizar y desarrollar distintos modelos de visión artificial, tanto en el ámbito de clasificación de imágenes como de reconocimiento de acciones en vídeos. Para ello, se han utilizado redes neuronales convolucionales, un tipo de red neuronal que permite implementar un gran número de capas y que tiene en el procesado de imágenes su principal aplicación. En lo referente a imágenes, se han estudiado los modelos de Faster-RCNN para clasificación mediante cajas, validando los resultados con el popular modelo de YOLO. A su vez, se ha entrenado un modelo U-Net para la segmentación de imágenes, analizando las diferencias entre ambos planteamientos, así como la influencia de los distintos parámetros que componen el modelo. Para terminar, se ha entrenado un modelo de vídeo, SlowFast Networks, para el reconocimiento de acciones, donde no solo se ha tratado de encontrar y localizar los objetos del vídeo, como en el caso anterior, si no de entender el contexto donde se desarrolla la acción. Los resultados obtenidos muestran el potencial de estos algoritmos, así como su posible integración en aplicaciones más complejas. La gran limitación a la hora de entrenar los modelos ha sido la disponibilidad de recursos (GPU); no obstante, esto ha llevado a una mayor optimización de las soluciones disponibles y el análisis de las mejoras para futuros desarrollos.es-ES
dc.description.abstractThis project analyses and trains different computer vision algorithms, for both image classification and action recognition in videos. To do so, convolutional neural networks have been used, which are the state-of-the-art solution for image recognition, allowing the network to have very deep architectures. In terms of image classification, Faster-RCNN has been implemented for bounding box classification, validating the results with the widely-known YOLO algorithm. Moreover, U-Net has been trained for image segmentation, comparing both approaches and each model behaviour in terms of the parameters that shape the model. Finally, SlowFast Network has been trained for action recognition in video, where the algorithm has to focus in the context of the action, not only in the object and its localization, as in the previous case. Results have shown the potential of these algorithms, as well as their integration in more complex applications. The biggest limitation when training has been the computational requirements (GPU), always an issue in Deep Learning. However, these limitations have helped to explore the optimal solution for each task, considering each assignment individually.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherM8Bes_ES
dc.titleAdvanced Models for Computer Visiones_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/closedAccesses_ES
dc.keywordsVisión artificial; Aprendizaje profundo; Redes neuronales convolucionales; clasificación de imágenes; clasificación de vídeo; reconocimiento de accioneses-ES
dc.keywordsComputer Vision; Deep Learning; Convolutional Neural Networks; Image Classification; Video Classification; Action recognitionen-GB


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 United States
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States