Construcción de un algoritmo de aprendizaje por refuerzo para encontrar las zonas de un objeto donde un robot puede utilizar una ventosa para agarrarlo
Resumen
En colaboración con la universidad ICAM, este proyecto aborda la problemática de enseñar a un robot con ventosa a mover un objeto de una caja a otra. La caja origen esta llena de objetos iguales. Se persigue que el robot identifique, de entre todos los puntos posibles, la mejor posición para colocar su ventosa y agarrar con una mayor probabilidad uno de los objetos. Una de las grandes dificultades del proyecto es que el algoritmo no posee información sobre el objeto, sobre la caja o sobre el entorno antes de empezar el entrenamiento. Únicamente tiene acceso a una una cámara de profundidad y una de color, por cada caja.
Este proyecto parte de un proyecto ya comenzado en la universidad de ICAM, que utiliza un robot UR5 en su laboratorio y utiliza aprendizaje supervisado. En este proyecto se desarrollan dos módulos diferentes, que suponen posibles mejoras al actual estado del proyecto. La primera mejora se basa en la creación de un gemelo digital del laboratorio de la universidad, de forma que los algoritmos se puedan desarrollar en el mundo virtual y real, lo cual permite realizar pruebas de una forma más versátil.
La segunda mejora que se construirá será un modelo de aprendizaje de refuerzo, basado en el actual modelo de aprendizaje supervisado, para obtener un algoritmo adaptable a cambios en el escenario, totalmente automático, y con una mejora continua. Por último, se realizará un análisis de sensibilidad para obtener los hiperparámetros óptimos del modelo y se compararán estos resultados óptimos con diferentes enfoques de muestreo del lote de experiencias utilizadas para el entrenamiento. In collaboration with ICAM University, this project addresses the problem of teaching a robot with a vacuum gripper to move an object from one box to another. The original box is full of identical objects. The aim is for the robot to identify, among all possible points, the best position to place its vacuum gripper and grab one of the objects with the highest probability of pick. One of the great difficulties of the project is that the algorithm has no information about the object, the box or the environment before starting the training. It only has access to one depth camera and one color camera for each box.
This project is part of a project already started at the University of ICAM, which uses a UR5 robot in its laboratory and uses supervised learning. In this project two different modules are developed, which represent possible improvements to the current state of the project. The first improvement is based on the creation of a digital twin of the university laboratory, so that algorithms can be developed in the virtual and real world, allowing testing in a more versatile way.
The second improvement to be built will be a reinforcement learning model, based on the current supervised learning model, to obtain an algorithm adaptable to changes in the scenario, fully automatic, and with continuous improvement. Finally, a sensitivity analysis will be performed to obtain the optimal hyperparameters of the model and these optimal results will be compared with different sampling approaches of the batch of experiences used for training.
Trabajo Fin de Máster
Construcción de un algoritmo de aprendizaje por refuerzo para encontrar las zonas de un objeto donde un robot puede utilizar una ventosa para agarrarloTitulación / Programa
Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada / in Smart IndustryMaterias/ categorías / ODS
M8BPalabras Clave
Ventosa, Resnet, NN, CNN, Replay Memory, aprendizaje por refuerzovacuum gripper, Resnet, CNN, NN, Replay Memory, Reinforcement Learning