Mostrar el registro sencillo del ítem

dc.contributor.advisorGüitta López, Lucíaes-ES
dc.contributor.advisorLópez López, Álvaro Jesúses-ES
dc.contributor.authorDong, Lixianges-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2020-06-10T14:17:33Z
dc.date.available2020-06-10T14:17:33Z
dc.date.issued2020es_ES
dc.identifier.urihttp://hdl.handle.net/11531/46855
dc.descriptionMáster Universitario en Ingeniería Industrial + Máster en Industria Conectada/ Master in Smart Industryes_ES
dc.description.abstractEl aprendizaje por refuerzo se considera el tercer paradigma del aprendizaje automático junto con el aprendizaje supervisado y el aprendizaje no supervisado. Es una clase de algoritmos en el campo del aprendizaje automático que permite a un agente aprender a cómo comportarse en un entorno donde la única realimentación consta de una señal de recompensa escalar, la cual indica cómo de bien lo está haciendo en el momento inmediato. El objetivo del agente consiste en ejecutar acciones que maximice la recompensa en el largo plazo o retorno. Si bien las técnicas de aprendizaje por refuerzo están siendo impulsadas por diversos grupos investigadores en varios ámbitos, sobre todo en los juegos de Atari y la robótica, la complejidad del movimiento de los brazos robóticos puede parecer a priori un hándicap para aplicar este proceso de aprendizaje que requiere de numerosos episodios para que el agente explore y aprenda a partir de prueba y error. Sin embargo, mediante el entrenamiento en entornos simulados y su posterior transferencia al mundo real se evitan los riesgos asociados a movimientos del robot que puedan resultar en posiciones singulares o en daños al medio y se favorece un aprendizaje más rápido ya que se infieren los parámetros desde el modelo virtual y no se está limitado por restricciones físicas. En esta tesis se implementará el algoritmo de aprendizaje por refuerzo A3C con un modelo MuJoCo del brazo robótico IRB120 para realizar la tarea de alcanzar un objetivo en su área de trabajo.es-ES
dc.description.abstractReinforcement learning is considered the third paradigm of machine learning along with supervised learning and unsupervised learning. It is a class of algorithms in the field of machine learning that allows an agent to learn how to behave in an environment with a scalar reward as feedback. The objective of the agent is to execute actions that maximize the long-term reward or return. Although reinforcement learning techniques are pushed forward by many research groups in many fields, such as Atari games and robotics, the movement complexity of robotics arms seems to be a problem to implement learning techniques that require numerous episodes for the agent to explore and learn from trial and error. Nonetheless, by training in a simulated environment and its later transfer to the real world, the risks associated with the movement of physical robot can be avoided. Using a simulated environment also increases the learning speed since it is not limited by physical constraints and the parameters can be inferred from the virtual model. In this thesis, the reinforcement learning algorithm A3C will be implemented using a MuJoCo model of the IRB120 robot manipulator to carry out a reach target task.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherH62-electronica (MII-N)es_ES
dc.titleIntegración y aplicación de técnicas de aprendizaje por refuerzo al robot IRB120 en el entorno virtual de MuJoCoes_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/closedAccesses_ES
dc.keywordsAprendizaje por refuerzo, redes neuronales artificiales, aprendizaje automático, A3C, simulación, Mujocoes-ES
dc.keywordsReinforcement learning, artificial neural networks, machine learning, A3C, simulation, MuJoCoen-GB


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 United States
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States