Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/96455
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | López López, Álvaro Jesús | es-ES |
dc.contributor.author | González López, Manuel | es-ES |
dc.contributor.other | Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) | es_ES |
dc.date.accessioned | 2024-11-26T18:11:43Z | - |
dc.date.available | 2024-11-26T18:11:43Z | - |
dc.date.issued | 2025 | es_ES |
dc.identifier.uri | http://hdl.handle.net/11531/96455 | - |
dc.description | Grado en Ingeniería en Tecnologías Industriales | es_ES |
dc.description.abstract | Este proyecto consiste en facilitar una metodología para realizar una rigurosa comparación entre dos técnicas de aprendizaje por refuerzo. Dicha metodología es utilizada para comparar las técnicas de Deep Q-Learning (DQN) y Proximal Policy Optimization (PPO), que son una técnica basada en valor y una aproximación de la política directa respectivamente. Para realizar el análisis comparativo, ambas técnicas se implementan en el entorno de LunarLander-v2 de la libreria de Box2D, este modela el problema clásico de control de trayectorias de cohetes. Este entorno es altamente conocido y utilizado en el contexto de aprendizaje por refuerzo debido a su simplicidad y facilidad para poder entrenar agentes. Las métricas claves evaluadas para cada agente incluyen la recompensa media por episodio, duración total del entrenamiento, longitud de cada episodio durante el entrenamiento y porcentaje de aterrizajes exitosos una vez ya han sido entrenados los agentes. El algoritmo DQN consigue aproximar sus valores Q a partir de redes neuronales, permitiendo así la exploración y explotación de estrategias. Por otro lado el algoritmo PPO es una técnica de Actor-Critic que principalmente se basa en ascenso de gradiente para ir optimizando la política del agente. Los resultados obtenidos muestran que la técnica de PPO ofrece una mayor estabilidad, rapidez y rendimiento general durante todo el entrenamiento que la técnica de DQN. Sin embargo, la técnica de DQN tiene valor para entornos donde es necesario una exploración exhaustiva del mismo. | es-ES |
dc.description.abstract | This proyect develops a rigorous methodology to analyze and compare two different reinforcement learning techniques. In this project the techniques compared are Deep Q-Learning (DQN) and Proximal Policy Optimization (PPO), which are a value-based method and a policy-based method respectively. For the comparison both techniques are implemented in the LunarLander-v2 environment from the Box2D library, which models the classic rocket trajectory control problem. It is a well known and used environment in the reinforcement community that facilitates the analysis of these thanks to its simplicity. Key metrics evaluated for each agent include mean reward per episode, global steps, mean episode length and the succes rates for each trained agent. The DQN algorithm utilize neural networks to approximate its Q values, thus allowing the exploration and exploitation of different strategies. On the other hand, the PPO algorithm is an Actor-Critic technique that is mainly based on gradient ascent to optimize the agent's policy. The results obtained on this project show that the PPO technique offers an overall better stability, speed and general performance throughout the training process than the DQN technique. However, the DQN technique has value for environments where extensive exploration of all the possible states in the environment is necessary. | en-GB |
dc.format.mimetype | application/pdf | es_ES |
dc.language.iso | es-ES | es_ES |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES |
dc.subject.other | KTI-electronica (GITI-N) | es_ES |
dc.title | Diseño de agentes artificiales autónomos en entornos de simulación mediante aprendizaje por refuerzo. | es_ES |
dc.type | info:eu-repo/semantics/bachelorThesis | es_ES |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES |
dc.keywords | Aprendizaje por refuerzo, PPO, DQN | es-ES |
dc.keywords | Reinforcement Learning, RL, Proximal Policy Optimization, PPO, Deep Q-Learning, DQN | en-GB |
Aparece en las colecciones: | TFG, TFM (temporales) |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
TFG - Gonzalez Lopez, Manuel.pdf | Trabajo Fin de Grado | 1,32 MB | Adobe PDF | Visualizar/Abrir |
Anexo I Gonzalez Lopez, Manuel.pdf | Autorización | 100,38 kB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.