Estudio y comparación de algoritmos de Aprendizaje Reforzado en Espacios Continuos

Cocero Quintanilla, David

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/83656

Título :	Estudio y comparación de algoritmos de Aprendizaje Reforzado en Espacios Continuos
Autor :	Sanz Bobi, Miguel Ángel Cocero Quintanilla, David Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación :	2024
Resumen :	El proyecto se centra en analizar y comparar varios algoritmos de aprendizaje por refuerzo (RL). El aprendizaje por refuerzo permite a un agente aprender comportamientos interactuando con su entorno, recibiendo recompensas o penalizaciones según sus acciones. Este enfoque es especialmente útil en aplicaciones como la robótica y el desarrollo de vehículos autónomos, por lo que es un campo clave hoy en día. Dentro del RL se trabaja con espacios de observaciones y acciones continuos, que resultan más complejos que los discretos. Se implementaron y entrenaron modelos como A2C, PPO, TRPO, SAC y TD3 en diferentes situaciones, evaluando su rendimiento en términos de recompensas acumuladas, velocidad de convergencia y estabilidad. En concreto, fueron elegidos 4 entornos de la plataforma Gymnasium: Mountain Car Continuous, Car Racing, Humanoid y Half Cheetah. Las implementaciones de los algoritmos se realizaron utilizando la librería Stable Baselines 3 de Python, utilizando además herramientas como Optuna y RL Zoo para encontrar los hiperparámetros óptimos. Los resultados se analizaron y visualizaron mediante una interfaz gráfica desarrollada con Streamlit. La plataforma además permite al usuario iniciar su propio entrenamiento con parámetros personalizados, pudiendo también realizar un seguimiento del mismo. Lo más importante que se puede sacar de los resultados es que SAC y TD3 lograron las recompensas más altas, destacándo especialmente por su rendimiento en entornos complejos. PPO presentó un rendimiento decente, aunque inferior a SAC y TD3, mientras que TRPO y A2C obtuvieron recompensas más bajas e inestables. The project focuses on analyzing and comparing various reinforcement learning (RL) algorithms. Reinforcement learning allows an agent to learn behaviors by interacting with its environment, receiving rewards or penalties based on its actions. This approach is particularly useful in applications such as robotics and the development of autonomous vehicles, making it a key field today. It is noted that the research is done with continuous observation and action spaces, which are more complex than discrete ones. Models such as A2C, PPO, TRPO, SAC, and TD3 were implemented and trained in different scenarios, evaluating their performance in terms of accumulated rewards, convergence speed, and stability. Specifically, four environments from the Gymnasium platform were chosen: Mountain Car Continuous, Car Racing, Humanoid, and Half Cheetah. The algorithms were implemented using the Python library Stable Baselines 3, and tools like Optuna and RL Zoo were used to find the optimal hyperparameters. The results were analyzed and visualized through a graphical interface developed with Streamlit. The platform also allows users to start their own training with customized parameters, enabling them to monitor the progress. The most important takeaway from the results is that SAC and TD3 achieved the highest rewards, particularly excelling in complex environments. PPO showed decent performance, although inferior to SAC and TD3, while TRPO and A2C obtained lower and more unstable rewards.
Descripción :	Máster Universitario en Ingeniería de Telecomunicación
URI :	http://hdl.handle.net/11531/83656
Aparece en las colecciones:	TFG, TFM (temporales)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFM- Cocero Quintanilla, David.pdf	Trabajo Fin de Máster	2,2 MB	Adobe PDF	Visualizar/Abrir
Anexo I.pdf	Autorización	119,21 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem