Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/83656
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorSanz Bobi, Miguel Ángeles-ES
dc.contributor.authorCocero Quintanilla, Davides-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2023-10-03T14:10:08Z-
dc.date.available2023-10-03T14:10:08Z-
dc.date.issued2024es_ES
dc.identifier.urihttp://hdl.handle.net/11531/83656es_ES
dc.descriptionMáster Universitario en Ingeniería de Telecomunicaciónes_ES
dc.description.abstractEl proyecto se centra en analizar y comparar varios algoritmos de aprendizaje por refuerzo (RL). El aprendizaje por refuerzo permite a un agente aprender comportamientos interactuando con su entorno, recibiendo recompensas o penalizaciones según sus acciones. Este enfoque es especialmente útil en aplicaciones como la robótica y el desarrollo de vehículos autónomos, por lo que es un campo clave hoy en día. Dentro del RL se trabaja con espacios de observaciones y acciones continuos, que resultan más complejos que los discretos. Se implementaron y entrenaron modelos como A2C, PPO, TRPO, SAC y TD3 en diferentes situaciones, evaluando su rendimiento en términos de recompensas acumuladas, velocidad de convergencia y estabilidad. En concreto, fueron elegidos 4 entornos de la plataforma Gymnasium: Mountain Car Continuous, Car Racing, Humanoid y Half Cheetah. Las implementaciones de los algoritmos se realizaron utilizando la librería Stable Baselines 3 de Python, utilizando además herramientas como Optuna y RL Zoo para encontrar los hiperparámetros óptimos. Los resultados se analizaron y visualizaron mediante una interfaz gráfica desarrollada con Streamlit. La plataforma además permite al usuario iniciar su propio entrenamiento con parámetros personalizados, pudiendo también realizar un seguimiento del mismo. Lo más importante que se puede sacar de los resultados es que SAC y TD3 lograron las recompensas más altas, destacándo especialmente por su rendimiento en entornos complejos. PPO presentó un rendimiento decente, aunque inferior a SAC y TD3, mientras que TRPO y A2C obtuvieron recompensas más bajas e inestables.es-ES
dc.description.abstractThe project focuses on analyzing and comparing various reinforcement learning (RL) algorithms. Reinforcement learning allows an agent to learn behaviors by interacting with its environment, receiving rewards or penalties based on its actions. This approach is particularly useful in applications such as robotics and the development of autonomous vehicles, making it a key field today. It is noted that the research is done with continuous observation and action spaces, which are more complex than discrete ones. Models such as A2C, PPO, TRPO, SAC, and TD3 were implemented and trained in different scenarios, evaluating their performance in terms of accumulated rewards, convergence speed, and stability. Specifically, four environments from the Gymnasium platform were chosen: Mountain Car Continuous, Car Racing, Humanoid, and Half Cheetah. The algorithms were implemented using the Python library Stable Baselines 3, and tools like Optuna and RL Zoo were used to find the optimal hyperparameters. The results were analyzed and visualized through a graphical interface developed with Streamlit. The platform also allows users to start their own training with customized parameters, enabling them to monitor the progress. The most important takeaway from the results is that SAC and TD3 achieved the highest rewards, particularly excelling in complex environments. PPO showed decent performance, although inferior to SAC and TD3, while TRPO and A2C obtained lower and more unstable rewards.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoes-ESes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherH67 (MIT)es_ES
dc.titleEstudio y comparación de algoritmos de Aprendizaje Reforzado en Espacios Continuoses_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsAprendizaje por refuerzo, Espacios Continuos, Stable Baselines, Gymnasiumes-ES
dc.keywordsReinforcement Learning, Continuous Spaces, Stable Baselines, Gymnasiumen-GB
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFM- Cocero Quintanilla, David.pdfTrabajo Fin de Máster2,2 MBAdobe PDFVisualizar/Abrir
Anexo I.pdfAutorización119,21 kBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.