Desarrollo de una herramienta de visualización de resultados para aplicaciones de aprendizaje por refuerzo

Barril Rodríguez-Arana, Manuel

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/83192

Título :	Desarrollo de una herramienta de visualización de resultados para aplicaciones de aprendizaje por refuerzo
Autor :	Boal Martín-Larrauri, Jaime Güitta López, Lucía Barril Rodríguez-Arana, Manuel Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación :	2024
Resumen :	El proyecto tiene como objetivo crear una herramienta de visualización para resultados de entrenamiento y evaluación en aprendizaje por refuerzo. Esta herramienta busca mejorar la comprensión y análisis del comportamiento de agentes en entornos complejos, permitiendo a expertos identificar patrones, analizar errores y ajustar estrategias de aprendizaje. La herramienta está diseñada para ser accesible, personalizable, y capaz de almacenar experimentos históricos. Su arquitectura se compone de tres capas: presentación (React), lógica de gestión de servicios (API FastAPI) y datos (BBDD MySQL). La base de datos relacional está estructurada con entidades como Model, Environment, Training, y Test, entre otras, permitiendo gestionar la información necesaria para el entrenamiento y evaluación del agente. El backend, desarrollado con FastAPI y Python, gestiona la comunicación con la base de datos y ofrece servicios como carga y análisis de datos de entrenamientos. El frontend, implementado en React, ofrece una interfaz modular y accesible, permitiendo a los usuarios cargar datos, visualizar resúmenes y gráficos, y descargar información de entrenamientos específicos. Un caso de uso específico involucra el entrenamiento de un brazo robótico para alcanzar un cubo rojo, acumulando experiencia en millones de pasos. La herramienta permite guardar los entrenamientos para luego favorecer la evaluación del desempeño del agente y ajustar el modelo de entrenamiento. La herramienta es funcional y se sugiere su aplicación en otros casos de aprendizaje por refuerzo. Se destaca por su capacidad de cargar grandes volúmenes de datos rápidamente y ofrecer una experiencia de usuario eficiente. Se recomienda migrar la base de datos a la nube para mejorar la accesibilidad y continuar mejorando la interfaz de usuario para optimizar la usabilidad del sistema. The project's goal is to create a visualization tool for training and evaluation results in reinforcement learning. This tool aims to improve the understanding and analysis of agent behavior in complex environments, allowing experts to identify patterns, analyze errors, and adjust learning strategies. The tool is designed to be accessible, customizable, and capable of storing historical experiments. Its architecture consists of three layers: presentation (React), service management logic (FastAPI API), and data (MySQL database). The relational database is structured with entities such as Model, Environment, Training, and Test, among others, allowing the management of the information necessary for the training and evaluation of the agent. The backend, developed with FastAPI and Python, handles communication with the database and offers services such as data loading and training analysis. The frontend, implemented in React, provides a modular and accessible interface, allowing users to load data, visualize summaries and charts, and download information from specific training sessions. A specific use case involves training a robotic arm to reach a red cube, accumulating experience over millions of steps. The tool allows saving training sessions to later facilitate the evaluation of the agent's performance and adjust the training model. The tool is functional and is suggested for application in other reinforcement learning cases. It stands out for its ability to quickly load large volumes of data and offer an efficient user experience. It is recommended to migrate the database to the cloud to improve accessibility and continue enhancing the user interface to optimize the system's usability.
Descripción :	Máster Universitario en Ingeniería Industrial + Máster en Industria Conectada / in Smart Industry
URI :	http://hdl.handle.net/11531/83192
Aparece en las colecciones:	H62-Trabajos Fin de Máster

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFM_BarrilRodriguezArana,Manuel.pdf	Trabajo Fin de Máster	2,3 MB	Adobe PDF	Visualizar/Abrir
Anexo_I_MB.pdf	Autorización	246,26 kB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro Dublin Core completo del ítem