Reinforcement Learning for Automated Crypto Trading: An Experimental Study ofAlgorithmic Strategies
Abstract
Este proyecto explora si un agente de aprendizaje por refuerzo puede aprender a operar
Bitcoin de forma rentable interactuando únicamente con datos históricos de mercado. Se
desarrollan agentes basados en Proximal Policy Optimization (PPO) para el par BTC/USDT
a frecuencia de 5 minutos, comparando espacios de acción de dos y tres acciones y empleando
Optuna para la optimización automática de hiperparámetros. Ante el fracaso de las políticas
únicas en periodos de mercado heterogéneos, se diseña un ensamble consciente del régimen:
un Modelo Oculto de Markov detecta el régimen vigente y activa un agente especialista
entrenado con datos aumentados de 2018–2020. El ensamble supera a Buy & Hold en el
conjunto de prueba mixto (+52,6% ROI, Sortino 3,52 frente a 1,21), mientras que en el
periodo alcista el agente de dos acciones casi lo iguala (+9,9% ROI). This project investigates whether a reinforcement learning agent can learn to trade Bitcoin
profitably by interacting with historical market data alone. PPO-based agents are developed
for the BTC/USDT pair at 5-minute frequency, comparing two- and three-action spaces and
using Optuna for automated hyperparameter search. Motivated by the consistent failure
of single-policy agents across heterogeneous market regimes, a regime-aware ensemble is
designed: a Hidden Markov Model identifies the prevailing market regime and activates
a specialist agent trained on cross-period augmented data from 2018–2020. The ensemble
surpasses Buy & Hold on the mixed-regime test set (+52.6% ROI, Sortino 3.52 vs 1.21), while
on the bullish dataset the two-action agent nearly matches it (+9.9% ROI, Sortino 1.62).
Trabajo Fin de Grado
Reinforcement Learning for Automated Crypto Trading: An Experimental Study ofAlgorithmic StrategiesTitulación / Programa
Grado en Ingeniería Matemática e Inteligencia ArtificialMaterias/ categorías / ODS
KMIPalabras Clave
Aprendizaje por refuerzo; Proximal Policy Optimization(PPO); Trading algorítmico; Criptomonedas; ensamble consciente del régimen; Modelo Oculto de Markov; OptunaReinforcement learning; Proximal Policy Optimization(PPO); Algorithmic trading; Cryptocurrency; Regime-aware ensemble; Hidden Markov Model; Optuna


