Reinforcement Learning for Automated Crypto Trading: An Experimental Study ofAlgorithmic Strategies

Pérez Ibarz, Guzman Ignacio

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/104035

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Pizarroso Gonzalo, Jaime	es-ES
dc.contributor.advisor	Güitta López, Lucía	es-ES
dc.contributor.author	Pérez Ibarz, Guzman Ignacio	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)	es_ES
dc.date.accessioned	2025-09-15T08:01:36Z	-
dc.date.available	2025-09-15T08:01:36Z	-
dc.date.issued	2026	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/104035	-
dc.description	Grado en Ingeniería Matemática e Inteligencia Artificial	es_ES
dc.description.abstract	Este proyecto explora si un agente de aprendizaje por refuerzo puede aprender a operar Bitcoin de forma rentable interactuando únicamente con datos históricos de mercado. Se desarrollan agentes basados en Proximal Policy Optimization (PPO) para el par BTC/USDT a frecuencia de 5 minutos, comparando espacios de acción de dos y tres acciones y empleando Optuna para la optimización automática de hiperparámetros. Ante el fracaso de las políticas únicas en periodos de mercado heterogéneos, se diseña un ensamble consciente del régimen: un Modelo Oculto de Markov detecta el régimen vigente y activa un agente especialista entrenado con datos aumentados de 2018–2020. El ensamble supera a Buy & Hold en el conjunto de prueba mixto (+52,6% ROI, Sortino 3,52 frente a 1,21), mientras que en el periodo alcista el agente de dos acciones casi lo iguala (+9,9% ROI).	es-ES
dc.description.abstract	This project investigates whether a reinforcement learning agent can learn to trade Bitcoin profitably by interacting with historical market data alone. PPO-based agents are developed for the BTC/USDT pair at 5-minute frequency, comparing two- and three-action spaces and using Optuna for automated hyperparameter search. Motivated by the consistent failure of single-policy agents across heterogeneous market regimes, a regime-aware ensemble is designed: a Hidden Markov Model identifies the prevailing market regime and activates a specialist agent trained on cross-period augmented data from 2018–2020. The ensemble surpasses Buy & Hold on the mixed-regime test set (+52.6% ROI, Sortino 3.52 vs 1.21), while on the bullish dataset the two-action agent nearly matches it (+9.9% ROI, Sortino 1.62).	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	en-GB	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject.other	KMI	es_ES
dc.title	Reinforcement Learning for Automated Crypto Trading: An Experimental Study ofAlgorithmic Strategies	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/restrictedAccess	es_ES
dc.keywords	Aprendizaje por refuerzo; Proximal Policy Optimization(PPO); Trading algorítmico; Criptomonedas; ensamble consciente del régimen; Modelo Oculto de Markov; Optuna	es-ES
dc.keywords	Reinforcement learning; Proximal Policy Optimization(PPO); Algorithmic trading; Cryptocurrency; Regime-aware ensemble; Hidden Markov Model; Optuna	en-GB
Aparece en las colecciones:	TFG, TFM (temporales)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Pérez Ibarz, Guzmán Ignacio - TFG.pdf	Trabajo Fin de Grado	1,69 MB	Adobe PDF	Visualizar/Abrir Request a copy
Pérez Ibarz, Guzmán Ignacio - Anexo I.pdf	Autorización	247,97 kB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro sencillo del ítem