Deep Reinforcement Learning for Optimizing Fixed-Income Portfolios
Abstract
Este estudio explora la aplicación del Aprendizaje por Refuerzo Profundo (DRL) para
optimizar la gestión de carteras de renta fija, con un enfoque particular en los bonos del
Tesoro de los Estados Unidos. Utilizando el algoritmo Proximal Policy Optimization
(PPO), se entrenó un agente de negociación en un entorno personalizado que simula la
dinámica del mercado de bonos a partir de datos históricos reales. El desempeño del
agente se comparó con dos estrategias de referencia: una política pasiva de mantenimiento
y una política de negociación aleatoria.
Los resultados indican que el agente PPO logró rendimientos acumulados superiores,
respaldados por métricas de entrenamiento estables como la varianza explicada, la
divergencia KL y la fracción de recorte. Aunque el número limitado de ejecuciones de
entrenamiento reduce la potencia estadística de las pruebas de inferencia, la evidencia
sugiere que la política aprendida supera consistentemente a los referentes. Estos hallazgos
respaldan el rechazo de la hipótesis nula y validan a PPO como una herramienta
prometedora para la optimización activa de carteras de renta fija This study explores the application of Deep Reinforcement Learning (DRL) to optimize
the management of fixed-income portfolios, with a particular focus on U.S. Treasury
bonds. Using the Proximal Policy Optimization (PPO) algorithm, a trading agent was
trained in a custom environment that simulates bond market dynamics based on real
historical data. The agent's performance was benchmarked against two reference
strategies: a passive hold policy and a random trading policy.
Results indicate that the PPO agent achieved superior cumulative returns, supported by
stable training diagnostics such as explained variance, KL divergence, and clip fraction.
Although the limited number of training runs reduces the statistical power of the inference
tests, the evidence suggests that the learned policy consistently outperforms the baselines.
These findings support the rejection of the null hypothesis and validate PPO as a
promising tool for active fixed-income portfolio optimization
Trabajo Fin de Grado
Deep Reinforcement Learning for Optimizing Fixed-Income PortfoliosTitulación / Programa
Grado en Administración y Dirección de Empresas y Grado en Análisis de Negocios/Business AnalyticsMaterias/ categorías / ODS
KBAPalabras Clave
Renta Fija, Bonos del Tesoro, Aprendizaje por Refuerzo Profundo (DRL), Optimización Proximal de Políticas (PPO), Duración, Convexidad, Optimización de Carteras, Gradiente de Política.Fixed Income, Treasury Bonds, Deep Reinforcement Learning (DRL), Proximal Policy Optimization (PPO), Duration, Convexity, Portfolio Optimization, Policy Gradient.