Deep Reinforcement Learning for Optimizing Fixed-Income Portfolios

González de San Román Sánchez, Jorge

dc.contributor.advisor	Cervera Conte, Ignacio	es-ES
dc.contributor.author	González de San Román Sánchez, Jorge	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresariales	es_ES
dc.date.accessioned	2024-06-18T16:00:05Z
dc.date.available	2024-06-18T16:00:05Z
dc.date.issued	2025	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/89587
dc.description	Grado en Administración y Dirección de Empresas y Grado en Análisis de Negocios/Business Analytics	es_ES
dc.description.abstract	Este estudio explora la aplicación del Aprendizaje por Refuerzo Profundo (DRL) para optimizar la gestión de carteras de renta fija, con un enfoque particular en los bonos del Tesoro de los Estados Unidos. Utilizando el algoritmo Proximal Policy Optimization (PPO), se entrenó un agente de negociación en un entorno personalizado que simula la dinámica del mercado de bonos a partir de datos históricos reales. El desempeño del agente se comparó con dos estrategias de referencia: una política pasiva de mantenimiento y una política de negociación aleatoria. Los resultados indican que el agente PPO logró rendimientos acumulados superiores, respaldados por métricas de entrenamiento estables como la varianza explicada, la divergencia KL y la fracción de recorte. Aunque el número limitado de ejecuciones de entrenamiento reduce la potencia estadística de las pruebas de inferencia, la evidencia sugiere que la política aprendida supera consistentemente a los referentes. Estos hallazgos respaldan el rechazo de la hipótesis nula y validan a PPO como una herramienta prometedora para la optimización activa de carteras de renta fija	es-ES
dc.description.abstract	This study explores the application of Deep Reinforcement Learning (DRL) to optimize the management of fixed-income portfolios, with a particular focus on U.S. Treasury bonds. Using the Proximal Policy Optimization (PPO) algorithm, a trading agent was trained in a custom environment that simulates bond market dynamics based on real historical data. The agent's performance was benchmarked against two reference strategies: a passive hold policy and a random trading policy. Results indicate that the PPO agent achieved superior cumulative returns, supported by stable training diagnostics such as explained variance, KL divergence, and clip fraction. Although the limited number of training runs reduces the statistical power of the inference tests, the evidence suggests that the learned policy consistently outperforms the baselines. These findings support the rejection of the null hypothesis and validate PPO as a promising tool for active fixed-income portfolio optimization	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	en-GB	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject.other	KBA	es_ES
dc.title	Deep Reinforcement Learning for Optimizing Fixed-Income Portfolios	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.keywords	Renta Fija, Bonos del Tesoro, Aprendizaje por Refuerzo Profundo (DRL), Optimización Proximal de Políticas (PPO), Duración, Convexidad, Optimización de Carteras, Gradiente de Política.	es-ES
dc.keywords	Fixed Income, Treasury Bonds, Deep Reinforcement Learning (DRL), Proximal Policy Optimization (PPO), Duration, Convexity, Portfolio Optimization, Policy Gradient.	en-GB

Ficheros en el ítem

Nombre:: Documento de propuesta TFG-BA.pdf
Tamaño:: 177.4Kb
Formato:: PDF
Descripción:: PREC

Ver/

Nombre:: TFG - Gonzalez de San Roman ...
Tamaño:: 1.625Mb
Formato:: PDF
Descripción:: Trabajo Fin de Grado

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

TFG, TFM (temporales)

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States