Mostrar el registro sencillo del ítem
Deep Reinforcement Learning for Optimizing Fixed-Income Portfolios
dc.contributor.advisor | Cervera Conte, Ignacio | es-ES |
dc.contributor.author | González de San Román Sánchez, Jorge | es-ES |
dc.contributor.other | Universidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresariales | es_ES |
dc.date.accessioned | 2024-06-18T16:00:05Z | |
dc.date.available | 2024-06-18T16:00:05Z | |
dc.date.issued | 2025 | es_ES |
dc.identifier.uri | http://hdl.handle.net/11531/89587 | |
dc.description | Grado en Administración y Dirección de Empresas y Grado en Análisis de Negocios/Business Analytics | es_ES |
dc.description.abstract | Este estudio explora la aplicación del Aprendizaje por Refuerzo Profundo (DRL) para optimizar la gestión de carteras de renta fija, con un enfoque particular en los bonos del Tesoro de los Estados Unidos. Utilizando el algoritmo Proximal Policy Optimization (PPO), se entrenó un agente de negociación en un entorno personalizado que simula la dinámica del mercado de bonos a partir de datos históricos reales. El desempeño del agente se comparó con dos estrategias de referencia: una política pasiva de mantenimiento y una política de negociación aleatoria. Los resultados indican que el agente PPO logró rendimientos acumulados superiores, respaldados por métricas de entrenamiento estables como la varianza explicada, la divergencia KL y la fracción de recorte. Aunque el número limitado de ejecuciones de entrenamiento reduce la potencia estadística de las pruebas de inferencia, la evidencia sugiere que la política aprendida supera consistentemente a los referentes. Estos hallazgos respaldan el rechazo de la hipótesis nula y validan a PPO como una herramienta prometedora para la optimización activa de carteras de renta fija | es-ES |
dc.description.abstract | This study explores the application of Deep Reinforcement Learning (DRL) to optimize the management of fixed-income portfolios, with a particular focus on U.S. Treasury bonds. Using the Proximal Policy Optimization (PPO) algorithm, a trading agent was trained in a custom environment that simulates bond market dynamics based on real historical data. The agent's performance was benchmarked against two reference strategies: a passive hold policy and a random trading policy. Results indicate that the PPO agent achieved superior cumulative returns, supported by stable training diagnostics such as explained variance, KL divergence, and clip fraction. Although the limited number of training runs reduces the statistical power of the inference tests, the evidence suggests that the learned policy consistently outperforms the baselines. These findings support the rejection of the null hypothesis and validate PPO as a promising tool for active fixed-income portfolio optimization | en-GB |
dc.format.mimetype | application/pdf | es_ES |
dc.language.iso | en-GB | es_ES |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES |
dc.subject.other | KBA | es_ES |
dc.title | Deep Reinforcement Learning for Optimizing Fixed-Income Portfolios | es_ES |
dc.type | info:eu-repo/semantics/bachelorThesis | es_ES |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES |
dc.keywords | Renta Fija, Bonos del Tesoro, Aprendizaje por Refuerzo Profundo (DRL), Optimización Proximal de Políticas (PPO), Duración, Convexidad, Optimización de Carteras, Gradiente de Política. | es-ES |
dc.keywords | Fixed Income, Treasury Bonds, Deep Reinforcement Learning (DRL), Proximal Policy Optimization (PPO), Duration, Convexity, Portfolio Optimization, Policy Gradient. | en-GB |