Mostrar el registro sencillo del ítem

dc.contributor.advisorCervera Conte, Ignacioes-ES
dc.contributor.authorGonzález de San Román Sánchez, Jorgees-ES
dc.contributor.otherUniversidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresarialeses_ES
dc.date.accessioned2024-06-18T16:00:05Z
dc.date.available2024-06-18T16:00:05Z
dc.date.issued2025es_ES
dc.identifier.urihttp://hdl.handle.net/11531/89587
dc.descriptionGrado en Administración y Dirección de Empresas y Grado en Análisis de Negocios/Business Analyticses_ES
dc.description.abstractEste estudio explora la aplicación del Aprendizaje por Refuerzo Profundo (DRL) para optimizar la gestión de carteras de renta fija, con un enfoque particular en los bonos del Tesoro de los Estados Unidos. Utilizando el algoritmo Proximal Policy Optimization (PPO), se entrenó un agente de negociación en un entorno personalizado que simula la dinámica del mercado de bonos a partir de datos históricos reales. El desempeño del agente se comparó con dos estrategias de referencia: una política pasiva de mantenimiento y una política de negociación aleatoria. Los resultados indican que el agente PPO logró rendimientos acumulados superiores, respaldados por métricas de entrenamiento estables como la varianza explicada, la divergencia KL y la fracción de recorte. Aunque el número limitado de ejecuciones de entrenamiento reduce la potencia estadística de las pruebas de inferencia, la evidencia sugiere que la política aprendida supera consistentemente a los referentes. Estos hallazgos respaldan el rechazo de la hipótesis nula y validan a PPO como una herramienta prometedora para la optimización activa de carteras de renta fijaes-ES
dc.description.abstractThis study explores the application of Deep Reinforcement Learning (DRL) to optimize the management of fixed-income portfolios, with a particular focus on U.S. Treasury bonds. Using the Proximal Policy Optimization (PPO) algorithm, a trading agent was trained in a custom environment that simulates bond market dynamics based on real historical data. The agent's performance was benchmarked against two reference strategies: a passive hold policy and a random trading policy. Results indicate that the PPO agent achieved superior cumulative returns, supported by stable training diagnostics such as explained variance, KL divergence, and clip fraction. Although the limited number of training runs reduces the statistical power of the inference tests, the evidence suggests that the learned policy consistently outperforms the baselines. These findings support the rejection of the null hypothesis and validate PPO as a promising tool for active fixed-income portfolio optimizationen-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherKBAes_ES
dc.titleDeep Reinforcement Learning for Optimizing Fixed-Income Portfolioses_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsRenta Fija, Bonos del Tesoro, Aprendizaje por Refuerzo Profundo (DRL), Optimización Proximal de Políticas (PPO), Duración, Convexidad, Optimización de Carteras, Gradiente de Política.es-ES
dc.keywordsFixed Income, Treasury Bonds, Deep Reinforcement Learning (DRL), Proximal Policy Optimization (PPO), Duration, Convexity, Portfolio Optimization, Policy Gradient.en-GB


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 United States
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States