Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/100964| Título : | Multi-Objective Bayesian Optimization of Deep Reinforcement Learning for Environmental, Social, and Governance (ESG) Financial Portfolio Management |
| Autor : | Garrido Merchán, Eduardo César Mora Figueroa, Sol Coronado Vaca, María |
| Fecha de publicación : | 19-jun-2025 |
| Resumen : | La gestión de carteras financieras se centra en la maximización de varios objetivos durante un período de negociación, relacionados no solo con el riesgo y el rendimiento de la cartera, sino también con otros objetivos como la puntuación ambiental, social y de gobernanza (ESG) de la cartera. Lamentablemente, los métodos clásicos como el modelo de Markowitz no tienen en cuenta las puntuaciones ESG y solo consideran el riesgo y el rendimiento de la cartera. Además, las suposiciones que este modelo realiza sobre los rendimientos financieros hacen que no sea viable su aplicación a mercados con alta volatilidad, como el sector tecnológico.
Este artículo investiga la aplicación del aprendizaje por refuerzo profundo (Deep Reinforcement Learning, DRL) a la gestión de carteras financieras con criterios ESG. Los agentes de DRL evitan los problemas de los modelos clásicos en el sentido de que no realizan suposiciones como que los rendimientos financieros sigan una distribución normal y son capaces de manejar cualquier tipo de información, como la puntuación ESG, siempre que se configuren para obtener una recompensa que mejore un determinado objetivo. Sin embargo, el rendimiento de los agentes de DRL presenta una alta variabilidad y es muy sensible a los valores de sus hiperparámetros.
La optimización bayesiana es una clase de métodos adecuada para la optimización de funciones de caja negra, es decir, funciones cuya expresión analítica es desconocida, ruidosas y costosas de evaluar. El problema de ajuste de hiperparámetros de los algoritmos de DRL se ajusta perfectamente a este escenario. Dado que entrenar un agente para un único objetivo es un proceso muy costoso, que requiere millones de pasos temporales, en lugar de optimizar un objetivo que sea una combinación de una métrica de riesgo-rendimiento y una métrica ESG, optamos por separar los objetivos y resolver el escenario multiobjetivo para obtener un conjunto de Pareto óptimo de carteras que represente el mejor compromiso entre el ratio de Sharpe y la puntuación media ESG de la cartera, dejando al inversor la elección de la cartera final.
Llevamos a cabo nuestros experimentos utilizando entornos codificados en OpenAI Gym, adaptados de la plataforma FinRL. Los experimentos se realizan en los mercados Dow Jones Industrial Average (DJIA) y NASDAQ, evaluando el ratio de Sharpe alcanzado por el agente y la puntuación media ESG de la cartera. Comparamos el rendimiento de los conjuntos de Pareto obtenidos en términos de hipervolumen, mostrando cómo las carteras representan el mejor equilibrio entre el ratio de Sharpe y la puntuación media ESG. Asimismo, demostramos la utilidad de la metodología propuesta comparando el hipervolumen obtenido con el alcanzado mediante una metodología de búsqueda aleatoria en el espacio de hiperparámetros del DRL. Financial portfolio management focuses on the maximization of several objectives in a trading period related not only to the risk and performance of the portfolio but also to other objectives such as the environment, social, and governance (ESG) score of the portfolio. Regrettably, classic methods such as the Markowitz model do not take into account ESG scores but only the risk and performance of the portfolio. Moreover, the assumptions made by this model about the financial returns make it unfeasible to be applicable to markets with high volatility such as the technological sector. This paper investigates the application of deep reinforcement learning (DRL) for ESG financial portfolio management. DRL agents circumvent the issue of classic models in the sense that they do not make assumptions like the financial returns being normally distributed and are able to deal with any information like the ESG score if they are configured to gain a reward that makes an objective better. However, the performance of DRL agents has high variability, and it is very sensible to the value of their hyperparameters. Bayesian optimization is a class of methods that are suited to the optimization of black-box functions, that is, functions whose analytical expression is unknown and are noisy and expensive to evaluate. The hyperparameter tuning problem of DRL algorithms perfectly suits this scenario. As training an agent just for one objective is a very expensive period, requiring millions of timesteps, instead of optimizing an objective being a mixture of a risk-performance metric and an ESG metric, we choose to separate the objective and solve the multi-objective scenario to obtain an optimal Pareto set of portfolios representing the best trade-off between the Sharpe ratio and the ESG mean score of the portfolio and leaving to the investor the choice of the final portfolio. We conducted our experiments using environments encoded within the OpenAI Gym, adapted from the FinRL platform. The experiments are carried out in the Dow Jones Industrial Average (DJIA) and the NASDAQ markets in terms of the Sharpe ratio achieved by the agent and the mean ESG score of the portfolio. We compare the performance of the obtained Pareto sets in hypervolume terms illustrating how portfolios are the best trade-off between the Sharpe ratio and mean ESG score. Also, we show the usefulness of our proposed methodology by comparing the obtained hypervolume with one achieved by a random search methodology on the DRL hyperparameter space. |
| Descripción : | Artículos en revistas |
| URI : | https://doi.org/10.1002/isaf.70008 |
| ISSN : | 1550-1949 |
| Aparece en las colecciones: | Artículos |
Ficheros en este ítem:
| Fichero | Tamaño | Formato | |
|---|---|---|---|
| IIT-25-201R_preview | 4,01 kB | Unknown | Visualizar/Abrir Request a copy |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.