Análisis y planes de acción a través de modelos de Machine Learning de variables macroeconómicas (ODS 8 - Trabajo Decente y crecimiento económico)
Resumen
El presente Trabajo Fin de Grado tiene como objetivo principal el desarrollo de un modelo
predictivo del Producto Interno Bruto (PIB) español mediante el análisis exhaustivo de
variables macroeconómicas, integrando técnicas de Machine Learning y modelización de
series temporales. Para ello, se ha compilado una base de datos que abarca el período
desde enero de 1993 hasta septiembre de 2024.
En una primera fase, se realizó un análisis univariante de diversas variables económicas
,tasa de desempleo, el tipo de cambio USD/EUR, la balanza de pagos, la encuesta de
confianza del consumidor, la emisión de deuda, la demanda de energía eléctrica, el
Euribor, el mercado de la vivienda, el índice de precios de consumo armonizado, la
producción industrial, el comercio internacional, bonos a 2 y 10 años, el balance general
(MFI) y las ventas minoristas, evaluando la relación de cada una con el PIB a través de
modelos de regresión lineal, Random Forest y XGBoost. Cada variable fue sometida a un
proceso metodológico que incluyó la integración de series temporales, análisis
exploratorio, modelado y evaluación de desempeño mediante métricas como el RMSE y
el coeficiente de determinación (R²), además de proyecciones a futuro comparadas con el
PIB real del cuarto trimestre de 2024. Dichos análisis permitieron identificar tanto la
capacidad predictiva individual de cada indicador como las limitaciones de aquellos que,
pese a su relevancia teórica, presentaron bajo poder explicativo (por ejemplo, el euríbor,
el tipo de cambio y la emisión de deuda).
Posteriormente, se procedió a la selección de las variables más significativas según
criterios de error de predicción, robustez de los modelos y consistencia en el
comportamiento de las series, optando por incorporar indicadores relacionados con los
bonos a 10 años, el balance general, el comercio internacional, la confianza del
consumidor, el índice de precios de consumo armonizado, las ventas minoristas, los bonos
a 2 años, el mercado de la vivienda, la balanza de pagos, la producción industrial, el
desempleo y, en algunos casos, variables complementarias derivadas de la desagregación
de componentes macroeconómicos.
La fase multivariante combinó las variables seleccionadas utilizando diversos enfoques
de modelización:
- Regresión lineal y su versión stepwise, que alcanzaron un R² ajustado superior al
96 % con diferencias mínimas entre entrenamiento y test.
- Modelos de ensamble basados en Random Forest y XGBoost, que demostraron
una alta capacidad explicativa, aunque en algunos casos con indicios de
sobreajuste que se corrigieron mediante técnicas de validación.
- Modelos de machine learning avanzados, incluyendo redes neuronales (tanto un
modelo nnet convencional como un MLP optimizado mediante avNNet), Gradient
Boosting Machine, Cubist, Ranger y Elastic Net, cuya comparación a través de
métricas de RMSE y R² evidenció que los enfoques basados en MLP y Cubist, así
7
como algunos ensambles (por ejemplo, la combinación de Cubist y Ranger),
lograron las predicciones más precisas del PIB.
Una etapa clave fue la optimización del modelo MLP (avNNet), el cual se afinó mediante
un grid de hiperparámetros (variando el tamaño de la capa oculta y el parámetro de
regularización) y validación cruzada repetida, lo que permitió alcanzar un rendimiento
excepcional con un RMSE extremadamente bajo y una varianza explicada superior al 99
% tanto en entrenamiento como en test. El análisis de sensibilidad mediante Partial
Dependence Plots ofreció además una visión detallada del efecto marginal de cada
predictor, destacando que variables como las importaciones no energéticas de bienes de
consumo, las exportaciones totales, indicadores financieros (componentes del balance
general) y ciertos índices de confianza y precios, ejercen una influencia determinante en
la predicción del PIB.
Finalmente, a partir de los hallazgos empíricos se plantearon recomendaciones de
políticas económicas dirigidas a fortalecer el crecimiento: se enfatiza la importancia de
promover la apertura comercial y la competitividad, optimizar la estructura de
importaciones y exportaciones, impulsar el sector servicios y turismo, y mejorar la salud
financiera de las instituciones a través de medidas que faciliten la inversión y el
financiamiento. Estas propuestas se fundamentan en la evidencia de que la dinámica
comercial y la integración de variables financieras y de consumo son determinantes clave
en la evolución del PIB español.
En conclusión, este trabajo no solo establece un marco metodológico riguroso para la
integración y modelización de datos macroeconómicos, sino que también demuestra la
viabilidad de emplear técnicas de Machine Learning y modelos de series temporales para
la predicción del PIB. Los resultados obtenidos ofrecen una herramienta sólida para el
análisis económico y la formulación de estrategias de política pública basadas en
evidencia cuantitativa. The main objective of this Final Degree Project is to develop a predictive model of
Spanish Gross Domestic Product (GDP) through a comprehensive analysis of
macroeconomic variables, integrating Machine Learning techniques and time series
modeling. To this end, a database was compiled covering the period from January 1993
to September 2024.
In the first phase, a univariate analysis was performed on various economic
variables,unemployment rate, USD/EUR exchange rate, balance of payments, consumer
confidence survey, debt issuance, electricity demand, Euribor, the housing market, the
harmonized consumer price index, industrial production, international trade, 2-year and
10-year bonds, the main financial institution (MFI) balance sheet, and retail
sales,evaluating each variable’s relationship with GDP through linear regression,
Random Forest, and XGBoost models. Each variable underwent a methodological
process that included the integration of time series, exploratory analysis, modeling, and
performance evaluation using metrics such as RMSE and the coefficient of determination
(R²), in addition to future projections compared with real GDP for the fourth quarter of
2024. These analyses helped identify both the individual predictive capacity of each
indicator and the limitations of those which, despite their theoretical relevance, showed
low explanatory power (for example, Euribor, the exchange rate, and debt issuance).
Subsequently, the most significant variables were selected based on prediction error
criteria, model robustness, and consistency in the behavior of the series, opting to include
indicators related to 10-year bonds, the general balance sheet, international trade,
consumer confidence, the harmonized consumer price index, retail sales, 2-year bonds,
the housing market, the balance of payments, industrial production, unemployment, and
in some cases, additional complementary variables derived from the disaggregation of
macroeconomic components.
The multivariate phase combined the selected variables using various modeling
approaches:
- Linear regression and its stepwise version, which achieved an adjusted R²
above 96% with minimal differences between training and test sets.
- Ensemble models based on Random Forest and XGBoost, which
demonstrated high explanatory power, although in some cases with signs of
overfitting that were corrected using validation techniques.
- Advanced machine learning models, including neural networks (both a
conventional nnet model and an MLP optimized via avNNet), Gradient
Boosting Machine, Cubist, Ranger, and Elastic Net. A comparison of these
models through RMSE and R² metrics revealed that MLP- and Cubist-based
approaches, as well as certain ensembles (for example, a combination of
Cubist and Ranger), achieved the most accurate GDP predictions.
A key step was optimizing the MLP (avNNet) model, which was refined through a
hyperparameter grid search (varying hidden layer size and regularization parameter) and
repeated cross-validation. This process enabled the model to achieve outstanding
performance, with an extremely low RMSE and over 99% of variance explained in both
9
training and test sets. Sensitivity analysis using Partial Dependence Plots also provided a
detailed view of the marginal effect of each predictor, highlighting that variables such as
non-energy imports of consumer goods, total exports, financial indicators (components
of the general balance sheet), and certain confidence and price indices exert a decisive
influence on GDP prediction.
Finally, based on the empirical findings, economic policy recommendations were
proposed to bolster growth: emphasizing the importance of promoting trade openness and
competitiveness, optimizing the structure of imports and exports, boosting the services
and tourism sector, and improving the financial health of institutions through measures
that facilitate investment and financing. These proposals are grounded in evidence that
commercial dynamics and the integration of financial and consumption variables are key
determinants in the evolution of Spanish GDP.
In conclusion, this work not only establishes a rigorous methodological framework for
the integration and modeling of macroeconomic data, but also demonstrates the feasibility
of employing Machine Learning techniques and time series models for GDP forecasting.
The results obtained offer a robust tool for economic analysis and the formulation of
public policy strategies based on quantitative evidence.
Trabajo Fin de Grado
Análisis y planes de acción a través de modelos de Machine Learning de variables macroeconómicas (ODS 8 - Trabajo Decente y crecimiento económico)Titulación / Programa
Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Análisis de Negocios/Business AnalyticsMaterias/ categorías / ODS
KBAPalabras Clave
Producto Interior Bruto Español, Predicción Del PIB, Machine Learning, Series Temporales, Regresión Lineal, Random Forest, XGBoost, Redes Neuronales, Modelos De Ensamble, ARIMAX, Políticas Económicas, Variables Macroeconómicas, ForecastingSpanish Gross Domestic Product, GDP Prediction, Machine Learning, Time Series, Linear Regression, Random Forest, XGBoost, Neural Networks, Ensemble Models, ARIMAX, Economic Policies, Macroeconomic Variables, Forecasting