Data Augmentation for Time Series

Ramos Pugnaire, Juan Miguel

View/Open

Trabajo Fin de Máster (2.327Mb)

Date

2023

Abstract

La aplicación de técnicas de Data Augmentation en series temporales ha ganado un creciente interés en el ámbito del forecasting. En este Trabajo de Fin de Máster (TFM), se explorará el uso de diferentes métodos de Data Augmentation para mejorar la calidad y el rendimiento de los modelos de predicción aplicados a series temporales. El objetivo principal de este TFM es abordar el problema de la escasez de datos en series temporales, que a menudo dificulta la capacidad de los modelos de predicción para capturar patrones y realizar predicciones precisas. Data Augmentation, es decir, la generación de nuevos datos sintéticos a partir de los datos existentes se presenta como una estrategia prometedora para intentar solucionar este problema. En este trabajo, se emplearán tanto métodos sencillos como métodos complejos de Data Augmentation. Entre los métodos sencillos, se incluirán técnicas como Time Warping, Add Noise, Pooling y Convolve, que han demostrado ser efectivas en la generación de datos aumentados para series temporales. Estas técnicas se basan en conceptos simples como la adición de ruido aleatorio o la convolución. Además, se explorará el uso de un método más complejo, el Autoencoder, que se ha destacado en la literatura como una herramienta prometedora en Data Augmentation. El Autoencoder es una red neuronal que aprende a codificar y decodificar los datos de entrada, permitiendo así la generación de nuevos conjuntos de datos que conserven las características de los datos originales. La elección de estos métodos se basa en el uso y estudio previo en la literatura. Sin embargo, el objetivo de este TFM no se limita únicamente a la aplicación de estos métodos, sino también en evaluar su efectividad y comparar su rendimiento utilizando distintos modelos de regresión, como el Random Forest y el XGBoost. En resumen, este TFM tiene como objetivo principal la aplicación de métodos de Data Augmentation en series temporales, abarcando tanto métodos sencillos como complejos. Se busca mejorar la capacidad de predicción de los modelos de regresión utilizados en este contexto.

The application of Data Augmentation techniques in time series has gained increasing interest in the field of forecasting. In this Master's Thesis, we will explore the use of different Data Augmentation methods to improve the quality and performance of prediction models applied to time series. The main objective of this thesis is to address the issue of data scarcity in time series, which often hinders the ability of prediction models to capture patterns and make accurate predictions. Data Augmentation, i.e., the generation of synthetic data from existing data, emerges as a promising strategy to tackle this problem. In this work, we will employ both simple and complex methods of Data Augmentation. Among the simple methods, techniques such as Time Warping, Add Noise, Pooling, and Convolve will be included, as they have demonstrated effectiveness in generating augmented data for time series. These techniques are based on simple concepts such as adding random noise or convolution. Furthermore, we will explore the use of a more complex method, the Autoencoder, which has been highlighted in the literature as a promising tool in Data Augmentation. The Autoencoder is a neural network that learns to encode and decode input data, thus enabling the generation of new datasets that preserve the characteristics of the original data. The selection of these methods is based on their usage and prior study in the literature. However, the objective of this TFM is not limited solely to the application of these methods, but also to evaluate their effectiveness and compare their performance using different regression models, such as Random Forest and XGBoost. In summary, the main objective of this TFM is the application of Data Augmentation methods in time series, encompassing both simple and complex approaches. The aim is to enhance the prediction capacity of the regression models used in this context.

URI

http://hdl.handle.net/11531/78532

Trabajo Fin de Máster

Data Augmentation for Time Series

Titulación / Programa

Máster en Big Data. Tecnología y Analítica Avanzada/Master in Big Data Technologies and Advanced Analytics

Materias/ UNESCO

33 Ciencias tecnológicas
3304 Tecnología de los ordenadores
330413 Dispositivos de transmisión de datos

Materias/ categorías / ODS

M8A

Palabras Clave

Data Augmentation, Kaggle, M5 Forecasting, Tsaug, Time Warping, Add Noise, Pooling, Convolve, Autoencoder, Random Forest, XGBoost, Optuna, Backtesting.
Data Augmentation, Kaggle, M5 Forecasting, Tsaug, Time Warping, Add Noise, Pooling, Convolve, Autoencoder, Random Forest, XGBoost, Optuna, Backtesting.

Collections

MBD-Trabajos Fin de Máster

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States