Data Augmentation for Time Series
Abstract
La aplicación de técnicas de Data Augmentation en series temporales ha ganado un creciente
interés en el ámbito del forecasting. En este Trabajo de Fin de Máster (TFM), se explorará
el uso de diferentes métodos de Data Augmentation para mejorar la calidad y el rendimiento
de los modelos de predicción aplicados a series temporales.
El objetivo principal de este TFM es abordar el problema de la escasez de datos en series
temporales, que a menudo dificulta la capacidad de los modelos de predicción para capturar
patrones y realizar predicciones precisas. Data Augmentation, es decir, la generación de
nuevos datos sintéticos a partir de los datos existentes se presenta como una estrategia
prometedora para intentar solucionar este problema.
En este trabajo, se emplearán tanto métodos sencillos como métodos complejos de Data
Augmentation. Entre los métodos sencillos, se incluirán técnicas como Time Warping, Add
Noise, Pooling y Convolve, que han demostrado ser efectivas en la generación de datos
aumentados para series temporales. Estas técnicas se basan en conceptos simples como la
adición de ruido aleatorio o la convolución.
Además, se explorará el uso de un método más complejo, el Autoencoder, que se ha
destacado en la literatura como una herramienta prometedora en Data Augmentation. El
Autoencoder es una red neuronal que aprende a codificar y decodificar los datos de entrada,
permitiendo así la generación de nuevos conjuntos de datos que conserven las características
de los datos originales.
La elección de estos métodos se basa en el uso y estudio previo en la literatura. Sin embargo,
el objetivo de este TFM no se limita únicamente a la aplicación de estos métodos, sino
también en evaluar su efectividad y comparar su rendimiento utilizando distintos modelos
de regresión, como el Random Forest y el XGBoost.
En resumen, este TFM tiene como objetivo principal la aplicación de métodos de Data
Augmentation en series temporales, abarcando tanto métodos sencillos como complejos. Se
busca mejorar la capacidad de predicción de los modelos de regresión utilizados en este
contexto. The application of Data Augmentation techniques in time series has gained increasing
interest in the field of forecasting. In this Master's Thesis, we will explore the use of different
Data Augmentation methods to improve the quality and performance of prediction models
applied to time series.
The main objective of this thesis is to address the issue of data scarcity in time series, which
often hinders the ability of prediction models to capture patterns and make accurate
predictions. Data Augmentation, i.e., the generation of synthetic data from existing data,
emerges as a promising strategy to tackle this problem.
In this work, we will employ both simple and complex methods of Data Augmentation.
Among the simple methods, techniques such as Time Warping, Add Noise, Pooling, and
Convolve will be included, as they have demonstrated effectiveness in generating augmented
data for time series. These techniques are based on simple concepts such as adding random
noise or convolution.
Furthermore, we will explore the use of a more complex method, the Autoencoder, which
has been highlighted in the literature as a promising tool in Data Augmentation. The
Autoencoder is a neural network that learns to encode and decode input data, thus enabling
the generation of new datasets that preserve the characteristics of the original data.
The selection of these methods is based on their usage and prior study in the literature.
However, the objective of this TFM is not limited solely to the application of these methods,
but also to evaluate their effectiveness and compare their performance using different
regression models, such as Random Forest and XGBoost.
In summary, the main objective of this TFM is the application of Data Augmentation
methods in time series, encompassing both simple and complex approaches. The aim is to
enhance the prediction capacity of the regression models used in this context.
Trabajo Fin de Máster
Data Augmentation for Time SeriesTitulación / Programa
Máster en Big Data. Tecnología y Analítica Avanzada/Master in Big Data Technologies and Advanced AnalyticsMaterias/ UNESCO
33 Ciencias tecnológicas3304 Tecnología de los ordenadores
330413 Dispositivos de transmisión de datos
Materias/ categorías / ODS
M8APalabras Clave
Data Augmentation, Kaggle, M5 Forecasting, Tsaug, Time Warping, Add Noise, Pooling, Convolve, Autoencoder, Random Forest, XGBoost, Optuna, Backtesting.Data Augmentation, Kaggle, M5 Forecasting, Tsaug, Time Warping, Add Noise, Pooling, Convolve, Autoencoder, Random Forest, XGBoost, Optuna, Backtesting.