Modelo predictivo del precio de billetes de avión mediante la comparación de métodos de modelado temporal

Alonso Sánchez, Pablo

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/106198

Título :	Modelo predictivo del precio de billetes de avión mediante la comparación de métodos de modelado temporal
Autor :	Mompó Pavesi, Emanuel Gastón Alonso Sánchez, Pablo Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación :	2026
Resumen :	Los precios de los billetes de avión cambian con frecuencia y sin una lógica aparente, lo que dificulta a los viajeros saber cuándo comprarlos. La bibliografía académica sobre la predicción de tarifas aéreas ha crecido en las últimas dos décadas, pero la mayoría de los estudios publicados presentan cifras de precisión absolutas sin compararlas con una referencia naïve, aplican una única familia de técnicas en lugar de contrastar métodos clásicos y de aprendizaje profundo de forma paralela, y apenas abordan cómo la propia estrategia de recopilación de datos afecta a las series que reciben los modelos. Este trabajo aborda esas tres cuestiones. El proyecto desarrolla un proceso para la predicción a corto plazo de los precios de los vuelos desde Madrid, desde la recopilación de datos hasta la evaluación de modelos y el análisis del momento óptimo de compra. La fuente de datos es Kiwi.com, a la que se accede mediante un rastreador automatizado creado con Playwright que intercepta la API GraphQL interna de la plataforma y extrae información estructurada sobre las tarifas. No se requirió autenticación ni acceso de pago. Se recopilaron dos conjuntos de datos utilizando estrategias diferentes, ya que el propio método de extracción determina las propiedades estadísticas de las series resultantes. El conjunto de datos A capturó una amplia instantánea de seis rutas en una única sesión de navegación, lo que generó aproximadamente 1183 observaciones. El conjunto de datos B siguió un diseño longitudinal: un rastreador diario se ejecutó durante cincuenta días consecutivos en cuatro rutas y siete fechas de salida fijas, lo que arrojó 1371 observaciones en 28 series de precios individuales. Ambos se sometieron a una nueva indexación diaria, a una interpolación lineal para los días que faltaban y a la detección de valores atípicos mediante el método del rango intercuartílico. La comparación de previsiones evaluó cuatro métodos en condiciones idénticas. La previsión naïve, que repite el último precio observado, sirvió de referencia que todos los demás modelos debían superar. Los modelos ARIMA se ajustaron mediante selección automática del orden y diagnóstico de residuos. Se entrenaron una red recurrente LSTM y un modelo de refuerzo de gradientes XGBoost en el conjunto de datos B con una entrada de ventana deslizante y características modificadas. Los cuatro se evaluaron en datos de prueba retenidos utilizando los métricas MAE, RMSE, MAPE y MASE. El proyecto también examinó si un día concreto de la semana resulta sistemáticamente más barato para comprar y cómo evolucionan los precios a medida que se acerca la fecha de salida. Airfare prices change frequently and without any apparent logic, making it difficult for travelers to know when to buy tickets. The academic literature on airfare prediction has grown over the past two decades, but most published studies present absolute accuracy figures without comparing them to a naïve baseline, apply a single family of techniques rather than testing classical and deep learning methods in parallel, and barely address how the data collection strategy itself affects the data series fed into the models. This work addresses these three issues. The project develops a process for the short-term prediction of flight prices from Madrid, from data collection to model evaluation and analysis of the optimal time to purchase. The data source is Kiwi.com, accessed via an automated scraper built with Playwright that intercepts the platform’s internal GraphQL API and extracts structured information about fares. No authentication or paid access was required. Two datasets were collected using different strategies, as the extraction method itself determines the statistical properties of the resulting time series. Dataset A captured a broad snapshot of six routes in a single browsing session, yielding approximately 1,183 observations. Dataset B followed a longitudinal design: a daily crawler ran for fifty consecutive days across four routes and seven fixed departure dates, yielding 1,371 observations across 28 individual price time series. Both datasets underwent daily re-indexing, linear interpolation for missing days, and outlier detection using the interquartile range method. The forecast comparison evaluated four methods under identical conditions. The naïve forecast, which repeats the last observed price, served as the benchmark that all other models had to outperform. The ARIMA models were fitted using automatic order selection and residual diagnostics. An LSTM recurrent neural network and an XGBoost gradient boosting model were trained on dataset B using a sliding window input and modified features. All four were evaluated on held-out test data using the MAE, RMSE, MAPE, and MASE metrics. The project also examined whether a specific day of the week is consistently cheaper for purchasing and how prices change as the departure date approaches.
Descripción :	Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Análisis de Negocios/Business Analytics
URI :	http://hdl.handle.net/11531/106198
Aparece en las colecciones:	TFG, TFM (temporales)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFG - Alonso Sánchez, Pablo.pdf	Trabajo Fin de Grado	4,92 MB	Adobe PDF	Visualizar/Abrir
Anexo I - Alonso Sánchez, Pablo.pdf	Autorización	162,27 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem