Análisis de un dataset de interés del alumno
Abstract
El estudio se centra en determinar los factores meteorológicos que provocan retrasos en las salidas de vuelos en el Aeropuerto Internacional Chicago-O'Hare. Se trata de un
problema crucial debido a la importancia operativa y económica en el ámbito de la aviación. El estudio busca mejorar la predicción de estos retrasos en los vuelos mediante un enfoque basado en el análisis de datos y la elaboración de modelos de aprendizaje automático. El objetivo final es aumentar la eficacia operativa, mejorando así la satisfacción del cliente. Los datos proceden de diversas fuentes, como Kaggle, el Departamento de Transporte de EE.UU. y Visual Crossing. Se combinan y modifican mediante un método ETL (Extraer, Transformar y Cargar) clásico. Para este proceso se utilizan herramientas como Python y RStudio, para seleccionar vuelos concretos en el aeropuerto internacional O'Hare, eliminar variables sin importancia y crear nuevas variables que tengan significado para el modelo. Se desarrollan y comparan dos modelos predictivos: una Regresión Logística y un Random Forest. El modelo de Regresión Logística ofrece un buen rendimiento con un AUC (Area Under the Curve) de 0,853 y una precisión de 0,787, destacando su especificidad. El modelo Random Forest, con un AUC de 0,803 y una precisión de hasta 0,894, muestra una sensibilidad y una precisión general superiores. Los resultados muestran que, aunque ambos métodos son buenos para predecir los vuelos retrasados por condiciones meteorológicas extremas, el modelo Random Forest tiene una precisión general superior. Para futuras investigaciones, se sugiere incorporar datos de múltiples años y aeropuertos. Además, explorar otros modelos y tipos de retrasos podría aumentar la precisión y utilidad del sistema. The study focuses on determining the meteorological factors that cause delays in flight departures at Chicago-O'Hare International Airport. This is a critical problem due to its operational and economic importance in the aviation field. The study aims to improve the prediction of these flight delays through an approach based on data analytics and machine learning modelling. The goal is to increase operational efficiency, thereby improving customer satisfaction. The data comes from a variety of sources, including Kaggle, the US Department of Transportation and Visual Crossing. It is combined and modified using a classic ETL (Extract, Transform and Load) method. For this process, tools such as Python and RStudio are used to select specific flights at O'Hare International Airport, eliminate unimportant variables and create new variables that have meaning for the model. Two predictive models are developed and compared: a Logistic Regression and a Random Forest. The Logistic Regression model performs well with an AUC (Area Under the Curve) of 0,853 and an accuracy of 0,787, highlighting its specificity. The Random Forest model, with an AUC of 0,803 and an accuracy of up to 0,894, shows superior sensitivity and overall accuracy. The results show that, although both methods are good at predicting flights delayed due to extreme weather conditions, the Random Forest model has a superior general accuracy. For future research, it is suggested to incorporate data from multiple years and airports. In addition, exploring other models and types of delays could increase the accuracy and usefulness of the system.
Trabajo Fin de Grado
Análisis de un dataset de interés del alumnoTitulación / Programa
Grado en Administración y Dirección de Empresas y Grado en Análisis de Negocios/Business AnalyticsMaterias/ categorías / ODS
KBAPalabras Clave
aprendizaje automático, regresión logística, bosque aleatorio, validación cruzada, balanceo de datos, sensibilidad, especificidad, precisión, área bajo la curvamachine learning, logistic regression, random forest, cross-validation, data balancing, sensitivity, specificity, precision, area under the curve.