Mostrar el registro sencillo del ítem

dc.contributor.advisorVallez Fernández, Carlos Migueles-ES
dc.contributor.authorRos Arroyo, Martaes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresarialeses_ES
dc.date.accessioned2023-06-19T14:35:43Z
dc.date.available2023-06-19T14:35:43Z
dc.date.issued2024es_ES
dc.identifier.urihttp://hdl.handle.net/11531/79307
dc.descriptionGrado en Administración y Dirección de Empresas y Grado en Análisis de Negocios/Business Analyticses_ES
dc.description.abstractEl estudio se centra en determinar los factores meteorológicos que provocan retrasos en las salidas de vuelos en el Aeropuerto Internacional Chicago-O'Hare. Se trata de un problema crucial debido a la importancia operativa y económica en el ámbito de la aviación. El estudio busca mejorar la predicción de estos retrasos en los vuelos mediante un enfoque basado en el análisis de datos y la elaboración de modelos de aprendizaje automático. El objetivo final es aumentar la eficacia operativa, mejorando así la satisfacción del cliente. Los datos proceden de diversas fuentes, como Kaggle, el Departamento de Transporte de EE.UU. y Visual Crossing. Se combinan y modifican mediante un método ETL (Extraer, Transformar y Cargar) clásico. Para este proceso se utilizan herramientas como Python y RStudio, para seleccionar vuelos concretos en el aeropuerto internacional O'Hare, eliminar variables sin importancia y crear nuevas variables que tengan significado para el modelo. Se desarrollan y comparan dos modelos predictivos: una Regresión Logística y un Random Forest. El modelo de Regresión Logística ofrece un buen rendimiento con un AUC (Area Under the Curve) de 0,853 y una precisión de 0,787, destacando su especificidad. El modelo Random Forest, con un AUC de 0,803 y una precisión de hasta 0,894, muestra una sensibilidad y una precisión general superiores. Los resultados muestran que, aunque ambos métodos son buenos para predecir los vuelos retrasados por condiciones meteorológicas extremas, el modelo Random Forest tiene una precisión general superior. Para futuras investigaciones, se sugiere incorporar datos de múltiples años y aeropuertos. Además, explorar otros modelos y tipos de retrasos podría aumentar la precisión y utilidad del sistema.es-ES
dc.description.abstractThe study focuses on determining the meteorological factors that cause delays in flight departures at Chicago-O'Hare International Airport. This is a critical problem due to its operational and economic importance in the aviation field. The study aims to improve the prediction of these flight delays through an approach based on data analytics and machine learning modelling. The goal is to increase operational efficiency, thereby improving customer satisfaction. The data comes from a variety of sources, including Kaggle, the US Department of Transportation and Visual Crossing. It is combined and modified using a classic ETL (Extract, Transform and Load) method. For this process, tools such as Python and RStudio are used to select specific flights at O'Hare International Airport, eliminate unimportant variables and create new variables that have meaning for the model. Two predictive models are developed and compared: a Logistic Regression and a Random Forest. The Logistic Regression model performs well with an AUC (Area Under the Curve) of 0,853 and an accuracy of 0,787, highlighting its specificity. The Random Forest model, with an AUC of 0,803 and an accuracy of up to 0,894, shows superior sensitivity and overall accuracy. The results show that, although both methods are good at predicting flights delayed due to extreme weather conditions, the Random Forest model has a superior general accuracy. For future research, it is suggested to incorporate data from multiple years and airports. In addition, exploring other models and types of delays could increase the accuracy and usefulness of the system.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoes-ESes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherKBAes_ES
dc.titleAnálisis de un dataset de interés del alumnoes_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsaprendizaje automático, regresión logística, bosque aleatorio, validación cruzada, balanceo de datos, sensibilidad, especificidad, precisión, área bajo la curvaes-ES
dc.keywordsmachine learning, logistic regression, random forest, cross-validation, data balancing, sensitivity, specificity, precision, area under the curve.en-GB


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 United States
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 United States