Estudio de variables relevantes y análisis predictivo en la probabilidad de lesión de futbolistas en los campeonatos de Latinoamérica
Resumen
Este Trabajo Fin de Grado tiene como objetivo identificar los factores contextuales que influyen significativamente en la aparición de lesiones en el fútbol profesional latinoamericano, concretamente en las competiciones de la CONMEBOL. A partir de un dataset anonimizado de partidos disputados en la Copa Libertadores y la Copa Sudamericana entre 2022 y 2024, se estudian variables como la altitud, la temperatura, el país anfitrión, la distancia recorrida por el equipo visitante o la condición de local/visitante, aplicando técnicas estadísticas y modelos de aprendizaje automático.
La parte exploratoria del trabajo formula hipótesis iniciales sobre posibles factores de riesgo, basadas en patrones detectados durante el análisis descriptivo de variables contextuales. Estas hipótesis se contrastan a través del entrenamiento de diferentes modelos de clasificación binaria: regresión logística con penalización ElasticNet, Random Forest, XGBoost y una técnica de stacking que combina los tres modelos anteriores. Se emplean métricas como precision, recall, F1-score y AUC para evaluar su rendimiento. El enfoque se centra especialmente en maximizar el recall, priorizando la detección de lesiones reales.
Los resultados muestran que el país anfitrión (especialmente Bolivia y Venezuela), la condición de local o visitante, relacionada con la presión del público y la agresividad del rival, y el año de competición por la introducción del nuevo calendario con playoffs en 2023 son predictores relevantes del riesgo lesivo. El modelo de stacking alcanzó el mejor recall (0.769), maximizando la detección de lesiones reales. Como complemento, se ha desarrollado una herramienta interactiva que permite a clubes o analistas estimar el riesgo de lesión en función del contexto del partido y la configuración del entrenamiento del modelo, lo que aporta un valor práctico para la planificación del entrenamiento y las estrategias de prevención médica. This Thesis aims to identify contextual factors that significantly influence injury occurrence in Latin American professional football in CONMEBOL competitions. Based on an anonymized dataset from Copa Libertadores and Copa Sudamericana matches between 2022 and 2024, the study analyzes contextual variables such as altitude, temperature, host country, visitor travel distance, competition stage, and home/away status. These variables are explored through descriptive statistics and machine learning models to understand their impact on injury risk.
The exploration phase generates initial hypotheses based on observed patterns, such as the potential increased risk for home teams due to greater exposure or opponent aggressiveness, or the effects of long-distance travel and geographic conditions. These hypotheses are later tested through predictive modeling. Several binary classification models are trained: logistic regression with ElasticNet regularization, Random Forest, XGBoost, and a stacking ensemble combining all three. Performance is evaluated using metrics such as accuracy, precision, recall, F1-score, and AUC, with a special focus on recall, aiming to minimize false negatives and maximize the detection of real injury events.
Results show that the most relevant predictors are the host country (with Bolivia and Venezuela standing out), the condition of playing at home or away, which is linked to crowd influence and match intensity, and the implementation of a new playoff-based calendar in 2023. The stacking model achieved the highest recall score (0.769), making it particularly useful for real-world applications. An additional interactive tool was developed to allow clubs or analysts to estimate injury risk based on match context and model configuration, adding practical value for training planning and medical prevention strategies.
Trabajo Fin de Grado
Estudio de variables relevantes y análisis predictivo en la probabilidad de lesión de futbolistas en los campeonatos de LatinoaméricaTitulación / Programa
Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Análisis de Negocios/Business AnalyticsMaterias/ categorías / ODS
KTT (GITT)Palabras Clave
Lesiones deportivas, fútbol latinoamericano, aprendizaje automático, análisis contextual, modelos de clasificación, regresión logística, Random Forest, XGBoost, stacking, predicción de riesgo.sports injuries, Latin American football, machine learning, contextual analysis, classification models, logistic regression, Random Forest, XGBoost, stacking, risk prediction