Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/101206| Título : | Análisis exploratorio y modelización de lesiones en accidentes de tráfico en el condado de Montgomery |
| Autor : | Vallez Fernández, Carlos Miguel Humanes Fernández, Carmen Universidad Pontificia Comillas, Facultad de Ciencias Económicas y Empresariales |
| Fecha de publicación : | 2026 |
| Resumen : | El presente trabajo analiza los patrones de siniestralidad vial en el condado de Montgomery (Maryland, Estados Unidos) y desarrolla un modelo capaz de predecir la gravedad de los accidentes, entendida como la presencia o ausencia de lesiones en las personas implicadas. Para ello se utiliza el conjunto de datos público Crash Reporting – Drivers Data, sobre el que se aplica una metodología basada en el proceso ETL (Extract, Transform, Load). Una parte sustancial del trabajo se dedica a la limpieza y transformación de unos datos reales, mayoritariamente categóricos y con numerosas inconsistencias, así como a la creación de nuevas variables mediante feature engineering.
A partir del conjunto de datos depurado se construyen y comparan distintos modelos de clasificación, abordando el fuerte desbalanceo de la variable objetivo mediante técnicas específicas como la ponderación de clases, el sobremuestreo (SMOTE) y el Balanced Random Forest, además del ajuste del umbral de decisión. Los resultados muestran una capacidad predictiva moderada, ya que la información disponible antes del accidente no captura por completo los factores que determinan la gravedad de las lesiones. Para interpretar el comportamiento del modelo se aplica la técnica SHAP, que revela que las variables más asociadas a las lesiones son las relativas a la dinámica del propio siniestro. Finalmente, los principales patrones se presentan en un panel de visualización. Más allá del rendimiento del modelo, el trabajo aporta una reflexión sobre las dificultades reales de predecir la siniestralidad a partir de datos abiertos y sobre las limitaciones que imponen los datos disponibles. This project analyses road accident patterns in Montgomery County (Maryland, United States) and develops a model to predict accident severity, understood as the presence or absence of injuries among those involved. The study uses the public dataset Crash Reporting – Drivers Data, to which an ETL (Extract, Transform, Load) methodology is applied. A substantial part of the work is devoted to cleaning and transforming real-world data, mostly categorical and containing numerous inconsistencies, as well as to creating new variables through feature engineering. Based on the cleaned dataset, several classification models are built and compared, addressing the strong imbalance of the target variable through specific techniques such as class weighting, oversampling (SMOTE) and the Balanced Random Forest, together with decision-threshold tuning. The results show a moderate predictive capacity, since the information available before the accident does not fully capture the factors that determine injury severity. To interpret the model's behaviour, the SHAP technique is applied, revealing that the variables most associated with injuries are those describing the dynamics of the accident itself. Finally, the main patterns are presented in a visualisation dashboard. Beyond the model's performance, this work offers a reflection on the real difficulties of predicting road accidents from open data and on the limitations imposed by the available data. |
| Descripción : | Grado en Administración y Dirección de Empresas y Grado en Análisis de Negocios/Business Analytics |
| URI : | http://hdl.handle.net/11531/101206 |
| Aparece en las colecciones: | TFG, TFM (temporales) |
Ficheros en este ítem:
| Fichero | Tamaño | Formato | |
|---|---|---|---|
| TFG - Humanes Fernández, Carmen.pdf | 1,85 MB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.