Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/98057
Título : Estimación de Envío de Unidades desde Centros de Distribución Secundarios a Tiendas Utilizando Técnicas de Machine Learning.
Autor : Fernández de Castro, Belén María
Polo Tascón, David
Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación : 2025
Resumen : Resumen Este Trabajo de Fin de Máster se centra en el desarrollo de un modelo de predicción del volumen de unidades enviadas desde un centro de distribución secundario a tiendas de Zara, utilizando técnicas de Machine Learning. El objetivo del proyecto es mejorar las estimaciones de los modelos actuales que se basan en reglas simples, y ofrecer estimaciones más precisas que optimicen la cadena de suministro, reduzcan costos operativos y permitan a las tiendas una mejor organización de los recursos disponibles. Definición del proyecto El proyecto sigue un enfoque estructurado que consiste de varias etapas claramente diferenciadas. La primera de ellas es la fase de exploración de los datos. Esta fase es una de las más importantes del proyecto ya que será donde se seleccione el dato correcto a predecir y también donde se exploren posibles relaciones entre la variable a predecir y otras variables, así como el comportamiento estacional de dicha variable. En la siguiente etapa se obtendrán los datos y se procederá a realizar una limpieza de los mismos, eliminando datos atípicos e imputando o eliminando aquellos datos faltantes. Finalmente, en la última etapa se procederá al entrenamiento de los distintos modelos, desde un modelo básico que nos permitirá tener una base desde la que partir para poder entrenar al resto de modelos, como una regresión lineal (como punto medio entre interpretabilidad, rendimiento y precisión) hasta finalmente un modelo XGBoost. Descripción del sistema El sistema desarrollado es una pipeline de Databricks en la que las distintas etapas están compuestas de notebooks de PySpark que realizan cada tarea. El pipeline es lo suficientemente flexible como para permitir entrenar distintos modelos para Ropa, Calzado, Perfumería o para cada una de las distintas secciones. - Ingesta de datos: Este notebook recupera los datos de entrada necesarios para construir el dataset que se utilizará para el entrenamiento de los modelos. - Limpieza de datos: Este notebook se utiliza para realizar una limpieza de datos atípicos y para realizar la imputación/eliminación de datos faltantes. - Creación de características: En este notebook se crean las características nuevas que se van a utilizar en el modelo, como los retardos de la variable a predecir, se añaden las ventas y también variables categóricas adicionales como el indicador de saldo o de la sección de Niño. - Entrenamiento de los modelos: En este notebook se realiza el entrenamiento de los distintos modelos para predecir los envíos, se crean predicciones para el futuro y se calculan los errores. Resultados Tras evaluar los tres modelos comparados en este Trabajo de Fin de Máster, se aprecia que tanto el modelo de regresión lineal como el modelo XGBoost mejoran significativamente el error sobre el modelo Naïve que utilizamos como base. A continuación, se muestra una comparativa de los errores (WMAPE) con los distintos modelos para cada semana del horizonte temporal a predecir: Semana | Naïve estacional | Regresión lineal | XGBoost -------------------------------------------------------- 1 | 32.96% | 20.09% | 15.92% 2 | 32.96% | 22.83% | 17.47% 3 | 32.96% | 24.38% | 18.44% 4 | 32.96% | 25.32% | 19.16% 5 | 32.96% | 25.77% | 19.49% 6 | 32.96% | 25.95% | 20.61% 7 | 32.96% | 26.01% | 20.81% El modelo XGBoost presenta el mejor rendimiento predictivo, reduciendo los errores del entorno del 30% a un rango más preciso del 15% al 20%. Esta mejora se debe a su capacidad para capturar relaciones complejas y no lineales en los datos, aunque implica un mayor coste computacional y una menor interpretabilidad en comparación con modelos más simples. Conclusiones En este Trabajo de Fin de Máster se ha demostrado cómo es posible mejorar un modelo base mediante el uso de técnicas avanzadas de machine learning y una adecuada selección de variables predictivas.
Abstract This Master's Thesis focuses on the development of a predictive model for estimating the volume of units shipped from a secondary distribution center to Zara stores, using Machine Learning techniques. The aim of the project is to improve the estimations produced by the current rule-based models, providing more accurate forecasts that optimize the supply chain, reduce operational costs, and enable better resource planning at store level. Project Definition The project follows a structured approach consisting of several clearly defined stages. The first stage is the data exploration phase. This is one of the most important parts of the project, as it is where the target variable is selected and where potential relationships between this variable and other features are identified, including any seasonal patterns. In the next phase, the data is collected and cleaned. This involves the removal of outliers and the imputation or deletion of missing values. Finally, in the last phase, the different models are trained. This process begins with a simple baseline model, followed by a linear regression model, which offers a balance between interpretability, performance, and accuracy. The final step is the training of an XGBoost model. System Description The developed system is a Databricks pipeline composed of several PySpark notebooks, each responsible for a specific task. The pipeline is flexible enough to allow training different models for product categories such as Clothing, Footwear, Perfumery, or for each store section individually. - Data Ingestion: This notebook retrieves the input data needed to construct the dataset used for model training. - Data Cleaning: This notebook handles the removal of outliers and the imputation or deletion of missing values. - Feature Engineering: This notebook generates new features for the model, such as lags of the target variable, past sales, and additional categorical variables like sale season indicators or product section (e.g., Kids's section). - Model Training: This notebook trains the different models to predict shipments, generates future predictions, and calculates the prediction errors. Results After evaluating the three models compared in this Master's Thesis, both the linear regression and XGBoost models show significant improvements in prediction error compared to the naïve baseline. Below is a comparison of errors (WMAPE) with the different models for each week of the forecast horizon: Week | Naïve seasonal | Linear regression | XGBoost ---------------------------------------------------- 1 | 32.96% | 20.09% | 15.92% 2 | 32.96% | 22.83% | 17.47% 3 | 32.96% | 24.38% | 18.44% 4 | 32.96% | 25.32% | 19.16% 5 | 32.96% | 25.77% | 19.49% 6 | 32.96% | 25.95% | 20.61% 7 | 32.96% | 26.01% | 20.81% The XGBoost model delivers the best predictive performance, reducing errors from around 30% to a more accurate range between 15% and 20%. This improvement is due to its ability to capture complex and non-linear relationships within the data, although it comes at the cost of higher computational requirements and reduced interpretability compared to simpler models. Conclusions This Master's Thesis demonstrates that it is possible to significantly improve a baseline model by applying advanced machine learning techniques and carefully selecting relevant predictive variables.
Descripción : Máster Universitario en Big Data
URI : http://hdl.handle.net/11531/98057
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFM - Polo Tascon, David.pdfTrabajo Fin de Máster2,34 MBAdobe PDFVisualizar/Abrir     Request a copy
Anexo I - TFM - Polo Tascon, David.pdfAutorización143,66 kBAdobe PDFVisualizar/Abrir     Request a copy


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.