Anomaly Detection In Retail Sales
Resumen
El proyecto se ha divido en 4 etapas: adquisición de datos, tratamiento de datos, selección del modelo, visualización.
En la primera etapa, se estudia las diferentes tablas que la empresa pone a la disposición de este proyecto para seleccionar las variables más apropiadas para el caso de uso. Para la unión y extracción de datos se utiliza la herramienta de Bigquery.
En la etapa del tratamiento datos hay dos objetivos, la selección de los productos y la elección de la dimensión a la que se quiere realizar el proyecto. Mediante un análisis preliminar de los diferentes productos con los que trabaja Cofares se elige aquellos que se consideren relevantes para el caso de uso. También, se decide sobre que dimensión agrupar estos productos, si se quieren agrupar a nivel: cliente, código postal … o si se quieren agrupar por dimensiones mas amplias como grupo terapéuticos, comunidades autónomas…
En la tercera etapa se realiza un estudio de la viabilidad de diferentes modelos de predicción. Se le da importancia a la precisión del modelo, pero sobre todo, al tiempo de ejecución. En función de la dimensión elegida en la etapa anterior el proyecto trabaja con miles o millones de series temporales. Al trabajar con tantas series temporales, asignar una única lógica para generar el umbral que delimita la región de normalidad provoca mucho error en la detección de anomalías, por tanto, en esta etapa también se desarrolla un modelo de clasificación de las series temporales para asignar a cada grupo una lógica diferente.
Y por último en la etapa de visualización se desarrolla la herramienta con la que trabajarán los departamentos de auditoría interna en Data Studio. The project has been divided into 4 stages: data acquisition, data processing, model selection, visualization.
In the first stage, the different tables that the company makes available for this project are studied to select the most appropriate variables for the use case. The Bigquery tool is used for data union and extraction.
In the data processing stage there are two objectives, the selection of the products and the choice of the dimension to which the project is to be carried out. Through a preliminary analysis of the different products with which Cofares works, those that are considered relevant for the use case are chosen. Also, it is decided on which dimension to group these products, if they want to be grouped at the level: customer, postal code ... or if they want to be grouped by bigger dimensions such as therapeutic group, CCAA ...
In the third stage, a feasibility study of different prediction models is carried out. Importance is given to the precision of the model, but above all, the execution time. Depending on the dimension chosen in the previous stage, the project works with thousands or millions of time series. When working with so many time series, assigning a single logic to generate the threshold that delimits the normality region causes a lot of error in the detection of anomalies, therefore, at this stage a classification model of the time series is also developed to assign to each group a different logic.
And finally, in the visualization stage, the tool with which the internal audit will work in Data Studio is developed.
Trabajo Fin de Máster
Anomaly Detection In Retail SalesTitulación / Programa
Máster en Big Data. Tecnología y Analítica Avanzada/Master in Big Data Technologies and Advanced AnalyticsMaterias/ categorías / ODS
M8APalabras Clave
Anomalías, prophet, autoarima, series temporales, medicamentos.Anomalies, prophet, autoarima, time series, medications