Unsupervised Learning for Condition Monitoring
Resumen
El objetivo del proyecto es encontrar fallos de equipos en conjuntos de datos sin etiquetas mediante aprendizaje automático no supervisado utilizando los últimos métodos de reducción de dimensiones y clustering como UMAP y HDBSCAN. Para ello se empieza con un conjunto de datos obtenido simulando un banco de pruebas hidráulico en el que se producen muchos tipos de fallos en cuatro de sus componentes y después aplicamos los mismos métodos en un conjunto de datos real. El procedimiento es el siguiente, se reduce el número de dimensiones a dos (con PCA, UMAP y t-SNE) y después se utiliza un método de clustering (k-means o HDBSCAN) para separar en clusters los datos para después crear una hipótesis sobre cuál de los clusters representa los fallos en el quipo. PCA no consiguió representar correctamente ninguno de los dos conjuntos de datos porque producía pocos clusters para la cantidad de estados en los que el equipo podía estar. UMAP fue capaz de separar en más clusters y por tanto se podía distinguir mejor en que estado se encontraba el equipo. T-SNE obtuvo resultados muy similares a UMAP pero fue mucho más lento que éste. Los resultados tanto de k-means como de HDBSCAN fueron muy similares y concluimos que el mejor algoritmo para este caso era HDBSCAN por su facilidad de uso.
En conclusión, la combinación de UMAP y HDBSCAN para el monitoreo de la condición resulta en un método más rápido y con unas mejores prestaciones que los métodos más tradicionales. Nuestra recomendación siempre será obtener la información de la etiqueta siempre que sea posible. De lo contrario, este método puede dar una buena idea de los datos e información que antes no era aparente, pero difícilmente puede ser usado como un método propio para detectar fallos y luego actuar dependiendo de sus hallazgos. The aim of the project is to find equipment failures in unlabeled data sets by unsupervised automatic learning using the latest dimension reduction and clustering methods such as UMAP and HDBSCAN. This starts with a data set obtained by simulating a hydraulic test bench in which many types of failures occur in four of its components and then we apply the same methods in a real data set. The procedure is as follows, the number of dimensions is reduced to two (with PCA, UMAP and t-SNE) and then a clustering method (k-means or HDBSCAN) is used to separate the data into clusters and then create a hypothesis as to which of the clusters represents the failures in the equipment. PCA could not correctly represent either set of data because it produced few clusters for the number of states the team could be in. UMAP was able to separate into more clusters and therefore you could better distinguish what state the computer was in. T-SNE obtained results very similar to UMAP but much slower than UMAP. The results of both k-means and HDBSCAN were very similar and we concluded that the best algorithm for this case was HDBSCAN because of its ease of use.
In conclusion, the combination of UMAP and HDBSCAN for condition monitoring results in a faster method with better performance than the more traditional methods. Our recommendation will always be to get the information from the label whenever possible. Otherwise, this method can give a good idea of data and information that was not previously apparent, but it can hardly be used as a method of its own to detect faults and then act upon its findings.
Trabajo Fin de Máster
Unsupervised Learning for Condition MonitoringTitulación / Programa
Máster Universitario en Ingeniería IndustrialMaterias/ categorías / ODS
MII-N (H62-electronica)Palabras Clave
Aprendizaje automatico; Monitoreo condición; UMAP; HDBSCAN; no supervisado; clusteringClustering; Unsupervised; HDBSCAN; UMAP; Dimension; Reduction