Leveraging Natural Language Processing Techniques for Music Metadata Enhancement
Abstract
Este proyecto investiga si un régimen de entrenamiento en dos etapas puede mejorar la clasificación de géneros musicales. En lugar de entrenar modelos de deep learning directamente sobre un gran número de géneros detallados, se realiza una primera etapa en la que los géneros similares se agrupan en doce "macrogéneros". Los modelos se entrenan inicialmente con esta tarea simplificada y luego se afinan para clasificar los 103 géneros originales. Usando espectrogramas de Mel como entrada y evaluando arquitecturas CNN, ResNet-18 y Vision Transformer, el estudio concluye que el preentrenamiento jerárquico mejora la generalización en conjuntos de datos a gran escala y desbalanceados. Se utiliza el dataset Free Music Archive (FMA) como referencia principal. This project investigates whether a two-stage training regime can improve music genre classification. Instead of training deep learning models directly on a large number of fine-grained genres, a first stage groups similar genres into twelve "macrogenres." Models are initially trained on this simplified task and then fine-tuned to classify the original 103 genres. Using Mel-spectrograms as input and evaluating CNN, ResNet-18, and Vision Transformer architectures, the study finds that hierarchical pretraining improves generalization in large-scale, imbalanced datasets. The Free Music Archive (FMA) dataset is used as the main benchmark.
Trabajo Fin de Grado
Leveraging Natural Language Processing Techniques for Music Metadata EnhancementTitulación / Programa
Grado en Ingeniería Matemática e Inteligencia ArtificialMaterias/ categorías / ODS
KMIPalabras Clave
Clasificación Macrogéneros Espectrogramas Generalización Deep learningClassification Macrogenres Spectrograms Generalization Deep learning