AudioMind: Modelos Inteligentes para Procesamiento y Transformación de Sonido mediane IA Generativ
Abstract
Este trabajo explora las tareas de reducción de ruido, la compresión de señales y la separación en fuentes dentro del campo de procesamiento de audio mediante distintas técnicas de IA. En estas tareas se han explorado dos representaciones de audio: forma de onda (tanto en el dominio del tiempo como en el de la frecuencia) y embeddings de audio. Estos estudios además están sujetos a la restricción de poder realizarse con una capacidad limitada de memoria de GPU (6 GB) durante el entrenamiento. Los modelos resultantes ofrecen distintas pistas acerca de los requisitos de escala en cada caso. This work explores the tasks of noise reduction, signal compression, and source separation within the field of audio processing using various AI techniques. Two audio representations are investigated for these tasks: the waveform (in both the time and frequency domains) and audio embeddings. All studies are also constrained by the requirement to operate within a limited GPU memory capacity (6 GB) during training. The resulting models provide valuable insights into the scaling requirements for each case.
Trabajo Fin de Grado
AudioMind: Modelos Inteligentes para Procesamiento y Transformación de Sonido mediane IA GenerativTitulación / Programa
Grado en Ingeniería Matemática e Inteligencia ArtificialMaterias/ categorías / ODS
KMIPalabras Clave
embeddings, reducción de ruido, compresión de señales, separación de fuentes, CNN, Autoencoder, Transformer,embeddings, noise reduction, signal compression, source separation, CNN, autoencoder, transformer