Back-End and Integration of a Sound Separation Solution

Alsina Piró, Eduard

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/44922

Título :	Back-End and Integration of a Sound Separation Solution
Autor :	Hall, Neal Alsina Piró, Eduard Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Palabras clave :	33 Ciencias tecnológicas;3325 Tecnología de las telecomunicaciones;332501 Radiodifusión, sonido y televisión
Fecha de publicación :	2020
Resumen :	Este proyecto ha desarrollado y entrenado un modelo de aprendizaje automático (machine learning) que recibe archivos de música y los separa en sus distintos componentes: voces, percusión, bajo y otros. La separación se basa en un modelo de deep learning programado en PyTorch y utiliza la arquitectura Wave-U-Net. El diseño final también incluye un modelo de separación alternativo llamado Open-Unmix que, según las pruebas realizadas, suele ofrecer mejor separación a costa de mayor tiempo de procesamiento y consumo de recursos. Este motor de separación se ha integrado con un front-end doble, para web y para dispositivos Apple. La integración se ha diseñado mediante peticiones HTTP estándar y siguiendo la filosofía RESTful. Los archivos resultantes de la separación pueden ser manipulados y descargados, pero también se almacenan en el back-end para posteriores consultas. Se ha dispuesto una capa de autenticación básica para controlar el acceso a este almacenamiento. El proyecto forma parte de otro proyecto de mayor envergadura en el que el autor ha participado durante su estancia en la Universidad de Texas en Austin. El objetivo final de ese proyecto ha sido el diseño de una solución integral para separación de sonidos. Ha estado patrocinado por la compañía Harman International (filial de Samsung), la cual ha proporcionado asesoramiento y financiación. This project has designed and trained a machine learning model that receives music files and separates them into their different components: vocals, percussion, bass, and others. The separation is based on a deep learning model programmed in PyTorch and it uses the Wave-U-Net architecture. An alternative separation model called Open-Unmix has also been included in the final design. According to the tests carried out, this model usually offers better separation at the cost of more processing time and resource consumption. This separation engine has been integrated with a dual front-end, for the web and for Apple devices. The integration has been designed using standard HTTP requests and following the RESTful design philosophy. The resulting files from the separation can be played and downloaded, but are also stored in the back-end for subsequent queries. A basic authentication layer has been implemented to control access to this storage. The project is part of a larger project in which the author has participated during his stay at the University of Texas at Austin. The final goal of that project has been the design of a comprehensive solution for sound separation. It has been sponsored by Harman International (a subsidiary of Samsung), which has provided advice and funding.
Descripción :	Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Administración y Dirección de Empresas
URI :	http://hdl.handle.net/11531/44922
Aparece en las colecciones:	KTT-Trabajos Fin de Grado

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Autoria.pdf	Autorización	161,41 kB	Adobe PDF	Visualizar/Abrir Request a copy
TFG - Alsina Piro, Eduard.pdf	Trabajo Fin de Grado	7,72 MB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro Dublin Core completo del ítem