Detección automática de audio generado por Inteligencia Artificial

García Martínez-Echevarría, Victoria; Palacios Hielscher, Rafael; López López, Gregorio

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/109587

Título :	Detección automática de audio generado por Inteligencia Artificial
Autor :	García Martínez-Echevarría, Victoria Palacios Hielscher, Rafael López López, Gregorio
Resumen :	Este proyecto investiga la detección automática de voces generadas por inteligencia artificial (IA), una tarea cada vez más relevante debido al uso creciente de deepfakes de audio para suplantación de identidad, fraude y desinformación. Partiendo del ASVspoof Challenge de 2019, se reentrenaron dos sistemas de referencia sobre un subconjunto equilibrado en duración de la partición Logical Access. Los audios se restringieron a duraciones de entre dos y cuatro segundos para eliminar posibles sesgos en los que los modelos atendieran a características temporales superficiales o basadas en la duración, en lugar de centrarse en las propiedades acústicas de las muestras. El primer sistema es un clasificador binario basado en redes neuronales convolucionales (CNN) que aprende la frontera entre audios reales y audios sintéticos. El segundo emplea una estrategia de aprendizaje de una sola clase (one-class learning) con ResNet-18 y OC-Softmax, modelando solo voz humana durante el entrenamiento para que el audio sintético se detecte como una anomalía en la inferencia. Se compararon cuatro representaciones de audio: espectrogramas, MFCC (Mel-Frequency Cepstral Coefficients), CQCC (Constant Q Cepstral Coefficients) y LFCC (Linear-Frequency Cepstral Coefficients), vinculando cada tipo de característica con la arquitectura más adecuada. La evaluación se realizó en los conjuntos de desarrollo y evaluación de ASVspoof 2019, así como en un dataset externo que incluye muestras deepfake de alta calidad generadas por motores comerciales de texto a voz y clonación de voz (PlayHT, Resemble AI, LOVO). Para medir las capacidades humanas, un juego en línea registró 1080 decisiones de oyentes, generando matrices de confusión y tasas de error para las mismas técnicas de spoofing. Los resultados muestran una jerarquía clara. Todos los modelos alcanzan precisión casi perfecta en los datos de entrenamiento, pero solo el sistema de one-class con LFCC mantiene un rendimiento sólido frente a ataques no vistos, logrando un 93 % de precisión en el conjunto de evaluación y un 88 % en las muestras externas, demostrando ser el más robusto a nivel global. Los modelos CNN basados en espectrogramas, MFCC y CQCC empeoran notablemente, mientras que los oyentes humanos identificaron correctamente apenas el 40 % de los deepfakes externos, confundiéndose en casi cuatro de cada cinco casos de voz generada por IA moderna. En última instancia, esto subraya la importancia de desarrollar sistemas automáticos robustos para identificar de manera fiable los deepfakes de voz y contrarrestar las amenazas emergentes.
URI :	http://hdl.handle.net/11531/109587
Aparece en las colecciones:	Documentos de Trabajo

Ficheros en este ítem:

Fichero	Tamaño	Formato
IIT-26-102C_poster.pdf	288,23 kB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro Dublin Core completo del ítem