Detección automática de audio generado por Inteligencia Artificial

García Martínez-Echevarría, Victoria; Palacios Hielscher, Rafael; López López, Gregorio

Ver/

IIT-26-102C_poster.pdf (288.2Kb)

Autor

García Martínez-Echevarría, Victoria

Palacios Hielscher, Rafael

López López, Gregorio

Estado

info:eu-repo/semantics/draft

Metadatos

Mostrar el registro completo del ítem

Mostrar METS del ítem

Ver registro en CKH

Resumen

Este proyecto investiga la detección automática de voces generadas por inteligencia artificial (IA), una tarea cada vez más relevante debido al uso creciente de deepfakes de audio para suplantación de identidad, fraude y desinformación. Partiendo del ASVspoof Challenge de 2019, se reentrenaron dos sistemas de referencia sobre un subconjunto equilibrado en duración de la partición Logical Access. Los audios se restringieron a duraciones de entre dos y cuatro segundos para eliminar posibles sesgos en los que los modelos atendieran a características temporales superficiales o basadas en la duración, en lugar de centrarse en las propiedades acústicas de las muestras. El primer sistema es un clasificador binario basado en redes neuronales convolucionales (CNN) que aprende la frontera entre audios reales y audios sintéticos. El segundo emplea una estrategia de aprendizaje de una sola clase (one-class learning) con ResNet-18 y OC-Softmax, modelando solo voz humana durante el entrenamiento para que el audio sintético se detecte como una anomalía en la inferencia. Se compararon cuatro representaciones de audio: espectrogramas, MFCC (Mel-Frequency Cepstral Coefficients), CQCC (Constant Q Cepstral Coefficients) y LFCC (Linear-Frequency Cepstral Coefficients), vinculando cada tipo de característica con la arquitectura más adecuada. La evaluación se realizó en los conjuntos de desarrollo y evaluación de ASVspoof 2019, así como en un dataset externo que incluye muestras deepfake de alta calidad generadas por motores comerciales de texto a voz y clonación de voz (PlayHT, Resemble AI, LOVO). Para medir las capacidades humanas, un juego en línea registró 1080 decisiones de oyentes, generando matrices de confusión y tasas de error para las mismas técnicas de spoofing. Los resultados muestran una jerarquía clara. Todos los modelos alcanzan precisión casi perfecta en los datos de entrenamiento, pero solo el sistema de one-class con LFCC mantiene un rendimiento sólido frente a ataques no vistos, logrando un 93 % de precisión en el conjunto de evaluación y un 88 % en las muestras externas, demostrando ser el más robusto a nivel global. Los modelos CNN basados en espectrogramas, MFCC y CQCC empeoran notablemente, mientras que los oyentes humanos identificaron correctamente apenas el 40 % de los deepfakes externos, confundiéndose en casi cuatro de cada cinco casos de voz generada por IA moderna. En última instancia, esto subraya la importancia de desarrollar sistemas automáticos robustos para identificar de manera fiable los deepfakes de voz y contrarrestar las amenazas emergentes.

URI

http://hdl.handle.net/11531/109587

Detección automática de audio generado por Inteligencia Artificial

Palabras Clave

aprendizaje de única clase, detección de "spoofing", "deepfakes", redes neuronales convolucionales (CNNs), síntesis de audio

Colecciones

Documentos de Trabajo