Detección automática de audio generado por Inteligencia Artificial

García Martínez-Echevarría, Victoria; Palacios Hielscher, Rafael; López López, Gregorio

dc.contributor.author	García Martínez-Echevarría, Victoria	es-ES
dc.contributor.author	Palacios Hielscher, Rafael	es-ES
dc.contributor.author	López López, Gregorio	es-ES
dc.date.accessioned	2026-04-15T04:25:42Z
dc.date.available	2026-04-15T04:25:42Z
dc.identifier.uri	http://hdl.handle.net/11531/109587
dc.description.abstract	Este proyecto investiga la detección automática de voces generadas por inteligencia artificial (IA), una tarea cada vez más relevante debido al uso creciente de deepfakes de audio para suplantación de identidad, fraude y desinformación. Partiendo del ASVspoof Challenge de 2019, se reentrenaron dos sistemas de referencia sobre un subconjunto equilibrado en duración de la partición Logical Access. Los audios se restringieron a duraciones de entre dos y cuatro segundos para eliminar posibles sesgos en los que los modelos atendieran a características temporales superficiales o basadas en la duración, en lugar de centrarse en las propiedades acústicas de las muestras. El primer sistema es un clasificador binario basado en redes neuronales convolucionales (CNN) que aprende la frontera entre audios reales y audios sintéticos. El segundo emplea una estrategia de aprendizaje de una sola clase (one-class learning) con ResNet-18 y OC-Softmax, modelando solo voz humana durante el entrenamiento para que el audio sintético se detecte como una anomalía en la inferencia. Se compararon cuatro representaciones de audio: espectrogramas, MFCC (Mel-Frequency Cepstral Coefficients), CQCC (Constant Q Cepstral Coefficients) y LFCC (Linear-Frequency Cepstral Coefficients), vinculando cada tipo de característica con la arquitectura más adecuada. La evaluación se realizó en los conjuntos de desarrollo y evaluación de ASVspoof 2019, así como en un dataset externo que incluye muestras deepfake de alta calidad generadas por motores comerciales de texto a voz y clonación de voz (PlayHT, Resemble AI, LOVO). Para medir las capacidades humanas, un juego en línea registró 1080 decisiones de oyentes, generando matrices de confusión y tasas de error para las mismas técnicas de spoofing. Los resultados muestran una jerarquía clara. Todos los modelos alcanzan precisión casi perfecta en los datos de entrenamiento, pero solo el sistema de one-class con LFCC mantiene un rendimiento sólido frente a ataques no vistos, logrando un 93 % de precisión en el conjunto de evaluación y un 88 % en las muestras externas, demostrando ser el más robusto a nivel global. Los modelos CNN basados en espectrogramas, MFCC y CQCC empeoran notablemente, mientras que los oyentes humanos identificaron correctamente apenas el 40 % de los deepfakes externos, confundiéndose en casi cuatro de cada cinco casos de voz generada por IA moderna. En última instancia, esto subraya la importancia de desarrollar sistemas automáticos robustos para identificar de manera fiable los deepfakes de voz y contrarrestar las amenazas emergentes.	es-ES
dc.description.abstract		en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	es-ES	es_ES
dc.rights		es_ES
dc.rights.uri		es_ES
dc.title	Detección automática de audio generado por Inteligencia Artificial	es_ES
dc.type	info:eu-repo/semantics/workingPaper	es_ES
dc.description.version	info:eu-repo/semantics/draft	es_ES
dc.rights.accessRights	info:eu-repo/semantics/restrictedAccess	es_ES
dc.keywords	aprendizaje de única clase, detección de "spoofing", "deepfakes", redes neuronales convolucionales (CNNs), síntesis de audio	es-ES
dc.keywords		en-GB

Files in this item

Name:: IIT-26-102C_poster.pdf
Size:: 288.2Kb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Documentos de Trabajo
WorkingPaper, ponencias invitadas y contribuciones en congresos no publicadas

Show simple item record