• English
    • español
  • español 
    • English
    • español
  • Login
Ver ítem 
  •   DSpace Principal
  • 2.- Investigación
  • Documentos de Trabajo
  • Ver ítem
  •   DSpace Principal
  • 2.- Investigación
  • Documentos de Trabajo
  • Ver ítem
JavaScript is disabled for your browser. Some features of this site may not work without it.

Detección automática de audio generado por Inteligencia Artificial

Thumbnail
Ver/
IIT-26-102C_poster.pdf (288.2Kb)
Autor
García Martínez-Echevarría, Victoria
Palacios Hielscher, Rafael
López López, Gregorio
Estado
info:eu-repo/semantics/draft
Metadatos
Mostrar el registro completo del ítem
Mostrar METS del ítem
Ver registro en CKH

Refworks Export

Resumen
Este proyecto investiga la detección automática de voces generadas por inteligencia artificial (IA), una tarea cada vez más relevante debido al uso creciente de deepfakes de audio para suplantación de identidad, fraude y desinformación. Partiendo del ASVspoof Challenge de 2019, se reentrenaron dos sistemas de referencia sobre un subconjunto equilibrado en duración de la partición Logical Access. Los audios se restringieron a duraciones de entre dos y cuatro segundos para eliminar posibles sesgos en los que los modelos atendieran a características temporales superficiales o basadas en la duración, en lugar de centrarse en las propiedades acústicas de las muestras. El primer sistema es un clasificador binario basado en redes neuronales convolucionales (CNN) que aprende la frontera entre audios reales y audios sintéticos. El segundo emplea una estrategia de aprendizaje de una sola clase (one-class learning) con ResNet-18 y OC-Softmax, modelando solo voz humana durante el entrenamiento para que el audio sintético se detecte como una anomalía en la inferencia. Se compararon cuatro representaciones de audio: espectrogramas, MFCC (Mel-Frequency Cepstral Coefficients), CQCC (Constant Q Cepstral Coefficients) y LFCC (Linear-Frequency Cepstral Coefficients), vinculando cada tipo de característica con la arquitectura más adecuada. La evaluación se realizó en los conjuntos de desarrollo y evaluación de ASVspoof 2019, así como en un dataset externo que incluye muestras deepfake de alta calidad generadas por motores comerciales de texto a voz y clonación de voz (PlayHT, Resemble AI, LOVO). Para medir las capacidades humanas, un juego en línea registró 1080 decisiones de oyentes, generando matrices de confusión y tasas de error para las mismas técnicas de spoofing. Los resultados muestran una jerarquía clara. Todos los modelos alcanzan precisión casi perfecta en los datos de entrenamiento, pero solo el sistema de one-class con LFCC mantiene un rendimiento sólido frente a ataques no vistos, logrando un 93 % de precisión en el conjunto de evaluación y un 88 % en las muestras externas, demostrando ser el más robusto a nivel global. Los modelos CNN basados en espectrogramas, MFCC y CQCC empeoran notablemente, mientras que los oyentes humanos identificaron correctamente apenas el 40 % de los deepfakes externos, confundiéndose en casi cuatro de cada cinco casos de voz generada por IA moderna. En última instancia, esto subraya la importancia de desarrollar sistemas automáticos robustos para identificar de manera fiable los deepfakes de voz y contrarrestar las amenazas emergentes.
 
 
 
URI
http://hdl.handle.net/11531/109587
Detección automática de audio generado por Inteligencia Artificial
Palabras Clave
aprendizaje de única clase, detección de "spoofing", "deepfakes", redes neuronales convolucionales (CNNs), síntesis de audio

Colecciones
  • Documentos de Trabajo

Repositorio de la Universidad Pontificia Comillas copyright © 2015  Desarrollado con DSpace Software
Contacto | Sugerencias
 

 

Búsqueda semántica (CKH Explorer)


Listar

Todo DSpaceComunidades & ColeccionesPor fecha de publicaciónAutoresTítulosMateriasPor DirectorPor tipoEsta colecciónPor fecha de publicaciónAutoresTítulosMateriasPor DirectorPor tipo

Mi cuenta

AccederRegistro

Repositorio de la Universidad Pontificia Comillas copyright © 2015  Desarrollado con DSpace Software
Contacto | Sugerencias