Detección automática de audio generado por Inteligencia Artificial
Resumen
La accesibilidad y el creciente realismo de los sistemas modernos de síntesis y conversión de voz han intensificado la necesidad de mecanismos fiables para detectar audios generados por Inteligencia Artificial en contextos conrequisitos críticos de seguridad. Este artículo analiza la detección automática de voz sintética en un entorno de duración controlada (2-4 segundos) mediante el reentrenamiento de dos sistemas de referencia del conjunto Logical Access del ASVspoof 2019 Challenge. El primero es una red convolucional residual entrenada como clasificador binario, mientras que el segundo adopta una estrategia de aprendizaje de una sola clase con arquitectura ResNet-18. Además, se comparan los resultados de un estudio de identificación realizado con usuarios a través de una plataforma web. Los resultados experimentales muestran que el enfoque de una sola clase generaliza mejor frente a ataques no vistos; en cambio, los humanos cometen más errores, especialmente ante voces sintéticas modernas de alta calidad.
Detección automática de audio generado por Inteligencia Artificial

