Mostrar el registro sencillo del ítem
Automatic detection of AI generated Audios
dc.contributor.advisor | Palacios Hielscher, Rafael | es-ES |
dc.contributor.advisor | López López, Gregorio | es-ES |
dc.contributor.author | García Martínez-Echevarría, Victoria | es-ES |
dc.contributor.other | Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) | es_ES |
dc.date.accessioned | 2025-02-06T16:04:12Z | |
dc.date.available | 2025-02-06T16:04:12Z | |
dc.date.issued | 2025 | es_ES |
dc.identifier.uri | http://hdl.handle.net/11531/97308 | |
dc.description | Grado en Ingeniería Matemática e Inteligencia Artificial | es_ES |
dc.description.abstract | Este proyecto investiga la detección automática de voces generadas por inteligencia artificial (IA), una tarea cada vez más relevante debido al uso creciente de audio deepfakes para suplantación, fraude y desinformación. Basándose en el ASVspoof Challenge de 2019, se reentrenaron dos sistemas de referencia sobre un subconjunto equilibrado en duración de la partición Logical Access. El primer sistema es un clasificador binario basado en redes neuronales convolucionales (CNN) que aprende la frontera entre audios reales y audios sintéticos. El segundo emplea una estrategia de aprendizaje de una sola clase (one-class learning) con ResNet-18 y OC-Softmax, modelando solo voz humana durante el entrenamiento para que el audio sintético se detecte como una anomalía en la inferencia. Se compararon cuatro representaciones de audio—espectrogramas, MFCC, CQCC y LFCC—vinculando cada tipo de característica con la arquitectura más adecuada. La evaluación se realizó en los conjuntos de desarrollo y evaluación de ASVspoof 2019, así como en un dataset externo que incluye deepfakes de alta calidad generados por motores comerciales de texto a voz y clonación de voz (PlayHT, Resemble AI, LOVO). Para medir las capacidades humanas, un juego en línea registró 1080 decisiones de oyentes, generando matrices de confusión y tasas de error para las mismas técnicas de spoofing. Los resultados muestran una jerarquía clara. Todos los modelos alcanzan precisión casi perfecta en los datos de entrenamiento, pero solo el sistema de one-class con LFCC mantiene un rendimiento sólido frente a ataques no vistos, logrando un 93 % de precisión en el conjunto de evaluación y un 88 % en las muestras externas. Los modelos CNN basados en espectrogramas, MFCC y CQCC empeoran notablemente, mientras que los oyentes humanos identificaron correctamente apenas el 40 % de los deepfakes externos, confundiéndose en casi cuatro de cada cinco casos de voz generada por IA moderna. | es-ES |
dc.description.abstract | This project investigates the automatic detection of AI-generated speech, a task of growing importance as increasingly realistic audio deepfakes are exploited for impersonation, fraud, and disinformation. Building on the ASVspoof 2019 Challenge, two reference systems were retrained on a duration-balanced subset of the Logical Access partition. The first system is a convolutional neural-network (CNN) classifier that learns a binary decision boundary between bona-fide and spoofed speech. The second employs a one-class learning strategy based on ResNet-18 and OC-Softmax, modeling only genuine speech during training so that synthetic audio appears as an anomaly at inference time. Four acoustic representations—spectrograms, MFCC, CQCC and LFCC—were compared, with each feature paired to its most suitable architecture. Evaluation was conducted on the development and evaluation splits of ASVspoof 2019, as well as on an external dataset including high-quality deepfake samples generated by commercial text-to-speech and voice cloning engines (PlayHT, Resemble AI, LOVO). To benchmark human capabilities, an online game recorded 1,080 listener decisions, producing confusion matrices and error rates for the same spoofing techniques. Results show a clear hierarchy. All models reached near-perfect accuracy on training data, yet only the LFCC one-class system maintained strong performance on unseen attacks, achieving 93 % accuracy on the evaluation set and 88 % on external samples. CNN models using spectrogram, MFCC and CQCC features degraded substantially, while human listeners correctly identified barely 40 % of the external fakes and misclassified almost four out of five modern AI-generated voices. | en-GB |
dc.format.mimetype | application/pdf | es_ES |
dc.language.iso | en-GB | es_ES |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES |
dc.subject.other | KMI | es_ES |
dc.title | Automatic detection of AI generated Audios | es_ES |
dc.type | info:eu-repo/semantics/bachelorThesis | es_ES |
dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES |
dc.keywords | Voces generadas por IA, detección de spoofing, red convolucional residual (residual CNN), one-class learning | es-ES |
dc.keywords | AI-generated speech, spoofing detection, residual CNN, one-class learning | en-GB |