<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns="http://www.w3.org/2005/Atom">
<title>KMI-Trabajos Fin de Grado</title>
<link href="http://hdl.handle.net/11531/70001" rel="alternate"/>
<subtitle/>
<id>http://hdl.handle.net/11531/70001</id>
<updated>2026-04-07T09:14:04Z</updated>
<dc:date>2026-04-07T09:14:04Z</dc:date>
<entry>
<title>Automatic detection of AI generated Audios</title>
<link href="http://hdl.handle.net/11531/97308" rel="alternate"/>
<author>
<name>García Martínez-Echevarría, Victoria</name>
</author>
<id>http://hdl.handle.net/11531/97308</id>
<updated>2025-09-18T11:19:59Z</updated>
<published>2025-01-01T00:00:00Z</published>
<summary type="text">Automatic detection of AI generated Audios
García Martínez-Echevarría, Victoria
Este proyecto investiga la detección automática de voces generadas por inteligencia artificial (IA), una tarea cada vez más relevante debido al uso creciente de audio deepfakes para suplantación, fraude y desinformación. Basándose en el ASVspoof Challenge de 2019, se reentrenaron dos sistemas de referencia sobre un subconjunto equilibrado en duración de la partición Logical Access. El primer sistema es un clasificador binario basado en redes neuronales convolucionales (CNN) que aprende la frontera entre audios reales y audios sintéticos. El segundo emplea una estrategia de aprendizaje de una sola clase (one-class learning) con ResNet-18 y OC-Softmax, modelando solo voz humana durante el entrenamiento para que el audio sintético se detecte como una anomalía en la inferencia.

Se compararon cuatro representaciones de audio—espectrogramas, MFCC, CQCC y LFCC—vinculando cada tipo de característica con la arquitectura más adecuada. La evaluación se realizó en los conjuntos de desarrollo y evaluación de ASVspoof 2019, así como en un dataset externo que incluye deepfakes de alta calidad generados por motores comerciales de texto a voz y clonación de voz (PlayHT, Resemble AI, LOVO). Para medir las capacidades humanas, un juego en línea registró 1080 decisiones de oyentes, generando matrices de confusión y tasas de error para las mismas técnicas de spoofing.

Los resultados muestran una jerarquía clara. Todos los modelos alcanzan precisión casi perfecta en los datos de entrenamiento, pero solo el sistema de one-class con LFCC mantiene un rendimiento sólido frente a ataques no vistos, logrando un 93 % de precisión en el conjunto de evaluación y un 88 % en las muestras externas. Los modelos CNN basados en espectrogramas, MFCC y CQCC empeoran notablemente, mientras que los oyentes humanos identificaron correctamente apenas el 40 % de los deepfakes externos, confundiéndose en casi cuatro de cada cinco casos de voz generada por IA moderna.; This project investigates the automatic detection of AI-generated speech, a task of growing importance as increasingly realistic audio deepfakes are exploited for impersonation, fraud, and disinformation. Building on the ASVspoof 2019 Challenge, two reference systems were retrained on a duration-balanced subset of the Logical Access partition. The first system is a convolutional neural-network (CNN) classifier that learns a binary decision boundary between bona-fide and spoofed speech. The second employs a one-class learning strategy based on ResNet-18 and OC-Softmax, modeling only genuine speech during training so that synthetic audio appears as an anomaly at inference time.

Four acoustic representations—spectrograms, MFCC, CQCC and LFCC—were compared, with each feature paired to its most suitable architecture. Evaluation was conducted on the development and evaluation splits of ASVspoof 2019, as well as on an external dataset including high-quality deepfake samples generated by commercial text-to-speech and voice cloning engines (PlayHT, Resemble AI, LOVO). To benchmark human capabilities, an online game recorded 1,080 listener decisions, producing confusion matrices and error rates for the same spoofing techniques.

Results show a clear hierarchy. All models reached near-perfect accuracy on training data, yet only the LFCC one-class system maintained strong performance on unseen attacks, achieving 93 % accuracy on the evaluation set and 88 % on external samples. CNN models using spectrogram, MFCC and CQCC features degraded substantially, while human listeners correctly identified barely 40 % of the external fakes and misclassified almost four out of five modern AI-generated voices.
Grado en Ingeniería Matemática e Inteligencia Artificial
</summary>
<dc:date>2025-01-01T00:00:00Z</dc:date>
</entry>
<entry>
<title>AudioMind: Modelos Inteligentes para Procesamiento y Transformación de Sonido mediane IA Generativ</title>
<link href="http://hdl.handle.net/11531/97178" rel="alternate"/>
<author>
<name>Freire Arias, Mario</name>
</author>
<id>http://hdl.handle.net/11531/97178</id>
<updated>2025-09-18T11:19:59Z</updated>
<published>2025-01-01T00:00:00Z</published>
<summary type="text">AudioMind: Modelos Inteligentes para Procesamiento y Transformación de Sonido mediane IA Generativ
Freire Arias, Mario
Este trabajo explora las tareas de reducción de ruido, la compresión de señales y la separación en fuentes dentro del campo de procesamiento de audio mediante distintas técnicas de IA. En estas tareas se han explorado dos representaciones de audio: forma de onda (tanto en el dominio del tiempo como en el de la frecuencia) y embeddings de audio. Estos estudios además están sujetos a la restricción de poder realizarse con una capacidad limitada de memoria de GPU (6 GB) durante el entrenamiento. Los modelos resultantes ofrecen distintas pistas acerca de los requisitos de escala en cada caso.; This work explores the tasks of noise reduction, signal compression, and source separation within the field of audio processing using various AI techniques. Two audio representations are investigated for these tasks: the waveform (in both the time and frequency domains) and audio embeddings. All studies are also constrained by the requirement to operate within a limited GPU memory capacity (6 GB) during training. The resulting models provide valuable insights into the scaling requirements for each case.
Grado en Ingeniería Matemática e Inteligencia Artificial
</summary>
<dc:date>2025-01-01T00:00:00Z</dc:date>
</entry>
<entry>
<title>Uso de la profundidad para la segmentación semántica en aplicaciones de realidad extendida</title>
<link href="http://hdl.handle.net/11531/97076" rel="alternate"/>
<author>
<name>Pedrós Tobaruela, Sofía</name>
</author>
<id>http://hdl.handle.net/11531/97076</id>
<updated>2025-09-18T11:19:59Z</updated>
<published>2025-01-01T00:00:00Z</published>
<summary type="text">Uso de la profundidad para la segmentación semántica en aplicaciones de realidad extendida
Pedrós Tobaruela, Sofía
Las tecnologías de Realidad Extendida (XR) ofrecen experiencias inmersivas que combinan entornos virtuales y reales. Para lograr una experiencia inmersiva óptima, es fundamental que los usuarios se sientan integrados en la escena virtual. Para ello, debería incorporarse una representación del usuario dentro del entorno virtual. Esto suele lograrse mediante avatares basados en video, creados a través de segmentación semántica egocéntrica. En este proceso, el cuerpo del usuario se segmenta de un video capturado desde una perspectiva en primera persona y luego se incorpora al mundo virtual.
Este trabajo evalúa la integración de información de profundidad para mejorar la creación de estos avatares, con el objetivo de representar de forma más precisa el cuerpo del usuario y, en consecuencia, mejorar su percepción dentro de las aplicaciones XR. La profundidad, potencialmente, puede mejorar la calidad de la segmentación al reducir los falsos positivos en el fondo, y además permite una reconstrucción en 3D del cuerpo del usuario para mejorar la percepción de distancias.
En particular, presentamos un modelo de segmentación semántica en tiempo real mejorado con profundidad, entrenado con un conjunto de datos egocéntricos RGB-D, junto con un enfoque en el que el avatar basado en video se reconstruye como una nube de puntos 3D en la aplicación final.
Este trabajo muestra que el uso de profundidad mejora el rendimiento de la segmentación, con un incremento relativo del 13,75 % en la métrica mIoU (Intersección sobre Unión media) y una mejora del 39,6 % en la percepción subjetiva. Además, representar al usuario como una nube de puntos 3D mejora la percepción de distancias en un 11 % en entornos XR, comparado con implementaciones anteriores que no incorporan profundidad.; Extended Reality (XR) technologies offer immersive experiences that blend virtual and real environments. For an optimal immersion experience, users must feel integrated within the virtual scene. Therefore, an accurate depiction of the user should be incorporated into the virtual environment. This is often achieved by means of video-based self-avatars created via egocentric semantic segmentation. In this process, the user's body is segmented from a self-captured first-person video and incorporated into the virtual world.

The present work evaluates the integration of depth to enhance the creation of these self-avatars to improve the representation of the user's body, thereby enhancing the user's perception within the XR application. Depth can potentially improve the segmentation quality, by reducing the rate of false positives in the background, and allow a 3D reconstruction of the user’s body to improve distance perception. More specifically, we introduce a real-time depth-enhanced semantic segmentation model, trained with a RGB-D egocentric dataset, and an approach where the user's video-based self-avatar is reconstructed as a 3D point cloud in the final application.
 
We show that using depth improves segmentation performance, with a 13.75% relative increase in mIoU (mean Intersection Over Union) and a 39.6% gain in subjective quality. Furthermore, representing the user as a 3D point cloud enhances distance perception (by 11%) in XR compared to previous implementations that do not include depth.
Grado en Ingeniería Matemática e Inteligencia Artificial
</summary>
<dc:date>2025-01-01T00:00:00Z</dc:date>
</entry>
<entry>
<title>Maximización con técnicas metaheurísticas de la región de visibilidad de alcance limitado de un punto en un polígono.</title>
<link href="http://hdl.handle.net/11531/94999" rel="alternate"/>
<author>
<name>Kroll Merino, Mario</name>
</author>
<id>http://hdl.handle.net/11531/94999</id>
<updated>2025-09-18T11:19:59Z</updated>
<published>2025-01-01T00:00:00Z</published>
<summary type="text">Maximización con técnicas metaheurísticas de la región de visibilidad de alcance limitado de un punto en un polígono.
Kroll Merino, Mario
El Trabajo Fin de Grado aborda un problema clásico y de gran relevancia en la geometría computacional: encontrar el punto dentro de un polígono simple cuya región de visibilidad, considerando un alcance limitado, sea máxima. Este problema tiene aplicaciones en campos como la robótica, la planificación urbana y la computación gráfica. Dado que el problema es de tipo NP-hard, se opta por utilizar técnicas metaheurísticas para encontrar soluciones aproximadas en tiempos razonables. Concretamente, se emplean tres técnicas: Algoritmo Genético, Simulated Annealing y Búsqueda Tabú, las dos últimas combinadas además con Random Search para mejorar la calidad de las soluciones iniciales. Para facilitar el cálculo del área visible desde un punto, se desarrollan dos nuevos algoritmos que estiman dicha región con complejidades cuadrática y lineal, respectivamente. El estudio incluye la generación aleatoria de 100 polígonos de 25 vértices y una aplicación interactiva que permite visualizar el funcionamiento de los algoritmos. En los experimentos, el Algoritmo Genético obtiene los mejores resultados en términos de área cubierta, pero a costa de un mayor tiempo de ejecución. Por otro lado, Simulated Annealing y Búsqueda Tabú, especialmente cuando se inicializan con Random Search, logran resultados competitivos con tiempos de cómputo más bajos. En conclusión, el trabajo propone una solución eficaz a un problema complejo, desarrollando nuevas herramientas algorítmicas y demostrando que la combinación de búsqueda aleatoria con metaheurísticas locales puede ofrecer un buen equilibrio entre calidad y eficiencia computacional.; The Final Degree Project addresses a classic and highly relevant problem in computational geometry: finding the point inside a simple polygon whose visibility region, considering a limited range, is maximized. This problem has applications in fields such as robotics, urban planning, and computer graphics. Since the problem is NP-hard, metaheuristic techniques are employed to find approximate solutions within reasonable time frames. Specifically, three techniques are used: Genetic Algorithm, Simulated Annealing, and Tabu Search—the latter two combined with Random Search to improve the quality of the initial solutions. To facilitate the calculation of the visible area from a point, two new algorithms are developed with quadratic and linear complexities, respectively. The study includes the random generation of 100 polygons with 25 vertices and an interactive application that allows for visualizing the operation of the algorithms. In the experiments, the Genetic Algorithm achieves the best results in terms of area covered, albeit with a significantly higher execution time. On the other hand, Simulated Annealing and Tabu Search—especially when initialized with Random Search—achieve competitive results with lower computational costs. In conclusion, the project proposes an effective solution to a complex problem by developing new algorithmic tools and demonstrating that combining random search with local metaheuristic techniques can offer a good balance between solution quality and computational efficiency.
Grado en Ingeniería Matemática e Inteligencia Artificial
</summary>
<dc:date>2025-01-01T00:00:00Z</dc:date>
</entry>
</feed>
