Uncertainty-Aware Classification for Anthropological Data

Bayón Jiménez-Ugarte, Ignacio

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/94676

Título :	Uncertainty-Aware Classification for Anthropological Data
Autor :	Rodríguez Santana, Simón Bayón Jiménez-Ugarte, Ignacio Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación :	2025
Resumen :	Esta tesis explora la aplicación del Aprendizaje Automático Probabilístico (PML) a la clasificación de datos antropológicos derivados del Análisis de Textura de Microdesgaste Dental (DMTA) en primates africanos de la familia Cercopithecoidea. El DMTA proporciona medidas cuantitativas de la rugosidad del esmalte dental para inferir la dieta y el comportamiento ecológico, pero los conjuntos de datos disponibles suelen ser pequeños, ruidosos y redundantes, lo que limita el rendimiento de los modelos clásicos de aprendizaje automático. Para abordar estos desafíos, el proyecto desarrolla un pipeline de clasificación que incorpora la incertidumbre, que combina un preprocesamiento cuidadoso, la selección de variables y la inferencia bayesiana. El estudio compara tres conjuntos de variables (métricas ISO, variables SSFA y descriptores adicionales de textura) evaluando su valor predictivo tanto de forma individual como combinada. El preprocesamiento incluye pruebas de normalidad, transformación de variables no gaussianas y eliminación de valores atípicos. Además, se aplican métodos de reducción de la dimensionalidad (PCA, LDA, UMAP, t-SNE) tanto para la visualización como para detectar estructuras ocultas. Como referencia, se emplean clasificadores clásicos (LDA, QDA, Regresión Logística, Random Forests, Naïve Bayes) y redes neuronales poco profundas. La principal contribución es la implementación de un modelo de Regresión Logística Bayesiana Multinomial, con priors Gaussianos, Laplacianos y Spike-and-Slab, estimado mediante muestreo Markov Chain Monte Carlo (MCMC). Este enfoque no solo iguala el rendimiento predictivo de los modelos clásicos, sino que también proporciona distribuciones predictivas posteriores, ofreciendo información sobre la incertidumbre del modelo y la relevancia de las variables. Los resultados muestran que la selección de características mejora la estabilidad y que, en ciertos casos, algunas clases pueden distinguirse con base en una única variable. De forma crucial, los métodos bayesianos permiten a los antropólogos evaluar el grado de confianza en las predicciones, aumentando la interpretabilidad en contextos de datos limitados. El proyecto concluye que el PML bayesiano ofrece un marco robusto y transparente para tareas de clasificación antropológica y sugiere futuras extensiones con conjuntos de datos más amplios, modelos jerárquicos e inferencia variacional. This thesis explores the application of Probabilistic Machine Learning (PML) to the classification of anthropological data derived from Dental Microwear Texture Analysis (DMTA) in African primates of the Cercopithecoidea family. DMTA provides quantitative measures of enamel surface roughness to infer diet and ecological behavior, but the available datasets are typically small, noisy, and redundant, limiting the performance of traditional machine learning models. To address these challenges, the project develops an uncertainty-aware classification pipeline that combines careful preprocessing, feature selection, and Bayesian inference. The study compares three feature sets (ISO metrics, SSFA variables, and additional texture descriptors) evaluating their predictive value both individually and in combination. Preprocessing includes normality testing, transformation of non-Gaussian variables, and outlier removal. Dimensionality reduction methods (PCA, LDA, UMAP, t-SNE) are applied for visualization and to detect hidden structure. Classical classifiers (LDA, QDA, Logistic Regression, Random Forests, Naïve Bayes) and shallow neural networks are used as baselines. The core contribution is the implementation of a Multinomial Bayesian Logistic Regression model with Gaussian, Laplace, and Spike-and-Slab priors, estimated via Markov Chain Monte Carlo (MCMC) sampling. This approach not only matches the predictive performance of classical models but also provides posterior predictive distributions, offering insights into model uncertainty and feature informativeness. Results show that feature selection improves stability and that in certain cases, some classes can be distinguished based on a single feature. Importantly, Bayesian methods allow anthropologists to gauge confidence in predictions, enhancing interpretability under limited data conditions. The project concludes that Bayesian PML offers a robust and transparent framework for anthropological classification tasks and suggests future extensions with larger datasets, hierarchical models, and variational inference.
Descripción :	Grado en Ingeniería Matemática e Inteligencia Artificial
URI :	http://hdl.handle.net/11531/94676
Aparece en las colecciones:	TFG, TFM (temporales)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFG Ignacio Bayon Final.pdf	Trabajo Fin de Grado	2,34 MB	Adobe PDF	Visualizar/Abrir
Confirmacion de Autoria.pdf	Autorización	67,77 kB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro Dublin Core completo del ítem