AI models for biochemistry applications

Marcos Gámez, María Fernanda

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/104407

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Pizarroso Gonzalo, Jaime	es-ES
dc.contributor.advisor	Rodríguez Santana, Simón	es-ES
dc.contributor.author	Marcos Gámez, María Fernanda	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)	es_ES
dc.date.accessioned	2025-09-22T14:53:23Z	-
dc.date.available	2025-09-22T14:53:23Z	-
dc.date.issued	2026	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/104407	es_ES
dc.description	Grado en Ingeniería Matemática e Inteligencia Artificial	es_ES
dc.description.abstract	Este proyecto desarrolla un marco de inteligencia artificial explicable para la predicción de toxicidad molecular utilizando el conjunto de datos Tox21, un benchmark ampliamente utilizado que contiene doce endpoints toxicológicos relacionados con la señalización de receptores nucleares y las vías celulares de respuesta al estrés. Las moléculas se representan mediante fingerprints de Morgan de 2048 bits y radio 2, una descripción molecular ampliamente utilizada que codifica subestructuras químicas locales como variables binarias. Para establecer una referencia de rendimiento, se entrenaron varios modelos clásicos de aprendizaje automático de forma independiente para cada endpoint, incluyendo regresión logística, random forest y XGBoost. Posteriormente, su desempeño se comparó con el de una red neuronal profunda (Deep Neural Network, DNN), que constituyó el modelo principal del estudio. Debido al fuerte desbalance de clases presente en Tox21, la evaluación se centró en métricas adecuadas para este tipo de problemas, como Balanced Accuracy y ROC-AUC. Uno de los objetivos fundamentales del trabajo fue no solo predecir la toxicidad, sino también comprender qué características moleculares impulsan dichas predicciones. Para ello, se aplicaron tres técnicas de inteligencia artificial explicable (XAI): permutation importance, SHAP y análisis de sensibilidad neuronal. Los experimentos iniciales realizados a nivel de bit individual mostraron explicaciones poco estables y difíciles de interpretar. Para solucionar este problema, los 2048 bits de los fingerprints se agruparon en 300 clústeres según su estructura de correlación, permitiendo generar explicaciones a nivel de motivos químicos más amplios y coherentes. Finalmente, los clústeres identificados como más relevantes por los métodos de explicabilidad fueron sometidos a un análisis de enriquecimiento. Dado que únicamente una pequeña proporción de las moléculas del conjunto de datos está etiquetada como tóxica, se calcularon factores de enriquecimiento para determinar si los compuestos asociados a cada clúster estaban sobrerrepresentados entre las moléculas tóxicas. Los resultados obtenidos se contrastaron posteriormente con toxicóforos descritos en la literatura de química medicinal, proporcionando una validación externa de la relevancia química y la plausibilidad de las explicaciones generadas por los modelos.	es-ES
dc.description.abstract	This project develops an explainable artificial intelligence framework for molecular toxicity prediction using the Tox21 benchmark dataset, which contains twelve toxicity endpoints related to nuclear receptor signalling and cellular stress-response pathways. Molecules are first represented using 2048-bit Morgan fingerprints with radius 2, a widely used descriptor that encodes local molecular substructures as binary features. To establish predictive baselines, several classical machine learning models were trained independently for each endpoint, including Logistic Regression, Random Forest, and XGBoost. Their performance was then compared against a Deep Neural Network (DNN), which served as the primary predictive model throughout the study. Given the strong class imbalance present in Tox21, model evaluation focused on metrics robust to skewed class distributions, such as Balanced Accuracy and ROC-AUC. A central objective of the project was not only to predict toxicity, but also to understand which molecular features drive those predictions. To achieve this, three explainable AI (XAI) techniques were applied: permutation importance, SHAP, and neural sensitivity analysis. Initial experiments at the individual fingerprint-bit level revealed that explanations were unstable and difficult to interpret. To address this limitation, the 2048 fingerprint bits were grouped into 300 clusters based on their correlation structure, allowing explanations to be generated at the level of broader chemical motifs rather than isolated features. Finally, the most important clusters identified by the explainability methods were validated using an enrichment analysis. Because only a small fraction of molecules in Tox21 are labelled as toxic, enrichment factors were used to determine whether cluster-associated molecules were overrepresented among toxic compounds. The resulting candidate toxic clusters were then compared against known toxicophores reported in the medicinal chemistry literature, providing an external validation of the chemical relevance and plausibility of the model explanations.	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	en-GB	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject.other	KMI	es_ES
dc.title	AI models for biochemistry applications	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.keywords	XAI; SHAP; Tox21; redes neuronales profundas; importancia por permutación de clústeres; sensibilidad neuronal.	es-ES
dc.keywords	XAI; SHAP; Tox21; deep neural networks; cluster permutation importance; neural sensitivity	en-GB
Aparece en las colecciones:	TFG, TFM (temporales)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFG_MarcosGamez_MariaFernanda.pdf	Trabajo Fin de Grado	2,09 MB	Adobe PDF	Visualizar/Abrir
AnexoI_MarcosGamez_MariaFernanda.pdf	Autorización	180,54 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem