Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/104407
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorPizarroso Gonzalo, Jaimees-ES
dc.contributor.advisorRodríguez Santana, Simónes-ES
dc.contributor.authorMarcos Gámez, María Fernandaes-ES
dc.contributor.otherUniversidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)es_ES
dc.date.accessioned2025-09-22T14:53:23Z-
dc.date.available2025-09-22T14:53:23Z-
dc.date.issued2026es_ES
dc.identifier.urihttp://hdl.handle.net/11531/104407es_ES
dc.descriptionGrado en Ingeniería Matemática e Inteligencia Artificiales_ES
dc.description.abstractEste proyecto desarrolla un marco de inteligencia artificial explicable para la predicción de toxicidad molecular utilizando el conjunto de datos Tox21, un benchmark ampliamente utilizado que contiene doce endpoints toxicológicos relacionados con la señalización de receptores nucleares y las vías celulares de respuesta al estrés. Las moléculas se representan mediante fingerprints de Morgan de 2048 bits y radio 2, una descripción molecular ampliamente utilizada que codifica subestructuras químicas locales como variables binarias. Para establecer una referencia de rendimiento, se entrenaron varios modelos clásicos de aprendizaje automático de forma independiente para cada endpoint, incluyendo regresión logística, random forest y XGBoost. Posteriormente, su desempeño se comparó con el de una red neuronal profunda (Deep Neural Network, DNN), que constituyó el modelo principal del estudio. Debido al fuerte desbalance de clases presente en Tox21, la evaluación se centró en métricas adecuadas para este tipo de problemas, como Balanced Accuracy y ROC-AUC. Uno de los objetivos fundamentales del trabajo fue no solo predecir la toxicidad, sino también comprender qué características moleculares impulsan dichas predicciones. Para ello, se aplicaron tres técnicas de inteligencia artificial explicable (XAI): permutation importance, SHAP y análisis de sensibilidad neuronal. Los experimentos iniciales realizados a nivel de bit individual mostraron explicaciones poco estables y difíciles de interpretar. Para solucionar este problema, los 2048 bits de los fingerprints se agruparon en 300 clústeres según su estructura de correlación, permitiendo generar explicaciones a nivel de motivos químicos más amplios y coherentes. Finalmente, los clústeres identificados como más relevantes por los métodos de explicabilidad fueron sometidos a un análisis de enriquecimiento. Dado que únicamente una pequeña proporción de las moléculas del conjunto de datos está etiquetada como tóxica, se calcularon factores de enriquecimiento para determinar si los compuestos asociados a cada clúster estaban sobrerrepresentados entre las moléculas tóxicas. Los resultados obtenidos se contrastaron posteriormente con toxicóforos descritos en la literatura de química medicinal, proporcionando una validación externa de la relevancia química y la plausibilidad de las explicaciones generadas por los modelos.es-ES
dc.description.abstractThis project develops an explainable artificial intelligence framework for molecular toxicity prediction using the Tox21 benchmark dataset, which contains twelve toxicity endpoints related to nuclear receptor signalling and cellular stress-response pathways. Molecules are first represented using 2048-bit Morgan fingerprints with radius 2, a widely used descriptor that encodes local molecular substructures as binary features. To establish predictive baselines, several classical machine learning models were trained independently for each endpoint, including Logistic Regression, Random Forest, and XGBoost. Their performance was then compared against a Deep Neural Network (DNN), which served as the primary predictive model throughout the study. Given the strong class imbalance present in Tox21, model evaluation focused on metrics robust to skewed class distributions, such as Balanced Accuracy and ROC-AUC. A central objective of the project was not only to predict toxicity, but also to understand which molecular features drive those predictions. To achieve this, three explainable AI (XAI) techniques were applied: permutation importance, SHAP, and neural sensitivity analysis. Initial experiments at the individual fingerprint-bit level revealed that explanations were unstable and difficult to interpret. To address this limitation, the 2048 fingerprint bits were grouped into 300 clusters based on their correlation structure, allowing explanations to be generated at the level of broader chemical motifs rather than isolated features. Finally, the most important clusters identified by the explainability methods were validated using an enrichment analysis. Because only a small fraction of molecules in Tox21 are labelled as toxic, enrichment factors were used to determine whether cluster-associated molecules were overrepresented among toxic compounds. The resulting candidate toxic clusters were then compared against known toxicophores reported in the medicinal chemistry literature, providing an external validation of the chemical relevance and plausibility of the model explanations.en-GB
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoen-GBes_ES
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United Stateses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/es_ES
dc.subject.otherKMIes_ES
dc.titleAI models for biochemistry applicationses_ES
dc.typeinfo:eu-repo/semantics/bachelorThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.keywordsXAI; SHAP; Tox21; redes neuronales profundas; importancia por permutación de clústeres; sensibilidad neuronal.es-ES
dc.keywordsXAI; SHAP; Tox21; deep neural networks; cluster permutation importance; neural sensitivityen-GB
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFG_MarcosGamez_MariaFernanda.pdfTrabajo Fin de Grado2,09 MBAdobe PDFVisualizar/Abrir
AnexoI_MarcosGamez_MariaFernanda.pdfAutorización180,54 kBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.