Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/106443
Título : Clasificación de variantes genéticas relacionadas con cardiopatías hereditarias
Autor : Carrero Muñiz, Dido
González Martínez, Pelayo
Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)
Fecha de publicación : 2026
Resumen : El Trabajo de Fin de Grado titulado "Clasificación de variantes genéticas relacionadas con cardiopatías hereditarias", elaborado por Pelayo González Martínez, presenta el desarrollo y validación de un modelo de aprendizaje automático diseñado para clasificar mutaciones genéticas como patogénicas o benignas. El objetivo principal es ofrecer una herramienta de apoyo clínico para resolver el problema de las Variantes de Significado Incierto (VUS), optimizando los tiempos de diagnóstico y mejorando la prevención en patologías cardiovasculares. La metodología comenzó con la extracción y limpieza de un amplio conjunto de datos de la base pública ClinVar, resultando en más de 59.000 registros. Como clasificador base, se eligió el algoritmo XGBoost debido a su excelente gestión de datos heterogéneos y valores nulos. Para optimizar el rendimiento y garantizar que el modelo aprendiera reglas biológicas en lugar de memorizar datos, se emplearon dos líneas de trabajo. Destaca la segunda, que combinó el conocimiento clínico con el algoritmo de interpretabilidad SHAP, eliminando variables que generaban ruido o sesgo (como identificadores de genes exactos). Este enfoque redujo el riesgo de sobreajuste y ofreció gran transparencia en las decisiones del modelo. El modelo optimizado demostró un rendimiento sobresaliente, alcanzando una precisión balanceada del 93.01% y un Área Bajo la Curva (AUC) de 0.9925. Finalmente, para certificar su generalización, el algoritmo fue sometido a una validación externa con la base de datos oncológica SpadaHC (enfocada en cáncer hereditario). Pese al cambio de dominio de cardiología a oncología, el modelo mantuvo métricas excepcionales con un AUC final de 0.9934, demostrando que logró extraer de forma universal las reglas de la patogenicidad genética. En conclusión, el proyecto aporta una solución robusta y auditable para la genética clínica, agilizando el diagnóstico y alineándose fuertemente con los Objetivos de Desarrollo Sostenible relativos a la salud, la innovación y la reducción de desigualdades.
The Bachelor's Thesis entitled "Classification of Genetic Variants Related to Inherited Heart Disease," authored by Pelayo González Martínez, presents the development and validation of a machine learning model designed to classify genetic mutations as pathogenic or benign. The main objective is to provide a clinical support tool to address the problem of Variants of Uncertain Significance (VUS), optimizing diagnosis times and improving prevention in cardiovascular diseases. The methodology began with the extraction and cleaning of a large dataset from the public ClinVar database, resulting in over 59,000 records. The XGBoost algorithm was chosen as the base classifier due to its excellent handling of heterogeneous data and null values. To optimize performance and ensure that the model learned biological rules rather than simply memorizing data, two approaches were employed. The second approach combined clinical knowledge with the SHAP interpretability algorithm, eliminating variables that introduced noise or bias (such as exact gene identifiers). This approach reduced the risk of overfitting and provided greater transparency in the model's decisions. The optimized model demonstrated outstanding performance, achieving a balanced accuracy of 93.01% and an Area Under the Curve (AUC) of 0.9925. Finally, to certify its generalizability, the algorithm underwent external validation using the SpadaHC oncology database (focused on hereditary cancer). Despite the domain change from cardiology to oncology, the model maintained exceptional metrics with a final AUC of 0.9934, demonstrating its ability to universally extract the rules of genetic pathogenicity. In conclusion, the project provides a robust and auditable solution for clinical genetics, streamlining diagnosis and strongly aligning with the Sustainable Development Goals related to health, innovation, and reducing inequalities.
Descripción : Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Análisis de Negocios/Business Analytics
URI : http://hdl.handle.net/11531/106443
Aparece en las colecciones: TFG, TFM (temporales)

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TFG_GonzalezMartinez, Pelayo.pdfTrabajo Fin de Grado2,37 MBAdobe PDFVisualizar/Abrir
Anexo I_fdo.pdfAutorización268,06 kBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.