Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11531/106443| Título : | Clasificación de variantes genéticas relacionadas con cardiopatías hereditarias |
| Autor : | Carrero Muñiz, Dido González Martínez, Pelayo Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) |
| Fecha de publicación : | 2026 |
| Resumen : | El Trabajo de Fin de Grado titulado "Clasificación de variantes genéticas relacionadas con
cardiopatías hereditarias", elaborado por Pelayo González Martínez, presenta el desarrollo
y validación de un modelo de aprendizaje automático diseñado para clasificar
mutaciones genéticas como patogénicas o benignas. El objetivo principal es ofrecer una
herramienta de apoyo clínico para resolver el problema de las Variantes de Significado
Incierto (VUS), optimizando los tiempos de diagnóstico y mejorando la prevención en
patologías cardiovasculares.
La metodología comenzó con la extracción y limpieza de un amplio conjunto de datos de
la base pública ClinVar, resultando en más de 59.000 registros. Como clasificador base,
se eligió el algoritmo XGBoost debido a su excelente gestión de datos heterogéneos y
valores nulos. Para optimizar el rendimiento y garantizar que el modelo aprendiera reglas
biológicas en lugar de memorizar datos, se emplearon dos líneas de trabajo. Destaca la
segunda, que combinó el conocimiento clínico con el algoritmo de interpretabilidad
SHAP, eliminando variables que generaban ruido o sesgo (como identificadores de genes
exactos). Este enfoque redujo el riesgo de sobreajuste y ofreció gran transparencia en las
decisiones del modelo.
El modelo optimizado demostró un rendimiento sobresaliente, alcanzando una precisión
balanceada del 93.01% y un Área Bajo la Curva (AUC) de 0.9925. Finalmente, para
certificar su generalización, el algoritmo fue sometido a una validación externa con la
base de datos oncológica SpadaHC (enfocada en cáncer hereditario). Pese al cambio de
dominio de cardiología a oncología, el modelo mantuvo métricas excepcionales con un
AUC final de 0.9934, demostrando que logró extraer de forma universal las reglas de la
patogenicidad genética.
En conclusión, el proyecto aporta una solución robusta y auditable para la genética
clínica, agilizando el diagnóstico y alineándose fuertemente con los Objetivos de
Desarrollo Sostenible relativos a la salud, la innovación y la reducción de desigualdades. The Bachelor's Thesis entitled "Classification of Genetic Variants Related to Inherited Heart Disease," authored by Pelayo González Martínez, presents the development and validation of a machine learning model designed to classify genetic mutations as pathogenic or benign. The main objective is to provide a clinical support tool to address the problem of Variants of Uncertain Significance (VUS), optimizing diagnosis times and improving prevention in cardiovascular diseases. The methodology began with the extraction and cleaning of a large dataset from the public ClinVar database, resulting in over 59,000 records. The XGBoost algorithm was chosen as the base classifier due to its excellent handling of heterogeneous data and null values. To optimize performance and ensure that the model learned biological rules rather than simply memorizing data, two approaches were employed. The second approach combined clinical knowledge with the SHAP interpretability algorithm, eliminating variables that introduced noise or bias (such as exact gene identifiers). This approach reduced the risk of overfitting and provided greater transparency in the model's decisions. The optimized model demonstrated outstanding performance, achieving a balanced accuracy of 93.01% and an Area Under the Curve (AUC) of 0.9925. Finally, to certify its generalizability, the algorithm underwent external validation using the SpadaHC oncology database (focused on hereditary cancer). Despite the domain change from cardiology to oncology, the model maintained exceptional metrics with a final AUC of 0.9934, demonstrating its ability to universally extract the rules of genetic pathogenicity. In conclusion, the project provides a robust and auditable solution for clinical genetics, streamlining diagnosis and strongly aligning with the Sustainable Development Goals related to health, innovation, and reducing inequalities. |
| Descripción : | Grado en Ingeniería en Tecnologías de Telecomunicación y Grado en Análisis de Negocios/Business Analytics |
| URI : | http://hdl.handle.net/11531/106443 |
| Aparece en las colecciones: | TFG, TFM (temporales) |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| TFG_GonzalezMartinez, Pelayo.pdf | Trabajo Fin de Grado | 2,37 MB | Adobe PDF | Visualizar/Abrir |
| Anexo I_fdo.pdf | Autorización | 268,06 kB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.