Detección temprana de depresión mediante señales de voz

Santos González, Diego de los

dc.contributor.advisor	Carrero Muñiz, Dido	es-ES
dc.contributor.author	Santos González, Diego de los	es-ES
dc.contributor.other	Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI)	es_ES
dc.date.accessioned	2025-09-21T10:17:48Z
dc.date.available	2025-09-21T10:17:48Z
dc.date.issued	2026	es_ES
dc.identifier.uri	http://hdl.handle.net/11531/104368
dc.description	Grado en Ingeniería en Tecnologías de Telecomunicación	es_ES
dc.description.abstract	La voz no solo transmite lo que una persona dice. En una grabación quedan también pequeñas variaciones de ritmo, intensidad, pausas y estabilidad vocal que pueden cambiar cuando existe una alteración emocional. A partir de esa idea se plantea este trabajo, centrado en estudiar si esas diferencias acústicas pueden ayudar a distinguir distintos estados relacionados con depresión sin utilizar texto, imagen ni otras señales biomédicas. El punto de partida fue un conjunto de grabaciones etiquetadas en tres grupos: ausencia de depresión, depresión grado 1 y depresión grado 2. Cada audio se convirtió en variables numéricas extraídas directamente de la señal, de forma que los modelos pudieran trabajar sobre información medible y no sobre una valoración subjetiva del habla. Al analizar las muestras apareció una dificultad clara. Los casos sin depresión y los más severos quedaban mejor separados, mientras que la clase intermedia se mezclaba con ambas zonas. Esa frontera poco limpia se veía en las matrices de confusión y volvía a aparecer al representar los datos mediante KDE, PCA y clustering. Tras comparar varios clasificadores, CatBoost fue el modelo seleccionado por su equilibrio entre rendimiento y estabilidad. Las pruebas con datos internos y externos mostraron predicciones consistentes, aunque los estados intermedios siguieron siendo la parte más difícil del problema. El trabajo deja una base técnica para seguir explorando el análisis automático de voz como apoyo en contextos de salud mental.	es-ES
dc.description.abstract	The voice conveys more than just what a person says. A recording also captures subtle variations in rhythm, intensity, pauses, and vocal stability that can change when a person is emotionally distressed. This research project is based on that idea and focuses on investigating whether these acoustic differences can help distinguish various states related to depression without using text, images, or other biomedical signals. The starting point was a set of recordings labeled into three groups: no depression, grade 1 depression, and grade 2 depression. Each audio clip was converted into numerical variables extracted directly from the signal, so that the models could work with measurable information rather than a subjective assessment of speech. Upon analyzing the samples, a clear difficulty emerged. The cases without depression and the most severe ones were better separated, while the intermediate class overlapped with both groups. This blurred boundary was evident in the confusion matrices and reappeared when representing the data using KDE, PCA, and clustering. After comparing several classifiers, CatBoost was selected for its balance between performance and stability. Tests with internal and external data showed consistent predictions, although intermediate states remained the most challenging part of the problem. ThE work lays a technical foundation for further exploration of automatic voice analysis as a tool in mental health settings	en-GB
dc.format.mimetype	application/pdf	es_ES
dc.language.iso	en-GB	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 United States	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/us/	es_ES
dc.subject.other	KTT (GITT)	es_ES
dc.title	Detección temprana de depresión mediante señales de voz	es_ES
dc.type	info:eu-repo/semantics/bachelorThesis	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.keywords	señales de voz depresión Aprendizaje supervisado Clasificación multiclase Características acústicas Machine Learning	es-ES
dc.keywords	voice signals depression Supervised learning Multi-class classification Acoustic features Machine learning	en-GB

Files in this item

Name:: Trabajo de Final de Grado - Diego ...
Size:: 9.023Mb
Format:: PDF
Description:: Trabajo Fin de Grado

View/Open

Name:: Anexo 1.pdf
Size:: 716.1Kb
Format:: PDF
Description:: Autorización

View/Open

This item appears in the following Collection(s)

TFG, TFM (temporales)

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 United States