| dc.contributor.advisor | Carrero Muñiz, Dido | es-ES |
| dc.contributor.author | Santos González, Diego de los | es-ES |
| dc.contributor.other | Universidad Pontificia Comillas, Escuela Técnica Superior de Ingeniería (ICAI) | es_ES |
| dc.date.accessioned | 2025-09-21T10:17:48Z | |
| dc.date.available | 2025-09-21T10:17:48Z | |
| dc.date.issued | 2026 | es_ES |
| dc.identifier.uri | http://hdl.handle.net/11531/104368 | |
| dc.description | Grado en Ingeniería en Tecnologías de Telecomunicación | es_ES |
| dc.description.abstract | La voz no solo transmite lo que una persona dice. En una grabación quedan también pequeñas variaciones de ritmo, intensidad, pausas y estabilidad vocal que pueden cambiar cuando existe una alteración emocional. A partir de esa idea se plantea este trabajo, centrado en estudiar si esas diferencias acústicas pueden ayudar a distinguir distintos estados relacionados con depresión sin utilizar texto, imagen ni otras señales biomédicas.
El punto de partida fue un conjunto de grabaciones etiquetadas en tres grupos: ausencia de depresión, depresión grado 1 y depresión grado 2. Cada audio se convirtió en variables numéricas extraídas directamente de la señal, de forma que los modelos pudieran trabajar sobre información medible y no sobre una valoración subjetiva del habla.
Al analizar las muestras apareció una dificultad clara. Los casos sin depresión y los más severos quedaban mejor separados, mientras que la clase intermedia se mezclaba con ambas zonas. Esa frontera poco limpia se veía en las matrices de confusión y volvía a aparecer al representar los datos mediante KDE, PCA y clustering.
Tras comparar varios clasificadores, CatBoost fue el modelo seleccionado por su equilibrio entre rendimiento y estabilidad. Las pruebas con datos internos y externos mostraron predicciones consistentes, aunque los estados intermedios siguieron siendo la parte más difícil del problema. El trabajo deja una base técnica para seguir explorando el análisis automático de voz como apoyo en contextos de salud mental. | es-ES |
| dc.description.abstract | The voice conveys more than just what a person says. A recording also captures subtle variations in rhythm, intensity, pauses, and vocal stability that can change when a person is emotionally distressed. This research project is based on that idea and focuses on investigating whether these acoustic differences can help distinguish various states related to depression without using text, images, or other biomedical signals.
The starting point was a set of recordings labeled into three groups: no depression, grade 1 depression, and grade 2 depression. Each audio clip was converted into numerical variables extracted directly from the signal, so that the models could work with measurable information rather than a subjective assessment of speech.
Upon analyzing the samples, a clear difficulty emerged. The cases without depression and the most severe ones were better separated, while the intermediate class overlapped with both groups. This blurred boundary was evident in the confusion matrices and reappeared when representing the data using KDE, PCA, and clustering.
After comparing several classifiers, CatBoost was selected for its balance between performance and stability. Tests with internal and external data showed consistent predictions, although intermediate states remained the most challenging part of the problem. ThE work lays a technical foundation for further exploration of automatic voice analysis as a tool in mental health settings | en-GB |
| dc.format.mimetype | application/pdf | es_ES |
| dc.language.iso | en-GB | es_ES |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | es_ES |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | es_ES |
| dc.subject.other | KTT (GITT) | es_ES |
| dc.title | Detección temprana de depresión mediante señales de voz | es_ES |
| dc.type | info:eu-repo/semantics/bachelorThesis | es_ES |
| dc.rights.accessRights | info:eu-repo/semantics/openAccess | es_ES |
| dc.keywords | señales de voz
depresión
Aprendizaje supervisado
Clasificación multiclase
Características acústicas
Machine Learning | es-ES |
| dc.keywords | voice signals
depression
Supervised learning
Multi-class classification
Acoustic features
Machine learning | en-GB |