Análisis y optimización del recurso UMLS en la recuperación de información biomédica mediante métricas de similitud semántica
Abstract
La recuperación de documentos médicos a través del procesamiento del lenguaje natural, es lo suficientemente importante y complejo como para dedicarle una atención especial a esta área de investigación. Es por ello, que muchos trabajos publicados abordan el asunto de las métricas de similitud semántica en un contexto teórico (formado por pares de conceptos independientes y cerrados), mediante el apoyo de algunos recursos contenidos en el Metatesauro UMLS. Sin embargo, ninguno de estos trabajos, centra su estudio en un contexto real de recuperación de información biomédica.
Por esta razón, en esta tesis, se propone un nuevo estudio experimental para la evaluación del comportamiento de las métricas Intrinsic IC-Path y Path en un entorno real de documentación médica (TREC Medical Records Track 2011), empleando como soporte el recurso UMLS.
Para poder realizar este novedoso trabajo experimental de evaluación, surge la necesidad de crear un método específico de recuperación de información basado en la parametrización del Metatesauro UMLS que agregue las similitudes de ambos elementos (matriz de similitud) en un único resultado final (“Relevancia”/”No Relevancia”) que se enfrentará con los juicios de relevancia de los expertos del TREC para evaluar el rendimiento de cada una de las métricas. La implementación de este sistema “ad-hoc” ha provocado que se haya realizado, en la primera parte del trabajo, un estudio exhaustivo y parametrización del recurso UMLS con el objetivo de obtener una óptima cobertura en los resultados ofrecidos por las distintas métricas de similitud semántica.
En consecuencia, surge la necesidad de proponer un novedoso sistema de recuperación de información que integre el uso óptimo de la infraestructura UMLS en la aplicación de las métricas de similitud semántica sobre un contexto real de documentación biomédica (basado en el repositorio del TREC). Este sistema permitirá valorar el alcance real de las principales métricas (Path e Intrinsic IC-Path) sobre un marco único y confiable.
Por último, se propone un sistema de generación automática de resúmenes de documentos médicos, como paso a dos nuevos planteamientos. El primero de ellos, surge como necesidad para validar la utilidad de la representación basada en conceptos de un documento médico presentada en esta tesis, en otros contextos o aplicaciones. El segundo planteamiento, surge como un paso previo a posibles futuras mejoras del sistema de recuperación de información definido y evaluado en el desarrollo de esta tesis. The information retrieval of medical documents through natural language processing, is far enough important and complex to devote special attention to this area of research. It is for this reason that many published studies address the issue of semantic similarity metrics in a theoretical context (consisting of pairs of independent and closed concepts) through the support of some resources contained in the UMLS Metathesaurus. However, none of these works focuses its study in a real context of biomedical information retrieval
Therefore, in this thesis, a new study is proposed for the performance evaluation of metrics Intrinsic IC-Path y Path in a real environment of medical documentation (TREC Medical Records Track 2011), using UMLS source as support.
To perform this novel experimental evaluation work, arises the need for a specific method of information retrieval based on the parameterization of Metathesaurus UMLS that add the similarities of both elements (similarity matrix) into a single outcome (“Relevance”/”Not Relevance”) that faces the relevance judgments of TREC experts to evaluate the performance of each of the metrics.
The implementation of this system has led to the realization in the first part of the work, a comprehensive study and parameterization of UMLS resource in order to obtain optimal results coverage by different semantic similarity metrics.
Accordingly, the need to propose a new information retrieval system that integrates the optimal use of UMLS infrastructure in the application of semantic similarity metrics on a real context of biomedical documentation (based on the TREC repository). This system allows us to assess the real extent of the main metrics (Path e Intrinsic IC-Path) on a single and reliable environment.
Finally, an automatic summarization system of medical records is proposed as a way to two new approaches. The first arises as a need to validate the usefulness of the concept-based representation for a medical document presented in this thesis, in other contexts or applications. The second approach appears as a prelude to possible future improvements of the information retrieval system defined and evaluated in the development of this thesis.
Tesis Doctoral
Análisis y optimización del recurso UMLS en la recuperación de información biomédica mediante métricas de similitud semánticaTitulación / Programa
Doctorado en el Programa de Ingeniería Industrial e InformáticaMaterias/ UNESCO
12 Matemáticas1203 Ciencias de los ordenadores
120323 Lenguajes de programación
1210 Topología
121003 Variedades diferenciales
Collections
The following license files are associated with this item: