Automatic aspec extraction in information retrieval diversity

Alfaya Sánchez, David

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11531/44956

Título :	Automatic aspec extraction in information retrieval diversity
Autor :	Alfaya Sánchez, David
Fecha de publicación :	28
Resumen :	En esta tesis de máster describimos un nuevo algoritmo de extracción automática de aspectos mediante la incorporación de información de relevancia en las dinámicas del Análisis Semántico Latente Probabilístico. Describimos un marco de trabajo de verosimilitud estadística sesgada por utilidad para formalizar la incorporación intrínseca del priori de información de relevancia a las dinámicas del algorítmico. Además, presentamos un algoritmo abstracto general para incorporar nuevas variables de características arbitrarias al análisis. Se infiere un procedimiento de templado para este algoritmo general como una regularización entrópica del funcional de verosimilitud sesgado por utilidad y se describe una interpretación geométrica del algoritmo, mostrando cambios intrínsecos en el espacio de información del problema producidos cuando diferentes fuentes de estimación de información a priori son proporcionadas para los mismos datos. El algoritmo general se aplica a varias tareas de recuperación de información, recomendación y personalización. Además, se presenta un conjunto de filtros de post-procesado de aspectos. Algunas características de las distribuciones de aspectos tales como la dispersión o la baja entropía se identifican para mejorar la diversidad global alcanzada por el algoritmo de diversificación. Los filtros propuestos garantizan que los espacios de aspectos finales tienen estas propiedades, induciendo, por tanto, mejores niveles de diversidad. Un esquema experimental sobre datos de TREC web track 09-12 muestra que el algoritmo sobrepasa al pLSA clásico como algoritmo de extracción de aspectos para la diversificación de búsquedas. Se dan aplicaciones teóricas adicionales del procedimiento general a tareas de recuperación de información, recomendación y personalización, que llevan a nuevos modelos sensibles a la relevancia que incorporan varias variables al análisis semántico latente. Finalmente, se trata el problema de optimizar el tamaño del espacio de aspectos para diversificación. Se proporcionan fórmulas analíticas para la dependencia de las métricas de diversidad respecto a la elección de un espacio de aspectos automáticamente generado bajo un cierto modelo generativo simplificado de la relación entre los aspectos extraídos por el sistema y los aspectos reales en evaluación. Se realiza un análisis experimental de esta dependencia sobre datos de TREC web track usando pLSA como algoritmo de extracción de aspectos. In this master thesis we describe a new automatic aspect extraction algorithm by incorporating relevance information to the dynamics of the Probabilistic Latent Semantic Analysis. An utility-biased likelihood statistical framework is described to formalize the incorporation of prior relevance information to the dynamics of the algorithm intrinsically. Moreover, a general abstract algorithm is presented to incorporate any arbitrary new feature variables to the analysis. A tempering procedure is inferred for this general algorithm as an entropic regularization of the utility-biased likelihood functional and a geometric interpretation of the algorithm is described, showing the intrinsic changes in the information space of the problem produced when di erent sources of prior utility estimations are provided over the same data. The general algorithm is applied to several information retrieval, recommendation and personalization tasks. Moreover, a set of post-processing aspect lters is presented. Some characteristics of the aspect distributions such as sparsity or low entropy are identi ed to enhance the overall diversity attained by the diversi cation algorithm. Proposed lters assure that the nal aspect space has those properties, thus leading to better diversity levels. An experimental setup over TREC web track 09-12 data shows that the algorithm surpasses classic pLSA as an aspect extraction tool for the search diversi cation. Additional theoretical applications of the general procedure to information retrieval, recommendation and personalization tasks are given, leading to new relevanceaware models incorporating several variables to the latent semantic analysis. Finally the problem of optimizing the aspect space size for diversi cation is addressed. Analytical formulas for the dependency of diversity metrics on the choice of an automatically extracted aspect space are given under a simpli ed generative model for the relation between system aspects and evaluation true aspects. An experimental analysis of this dependence is performed over TREC web track data using pLSA as aspect extraction algorithm.
Descripción :	Tesis de máster externa
URI :	http://hdl.handle.net/11531/44956
Aparece en las colecciones:	Artículos

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TFMpreview.pdf		112,71 kB	Adobe PDF	Visualizar/Abrir Request a copy

Mostrar el registro Dublin Core completo del ítem