信息检索中,如何从伪相关反馈中挖掘术语词进行推荐
优采云 发布时间: 2021-05-24 10:20信息检索中,如何从伪相关反馈中挖掘术语词进行推荐
搜索引擎技术的发展和应用改变了人们获取信息的方式。但是,在信息检索中,由于用户查询时间短,查询意图不明确,系统返回的文档往往不符合用户的搜索意图。为了提高检索性能,搜索引擎通常使用查询优化技术,包括查询扩展和查询推荐。在传统的优化方法中,伪相关反馈方法是一种有效的解决方案,但主题偏移问题将对优化效果产生负面影响,并降低检索性能。对于查询扩展,从伪相关反馈文档中获取扩展词后,通常将它们简单地拼接到原创查询中。此方法不测量查询词和扩展词之间的相关性,而是对返回的文档进行排名。产生影响。对于查询推荐,由于搜索专业化程度的提高,如何从伪相关反馈文档中挖掘术语进行推荐,以及如何获得查询词与推荐词之间的语义关系。本文从以下三个方面进行研究:1.提出了一种主题推理策略,以解决伪相关反馈方法中的主题转移问题。首先,使用基于语言模型的评分策略获得反馈文档,并使用LDA主题模型对其进行建模;然后使用基于吉布斯采样和词嵌入的方法来推断查询语句的主题,从而确定相关主题,并根据主题模型对候选词获取方法进行改进。实验表明,词嵌入方法从语义学的角度对查询进行了多方面的描述,并反映了更多的语义信息。 2.使用权重计算方法优化查询扩展中的文档评分策略。首先,使用主题推理策略获得候选扩展词;然后进行特征计算,包括从词嵌入中获得的统计特征和语义特征,并根据特征值对扩展词赋予不同的权重;最后,执行第二次搜索以返回结果。实验表明,引入特征权重计算可以进一步提高伪相关反馈方法的检索效果。 3.提出术语推荐方法以进一步改善用户体验。首先,术语词典用于从伪相关反馈文档中提取术语文档。在对术语文档进行建模之后,使用主题推理策略来获取候选术语。然后建立关系识别算法,将监督方法与非监督方法进行合并,挖掘查询词与术语词之间的语义关系,并向用户推荐具有语义关系的词。实验表明,该方法可以更好地满足用户的搜索需求。