搜索引擎主题模型优化(关键词:用户个性化词典;二级向量;查询扩展;个性化服务)
优采云 发布时间: 2021-11-23 16:19搜索引擎主题模型优化(关键词:用户个性化词典;二级向量;查询扩展;个性化服务)
摘要:为了向用户提供个性化的网络信息检索服务,本文对现有的个性化服务模型进行了改进,引入了一种基于用户个性化词典的搜索引擎查询扩展模型。该模型以用户个性化词典代替传统的全局词典,采用查询扩展策略实现个性化服务。用户个性化词典可以优化用户兴趣建模过程,使用户兴趣模型更加准确,从而优化最终生成的扩展词。借助扩展词,用户可以更轻松地在搜索引擎上检索到更符合自己兴趣的网页。实验表明,该模型可以通过搜索引擎为用户提供有效可行的个性化服务。
关键词:用户个性化词典;次要载体;查询扩展;个性化服务;搜索引擎
中文图书馆分类号:TP391 文献识别码:A 文章 编号:1009-3044 (2012)28-6764-07
互联网是人们获取知识和传递信息的桥梁。但是,随着近年来互联网的飞速发展,互联网上的信息量也呈指数级增长。在这种情况下,互联网用户往往无法轻松找到他们需要的信息。搜索引擎的出现在一定程度上解决了我们的信息检索需求。目前,搜索引擎的概念已经深入人心,成为互联网信息检索不可或缺的工具。但它有以下限制。
1)搜索结果集庞大,用户花费大量时间和精力去寻找自己真正感兴趣的信息。
2)不同的用户在不同的时间段使用相同的查询。请求关键词得到的搜索结果几乎相同,用户无法提供个性化服务。
3)用户使用搜索引擎进行搜索是有一定目的的,但往往由于用户对相关领域知识的缺乏以及搜索引擎查询界面的限制,用户无法清晰表达自己的信息需求[2]。
针对传统搜索引擎无法提供面向用户的个性化服务的缺陷,大量专家学者开始研究查询扩展技术并在该领域取得突破。文献[1]提出了基于文档分析的局部共现思想,利用局部文档集中术语和所有查询词的共现度以及语料库中的全局统计信息来评价质量的扩展词,并选择合适的扩展 文献[3-5]主要通过分析用户浏览历史使用关联规则进行查询扩展;文献[6]利用HITS和TextRank技术提取用户主题,结合关联规则进行查询扩展;和文献[7]提出了SEPMBDVD(Search Engine Personalization Model Based on Double Vector Description),一种基于二次向量关键词扩展词配对的搜索引擎个性化服务模型。通过添加扩展词,用户在搜索引擎上搜索时可以获得符合用户兴趣或兴趣偏好的结果。实验验证了该模型具有精度高、响应速度快的优点。这种查询扩展模型依赖于用户兴趣模型。文献[7]使用了一个两级向量模型,它通过一组关键词向量和扩展词向量来描述用户兴趣。该模型基于一个全局字典对,是对用户浏览过的历史网页进行描述和聚类挖掘后生成的。整个模型结构如图1所示。
由于词汇量大,词汇过于杂乱,用户的兴趣无法在全局词典中体现,会对用户兴趣模型的生成产生较大的影响,进而影响扩词的效果。因此,本文将全局字典替换为个性化字典,采用查询扩展策略实现个性化服务,并设计了基于用户个性化字典的搜索引擎查询扩展模型QEMBUPDSE(Query Expansion Model Based on User Personalization Dictionary for Search Engine)。字典。该模型可以通过个性化词典优化用户的兴趣模型,从而优化查询扩展词,使用户的个性化搜索更快更准确。
1 基于个性化词典的搜索引擎查询扩展模型
基于个性化词典的搜索引擎查询扩展模型从用户浏览历史网页的描述入手。它利用个性化词典的二级词典,即关键词词典和扩展词词典,形成网页的二级向量描述,然后通过数据挖掘的方法更直接地生成一个用户兴趣的二次向量模型,最后根据用户输入关键词进行查询扩展,如图2所示。
2.1 个性化词典的定义与实现
根据文献[10],用户个性化词典(UPD)由关键词词典(KeyDict)和扩展词词典(ExDict)组成。二级词典中的词定义为关键词和扩展词。每层字典收录n个(n由人工设置)由词和词权重组成的二元组。关键词 通常表示用户的浏览兴趣。一个词的权重越大,用户兴趣的重要性就越大。扩展词用于描述用户在兴趣点的兴趣偏好,从而在扩展查询时提供符合用户偏好的扩展搜索词。
特定用户的UPD可以充分表达用户对信息需求的偏好,同时为基于二次向量的用户兴趣模型提供支持。它是符合用户兴趣的私人词典。字典设计的主要原则如下:
1) 在网络文档集合中,某个词出现的频率越高,该词对用户特征的描述能力就越强。
2) 在web文档集合中,收录一个词的网页越多,该词对用户特征的描述能力就越强。
3) 对于网页中一些没有检索价值的常用词,我们称之为网页常用词,如评论、版权、文章等,应该在字典中过滤掉避免更正用户的个人描述带来噪音。
式1中,S为网页集合,T为词空间,W(t,S)为词t在S中的权重,tf(t,S)为词t在S中的词频, N是S中收录的网页总数,nt是S中t在文档中出现的次数,分母是归一化因子。在TF-IDF公式中,㏒(N/nt+0.01)是IDF因子,即“逆文本频率索引”。这个名称在WTUPD中仍然使用。IDF越大一个词在网页集合中的分布越稀疏,该词的重要性越小,权重越小。反之,该词的IDF因子越小,其分布越密集、越均匀网页采集中的词,那么这个词的重要性 性别越大权重越大。
考虑到词在网页集合中的均匀分布程度不同,本文认为词t在整个网页集合S中的权重与其在网页中的均匀度成正比。因此,本文引入了一个衡量一致性的因素来修改单词t的权重。公式1中t这个词的均匀度是通过网页集合中t的标准差(Standard Deviation)来衡量的,如公式2所示:
从WTUPD公式可以看出,词t在网页集合S中的权重与其在网页集合中的词频成正比,与其在网页集合中分布的稀疏性和均匀性成正比。WTUPD公式用于获取用户浏览的网页集合中所有词的权重并进行排序,然后根据个人浏览兴趣的广度选择关键词扩展词。兴趣点比较集中的用户选择前1/3词为关键词,其余词为扩展词。但是兴趣点分散(核心兴趣点超过5个)的用户选择前1/2词作为关键词,其余为扩展词,形成关键词字典和扩展词字典。
最后,清除关键词字典和扩展子字典中的频繁词。频繁词的特点是分布在网页集合中的大部分文档中,在单个网页中出现的频率往往较低(通常为1 -2次)。本文采用以下方法对这部分词进行过滤。
经过以上公式的处理,最终可以建立一个符合用户兴趣描述要求的个性化词典。
2.2 基于个性化词典的用户兴趣建模
最终的词扩展取决于准确的用户兴趣模型,而个性化词典的建立将有助于快速准确地建立用户兴趣模型。因此,本文采用的用户兴趣建模方法如下:
首先,使用个性化词典将用户浏览的网页转化为特征向量。由于个性化词典收录二级词典,因此生成的网页特征向量是二级向量。例如,网页的特征向量表示为{[(SLR , 0.05327385), (photography, 0.04826857), (pixel, 0.03272436), (市场, 0.@ >02713352), (专业, 0.02639451),......]; [(镜头, 0.01135712), (显示, 0.01023895), (环境, 0.09325765), (浏览, 0.@ >09031257),(效果,0.08736234)……]},分号前是关键词
然后,利用网页的特征向量进行聚类分析,得到用户的兴趣子类别。
最后,利用各种类型的网页特征向量将兴趣子类别描述为次要向量,生成用户兴趣模型。
可以看出,个性化词典使得整个用户兴趣建模过程使用二次向量,用户兴趣模型的生成更加直接和流畅,并且因为个性化词典避免了大量与用户兴趣无关的词和词传统的全局词典频繁词使得网页特征的描述更加准确,为后续的聚类分析和兴趣模型的生成打下良好的基础,并通过用户兴趣模型提供符合用户兴趣偏好的扩展词,有利于扩展词的分析、比较和选择。
2.3 查询扩展策略的实现
其中,分子为向量ci与Qini的分量之和,分母为向量模的乘积。本文选择与初始查询相似度最高的兴趣点C作为用户的查询意图。即:
为了尽可能为用户提供查询扩展词,如果在关键词向量中找不到用户的查询词,即Qini与关键词向量的相似度为0,然后将扩展词向量合并输入关键词向量一起参与计算。
接下来,为了找到与用户查询最相关的扩展词,需要计算词之间的相关性。本文参考LSI模型[7]中的方法,将一组Web文档表示为“word-document”矩阵TD,如表1所示。
表1显示了“word-document”矩阵TD的截取内容。最上面一行代表文档集合中所有文档的名称(编号),左边一列的“欧洲,足球”是用户向搜索引擎提交的初始查询词Qini。“国家队,世界杯,澳大利亚,...”是Qini匹配的兴趣类别的扩展词向量中的扩展词。中间的矩阵单元TDij是文档Dj中对应词Ti的权重(频率)行归一化的结果。因为单词和文档的数量非常多,单个文档中出现的单词非常有限。因此,TD一般是一个高阶稀疏矩阵。
然后用TD构造词之间的关系矩阵TT,并计算词之间的关联度,构造方法如公式(6):
其中 TD' 是 TD 的转置。得到的矩阵TT中每个单元的TTij值反映了词i和词j在特定环境(特定用户的特定兴趣类别)下的相似度。我们可以看到每个词与其自身的相似度为1,在兴趣类的任何文档中没有共现的两个词之间的相似度为0。如表2所示。
式7中,x*表示词间关系矩阵TT中与初始查询词Qini相似度最大的候选扩展词对应的相关度,x表示其他候选扩展词与Qini的相关度. 公式8中的参数[δ]表示x与x*的相对误差阈值,即只要候选扩展词与Qini的相关度与x*的相对误差小于δ,则候选词扩展词最终可以推荐给用户,δ在实际应用中通常取10%的值,这样可以更好的保留扩展词,同时减少计算时间。可以根据情况设置。按相关性降序对过滤后的词进行排序后,他们可以推荐给用户。过多的扩展词会导致搜索结果减少,但不会帮助用户获取足够的信息。通常选择3个扩展词比较合适,最后可以从排序好的扩展词队列中选出前3个进行推荐。当然,推荐的扩展词数也可以根据用户需要进行设置。
3 实验与分析
3.1 评价指标 SWUI
由于用户的个性化词典UPD实际上收录了几乎所有用户感兴趣的词,而根据浏览历史网页计算出的词权重也反映了用户对这些词的兴趣程度,本文采用查询扩展的方式搜索到的网页集合与用户的个性化词典进行对比,进行实验评估本文提出的个性化服务模型的效果。
为了将检索到的网页集合与用户个性化词典进行比较,本文计算检索到的网页集合的特征向量的中心向量,并将该中心向量称为用户向量UV(User Victor),然后计算UV与UPD之间的相似度(余弦函数值),相似度通过该度反映网页采集与用户兴趣的相关程度,这种相似度称为SWUI(网页与用户兴趣之间的相似度)。
3.2 实验数据
本文实验以三个用户根据自己的兴趣浏览网页,然后保存自己感兴趣的网页,然后对三个用户提供的兴趣网页进行兴趣建模,得到用户兴趣模型如表4所示。限于篇幅,每个兴趣类别仅使用关键词的一部分。
3.3 对比实验
本文在谷歌和百度两大搜索引擎上进行了以下三组实验:
1)无实验:不使用查询扩展,只使用用户查询关键词进行检索实验。
2)标准实验:使用文献[7]中提出的SEPMBDVD模型对查询进行扩展,然后在搜索引擎上进行搜索实验。
3)基于UPD的实验:使用本文提出的QEMBUPDSE模型进行查询扩展,然后在搜索引擎上进行检索实验。
对比实验由三个提供用户兴趣模型的用户进行。每位用户根据上述三组实验的要求,为各自的兴趣选择合适的关键词在谷歌和百度上进行搜索。保存该搜索引擎返回的前 100 个网页。然后对于每个搜索引擎,计算每个关键词搜索到的网页集合和UPD之间的SWUI,最后根据每个SWUI计算出ASWUIIC(Average Similarity between Webpages and User Interest in each Interest Class),计算公式如下在公式 9 中:
公式9中,n为某个兴趣类别的测试关键词的次数,所以ASWUIIC代表了某个兴趣类别的所有关键词搜索网页集合与UPD的SWUI平均值。最终实验结果如表5所示:
为了更直观地反映对比的效果,本文计算了基于None和Standard的实验结果的UPD增加百分比,如表6所示:
从表6可以看出,首先,在使用QEMBUPDSE模型进行查询扩展后,与没有查询扩展的情况相比,搜索到的网页与用户兴趣的相关性明显更高。其次,与使用SEPMBDVD模型扩展相比,使用QEMBUPDSE模型进行查询扩展后,搜索到的网页与用户的相关性也有一定程度的提高,体现出网页更加符合用户的兴趣。这主要是因为在用户建模之前使用UPD后,可以在一定程度上优化整个用户建模过程,最终的用户兴趣模型更加准确,查询扩展有更好的效果。
4。结论
本文基于文献[7]中提出的二次向量对搜索引擎个性化服务模型进行了改进,并增加了用户个性化词典来优化用户兴趣建模过程,从而提高查询扩展的效果。实验表明,基于个性化词典的搜索引擎查询扩展模型能够更有效地辅助用户使用搜索引擎搜索自己感兴趣的信息。在接下来的研究中,需要考虑如何更准确地建立个性化词典和用户兴趣模型,提出更好的相似度计算方法来提高整个个性化搜索模型的性能。
参考:
[1] 丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J]. 中文信息处理学报, 2006, 20 (3): 48-53.
[2] 袁伟, 高淼. 搜索引擎系统中的个性化机制研究[J].微电子与计算机, 2006 (2): 68-75.
[3] 黄明轩,闫晓伟,张世超. 基于关联规则挖掘的查询扩展模型研究[J]. 现代图书馆与信息技术, 2007 (10): 47-51.
[4] 黄明轩,闫晓伟,张世超. 基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J]. 软件学报, 2009, 20 (7): 1854-1865.
[5] 黄明轩,闫晓伟,张世超. 全加权关联规则挖掘及其在查询扩展中的应用[J]. 计算机应用研究, 2008, 25 (6): 1724-1730.
[6] 志凤林,许为民. 基于主题的个性化查询扩展模型[J].计算机工程与设计, 2010, 31 (20):4471-4475.
[7] 徐景秋,朱正宇,谭明红,等。基于二次向量的搜索引擎个性化服务模型[J]. 计算机科学, 2007, 34 (11): 89-92.
[8] 朱正宇, 田云燕, 袁昆峰, 杨勇. 一种改进的 Web 文档聚类方法。计算信息系统杂志, 2007, 3 (3): 1087-1094.
[9] Khan MS, Khor S. 使用自动查询扩展增强网络文档检索[J]. 美国信息科学与技术学会会刊,2004,55 (1): 29-40.
[10] 罗瑛,朱正宇,李立培,等.基于Web检索模型的个性化词典研究与实现[J]. 计算机应用研究,2009 (10).