基于个性化词典的搜索引擎查询扩展模型-TP391
优采云 发布时间: 2021-07-27 23:40基于个性化词典的搜索引擎查询扩展模型-TP391
基于个性化词典搜索引擎的查询扩展模型总结:为了给用户提供个性化的网络信息检索服务,本文对现有的个性化服务模型进行了改进,引入了一种基于用户个性化词典的搜索引擎查询扩展模型该模型以用户个性化词典代替传统的全局词典,利用查询扩展策略实现个性化服务。用户个性化词典可以优化用户兴趣建模过程,使用户兴趣模型更加准确,从而优化最终生成的扩展词。借助扩展词,用户可以更轻松地在搜索引擎上检索到更符合自己兴趣的网页。实验表明,该模型可以通过搜索引擎为用户提供有效可行的个性化服务。 关键词:用户个性化词典;二级向量;查询扩展;个性化服务;搜索引擎中文图书馆分类号:TP391 文献识别码:A文章编号:1009-3044(2012)28-6764-07 互联网是人们获取知识和传递信息的桥梁。近年来互联网的发展,互联网上的信息量也呈指数级增长,在这种背景下,网民往往无法轻易找到自己需要的信息,搜索引擎的出现解决了我们信息检索的需求在一定程度上,目前搜索引擎的概念已经深入人心,成为互联网信息检索不可或缺的工具,但它有以下局限性。1)搜索结果集是巨大,用户花费大量时间和精力去寻找他们真正感兴趣的信息。
2)不同的用户在不同的时间使用相同的查询关键词requests 会得到几乎相同的搜索结果,用户无法提供个性化服务。 3)用户在使用搜索引擎检索时有一定的目的性,但往往由于对用户相关领域知识的缺乏以及搜索引擎查询界面的限制,用户无法清晰表达自己的信息需求[2]。针对传统搜索引擎无法提供面向用户的个性化服务的缺陷,大量专家学者开始研究查询扩展技术并在该领域取得突破。文献[1]提出了基于文档分析的局部共现思想,利用局部文档集中的词条和所有查询词的共现度以及语料库中的全局统计信息来评价质量的扩展词,并选择合适的扩展 文献[3-5]主要通过分析用户浏览历史使用关联规则进行查询扩展;文献[6]利用HITS和TextRank技术提取用户主题,结合关联规则进行查询扩展;和文献[7]提出了一种基于双向量描述的搜索引擎个性化模型,SEMPBDVD(Search Engine Personalization Model Based on Double Vector Description),本质上是基于挖掘用户浏览过的历史网页生成的用户兴趣模型。输入查询关键词 匹配扩展词。通过添加扩展词,用户在搜索引擎上搜索时可以获得符合用户兴趣或兴趣偏好的结果。实验验证了该模型具有精度高、响应速度快的优点。
这个查询扩展模型依赖于用户兴趣模型。文献[7]使用了一个两级向量模型,它通过一组关键词向量和扩展词向量来描述用户兴趣。该模型基于一个全局字典,对用户浏览过的历史网页进行描述和聚类挖掘后生成。整个模型结构如图1所示。 由于词汇量大,词汇过于杂乱,用户的兴趣无法反映在全局词典中,会对用户兴趣模型的生成产生较大的影响,从而影响单词扩展的效果。因此,本文将全局词典替换为个性化词典,采用查询扩展策略实现个性化服务,并设计了基于个性化词典的搜索引擎查询扩展模型QEMBUPDSE(Query Expansion Model Based on User Personalization Dictionary for Search Engine)。字典。该模型可以通过个性化词典优化用户兴趣模型,从而优化查询扩展词,使用户的个性化搜索更快更准确。 1 基于个性化词典的搜索引擎查询扩展模型 基于个性化词典的搜索引擎查询扩展模型从用户浏览历史网页的描述入手,使用个性化词典的二级词典,即关键词词典和扩展词词典,形成网页的二级向量描述,然后通过数据挖掘的方法更直接的生成用户感兴趣的二级向量模型,最后根据关键词进行查询扩展用户输入,如图2所示。
2.1 个性化词典的定义与实现 根据文献[10],个性化词典UPD(User Personalization Dictionary)由关键词词典(KeyDict)和扩展词词典(ExDict)组成。高级词典中的词定义为关键词和扩展词。每层字典收录n个(n由人工设置)由词和词权重组成的二元组。 关键词 通常表示用户的浏览兴趣。词的权重越大,用户兴趣的重要性就越大。扩展词用于描述用户在兴趣点的兴趣偏好,从而在扩展查询时提供符合用户偏好的扩展搜索词。特定用户的UPD可以充分表达用户对信息需求的偏好,同时为基于二次向量的用户兴趣模型提供支持。它是符合用户兴趣的私人词典。字典设计的主要原则如下: 1)在@Webpage 文档集合中,某个词出现的频率越高,该词描述用户特征的能力就越强。 2)Webpage 文档集,收录一个词的网页越多,该词对用户特征的描述能力就越强。 3)对于网页中一些没有搜索价值的常用词,我们称其为网络常用词,如评论、版权、文章等,应在字典中过滤掉,避免个人隐私用户描述 带来噪音。式1中,S为网页集合,T为词空间,W(t,S)为词t在S中的权重,tf(t,S)为词t在S中的词频, N为S中收录的网页总数,nt为S中t出现在文档中的个数,分母为归一化因子。
TF-IDF公式中,㏒(N/nt+0.01)为IDF因子,即“逆向文本频率指数”。WTUPD中仍沿用此名称。IDF越大factor,词越多网页集合中分布越稀疏,词的重要性越小,权重越小。反之,词的IDF因子越小,分布越密集,越均匀词在网页集合中的重要性,则该词的重要性值越大,权重越大。考虑到该词在网页集合中的不同程度的均匀分布,本文认为权重整个网页集合S中的词t与其在网页中的均匀度成正比。因此,本文介绍了均匀度的度量 校正词t权重的因子,公式1中词t的均匀度度量由网页集合中 t 的标准差 (St andard Deviation),如公式2所示: 从WTUPD公式可以看出:网页集合S中的权重与网页集合中的词频成正比,与其在网页集中分布的稀疏性和均匀性成正比网页设置。用户设置的网页中所有词的权重由WTUPD公式组合而成。排序,然后根据个人浏览兴趣的广度选择关键词扩展词。兴趣点比较集中的用户选择前1/3词为关键词,其余词为扩展词。兴趣点比较分散(有5个以上兴趣点的核心用户选择前1/2词为关键词,其余为扩展词形成关键词字典和扩展词字典。最后,关键词词典和扩展子词典必须清除频繁词中的频繁词,频繁词的特点是分布在网页集合中的大部分文档中,在单个网页中经常出现的频率较低(通常为1-2个)次)。
本文采用以下方法对这部分词进行过滤。经过以上公式的处理,最终可以建立一个符合用户兴趣描述要求的个性化词典。 2.2 基于个性化词典的用户兴趣建模最终词扩展依赖于准确的用户兴趣模型,个性化词典的建立将有助于快速准确地建立用户兴趣模型。因此,本文采用的用户兴趣建模模块化方法如下:首先,使用个性化词典将用户浏览的网页转化为特征向量。由于个性化词典收录两级词典,因此生成的网页特征向量是二级向量。例如,网页的特征向量表示为{[(SLR, 0, (photography, 0, (pixel, 0, (market, 0, (professional, 0,...]; [(lens, 0, (display, 0, (environment, 0, (browse , 0, (effect, 0...]}, 分号之前是关键词向量,之后是扩展词向量。接下来,使用网页特征向量为聚类分析得到用户的兴趣子类别。最后,使用每个类别的网页特征向量将兴趣子类别描述为二级向量,生成用户兴趣模型。可以看出,个性化的字典使整个用户感兴趣建模过程中使用了二次向量,用户兴趣模型的生成更加直接和流畅,并且由于个性化词典避免了传统全局词典中大量与用户兴趣无关的词和频繁词,使得对网页特征的描述更加准确,为后续操作打下良好的基础ent聚类分析和兴趣模型生成,采用用户兴趣模型提供符合用户喜好的扩展词,有利于扩展词的分析、比较和选择。
2.3 查询扩展策略的实现。其中,分子是向量ci和Qini分量的乘积之和,分母是向量模的乘积。本文选择与初始查询相似度最高的兴趣点C作为用户的查询意图。即:为了尽可能为用户提供查询扩展词,如果在关键词向量中找不到用户的查询词,即Qini和关键词向量的相似度为0,则扩展词向量并入关键词向量中一起参与运算。接下来,为了找到与用户查询最相关的扩展词,需要计算词之间的相关性。本文参考LSI模型[7]中的方法,将一组web文档表示为“word-document”矩阵TD,如表1所示。表1为截取的“word-document”矩阵TD。文档”矩阵 TD。最上面一行代表文档集合中所有文档的名称(编号),左边一列的“欧洲,足球”是用户向搜索引擎提交的初始查询词Qini。 “国家队,世界杯,澳大利亚,...”是Qini匹配的兴趣类别的扩展词向量中的扩展词。中间的矩阵单元TDij是文档Dj中对应词Ti的权重(频率)行归一化的结果。因为单词和文档的数量非常多,单个文档中出现的单词非常有限。因此,TD一般是一个高阶稀疏矩阵。然后用TD构造词之间的关系矩阵TT,计算词之间的关联度。构造方法如下(6):其中TD'是TD的转置。得到的矩阵TT中每个单元的TTij的值反映了词i和词j在特定环境(特定兴趣类别)下的相似度特定用户)。
我们可以看到,每个词与其自身的相似度为1,在兴趣类别的任何文档中没有共现的两个词之间的相似度为0。如表2所示。在公式7中,x *表示词间关系矩阵TT中与初始查询词Qini相似度最大的候选扩展词对应的相关度,x表示其他候选扩展词与Qini的相关度。式8中的参数[δ]表示x与x*的相对误差阈值,即只要候选扩展词与Qini的相关度与x*的相对误差小于δ,则候选词扩展词最终可以推荐给用户,δ在实际应用中通常取10%的值,这样可以保留更好的扩展词,同时减少计算时间。可以根据情况设置。筛选出的词按照相关性从高到低排序后,就可以推荐给用户了。过多的扩展词会导致搜索结果减少,但不会帮助用户获得足够的信息。通常选择3个扩展词比较合适,最后可以从排序好的扩展词队列中选出前3个进行推荐。当然,可以根据用户需要设置推荐的扩展词数。 3 实验与分析3.1 评价指标SWUI 因为用户的个性化词典UPD实际上收录了几乎所有用户感兴趣的词,而从浏览历史网页计算出的词权重也反映了用户对这些词的看法因此,本文采用查询扩展搜索到的网页集合与用户的个性化词典进行对比的方法进行实验,以评估本文提出的个性化服务模型的效果。
为了将检索到的网页集合与用户个性化词典进行比较,本文计算检索到的网页集合的特征向量的中心向量,并将中心向量称为用户向量UV(User Victor),然后计算UV和UPD的区别Webpages和User Interests的相似度(余弦函数值)用来反映网页集合和用户兴趣的相关程度。这种相似性称为 SWUI(网页和用户兴趣之间的相似性)。 3.2 实验数据 本实验基于三个用户。他们根据自己的兴趣浏览网页,然后保存自己感兴趣的网页,然后对三个用户提供的兴趣网页进行兴趣建模,得到用户兴趣。如模型表4所示,由于篇幅所限,每个兴趣类别只用关键词的一部分表示。 3.3 对比实验 本文在谷歌和百度两大搜索引擎上进行了以下三组实验: 1)None 实验:不使用查询扩展,仅使用用户查询关键词进行检索实验。 2)Standard实验:使用[7]中提出的SEMPBDVD模型扩展查询,然后在搜索引擎上进行搜索实验。基于3)UPD的实验:使用本文提出的QEMBUPDSE模型扩展查询,然后在搜索引擎上进行检索实验。对比实验由三个提供用户兴趣模型的用户进行。每个用户根据上述三组实验的要求,针对各自的兴趣选择合适的关键词,在谷歌和百度上进行搜索。每组实验将搜索每种类型。保存引擎返回的前 100 个网页。
对于每个搜索引擎,计算关键词搜索的每个网页集合与UPD之间的SWUI,最后根据每个SWUI计算ASWUIIC(每个兴趣类别中网页和用户兴趣之间的平均相似度)。 ),计算公式如公式9所示: 公式9中,n为某兴趣类别的关键词测试次数,所以ASWUIIC代表某兴趣关键词搜索到的所有网页集合之间SWUI的平均值类别和 UPD 。最终实验结果如表5所示: 为了更直观地反映对比效果,本文计算了UPD相对于None和Standard的实验结果增加的百分比,如表6所示。从表 6 可以看出,首先,在使用 QEMBUPDSE 模型进行查询扩展后,搜索到的网页显然比没有查询扩展的网页更符合用户的兴趣。其次,与使用SEPMBDVD模型扩展相比,使用QEMBUPDSE模型进行查询扩展后,搜索到的网页与用户的相关性也有一定程度的提高,体现出网页更加符合用户的兴趣。这主要是因为在用户建模之前使用UPD之后,整个用户建模过程可以得到一定程度的优化,最终的用户兴趣模型更加准确,查询扩展有更好的效果。 4 结束语本文对文献[7]中提出的基于二次向量的搜索引擎个性化服务模型进行了改进,增加了用户个性化词典,优化了用户兴趣建模过程,从而提高了查询扩展的效果。
实验表明,基于个性化词典的搜索引擎查询扩展模型能够更有效地帮助用户使用搜索引擎搜索他们感兴趣的信息。在下一步的研究中,需要考虑如何更准确地构建个性化词典和用户兴趣模型,提出更好的相似度计算方法来提高整个个性化搜索模型的性能。参考文献: [1] 丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息报, 2006, 20 (3):48-53.[2] 袁伟, 高淼. 搜索引擎系统个性化机制研究[J]. 微电子与计算机, 2006 (2): 68 -75.[3] 黄明轩, 闫晓伟, 张世超. 基于关联规则挖掘的查询扩展模型研究[J]. 现代图书馆与信息技术, 2007 (10):47-51. [4] 黄明轩, 闫晓伟, 张世超. 基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J] 软件学报, 2009, 20 (7):1854-1865.[5] Huang明轩, 闫晓伟, 张世超. 全加权关联规则挖掘及其在查询扩展中的应用[J]. 计算机应用研究, 2008, 25 (6): 1724-1730.[6] 支峰林, 许伟民.基于主题的个性化查询扩展模型[J]. 计算机工程与设计, 2010, 31 (20): 4471-447 5.[7] 徐景秋, 朱正宇, 谭明红, 等. 搜索引擎个性化服务模型基于两级向量[J].计算机科学, 2007, 34 (11): 89-92.[8] 朱正宇, 田云艳, 袁昆峰, 杨勇. 一种改进的Web文档聚类方法. 计算信息系统学报, 2007, 3 ( 3): 1087-1094.[9] Khan MS, Khor S. 使用自动查询扩展增强网络文档检索[J]. 美国信息科学与技术学会杂志, 2004, 55 (1): 29-40.[10] 罗瑛, 朱正宇, 李丽培, 等. Web检索模型个性化词典的研究与实现[J]. 计算机应用研究, 2009 (10).