搜索引擎主题模型优化(基于用户兴趣建模技术和元搜索引擎算法的搜索引擎工作方式)

优采云 发布时间: 2021-11-30 13:01

  搜索引擎主题模型优化(基于用户兴趣建模技术和元搜索引擎算法的搜索引擎工作方式)

  并且还改进了成员引擎调度算法。选择几个与当前用户查询最相关的成员引擎来完成搜索。分析表明,该算法能够有效提高查询速度和准确率。关键词:信息检索;元搜索引擎;用户兴趣建模;查询映射算法;引擎调度算法中文库分类号:TP393.0 Algorithm Research MetaSearch Engine Based Userinterest model 王倩(黄河科技学院,现代教育技术中心,郑州450063) 摘要:目前人们在使用搜索引擎获取信息时, 太多不相关的信息搜索结果问题,提出了结合用户兴趣建模技术元搜索引擎算法的新搜索引擎工作方法。首先构建了基于用户信息浏览行为的用户兴趣模型。第二个提出映射算法userquery userinterest class,使用memberengines。构建了基于兴趣分类采样的成员引擎特征表示元搜索引擎,改进了成员引擎调度算法,使得元搜索引擎可以选择多个成员引擎关联当前用户查询完整搜索。分析表明该算法能有效提高搜索速度精度。关键词:信息检索;元搜索引擎;用户兴趣建模;查询映射算法;引擎调度算法一直存在这样一个问题[2,3]:返回的结果数量巨大,很多结果与查询无关,还是要花很多时间才能找到有用的信息。构建了基于兴趣分类采样的成员引擎特征表示元搜索引擎,改进了成员引擎调度算法,使得元搜索引擎可以选择多个成员引擎关联当前用户查询完整搜索。分析表明该算法能有效提高搜索速度精度。关键词:信息检索;元搜索引擎;用户兴趣建模;查询映射算法;引擎调度算法介绍 搜索引擎是获取信息的重要手段[1]。用普通搜索引擎搜索信息时,总是存在这样一个问题[2,3]:返回的结果数量巨大,结果和查询多。不相关,还是要花很多时间才能找到有用的信息。构建了基于兴趣分类采样的成员引擎特征表示元搜索引擎,改进了成员引擎调度算法,使得元搜索引擎可以选择多个成员引擎关联当前用户查询完整搜索。分析表明该算法能有效提高搜索速度精度。关键词:信息检索;元搜索引擎;用户兴趣建模;查询映射算法;引擎调度算法介绍 搜索引擎是获取信息的重要手段[1]。用普通搜索引擎搜索信息时,总是存在这样一个问题[2,3]:返回的结果数量巨大,结果和查询多。不相关,还是要花很多时间才能找到有用的信息。meta搜索引擎;用户兴趣建模;查询映射算法;引擎调度算法介绍 搜索引擎是获取信息的重要手段[1]。使用普通搜索引擎搜索信息时,总是存在这样一个问题[2,3]:返回的结果数量巨大,很多结果与查询无关,还是要花很多时间才能找到有用的information.meta 搜索引擎;用户兴趣建模;查询映射算法;引擎调度算法介绍 搜索引擎是获取信息的重要手段[1]。使用普通搜索引擎搜索信息时,总是存在这样一个问题[2,3]:返回的结果数量巨大,很多结果与查询无关,还是要花很多时间才能找到有用的信息。

  为了帮助用户获得自己需要的信息,同时避免无用信息的干扰,提高查询效率,本文研究了基于用户兴趣模型的元搜索引擎的实现技术,利用元搜索引擎对搜索范围狭窄的信息进行修正。普通搜索引擎。结果不足的缺点;利用建立用户兴趣模型来消除歧义,缩小用户查询范围,纠正元搜索引擎在*敏*感*词*,讲师,主要研究计算机应用技术 E-mail:-1- 用户的浏览内容、浏览行为、背景知识等 从用户兴趣和行为信息中总结出一个可计算的用户兴趣模型的过程[4]。 1.1 用户兴趣模型总体设计用户兴趣模型的建模设计主要包括:页面预处理和页面分类,

  页面采集库用于存储用户的历史记录,将兴趣分析和兴趣特征优化后得到的兴趣信息按时间存储在长期和短期兴趣库中。50型的*敏*感*词*如图所示。用户兴趣模型结构 55 1.2 用户兴趣类别表示模型中的兴趣生成模块需要建立兴趣类别。我们通过定义兴趣特征的层次特征生成开放目录,并使用层次结构模型来表示用户可能具有的兴趣特征。这是一种类似于对象继承的关系结构。兴趣特征基类收录了兴趣特征派生类的所有共同特征,并且兴趣特征派生类与兴趣特征基类具有不同的特征。结构层次如图所示。图中,兴趣类别用方框表示,椭圆表示特征词和扩展后的特征词。兴趣特征类别或兴趣特征相似关键词之间的实线用于表示它们之间的差异。关系。-2- UTc 页面集 计算机教育 软件 硬件 自然科学 人文 65 应用系统 用户兴趣分类参考模型 图 2 用户兴趣分类模型 根据该参考模型,我们可以构建用户兴趣的树状结构,考虑到动态用户兴趣变化和局部性,

  可以看出,我们可以用一个收录兴趣类别名称和兴趣权重两个元素的二元组来表示70 75个用户的某个兴趣类别,多个兴趣类别的集合可以形成一个兴趣集。用户兴趣集是所有兴趣类别的完整集合。某个兴趣类别的特征词集是该兴趣类别的特征词的集合。所有兴趣类别的特征词的完整集合称为用户兴趣特征词集。代表用户兴趣集,收录元素(c1,c2,...,cm),m代表用户兴趣类别总数,ci(1im)是集合的一个元素,代表一个兴趣类别。令 T(ci) 表示用户兴趣特征词的集合,其中收录元素 (t1, t2,...,tk),k代表用户兴趣特征词的总数,ti(1ik)代表ci的特征词。因此,用户所有特征词集的并集就是兴趣特征词集,表示为用户兴趣节点Node(c)的权重,表示为二元组(c,w)。二元组(t,w)表示的特征词节点Leaf(c,t),U(C)表示用户的兴趣向量,其表示形式为Node(c1),Node (c2), ..., Node (cm)). 在这个表达式中,ci 是属于集合的一个元素,m 是用户兴趣类别的数量。1.3 用户查询被映射到用户兴趣类别,本节介绍如何通过查询信息建模用户兴趣模型和用户兴趣分类模型来生成用户兴趣类别。

  通过这种方法,用户的任何查询信息都可以用来确定用户的兴趣类别[5, 6]。这个过程的主要85个步骤是计算用户的查询信息与建模的用户兴趣类别之间的相似度,并将用户的查询结果限制在相似度最高的用户兴趣类别中。用户查询是查询特征词的总数,ti(1im)表示查询的查询特征词集。有两种情况:-3- Tcici中的查询特征词是属于用户兴趣树的所有兴趣类别的90个集合,c(cC)表示用户兴趣类别,其特征词表示为集合(w1, w2,...,Wn), 表示为其中wi为用户兴趣类别xn中与其对应的特征词ti, 基于兴趣分类采样的成员引擎特征表示。常用的成员引擎特征表示方法包括:基于Query-Based Sampling(QBS)[7]的近似内容摘要表示和Focused Probing(FP))[8]的近似内容摘要构建算法。

  我们将用户兴趣模型与近似内容摘要方法相结合,提出了一种新的算法:基于用户兴趣分类的近似内容摘要表示方法。该方法认为查询返回的结果文档与查询所属的用户兴趣分类有关。为便于算法的构建,下面给出近似内容概要的相关描述。首先规定数据库的内容概要S(D)由两部分组成:D和d收录词条t。在构建数据库的特征表示之前,定义TD(ci)来表示兴趣类别ci的分类字典,有,TD(Cq)= {TD(c1),TD(c2),..., TD(cn)}表示所有兴趣类别的115个分类词典的总字典,即兴趣类别的总数。也就是说,TD来自两个方面,一是ci的范畴名;另一个是类别的特征词。我们假设集合构成,D数据库创建的内容摘要按照用户的兴趣分类,可以得到(ci),即数据库(cn,D)},其中数据库由一个根据兴趣类别ci抽样得到的文档集合。S(ci, D)表示由上述数据创建的近似内容概要。该数据库基于用户兴趣类别ci(ci,D)的近似内容摘要S'由两个基本部分组成:)和d收录术语t。

  基于用户兴趣类别近似内容摘要特征表示的数据库近似内容摘要由不同兴趣类别的用户创建的数据库内容摘要组成。得到的近似内容摘要的优点如下: 130 135 140(1)可以在同一个搜索引擎数据库中获取用户不同兴趣类别的相关文档分布。(2)可以获取用户相同兴趣类别在不同搜索引擎数据库中的分布信息(3)能够获取某个词条和多个兴趣类别的词条在不同用户兴趣类别中相关文档的分布信息。基于用户兴趣模型的元搜索引擎调度算法 本节提出的基于用户兴趣的个性化调度算法是一种根据用户的兴趣,选择和调度最接近用户偏好文档的搜索引擎的算法。基于用户兴趣的个性化调度算法使用用户兴趣分类抽样的特征表示算法来表示数据库的特征。当用户向搜索引擎提交查询信息时,将搜索引擎用户查询信息与用户兴趣类别进行映射,得到对应的兴趣类别。元搜索引擎调度模块会获取对应的兴趣类别。用户兴趣类别用于计算用户查询信息与会员引擎数据库的相似度,使用会员搜索引擎对用户查询的平均响应时间和会员搜索引擎在用户兴趣类别中的权重计算用户查询信息与每个成员搜索引擎之间的相关性。这种个性化调度算法的原理和实现描述如下: 3.1 数据库和用户查询的相关性计算假设是一个数据库,M元组(D1,D2,.. ., Dm) 是元素搜索引擎中所有成员搜索引擎的数据库集表示为DS [10]。并利用会员搜索引擎对用户查询的平均响应时间和会员搜索引擎在用户兴趣类别中的权重,计算用户查询信息与各会员搜索引擎之间的相关性。这种个性化调度算法的原理和实现描述如下: 3.1 数据库和用户查询的相关性计算假设是一个数据库,M元组(D1,D2,.. ., Dm) 是元素搜索引擎中所有成员搜索引擎的数据库集表示为DS [10]。并利用会员搜索引擎对用户查询的平均响应时间和会员搜索引擎在用户兴趣类别中的权重,计算用户查询信息与各会员搜索引擎之间的相关性。这种个性化调度算法的原理和实现描述如下: 3.1 数据库和用户查询的相关性计算假设是一个数据库,M元组(D1,D2,.. ., Dm) 是元素搜索引擎中所有成员搜索引擎的数据库集表示为DS [10]。

  根据上一节,可以总结出各个数据库的大致内容。第一个数据库 Di 145 150 155 相似内容摘要表示为 (c1,Di), (c2,Di),..., (cj,Di)} (1im 为用户兴趣类别数,S(cj, Di)是数据库Di在用户兴趣类别ci中的近似内容摘要,t代表用户查询词,q代表用户查询,是一组元组,那么q=((t1,t2,...,th).其中其中,h为查询词条数。另外还需要计算查询与数据库集DS[11]中收录的各个数据库之间的相关性。假设查询数据库Di的相似度记为rel(q, Di),计算它的前提是先完成三个值的计算,分别为[12,13]:查询与数据库的近似内容摘要之间的相似度计算;成员引擎对用户查询的平均响应时间;用户对成员引擎的偏好权重。(1) 查询和数据库逼近 内容摘要的相似度计算 在前面的算法中,我们已经得到了查询 CS 组成的集合。-5- ii 1trijatr simq,sDi tp dt 每个都有用户查询 tj数据库中,其在每个兴趣类别中的权重之和表示为tpij,即在一个数据库中所占的权重,将数据库中分类为兴趣类别的样本文档组成的数据库表示为Dc。用户对成员引擎的偏好权重。(1) 查询和数据库逼近 内容摘要的相似度计算 在前面的算法中,我们已经得到了查询 CS 组成的集合。-5- ii 1trijatr simq,sDi tp dt 每个都有用户查询 tj数据库中,其在每个兴趣类别中的权重之和表示为tpij,即在一个数据库中所占的权重,将数据库中分类为兴趣类别的样本文档组成的数据库表示为Dc。用户对成员引擎的偏好权重。(1) 查询和数据库逼近 内容摘要的相似度计算 在前面的算法中,我们已经得到了查询 CS 组成的集合。-5- ii 1trijatr simq,sDi tp dt 每个都有用户查询 tj数据库中,其在每个兴趣类别中的权重之和表示为tpij,即在一个数据库中所占的权重,将数据库中分类为兴趣类别的样本文档组成的数据库表示为Dc。

  然后是计算公式tpij Dc,可以衡量第一数据库中与tj潜在相关的各种有用CS文档的重要性。160个数据库的权重比tj在所有数据库中的权重用trij表示,那么trij tpij trij集合atr dtj中所有元素的平均值代表tj在所有数据库中的分布,即dt的值dtj 直接变为 Proportional。165 170 查询之间的相似度(Di)是用sim(q,(2)用户对会员引擎的偏好权重)计算的。如果用户长期频繁使用搜索引擎,他们应该注意一些会员搜索引擎可以比其他会员引擎更好地搜索到用户感兴趣的信息,更多地点击会员引擎返回的结果。系统会记录最近的用户点击查询结果,以监控会员引擎对用户的响应查询的帮助表现。用户浏览某个数据库返回的结果越多,说明该数据库对用户搜索的帮助越大,即该数据库更受用户青睐。下面进行量化处理,在用户二次查询从数据库中读取的查询结果的点击次数假设为click(j,Di) 175aclickDi代表会员引擎总数,那么用户对数据库的偏好Di pcDiaclickDi (3)成员引擎对用户查询的平均响应时间计算。用户浏览某个数据库返回的结果越多,说明该数据库对用户搜索的帮助越大,即该数据库更受用户青睐。下面进行量化处理,在用户二次查询从数据库中读取的查询结果的点击次数假设为click(j,Di) 175aclickDi代表会员引擎总数,那么用户对数据库的偏好Di pcDiaclickDi (3)成员引擎对用户查询的平均响应时间计算。用户浏览某个数据库返回的结果越多,说明该数据库对用户搜索的帮助越大,即该数据库更受用户青睐。下面进行量化处理,在用户二次查询从数据库中读取的查询结果的点击次数假设为click(j,Di) 175aclickDi代表会员引擎总数,那么用户对数据库的偏好Di pcDiaclickDi (3)成员引擎对用户查询的平均响应时间计算。

  用户在使用搜索引擎时,都希望能快速得到搜索结果。因此,元搜索引擎在调度成员引擎时也需要考虑其响应时间的速度。部分会员引擎会因系统维护、网速等响应速度增加180。为避免使用响应时间过长的成员引擎,系统会记录用户最近一次查询中成员引擎响应时间的平均值tr。系统规定 th 作为响应时间阈值和响应超时时间 [14],如果对于某个结果 -6-185 190 3.2 3.3 (4) query and数据库相关性计算得到以上三个值后,查询与数据库Di的相关性可以通过以下公式计算:relq,Di simq, 如果成员引擎的所有文档都与用户查询映射的兴趣类相关,则该引擎与用户查询的相关性高;(2) 如果用户查询的区分能力高,则更容易为该查询选择合适的成员引擎。

  并进行定量表达;研究; 将用户查询映射到用户兴趣模型的算法便于推断用户兴趣范围,提高查询结果的准确性。为了描述会员引擎的数据库特征,本文首先提出了一种基于兴趣分类采样的会员引擎特征表示方法,元搜索引擎以此为基础进行个性化的会员引擎调度,选择最有可能的会员引擎有助于用户完成搜索工作,从而显着提高查询质量和查询效率。210 [References] (References) 2009, 4(2)@ >:126-129.乔亚楠, 齐勇, 侯迪实验方法文本信息检索[J]. 科学论文215 220 225 Online, 2009,4 (2): 1916-1919(中文)。[10] 张伟峰,徐宝文,周晓宇,等。调度元搜索引擎遗传算法[J].武汉大学学报自然科学, 2001,(Z1):541-546. [11] Salton ModernInformation Retrieval NewYork: McGraw-Hill, 1983. 103-106. [ 12] 任红平, 中文元搜索引擎成员搜索引擎选择策略研究[J]. 图书馆学研究, 2009(01):40-43. 任红平, 子搜索引擎调度策略研究ChineseMeta Search Engine[J]. Researches Library Science, 2009(1):40-43 Chinese).[13] 李存和, 孟文杰. 基于分类评价的元搜索引擎调度策略[J]. 计算机工程与技术设计, 2008,29(5):1065-1066. 李存和,孟文杰.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线