搜索引擎进行信息检索的优化策略方法(如何统一各个数据源的相关度范化问题.1.2相关度的排序列表)

优采云 发布时间: 2022-04-09 21:04

  搜索引擎进行信息检索的优化策略方法(如何统一各个数据源的相关度范化问题.1.2相关度的排序列表)

  在现有的搜索引擎中,没有一个搜索引擎可以覆盖所有的R´WW资源,大多数搜索引擎只能覆盖整个资源的一小部分。并且各种搜索引擎的信息来源差异很大,因此整合多个搜索引擎生成的元搜索引擎比传统引擎具有覆盖面更大、引擎效果更好、可扩展性等优点。其中,对各个组件系统返回的搜索结果进行排序是对元搜索引擎的改进。搜索引擎效率的关键技术是排序和融合的关键技术。每个成员搜索引擎都有自己的排序和检索结果算法[2],根据用户给出的查询的相关性对文档进行排序。然而,这些方法千差万别,通常每个算法对于某个搜索引擎提供商来说都是唯一的,并且算法是不公开的,这使得融合和排序来自不同数据源的数据结果变得非常复杂。每个成员搜索的门相关性规范都有自己的尺度来衡量文档的相关性。例如,数据源R,判断文档f,对于一个查询的相关度为0.1,而数据源R:判断有多少个文档与一个查询配对,其相关度为1000.如果你想把R、Fan的结果合并成一个单一的文件排序列表,那么f的相关性高于还是低于fz是无法判断的,因为没有统一的标准_如何统一各种数据源的相关性,这涉及到相关性的标准化。1. 2 相关性均衡 大多数搜索引擎的排序算法是不公开的,只有少数是公开的。算法。事实上,即使使用相同的排序算法,处理相关性问题仍然存在很大的困难,因为该算法是根据不同的文件集对文件进行排序。比如R,是与门研究计算机科学数据源,那么“数据结构”这个词可能会出现在很多文档中,但是“数据结构”这个词在R中的相关性会很低。同时,如果数据源 Rz 和计算机科学完全不相关,Rz 中出现该词条的文档很少,因此“数据结构”在数据源 Rz 中可能具有高度相关性,对于收录“数据结构”一词的查询, R, 可以为子文件分配较低的相关度,而 Rz 将分配更高的相关度。在同一个查询中,两个非常相似的文档 f, 和 fz,如果 f: 在且 fz 在 Rz 中,却得到了不同的相关值。因此,即使数据源采用相同的排序算法,元搜索引擎仍然需要一些额外的信息来有效地整合查询结果。最好的解决方案是综合考虑各个成员搜索引擎给出的相关性。从而消除每个数据源本身造成的偏差 rz 检索结果排序的优化方法 在响应给定查询时,为了组合多个查询检索系统! ,提出了一种新的概率模型< @2. 元搜索引入的概率模型假设元搜索引擎响应给定的查询,已经获得了每个成员搜索引擎的文档的 ra 排序列表,同时一些简单的统计信息是还获得,包括有关组成系统的平均执行性能的信息。这些信息以元数据的形式给出。基于这些信息,提出了一个概率模型,并推导出了一个优化的元搜索。引擎策略。元数据包括:对于任何查询,文档对应的每个成员搜索引擎的相关性和不相关性,这些都是未指定的初始值。给定,检索系统返回文档的排序列表 r;(d) 检索系统的相关性(如果系统 i 未检索到文档 d,它的相关性是朊病毒)。相关性是成员搜索引擎在评估文档 d 时向元搜索引擎提供的内容,评估基于相关性规则 [a}。对于给定的文件,假设: }!L=Q, a [r1, r2, ..., rn }re;Q ir, where, Q,.对于任何查询,每个成员搜索引擎的相关性和不相关性对应于文档,这些是未指定的初始值。给定检索系统返回的文档排序列表,r;(d) 与检索系统相关(如果系统 i 未检索到文档 d,则其相关性为朊病毒)。相关性由成员搜索引擎在评估文档d时提供给元搜索引擎,评估基于相关性。然后在[a}之上。对于给定的文件,假设:}!L=Q, a [r1, r2, ..., rn }re; Q ir, where, Q,. 对于任何查询,文档对应的每个成员搜索引擎的相关性和不相关性,这些都是未指定的初始值。给定检索系统返回的文档排序列表,r;(d) 与检索系统相关(如果系统 i 未检索到文档 d,则其相关性为朊病毒)。相关性由成员搜索引擎在评估文档d时提供给元搜索引擎,评估基于相关性。然后在[a}之上。对于给定的文件,假设:}!L=Q, a [r1, r2, ..., rn }re; Q ir, 其中, Q,。相关性由成员搜索引擎在评估文档d时提供给元搜索引擎,评估基于相关性。然后在[a}之上。对于给定的文件,假设:}!L=Q, a [r1, r2, ..., rn }re; Q ir, 其中, Q,。相关性由成员搜索引擎在评估文档d时提供给元搜索引擎,评估基于相关性。然后在[a}之上。对于给定的文件,假设:}!L=Q, a [r1, r2, ..., rn }re; Q ir, 其中, Q,。

  是给定文件相关的概率值;}ir 是给定文件不相关的概率值。给定序列:}, r2,...,Yn,指定如果 }rc}Rir,则该文件是相关的,否则是不相关的。f 先计算相关概率:O22}m}}i,然后根据这个值尺度应用贝叶斯规则,得到:Q2=}.}ri,rz,…,Yn”。}?r} rz, one, rn}, r}r}lr}/}?.} r}, Y2, one, rnQ Wang r}, rz, one, r, r] 这一项在实践中是很难得到的,以比率的形式估计,即Q re=Q ":,, rz, ..., rn}rc, r}, r2, ...,:.diao;rQ,}ir}},其中满足原贝叶斯独立假设,公式_1等价于J re] ear, Q factory[r;}.]/{Q[ir].fir]rr, ir]} 最后,由于只考虑排序后的文件, 可以取对数得到相关性的计算公式相关性与非相关性的比值,消除了相关性标准化的问题,屏蔽了各个会员搜索引擎的具体相关性;此外,每个成员搜索引擎的比率值相加。它还综合考虑了各个搜索引擎所起的作用,达到了r相关性的平衡,从而客观地反映了文档的真实性质。进行了实验,元搜索引擎Mix集成了6个常见的搜索引擎作为成员引擎。这五个成员搜索引擎分别是:新浪(sing)、网易(neFe2Se)、天网(pku)、雅虎(Yahoo?)、搜狐(Sohu)和'x}gle(对应Mix使用基于概率的检索结果优化排序方法数据融合,因为有6个会员搜索引擎系统。因此i=6,任一文件d,其相关度1W 4,Cr r.{re}/Qr r.ir]}Art l}}r[two'two]lRr!two,}it where G1,-[re ] 是文件会员系统;排名到 Y 级,即相关的概率值。同理,Qr 1r]是一个文档可能被会员系统7排序到level ::的不相关概率值。因此,对于每个会员搜索引擎,得到的文档的Relevance,加上所有会员搜索的概率值比的对数引擎,得到的总和就是文件的最终相关性。

<p>. }}。元搜索引擎米,利用这个相关性公式整合各个会员搜索引擎返回的结果,不仅扩大了搜索范围}f,而且月度引擎更有效,给用户更多真正想得到的信息。高相关值假设输入“肝炎”作为关键词。经过测试,发现每个会员搜索引擎和Mix系统都可以响应查询。实验结果如表一所示,其中:为搜索效率;t 是搜索时间 将每个组件搜索索引和元搜索索引的效率与搜索引擎中的总页数进行比较。/%t/s新浪 82 fi48 55.8 126 网易 77 000 5

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线