搜索引擎进行信息检索的优化策略方法(新的基于概率模型的排序优化方法())

优采云 发布时间: 2021-12-01 11:10

  搜索引擎进行信息检索的优化策略方法(新的基于概率模型的排序优化方法())

  收稿日期:20020906。 作者简介:硕士;武汉华中科技大学计算机科学与技术学院 基金项目:国家高性能计算基金项目(99319)华中科技大学计算机科学与技术学院) 摘要:提出一种新型基于概率模型的排序优化方法研究[J]. 利用贝叶斯规则,结合各组成系统的平均执行性能推导出新的相关计算公式,解决了结果融合中相关的归一化和均衡化问题。实验表明,该方法优化了结果的排序,其实际执行性能超过了任何现有组件系统的性能。元搜索引擎;概率模型;优化的结果排名;排序与融合 中文图书馆分类号:TP393。09; TP311。135 文章 编号:16714512( 2003) 03004903 没有搜索引擎可以覆盖所有的WWW资源,大多数搜索引擎只能涉及整个资源的一小部分。以及各种搜索引擎的信息来源,所以整合多个搜索引擎生成的元搜索引擎,具有比传统引擎覆盖面更大、引擎效果更好、可扩展性强等优点,其中对各个组件系统返回的搜索结果进行排序是提高效率的关键技术元搜索引擎。

  但是,这些方法有很大的不同,通常每个算法对于某个搜索引擎提供商都是唯一的,并且算法不公开,这使得来自不同数据源的数据结果的融合和排序变得非常复杂。相关性标准化 每个成员搜索都有自己的尺度来衡量文档的相关性。例如,数据源R1判断文件f1是针对某个查询,数据源R2判断文件f2对于某个查询的相关度为1000。如果要将R1 R2的结果合并到单个文件排序列表中,那么f1根本无法判断,因为没有统一的标准。如何统一各种数据源的关联性,这就涉及到关联性的标准化。相关性均衡 大多数搜索引擎的排名算法是不公开的,还有一些人公开了他们的算法。事实上,即使使用相同的排序算法,算法也是根据不同的文件集对文件进行排序。比如R1是一个专门从事计算机科学的数据源,所以word数据结构可能会出现在很多文件中,所以这个word数据结构在R1中的相关性会非常低。同时,如果数据源R2和计算机科学完全不相关,而R2中出现过这个词的文件是那么数据结构,在数据源R2中可能具有高度相关性。对于收录单词数据结构的查询,R1 可能会给文档提供较低的相关性,而 R2 可能会提供较高的相关性。R1是计算机专业的数据源,所以词数据结构可能出现在很多文件中,所以词数据结构在R1中的相关性会很低。同时,如果数据源R2和计算机科学完全不相关,而R2中出现过这个词的文件是那么数据结构,在数据源R2中可能具有高度相关性。对于收录单词数据结构的查询,R1 可能会给文档提供较低的相关性,而 R2 可能会提供较高的相关性。R1是计算机专业的数据源,所以词数据结构可能出现在很多文件中,所以词数据结构在R1中的相关性会很低。同时,如果数据源R2和计算机科学完全不相关,而R2中出现过这个词的文件是那么数据结构,在数据源R2中可能具有高度相关性。对于收录单词数据结构的查询,R1 可能会给文档提供较低的相关性,而 R2 可能会提供较高的相关性。而R2中出现过该词的文件都是so数据结构,在数据源R2中可能有很高的相关性。对于收录单词数据结构的查询,R1 可能会给文档提供较低的相关性,而 R2 可能会提供较高的相关性。而R2中出现过该词的文件都是so数据结构,在数据源R2中可能有很高的相关性。对于收录单词数据结构的查询,R1 可能会给文档提供较低的相关性,而 R2 可能会提供较高的相关性。

  在同一个查询中,两个非常相似的文件 f 和 f2,如果 f1 在 R1 中,它们得到不同的相关值。因此,即使数据源采用相同的排名来计算元搜索引擎,仍然需要一些额外的信息来有效地整合查询结果。最好的解决方案是综合考虑每个成员的搜索引擎给出的相关性,从而消除每个数据源本身造成的偏差。检索结果排序的优化方法 针对给定的查询,为了结合多个查询检索系统得到的文档排序列表,更好地解决上述两个问题,提出了一种新的概率模型。元搜索引擎的概率模型假设在响应给定的查询时,元搜索引擎已经赢得了第 31 卷。31 华中大学 NatureScience Edition) 2003 到每个成员搜索引擎中的文件排序列表。同时,还得到了一些简单的统计信息,包括组成系统的平均执行性能的信息。该信息以元数据的形式给出。基于此信息,提出概率模型并推导出优化的元搜索引擎策略。元数据包括: 对于任何查询,每个成员搜索引擎对应的文件的相关性和不相关性,这些都是未标准化的初始值。给定检索系统返回的已排序文档列表,将文档 d 的相关性分配给 ri(如果系统 i 未检索到该文档,则将其相关性提供给元搜索引擎,并且评估基于一对相关性规则。对于给定的文件,假设: Qre re; Qir Qre 是与给定文件相关的概率值;Qir 是给定文件不相关的概率值。

  给定的序列规定,如果Qre>Qir,则文件相关,否则不相关。可以先计算出相关概率:Ore Qre/Qir,然后按照这个数值尺度进行排序。应用贝叶斯规则,我们得到: 这一项在实践中很难获得。它以比率的形式进行估计。Qr[re] irQr 满足原创贝叶斯独立假设。上面的公式等价于上一个。由于只考虑排序后的文件,可以取对数,re]是成员系统将文件排列到ri级的相对概率值。类似地,Qr 是一个文件可能被成员系统排名到 ri 级的无关概率。对于每个成员搜索引擎,获取文档的相关性。将所有成员搜索引擎的概率值比的对数值相加,总和为文档的最终相关度。相关性与非相关性的比例消除了相关性的标准化,屏蔽了每个成员搜索引擎的特定相关性;另*敏*感*词*,而且引擎效果更好,给用户真正想要的信息更高的相关值。

  假设输入的肝炎是一个关键词,经过测试,发现每个成员的搜索引擎和Mix系统都能响应查询。实验结果如表所示,其中,为搜索时间。比较各个组成搜索引擎和元搜索引擎的效率,搜索引擎页面总数为 Sina82 648 55. 126 NetEase 77 000 52. 162 Skynet 31 706 21. 016 Yahoo 77 000 52. 162Sohu 8216 .Google 852 000 52. 162Mix 118 563 86. 综上所述,由于采用了基于概率的搜索结果排序方法,元搜索引擎的效率得到了很大的提升。主要表现是搜索覆盖率增加,而响应时间没有太大变化,综合性能强于Any会员搜索引擎。此外,系统的健壮性也得到了很大的提高。当会员系统的执行性能特别差时,元搜索引擎系统的执行性能也不会变差。50 WWW 上的信息发现和搜索引擎技术。小型微机系统, 1998, 19 (66~71 et. al. Sear ching Web. ACM Transactions Internet Technology, 2001, 基于Internet的信息资源发现技术与实现。

  Computer Research and Development, 1999, 36( 11) Lawrence pageanalysis modified Web search. IEEE Internet Computing, 1998, 38~46rankingresults websearch metasearchWen Kunmei Zhengding DengXi ChenLi Abstract: paperput forward newoptimal scheme based on heBayes rule heinformation heaverage performance关键词:元搜索引擎;概率模型;结果最优排序;排序融合;文昆梅*敏*感*词*;大学计算机科学。

  华总 中国武汉 430074。华中科技大学出版社图书新闻与电气工程及自动化系列教材电路理论电阻网络黄冠斌14.80电路理论时域频域分析22.80电路理论端口网络与均匀传输线14.00电力系统分析(22.00电力系统分析(23.50 电机(国家教学成果二等奖)) 32.00 高压技术 18.80 电力系统继电保护原理及应用(22.80 电力开关技术 18.00 电力工程基础 25.00 51

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线