搜索引擎进行信息检索的优化策略方法(相关度排序技术的产生主要由搜索引擎的特点决定的因素)
优采云 发布时间: 2022-02-02 10:27搜索引擎进行信息检索的优化策略方法(相关度排序技术的产生主要由搜索引擎的特点决定的因素)
搜索词太少并不能真正表达用户的搜索需求,用户通常不会进行复杂的逻辑构造。搜索引擎必须尽量将最想要的网页结果放在结果前面。
图 2854-1:
核心提示:相关性是搜索引擎优化的重点,主要由搜索引擎的特性决定。首先,网页数量已经达到十亿的规模,其次,搜索引擎用户本身的检索专业知识通常非常有限。
相关性是 SEO 的关键点。但是,我相信大多数 SEOER 对相关搜索引擎的工作方式缺乏了解。但你只需要我们主流搜索引擎技术的方向,就能知道搜索引擎时代的脉搏。
相关性排名技术的产生主要是由搜索引擎的特性决定的。首先,现代搜索引擎可以访问的网页数量已经达到十亿的规模。即使用户只搜索一小部分内容,基于全文搜索技术的搜索引擎也可以返回数千页。即使这些结果网页是用户需要的,也不可能让用户一次浏览所有网页,所以可以将用户最感兴趣的结果网页放在最前面,势必提升搜索引擎用户的满意度。其次,搜索引擎用户自身的检索专业知识通常非常有限。在最常见的关键词检索行为中,用户一般只key几个词。例如,斯宾克等人。对 Excite 等搜索引擎的近 300 名用户进行了实验性调查,发现人均输入的搜索词数为 3.34。国内一些学者也有类似的结论,发现用户输入的中文搜索词中,90%左右为2~6个词,2个词居多,约占58%,其次是4个词(约18%)和3个字。单词(约 14%)。
搜索词太少并不能真正表达用户的搜索需求,用户通常不会进行复杂的逻辑构造。只有相对较少的用户进行布尔逻辑搜索、受限搜索和高级搜索方法。只有 5.24% 的搜索表达式收录布尔逻辑运算符。国内一些学者的研究结果也表明,约40%的用户无法正确使用字段搜索或二次搜索,约80%的用户无法正确使用高级搜索功能,甚至发现用户缺乏学习复杂搜索技能的动力。大多数用户希望搜索引擎能够自动为他们构建有效的搜索词。由于缺乏过去经常在网上搜索的搜索者,用户的实际搜索行为与用户理想的搜索行为之间存在事实差距,搜索结果不满意也就不足为奇了。因为这个特性,搜索引擎必须尽量将最想要的网页结果放在网页结果的前面,这也是为什么网页相关性排名算法在搜索引擎中非常重要的原因。
目前的相关性排序技术主要有以下几种:一种是基于传统信息检索技术,主要利用关键词本身在文档中的重要性来判断文档与用户查询需求的相关性。测量,例如使用网页中 关键词 出现的频率和位置。一般来说,检索到的网页文档中收录的查询关键词的数量越多,相关性就越大,对关键词的区分度也越高;同时,如果查询 关键词 出现在标题字段等重要位置,比出现在正文中更相关。二是超链接分析技术。使用该技术的代表性搜索引擎包括谷歌和百度。与前者相比,它以公认的网页重要性作为检索结果的相关性排序依据。从设计上看,它更注重第三方对网页的识别。例如,链接网页较多的网页是被广泛认可的重要网页,而传统的基于关键词的位置和频次的方法只是一种网络自我认可的形式,缺乏客观性。最后,还有其他方式,例如用户自由定义排序规则的自定义方式。北大天网FTP搜索引擎采用这种排序方式,用户可以选择时间、大小、稳定性、距离等特定排序指标对结果页面进行相关性排名。又如收费排名模型,作为搜索引擎的主要盈利方式,广泛应用于具有门户网站特点的大型搜索引擎中。,但仅作为补充出现在付费搜索部分。