武汉网站搜索引擎优化(杭州思亿欧致力于搜索引擎技术中的相关性排名技术研究(图))

优采云 发布时间: 2022-02-10 23:24

  武汉网站搜索引擎优化(杭州思亿欧致力于搜索引擎技术中的相关性排名技术研究(图))

  相关性是 SEO 的关键点。但是,我相信大多数 SEOER 对相关搜索引擎的工作方式缺乏了解。杭州思亿欧多年来一直致力于搜索引擎技术中相关性排名技术的研究。作为一名专业的SEO,学习搜索引擎算法是很有必要的,虽然我们不可能了解所有的搜索引擎算法。但你只需要我们主流搜索引擎技术的方向,就能知道搜索引擎时代的脉搏。

  相关性排名技术的产生主要是由搜索引擎的特性决定的。首先,现代搜索引擎可以访问的网页数量已经达到十亿的规模。即使用户只搜索一小部分内容,基于全文搜索技术的搜索引擎也可以返回数千页。即使这些结果网页是用户需要的,也不可能让用户一次浏览所有网页,所以可以将用户最感兴趣的结果网页放在最前面,势必提升搜索引擎用户的满意度。其次,搜索引擎用户自身的检索专业知识通常非常有限。在最常见的关键词检索行为中,用户一般只key几个词。例如,斯宾克等人。对 Excite 等搜索引擎近 300 名用户进行了实验性调查,发现人均输入的搜索词数为 3.34。国内一些学者也有类似的结论,发现用户输入的中文搜索词中,90%左右为2~6个词,2个词居多,约占58%,其次是4个词(约18%)和3个字。单词(约 14%)。搜索词太少并不能真正表达用户的搜索需求,用户通常不会进行复杂的逻辑构造。只有相对较少的用户进行布尔逻辑搜索、受限搜索和高级搜索方法。只有 5.24% 的搜索表达式收录布尔逻辑运算符。国内一些学者的研究结果也表明,约40%的用户无法正确使用字段搜索或二次搜索,约80%的用户无法正确使用高级搜索功能,甚至发现用户缺乏学习复杂搜索技能的动力。大多数用户希望搜索引擎能够自动为他们构建有效的搜索词。由于以往在线搜索中经常出现的搜索者的缺乏,用户的实际搜索行为与用户理想的搜索行为存在事实差距,搜索结果不满意也就不足为奇了。因为这个特性,搜索引擎必须尽量把最想要的网页结果放在网页结果的前面,

  目前的相关性排序技术主要有以下几种:一种是基于传统信息检索技术,主要利用关键词本身在文档中的重要性来判断文档与用户查询需求的相关性。测量,例如使用网页中 关键词 出现的频率和位置。一般来说,检索到的网页文档中收录的查询关键词的数量越多,相关性就越大,对关键词的区分度也越高;同时,如果查询 关键词 出现在标题字段等重要位置,比出现在正文中更相关。二是超链接分析技术。使用该技术的代表性搜索引擎包括谷歌和百度。与前者相比,它以公认的网页重要性作为检索结果的相关性排序依据。从设计上看,它更注重第三方对网页的识别。例如,链接网页较多的网页是被广泛认可的重要网页,而传统的基于关键词的位置和频次的方法只是一种网络自我认可的形式,缺乏客观性。最后,还有其他方式,例如用户自由定义排序规则的自定义方式。北大天网FTP搜索引擎采用这种排序方式,用户可以选择时间、大小、稳定性、距离等特定排序指标对结果页面进行相关性排名。又如收费排名模型,作为搜索引擎的主要盈利方式,广泛应用于具有门户网站特点的大型搜索引擎中。,但仅作为补充出现在付费搜索部分。

  相关度排名技术主要依靠超链接分析技术的实现。超链接分析技术可以提供多种功能,其主要功能是解决结果网页的相关性排名问题。主要利用网页之间的各种超链接,分析网页之间的引用关系,根据网页链接的人数计算网页的重要性权重。一般认为,如果网页A有到网页B的超链接,就相当于网页A给网页B投了一票,即A承认网页B的重要性。深入理解超链接分析算法,整个网页文档集根据链接结构可以看成一个有向拓扑图,其中每个网页构成图中的一个节点,网页之间的链接构成节点间。有向边,根据这个思想,可以根据每个节点的出度和入度来评估网页的重要性。

  对于超链接分析技术,代表算法是Page等人设计的PageRank算法。以及 Kleinberg 创建的 HITS 算法。其中,PageRank算法在实际使用中的效果要优于HITS算法,这主要是由于以下原因:一是PageRank算法可以在一次性、离线、独立的查询中预先计算网页,得到网页重要性的估计值,然后在具体的用户查询中,结合其他查询索引值,对查询结果进行相关性排序,从而节省系统查询的计算成本;其次,PageRank算法使用整个网页集合进行计算,不像HITS算法容易受到部分链接陷阱的影响而产生“话题漂移”现象,所以这项技术在很多搜索引擎系统中得到了广泛的应用。度排序算法越来越成熟。

  PageRank 技术是基于这样一种假设,即对于网络中的网页 A,如果存在指向网页 A 的链接,则可以将 A 视为重要网页。PageRank 认为一个网页的入站链接数量可以反映一个网页的重要性,但由于现实中人们在设计网页上的各种超链接时往往并不严格,所以网页的超链接有很多纯粹是为了网站 导航、商业广告等等,显然这类网页对它所指向的网页的重要性贡献不大。但是由于算法的复杂性,PageRank并没有考虑网页的超链接内容对网页重要性的影响,而只采用了两种比较简单的方法:一是,如果一个网页的链接网页过多,则会降低识别每个链接网页的重要性的能力;其次,如果一个网页由于其链接的网页数量较少而不太重要,那么它对链接网页的重要性的影响也会相应降低。因此,在实际计算中,网页A的重要性权重与网页A中链接的重要性权重成正比,与链接到网页A的网页数量成反比。由于无法知道网页A本身的重要性权重,确定每个网页的重要权重需要反复迭代计算。也就是说,一个网页的重要性也取决于其他网页的重要性。它将降低识别每个链接出的网页的重要性的能力;其次,如果一个网页由于其链接的网页数量较少而不太重要,那么它对链接网页的重要性的影响也会相应降低。因此,在实际计算中,网页A的重要性权重与网页A中链接的重要性权重成正比,与链接到网页A的网页数量成反比。由于无法知道网页A本身的重要性权重,确定每个网页的重要权重需要反复迭代计算。也就是说,一个网页的重要性也取决于其他网页的重要性。它将降低识别每个链接出的网页的重要性的能力;其次,如果一个网页由于其链接的网页数量较少而不太重要,那么它对链接网页的重要性的影响也会相应降低。因此,在实际计算中,网页A的重要性权重与网页A中链接的重要性权重成正比,与链接到网页A的网页数量成反比。由于无法知道网页A本身的重要性权重,确定每个网页的重要权重需要反复迭代计算。也就是说,一个网页的重要性也取决于其他网页的重要性。如果一个网页由于链接的网页数量较少而不太重要,那么它对链接网页的重要性的影响也会相应降低。因此,在实际计算中,网页A的重要性权重与网页A中链接的重要性权重成正比,与链接到网页A的网页数量成反比。由于无法知道网页A本身的重要性权重,确定每个网页的重要权重需要反复迭代计算。也就是说,一个网页的重要性也取决于其他网页的重要性。如果一个网页由于链接的网页数量较少而不太重要,那么它对链接网页的重要性的影响也会相应降低。因此,在实际计算中,网页A的重要性权重与网页A中链接的重要性权重成正比,与链接到网页A的网页数量成反比。由于无法知道网页A本身的重要性权重,确定每个网页的重要权重需要反复迭代计算。也就是说,一个网页的重要性也取决于其他网页的重要性。网页A的重要性权重与网页A中链接的重要性权重成正比,与链接到网页A的网页数量成反比。由于无法知道网页的重要性权重页面A本身,决定每个网页的重要权重需要反复迭代计算。也就是说,一个网页的重要性也取决于其他网页的重要性。网页A的重要性权重与网页A中链接的重要性权重成正比,与链接到网页A的网页数量成反比。由于无法知道网页的重要性权重页面A本身,决定每个网页的重要权重需要反复迭代计算。也就是说,一个网页的重要性也取决于其他网页的重要性。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线