seo搜索引擎优化介绍(杭州思亿欧致力于搜索引擎技术中的相关性排名技术研究(图) )
优采云 发布时间: 2022-01-01 22:00seo搜索引擎优化介绍(杭州思亿欧致力于搜索引擎技术中的相关性排名技术研究(图)
)
相关性是搜索引擎优化的重点。但是对于相关搜索引擎的工作原理,相信大部分seoer都缺乏了解。杭州思易欧多年来一直致力于搜索引擎技术中的相关性排名技术研究。作为一个专业的seo,搜索引擎算法的研究是很有必要的,虽然我们不可能知道所有的搜索引擎算法。但只需要了解我们主流搜索引擎技术的方向,就能知道搜索引擎时代的脉搏。
相关性排序技术的产生主要是由搜索引擎的特性决定的。首先,现代搜索引擎可以访问的网页数量已经达到十亿。即使用户只搜索一小部分内容,基于全文搜索技术的搜索引擎也能返回数千页。即使这些结果页面是用户需要的,用户也不可能浏览所有页面。因此,能够将用户最感兴趣的结果页面放在首位,肯定会提升搜索引擎用户的满意度。其次,搜索引擎用户自身的专业搜索能力通常非常有限。在最常见的关键词 搜索行为中,用户一般只是关键人物几个词。例如,斯宾克等人。对excite等近300个搜索引擎用户进行了实验调查,发现每个人平均输入的搜索词数为3.34个。国内一些学者也得出了类似的结论。他们发现,大约90%的用户用2-6个字输入中文搜索词,以二字字居多,约占58%,其次是四字字(约18%)和三字字。字(约 14%)。太少的搜索词实际上并不能真正表达用户的搜索需求,用户通常不会进行复杂的逻辑结构。只有极少数用户执行布尔逻辑搜索、受限搜索和高级搜索方法,只有 5 种。24% 的搜索查询中收录布尔逻辑运算符。国内部分学者的研究结果也显示,约40%的用户无法正确使用字段搜索或二次搜索,约80%的用户无法正确使用高级搜索功能,甚至发现用户缺乏学习复杂搜索技能的动力。大多数用户希望搜索引擎能够自动为他们构建有效的搜索公式。由于过去网络搜索中经常出现的搜索人员不足,用户的实际搜索行为与用户理想的搜索行为之间存在事实上的差距,搜索结果不尽人意也就不足为奇了。也正是因为这个特性,搜索引擎必须尽量把用户最想要的网页结果放在网页结果的前面。这就是为什么网页相关性排名算法在搜索引擎中非常重要的原因。
现阶段相关性排序技术主要包括以下几个方面:一是基于传统的信息检索技术,主要是利用关键词本身在文档中的重要性,将文档与用户查询相关联要求 进行测量,例如使用 关键词 在网页中的频率和位置。一般来说,检索到的web文档中收录的query越多,相关性就越大,对这个关键词的区分度就越高;同时,如果查询关键词出现在标题字段等重要位置比出现在正文中更相关。二是超链接分析技术。使用该技术的代表性搜索引擎包括谷歌和百度。与前者相比,它以网页的重要性被识别作为搜索结果相关性排序的依据。从设计的角度来看,它更注重网页的第三方识别。例如,具有大量链接网页的网页是被广泛认可的重要网页。传统的基于关键词位置和频率的方法只是一种网络自我认可的形式,缺乏客观性。最后,还有一些其他的方式,比如用户自由定义排序规则的自定义方式。北京大学的天网ftp搜索引擎采用这种排序方式,用户可以选择时间、大小、稳定性、距离等具体排序指标,对结果网页进行相关性排序。又如收费排名模式,是搜索引擎的主要盈利方式,广泛应用于具有门户网站特性的大型搜索引擎。不过由于担心影响搜索结果的客观性,这种方式并不是他们的主流排名方式。 , 并且仅在付费搜索部分显示为补充。
相关性排序技术主要依赖于超链接分析技术的实现。超链接分析技术可以提供多种功能,主要功能是解决结果网页的相关性排序问题。它主要利用网页之间存在的各种超链接来分析网页之间的引用关系,并根据网页链中的人数来计算网页的重要性。一般认为,如果网页a有网页b的超链接,就相当于网页a为网页b投了一票,即网页a承认网页b的重要性。随着对超链接分析算法的深入理解,整个网页文档集可以看作是一个基于链接结构的有向拓扑图,其中每个网页构成图中的一个节点,网页之间的链接构成了节点间有向边,按照这个思路,可以根据每个节点的出度和入度来评估网页的重要性。
对于超链接分析技术,代表性的算法主要是page设计的pagerank算法和Kleinberg创建的hits算法。其中,pagerank算法在实际使用中的效果要优于hits算法。这主要是由于以下原因:首先,pagerank算法可以一次预先计算网页,离线且独立于查询,以获得网页重要性的估计值。 ,然后在特定的用户查询中,结合其他查询索引值,将查询结果按相关性排序,从而节省系统查询的计算成本;其次,pagerank算法使用整个网页集合进行计算,不像hits算法容易受到局部链接陷阱的影响而产生“主题漂移”现象,因此该技术现在被广泛应用于许多搜索引擎系统中。谷歌搜索引擎的广泛成功也表明以超链接分析为特征的网页是相关的。排序算法的程度越来越成熟。
pagerank 技术是基于这样一个假设:对于网络中的一个网页a,如果有一个网页a的链接,那么a可以被认为是一个重要的网页。 Pagerank 认为,一个网页中的链接数量可以反映一个网页的重要性,但现实中人们在设计网页上的各种超链接时往往并不严谨。很多网页的超链接纯粹是为了诸如网站 为导航、商业广告等目的而制作的,显然这种网页对其指向的网页的重要性贡献不大。但是由于算法的复杂性,pagerank并没有过多考虑网页的超链接内容对网页重要性的影响,只采用了两种比较简单的方法:一是网页链接页面过多,它识别每个链接网页重要性的能力降低;其次,如果一个网页因为链接网页数量少而不太重要,那么它对链接网页重要性的影响也会相应降低。因此,在实际计算中,网页a的重要性权重与网页a所链接的网页的重要性权重成正比,与网页a所链接的网页数量成反比。由于网页a本身的重要性权重是未知的,需要反复迭代计算每个网页的重要权重才能得到。也就是说,一个网页的重要性决定了,也取决于其他网页的重要性。