外链建设中的核心算法:PageRank算法、HilltopHit算法
优采云 发布时间: 2021-06-10 23:09
外链建设中的核心算法:PageRank算法、HilltopHit算法
搜索引擎核心算法
外链是判断网站在搜索引擎算法中权重的重要指标。当用户在搜索框中输入关键字时,搜索引擎会面对大量内容相同的网页。首先要解决的是什么参数感觉页面排名的高低。今天笔者简单介绍一下外链构建中比较著名的核心算法:PageRank算法、Hilltop算法、Direct Hit算法。
第一个算法,PageRank算法
1998 年,Sergey Brin 和 Lawrence Page 提出了 PageRank 算法。该算法根据“许多高质量网页链接的网页一定仍然是高质量网页”的回归关系来确定网页的重要性。该算法认为,网页A到网页B的链接可以看作是网页A对网页B的支持票,根据票数判断网页的重要性。当然,不仅要看票数,还要分析投票页的重要性。页面越重要,投票的评价就越高。根据这一分析,评分较高的重要页面会被赋予更高的PageRank值,它们在搜索结果中的排名也会有所提高。 PageRank 是基于对“使用复杂算法得到的链接结构”的分析来获得每个网页本身的特征。
分析:PageRank算法的优势在于它给出了网页在互联网上的重要性的全局排名,并且算法的计算过程可以离线完成,有利于快速响应用户请求。但是,它的缺点在于主题不相关,页面内没有导航链接、广告链接和功能链接的区别。很容易高估广告页面。此外,PageRank 算法的另一个缺点是旧页面排名会高于新页面。页面高,因为一个新的页面,即使是一个非常好的页面,也不会有很多链接,除非它是一个站点的子站点。这就是 PageRank 需要多种算法组合的原因。
第二种算法,Hilltop算法
HillTop 是一项对搜索引擎结果进行排序的专利,由 Google 的工程师 Bharat 于 2001 年获得。 HillTop算法的指导思想与PageRank相同,即以反向链接的数量和质量来决定搜索结果的排名权重。但是,HillTop 认为,只计算具有相同主题的相关文档的链接对搜索者来说更有价值,即与主题相关的网页之间的链接比与主题无关的链接对权重计算的贡献更大。在 1999-2000 年,当 Bharat 和其他 Google 开发人员开发这种算法时,他们将此类对主题有影响的文档称为“专家”文档,并且仅确定从这些专家文档页面到目标文档的链接。链接页面“权重得分”的主要部分。
Hilltop算法的过程:首先计算出与查询主题最相关的“专家”资源列表;其次,在选定的“专家”集中识别相关链接,并对其进行跟踪以识别相关网页目标;然后将目标基于非相关 指向它们的“专家”的数量及其相关性排名。因此,着陆页的分数反映了最中立的专家对查询主题的集体意见。如果这样的专家池不存在,Hilltop 不会给出结果。
从Hilltop算法的流程可以看出,该算法主要包括两个方面:搜索专家;目标排序。通过对搜索引擎抓取的网页进行预处理,找出专家页面。对于关键词的查询,首先在专家中查找,并按排序返回结果。
权威页面是最好的专家针对查询主题指向的页面。专家也可能是更广泛领域或其他领域主题的专家。专家页面中只有部分链接与该主题相关。因此,将查询主题专家的相关出站链接进行合并,以找到查询主题页面识别度较高的页面。
从排名靠前的匹配专家页面和相关匹配信息中选择专家页面中的超链接子集。特别是选择那些与所有查询相关的链接。根据这些选定的链接,找到它们的目标子集作为与查询主题最相关的网页。该目标子集收录由至少两个非相关专家页面链接到的网页。目标集根据指向他们的专家的综合表现进行排序。
Hilltop 在应用上还存在一些不足。专家页面的搜索和确定在算法中起着关键作用。专家页面的质量决定了算法的准确性;专家页面的质量和公平性在一定程度上难以保证。 Hiltop 忽略了大多数非专家页面的影响。在Hiltop的原型系统中,专家页面仅占整个页面的1.79%,并不能完全代表整个互联网。
当Hiltop算法无法获得足够多的专家页面子集(少于两个专家页面)时,返回为空,即Hiltop适合细化查询排序,但不能被覆盖。这意味着 Hilltop 可以与页面排序算法结合以提高准确性,并不适合作为独立的页面排序算法。在Hilltop中,基于查询主题从专家页面集合中选择与主题相关的子集也是在线运行的,这会影响查询响应时间,就像前面提到的HITS算法一样。随着专家页面集合的增加,算法的可扩展性也有其不足。
分析:HITS算法的优势在于可以更好地描述互联网的组织特征。由于它只分析互联网的一小部分,它需要更少的迭代和更快的收敛。 , 降低时间复杂度。
但是HITS算法也存在以下缺点:当一个网站上的多个网页指向同一个链接,或者一个网页指向另一个网站上Multiple时,中心网页之间相互引用以增加其网页评价文件中,会导致分数异常增加,从而导致易受“垃圾链接”的影响;网页中有自动生成的链接;
话题漂移。邻接图通常收录一些与搜索主题无关的链接。如果这些链接本身也是中心页面或权威页面,则会造成主题漂移:需要重新运行每个不同的查询算法才能获得结果。这使得在实时系统中无法使用,因为数千万并发查询的开销太大。
第三种算法,Direct Hit算法
与之前的算法相比,Ask Jeeves 的 Direct Hit 算法是一种注重信息质量和用户反馈的排序方法。它的基本思想是搜索引擎将查询的结果返回给用户,并跟踪用户在搜索结果中的点击。如果返回结果中排名靠前的网页被用户点击,浏览时间较短,用户再次点击其他搜索结果,则可以认为其相关性较差,系统会降低相关性网页的。另一方面,如果网页被用户打开浏览,并且浏览时间较长,则该网页的流行度较高,相应地,系统会增加该网页的相关性。可以看出,在这种方法中,相关度是不断变化的,在不同时间检索到同一个词,结果集的排名可能会有所不同。这是一个动态排名。
分析:这个算法的优点是可以节省很多时间,因为用户阅读的内容更符合从搜索结果中过滤出来的要求。同时,该算法直接集成到用户的反馈信息中,保证页面质量。
但是,统计表明Direct Hit算法只适合搜索关键词较少的情况,因为它实际上并没有进行排序,而是一种筛选和提取。搜索数据库很大,关键词很多,当时返回了上千条搜索结果,用户无法一一查看。因此,该方法不能作为主要的排序算法,而是一种很好的辅助排序算法,目前仍在很多搜索引擎中使用。
其实,网页的搜索排名是多种算法综合作用的结果。简单分析一下上面三种算法,Pagerank可以给网站上的所有网页一个重要性排名,但是它没有针对性,相关性,现在PR值作弊已经到了泛滥的地步,所以PR对上的重要性页面排名大大降低;
Hilltop 算法的提出,将对广大站长的外链建设起到指导作用。在 Hilltop 算法中,每个领域都会有几个专家页面。如果搜索相关关键词,搜索引擎会先从专家页面找到。如果匹配不够,它会从专家页面链接的下一级找到它,依此类推。
Direct Hit 算法可以作为 Hilltop 和 pagerank 的一个很好的补充。 Direct Hit更多的是考虑用户体验的影响,实时更新搜索结果的质量。它是最能满足搜索用户需求的页面。应该是用户点击了搜索框中的页面链接。当用户浏览网站一定时间后,被认为是结果页,更符合用户的搜索需求。长期有效的点击会导致页面在搜索引擎中的排名。改进。
通过以上三种算法可以了解到,无论是做外链还是网站内容构建,首先需要考虑的是相关性。在外链建设中,一定要努力找到与话题相关的、权威性很强的网站、软文、友情链接等等,都可以算是这些网站,对大家的支持,同时,关注网站的跳出率和浏览时间,随时反馈用户数据。对于一些关键页面,用户对于流量较高的页面,做出相关推荐,引导用户点击更多页面。