百度搜索引擎决定搜索结果排序时考虑的六大原则?
优采云 发布时间: 2021-06-03 19:02百度搜索引擎决定搜索结果排序时考虑的六大原则?
[文章Abstract] 以下是百度搜索引擎在决定搜索结果排名时考虑的六大原则。六项原则的重点是什么?在实际应用中,哪个原理占的比例最大?事实上,这里没有明确的答案。在百度搜索引擎的早期,这些门槛确实是比较固定的。例如,“相关性”可以占整体排名的 70%。但是,随着互联网的不断发展,检索技术的进步,网页数量的爆炸式增长,相关性不再是问题。因此,百度搜索引擎引入了机器学习机制,让程序自动生成计算公式,促进更合理的排名策略。
在说这个话题之前,我们先来了解一下搜索引擎蜘蛛爬虫系统的工作机制。
上图是蜘蛛抓取系统的基本框架,包括链接存储系统、链接选择系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统百度蜘蛛通过本系统的配合完成了对网页的抓取。
那么百度搜索引擎用什么指标来判断一个网站的爬取频率呢?主要有四个指标:
1、网站更新频率:更新来得快,更新来得慢,直接影响百度蜘蛛的访问频率
2、网站更新质量:更新频率增加,只引起了百度蜘蛛的关注。百度蜘蛛对质量有严格的要求。如果网站每天更新大量内容,百度蜘蛛被判定为低质量页面仍然没有意义。
简单介绍一下百度支持的几种返回码:
最常见的 404 代表“未找到”。认为该网页已过期,通常会从库中删除。同时,如果蜘蛛在短期内再次找到这个网址,则不会被抓取;
503 代表“服务不可用”。认为是网页暂时无法访问,通常网站暂时关闭,带宽受限等都会造成这种情况。对于返回503状态码的网页,百度蜘蛛不会直接删除网址,会在短时间内多次访问。如果网页已经恢复,则可以正常抓取;如果继续返回503,URL仍然会被认为是断开的链接并从库中删除。
403 代表“Forbidden”,认为该网页当前被禁止。如果是新的url,蜘蛛暂时不会被抓取,短时间内会被多次访问;如果是收录url,不会直接删除,短时间内会被多次访问。如果网页访问正常,就会正常抓取;如果仍然被禁止访问,那么这个 url 也将被视为无效链接并从库中删除。
301 代表“永久移动”并认为网页被重定向到新的 url。在网站迁移、域名更换、网站改版等情况下,建议使用301返回码和站长平台网站改版工具,减少改版造成的网站流量损失。
3.连通性:网站应该是安全稳定的,对百度蜘蛛保持开放。经常留百度蜘蛛可不是什么好事。
4、网站评价:百度搜索引擎对每个网站都会有一个评价,这个评价会根据网站情况不断变化,是百度搜索引擎对网站的基本评分(不是百度权重)到外界),是百度内部非常机密的数据。网站评分从不单独使用,会与其他因素和阈值共同影响网站的爬取和排名。
理论上,百度蜘蛛会检索新页面上所有“见过”的链接。那么,面对众多的新链接,百度蜘蛛是根据什么判断哪个更重要呢?两个方面:
一、对用户的价值
1.独特的内容,百度搜索引擎喜欢独特的内容
2、主体突出,不要出现网页的主要内容不突出而被搜索引擎误判为空、短页面不被抓取
3、内容丰富
4、广告合适
二、链接的重要性
1、目录级别-浅先
2、链接在网站中的流行度
百度优先建设重要图书馆的原则
众所周知,搜索引擎的索引库是分层的。优质的网页会被分配到重要的索引库,普通的网页会留在普通的图书馆,更糟糕的网页会被分配到下级图书馆作为补充资料。 目前60%的检索需求只调用重要的索引库就可以满足,这就解释了为什么一些网站的收录量超高高流并不理想。
那么,哪些网页可以进入优质索引库呢?其实总的原则是一个:对用户有价值。包括但不仅限于:
1.及时性和有价值的页面:在这里,及时性和价值是平行关系,两者缺一不可。有的网站为了生成时间敏感的内容页面,做了很多采集的工作,结果是一堆百度不想看到的毫无价值的页面。
2.优质内容的专题页:专题页的内容不一定是原创,也就是可以很好的整合各方内容,或者添加一些新鲜的内容,比如意见、评论,让用户拥有更丰富的内容以及更全面的内容。
3、高价值原创内容页:百度将原创定义为文章经过一定成本和大量经验形成的。不要再问我们伪原创是不是原创。
4.重要的个人页面:这里只是一个例子。科比已经在新浪微博上开设了一个账户。即使他不经常更新,它仍然是百度的一个极其重要的页面。
搜索引擎抓取和排序机制(下)
简单的说下这个流程图:网站生成一个页面,被搜索引擎蜘蛛抓取并存入数据库(对应开头的流程图)。程序对该页面进行分析,并使用分词技术构建外部索引。 .
用户输入关键词进行搜索。百度搜索引擎在排序链接上要做两件事。一是从索引库中提取相关网页,二是根据不同维度提取提取的网页。分数是综合排序的。 “不同维度”包括:
1.相关性:网页内容与用户搜索需求的匹配程度,比如用户查看网页中收录的关键词的次数,以及这些关键词出现在什么地方;外部网页用来指向页面的锚文本等
2.权限:用户喜欢网站提供的内容,具有一定的权限。因此,百度搜索引擎也更相信优质权威网站提供的内容。
3.时效性:时效性结果是指收录新鲜内容的新网页。目前,时间敏感的结果在搜索引擎中变得越来越重要。
4.重要性:网页内容与用户检查需求相匹配的重要程度或受欢迎程度
5.丰富性:丰富性看似简单,但它是一个涵盖面非常广的命题。可以理解为网页内容丰富,完全可以满足用户的需求;既可以满足用户的单一需求,又可以满足用户的扩展需求。
6.受欢迎程度:指网页是否受欢迎。
以上是百度搜索引擎在决定搜索结果排名时考虑的六大原则。那么六项原则的重点是什么?在实际应用中,哪个原理占的比例最大?事实上,这里没有明确的答案。在百度搜索引擎的早期,这些门槛确实是比较固定的。例如,“相关性”可以占整体排名的 70%。但是,随着互联网的不断发展,检索技术的进步,网页数量的爆炸式增长,相关性不再是问题。因此,百度搜索引擎引入了机器学习机制,让程序自动生成计算公式,促进更合理的排名策略。
外链的作用
1.吸引蜘蛛爬取:虽然百度在挖掘新好网站、开辟多个数据提交入口、避开社交发现渠道等方面下了不少功夫,但超链接仍然是发现收录link最重要的入口。
2.向搜索引擎传递相关信息:除了通过TITLE、页面关键词、H标签等判断网页内容外,百度还会使用锚文本辅助判断。将图片作为点击入口的超链接,也可以通过alt属性和title标签向百度发送感受。
3.提升排名:百度搜索引擎虽然减少了对超链接的依赖,但对超链接的认可度从未下降,对优质链接、正常链接、垃圾链接、作弊链接制定了更严格的标准。对于作弊链接,除了对链接进行过滤和清理之外,对链接的受益站点也进行一定程度的处罚。因此,百度仍然欢迎高质量的链接。
4、内容分享,获得口碑:优质内容被广泛传播,网站可能不会因此获得多少流量,但如果内容足够,也可以建立自己的品牌效应。
(整理自网络)