seo工具-百度快照诊断功能(当网站有了蜘蛛来访，百度蜘蛛对网站内页的爬行规律)

优采云发布时间: 2021-11-12 19:09

　　当网站有蜘蛛访问时，你的网站页面就有可能被收录，百度蜘蛛会爬取我们的网站html代码，然后将数据拆分成结构化的数据分为标题、摘要、标题图片、正文等，带回百度服务器，过滤后放入数据库。接下来分享一下百度蜘蛛对网站页面的抓取规则。

　　目前网站的数量以百亿计算。每个页面都有快照备份是不现实的，所以百度蜘蛛将适者生存，就像开拓者、主力和功能一样。事实上，没有高低权重之分。

　　百度蜘蛛对网站内页的抓取模式：

　　百度蜘蛛主要由收录和快照蜘蛛组成。通常123IP的开头是收录蜘蛛，220IP的开头是快照蜘蛛。我们基本上可以从这两个蜘蛛的访问日志来判断。这个网站在百度看来是一个高质量的网站吗？

　　1、优质内容页面：发布新文章文章后，通常123开头的蜘蛛先走，220开头的蜘蛛在后。然后，在同一天或每 1-2 天，快照就会有更新。

　　2、 404页面爬取规律：当网站删除几个已经被收录变成404的内部页面访问时，当123开头的蜘蛛来爬的时候，一般发现两个404之后，百度蜘蛛不会来。

　　3、文章内容差的页面：如果是文章*敏*感*词*生成的拼凑的文章，布局杂乱不可读，123开头的蜘蛛不会在它来一次之后。又是在这里。

　　那么百度蜘蛛爬取的真正逻辑应该是：对123开头的蜘蛛收费，对网页内容进行过滤，减少不必要的服务器资源浪费；220开头的蜘蛛一般在筛选123蜘蛛后进入。如果网页内容真的很差，220开头的蜘蛛是不会访问的；对于收录已经快照过的页面，会直接在220开头访问。

　　最终结论如下：

　　以1、123开头的IP是收录蜘蛛。所谓收录蜘蛛，是指百度蜘蛛访问后，百度后端会使用一系列的判断方法，如反作弊处理、原创度检测等，决定是否可以收录，是否可以引导百度快照蜘蛛访问。

　　以2、220开头的IP是快照蜘蛛。当收录蜘蛛通过收录标准检测到网页时，快照蜘蛛生成结构化数据并进入倒排索引。此时的网页用户只能搜索快照。

　　因此，每次快照更新前，都会访问收录蜘蛛和快照蜘蛛，收录蜘蛛与快照蜘蛛的访问比例一般不超过2:1。如果收录蜘蛛出现的频率比较高，根据快照蜘蛛，说明网页内容不够。

0

2021-11-12

seo工具_百度快照诊断功能

0 个评论

要回复文章请先登录或注册