采集的文章内容不能直接发布(百度抓取网页判断该页面质量的因素是降低新站进入的概率)

优采云 发布时间: 2022-01-23 12:20

  采集的文章内容不能直接发布(百度抓取网页判断该页面质量的因素是降低新站进入的概率)

  百度爬取网页判断页面质量时,会受到页面发布时间的影响。

  并且由于网站有时会面临换域名的问题,百度会因为某个网站在换域名后重新收录时认为所有页面都是最新更新的。

  因此,为了避免这种不公平的判断,百度会将页面中的文章发布日期作为判断标准之一来判断页面的发布时间,从而生成相应的快照时间。

  所以,对于一个新站点,如果你需要一次更新很多文章,又怕百度误认为采集,那么在每个文章中,你必须加上文章发布日期,从而“帮助”百度“知道”文章的发布时间。

  百度爬的文章的时间几乎不一样。百度会认为这个网站只是一个新域名,但是是旧数据,所以不会误认为一次更新大量文章。我还以为是采集。

  当然也不是绝对的,因为百度有很多因素来判断一个页面的好坏,所以这个因素只是降低了新站点进入沙河的概率。

  让我们看下面的例子:

  我的域名是2012年9月注册的,发布文章的时候,文章直接填写消息出来的时间。当百度收录这个页面时,它以页面中的发布时间为参考,给同一时间拍一张快照。但实际上,2012年3月26日,该域名还没有被注册。

  以上是新站,我们来看一个老站的例子:

  

  我的域名是2012年9月注册的,发布文章的时候,文章直接填写消息出来的时间。当百度收录这个页面时,它以页面中的发布时间为参考,给同一时间拍一张快照。但实际上,2012年3月26日,该域名还没有被注册。

  以上是新站,我们来看一个老站的例子:

  

  这个文章是我2013年1月10日发的,发的时候我填的时间是2012年12月25日,百度收录也把快照时间设置为我填的发布时间,不是真正的发布时间。

  由此可以看出,百度爬虫在抓取网页的时候,不一定对网站的每一页都抓取一次,有时候是由于网站的用户体验不好,这样即使有文章 页面链接,爬虫不会爬取。因此,百度在爬到某个页面时,不会立即认为这个文章刚刚发布,而是会根据百度自己的算法判断这个文章的发布时间。

  当然,大多数情况下,百度还是爬到收录的时候。但是对于少数时间不对的情况,不能忽视,因为对于采集这个新站点,如果用户体验好,百度可能会认为是老站点换了域名,所以还将为这个新站点提供更好的 收录 和排名。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线