网站内容策略(提高spider抓取策略有哪些?蜘蛛有没有来网站的策略)

优采云 发布时间: 2022-03-06 09:06

  网站内容策略(提高spider抓取策略有哪些?蜘蛛有没有来网站的策略)

  SEO网站 优化SEOER,要时刻关注百度蜘蛛是否每天都来抢网站,什么内容被抓取网站,什么内容没有被抓取网站 ,然后在未爬取的页面上观察调优网站的问题。

  如果想提高蜘蛛的爬取频率,可以从几个方面入手,简单介绍一下改进蜘蛛爬取的策略网站。

  改善蜘蛛爬行的策略有哪些?

  一、抓取友好性:抓取压力调制降低了对网站的访问压力

  带宽造成访问压力大,会直接影响网站的正常用户访问。为了不影响网站的正常用户访问,蜘蛛还可以抓取有价值的页面。

  1、IP 压力控制

  如果一个域名下有多个IP,或者多个域名对应同一个IP,则需要根据IP和域名的各种情况进行压力分配控制。也可以使用站长平台中的压力反馈工具,手动调整网站的抓取压力,让蜘蛛根据站长的要求,优先进行抓取压力控制。

  2、网站的爬取率

  如果在同一个站点,爬取率控制有两种:第一种,一段时间内的爬取频率;第二种,一段时间内的爬行流量。同一个站点在不同时间的爬取速度是不同的,是根据站点的类型来设置的。

  二、 常用爬取返回码

  1、404:“NOT FOUND”,表示网页已过期,通常会从库中删除。如果蜘蛛找到这个 URL,它就不会被抓取。

  2、503:“Service Unavailable”,表示该网页暂时无法访问。如果网页返回 503 状态码,百度蜘蛛不会直接删除该 URL。如果网页在多次访问后恢复正常,就可以正常爬取了。如果继续返回 503,则视为无效链接,从库中删除。

  3、403:“Forbidden”,表示该网页当前被禁止访问。如果生成了新的URL,蜘蛛暂时不会抓取,会多次访问;如果是收录的URL,不会直接删除,短时间内会被多次访问。如果网页正常访问,则正常爬取;如果仍然禁止访问,该 URL 也将被视为无效链接,将从库中删除。

  4、301:“Moved Permanently”,表示网页被重定向到一个新的URL。如果网站需要更改域名或网站改版,需要设置301重定向,也可以在站长平台的网站改版工具中提交,有效减少网站@的流量损失>。

  本文的读者还可以阅读:

  网站更改域名或修改网页内容对网站有何影响?网站更改域名注意事项

  如何改进蜘蛛爬网网站?改进爬虫爬取策略(2)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线