php抓取网页域名(百度spider对常用的http返回码的处理逻辑是这样的)

优采云发布时间: 2021-11-17 22:10

　　百度爬虫在抓取和处理的时候，会根据http协议规范设置相应的逻辑，所以站长也应该尽量参考http协议中返回码含义的定义来设置。

　　百度蜘蛛对常用http返回码的处理逻辑如下：

　　1、404

　　404 返回码的意思是“NOT FOUND”。百度会认为该网页无效，因此通常会从搜索结果中删除，而蜘蛛会在短期内再次找到该网址而不会对其进行抓取。

　　2、503

　　503 返回码的意思是“服务不可用”。百度会认为网页暂时无法访问，通常网站暂时关闭，带宽受限等都会造成这种情况。对于返回503的网页，百度蜘蛛不会直接删除该网址，短期内还会再次访问。届时，如果网页已经恢复，就可以正常抓取；如果继续返回503，短时间内会被多次访问。但是如果网页长时间返回503，那么这个url仍然会被百度认为是失效链接，会从搜索结果中删除。

　　3、403

　　403返回码的意思是“禁止访问”，百度会认为该网页当前被禁止访问。在这种情况下，如果是新发现的网址，百度蜘蛛暂时不会抓取，短期内会再次检查；如果百度已经有收录url，暂时不会直接删除，短期内会再次访问。. 那个时候，如果网页被允许访问，就会正常抓取；如果仍然不允许，将在短时间内访问多次。但如果网页长时间返回403，百度也会认为是无效链接，从搜索结果中删除。

　　4、301

　　301返回码的意思是“Moved Permanently”，百度会认为网页当前重定向到了新的url。在网站迁移、域名更换、网站改版等情况下，建议使用301返回码，尽量减少改版带来的流量损失。虽然百度蜘蛛现在对301跳转的响应周期更长，但我们仍然建议您这样做。

　　我们的建议

　　1、如果网站暂时关闭，无法打开网页时，不要立即返回404。推荐使用503状态。503可以通知百度蜘蛛页面暂时不可用，请稍后再试。

　　2、如果百度蜘蛛对你的网站爬取压力过大，请尽量不要使用404，也建议返回503。这样百度蜘蛛过一段时间会再次尝试爬取这个链接. 如果该站点当时是免费的，它将被成功抓取。

　　3、有一些网站希望百度只做收录部分内容，比如审核后的内容，一段时间积累的新用户页面等等。在这种情况下，建议对新发布的内容暂时返回403，待审核或做好处理后再返回正常返回码。

　　4、网站搬迁或域名变更请使用301返回码。

0

2021-11-17

php抓取网页域名

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页域名(百度spider对常用的http返回码的处理逻辑是这样的)

0 个评论

发起人

AI时代内容工厂

php抓取网页域名(百度spider对常用的http返回码的处理逻辑是这样的)

0 个评论

发起人

相关问题