合理的返回码的处理逻辑(一)(图)
优采云 发布时间: 2021-05-17 07:47合理的返回码的处理逻辑(一)(图)
确保每个页面至少可以通过一个文本链接访问;
应该从首页或网站结构中的较浅层次访问重要内容;
对网站上的内容进行合理分类,不要对其进行过度分类。
网站应该具有简洁明了的导航,以便用户快速找到所需内容,还可以帮助搜索引擎更好地了解网站的结构。
百度优化版本:2:
在每个页面上添加一个导航栏,以便用户可以轻松返回频道网站主页,还可以使搜索引擎轻松地在网络结构中定位网页的级别;
对于具有更多内容的网站,建议使用面包屑导航,这使用户更容易理解他们当前所在的位置:网站首页>频道>当前浏览的页面;
在导航中使用文本链接,请勿使用复杂的js或Flash;
在使用图片进行导航时,您可以使用Alt注释来告诉搜索引擎网页的内容。
合理的返回码
百度抓取工具进行抓取和处理时,会根据http协议规范设置相应的逻辑,因此网站站长还应尝试参考http协议中返回码含义的定义来进行设置。
Baiduspider对常用的http返回码的处理逻辑如下:
404返回码的含义是“未找到”。百度会认为该网页无效,因此通常会将其从搜索结果中删除,并且即使在短期内再次找到该网址,蜘蛛也不会抓取该网址。
503返回码的含义是“服务不可用”。百度会认为该网页暂时无法访问,通常网站暂时关闭,带宽有限等都会导致这种情况。对于返回503的网页,百度蜘蛛不会直接删除该URL,而是会在短期内再次访问。届时,如果网页已还原,则将正常爬网;如果继续返回到503,它将在短时间内访问几次。但是,如果网页长时间返回503,则该网址仍会被百度视为无效链接,并将其从搜索结果中删除。
403返回码的含义是“禁止访问”,百度会认为当前禁止访问该网页。在这种情况下,如果它是一个新发现的URL,则百度蜘蛛不会暂时对其进行爬网,并会在短期内再次对其进行检查;如果它是百度已经收录的URL,则目前不会直接删除,并且会在短期内再次访问。届时,如果允许访问该网页,它将被正常爬网;如果仍然不允许,它将在短时间内访问几次。但是,如果该网页长时间返回403,百度也会将其视为无效链接,并将其从搜索结果中删除。
301返回码的含义是“永久移动”,百度会认为该网页当前已重定向到新的URL。在进行站点迁移,域名替换和站点修订的情况下,建议使用301返回码,以最大程度减少由修订引起的流量损失。尽管百度蜘蛛现在对301次跳跃的响应周期更长,但我们仍然建议您这样做。
百度优化版本3:
如果站点暂时关闭,则在无法打开网页时,请不要立即返回404。建议使用503状态。 503可以通知百度蜘蛛该页面暂时不可用,请稍后再试。
如果百度蜘蛛对您的网站施加太大的压力以进行爬网,请尝试不要使用404,也建议您返回503。这样,百度蜘蛛将在一段时间后尝试再次爬网此链接。如果该站点当时免费,则将成功对其进行爬网。
有些网站希望百度仅收录部分内容,例如经过审核的内容,一段时间内积累的新用户页面,等等。在这种情况下,建议暂时将403返回到新发布的内容,然后在检查或做好处理后再返回到正常的返回码。
对于网站迁移或域名更改,请使用301返回码。
站群服务器,南昌壹号将是您的最佳选择