百度"抓取诊断"工具具体有什么作用以及需要改进的地方

优采云发布时间: 2021-07-08 04:43

　　自从百度站长平台上的“抓诊断”工具上线以来，很多站长朋友都用这个工具来吸引蜘蛛，但笔者亲自测试发现，“抓诊断”有很多种工具。因此，我们不应过分依赖它，而应有选择地应用。下面我们来谈谈百度“爬虫诊断”工具的具体功能和需要改进的地方。

　　先来看看百度官方的解释：

　　一、什么是爬虫？

　　1）Grabbing 诊断工具可以让站长从百度蜘蛛的角度查看抓取到的内容，自我诊断百度蜘蛛看到的内容是否与预期一致。

　　2）每个站点一个月可以使用300次，抓取结果只显示百度蜘蛛可见的前200KB内容。

　　二、爬虫诊断工具能做什么？

　　1）诊断爬取的内容是否符合预期。比如很多商品详情页，价格信息是通过JavaScript输出的，对百度蜘蛛不友好，价格信息很难应用于搜索。问题解决后，可使用诊断工具再次检查。

　　2）诊断网页是否添加了黑色链接和隐藏文字。如果网站被黑，可能会添加隐藏链接。这些链接可能只有在百度抓取的时候才会出现，需要使用这个爬虫来诊断。

　　3）检查网站与百度的连接是否顺畅。如果IP信息不一致，可以报错并通知百度更新IP。

　　4）如果网站有新页面或者页面内容更新了，百度蜘蛛很久没有访问过，可以通过这个工具邀请它快速抓取。

　　我测试过了，有的网站可以爬取成功。如下图所示，里面收录了很多信息，也可以很好的展示网页的源代码，可以为站长提供一些帮助。

　　但是，对于双线主机和使用别名解析的非固定IP主机，总是会出现爬网失败或爬网现象，偶尔也能爬网成功，如图：

　　这是否意味着百度百度蜘蛛无法抓取我们的网页？答案是不。笔者刚刚测试的网站爬不成功，当天发送的文章全部秒收，证明百度蜘蛛可以很好的爬取网页，但是单机“爬诊断”工具开启出差。，这说明这个技术还不成熟，只能参考，不能过分依赖。

　　还有一点需要注意的是，在抓取同一个页面后，百度会缓存很长时间，如下图所示。作者在早上11:09抓了一个页面，在页面上挂了一条“黑链”。 “爬虫”抓到的源码中收录了这些“黑链”代码，但是作者把这些“黑链”拿走了之后，晚上19:13再次抓取，发现页面我获取的仍然是我在早上 11:09 获取的页面，相隔 8 小时。

　　此外，爬虫在确定网站IP 地址时经常会出错。一旦IP地址确定错误，抓取就会失败。但这并不意味着蜘蛛不能访问我们的网站。其实蜘蛛就是蜘蛛，爬虫是一种工具。不要混淆它们。

　　当然，新推出的任何工具都存在这样和那样的问题。我们只需要选择对我们有利的地方去申请，而不是过分依赖所有的功能。同时也希望度娘能尽快改进，解决所有问题，给广大站长朋友一个有用的工具。

0

2021-07-08

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度"抓取诊断"工具具体有什么作用以及需要改进的地方

0 个评论

发起人