百度"抓取诊断"工具具体有什么作用以及需要改进的地方
优采云 发布时间: 2021-07-08 04:43百度"抓取诊断"工具具体有什么作用以及需要改进的地方
自从百度站长平台上的“抓诊断”工具上线以来,很多站长朋友都用这个工具来吸引蜘蛛,但笔者亲自测试发现,“抓诊断”有很多种工具。因此,我们不应过分依赖它,而应有选择地应用。下面我们来谈谈百度“爬虫诊断”工具的具体功能和需要改进的地方。
先来看看百度官方的解释:
一、什么是爬虫?
1)Grabbing 诊断工具可以让站长从百度蜘蛛的角度查看抓取到的内容,自我诊断百度蜘蛛看到的内容是否与预期一致。
2)每个站点一个月可以使用300次,抓取结果只显示百度蜘蛛可见的前200KB内容。
二、爬虫诊断工具能做什么?
1) 诊断爬取的内容是否符合预期。比如很多商品详情页,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息很难应用于搜索。问题解决后,可使用诊断工具再次检查。
2)诊断网页是否添加了黑色链接和隐藏文字。如果网站 被黑,可能会添加隐藏链接。这些链接可能只有在百度抓取的时候才会出现,需要使用这个爬虫来诊断。
3)检查网站与百度的连接是否顺畅。如果IP信息不一致,可以报错并通知百度更新IP。
4)如果网站有新页面或者页面内容更新了,百度蜘蛛很久没有访问过,可以通过这个工具邀请它快速抓取。
我测试过了,有的网站可以爬取成功。如下图所示,里面收录了很多信息,也可以很好的展示网页的源代码,可以为站长提供一些帮助。
但是,对于双线主机和使用别名解析的非固定IP主机,总是会出现爬网失败或爬网现象,偶尔也能爬网成功,如图:
这是否意味着百度百度蜘蛛无法抓取我们的网页?答案是不。笔者刚刚测试的网站爬不成功,当天发送的文章全部秒收,证明百度蜘蛛可以很好的爬取网页,但是单机“爬诊断”工具开启出差。 ,这说明这个技术还不成熟,只能参考,不能过分依赖。
还有一点需要注意的是,在抓取同一个页面后,百度会缓存很长时间,如下图所示。作者在早上11:09抓了一个页面,在页面上挂了一条“黑链”。 “爬虫”抓到的源码中收录了这些“黑链”代码,但是作者把这些“黑链”拿走了之后,晚上19:13再次抓取,发现页面我获取的仍然是我在早上 11:09 获取的页面,相隔 8 小时。
此外,爬虫在确定网站IP 地址时经常会出错。一旦IP地址确定错误,抓取就会失败。但这并不意味着蜘蛛不能访问我们的网站。其实蜘蛛就是蜘蛛,爬虫是一种工具。不要混淆它们。
当然,新推出的任何工具都存在这样和那样的问题。我们只需要选择对我们有利的地方去申请,而不是过分依赖所有的功能。同时也希望度娘能尽快改进,解决所有问题,给广大站长朋友一个有用的工具。