网站内容抓取工具(百度"抓取诊断"工具具体有什么作用以及需要改进的地方)

优采云 发布时间: 2021-11-05 11:13

  网站内容抓取工具(百度"抓取诊断"工具具体有什么作用以及需要改进的地方)

  自从百度站长平台上的“抓诊断”工具上线以来,很多站长朋友都用这个工具来吸引蜘蛛,但笔者亲自测试发现,“抓诊断”工具存在各种问题。因此,我们不应过分依赖它,而应有选择地应用。下面我们来讨论一下百度“爬虫诊断”工具的具体功能以及需要改进的地方。

  首先我们来看看百度官方的解释:

  一、什么是爬虫?

  1) 爬虫诊断工具可以让站长从百度蜘蛛的角度查看爬取的内容,自我诊断百度蜘蛛看到的内容是否与预期一致。

  2)每个站点一个月可以使用300次,抓取结果只显示百度蜘蛛可见的前200KB内容。

  二、爬虫诊断工具能做什么?

  1) 诊断爬取的内容是否符合预期。比如很多商品详情页,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息在搜索中比较难应用。问题解决后,可使用诊断工具再次检查。

  2) 判断网页是否添加了黑色链接和隐藏文字。网站如果被黑,可能会添加隐藏链接。这些链接可能只有在被百度抓取时才会出现,您需要使用该爬虫进行诊断。

  3)检查网站与百度的连接是否顺畅。如果IP信息不一致,可以报错并通知百度更新IP。

  4) 如果网站有新页面或者页面内容更新了,百度蜘蛛很久没有访问过,可以通过这个工具邀请它快速抓取。

  笔者测试了一下,发现有些网站是可以爬取成功的。如下图所示,里面收录了很多信息,也可以很好的展示网页的源代码,可以为站长提供一些帮助。

  但是,对于双线主机和使用别名解析的非固定IP主机,总是会出现爬网失败或爬网现象,偶尔也能爬网成功,如图:

  这是否意味着百度百度蜘蛛无法抓取我们的网页?答案是不。笔者刚刚测试了爬取失败的网站,当天发送的文章全部秒收,证明百度蜘蛛可以很好的抓取网页。单“爬虫诊断”“工具出差了,说明技术还不成熟,只能参考,不能过分依赖。

  还有一点需要注意的是,百度抓取同一个页面后,会缓存很长时间,如下图所示。作者在早上11:09抓了一个页面,在页面上放了一个“黑链”。“爬虫”抓到的源码中收录了这些“黑链”代码,但是作者把这些“黑链”拿走了之后,晚上19:13再次抓取,发现页面我获取的仍然是我在早上 11:09 获取的页面,相隔 8 小时。

  另外,爬虫工具在确定网站的IP地址时经常会出错。一旦IP地址确定错误,爬取就会失败。但这并不意味着蜘蛛不能访问我们的网站。其实蜘蛛就是蜘蛛,爬虫是一种工具。不要混淆它们。

  当然,任何工具的新推出都存在这个和那个问题。我们只需要选择对我们有利的地方去申请,而不是过分依赖所有的功能。同时也希望度娘能尽快改进,解决所有问题,给广大站长朋友一个有用的工具。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线