网站内容抓取工具(百度"抓取诊断"工具具体有什么作用以及需要改进的地方)

优采云发布时间: 2021-11-05 11:13

　　自从百度站长平台上的“抓诊断”工具上线以来，很多站长朋友都用这个工具来吸引蜘蛛，但笔者亲自测试发现，“抓诊断”工具存在各种问题。因此，我们不应过分依赖它，而应有选择地应用。下面我们来讨论一下百度“爬虫诊断”工具的具体功能以及需要改进的地方。

　　首先我们来看看百度官方的解释：

　　一、什么是爬虫？

　　1）爬虫诊断工具可以让站长从百度蜘蛛的角度查看爬取的内容，自我诊断百度蜘蛛看到的内容是否与预期一致。

　　2）每个站点一个月可以使用300次，抓取结果只显示百度蜘蛛可见的前200KB内容。

　　二、爬虫诊断工具能做什么？

　　1）诊断爬取的内容是否符合预期。比如很多商品详情页，价格信息是通过JavaScript输出的，对百度蜘蛛不友好，价格信息在搜索中比较难应用。问题解决后，可使用诊断工具再次检查。

　　2）判断网页是否添加了黑色链接和隐藏文字。网站如果被黑，可能会添加隐藏链接。这些链接可能只有在被百度抓取时才会出现，您需要使用该爬虫进行诊断。

　　3）检查网站与百度的连接是否顺畅。如果IP信息不一致，可以报错并通知百度更新IP。

　　4）如果网站有新页面或者页面内容更新了，百度蜘蛛很久没有访问过，可以通过这个工具邀请它快速抓取。

　　笔者测试了一下，发现有些网站是可以爬取成功的。如下图所示，里面收录了很多信息，也可以很好的展示网页的源代码，可以为站长提供一些帮助。

　　但是，对于双线主机和使用别名解析的非固定IP主机，总是会出现爬网失败或爬网现象，偶尔也能爬网成功，如图：

　　这是否意味着百度百度蜘蛛无法抓取我们的网页？答案是不。笔者刚刚测试了爬取失败的网站，当天发送的文章全部秒收，证明百度蜘蛛可以很好的抓取网页。单“爬虫诊断”“工具出差了，说明技术还不成熟，只能参考，不能过分依赖。

　　还有一点需要注意的是，百度抓取同一个页面后，会缓存很长时间，如下图所示。作者在早上11:09抓了一个页面，在页面上放了一个“黑链”。“爬虫”抓到的源码中收录了这些“黑链”代码，但是作者把这些“黑链”拿走了之后，晚上19:13再次抓取，发现页面我获取的仍然是我在早上 11:09 获取的页面，相隔 8 小时。

　　另外，爬虫工具在确定网站的IP地址时经常会出错。一旦IP地址确定错误，爬取就会失败。但这并不意味着蜘蛛不能访问我们的网站。其实蜘蛛就是蜘蛛，爬虫是一种工具。不要混淆它们。

　　当然，任何工具的新推出都存在这个和那个问题。我们只需要选择对我们有利的地方去申请，而不是过分依赖所有的功能。同时也希望度娘能尽快改进，解决所有问题，给广大站长朋友一个有用的工具。

0

2021-11-05

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取工具(百度"抓取诊断"工具具体有什么作用以及需要改进的地方)

0 个评论

发起人

AI时代内容工厂

网站内容抓取工具(百度"抓取诊断"工具具体有什么作用以及需要改进的地方)

0 个评论

发起人

相关问题