3款你必须晓得的爬虫工具

优采云 发布时间: 2020-05-31 08:01

  作者:xiaoyu

  微信公众号:Python数据科学

  知乎:

  本篇博主将和你们分享几个特别有用的爬虫小工具,这些小工具在实际的爬虫的开发中会大大降低你的时间成本,并同时提升你的工作效率,真的是十分实用的工具。

  这些工具当然是Google上的插件,一些扩充程序,并且经博主亲测,无任何问题。最后的最后,博主将提供小工具的获取方法。

  

  好了,话不多说,我们来介绍一下。

  我们上面提及过,当客户端向服务器端提出<ajax>异步恳求(比如 <xhr>)时,会在响应里返回 <json> 格式的数据。

  在开发者工具中,我们会听到 <json> 格式数据的可视化疗效太差,就是一段繁杂的字符串,难以直接看出关键信息。

  那么为了直接有效的找到关键信息,<JSON-handle>工具会将纷繁的 <json> 格式数据弄成简单清晰的树形图,极大的提升可视化疗效。

  方法很简单,如果你已然安装好了小工具,点开图标弹出框框,把<json>数据复制进去即可。

  

  当然,你也可以把从任意地方用来的<json>数据放进去,不局限于浏览器异步响应。

  就以<天猫网站>为例,随便找出一个异步的恳求,response是下边这样的。

  jsonp_46336857({"201509290":{"data":[{"_pos_":1,"entityType":"13","acm":"201509290.1003.1.1286473","title":"【抢券减400】Apple/苹果iPhone X 全网通4G智能手机苹果10 苹果X","typ.......

  把代码放进框框里,点击OK,就弄成下边这样了数(据比较长,只截取一部分)。

  

  上篇剖析爬虫中HTTP的秘密(基础篇)我们介绍了恳求头,而这个工具就是针对恳求头中的User-Agent数组的。它的作用是可以随便更换浏览器的User-Agent。

  比如,你用Chrome浏览器浏览网页,浏览器默认身分是Chrome,但是你可以通过这个工具更换成其它任何身分。

  这个最大的益处就是可以直接更换成手机身分浏览网页,而毋须用开发者工具来回切换。

  使用Chrome浏览器安装插件爬虫工具,点开图标,选择你须要的身分即可。

  

  (默认Chrome浏览器是这样的)

  

  

  (变换为IOS-iphone6)

  

  

  针对Xpath解析方式,Xpath-Helper可提供当前网页指定Xpath句子的查询结果。

  点开图标,出现白色框框。

  

  1.假设目标为二维码下的<百度>二字

  

  2.开发者工具找到源码相应位置,右键copy xpath

  

  3.复制到QUERY上面,结果手动下来

  

  注:Xpath-Helper小工具安装后须要重启Chrome方可使用爬虫工具,请你们注意一下这个坑。

  下载Chrome浏览器下载小工具插件打开Chrome更多工具—>扩展程序拖动小工具插件程序<.crx>到扩充程序里安装

  安装完成后,右上角会有三个小图标:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线