推荐:3款爬虫神器插件

优采云 发布时间: 2022-05-10 09:59

  推荐:3款爬虫神器插件

  前言

  1.写过爬虫和网页解析的人都知道,在定位、获取xpath路径上要花费大量的时间,甚至有时候当爬虫框架成熟之后,基本上主要的时间都花费在了页面的解析上。

  在没有这些辅助工具的日子里,我们只能通过搜索html源代码,定位一些id去找到对应的位置,非常的麻烦,而且经常出错。

  2.在爬虫的过程中,看到的页面有可能是通过JavaScript渲染后的结果,这时html也是渲染的结果,

  那么,如何通过禁止JavaScript的执行,来查看最原始的代码是什么样的。

  3.有些网站做反爬虫处理,该如何切换代理呢?

  所以今天推荐这三款爬虫的谷歌插件!

  分享一个chrome浏览器的小技巧

  比如现在我们在抓取 博客园首页的文章xpath 路径

  打开 开发者工具,鼠标选中标题元素上,右键》Capy 即可获取xpath。

  

  执行capy xpath,获取标题元素在当前父节点的xpath

  //*[@id="post_list"]/div[1]/div[2]/h3/a<br />

  执行capy full xpath,获取标题元素的在html文档中的完整xpath

  /html/body/div[1]/div[4]/div[6]/div[1]/div[2]/h3/a<br />

  我觉得这样还不够方便,毕竟你复制了没法即时查看。所以我们需要这款开源的爬虫利器!

  1. Xpath Helper

  xpath helper插件是一款免费的chrome爬虫网页解析工具。

  可以帮助用户解决在获取xpath路径时无法正常定位等问题。

  该插件主要能帮助你在各类网站上通过按shift键选择想要查看的页面元素来提取查询其代码,同时你还能对查询出来的代码进行编辑,而编辑出的结果将立即显示在旁边的结果框中。

  

  image

  XPath调试

  安装好Xpath Helper后,我们再来抓取 博客园首页的文章xpath 路径。

  这样就可以在输入文本框中输入相应 XPath 进行调试了,提取的结果将被显示在旁边的 Result 文本框中。

  

  2. Proxy SwitchyOmega

  轻松快捷地管理和切换多个代理设置。

  

  快速切换 HTTP / Socks 代理的插件,还能根据匹配地址自动切换。另一个技巧是配合 Charles、Burp Suite 这类抓包工具,这些工具使用时需要设置本地代理,可以提前设置好用时就切换。

  3.Toggle JavaScript

  在爬虫的过程中,看到的页面有可能是通过JavaScript渲染后的结果,这时html也是渲染的结果,

  那么,可以通过禁止JavaScript的执行,来查看最原始的代码是什么样的。

  装了Toggle JavaScript插件以后,用户就可以使用该插件的按钮,快速地切换chrome的javascript功能,当用户访问网页的时候,受到javascript的“骚扰”时,可以果断使用Toggle JavaScript禁用到js的运行。

  

  功能特点:

  1.全局JavaScript主开关

  2.禁用JavaScript时可靠地重新加载页面

  如果你也有好的开源项目,欢迎推荐!

  微信联系:westbrook12000

  往期推荐:

  

  回复【关闭】学关闭微信朋友圈广告回复【实战】获取20套实战源码回复【福利】获取最新微信支付有奖励回复【被删】学查看你哪个好友删除了你巧回复【聊天记录】学备份/恢复聊天记录回复【访客】学微信查看朋友圈访客记录回复【卡通】学制作微信卡通头像回复【python】学微获取全套0基础Python知识手册回复【临时】获取临时接收短信、邮箱验证码网址列表

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线