chrome抓取网页插件( 插件Chrome中的一种爬虫网页解析工具:XPathHelper和开发者插件)

优采云 发布时间: 2022-02-12 18:23

  chrome抓取网页插件(

插件Chrome中的一种爬虫网页解析工具:XPathHelper和开发者插件)

  

  我之前已经提到过 Python 爬虫中 XPath 的使用。相信每个写爬虫或者做网页分析的人都会花很多时间在定位和获取XPath路径上。在没有这些辅助工具的日子里,我们只需要搜索 HTML 源码,定位一些 id 和 class 属性才能找到对应的位置,非常麻烦。今天给大家推荐一款Chrome中的爬虫网页解析工具:XPath Helper。感觉用起来很方便,希望可以帮助到更多的Python爬虫爱好者和开发者

  插件介绍

  XPath Helper插件是一款免费的Chrome爬虫网页解析工具,可以帮助用户解决无法正常定位XPath路径等问题。

  安装 XPath Helper 后,您可以轻松获取 HTML 元素的 XPath。这个插件主要帮助我们提取和查询在各种网站上查看的页面元素的代码,我们也可以编辑查询代码。,并且编辑后的结果会立即显示在旁边的结果框中,这也很方便帮助我们判断我们的XPath语句是否写正确

  安装插件

  1、如果可以打开 Chrome 的网上商店,搜索 XPath Helper 找到这个插件,然后点击“添加到 chrome”

  2、如果你没有打开Chrome网店的工具,我把这个插件上传到百度云网盘,你可以直接下载,直接拖到浏览器的“扩展”页面(设置-扩展名)即 chrome://extensions 页面

  3、也可以直接在Github上下载,开发者模式打包,然后安装

  使用插件

  1、打开某一个网站,我以这个站点的首页为例,获取腾讯云这个文章的标题,打开review元素,找到XPath复制目标元素

  

  获取目标元素的 XPath

  2、直接使用快捷键Ctrl+Shift+X调出XPath辅助控制台,将这个XPath粘贴到左边的Query文本框中,在右边的Result文本框中输入得到的值,然后括号内为对应的匹配次数达到的次数,对应的数值会以米色显示

  

  3、此时可以在Query框中输入对应的XPath进行调试,提取出来的结果会显示在其旁边的Result文本框中

  预防措施

  虽然 XPath Helper 插件使用起来非常方便,但它并不是万能的。有两个问题:

  1、XPath Helper自动提取的XPath都是从根路径开始的,这几乎不可避免地会导致XPath过长,不利于维护。我们可以使用 // 来处理它

  2、在提取多条列表数据时,XPath Helper使用下标分别提取列表中的每条数据,不适合程序的批处理。我们仍然需要修改一些类似于 * 的标签以匹配任何元素节点等。

  合理使用 XPath 仍然可以为我们节省大量时间。更多XPath语法见我之前的文章Python爬虫XPath语法和lxml库使用或者参考W3C

  沉彦之,一个PHPer的成长之路!

  任何个人或团体未经许可禁止转载本文:《Python爬虫Chrome网页解析工具-XPath Helper》,谢谢合作!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线