chrome抓取网页插件(Chrome安装爬虫必备插件：XpathHelper（最新教程）(组图))

优采云发布时间: 2021-12-13 11:22

　　Chrome安装爬虫必备插件：Xpath Helper（最新教程）

　　文章内容

　　1. Google Chrome xpath helper 插件的安装和使用

　　使用lxml模块提取数据，需要掌握xpath的语法规则。接下来我们来看看xpath helper插件，它可以帮助我们获取页面的xpath语句

　　2. Google Chrome xpath helper 插件的作用

　　xpath helper 插件是一款免费的 Chrome 爬虫网页解析工具。

　　可以帮助用户解决获取xpath路径时无法正常定位等问题。

　　该插件主要可以帮助您通过按各种网站上的shift键来提取和查询您要查看的页面元素的代码。同时，您还可以编辑查询代码，编辑后的结果将立即出现在其旁边的结果框中。

　　3. Google Chrome xpath helper 插件的安装和使用

　　以windows为例安装xpath helper

　　3.1 安装xpath helper插件1.下载Chrome插件XPath Helper

　　可以在chrome应用商店下载，如果下载不了，也可以从下面的链接下载

　　下载链接：链接：

　　提取码：srp9

　　将文件夹拖入打开开发者模式的chrome浏览器扩展界面

　　重启浏览器，访问url后点击页面上的xpath图标，即可使用

　　4. XPath 调试

　　安装Xpath Helper后，我们来抓取*敏*感*词*新闻的文章xpath路径。

　　打开 xpath-helper 工具

　　按住 shift 键并选择要提取 xpathl 路径的元素。提取的结果将显示在其旁边的结果文本框中。

　　5. 附加内容

　　写过爬虫和网页解析的人都知道，定位和获取xpath路径需要很多时间，有时甚至在爬虫框架成熟的时候，基本上主要的时间都花在了页面解析上。

　　在没有这些辅助工具的日子里，我们只能搜索html源码，定位一些id找到对应的位置，非常麻烦，经常出错。

　　这是chrome浏览器的一个小技巧：

　　例如：现在我们正在爬取*敏*感*词*新闻网的文章xpath路径

　　打开开发者工具，用鼠标选中title元素，右键->复制XPath，得到xpath。

　　执行copy xpath获取当前父节点中title元素的xpath

　　/html/body/div[6]/div[1]/ul[1]/li[1]/a

　　1

　　执行copy full xpath获取html文档中title元素的完整xpath

　　/html/body/div[6]/div[1]/ul[1]/li[1]/a

　　这其实还不够方便，毕竟你不能在复制后立即检查它是否正确。所以我们需要上面这个开源的爬虫工具！

0

2021-12-13

chrome抓取网页插件

0 个评论

要回复文章请先登录或注册