抓取网页数据工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))

优采云发布时间: 2021-12-02 10:17

　　我们在使用网页数据爬取工具优采云采集器时，往往会采用不同的数据提取方式。除了前后截取、正文提取、常规提取之外，Xpath提取也是比较常用的一种。XPath 是一种用于在 HTML/XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中导航，可以通过 FireFox firebug 或 Chrome 开发人员工具快速获取。下面详细演示网页数据爬取工具优采云采集器的Xpath提取示例。

　　XPath 节点属性

　　innerHTML：获取位于对象开始和结束标记中的HTML（HTML代码，不包括开始/结束代码）

　　innerText：获取位于对象开始和结束标记中的文本（文本字段，不包括开始/结束代码）

　　externalHTML：获取对象的HTML形式及其内容（HTML代码，包括开始/结束代码）

　　Href：获取超链接

　　以URL为例，我们设置标题和内容的XPath表达式。默认情况下，这里的节点属性只是innerHTML。以下是操作步骤的内容。

　　1、首先我们使用谷歌浏览器打开上面的网页，然后打开Chrome开发者工具。打开开发者工具的快捷键是“F12”。反复按 F12 切换状态（打开或关闭）。如果你在原来的网页，也可以右击选择“查看元素”。

　　2、获取标题的XPath，操作如下图：

　　根据图标和箭头的顺序，先点击找到选中的标题，在代码中选中的部分右击，点击copy xpath得到代码为//*[@id="mainContent"]/div [2]/h2

　　3、获取内容的XPath，操作如下：

　　操作与标题操作类似，但需要注意的是，当鼠标悬停在内容上时，需要选中整个内容而不是部分段落，这样就可以在代码中点击获取完整的Xpath表达式，右击复制得到的代码为//*[@id="cmsContent"]。

　　看完了，是不是觉得Xpath提取很有用呢？如果您认为它有用，请自己尝试一下。除了上面提到的四种提取方式，一个爬取网页数据的工具优采云采集器V9还有一个JSON提取方式，大家也可以研究一下。

0

2021-12-02

抓取网页数据工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))

0 个评论

发起人

AI时代内容工厂

抓取网页数据工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))

0 个评论

发起人

相关问题