抓取网页数据工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))
优采云 发布时间: 2021-12-02 10:17抓取网页数据工具(抓取网页数据工具优采云采集器的Xpath提取示例(一))
我们在使用网页数据爬取工具优采云采集器时,往往会采用不同的数据提取方式。除了前后截取、正文提取、常规提取之外,Xpath提取也是比较常用的一种。XPath 是一种用于在 HTML/XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中导航,可以通过 FireFox firebug 或 Chrome 开发人员工具快速获取。下面详细演示网页数据爬取工具优采云采集器的Xpath提取示例。
XPath 节点属性
innerHTML:获取位于对象开始和结束标记中的HTML(HTML代码,不包括开始/结束代码)
innerText:获取位于对象开始和结束标记中的文本(文本字段,不包括开始/结束代码)
externalHTML:获取对象的HTML形式及其内容(HTML代码,包括开始/结束代码)
Href:获取超链接
以URL为例,我们设置标题和内容的XPath表达式。默认情况下,这里的节点属性只是innerHTML。以下是操作步骤的内容。
1、首先我们使用谷歌浏览器打开上面的网页,然后打开Chrome开发者工具。打开开发者工具的快捷键是“F12”。反复按 F12 切换状态(打开或关闭)。如果你在原来的网页,也可以右击选择“查看元素”。
2、获取标题的XPath,操作如下图:
根据图标和箭头的顺序,先点击找到选中的标题,在代码中选中的部分右击,点击copy xpath得到代码为//*[@id="mainContent"]/div [2]/h2
3、 获取内容的XPath,操作如下:
操作与标题操作类似,但需要注意的是,当鼠标悬停在内容上时,需要选中整个内容而不是部分段落,这样就可以在代码中点击获取完整的Xpath表达式,右击复制得到的代码为//*[@id="cmsContent"]。
看完了,是不是觉得Xpath提取很有用呢?如果您认为它有用,请自己尝试一下。除了上面提到的四种提取方式,一个爬取网页数据的工具优采云采集器V9还有一个JSON提取方式,大家也可以研究一下。