网页信息抓取软件(XPath的节点（Node）中的核心就是节点及其关系)

优采云发布时间: 2022-02-14 16:11

　　在上一节中，我们详细介绍了 lxml.html 的各种操作。接下来，我们精通XPath，就可以熟练的提取网页内容了。

　　什么是 XPath？

　　XPath的全称是XML Path Language，即XML Path Language，是一种在XML（HTML）文档中查找信息的语言。它有4个特点：

　　我们从网页中提取数据，主要应用前两点。

　　XPath 路径表达式

　　使用XPath，我们可以很方便的定位到网页中的节点，也就是找到我们关心的数据。这些路径与计算机目录和 URL 的路径非常相似，路径的深度用 / 表示。

　　XPath 注释库

　　标头中有 100 多个内置函数。当然，我们用来提取数据的数据是有限的，所以我们不需要记住所有 100 多个函数。

　　Xpath 的节点

　　XPath的核心是节点（Node），它定义了7种不同类型的节点：元素（Element）、属性（Attribute）、文本（Text）、命名空间（Namespace）、处理指令（processing-instruction）、注释（Comment ) 和文档节点

　　这些节点组成一个节点树，树的根节点称为文档节点。

　　注释是html中的注释：``

　　命名空间、处理指令和网页数据提取基本无关，这里不再详述。

　　下面我们以一个简单的html文档为例来说明不同的节点及其关系。

　　 ABC home python

　　此 html 中的节点是：

　　XPath 节点的关系

　　节点之间的关系完全复制了人类的代际关系，但只是直接关系，没有叔叔叔叔之类的旁系关系。

　　或者以上面的html文档为例来说明节点关系：

　　家长

　　每个元素节点（Element）及其属性都有一个父节点。

　　比如body的parent是html，body是div和ul的parent。

　　孩子们

　　每个元素节点可以有零个、一个或多个子节点。

　　例如，body 有两个孩子：div、ul，而 ul 也有两个孩子：两个 li。

　　兄弟

　　兄弟姐妹具有相同的父节点。

　　例如， div 和 ul 是兄弟姐妹。

　　祖先

　　一个节点的父节点和上面几代的节点。

　　比如li的父母是：ul, div, body, html

　　后裔

　　节点的子节点及其后代节点。

　　比如body的后代有：div、ul、li。

　　XPath 节点的选择

　　选择节点是通过路径表达式来实现的。这是我们从网页中提取数据的关键，我们必须掌握它。

　　下表是一个有用的路径表达式：

　　表达描述

　　节点名

　　选择当前节点的所有名为 nodename 的子节点。

　　/

　　从根节点中选择，在路径中间时表示一级路径

　　//

　　从当前节点开始选择文档中的一个节点，可以是多级路径

　　.

　　从当前节点挑选

　　..

　　从父节点挑选

　　@

　　按属性选择

　　接下来，我们将通过具体的例子加深对路径表达的理解：

　　路径表达式解释

　　/html/body/ul/li

　　根据从根节点开始的路径选择li元素。返回多个。

　　//ul/li[1]

　　li 元素仍然被选中，但路径多级跳转到 ul/li。[1] 表示只取第一个 li。

　　//li[last()]

　　还是选择了li，只是路径更加跳跃。[last()] 表示取最后一个 li 元素。

　　//li[@class]

　　选择名为 li 的具有类属性的根节点的所有后代。

　　//li[@class=”item”]

　　选择名称为 li 且类属性为 item 的根节点的所有后代。

　　//正文/*/li

　　选择body的名为li的孙节点。* 是通配符，表示任何节点。

　　//li[@*]

　　选择所有具有属性的 li 元素。

　　//body/div `

　　` //正文/ul

　　选择正文的所有 div 和 ul 元素。

　　身体/格

　　相对路径，选择当前节点body元素的子元素div。绝对路径以 / 开头。

　　XPath 函数

　　Xpath的功能很多，涉及到错误、值、字符串、时间等，但是我们在从网页中提取数据的时候只用到了几个。其中最重要的是与字符串相关的函数，例如 contains() 函数。

　　收录（a，b）

　　如果字符串 a 收录字符串 b，则返回 true，否则返回 false。

　　例如： contains('猿人学 Python', 'Python')，返回 true

　　那么什么时候使用呢？我们知道一个html标签的类可以有多个属性值，比如：

　　 ...

　　这个html中的div有三个class值，第一个表示是发布的消息，后两个是更多的格式设置。如果我们想提取网页中所有发布的消息，我们只需要匹配post-item，那么我们可以使用contains：

　　doc.xpath('//div[contains(@class, "post-item")]')

　　与 contains() 类似的字符串匹配函数有：

　　但是在lxml的xpath中使用ends-with(),matches()会报错

　　In [232]: doc.xpath('//ul[ends-with(@id, "u")]') --------------------------------------------------------------------------- XPathEvalError Traceback (most recent call last) in () ----> 1 doc.xpath('//ul[ends-with(@id, "u")]') src/lxml/etree.pyx in lxml.etree._Element.xpath() src/lxml/xpath.pxi in lxml.etree.XPathElementEvaluator.__call__() src/lxml/xpath.pxi in lxml.etree._XPathEvaluatorBase._handle_result() XPathEvalError: Unregistered function

　　lxml 不支持 end-with()、matches() 函数

　　去lxml官方网站看，原来只支持XPath1.0：

　　lxml 以符合标准的方式通过 libxml2 和 libxslt 支持 XPath 1.0、XSLT 1.0 和 EXSLT 扩展。

　　然后我在维基百科上找到了Xpath 2.0 和1.0 的区别，果然ends-with()，matches() 只属于2.0。下图中，粗体部分收录在1.0中，其他部分也收录在2.0中：

　　XPath 2.0 和 1.0 之间的区别

　　好了，Xpath在网页内容提取中用到的部分已经完成了。

　　来自“ITPUB博客”，链接：如需转载，请注明出处，否则追究法律责任。

　　转载于：

0

2022-02-14

网页信息抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页信息抓取软件(XPath的节点（Node）中的核心就是节点及其关系)

0 个评论

发起人