c爬虫抓取网页数据(开始定位，也即这两个写法在XML包中都是适用的)

优采云发布时间: 2022-03-07 22:07

　　开始定位，即

　　div[@class='first']/a/text()

　　这两种写法都适用于 XML 包。

　　由于不是主要内容，更多关于HTML的知识这里不再赘述。详细的可以自己学习HTML和CSS相关知识，是爬虫的基础。

　　我们通常使用chrome浏览器右键->查看源代码，或者右键要查看的内容->检查，然后会看到如下界面：

　　这时候如果我们在Khaled Hosseini那一行右键，可以右键->复制->选择器或者Xpath直接复制对应的层次定位。需要注意的是，我们还需要将复制的定位代码替换成XML包可以识别的格式。例如，属性值使用单引号，“//”表示该类型的所有节点等。

　　下面重点介绍XML中常见的节点定位方法和代码，可以作为参考：

<p>getNodeSet(doc,'/bookstore/book[1]')

# 选取属于 bookstore 子元素的最后一个 book 元素。

getNodeSet(doc,'/bookstore/book[last()]')

# 选取最前面的两个属于 bookstore 元素的子元素的 book 元素

getNodeSet(doc,'/bookstore/book[position()

0

2022-03-07

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册