c爬虫抓取网页数据(开始定位,也即这两个写法在XML包中都是适用的)
优采云 发布时间: 2022-03-07 22:07c爬虫抓取网页数据(开始定位,也即这两个写法在XML包中都是适用的)
开始定位,即
div[@class='first']/a/text()
这两种写法都适用于 XML 包。
由于不是主要内容,更多关于HTML的知识这里不再赘述。详细的可以自己学习HTML和CSS相关知识,是爬虫的基础。
我们通常使用chrome浏览器右键->查看源代码,或者右键要查看的内容->检查,然后会看到如下界面:
这时候如果我们在Khaled Hosseini那一行右键,可以右键->复制->选择器或者Xpath直接复制对应的层次定位。需要注意的是,我们还需要将复制的定位代码替换成XML包可以识别的格式。例如,属性值使用单引号,“//”表示该类型的所有节点等。
下面重点介绍XML中常见的节点定位方法和代码,可以作为参考:
<p>getNodeSet(doc,'/bookstore/book[1]')
# 选取属于 bookstore 子元素的最后一个 book 元素。
getNodeSet(doc,'/bookstore/book[last()]')
# 选取最前面的两个属于 bookstore 元素的子元素的 book 元素
getNodeSet(doc,'/bookstore/book[position()