c爬虫抓取网页数据(开始定位,也即这两个写法在XML包中都是适用的)

优采云 发布时间: 2022-03-07 22:07

  c爬虫抓取网页数据(开始定位,也即这两个写法在XML包中都是适用的)

  开始定位,即

  div[@class='first']/a/text()

  这两种写法都适用于 XML 包。

  由于不是主要内容,更多关于HTML的知识这里不再赘述。详细的可以自己学习HTML和CSS相关知识,是爬虫的基础。

  我们通常使用chrome浏览器右键->查看源代码,或者右键要查看的内容->检查,然后会看到如下界面:

  

  这时候如果我们在Khaled Hosseini那一行右键,可以右键->复制->选择器或者Xpath直接复制对应的层次定位。需要注意的是,我们还需要将复制的定位代码替换成XML包可以识别的格式。例如,属性值使用单引号,“//”表示该类型的所有节点等。

  下面重点介绍XML中常见的节点定位方法和代码,可以作为参考:

<p>getNodeSet(doc,&#39;/bookstore/book[1]&#39;)

# 选取属于 bookstore 子元素的最后一个 book 元素。

getNodeSet(doc,&#39;/bookstore/book[last()]&#39;)

# 选取最前面的两个属于 bookstore 元素的子元素的 book 元素

getNodeSet(doc,&#39;/bookstore/book[position()

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线