抓取网页数据php(html文档怎么从中解析出我们需要的东西呢?解析)

优采云 发布时间: 2022-04-09 16:29

  抓取网页数据php(html文档怎么从中解析出我们需要的东西呢?解析)

  上面我们已经获取了整个html文档,如何解析出我们需要的内容呢?

  解析html

  我们在这里使用 htmlParse() 函数来解析网页。在使用它之前,我们必须导入 RCurl 和 XML 包。

  图书馆(“RCurl”;)

  图书馆(“XML”;)

  然后使用上面的方法获取Snowball首页的文档

  雪球网址)

  然后使用 htmlParse() 函数解析文档

  解析

  注意这里的编码是utf-8

  然后使用getNodeset()函数获取对应的节点集

  nodeset@class='title';]/h4")

  这样,我们就抓到了今天的话题标题,我们点击nodeset,显示如下:

  

  其中,path的意思是选择类名为title的div,然后选择这些div下的h4标签。还记得我前面提到的用路径找到对应节点的方法,类似于PHP的XPath,R的XPath可以轻松解析xml文件。路径规则如下:

  斜杠 (/) 作为路径内的分隔符

  / 表示选择根节点

  // 表示选择任意位置的节点

  @ 表示选择一个属性

  * 表示匹配任何元素节点

  @* 表示匹配任何属性值

  node() 表示匹配任何类型的节点

  @今日话题@Ricequantize

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线