抓取网页数据php(html文档怎么从中解析出我们需要的东西呢？解析)

优采云发布时间: 2022-04-09 16:29

　　上面我们已经获取了整个html文档，如何解析出我们需要的内容呢？

　　解析html

　　我们在这里使用 htmlParse() 函数来解析网页。在使用它之前，我们必须导入 RCurl 和 XML 包。

　　图书馆（“RCurl”；）

　　图书馆（“XML”；）

　　然后使用上面的方法获取Snowball首页的文档

　　雪球网址）

　　然后使用 htmlParse() 函数解析文档

　　解析

　　注意这里的编码是utf-8

　　然后使用getNodeset()函数获取对应的节点集

　　nodeset@class='title';]/h4")

　　这样，我们就抓到了今天的话题标题，我们点击nodeset，显示如下：

　　其中，path的意思是选择类名为title的div，然后选择这些div下的h4标签。还记得我前面提到的用路径找到对应节点的方法，类似于PHP的XPath，R的XPath可以轻松解析xml文件。路径规则如下：

　　斜杠 (/) 作为路径内的分隔符

　　/ 表示选择根节点

　　// 表示选择任意位置的节点

　　@ 表示选择一个属性

　　* 表示匹配任何元素节点

　　@* 表示匹配任何属性值

　　node() 表示匹配任何类型的节点

　　@今日话题@Ricequantize

0

2022-04-09

抓取网页数据php

0 个评论

要回复文章请先登录或注册