抓取网页数据php(html文档怎么从中解析出我们需要的东西呢?解析)
优采云 发布时间: 2022-04-09 16:29抓取网页数据php(html文档怎么从中解析出我们需要的东西呢?解析)
上面我们已经获取了整个html文档,如何解析出我们需要的内容呢?
解析html
我们在这里使用 htmlParse() 函数来解析网页。在使用它之前,我们必须导入 RCurl 和 XML 包。
图书馆(“RCurl”;)
图书馆(“XML”;)
然后使用上面的方法获取Snowball首页的文档
雪球网址)
然后使用 htmlParse() 函数解析文档
解析
注意这里的编码是utf-8
然后使用getNodeset()函数获取对应的节点集
nodeset@class='title';]/h4")
这样,我们就抓到了今天的话题标题,我们点击nodeset,显示如下:
其中,path的意思是选择类名为title的div,然后选择这些div下的h4标签。还记得我前面提到的用路径找到对应节点的方法,类似于PHP的XPath,R的XPath可以轻松解析xml文件。路径规则如下:
斜杠 (/) 作为路径内的分隔符
/ 表示选择根节点
// 表示选择任意位置的节点
@ 表示选择一个属性
* 表示匹配任何元素节点
@* 表示匹配任何属性值
node() 表示匹配任何类型的节点
@今日话题@Ricequantize