文章采集调用(如何优采云采集器如何利用Xpath来采集内容页面可视化提取)
优采云 发布时间: 2022-01-08 14:17文章采集调用(如何优采云采集器如何利用Xpath来采集内容页面可视化提取)
在上一篇文章《优采云采集 List Page and Label Xpath Visual Extraction Function》中,我们讲解了优采云采集器如何使用Xpath来采集列出页面。今天,我们将讨论优采云采集器如何使用Xpath 来采集内容页面!
新建标签,提前选择数据方式,选择“视觉提取”选项,如下图:
同时单击“通过 XPath 浏览器获取”按钮。
和上面得到的地址一样,输入地址,访问地址为采集,如下图:
然后单击图标开始选择。这里我们以标题获取为例。
选择浅蓝色框中的标题,轻轻点击鼠标,测试一下是否正确。如果正确单击确定按钮。这不像 采集 地址,需要执行两次。如果测试弹出:
这表示无法通过这种方式获取该页面。
如下图点击确定:
此处自动填写获取此标题的表达式。让我们测试一下结果:
结果是正确的。其他信息可以通过这种方式获取。
有一个节点属性如下图:
这也是一个专业术语。你可以查资料了解一下。一般可以通过选择InnerHtml和InnerText来获取文本信息。如果您需要了解更多信息,请自行查找信息。
选择“Href”获取链接地址,选择“OuterHtml”获取文本和收录的html代码。不明白的可以实际测试一下结果。