文章采集调用(如何优采云采集器如何利用Xpath来采集内容页面可视化提取)

优采云 发布时间: 2022-01-08 14:17

  文章采集调用(如何优采云采集器如何利用Xpath来采集内容页面可视化提取)

  在上一篇文章《优采云采集 List Page and Label Xpath Visual Extraction Function》中,我们讲解了优采云采集器如何使用Xpath来采集列出页面。今天,我们将讨论优采云采集器如何使用Xpath 来采集内容页面!

  

  新建标签,提前选择数据方式,选择“视觉提取”选项,如下图:

  

  同时单击“通过 XPath 浏览器获取”按钮。

  和上面得到的地址一样,输入地址,访问地址为采集,如下图:

  

  然后单击图标开始选择。这里我们以标题获取为例。

  

  选择浅蓝色框中的标题,轻轻点击鼠标,测试一下是否正确。如果正确单击确定按钮。这不像 采集 地址,需要执行两次。如果测试弹出:

  

  这表示无法通过这种方式获取该页面。

  如下图点击确定:

  

  此处自动填写获取此标题的表达式。让我们测试一下结果:

  

  结果是正确的。其他信息可以通过这种方式获取。

  有一个节点属性如下图:

  

  这也是一个专业术语。你可以查资料了解一下。一般可以通过选择InnerHtml和InnerText来获取文本信息。如果您需要了解更多信息,请自行查找信息。

  选择“Href”获取链接地址,选择“OuterHtml”获取文本和收录的html代码。不明白的可以实际测试一下结果。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线