操作方法:优采云采集规则基本步骤介绍:条件分支

优采云 发布时间: 2022-11-06 13:29

  操作方法:优采云采集规则基本步骤介绍:条件分支

  条件分支

  此步骤从左到右选择第一个符合条件的分支并执行该分支

  条件分支步骤注释:

  1)“总是”

  无需设置任何决策条件,分支始终满足执行条件

  

  2)当页面收录文本时

  当页面收录指定文本时,分支满足执行条件

  3)当页面收录元素时

  当页面收录指定元素时,分支满足执行条件,与元素XPATH配合使用

  4) 元素 XPATH

  谓词元素的 XPATH 路径

  

  5) 在 IFRAME 中

  如果判断条件元素在IFRAME中,请勾选此项,并在下面的IFAMEXPah中填写IFRAME的XPATH

  6)IFAMEX路径

  元素所在的 IFRAME 的路径。此设置仅在选中“IFRAME 中的元素”时生效。

  更多优采云采集步骤

  汇总:采集净值 · 数据采集 · 看云

  

  #优采云采集Net Worth##工具-优采云版本v7.6-抓包工具Fiddler-Browser chrome##流程1.找到产品URL 2.分析页面内容3 .使用优采云采集器[危险]优采云采集器三步使用>采集网址规则如下:~~~~~~! []( ) 其中URL中的`CLFCODE=71012700`对应东菜码~~~beginDate=2001-11-01&endDate=2017-11-02&INDEXNAME=0~~~beginDate到endDate是时间间隔,即所需查询的净值区间。打开优采云任务如下: ![]() 点击Add->Finish->Test URL采集->Select URL->Test the page> 采集Content Rules 我们看看URL数据,打开网站时,数据如下: ~~~~~~![]() 这里的数据是美化的,一般情况如下:![]() 我们可以对比一下网站里的数据和东财里的数据,数据是一致的![]() 接下来,我们应该提取我们需要的数据。我们需要的是时间和净值。就是这一段。![]() 在 优采云 中,你只需要这样做。这里的内容比较符合正则抽取,所以选择正则抽取会符合 "CHGDATE": "XX" 抽取就是这个XXX![]( ) 同理,下面的测试结果如下![]() 仅用于测试,实际操作中需要明确列出对应的标签和数据。> 获取发布内容设置结果后,进行第三步:入库。这里我们已经写好了模块,第二个采集中的标签名使用提供的标签名即可

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线