操作方法:优采云采集规则基本步骤介绍:条件分支
优采云 发布时间: 2022-11-06 13:29操作方法:优采云采集规则基本步骤介绍:条件分支
条件分支
此步骤从左到右选择第一个符合条件的分支并执行该分支
条件分支步骤注释:
1)“总是”
无需设置任何决策条件,分支始终满足执行条件
2)当页面收录文本时
当页面收录指定文本时,分支满足执行条件
3)当页面收录元素时
当页面收录指定元素时,分支满足执行条件,与元素XPATH配合使用
4) 元素 XPATH
谓词元素的 XPATH 路径
5) 在 IFRAME 中
如果判断条件元素在IFRAME中,请勾选此项,并在下面的IFAMEXPah中填写IFRAME的XPATH
6)IFAMEX路径
元素所在的 IFRAME 的路径。此设置仅在选中“IFRAME 中的元素”时生效。
更多优采云采集步骤
汇总:采集净值 · 数据采集 · 看云
#优采云采集Net Worth##工具-优采云版本v7.6-抓包工具Fiddler-Browser chrome##流程1.找到产品URL 2.分析页面内容3 .使用优采云采集器[危险]优采云采集器三步使用>采集网址规则如下:~~~~~~! []( ) 其中URL中的`CLFCODE=71012700`对应东菜码~~~beginDate=2001-11-01&endDate=2017-11-02&INDEXNAME=0~~~beginDate到endDate是时间间隔,即所需查询的净值区间。打开优采云任务如下: ![]() 点击Add->Finish->Test URL采集->Select URL->Test the page> 采集Content Rules 我们看看URL数据,打开网站时,数据如下: ~~~~~~![]() 这里的数据是美化的,一般情况如下:![]() 我们可以对比一下网站里的数据和东财里的数据,数据是一致的![]() 接下来,我们应该提取我们需要的数据。我们需要的是时间和净值。就是这一段。![]() 在 优采云 中,你只需要这样做。这里的内容比较符合正则抽取,所以选择正则抽取会符合 "CHGDATE": "XX" 抽取就是这个XXX 同理,下面的测试结果如下![]() 仅用于测试,实际操作中需要明确列出对应的标签和数据。> 获取发布内容设置结果后,进行第三步:入库。这里我们已经写好了模块,第二个采集中的标签名使用提供的标签名即可