【8分钟课堂】判断条件-应用:京东和陌陌采集
优采云 发布时间: 2020-08-22 13:43【8分钟课堂】判断条件-应用:京东和陌陌采集
本视频介绍判定条件的实际应用,将以易迅和陌陌图文采集进行讲解。
实战案例:
1)判断某一条件(如关键词)是否存在,存在就采集,不存在则不采
例:采集京东商品信息,判断是否自营。是自营,则采集;不是自营,则跳过不采集。
示例网址:
华为&enc=utf-8&wq=华为
2)要采集的数据有多种情况,网页源码存在多种款式,需分开搜集
例:采集搜狗陌陌文章正文和图片URL。
示例网址:
注意事项:
1)默认从左向右执行
先判定左侧的条件,若右侧的分支均不满足条件,最左边的分支将不做判定直接执行
2)允许某个分支中无任何操作步骤
3)具有提取数据步骤的所有分支,分支中的总数组个数、字段名需保持一致
4)对于须要同时判定多个同级条件(即case when),可用多分支实现
5)对于须要同时判定多个不同级条件,则须要嵌套使用多个分支判定
★ 建议将已选好判定条件后的网址装入优采云中采集数据
6)对“存在”或“不存在”即“有”或“无”的判定,其操作性更为简单方便
对大小的判定操作繁杂,需借助xpath实现 ★使用number函数
7)判断条件的“与”和“或”,可以通过xpath中的“&”和“|”实