优采云采集器判定条件使用方式.docx 14页
优采云 发布时间: 2020-08-21 00:30优采云采集器判定条件使用方式.docx 14页
优采云v7判定条件功能的使用?本教程为你们讲解判定条件的使用,首先讲解何时须要使用判别条件。常见情境:1、判断某一条件(如关键词)是否存在,存在就采集不存在则不采。例:采集京东商品信息,只想采集自营商品。则可以通过分支判定是否为自营商品,是则采集,不是则不采。2、要采集的数据有多种情况,网页源码存在多种款式,需分开搜集。例:网页正文有的是图片有的文字,两者方式的数据提取方式不同。此时通过分支判定功能判定是图片还是文字,然后转入不到分支里进行提取数据。判断条件功能页面介绍:判断条件-图1:功能页面什么时候执行分支:可设置出现的某个特殊字眼(文本)或某个元素执行该分支。该文本或元素只在某一情况下会出现,若设置的字眼或元素不惟一则会导致步入的分支与构想的不同不判定,总是执行该分支:默认选中此项,一般是最右侧的分支因此项,若最右边的分支设置因此项则永远不会执行一侧的分支,且最左边的分支不管设置哪些就会执行,即若果所有条件都不满足时将会执行最左边的分支步骤当前页面收录文本:选中后,在下方文本框中填入步入本分支的特殊文本(字眼),优采云将会在当前全页面查找这个文本,找到则执行该分支,反之不执行当前循环项收录文本:选中后,在下方文本框中填入步入本分支的特殊文本,优采云将会在当前循环项中找这个文本,找到则执行该分支,反之不执行。
此项需与循环配套使用当前页面收录元素:选中后,在下方文本框中填入步入本分支的特殊元素(Xpath路径),优采云将会在当前全页面找这个元素,找到则执行该分支,反之不执行当前循环项收录元素:选中后,在下方文本框中填入步入本分支的特殊元素(XPath路径),优采云将会在当前循环项中找这个元素,找到则执行该分支,反之不执行此项需与循环配套使用在Iframe里,IframeXpath:同点击元素的元素在Iframe里,IframeXpath,需要填入Iframe的Xpath,不是定位元素的Xpath,是Iframe的Xpath(该操作极少使用,无必要请莫用)?操作示例:采集要求:采集论坛第一页的所有“发布”贴,其余不采集示例网址:/forum-plugin-1.html操作步骤:1、先按常规流程制做采集流程,当遇见须要设置判定条件的步骤时,点击右上角“流程”。(完成打开网页和循环点击等操作后步入到详情页,此时须要设置判定条件,判断该页面是否收录“发布”这个关键词)2、进入流程设计页面后,从流程图两侧工具栏推入一个“判断条件”进入流程图中,放到须要判定的位置。判断条件-图2:在流程图两侧,选中“判断条件”判断条件-图3:将“判断条件”拖入流程图中设置判定条件(该条件应具有唯一性),本示例中采用的判别方法为“当前页面收录文本”(采用何种判定方法各位请按照实际情况灵活运用)。
在方形框中输入文字“发布”作为判定根据。然后点击“确定”保存,至此该分支的判定条件设置完毕。Ps:默认对右边分支设置判定条件,满足条件时则执行该分支内的操作。判断条件-图4:选中两侧条件分支判定条件-图5:对右边分支进行判别条件设置判定条件-图6:输入判定根据设置其他操作(如点击元素,提取数据等等),本示例中直接进行数据的提取,无其他操作,用户可依照需求设置。此外,因采集要求是只采“发布”类型的贴子,其他不采集。所以左侧分支可以不进行判别条件的设置,默认留空即可。判断条件-图7:对右边分支,增加“提取数据”步骤判定条件-图8:采集需要的数组小贴士:A.可以从流程图两侧工具栏推入一个提取数据到分支中,然后点击要提的数据进行数据提取。B.也可以直接在网页中进行数据的提取的,但此时生成的“提取数据”可能不在分支内,需将其推入分支中。点击选中“提取数据”,拖入分支,放在出现的红色减号位置即可。判断条件-图9:增加“提取数据”步骤的两种形式5、所有操作设置完毕后,点击保存。然后进行本地采集,观察采集结果。本地采集无误后再进行云采集。判断条件-图10:数据采集重要补充:1)分支判定默认从左向右执行,先判定左侧的条件,若右侧的分支均不满足条件,最左边的分支将不做判定直接执行。
2)如果不同的分支内有不同的提取元素步骤,必须将每位分支内总共的提取元素步骤内的字段名和个数设置为相同例:分支1内有提取数据步骤,提取的数组为数组1,字段2,字段3情况1:分支2内没有提取数据步骤,这个流程可以正常执行情况2:分支2内有提取数据步骤,提取的数组为数组a,字段b,字段c;此时流程将不能正常执行。因为优采云采集器执行分支1时提取不到数组abc,分支2的提取步骤都难以提取到数据,优采云采集器判定此条数据不完整,将此条数据作废不保存。因此,需要在分支1的提取步骤降低数组abc,且在分支2的提取数据步骤降低数组123,字段名称和个数必须一致,可以设置为空数据也可设为固定值,优采云采集器都会觉得数组都提取到了,此时数据不会作废,而是执行分支1时,字段123有数据,字段abc为空白,执行分支2时,字段123为空白,字段abc有数据情况3:多个分支内有多个不同的提取数据步骤,请参考情况2,保证每位分支判定的提取的数组与其他分支判定内提取的数组的数组名及数组数目一致即可3)优采云中容许某个分支中无任何操作步骤。4)对于须要同时判定多个条件,则须要嵌套使用多个分支判别。但建议将已选好判定条件后的网址装入优采云中采集数据。
此外当有case when时,可以用多分支实现,复制黏贴即可。5)优采云中分支判定对“存在”或“不存在”即“有”或“无”的是非判定,其操作性更为简单方便。对大小的比较判别操作冗长,需借助XPath实现。6)判断条件的“与”和“或”可以通过XPath中的“|”和“&”实现。相关采集教程:百度搜索结果采集安居客信息采集58同城信息采集优采云——70万用户选择的网页数据采集器。1、操作简单,任何人都可以用:无需技术背景,会上网才能采集。完全可视化流程,点击滑鼠完成操作,2分钟即可快速入门。2、功能强悍,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。3、云采集,关机也可以。配置好采集任务后可死机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用害怕IP被封,网络中断。4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足低端付费企业用户的须要。