《优采云·云采集原理以及规则加速设置教程》
优采云 发布时间: 2021-03-24 01:01《优采云·云采集原理以及规则加速设置教程》
优采云·Cloud 采集 Service Platform的警告:[文档是使用Spire创建的。.优采云 Cloud 采集原理和规则加速设置教程对于旗舰版以上的用户,您可以使用Cloud 采集实现多任务采集任务加速的效果,使用户可以快速采集和整理Internet公共数据。本教程主要讨论云采集的原理和规则加速设置。 一、 Cloud 采集原理A.一个针对云采集的规则任务至少占用一个云节点,并且最多可以占用所有云节点。 B.如果规则任务满足拆分为子任务的要求,则最多可以拆分为199 A子任务C。一个子任务占据一个节点,并且子任务的完成意味着该任务已完成。 D.常规任务分为多个子任务,并分配给不同的云节点以达到加速效果采集 E.如果云节点已被占用,则新启动的任务或拆分子任务将进入等待队列直到用户的某个云节点完成用户的特定任务并释放节点资源为止。图1云采集正在运行,如红线所示任务分配给云节点,多任务并发采集数据,如红色框所示,由于节点已满,只能进入等待队列,等待云节点完成资源释放的执行。 二、从云采集的原理D知道云采集的加速度设置。如果要使任务加速采集的效果,则该任务必须满足拆分条件或将任务更改为满足拆分条件的任务。为了达到单任务加速的效果。满足拆分条件的任务是:A. URL列表循环B.文本列表循环C.固定元素列表循环1、 URL列表循环,文本循环示例URL:rch / category / 15/30对于非AJAX 网站,以公共商店为例,假设我要采集所有网站类别下的商店,那么我们可以先采集该类别的URL,然后执行URL循环以继续进行采集存储信息,具体步骤如下:步骤1:首先,将采集的所有特定类别下移,如图2所示采集注释类别URL图2 采集注释类别URL技巧采集在类别URL之后,我们可以使用此URL,因为URL数据提取是循环执行的。这样,通过优采云自动任务拆分,可以将不同的URL拆分为不同的子任务,并为数据采集分配给不同的云节点,从而实现单任务加速采集效果步骤2:通过步骤采集 1,建立数据的URL循环采集,如屏幕快照所示3 URL循环列表图3 URL循环列表采集步骤3:比较效果,如图4所示本机采集与URL循环列表的效率比较cloud 采集 采集图4 Cloud 采集 采集速度提示cloud 采集除了采集比机器采集更高效之外,它还可以节省用户自己的计算机和网络资源,与消耗用户本地计算机资源和网络资源的本地采集相比,云采集使用的资源都是云节点资源,用户启动云采集,优采云将自动组织和汇总优采云客户端上的数据。提取数据后,用户仅需要通过客户端查看或导出数据。结论:已经解释了URL循环教程。对于文本循环,原理和URL循环是一致的,通过拆分文本循环,可以实现单任务加速采集的效果,从而提高了采集 2、的速率。固定元素列表循环固定元素list循环也满足拆分条件,因此需要固定元素列表。循环单击与固定元素列表结合使用。例如:图5固定元素列表-单击某个元素,但是以下条件不会加快采集的速率,例如:图6固定元素列表数据提取原因是因为固定元素列表提取尽管可以将数据拆分为多个子任务,但由于提取同一页面数据的操作非常快,因此几乎没有任务加速效果。例如:子任务A:打开网页(20s)-提取数据位置(0. 1s)子任务B:打开网页(20s)-提取位置b数据(0. 1s)子任务C:打开网页(20s)-提取位置c数据(0. 1s)...子任务N:打开网页(20秒)-提取位置n个数据(0. 1秒)