优采云数据采集原理中的基本流程是怎样的?

优采云 发布时间: 2021-03-02 08:04

  优采云数据采集原理中的基本流程是怎样的?

  根据优采云 采集的原理,我们说优采云模拟了人们浏览网络以执行数据采集的行为,例如打开网页,单击按钮等。 优采云 采集器客户端,我们可以自行配置这些流程。

  优采云 Data 采集通常具有以下基本过程,其中打开网页和提取数据必不可少,可以根据自己的需要添加或删除其他过程。

  

  1、打开网页

  此步骤根据设置的URL打开网页,这通常是网页采集处理的第一步,用于打开指定的网站或网页。如果需要打开多个相似的URL来执行相同的采集流程,则应将它们放在循环中,作为第一步。也就是说,使用URL循环打开网页。

  

  2、点击元素

  在此步骤中,用鼠标在网页上的指定元素上执行左键单击操作,例如单击按钮,单击以翻页,单击以跳至其他页面,等等。

  

  3、输入文字

  在此步骤中,在输入框中输入指定的文本,例如,输入搜索关键词,输入帐号等。将设置的文本输入到网页的输入框中,例如在使用时输入关键字搜索引擎。

  

  4、循环

  此步骤用于重复一系列步骤。根据配置,支持多种循环方法。 1)循环单个元素:循环单击页面上的按钮; 2)循环固定元素列表:循环处理网页中固定数量的元素; 3)循环非固定元素列表:循环处理数量不固定的网页元素; 4)循环URL列表:循环打开具有指定URL的一批网页,然后执行相同的处理步骤; 5)循环文本列表:循环输入一批指定的文本,然后执行相同的处理步骤。

  

  5、提取数据

  在此步骤中,根据您自己的需要提取网页中所需的数据字段,然后单击以选择所需的任何字段。除了从网页中提取数据外,您还可以添加特殊字段:当前时间,固定字段,空白字段,当前网页URL等。

  完整的采集任务必须收录“提取数据”,并且提取的数据中必须至少有一个字段。否则,程序将在启动采集时报告错误,提示“未配置采集字段”。

  

  此外,优采云的规则市场具有许多已建立的规则,可以直接下载这些规则并将其导入优采云以供使用。

  1、如何下载采集条规则

  优采云 采集器具有内置的规则市场,用户共享配置的采集规则以互相帮助。使用规则市场下载规则,您无需花费时间研究和配置采集流程。只需下载并运行采集,就可以在规则市场中搜索网站的许多采集规则。

  有三种下载规则的方法:打开优采云官方网站()->采集器规则;打开优采云 采集器客户端->市场->采集器规则;直接访问Duoduo()->爬虫规则的官方网站。

  

  2、如何使用规则

  通常,从规则市场下载的规则是后缀为.otd的规则文件,并且下载的规则文件将自动以4. *及更高版本导入。在以前的版本中,您需要手动导入下载的规则文件。将下载的规则保存到相应的位置。然后打开优采云客户端->任务->导入->选择任务。通过电子邮件,QQ和微信收到的规则是相同的。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线