免规则采集器列表算法( 优采云进阶用户使用频繁的一种模式采集数据介绍)

优采云 发布时间: 2022-01-14 09:04

  免规则采集器列表算法(

优采云进阶用户使用频繁的一种模式采集数据介绍)

  

  入门 - 自定义模式

  自定义模式是优采云高级用户经常使用的模式。他们需要自己配置规则,才能实现全网98%以上网页数据的采集。

  定位:通过配置规则来抓取网页数据,模拟人们浏览网页的操作。

  使用前提:通过向导模式,有一定程度的采集对规则的熟悉和优采云采集逻辑理解能力,可以自己配置规则,轻松学习在实践中通过自定义模式、Xpath等能力构建网页结构,算是学习与工作之间的正确平衡。

  推荐用法:当其他模式不能满足你的需求时,可以使用自定义模式采集全网数据。

  文章 中的示例 URL 是:

  自定义模式采集 步骤:

  第一步:先打开优采云采集器→找到自定义采集→点击立即使用

  

  【GIF:自定义模式 - 开始】

  第二步:输入网址→设置翻页周期→设置字段提取→修改字段名称→手动检查规则→选择采集输入开始采集

  当心:

  1.设置翻页周期:观察网页底部是否有翻页图标。如果有且需要翻页,请点击翻页图标。在操作提示中,点击下一页,循环翻页。可以设置循环翻页。页数,多次设置为采集网页最新内容的页数。采集链接的文本选项会显示一个数据提取步骤,提取下一页对应的文本;点击采集链接地址步骤选项会显示一个数据提取步骤来提取当前字段对应的链接地址。单击链接将弹出单击元素步骤,单击元素一次。

  2.设置字段提取:先将网页内容分块,思路是循环每个块,然后从循环块中提取每个字段的内容,所以设置的时候点击2-3个块,优采云会自动选中剩余的所有block,点击采集下面的元素文本会出现循​​环提取数据的步骤,实现block的循环采集,但是此时每个block只会循环将块中的文本合并到一个提取中。这时候我们删除字段,手动添加所有需要提取的字段;单击一个循环中的每个元素,将出现循环单击元素步骤,然后单击每个块一次。这个例子中间的块点击没有效果,所以循环点击在这个例子中没有效果。如果选错了,

  循环下的第一个元素要勾选采集当前循环中设置的元素,相关操作会根据循环设置循环。

  3.修改字段名:修改字段名可以点击选择系统内置的字段名,也可以手动输入字段名,回车键切换到下一个。

  4.选择采集类型启动采集:本地采集占用采集当前计算机资源,如果有采集时间要求或者当前电脑无法定时采集可以使用云采集功能,云采集采集在网络中,不需要当前电脑支持,可以关机,并且可以设置多个云节点分配任务,10个节点相当于10台电脑分配任务帮你采集,速度降低到原来的十分之一;数据采集可在云端保存三个月,并可随时操作导出。

  第三步:确认数据无误→点击导出数据→免费版用户付费→选择导出方式→查看数据

  

  【GIF:自定义模式-导出】

  注意:积分是一种支付优采云增值服务的方式。主要用途包括:通过优采云采集器采集导出数据,在规则市场下载规则,在数据市场下载数据包。不同的账户类型在使用上述增值服务时会有不同的计费策略。具体的计费策略和区别在发行说明中有详细说明。积分可以通过优采云官方购买专业版或旗舰版按月发放,也可以单独购买,也可以通过关注、登录、分享规则、关注微信、绑定社交账号等方式获得。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线