采集器(优采云进阶用户使用频繁的一种模式采集数据介绍)

优采云 发布时间: 2022-02-04 10:09

  采集器(优采云进阶用户使用频繁的一种模式采集数据介绍)

  入门 - 自定义模式

  自定义模式是优采云高级用户经常使用的模式。他们需要自己配置规则,才能实现全网98%以上网页数据的采集。

  定位:通过配置规则来抓取网页数据,模拟人们浏览网页的操作。

  使用前提:通过向导模式,有一定程度的采集对规则的熟悉和优采云采集逻辑理解能力,可以自己配置规则,轻松学习在实践中通过自定义模式、Xpath等能力构建网页结构,算是学习与工作之间的正确平衡。

  推荐用法:当其他模式不能满足你的需求时,可以使用自定义模式采集全网数据。

  文章 中的示例 URL 是:

  自定义模式采集 步骤:

  第一步:先打开优采云采集器→找到自定义采集→点击立即使用

  

  第二步:输入网址→设置翻页周期→设置字段提取→修改字段名称→手动检查规则→选择采集输入开始采集

  

  当心:

  设置翻页周期:观察网页底部是否有翻页图标。如果有且需要翻页,请点击翻页图标。在操作提示中,单击下一页可循环浏览页面。可以设置循环翻页的次数,下几页采集网页最新内容的几页。采集链接的文本选项会显示一个数据提取步骤,提取下一页对应的文本;单击采集此链接地址步骤选项将显示数据提取步骤,以提取与当前字段对应的链接地址。单击链接将弹出单击元素步骤,单击元素一次。集字段提取:首先将网页内容分成块,思路是循环每个块,然后从循环块中提取每个字段的内容,所以在设置前点击2-3块,优采云会自动选择所有剩余的块,点击采集会出现下面的元素文本的步骤循环抽取数据,实现块采集的循环,但是此时每个块只会将文本合并为一次抽取。这时候我们删除字段,手动添加所有需要提取的字段;如果你在一个循环中点击每个元素,就会出现循环点击元素步骤,每个块被点击一次。在这个例子中,block click没有效果,所以loop click在这个例子中没有效果。如果选择错误,或者出现的内容列表不是你需要的,您可以点击操作提示中区块后的垃圾桶图标将其删除,或点击取消选择进行重置。循环下的第一个元素要勾选采集当前循环中设置的元素,相关操作会根据循环设置循环。修改字段名:修改字段名,可以点击选择系统内置的字段名,也可以手动输入字段名,按回车键切换到下一个。选择采集类型启动采集:本地采集为采集占用当前计算机资源,如果有采集时间要求或当前计算机不能长时间执行采集可以使用云采集功能,云采集可以在网络中执行采集,

  第三步:确认数据无误→点击导出数据→免费版用户付费→选择导出方式→查看数据

  

  注意:积分是一种支付优采云增值服务的方式。主要用途包括:通过优采云采集器采集导出数据,不同的账户类型在使用上述增值服务会有不同的计费策略。具体的计费策略和区别在发行说明中有详细说明。积分可以通过优采云官方购买专业版或旗舰版按月发放,也可以单独购买,也可以通过关注、登录、分享规则、关注微信、绑定社交账号等方式获得。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线