自动采集器怎么用(优采云采集器安装教程新手教程:新手:优采云)

优采云 发布时间: 2021-11-01 03:16

  自动采集器怎么用(优采云采集器安装教程新手教程:新手:优采云)

  有了上次使用模板爬取数据的经验,相信大家应该能更熟练的使用优采云采集器。可能有朋友好奇,能不能只用软件预设的模板呢?爬取数据?当然不是。优采云采集器 还有一个自定义的采集功能,为用户采集提供他们想要的数据,相比预设模块,定制更灵活,虽然它更比预设模板复杂,但爬取的数据更适合你的心。本文小编将为大家带来优采云采集器定义模块教程。

  安装教程:优采云采集器 安装教程

  新手教程:优采云采集器 新手教程

  步骤1

  

  首先,和往常一样,启动并登录你的优采云采集器,进入主界面,点击【新建】下的【新建任务组】,新建一个组。

  

  单击“确定”以创建新组

  第二步

  

  群组创建完成后,点击【新建】下的自定义任务,就会出现这样的界面。

  

  我们可以去寻找我们要抓取的网页的链接。这里我去京东搜索手机,搜索结果出来后,我们可以复制链接。

  

  将我们复制的链接粘贴到URL栏中,将任务组改为之前创建的组,然后点击【保存设置】。

  第三步

  

  保存设置后会跳转到抓取界面,软件会自动开始识别要抓取的网页部分。对应的等待时间根据个人机器的网速不同而不同。

  

  识别完成后,我们可以看到有很多数据,其中有很多无用的数据需要我们剔除。

  

  将光标移动到表单域,会出现两个图标,笔图标是更改域名称,垃圾桶是删除该域。

  

  我们可以自由删除和更改字段名称。这里,编辑器只保留上图中的字段。

  第四步

  

  设置完字段后,我们将注意力转向上图中的小框,第一个是不可选择的,我们直接忽略它。

  采集 滚动页面加载更多数据之前:因为现在很多网站使用的是动态页面,所以有些内容在加载的时候是不会显示的,只有我们下拉才会逐渐显示。此功能是为了防止这种情况的发生。

  翻页和采集多页数据:设置抓取多页,不勾选仅当前页。

  点击列表中的XXX和采集下一级页面:该功能允许我们抓取子页面中的内容。

  这里我们不深入爬取,只勾选前两项,然后点击【生成采集设置】。

  

  点击Generate后,它会让你开始保存或查看,点击这里保存并开始采集。

  第五步

  

  到达这个界面后,我们可以看到一个详细的过程,这个页面爬取的内容在内循环列表中。

  

  我们点击外循环的设置按钮。

  

  展开退出循环设置,查看循环执行次数,这里我们只抓取了3个页面。

  

  开始采集

  

  采集 完成,点击导出。

  

  另外,如果您抓取的页面中存在重复数据,软件也会直接提示您,根据您自己的情况选择保留或删除。

  

  导出方式

  

  导出文件的保存位置

  

  已保存

  

  查看数据

  以上就是小编为大家带来的优采云采集器自定义模块教程。熟练使用后,相信朋友们可以采集有更多的数据,使用优采云 采集器采集 数据后,就可以根据自己的数据分析完成各种任务采集。我希望这篇文章对大家有帮助。

  /pic.php?url=http://0.pic.pc6.com/n331j1c31l2s14hvx21/16f5e66f62059f9d.png

  优采云采集器

  类别:浏览助手大小:69.6M 语言:简体

  评分:2

  下载链接

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线