自动采集器怎么用(优采云 采集器安装教程新手教程:新手:优采云 )
优采云 发布时间: 2021-12-26 00:10自动采集器怎么用(优采云
采集器安装教程新手教程:新手:优采云
)
有了之前使用模板爬取数据的经验,相信你应该能够更熟练地使用优采云
采集
器。可能有朋友好奇,我们能不能只通过软件预设的模板来抓取数据呢?不,当然不是。优采云
采集
器还有自定义采集
功能,供用户采集
自己想要的数据。与预设模块相比,定制更灵活,虽然比预设模板更灵活。比较复杂,但是爬取到的数据更符合你的意愿。本文小编将为大家带来优采云
采集器的自定义模块教程。
安装教程:优采云
采集器安装教程
新手教程:优采云
采集器
新手教程
步骤1
首先,和往常一样,启动并登录你的优采云
采集
器,进入主界面,点击【新建】下的【新建任务组】,新建一个组。
单击“确定”以创建新组
第二步
群组创建好后,点击【新建】下的自定义任务,就会来到这样的界面。
我们可以去寻找我们要抓取的网页的链接。这里小编去京东搜索手机,搜索结果出来后,我们就可以复制链接了。
将我们复制的链接粘贴到URL栏中,将任务组改为之前创建的组,然后点击【保存设置】。
第三步
保存设置后会跳转到抓取界面,软件会自动开始识别要抓取的网页部分。对应的等待时间也根据个人机器的网速不同而不同。
识别完成后,我们可以看到有很多数据,其中有很多无用的数据需要我们剔除。
将光标移动到表单字段,会出现两个图标,笔图标是更改字段名称,垃圾桶是删除字段。
我们可以随意删除和更改字段名称,这里编辑器只保留上图中的字段。
第四步
设置完字段后,我们将注意力转向上图中的小框,第一个是不可选择的,我们直接忽略它。
采集前滚动页面加载更多数据:因为现在很多网站都使用动态页面,所以有些内容加载的时候不会显示,我们下拉会逐渐显示。此功能是为了防止这种情况发生。.
翻页采集多页数据:设置爬取多页,不勾选仅当前页。
点击列表中的XXX,采集
下一级页面:该功能允许我们抓取子页面中的内容。
这里我们不深入爬取,只勾选前两项,然后点击【生成采集
设置】。
点击生成后,它会让你开始保存或查看,点击这里保存并开始采集
。
第五步
到达这个界面后,我们可以看到一个详细的过程,这个页面爬取的内容在内循环列表中。
我们点击外循环的设置按钮。
展开退出循环设置,查看循环执行次数,这里我们只抓取了3个页面。
开始采集
采集
完成后,单击“导出”。
另外,如果您抓取的页面存在重复数据,软件也会直接提示您,根据您的情况选择保留或删除。
导出方式
导出文件的保存位置
已保存
查看数据
以上就是小编带来的优采云
采集
器自定义模块的教程。熟练使用后,相信小伙伴们可以采集
到更多的数据。使用优采云
采集器采集数据后,可以对采集到的数据进行分析,完成各种任务。我希望这篇文章可以对大家有所帮助。
/pic.php?url=http://0.pic.pc6.com/n331j1c31l2s14hvx21/16f5e66f62059f9d.png
优采云
采集器
类别:浏览助手大小:69.6M 语言:简体
评分:2
下载链接