采集器采集( 优采云采集器安装教程新手教程:优采云安装)

优采云 发布时间: 2022-02-01 05:02

  采集器采集(

优采云采集器安装教程新手教程:优采云安装)

  

  下载

  优采云采集器 V7.6.4 官方站长工具| 57.14M

  有了上次使用模板爬取数据的经验,相信大家应该可以熟练使用优采云采集器了。可能有的朋友好奇,难道只能用软件预设的模板爬取数据吗,当然不是,优采云采集器还有一个自定义的采集功能供用户采集@ > 自己想要的数据,相比预设模块,定制更灵活,虽然比预设模板复杂,但爬取的数据更适合你。本文小编将为大家带来优采云采集器定义一个模块教程。

  安装教程:优采云采集器安装教程

  初学者教程:优采云采集器初学者教程

  步骤1

  

  首先,像往常一样,启动并登录你的优采云采集器,进入主界面,点击【新建】下的【新建任务组】,新建一个组。

  

  单击确定以创建新组

  第2步

  

  组创建完成后,点击【新建】下的自定义任务,就到了这样一个界面。

  

  我们可以去找到我们要爬取的网页的链接。在这里,小编去京东搜索手机,等搜索结果出来,我们就可以复制链接了。

  

  将我们复制的链接粘贴到 URL 栏中,将任务组更改为之前创建的组,然后点击【保存设置】。

  第 3 步

  

  保存设置后会跳转到爬取界面,软件会自动启动识别需要爬取的网页部分。根据个人机器的网速不同,对应的等待时间也不同。

  

  识别完成后,我们可以看到有很多数据,其中有很多无用的数据需要我们剔除。

  

  将光标移动到表格字段,会出现两个图标,笔图标是更改字段名称,垃圾桶是删除字段。

  

  我们可以自由删除和更改字段名称,这里我们只保留上图中的字段。

  步骤4

  

  设置好字段后,我们将注意力转向上图中的小方框,第一个不是可选的,我们直接忽略。

  采集之前的页面滚动前加载更多数据:因为现在很多网站使用动态页面,有些内容在加载的时候是不会显示的,只有我们往下拉的时候才会逐渐显示,还有这个功能是为了防止这种情况发生。

  翻页和采集多页数据:设置抓取多页,取消勾选只抓取当前页面。

  点击列表中的XXX,采集下一页:这个功能可以让我们爬取子页面中的内容。

  这里我们不深入爬取,只勾选前两项,然后点击【生成采集设置】。

  

  点击Generate后,会让你开始保存或查看,点击这里保存并开始采集。

  第 5 步

  

  到了这个界面后,我们可以看到一个详细的流程。内层循环列表就是本页爬取的内容。

  

  我们点击外循环的设置按钮。

  

  展开退出循环设置,查看循环执行次数,这里我们只爬取3个页面。

  

  开始 采集

  

  采集完成,单击导出。

  

  另外,如果你爬取的页面有重复数据,软件也会直接提示你,根据你自己的情况选择保留或者删除。

  

  导出方式

  

  导出文件的保存位置

  

  保存完成

  

  查看数据

  以上就是小编为大家带来的优采云采集器自定义模块教程。熟练使用后,相信小伙伴们可以采集有更多的数据,使用优采云采集器采集数据后,可以根据数据分析完成各种任务采集。我希望这篇文章可以帮助你。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线