优采云采集器安装教程新手教程:鱼字段字段剔除

优采云 发布时间: 2021-03-19 13:08

  优采云采集器安装教程新手教程:鱼字段字段剔除

  根据以前使用模板抓取数据的经验,我相信您应该能够更熟练地使用优采云 采集器。也许有些朋友很好奇,我们可以只浏览软件“获取数据”预设的模板吗?当然不是。 优采云 采集器还具有自定义采集功能,供用户采集自定义所需的数据。与预设模块相比,自定义更加灵活,尽管与预设模板相比更复杂,但是爬网的数据更适合您。本文的编辑者将为您带来优采云 采集器个自定义模块教程。

  安装教程:优采云 采集器安装教程

  新手教程:优采云 采集器新手教程

  首先,像往常一样,启动并登录到优采云 采集器,进入主界面,单击[新建]下的[新建任务组],以创建一个新组。

  单击“确定”以创建一个新组

  创建组后,单击[新建]下的自定义任务,您将被带到这样的界面。

  我们可以找到我们要抓取的网页的链接。在这里,编辑者去了京东搜索手机,搜索结果出来后,我们就可以复制链接了。

  将我们复制的链接粘贴到URL列中,然后将任务组更改为先前创建的组,然后单击[保存设置]。

  保存设置后,它将跳到爬网界面,软件将自动开始识别要爬网的网页部分。根据各个计算机的网络速度,相应的等待时间也有所不同。

  完成标识后,我们可以看到有很多数据,其中有许多我们需要消除的无用数据。

  将光标移到表格字段,将出现两个图标,笔图标用于更改字段名称,垃圾桶用于删除该字段。

  我们可以自由删除和更改字段名称。在这里,编辑器仅将字段保留在上图中。

  设置完字段后,我们将注意力转向了上图中的小框。第一个是不可选择的,我们只是忽略它。

  采集在滚动页面以加载更多数据之前:由于许多网站现在使用动态页面,因此某些内容在加载时将不会显示,仅在我们下拉时才会逐渐显示,该功能是以防止这种情况发生。

  翻页和采集多页数据:设置为抓取多页,仅取消选中当前页。

  在列表中单击XXX,然后在下一级页面上单击采集:此功能使我们可以对子页面中的内容进行爬网。

  在这里,我们不深入探讨,仅检查前两个项目,然后单击[Generate 采集 Settings]。

  

  单击“生成”后,它将使您开始保存或查看,单击此处以保存并开始采集。

  

  到达此界面后,我们可以看到详细的过程。在此页面上爬网的内容在内部循环列表中。

  我们点击外环的设置按钮。

  展开并退出循环设置,检查循环执行次数,这里我们只抓取3页。

  开始采集

  采集完成后,单击导出。

  

  此外,如果您抓取的页面中有重复的数据,该软件还会直接提示您,并根据您的情况选择保留还是删除它。

  导出方法

  

  保存导出文件的位置

  

  保存完成

  查看数据

  以上是编辑器带给您的优采云 采集器定制模块教程。熟练使用后,相信朋友们采集可以拥有更多的数据,使用优采云 采集器 采集数据之后,您可以根据采集中的数据进行分析以完成各种任务。希望本文能对您有所帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线