分页列表详细信息采集 | 2个月精通优采云第1课

优采云 发布时间: 2022-06-18 17:46

  分页列表详细信息采集 | 2个月精通优采云第1课

  

  在之前的教程中,我们以赶集网商铺数据采集、携程网旅游数据采集为例,感受了一波优采云嗖嗖嗖采集数据的常(li)规(hai)操作。

  咦?这两个实战案例,规则配置长相似,采集流程有点像?

  来吧,是时候溯本求源,透过现象看本质了。

  网页内容由相似的区块组成,需要点击“下一页”进行翻页,再点击每个链接进入详情页采集数据,没错就是——分页列表详细信息采集。

  本文中示例网站地址为:

  在开始采集之前,需观察网页结构、明确采集内容。以示例网址为例,内容共有4页,每页有3个电影链接。我们需要点击每一部电影的链接,进入电影详情页,采集电影的剧情、上映时间等字段。

  优采云基于 Firefox 内核浏览器,通过模拟人的思维操作方式,对网页内容进行全自动提取。以示例网址为例,在优采云里打开后,需先建立一个点击“下一页”的翻页循环,自动点击“下一页”翻页。再建立一个电影链接列表循环,以打开每个电影的链接,进入电影详情页。然后再采集电影详情页的数据。

  1打开网页

  1)登陆优采云7.0采集器,点击新建任务,选择“自定义采集”。进入到任务配置页面

  2)输入要采集的网址,点击“保存网址”。系统会进入到流程设计页面,并自动打开前面输入的网址

  

  2建立翻页循环

  1)用鼠标点击“下一页”按钮,在弹出的操作提示框中,选择“循环点击下一页”。这个步骤会模拟人工,自动点击翻页

  

  3建立循环列表

  1)点击下图中第一个电影“教父:第二部”的链接,链接将被选中,用绿色框标注出来

  2)优采云的智能算法,会自动检测出其他相似元素(本例中为其他两个电影标题链接)。在操作提示框中,选择“选中全部”,优采云自动选中全部电影链接

  3)选择“循环点击每个链接”,优采云会自动逐个点击每个电影链接,进入电影详情页

  

  4提取数据

  1)点击页面中要提取的电影标题字段,标题字段即被选中,选中后以红色框标注出来

  2)在弹出的提示框中,选择“采集该元素的文本”,表明要采集的是页面中的文本数据

  3)以同样的方式,点击要采集的其他段,再选择“采集该元素的文本”

  

  5修改字段名称

  1)点击“流程”按钮,以显示“流程设计器”和“定制当前操作”两个板块。(在配置规则过程中,“流程”随时可打开)

  2)在如下界面中,修改字段名称。这里的字段名称相当于表头,便于采集时区分每个字段类别。 修改完成后,点击“确定”保存

  

  6启动采集

  1)点击“保存并启动”,在弹出的对话框中选择“启动本地采集”。系统会在本地电脑上,开启一个采集任务并采集数据

  2)任务采集完毕之后,会弹出一个采集结束的提示, 接下来选择导出数据,这里以选择导出excel2007为例,然后点击确定

  3)选择文件存放路径,再点保存即可

  

  然后,我们分分钟就得到了这样的数据

  动图模式有木有学得更爽?

  有任何建议或问题,请biubiubiu砸向我!

  建议各位小可爱

  学了分页列表详细信息采集

  趁热打铁 实战一波

  更多实战教程

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线