分页列表详细信息采集 | 2个月精通优采云第1课
优采云 发布时间: 2022-06-18 17:46分页列表详细信息采集 | 2个月精通优采云第1课
在之前的教程中,我们以赶集网商铺数据采集、携程网旅游数据采集为例,感受了一波优采云嗖嗖嗖采集数据的常(li)规(hai)操作。
咦?这两个实战案例,规则配置长相似,采集流程有点像?
来吧,是时候溯本求源,透过现象看本质了。
网页内容由相似的区块组成,需要点击“下一页”进行翻页,再点击每个链接进入详情页采集数据,没错就是——分页列表详细信息采集。
本文中示例网站地址为:
在开始采集之前,需观察网页结构、明确采集内容。以示例网址为例,内容共有4页,每页有3个电影链接。我们需要点击每一部电影的链接,进入电影详情页,采集电影的剧情、上映时间等字段。
优采云基于 Firefox 内核浏览器,通过模拟人的思维操作方式,对网页内容进行全自动提取。以示例网址为例,在优采云里打开后,需先建立一个点击“下一页”的翻页循环,自动点击“下一页”翻页。再建立一个电影链接列表循环,以打开每个电影的链接,进入电影详情页。然后再采集电影详情页的数据。
1打开网页
1)登陆优采云7.0采集器,点击新建任务,选择“自定义采集”。进入到任务配置页面
2)输入要采集的网址,点击“保存网址”。系统会进入到流程设计页面,并自动打开前面输入的网址
2建立翻页循环
1)用鼠标点击“下一页”按钮,在弹出的操作提示框中,选择“循环点击下一页”。这个步骤会模拟人工,自动点击翻页
3建立循环列表
1)点击下图中第一个电影“教父:第二部”的链接,链接将被选中,用绿色框标注出来
2)优采云的智能算法,会自动检测出其他相似元素(本例中为其他两个电影标题链接)。在操作提示框中,选择“选中全部”,优采云自动选中全部电影链接
3)选择“循环点击每个链接”,优采云会自动逐个点击每个电影链接,进入电影详情页
4提取数据
1)点击页面中要提取的电影标题字段,标题字段即被选中,选中后以红色框标注出来
2)在弹出的提示框中,选择“采集该元素的文本”,表明要采集的是页面中的文本数据
3)以同样的方式,点击要采集的其他段,再选择“采集该元素的文本”
5修改字段名称
1)点击“流程”按钮,以显示“流程设计器”和“定制当前操作”两个板块。(在配置规则过程中,“流程”随时可打开)
2)在如下界面中,修改字段名称。这里的字段名称相当于表头,便于采集时区分每个字段类别。 修改完成后,点击“确定”保存
6启动采集
1)点击“保存并启动”,在弹出的对话框中选择“启动本地采集”。系统会在本地电脑上,开启一个采集任务并采集数据
2)任务采集完毕之后,会弹出一个采集结束的提示, 接下来选择导出数据,这里以选择导出excel2007为例,然后点击确定
3)选择文件存放路径,再点保存即可
然后,我们分分钟就得到了这样的数据
动图模式有木有学得更爽?
有任何建议或问题,请biubiubiu砸向我!
建议各位小可爱
学了分页列表详细信息采集
趁热打铁 实战一波
更多实战教程