网站文章采集器(本篇教程为高级实战案例,用【连接任务】采集豆瓣电影分类排行榜)
优采云 发布时间: 2022-01-13 14:21网站文章采集器(本篇教程为高级实战案例,用【连接任务】采集豆瓣电影分类排行榜)
本教程为进阶实战案例,使用【连线任务】采集豆瓣电影分类排名及对应的具体电影信息。
#插件安装和初学者教程可以看订阅号第一篇文章非常好用的网页采集器:爬数据采集实用教程
抓取信息简介:
1.豆瓣电影分类信息。
类别排行榜信息
2.特定类别下的电影信息。电影名称/主演/上映时间和类别/收视数/评论数
具体电影信息(默认优于100%-90%电影)
操作步骤如下:
1. 确保你的账号已经登录,打开豆瓣电影品类排行榜页面,点击浏览器插件栏中的“爬”图标启动插件。
2. 点击页面上需要采集的信息。如果颜色框不收录所有任务数据,单击切换按钮切换算法,直到选中所有任务数据。
3. 单击column1 的“Extra Properties”按钮并选中“href”作为连接两个任务的公共元素。(#注意:本例中的第一个任务只有采集类别名称和类别URL)
新任务一:豆瓣电影分级排行
4. 先点击“完成”按钮,再点击“测试”按钮,测试采集数据是否是你想要的。
测试任务一
5. 确认测试成功后,点击“确定”关闭测试窗口。填写任务名称(长度4-32个字符,必填),根据个人需要修改列名。
6. 点击“提交”按钮,第一个任务“豆瓣电影_分类”创建成功。
任务创建成功
7.点击当前页面任意电影类别进入具体页面,重复第一个任务的创建步骤,创建第二个任务。(#注意:操作类型可根据采集页面的具体情况添加。本例中下载器为js-engine,已添加“滚动”操作,等待时间为设置为2s,次数为50)
单击任何类别可转到电影的特定页面
依次选择采集的元素
8. 确保第二个任务测试成功后,点击提交,创建任务“豆瓣电影_具体信息”。
任务 2 创建成功
9. 点击官网“任务”页面下的“连接”按钮,会弹出连接任务的界面。将“豆瓣电影_分类”设置为任务1,将“豆瓣电影_具体信息”设置为任务2,勾选任务1的“分类URL”列作为连接两个任务的共同元素,填写任务名称,点击保存。
创建连接任务
10.在爬虫官网的“任务”界面,出现一个新创建的连接任务“豆瓣电影分类排行榜”,点击运行。
运行连接任务
11. 任务运行过程中,可以通过任务管理页面查看运行状态。
查看连接任务运行状态
12.任务完成后,点击官网“任务”页面的“数据”选项,即可查看并下载数据。(#注意:连接任务的数据是2张表)
数据1
数据 2
如何获取任务和具体数据?
按照步骤创建自己的。(#我自己的双手,衣冠楚楚,O(∩_∩)O~)
在官网“小市场”页面可以免费获取任务,具体数据可以到官网论坛下载。
免费获得任务
尖端:
① 本例中,下载器为js-engine
②新增“滚动”操作,设置等待时间和滚动次数。
③如果觉得采集太快,可以把频率值设置大一点,如果太慢,设置小一点。