爬一爬数据采集实战系列7「调度任务」:采集微博实时热搜榜信息
优采云 发布时间: 2020-08-26 07:43爬一爬数据采集实战系列7「调度任务」:采集微博实时热搜榜信息
本篇教程为中级实战案例,用【调度】功能多次采集微博实时热搜榜数据。
##插件安装及菜鸟入门教程可以看订阅号第一篇文章 极简易用网页采集器:爬一爬数据采集实战教程
微博实时热搜榜每10min更新一次。如果想采集某个时间段内实时热搜榜的完整信息,需每隔十分钟自动运行,这样的效率极低,不可取。
实时热搜榜的入选规则
今天就教你们一个方式,用调度器定时采集数据。这样,只要我们设置好调度任务,让任务手动运行,我们就可以高枕无忧的打闹去了。
本例设置了在19:00--21:00期间每隔10分钟采集微博热搜榜数据。
操作步骤
1.确保帐号已登陆,打开须要采集的微博实时热搜榜网站,点击浏览器插件栏的“爬”字图标,启动插件。
2.点击页面上须要采集的信息。如果色调框没有收录所有的任务数据, 点击切换按键,切换算法,直到选中所有的任务数据。(注:下载为js-engine)
依次选定要抓取的元素
3.先点击“完成”按钮,再点击“测试”按钮,测试采集的数据是否就是您想要的。
测试数据
4.确认测试成功后,点击”OK”关闭测试窗口。填写任务名称(长度为4-32的字符,必填),并依照个人须要更改列名。
5.点击“提交”按钮,创建任务。
创建任务
6.任务创建成功后,在官网导航栏“任务”页面,点击”打开任务调度器”,调度页面便出现在浏览器标签页。
打开调度器
7.在所创建的任务后点击”管理”选项。
打开任务管理页面
8.点击”调度”选项,新建调度,设置定时任务。
新建调度任务
9.根据Cron表达式,设置任务抓取频度,如下图所示。具体可参考”教程中心”热门问题中的“什么是Cron表达式”。
(#注:本例设置的是 在19:00--21:00之间每隔10分抓取页面)
设置Cron表达式
10.调度配置成功后,任务按照设置频度手动运行。我们可在调度管理标签页面,看到任务的运行状态。(#注:在任务调度期间,该页面不关掉。)
查看调度状态
11.点击任务”数据”选项,我们可以看见多批次的数据。(#注:数据从19:00开始,每个批次间隔10分钟)
查看数据
Tips:
①本例下载器为js-engine
②为保证数据稳定,可将频度值大一点,预留足够的抓取时间。
③想看视频版调度教程,赶紧去官网教程中心吧。
④附Cron表达式的一些事例:
表达式
释义
提示
0 12 * * ?
每天12:00
相当于’0 12 */1 * ?’
15 10 ? * *
每天10:15
相当于’15 10 * * ?’或’15 10 */1 * ?’
* 14 * * ?
每天14:00到14:59,每隔1分钟
0/5 14 * * ?
每天14:00到14:59,每隔5分钟
相当于’*/5 14 * * ?’
0-5 14 * * ?
每天14:00到14:05,每隔1分钟
10,44 14 ? * 4
每周三14:10和14:44
15 10 15 * ?
每月15日的10:15
15 10 ? * 6L
每月最后一个周日的10:15
15 10 ? * 6#3
每月第三个周日的10:15