爬一爬数据采集实战系列7「调度任务」:采集微博实时热搜榜信息

优采云 发布时间: 2020-08-26 07:43

  爬一爬数据采集实战系列7「调度任务」:采集微博实时热搜榜信息

  本篇教程为中级实战案例,用【调度】功能多次采集微博实时热搜榜数据。

  ##插件安装及菜鸟入门教程可以看订阅号第一篇文章 极简易用网页采集器:爬一爬数据采集实战教程

  

  微博实时热搜榜每10min更新一次。如果想采集某个时间段内实时热搜榜的完整信息,需每隔十分钟自动运行,这样的效率极低,不可取。

  

  实时热搜榜的入选规则

  今天就教你们一个方式,用调度器定时采集数据。这样,只要我们设置好调度任务,让任务手动运行,我们就可以高枕无忧的打闹去了。

  本例设置了在19:00--21:00期间每隔10分钟采集微博热搜榜数据。

  操作步骤

  1.确保帐号已登陆,打开须要采集的微博实时热搜榜网站,点击浏览器插件栏的“爬”字图标,启动插件。

  2.点击页面上须要采集的信息。如果色调框没有收录所有的任务数据, 点击切换按键,切换算法,直到选中所有的任务数据。(注:下载为js-engine)

  

  依次选定要抓取的元素

  3.先点击“完成”按钮,再点击“测试”按钮,测试采集的数据是否就是您想要的。

  

  测试数据

  4.确认测试成功后,点击”OK”关闭测试窗口。填写任务名称(长度为4-32的字符,必填),并依照个人须要更改列名。

  5.点击“提交”按钮,创建任务。

  

  创建任务

  6.任务创建成功后,在官网导航栏“任务”页面,点击”打开任务调度器”,调度页面便出现在浏览器标签页。

  

  打开调度器

  7.在所创建的任务后点击”管理”选项。

  

  打开任务管理页面

  8.点击”调度”选项,新建调度,设置定时任务。

  

  新建调度任务

  9.根据Cron表达式,设置任务抓取频度,如下图所示。具体可参考”教程中心”热门问题中的“什么是Cron表达式”。

  (#注:本例设置的是 在19:00--21:00之间每隔10分抓取页面)

  

  设置Cron表达式

  10.调度配置成功后,任务按照设置频度手动运行。我们可在调度管理标签页面,看到任务的运行状态。(#注:在任务调度期间,该页面不关掉。)

  

  查看调度状态

  11.点击任务”数据”选项,我们可以看见多批次的数据。(#注:数据从19:00开始,每个批次间隔10分钟)

  

  查看数据

  Tips:

  ①本例下载器为js-engine

  ②为保证数据稳定,可将频度值大一点,预留足够的抓取时间。

  ③想看视频版调度教程,赶紧去官网教程中心吧。

  ④附Cron表达式的一些事例:

  表达式

  释义

  提示

  0 12 * * ?

  每天12:00

  相当于’0 12 */1 * ?’

  15 10 ? * *

  每天10:15

  相当于’15 10 * * ?’或’15 10 */1 * ?’

  * 14 * * ?

  每天14:00到14:59,每隔1分钟

  0/5 14 * * ?

  每天14:00到14:59,每隔5分钟

  相当于’*/5 14 * * ?’

  0-5 14 * * ?

  每天14:00到14:05,每隔1分钟

  10,44 14 ? * 4

  每周三14:10和14:44

  15 10 15 * ?

  每月15日的10:15

  15 10 ? * 6L

  每月最后一个周日的10:15

  15 10 ? * 6#3

  每月第三个周日的10:15

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线