优采云客户端采集模板助你实现*敏*感*词*、实时采集疫情
优采云 发布时间: 2021-08-17 22:16优采云客户端采集模板助你实现*敏*感*词*、实时采集疫情
紧张的疫情防控战打响后,各大网络平台上纷纷爆发与疫情相关的媒体报道和热点话题。微博时效性强、互动性强、开放性强,已成为媒体报道和话题讨论的重要阵地。
及时获取最新的媒体报道和热点话题已经成为很多人的刚性需求。面对疫情信息来源广、量级大、实时性高,仅靠人力一一阅读,很容易陷入信息滞后、成本高的困境。
使用优采云准备的采集模板和云端定时采集可以轻松实现*敏*感*词*、实时的采集疫情相关数据。下面以微博为例进行详细讲解。其他平台(知乎、今日头条、微信等)的采集方法类似。
一、real-time采集media 报道
第一步:找到各大媒体的微博账号,采集每个账号的首页链接优采云提供:【微博-搜索博主】模板
1、如果你已经有目标媒体的微博账号和首页的链接,可以直接跳到第二步。
2、如果你已经有目标媒体但没有微博账号,可以通过微博搜索。使用目标媒体名称为关键词并选择[找人]找到其微博账号,通常是搜索结果中的第一个。
优采云提供了一个【微博-搜索博主】模板来满足以上采集的需求。
Step1.下载优采云客户端,找到【微博搜索博主】模板,点击【立即使用】。
Step2.在[关键词]的参数框中输入已有的媒体名称,例如:深圳商报、成都商报(可以同时输入多个关键词,以行分隔休息),然后【启动Local采集】。
Step3.样本数据,获取目标媒体的微博账号和首页链接。 采集会有更多的结果。导出后,使用“关键词=Username”手动过滤。
3、 如果没有目标媒体,可以通过微博搜索。输入关键词(每日/早上/晚上/商业/城市/快车/快车/青春等),选择【找人】,找到一批媒体微博账号。
关键词需要根据媒体名称的特点进行细化。输入的关键词越多越准确,获得的媒体账号就越多,采集收到的疫情后续报道也就越多。
同样的,你也可以通过【微博搜索博主】模板满足以上采集的需求。具体使用方法同上,只是在[关键词]的参数框中输入的是daily/morning/evening,这样模糊的关键词。
样本数据,获取一批媒体的微博账号和首页链接。
第2步:访问每个账号的首页,采集其报告优采云提供:【博主首页的微博帖子】模板
通过第一步,已经获得了媒体的微博账号和首页链接,然后依次打开每个链接,采集其发布的微博。需要采集的关键字段包括微博发布时间、正文、正文链接、转发数、评论数和点赞数。
优采云提供了【博主首页微博-博文】的模板,满足以上采集的需求。
Step1.优采云客户端,找到【博主首页的微博博文】模板,点击【立即使用】。
Step2.在【URL】的参数框中,输入我们第一步得到的账号的首页链接(可以同时输入多个URL,用换行符隔开)。
Step3.示例数据,包括我们需要的微博发布时间、正文、正文链接、转发数、评论数、点赞数。
经过以上操作,采集已经可以到达目标数据了。不过上面用的是本地单采集,采集就结束了。如何实时查看各个媒体微博账号发布的采集报道?
第三步:优采云每个账号发布的实时采集报告提供:云采集计划
通过优采云提供的cloud采集解决方案,您可以实时查看每个账号发布的采集报告。
1、设置计时采集,计时的最短间隔为1分钟。即最短的采集模板可以每1分钟自动激活一次。一般微博的更新间隔会大于1分钟,所以不会错过更新的微博。
2、多个云节点并发发送采集,大大提高了采集的速度。在1的基础上,每次启动后将采集任务拆分成多个子任务,分发到多个云节点并发运行,保证每个采集快速完成。
3、在1和2的基础上,观察账号的更新频率,为采集template设置合适的翻页次数,这样每次采集被激活,采集添加前几页的数据,而不是多次重复采集historical数据。
二、real-time采集热门话题
采集微博热搜榜优采云实时热点话题@提供:[微博-热搜榜]模板
微博热搜榜提供大家正在搜索的实时热门话题。通过微博热搜榜,您可以追踪疫情各个时间节点下的热门话题,以及话题下的具体微博。
优采云提供【微博-热搜榜】模板,满足采集以上需求。
Step1.在优采云客户端,找到【微博-热搜榜】模板,点击【立即使用】,不输入参数直接启动【Local采集】。
Step2.样本数据,获取热门话题和话题下的具体微博。
微博热搜榜实时变化。您可以在【微博-热搜榜】模板中设置定时云采集、实时采集热搜榜为热门话题。具体方法已在第一部分第三步中详细说明,此处不再赘述。
已有一批热门话题,实时采集其搜索结果优采云提供:[微博搜索]模板
如果你有一批热门话题,你可以通过微博搜索每个话题,搜索后查看具体的微博,跟踪其发展。
优采云提供了一个【微博搜索】模板来实现以上采集的要求。
Step1.优采云客户端,找到【微博搜索限制cloud采集-免登录】模板,点击【立即使用】。
Step2.在[Search关键词]参数输入框中输入已有的热门话题,然后启动[local采集]。
Step3.样本数据,采集搜索热门话题后去了特定的微博。
同理,上面的演示是单个采集。我们也可以为【微博搜索-限时云采集-免费登录】模板设置定时云采集,实时搜索采集热门话题后获取特定微博。具体方法同上,这里不再赘述。
本文以微博为例,详细讲解优采云realtime采集media疫情报道和热点话题的使用方法。重点是用好采集Template+云采集这两个很好的工具。再说一遍,其他平台(知乎、今日头条、微信等)的采集方法也是类似的,请参考这篇文章。
优采云希望帮助更多有需要的人,及时获取第一手疫情信息,更好地服务疫情防控工作。
虽然最近坏消息很多,新的一天总会有新的痛点和遗憾,但我们一定能一心一意战胜疫情。