采集器采集源( 微博主:用于对特定博主动态的监控;⑥其他采集源管理)

优采云 发布时间: 2021-12-05 00:14

  采集器采集源(

微博主:用于对特定博主动态的监控;⑥其他采集源管理)

  

  ⑤微博博主:用于监控特定博主的动态;

  ⑥其他采集源码管理。如电子期刊、APP客户端等。

  源码系统主要功能:

  ①方便运维人员对采集的来源进行增删改查;

  ②实时监控网站根据源状态、定时状态等;

  ③对于关键词搜索采集,方便实时添加/删除,启动/关闭采集;

  ④根据采集的实际情况,实时调整采集的策略。如添加/删除采集器等;

  数据采集层

  数据采集层主要用于采集队列管理、调度、数据采集等,包括:

  1. Redis 缓存平台:主要用于缓存采集 任务队列、进程数据(采集 状态、列表数

  临时存储数据等);

  2.任务调度中心:主要用于采集任务调度,保证任务被

  采集。同时保证任务处理的唯一性(同一个任务,同时,

  只能由一个采集器处理);

  3. 采集器:主要用于任务处理。主要包括网页下载、数据结构分析、任务监控等;

  数据存储层

  数据存储层主要用于采集数据的传输、分析和存储,包括:

  1.数据传输:采集器将解析后的新闻、博客、公众号文章等内容通过SpringBoot统一微服务接口推送到Kafka中间件。同时,验证数据的质量。主要需要验证发布时间、标题、正文等分析的准确性,同时对数据进行一定的分析(打标签、特定来源的监控)等;

  2. 大数据平台:主要包括Hadoop、HBASE、kafka、spark、ES等,各采集器

  采集到的数据通过微服务接口推送到Kafka消息中间件,spark进行消费,为业务查询的title、time、text创建ES索引,并将完整信息存储在HBASE中。

  辅助监控系统

  辅助监控系统主要用于监控各种采集网站及栏目、采集调度服务、推送服务、采集器、大数据平台等,以确保其稳定性和正常运行,主要包括以下子系统:

  1.信息源系统监控:主要监控网站、栏目、公众号、博主等状态,保证正常访问;

  2. 采集 监控:主要用于监控每个采集任务的状态,方便排查异常任务和数据泄露。同时根据记录的状态,还可以验证网站、列等是否正常

  3. 服务器监控:主要监控服务器的CPU、内存、硬盘等的使用率,以及是否宕机。同时根据服务器使用情况合理部署采集器;

  4. 数据质量校验:主要用于对数据质量进行实时监控,基于异常数据,反查源等配置;

  一个完整的采集平台大致收录了这些内容。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线