云优采集接口(接上的大数据处理工具对你我意味着什么)

优采云 发布时间: 2022-04-15 01:24

  云优采集接口(接上的大数据处理工具对你我意味着什么)

  在上一集中,我们已经知道一个好的大数据处理工具对你我意味着什么。可能有人会问,你总说DataCenter厉害,那么厉害在哪里呢?你说的结构在哪里?说到曹操和曹操,这是DataCenter的架构图:

  

  很清爽的感觉,是的,你用起来也会很舒服。DataCenter采用模块化模式,即你看到的每一个模块都是其中一个模块,你可以通过配置页面自由配置组合,让你可以根据自己的实际业务进行相关选择,组合、调优你的事。

  系统主要分为五个功能组:采集、存储、计算、发布、展示。让我们从 采集 开始。

  采集:提供标准数据输入接口,方便不同类型采集工具的访问,如物联网数据采集访问、游戏日志访问、各种日志服务器访问等。

  存储:批处理 - 采集 中的数据存储在主 HDFS 中,并根据数据的值存储在 Hbase 中

  实时流式传输——来自 采集 的数据直接连接到 Kafka 集群

  计算:这部分也分为批处理和流实时。用到的技术很多,比如Hive的MR、Spark、Flink等,还有后起之秀的star kylin等。在这里,DataCenter将为你提供不同的选择。您需要根据自己的业务选择不同的处理模式,系统会根据规则进行匹配,选择不同的计算工具,以达到最优的性能。

  发布:还有批处理和流式实时两部分。Batch 以服务的形式提供服务,例如文件下载、Rest 服务、消息,当然还有我们熟悉的数据库(关系型和非关系型)。流式处理主要基于分布式流式查询,例如elasticsearch、presto 应用程序,您可以快速轻松地使用您的实时频道数据。

  显示:这部分由众所周知的蛛网组件完成。你的页面配置操作和显示都是由这部分完成的。本部分包括AutoBI、DataView、EasyMIS的综合应用。

  纵观整个系统,除了元数据系统,还有报警系统、权限系统等,其中最核心的就是调度系统。没有这个系统,整个DataCenter就无法正常运行。调度系统连接previous和next,控制各个模块的运行,也控制计算节点的指标计算。例如,如果每个月的日指标不完整,则不允许计算月指标,以便向相关人员发送数据不足的预警。调查相关的日志丢失问题。可以说调度系统是整个系统的灵魂。

  综上所述,可以看出DataCenter是一套庞大且结构良好的系统,环环相扣,设计严谨。正是因为这些,DataCenter才能处理PB级的数据,将性能损失降到最低。. 可以说DataCenter的出现肯定会改变大数据处理的一些规则。如果说蛛网时代改变了软件开发的规则,那么大数据处理的新时代即将到来,而这一切都是蛛网时代DataCenter为您打造的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线