全方面的采集神器(【开源】数据中台建设基座离线开发平台——数栈)

优采云 发布时间: 2021-11-12 04:23

  全方面的采集神器(【开源】数据中台建设基座离线开发平台——数栈)

  Digital Stack是一个云原生站数据平台PaaS。我们在 github 和 gitee 上有一个有趣的开源项目:FlinkX。FlinkX是基于Flink的批流统一数据同步工具,可以是采集静态数据,也可以是采集实时变化的数据。它是一个全局的、异构的、批量流数据同步引擎。如果你喜欢,请给我们一个star!星星!星星!

  github开源项目:

  gitee 开源项目:

  随着数字智能时代的到来,企业需要聚合各个业务领域的数据,并提供强大的中间层,为高频多变的业务场景提供支持。基于这样的需求,“数据中心”应运而生,将数据提炼为数据资产,转化为业务所需的数据“血液”。

  数据中心的建设和运营通常包括以下活动:数据聚合、数据处理和提炼、对外提供数据服务。其中,数据聚合、数据处理和提炼能力由作为数据中心建设基础的线下开发平台提供。

  一、应用场景

  例如,某服装企业需要统计最近3个月全国不同城市不同款式服装的销售/库存状况,以指导接下来的销售活动和款式设计。这些数据每天都需要更新,这是典型的离线计算场景。为了完成上述过程,数据部门需要进行以下处理动作:

  为了解决上述场景的问题,需要在数据采集、存储、处理等方面进行各种选择比较,通常可以分为以下两类:

  1、基于关系型或MPP数据库,如MySQL和Greenplum:

  2、基于Hadoop系统的技术方案

  3、 以上两类场景存在以下问题:

  二、BatchWorks 主要功能

  BatchWorks提供的各种功能完全覆盖了上述场景中的各种需求,收录的功能模块如下:

  1、数据同步:

  

  ​

  2、数据开发:

  

  3、调度引擎:

  4、运维中心:

  

  5、安全保证:

  BatchWorks采用多种方式保障数据安全和功能运行安全,主要涵盖集群安全、数据安全、功能安全三部分:

  三、产品优势

  1、全生命周期覆盖:

  覆盖数据采集、数据处理、调度依赖、任务运维等场景,充分满足离线数据开发流程需求,相比传统开源工具可节省80%的数据开发时间。

  2、多引擎,异构对接:

  3、自主知识产权:2个核心模块100%自主研发,掌握所有知识产权

  4、在线和可视化操作:

  产品通过网页向用户提供服务,屏蔽底层复杂的分布式计算引擎,提供在线开发平台,提高开发效率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线