软文采集系统(数据集中治理与提升数据价值转换效率的思路是一致的)
优采云 发布时间: 2021-11-18 20:10软文采集系统(数据集中治理与提升数据价值转换效率的思路是一致的)
0、前言
目前,大多数公司不再从源数据采集到分析应用构建烟囱系统,而更倾向于专注于数据采集、存储和应用分层构建。这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理和运行,体现了数据资产和资源的属性。
数据中心的出现,弥补了数据开发与应用开发因开发速度不匹配导致的响应能力不足的不足。
数据中台是国内学者提出的概念,起源于阿里“大中台,小前台”的概念。阿里巴巴的中台是基于管理的角度,具有中台业务单元集中多个部门的数据搜索、技术与产品、数据共享等功能。其他组织或企业不一定要建数据中心,但集中治理数据、提高数据价值转化效率的思路是一致的。
一、通用架构
不同的公司对数据有不同的需求。企业数据的应用是不断更新迭代的,企业的中台系统也需要不断变化。
从数据处理和数据治理两个维度出发,可以设计一个解耦的数据中心系统架构。数据中心系统架构具有一定的灵活性,可以根据企业应用需求进行组合,也可以扩展单个模块,可以满足大部分企业数据中心建设的需求。
数据中心架构示例
数据中心的一般系统架构如上图所示。数据中心的系统架构基于减少功能冗余、提高功能复用的原则,将数据中心解耦为六个可独立构建和演进的功能子系统。
数据结构和数据处理子系统是数据中心系统架构的核心,数据治理是提升数据价值的重要手段。数据中台湾建筑的通用性体现在以下几点:
1.1数据存储框架
数据中心的核心是数据。数据通过采集系统获取,再由处理框架进行处理,由数据治理框架进行管理。同时,还必须由数据安全管理框架进行管理。最后,开放的价值数据将通过数据运营框架对外提供数据服务。
数据中心的数据架构应该独立规划,采用合理的技术架构来存储不同类型的数据。
在数据存储框架中,无论数据采用对象存储、块存储还是数据库存储技术,各种中台数据都可以如上图所示进行分类管理。
1.2 数据采集帧
数据中心的采集框架对数据中心收录的各种源数据进行统一的采集管理。数据采集框架应提供多种数据采集方法,如文件传输协议采集、数据库采集、接口应用访问采集、流< @采集 和网络爬虫采集。
同时采集框架要按照数据采集规范对源数据进行预处理,去除明显不需要的数据和冗余数据,管理采集流程。虽然数据中心的系统架构没有统一的模板,但各企业的数据采集框架基本相同。
1.3 数据处理框架
数据处理是每个数据应用的基本环节之一。经典的数据提取、转换和加载(ETL)处理程序用于数据预处理、数据集成、数据建模等地方。单独搭建数据处理框架,有利于数据处理工具组件的集中开发和管理,也有利于数据中心内数据处理任务的协调和调度。
数据处理框架专门负责与数据处理相关的任务,包括批处理、流处理、人工智能分析、数据清洗、数据交换和查询。另外,处理框架中可以配置数据处理相关的工具组件。任务调度模块在数据处理框架中起中心指挥作用,对正在运行的数据处理任务进行监控、异常处理等操作。
1.4 数据治理框架
广义的数据治理不仅包括数据管理、数据目录、数据质量等提升数据价值的内容,还包括数据安全管理和数据共享服务。
数据安全管理和数据价值提升是一对矛盾。如果厂商或开发团队开发数据安全管理和数据价值提升软件,开发者的操作难免会出现偏差,矛盾不易泄露,冲突较少,也缺乏高质量的解决方案。
此外,数据共享等数据治理内容也存在同样的问题。因此,建议数据中心的数据治理框架不包括数据安全和共享相关内容。
数据治理框架包括四个模块:数据目录、数据管理、模型管理和数据质量:
1.5 数据安全框架
数据已经成为数据资产,数据安全框架是数据中心不可或缺的一部分。数据安全叠加在数据中心其他功能框架之上,数据采集、处理、交换、共享的每个环节都必须实施安全控制策略。安全框架可以分为日志管理、用户认证、权限管理、加解密等几个功能模块。
此外,安全全门户还可以对外提供安全能力封装,展示数据中心的安全态势和安全视图。
1.6 数据操作框架
数据中心的核心功能是整合众多数据应用的数据处理和数据管理功能,集中建设、集中管理、减少冗余、增加复用。数据中心的最终目标是为其他应用或开发者提供数据服务,外部数据服务功能将直接面对不确定的外部对象。
因此,数据操作的独立构建,有利于为外部用户提供有针对性的功能;另一方面,数据操作模块作为用户与数据中心核心数据服务之间的中间层,可以有效隔离外部用户直接控制和接触核心。数据和应用可以保护数据中心的安全和内部功能的稳定性。
基于以上因素,数据运营应具备运营门户、能力开放、数据开放、运营监控等功能:
二、典型架构
数据中心的目标是让数据继续被使用。通过数据中心提供的工具、方法和运行机制,使数据成为一种服务能力,使业务可以更方便地使用数据。下图显示了数据中心的整体结构。数据中心是介于底层存储计算平台和上层数据应用之间的完整系统。
数据中心屏蔽了底层存储平台的计算技术复杂度,降低了对技术人才的需求,降低了数据的使用成本。通过数据中心的数据聚合和数据开发模块建立企业数据资产。通过资产管理与治理、数据服务,将数据资产转化为数据服务能力,为企业业务服务。数据安全体系和数据运营体系保障数据中心长期健康持续运行。
2.1 数据聚合
数据聚合是数据中心内数据访问的入口。数据中心本身几乎不产生任何数据。所有数据均来自业务系统、日志、文件、网络等,这些数据分散在不同的网络环境和存储平台中,难以使用,难以产生商业价值。
数据聚合是数据中心必须提供的核心工具。各种异构网络和异构数据源的数据可以方便地采集存储在数据中心,为后续的处理建模做准备。
数据聚合方式一般包括数据库同步、埋点、网络爬虫、消息队列等;在聚合的时效性上,有离线批量聚合和实时采集。
2.2数据开发
通过数据聚合模块聚合到中台的数据没有经过任何处理,基本都是按照数据的原创状态堆在一起的,所以业务还是很难用的。数据开发是一套用于数据处理和处理过程控制的工具。有经验的数据开发和算法建模人员可以利用数据处理模块提供的功能,将数据快速处理成对业务有价值的形式,提供给业务使用。
数据开发模块主要面向开发者和分析师,提供离线、实时、算法开发工具以及任务管理、代码发布、运维、监控、告警等一系列集成工具,使用方便,提高效率。
2.3 数据资产系统
通过数据聚合和数据开发模块,中台具备了传统数据仓库平台的基础能力,可以进行数据聚合和各种数据的开发,可以建立企业的数据资产体系。之前说过,数据资产系统是中台的血肉,所有的数据都是开发、管理、使用的。大数据时代,数据量大、增长快,业务对数据的依赖度会越来越高。必须考虑数据的一致性和可重用性。垂直烟囱式的数据和数据服务构建方式注定不会长久存在。.
不同的公司由于业务不同,数据也不同,数据构建的内容也不同,但构建方法可以大同小异,数据要统一构建。笔者建议按照后源数据、统一数据仓库、标签数据、应用数据等标准构建数据。.
2.4 数据资产管理
通过数据资产体系建立的数据资产仍然是一套技术数据体系,业务人员难以理解。资产管理是一种让公司所有员工更好地了解公司数据资产的方式(当然要考虑权限和安全控制)。数据资产管理包括数据资产目录、元数据、数据质量和数据血缘关系。、数据生命周期等进行管理和展示,更直观的展示企业的数据资产,增强企业的数据意识。
2.5 数据服务系统
以前利用数据聚合、数据开发建设企业数据资产,利用数据管理展示企业数据资产,但没有充分发挥数据的价值。数据服务体系是将数据转化为服务能力。通过数据服务,数据可以参与业务,激活整个数据中心。数据服务体系是数据中心的价值所在。
企业数据服务瞬息万变。中台产品可以承载一些标准的服务,但难以满足企业的服务需求。大多数服务仍然需要通过中台的能力快速定制。数据中心的服务模块本身并没有提供很多服务,而是提供快速的服务生成能力和服务管理、控制、认证、测量等功能。
2.6 操作系统和安全系统
通过之前的数据聚合、数据开发、数据资产、资产管理、数据服务,完成了整个数据中心的建立和建设,在业务上也发挥了一定的价值。
运营体系和安全体系是数据中心健康持续运行的基础。没有它们,数据中心很可能就像一个通用项目。平台一期后,部分数据的搭建,以及一两个应用场景的试用,停止了,无法继续正常运营,无法继续发挥数据应用的价值,完全无法实现建设数据中心的目标。
三、不同行业数据中台解决方案
四、总结
数据中心的建设可以实现对企事业单位数据资产的高效管理,实现数据价值的最大化。它将为组织带来基于数据平台的运行机制,有望解决应用开发与数据开发速度不匹配的问题。利用数据中心,可以汇聚组织的核心技术或团队,在组织内部构建强大的数据开发和运营团队,提升组织团队的软实力。
虽然一个好的架构对于一个信息系统的后期扩展和运维有着重要的作用,但是整体架构设计只是数据中心建设的第一步。每个功能模块还有很大的细化空间,比如不同类型的数据。存储技术选择、数据安全合规审计技术、数据模型设计等。在具体项目中,数据共享与安全保护的平衡,新技术的引入,都需要进一步深入研究。