如何塑造“数据中心”的功能清单 第一讲
优采云 发布时间: 2020-08-26 00:26如何塑造“数据中心”的功能清单 第一讲
自第三次技术革命以来,随着信息技术在产业体系中不同程序的应用,完成了不同层次的信息化,产生了各行各业的海量信息。这些信息构成了以信息化为基础的时代。随着信息化不断的发展,数据已不再是简单的信息载体,而是一种能为企业和人类带来更大价值的资产。至此,我们迎来了大数据时代。在这样一个大数据时代,我们须要将被数据化的虚拟世界和现实世界相关联,从数据、信息、知识、智慧、客观规律的数据资产价值链中,将数据的价值逐渐呈现并最终可视化,以应对和解决企业和人类的生存和发展问题。为了实现数据价值从隐性不可看到显性并可见,并满足市场快速变化的业务需求。其中,数据采集是数据中心最为基本也最为关键的能力。
数据采集能力
采集数据的结构
在大数据的时代下,企业和组织的数据呈现出多种款式的数据,但大致可以分成两大类:
第一类:结构化数据,这类数据是一种可预见,经常出现的数据格式,数据结构包括:记录属性,键和索引等。可以通过传统的数据库管理系统加以管理和储存。
例如:交易数据,付款数据,销售活动数据,医疗过程数据等。
第二类:非结构化数据,这类数据可以进一步界定为,重复型和非重复型。
例如:电话记录数据,天气数据等。
例如:电子邮件,医疗记录,呼叫中心数据,交易数据,付款数据。
采集数据的插口
由于结构化数据格式与非结构化的数据格式完全不同,并呈现出多样性,这就要求数据采集能够具有不同的采集接口,以满足不同企业和组织的数据格式要求,从而达到有数据可以剖析的目的。
在采集应用中须要具有如下分类的采集接口:
1.NOSQL数据采集接口:该类插口用于联接非结构化数据对应的数据库和文件系统数据采集。
2. 关系型数据库采集接口:该类插口用于联接传统的关系型数据库数据采集。
包括:MYSQL,ORACLE,TERADATA,SYBASE,SQLSERVER,INFORMIX,ACCESS等商用和开源的关系型数据库。
3. 文件类数据采集接口:该类插口主要是针对各种文件数据采集。
包括:TXT格式文件,CSV格式文件,EXCEL文件,特定分割符格式文件。
4. 网络类数据采集接口:该类插口主要通过服务方式调用或服务恳求采集数据。
包括:webservice服务调用,rest服务调用。
数据处理能力
由于数据所处的业务领域不同,导致数据结构的复杂性也有所不同。使得数据处理过程中须要考虑数据的状态特点。主要包括如下4个特点:
1. 不变性,例如:网络安全的基础信息。
2. 实时性,例如:零售行业高频交易形成的数据,传感装置形成的异常检测数据等。
3. 近实时性,例如:零售行业的行为剖析数据。
4. 高延后和低延后(毫秒和秒级别),例如:气象数据。
以上4种能力决定了数据处理过程中须要采用不同的处理模式。主要模式有以下三种。
数据批处理模式
批处理是一种常见的数据处理模式,批处理模式比较简单,输入一批待处理的文件,启动处理过程。
等待处理结束后输出一个剖析结果文件。批处理模式的输入和输出都是文件的方式。数据剖析启动后用户即难以干预算法过程。批处理常常用于剖析大的文件或则大批量的文件。且剖析过程比较长。
例如:MapReduce 和 HDFS,每个文件输入输出都是HDFS文件,而每位MapReduce任务就是一个批处理过程。
数据流式处理模式
批处理指出的数据的批量处理,有明晰的剖析开始时间和结束时间。而在高延后和低延后数据状态下,数据须要源源不断的流入处理系统,系统就能不停地连续估算,这种估算处理模式及流式处理模式。流处理指出数据估算的连续性,一般具有高实时性,大吞吐量特性。
适合于实时统计,分析和实时决策的应用场景。
例如:基于Storm和内存数据库,可以实现网站在线点击率的实时统计。
Spark Streaming上运行自然语言处理组件,可以实现网路舆情实时监控。
图(交互式)处理模式
交互式处理模式是一种对实时性要求介于批处理和流处理之间的一种模式,这种模式通常面向业务剖析人员,交互式模式要求提供剖析结果的可视化。这种模式容许业务剖析人员在统一的工具框架内,开速开发剖析脚本,并在可容忍的时间内得到结果。并通过可视化诠释方法见到结果的一种数据处理模式,底层的具象数据模型通常是结构化或半结构化的数据。
例如:通过Spark SQL,Impala提供的SQL插口,对数据进行查询和统计剖析。
由于数据的多元化,数据状态的不同数据中心应当具有不同业务场景需求的处理能力。