智能采集平台(奇点云自研的一站式大数据智能服务平台——基于hadoop的核心模块)
优采云 发布时间: 2021-10-27 21:16智能采集平台(奇点云自研的一站式大数据智能服务平台——基于hadoop的核心模块)
在这个“数据即资产”的时代,大数据技术和体量都取得了前所未有的进步。如果企业能够有效利用数据,从数据中赚钱,必将成为企业数字化转型升级的有力武器。
奇点云自主研发的一站式大数据智能服务平台——DataSimba,旨在提供数据采集、数据处理、数据治理、数据规范、数据资产、数据服务等全链路产品+技术+方法论服务,构建业务应用的大数据智能平台。其主要核心模块包括数据开发套件、数据管理套件、数据服务引擎、数据智能和数据安全。
1、数据采集
数据采集是数据中心的第一环节,不仅要“采集”,还要合理“存储”数据。DataSimba Data采集开发了两套采集工具,一套是批量采集DataX,一套是实时采集DataS。
DataX是一款批量离线采集工具,基本支持市面上所有的关系型DB、NoSQL等数据库。
DataS是一款实时在线采集工具,支持实时读取关系型DB的操作日志,如MySQL binlog,实时读取嵌入网页的服务日志。
2、数据开发
数据开发套件是产品的核心模块。底层基于hadoop开源生态中的Hive、Spark、Flink、Impala作为计算引擎,使用Hdfs、Hbase、kudu作为分布式存储进行数据开发、数据分析、数据挖掘,算法工程师提供一套可视化开发界面。开发者可以在开发包上进行一站式开发,包括可视化数据同步配置、各种开发任务的创建(包括实时任务和离线任务)、数据建模、调度配置、运维监控等,极大的提高开发人员的开发效率。同时开发包采集实时采集数据表元信息,表级、字段级血缘关系,
3、数据治理
数据治理套件主要围绕开发的数据进行一系列的数据质量监控、数据规范定义、数据元信息展示。一方面,提供多种规则模板,监控各个环节任务的数据质量,每天定期生成数据质量检测报告,让数据开发及时了解数据质量,及时纠正脏数据;其次,提供元数据管理,形成全球数据地图,分析血缘关系和数据影响,为数据开发和维护提供支持;最后,它还帮助开发者制定了一系列名称、指标、维度的设计规范的数据标准,统一口径,消弭二义。然后利用数学统计等大数据技术,机器学习,深度挖掘,为企业构建标签系统,将原创数据加工成企业可以阅读理解的标签系统,应用在不同的业务场景中,帮助企业解决痛点,提高商业。价值。
4、数据服务
数据服务引擎打通应用端与数据之间的通道,让数据与业务紧密结合,加速数据业务流程。传统数据仓库通常从现有的N维中随机选取几个维度进行大数据聚合操作,返回结果集非常慢。OLAP引擎秒级支持大数据、多维查询结果,大大提升另一方面,传统数据仓库在报表数据的展示上耗费大量人力物力,维护难度很大开发的接口。数据API通过可视化方式快速生成界面,建立界面元信息。方便日后维护。
5、数据安全
数据安全可以帮助企业建立数据安全体系。数据安全在数据访问、数据流转、数据运维等几个关键环节增加了身份认证和权限访问控制。通过网络传输加密、高可靠数据存储、敏感数据脱敏、日志审计、事件溯源、高危操作拦截等功能,保障企业数据的稳定性和安全性。
6、数据模型
好的数据模型是高内聚低耦合的设计,能够满足未来业务发展的可扩展性。当然不能过度设计,考虑到可扩展性就足够了。
数据模型设计是一套方法论加上对业务的深刻理解,将业务高度抽象成多维数据模型结构。模型的数量和复杂度与业务密切相关,比如大家熟悉的电商业务,根据业务流程来细分,可以设计成流量数据模型,集合数据模型,购买数据模型、交易数据模型等。
7、商业模式
之前的业务创新智能化提到,业务以节约成本和提升效率为核心,通过整合全球数据和算法技术,将业务经验与数据智能相结合,提升运营决策效率,比如智能选品模型;用于业务提升的经济价值,例如智能折扣模式;为后端部门降低成本,例如智能调度模型。
作为企业级一站式大数据智能服务平台,DataSimba的产品体系和服务能力随着业务场景不断升级迭代。已应用于商业综合体、时尚、医药、酒类等领域,实现企业数据化运营,帮助企业真正盘活数据资产,创造更多商业价值!返回搜狐查看更多