智能文章采集(企业实施商务智能项目时,数据采集和集成的问题)
优采云 发布时间: 2022-03-01 11:10智能文章采集(企业实施商务智能项目时,数据采集和集成的问题)
摘要 数据采集和集成是企业实施商业智能项目时经常遇到的问题。在商业智能系统架构中增加一层数据采集平台,作为核心业务应用复合系统架构中的重要补充源,解决企业快速从外部源获取数据的问题,保证企业的完整性数据资产和充分的信息有效性,达到商业智能支持企业决策的要求。
关键词 数据采集; 商业智能;系统架构
CLC 编号 TP39 *敏*感*词*识别码 A 文章No. 1674-6708 (2012)73-0218-02
1 关于商业智能
商业智能(BI)是企业利用数据仓库(DW)、数据挖掘(DM)、在线分析处理(OLAP)、决策支持系统(DSS)等现代信息技术,在企业业务过程中产生的大量结构化数据。 . 用于采集、组织和分析非结构化业务数据和信息的工具、方法和技术的总称,以帮助企业做出决策、采取有效的战术行动、优化业务流程、全面提高企业绩效。借助商业智能,企业可以在市场瞬息万变、竞争日趋激烈、组织结构复杂、企业规模迅速扩大。从信息到知识,从知识到利润的转变。
2 商业智能数据的问题采集
数据采集和集成是企业实施商业智能项目时经常遇到的问题。由于实施过程一般是分阶段、梯度进行的,企业BI总是要面对业务流程随着市场环境的变化而不断变化的现状,系统架构总是处于不断补充和扩展的过程中。 .
随着企业内部信息化的历史变迁,从部门级应用,到各公司独立应用,再到企业集成应用,企业使用不同厂家、不同版本的各种管理软件。如果说该系统应用的广度已经让人头疼,更让人头疼的是集团企业各种信息系统的集成。比如从数据集成到应用系统集成,再到集团企业面临的人员集成、信息集成、流程集成、应用平台集成等,涉及的越来越多,集成的重点也在转移。从技术到业务系统。.
同时,行业市场的激烈竞争迫使企业在逐步整合和集中应用系统的过程中同时进行*敏*感*词*的全企业数据整合,将BI作为企业战略的重要支撑。那么企业BI就要率先解决数据驱动的根本问题,即解决数据获取、转换和集成的问题。
3 数据采集平台补充了 BI 架构
目前,全球各大软件厂商提供的商业智能解决方案均使用商业应用的运营关系数据库作为商业智能数据仓库或市场的ETL数据源。该解决方案旨在将业务流程和运营与业务分析相结合。与查询分离,应用程序组合以合理的结构执行自己的功能。因此,市场上的大多数BI产品只对数据仓库、市场或OLAP进行单向提取和表示操作,即“只读”操作。表示层不提供大而频繁的数据写入操作。想象一下,一旦 BI 产品有了数据写入处理,BI的产品定位和架构边界会变得模糊,在实际应用中,解决方案与业务需求匹配时难免会出现定位混乱。即使市面上有少数BI产品具备“回写、转储”功能、访问权限可控,也需要慎重考虑数据仓库或OLAP多维分析的数据更新频率和工作量启用该功能时重建立方体。事实上,此类BI产品的“写处理”能力非常有限,一般只处理单表中的metric-type或memo-type字段更新,不具备工作流、规则引擎等基本流程控制功能。在将解决方案与业务需求匹配时,难免会出现定位混乱。即使市面上有少数BI产品具备“回写、转储”功能、访问权限可控,也需要慎重考虑数据仓库或OLAP多维分析的数据更新频率和工作量启用该功能时重建立方体。事实上,此类BI产品的“写处理”能力非常有限,一般只处理单表中的metric-type或memo-type字段更新,不具备工作流、规则引擎等基本流程控制功能。在将解决方案与业务需求匹配时,难免会出现定位混乱。即使市面上有少数BI产品具备“回写、转储”功能、访问权限可控,也需要慎重考虑数据仓库或OLAP多维分析的数据更新频率和工作量启用该功能时重建立方体。事实上,此类BI产品的“写处理”能力非常有限,一般只处理单表中的metric-type或memo-type字段更新,不具备工作流、规则引擎等基本流程控制功能。即使市面上有少数BI产品具备“回写、转储”功能、访问权限可控,也需要慎重考虑数据仓库或OLAP多维分析的数据更新频率和工作量启用该功能时重建立方体。事实上,此类BI产品的“写处理”能力非常有限,一般只处理单表中的metric-type或memo-type字段更新,不具备工作流、规则引擎等基本流程控制功能。即使市面上有少数BI产品具备“回写、转储”功能、访问权限可控,也需要慎重考虑数据仓库或OLAP多维分析的数据更新频率和工作量启用该功能时重建立方体。事实上,此类BI产品的“写处理”能力非常有限,一般只处理单表中的metric-type或memo-type字段更新,不具备工作流、规则引擎等基本流程控制功能。
笔者提出在商业智能架构中增加一层数据采集平台作为核心业务应用组合架构中的重要补充源,以解决企业快速获取非系统数据源或导入的问题来自外部来源的数据进入系统。为保证企业数据资产的完整性和信息的充分有效性,实现商业智能支持企业决策的要求。
4 数据采集平台解决方案
数据采集情况复杂,方法很多。比较常见的情况是业务应用系统跨越多个数据库,结构化、半结构化和非结构化数据源,以及源文件的手动输入和导入。简单的采集方法可以是网页手动数据录入、条码扫描、自动定时数据提取、修正或补充记录过程等,最终为数据存储或数据分析提供基础内容。可以看出,无论是什么情况,数据采集都包括数据源的采集、识别、选择和存储,从目标处理到输入输出都是一个复杂的过程。
4.1 数据采集平台架构
商务智能数据采集平台包括对公司各级下属单位或部门的业务数据、协同数据、公共资源和数据执行采集。Data采集主要通过data采集适配器、网页在线数据上报、客户端数据上报、后台批量数据导入等方式,快速从生产数据库、文件系统中传输数据采集 转数据,存储在采集 数据库和文件系统中,尽量减少对生产数据库的影响。
数据采集平台要求数据准确一致,格式符合BI分析。因此,设计了数据报告和审查的业务流程。系统层次结构和流程设计如下:
审批层:具体填表人员通过网页在线填表或客户端填表将数据录入填表系统(系统会自动将数据标记为状态,写为已提交)。
填充层:每个分支结构的reviewer会对系统中的数据进行review(系统中只显示需要review的数据),如果数据符合要求则通过review(系统将flag改为review),否则将被退回(系统会将flag更改为review)。提交)。
ETL层:系统通过ETL工具自动将数据写入公司总部采集平台的数据库。ETL流程需要根据业务需求进行专门设计。
2)数据存储分为两个层次
各下属单位数据存储:各下属单位有自己的数据库,用于存储网上申报系统数据。
总部数据中心:总部采集平台数据库,存储各下属单位的数据。(审计后数据)。
3)数据采集内容
数据采集平台为数据集成和集成应用提供数据基础。数据采集涵盖了整个医药企业应用系统的业务数据。采集数据主要为主数据管理和商业智能系统提供数据源。通过data采集平台,可以将公司商业智能分析所需的各种商业分析题目的维度和事实导入到数仓的ODS数据区。
4.2Data采集四种采集平台方法
1)数据采集适配器
data采集适配器通过Web Services提供服务,自动将需要采集的各级数据中心应用系统的数据源读取到中间临时数据集中,然后将修改后的数据写入数据集中的数据。采集平台数据库。