解决方案:商务智能架构中的数据采集平台
优采云 发布时间: 2022-11-25 23:13解决方案:商务智能架构中的数据采集平台
总结
商业智能架构中的数据采集平台 当企业实施商业智能项目时,数据采集
和集成是常见问题。在商业智能架构中增加一层数据采集平台,作为核心业务应用组合系统架构中的重要补充来源,解决企业快速从外部获取数据的问题,从而保证企业数据资产的完整性和信息的充分有效性,实现商业智能支持企业决策的需求。关键词数据采集
;商业智能;关于商业智能的系统架构 商业智能(BI)是利用数据仓库(DW)、数据挖掘(DM)、在线分析处理(OLAP)和决策支持系统(DSS)等现代信息技术,采集
、整理和分析企业运营过程中产生的大量结构化和非结构化业务数据和信息, 为了协助企业做出决策,采取有效的战术行动,优化业务流程,是全面提高企业绩效的工具、方法和技术的统称。借助商业智能,企业可以在市场瞬息万变、竞争日益激烈、组织结构复杂、企业规模迅速扩大的经营环境下,保持高效运营、正确决策、快速反应,实现企业从数据到信息、从信息到知识、从知识到利润的转变。商业智能数据采集
问题 当企业实施商业智能项目时,数据的采集
和集成是一个常见问题。由于实施过程一般是分阶段和梯度进行的,企业BI总是要面对业务流程随市场环境趋势变化的现状,系统架构始终处于不断补充和扩展的过程中。
" />
随着企业内部信息化的历史变化,从部门级应用,到各公司的独立应用,再到企业集成应用,企业使用不同厂家和版本的各种管理软件。如果说这个系统应用的广度让人头疼,那么更让人头疼的是集团企业各种信息系统的集成。比如从数据集成到应用系统集成,再到人员集成、信息集成、流程集成、应用平台集成等集团企业面临的几个方面,涉及的越来越多,集成的重点越来越从技术到业务系统。同时,行业市场激烈的竞争环境迫使企业在应用系统逐步集成和集中的过程中同步*敏*感*词*企业级数据集成,BI作为企业战略的重要支撑。那么企业BI必须率先解决数据驱动的基础知识,即解决数据采集、转换和集成的问题。数据采集
平台作为商业智能架构的补充 目前,全球各大软件厂商提供的商业智能解决方案是作为商业智能数据仓库或集市的ETL数据源的业务应用运营关系数据库,旨在将业务流程和运营与业务分析和查询分离, 并且应用程序组合执行自己的功能和合理的架构。因此,市面上大多数BI产品本身只对数据仓库或集市或OLAP进行单向抽取和呈现操作,即“只读”操作,表示层不提供大而频繁的数据写入操作。试想一下,一旦BI产品有了数据写入处理,BI的产品定位和架构边界就会变得模糊,当业务需求与实际应用中的解决方案相匹配时,难免会出现定位混乱。
即使市面上具有“回写、转储”功能可控访问权限的BI产品很少,在启用该功能时,也需要仔细考虑数据更新频率和重构多维数据集进行数据仓库或OLAP多维分析的工作量,其实这类BI产品的“写处理”能力非常有限, 通常只处理单个表中度量值或注释的字段更新,不具有工作流和规则引擎等基本流程控制功能。笔者建议在商业智能架构中构建一层数据采集平台,作为核心业务应用组合架构中的重要补充源,以解决企业快速获取非系统数据源或外部源数据导入系统的问题,从而保证企业数据资产的完整性和信息的充分有效性, 并实现商业智能的需求,以支持企业决策。数据采集平台解决方案 数据采集
复杂多样。业务应用程序更常见的是跨多个数据库、结构化、半结构化和非结构化数据源,以及源文件的手动归档和导入。简单的采集方法可以是在网页上手动输入数据、扫描条形码、自动定时数据提取、校正或补充记录过程等,最后为数据存储或数据分析提供基础内容。由此可见,无论在什么情况下,数据采集
都包括数据源的采集、识别、选择和存储,这是一个从目标处理到完成输入输出的复杂过程。4.1 数据采集平台架构 商业智能的数据采集平台包括业务数据、协同数据、公共资源、公司各级下属单位或部门数据的采集。
数据采集主要通过数据采集适配器、网页在线数据填充、客户端数据上报、后台批量数据导入等方式,从生产数据库、文件系统中快速采集数据,存储到采集数据库和文件系统中,将对生产数据库的影响降到最低。数据采集平台需要准确一致的数据以及符合BI分析使用的格式,因此设计了数据上报和审核的业务流程,系统层次结构和流程设计如下: 审批层:具体填写人员通过在线或客户端填写的方式将数据填入灌装系统(系统自动将数据标记为状态并写入它作为提交)。报表层:各分支结构的审计员对系统中的数据进行审核(系统中仅显示待审核的数据),如果数据符合要求,则通过审核(系统将标志位改为审核),否则返回(系统更改标志位提交)。ETL层:系统通过ETL工具自动将数据写入公司总部采集平台的数据库,ETL流程需要根据业务需求进行设计。2)数据存储分为下属单位的两级数据存储:每个下属单位都有自己的数据库,并存储在线灌装系统数据。总部数据中心:总部采集平台数据库,存储各下属单位的数据。(审计后数据)。3)数据采集内容 数据采集平台为数据集成和集成应用提供数据基础,数据采集覆盖整个医药企业应用系统的业务数据,采集的数据主要用于为主数据管理和商业智能系统提供数据源。
" />
通过数据采集平台,可以将商业智能分析所需的各种业务分析主题的维度和事实导入到数据仓库的ODS数据区域。 4.2 数据采集平台的四种采集方式: 1)数据采集适配器:数据采集适配器使用WebService提供服务,自动读取数据中心各级需要采集的应用系统数据源进入中间 暂存数据集,然后将数据集中更改的数据写入采集
平台数据库。适配器模式数据采集
过程如下:适配器客户端发起连接请求;服务器回复并通过SSL与其建立连接;适配器客户端发送数据;服务器接收数据,接收后反馈接收状态;服务器识别数据类型和数据格式标记,根据类型格式标签从规则引擎获取数据处理规则,并对采集到的数据内容进行验证。验证信息存储在信息反馈数据库中,通过验证的数据加载到数据库数据库中,校验失败的缺陷信息发送到信息反馈数据库,不加载处理。2)网页在线数据填充 网页数据采集是架构部署的手动在线填写方式,文本信息以HTML表单的形式填写,Excel XML文件以附件的形式上传导入数据库,审批流程控制和工作流程由WebService提供,数据验证规则在浏览器中实现, 并在数据库后台批量实现数据复杂计算规则。数据填写和采集
流程如下:用户登录网页填写在线报表页面;根据模板填写数据并提交数据;服务器识别数据类型和数据格式标记,根据类型格式标签从规则引擎获取数据处理规则,并对采集到的数据内容进行验证。验证信息存储在信息反馈数据库中,通过验证的数据加载到数据库数据库中,校验失败的缺陷信息发送到信息反馈数据库,不加载处理。3)客户端数据上报
数据上报客户端是部署在用户终端中的软件工具,用于C/S架构的数据采集和上报。客户端数据采集
流程如下:客户端发起连接请求;服务器回复,验证客户端的用户权限,并通过SSL与其建立连接;客户端发送数据;服务器接收数据,接收后反馈接收状态;服务器识别数据类型和数据格式标记,根据类型格式标记从规则引擎获取数据处理规则,并对采集到的数据内容进行验证。验证信息存储在信息反馈数据库中,已验证的数据加载到数据库数据库中,未验证的缺陷信息发送到信息反馈数据库,不进行加载处理。使用客户端填写数据有以下优点:可以在线填写数据,也可以离线填写数据,本地存储,在线同步;可以向客户端预设验证规则,以减少缺陷数据的生成。未上报的数据可以重新上报;您可以查询上报的批量数据;通过客户端的更新功能,可以自动获取服务器的最新业务规则和上报状态信息,并对客户端桌面数据库中的数据进行备份和查询统计。4)后台批量数据导入 批量导入方式提供后台批量数据集中存储的功能,系统管理人员可以将符合要求的数据上传到服务器系统,指定目录完成导入工作。批量导入数据采集流程:系统管理员将上报方上报的数据整理成符合要求的数据文件,存储在离线介质上。
服务端获取存储介质的离线数据,进行验证和导入操作。在反馈库中记录导入结果的状态。结论 数据采集平台对于业务应用系统相互隔离,软件产品系统不兼容,尚未完成企业应用系统集成的企业也可以尽快实*敏*感*词*卫东, 张葛祥.中国商业智能的现状与发展.科技进步与对策, 2012(2).
解决方案:任正非最新讲话透露:华为在加快开发统一的人工智能平台
编者按:本文来自华为心声社区,36氪授权发布。
在人工智能方面,华为最有资格也最容易找到感觉的无疑是在GTS(全球技术服务)领域。
毕竟,“先吃自己的狗粮,自己生产的降落伞先跳”,总比看远方好。当然,这只是做事方法的问题。从战略角度看,GTS人工智能对华为意义重大。
华为总裁任正非曾阐述GTS与人工智能的战略关系,“为什么要聚焦GTS,首先在服务领域发展人工智能的能力?对于越来越大、越来越复杂的网络,人工智能是key 是我们建设和管理网络最重要的工具,人工智能也应该关注服务的主渠道,所以人工智能的发展就是主渠道业务的发展,我们要从这个高度来看.如果人工智能支持GTS做好服务,五年后我们自己的问题就解决了,我们的人工智能又是世界一流的了。
任正非的逻辑是,未来网络的亚健康需要通过人工智能来解决,顺便收获人工智能这方面的技术和人才。
任正非也认为,人工智能是推动华为管理进步、筑起新长城的使能器。
不过,任正非一度对GTS的进展感到不满。2017年1月5日,在华为内部召开的GTS高管*敏*感*词*上,任正非有些气愤,忍不住说:过什么春节!
2017年1月7日,任正非在GTS人工智能应用研讨会上明确了三点要求:一是要实现高质量的数据输出;敢于在网络规划、网络优化等关键场景投入;率先打好简化工程勘察和自动化设计的歼灭战。
半年过去了,现在情况如何?
2017年8月29日,华为召开GTS人工智能实践进展专题汇报会。虽然GTS机器学习取得了长足的进步,但任正非在会上还是提醒,一定要重视数据的录入和采集
。智能化和自动化的源头,甚至为此“关注配送服务流程和人员思维和行为模式的改变”。
数学算法无疑是华为的核心优势。华为希望形成算法专家、产品线专家、GTS业务专家的混合阵营,共同识别AI在实际场景中的应用机会,理解业务场景,设计算法模型,优化算法效果。
会议还透露,华为正在加速开发统一的人工智能平台,部署统一的人工智能训练环境。
附:任正非讲话全文
任正非GTS人工智能实践进展
发布会上的讲话
" />
2017 年 8 月 29 日
1、聚焦内部效率提升,利用人工智能改变运营模式,简化管理,结合业务场景解决一线实际问题。
人工智能的核心在于应用。GTS以人工智能为工具,研究海量重复性活动的智能自动化,提高人类效率,辅助人类工作。从你的探索来看,实践经验很重要。
在推进人工智能和自动化的过程中,要关注配送服务流程和人员思维、行为模式的变化。如果还是老一套的思维方式,不注重数据的录入和采集
,我们的人工智能和自动化就会失去源头。同时,我们也要看清楚人工智能是一个不断进化迭代的过程,大家在推广过程中要冷静,不断完善。关键是要专注于数据治理和平台架构设计,确保我们在正确的方向上,并在正确的方向上加快迭代,小步快跑。
首先,使用人工智能来简化站点操作并自动化设计和报告。同时,结合产品线构建免安装、免调试网络。
我们在全球拥有 460 万个站点,每年运营 100 万个站点。任何网站运营都是有成本的。通过建设工地信息数据库,开发工地三维扫描能力,简化工地勘察,大大节省工地填表时间。将来,可以进一步简化数据输入。捆绑了一个好的语音系统。*敏*感*词*工作完成后,*敏*感*词*操作完成后会自动生成表格,然后在家稍微修改一下表格即可完成送货工作。
基站设计方案有多种模型。现在使用机器学习实现基站连接图和配置参数的自动生成,降低了对现场工程师的要求。面向未来,我们需要在设备型号标准化、免安装、免调试方面进行研究。5G时代万物互联,能不能先把我们的基站连起来?我们有多少荒山野山遗址?应该在数百万。可以请快递小哥骑摩托上山,挂上基站,打开电源,所有无线设备自动连接,减少失误,节省人工。
质检只需要拍照,通过与标准图对比,分包商在现场安装就可以检查安装质量,一次把事情做对,避免多次到现场,节省工时,提高效率 。不要小看节省的 1~2 小时。这是一个要点。如果有几十万站可以推广,乘以系数,就有几十万的规模效益。
二是网络规划和网络优化要敢于应用地理、测绘、数学等先进技术和新的商业模式。只要能提高效果,我都会用。
基于数据、算法和成本的影响,网络规划和网络优化选择人工智能突破口,通过“分析机器人”提高人员效率,在无线干扰分析、天馈系统方向角优化等方面加强人工智能技术的引入和调整等,提高无线网络优化规划效率,而基于产品数据的虚拟路测是一个方向,不用路测就知道网络的信号状态,一个城市节省3000公里的路测,十几个城市相当于绕地球一圈。
人工智能的理论都是人类的宝藏,可供我使用,而不仅仅是我们的理论。网络规划和网络优化是一个数据业务,人工智能也容易带来收益,所以要敢于招收一些统计学、系统工程、哲学、遥感、遥测等方面优秀的博士、硕士,就像我当年 就像要求招聘一些地理测绘专业的人员。只要修行两年,自然就会明白。
第三,万亿存量是我们的优势。我们不断积累小样本,维护模式要从被动的问题处理转变为主动的预测和预防,并进一步反馈到制造和产品设计,形成改进闭环。
面对海量的、确定性的重复性工作,逐步收敛复杂、数万种场景,通过表格、建模等方式不断总结提炼经验。就像小时候一样,一个巨大的数码设备,一旦出了问题,灯就会一闪一闪的。从闪烁的灯光中,我可以慢慢看出它集中在哪个区域,然后再看电路。我判断是电阻坏了,再开机。修好了,这是小样本!这些小样本提供给大家,大家可以总结总结到一个理论层面,就是故障模型。
维护的最终模式应该从被动处理问题转向预测和预防。在问题处理方面,我们至少可以丰富问题经验库。谁暴露的问题最多,解决得最好,也可以提供小额奖励。在预测和预防方面,通过障碍物发现的芯片、批次等相关问题,应进一步反馈到公司制造部门和产品设计流程,从源头上提高设备的稳健性。
2、围绕业务,继续加大对GTS数据系统、AI算法和AI赋能平台的投入。
首先,行为即记录,记录即数据,构建并不断完善GTS数据体系。
" />
数据是一门科学,是人工智能的基础。我们要借鉴行业做得好的方法。随着运营活动的进行,GTS将运营过程、对象、规则和体验数字化,不断完善GTS数据体系。每个产品线也必须将自己的产品数字化,这是服务数字化的基础。要加强云平台基础设施建设,丰富个人数据采集工具,为每位员工配备一台数据采集器。员工在现场完成工作后,可以返回工位进行处理,一键发送。
以数据促建设,以表格、建模等方式输出作业数据,以高质量的作业数据输出作为作业完成度的衡量标准。要对工程师输出高质量的运营数据形成牵引力,形成引导和模板。
第二,算法要为业务服务。算法科学家与熟悉服务场景的工程师紧密合作,提升他们在服务客户战场上的能力。
人工智能的应用是一门实践科学,在实践和应用中迭代进步,效果不是一蹴而就的。在实践初期,即使算法达不到高级工程师的水平,也要持之以恒地使用,以人为主,机器为辅,不断训练和完善算法。
人工智能开发方面,算法专家、产品线专家与GTS业务专家组成混编,共同识别AI在实际场景中的应用机会,理解业务场景,设计算法模型,优化算法效果。
三是加快公司人工智能统一平台建设,2018年在GTS率先实践应用。
开发公司统一的人工智能平台,部署统一的人工智能训练环境,在GTS率先实践应用,固化GTS在站点运营、网络维护、网络等领域积累的算法、知识、方法和经验规划和网络优化。在平台上。
人工智能平台在GTS的应用急需抢先使用,小步快跑,着眼于一个一个解决业务场景,选择与场景相匹配的相对成熟的算法,快速构建数据处理和数据处理等工程能力。模型训练,边战斗边优化。并于2018年将该平台部署在GTS系统上。
3、未来人工智能将在内部横向扩展,与周边部门合作产生倍增效益;客户界面升级服务内容将在设备和网络的生命周期内创造更大的价值。
首先,自动化也是人工智能。如果提升一个点,可能会有几十万个关注点可以提升,就会有几十万倍的收益。
跨领域推广也要有长处。通过数据的互联互通和业务的交叉整合,可以对公司的多个部门进行精简。比如金融梳理了100多个人工智能的点,其中有一些是和GTS交互的。例如,项目会计需要开具*敏*感*词*。GTS可以以此为起点向金融横向发展。
坚定不移地推进一些确定性工作的自动化、智能化,减少重复劳动。我们不能总是强调人工智能对模糊问题的判断和处理,对于确定性问题何尝不是呢?自动化也是人工智能。提高一点,乘以系数,可能会有几十万倍的收益。所有GTS人员都应该实验性地“洗澡”,部分人会在循环中变得更加强大,从而产生新的工作方式,大大提高工作效率。
二是在自身实践成功的基础上,利用数据和智能技术升级服务内容,构建在线服务模式,解决客户挑战。
依托万亿存量数据优势,完善自我管理的循环实践,打造全球智能网络大平台。平台的能力将以服务的形式向客户开放,服务内容将延伸到设备和网络的全生命周期,解决客户的挑战。与此同时,华为也获得了好处。
能否根据流量预测和动态变化进行准确的网络规划选址?百万台设备无法24小时高速开机。如果可以根据流量动态设置产品的能耗,是否可以大大提高网络和能源效率?在更远的未来,预防和预测能力是否可以扩展到全网,自然灾害和重大事件带来的挑战可以预见性地应对。
如果我们抓住这些机会,升级服务内容,就可以通过在线服务等方式,在网络的全生命周期为客户持续创造价值。