文章采集平台( 大数据从哪里来、应去服务谁,看完这个才知道!)

优采云 发布时间: 2021-09-16 22:27

  文章采集平台(

大数据从哪里来、应去服务谁,看完这个才知道!)

  

  一、数据来自何处,应向谁提供服务?读了这篇文章你就会知道了

  业界对大数据的解读多种多样,互联网和微信文章上也有很多“一图通大数据”,但这些文章中的大多数都是从技术角度进行分析的。更重要的是,在阅读了许多“一张图片”之后,它是一张充满各种标识的图片,仍然没有清晰地解释大数据

  长期在LinkedIn担任数据科学家、有多年大数据实践经验的张喜萌,根据自己多年的经验总结出一套大数据框架。张喜萌表示,在这个大数据结构中,贯穿整个过程的不再是技术和业务,而是客户

  客户是大数据的来源,也是大数据服务的终点。在此框架中,数据分析的基本框架向下扩展,从客户开始,到用户结束

  1.大数据框架

  

  2.统一大数据平台

  “我们现在最缺乏的是一个统一的大数据采集平台”

  张喜萌说,“大数据,大数据,最重要的是数据。但是数据在哪里?这是关于大数据框架的第一个需要明确的问题。”因此,张喜萌认为,在企业的大数据框架中,最重要的部分是大数据的原创数据采集层

  这基本上包括三个层次。最外层是用户,其次是在公司运营中生成数据的各种业务应用系统(如ERP、CRM、SCM、OA等企业应用软件)、网站、app、社交网络、电子商务平台等,其上是各种数据的采集平台

  有人说,大数据就是石油,它深深地埋在地下。大数据采集相当于原油的发现。它在企业中的地位非常重要。它是我们大数据分析和洞察的基础。它是企业的数据资产

  张喜萌表示,用户是企业大数据最重要的来源。用户周围的所有数据都是企业最重要的数据

  现在称为“互联网+”,其实质是实现与用户的连接。事实上,如何与用户联系?可以采集和管理与用户相关的数据,这是连接的重要表现之一

  因此,数据采集的一个重要方面是采集与用户相关的数据。当然,除了用户数据外,与企业经营管理、政府、电商平台、社交网络等第三方数据相关的各种数据也是非常重要的大数据源

  信不信由你,数据就在那里;不管你是否使用它,数据就在那里!张喜萌认为,大数据在企业中无处不在。“我们现在最缺乏的不是数据,而是一个统一的数据采集平台

  3.从ETL到ELT

  在数据采集出现之后,就是所谓的海量数据的提取、转换和加载,即ETL

  “传统的数据分析认为ETL是在数据采集之后进行的,但现在它已成为ELT。未来可能只有没有T的El,甚至到最后,El也会合并在一起,没有功能划分。”张喜萌说,这是他们在LinkedIn上多年实践探索后的新思维

  为什么会有这样的变化

  张喜萌说,这主要是因为以前的存储、计算和传输成本都很高,而数据处理需要时间来交换空间

  因此,当时的关键技术是对原创的非结构化数据进行结构化转换,减少数据压缩,节省存储空间,从而形成所谓的ETL模型。然而,很明显,在这个模型中存在着一个不可避免的问题,即ETL过程需要大量的时间。互联网时代是一个快鱼吃慢鱼,企业需要实时了解,各种数据需要实时响应,耗时的ETL模式显然不能适应当前的时代潮流

  因此,当时LinkedIn数据科学家提出,为了实现实时响应,加载和转换的顺序可以颠倒,也就是说,可以将其转换为ELT

  这可以大大节省数据处理时间。张喜萌表示,美国在三、四年前就完全实现了英语教学,而中国才刚刚开始进入这一转型。此外,张喜萌认为,成为英语教学后还有改进的空间,也就是说,没有必要进行转换。只有英语教学,甚至英语教学,才会被采用集成,即最终实现功能集成

  ELT之后,我们经常看到数据仓库,包括各种EDW和ODS,大数据需要在这里完成结构化存储、处理、分析引擎等服务

  4.是分析前的bi还是分析后的bi

  在数据仓库之上,还有我们通常称之为Bi的东西

  张喜萌表示,Bi实际上包括两个层面:分析和Bi,分析主要是对数据进行高维分析,而Bi主要是提供数据透视和呈现,“在大数据时代,这两个层面也有巨大的变化。bi是先分析还是bi先分析?这是一个问题。”

  过去,基本上是先做Bi,然后再做分析

  目前,国内绝大多数企业都是这样做的。大多数企业将Bi与数据仓库中存储的数据结合起来,用于报表分析、报表制作等。更重要的是,这种工作一般委托给IT部门,这使得Bi成为一项技术性工作。因此,现在很多企业都拥有大量的Biit研发人员开发报告。这种做法带来了巨大的挑战“分析前的Bi”的最大问题是使用数据的人不是制作数据的人,而制作数据的人也不是使用数据的人

  张喜萌表示,很多人认为报告是分析的结果,但事实并非如此。报告越多,越有价值。IT人员的优势在于技术而不是业务。当他们负责报告时,他们会专注于制作越来越多的报告,不管使用什么和谁使用它们

  事实上,由于报表和分析人员对业务不了解,很多数据在形成报表甚至完成分析后都不能满足业务人员的需求,甚至有些数据经过审核后,提交给各级决策者,发现有错误,需要重新调用rk再次出现,因此整个分析周期被延迟

  现在,高级方法是将Bi与分析交换,即首先分析Bi,分析工作应由熟悉业务的数据科学家进行

  张喜萌认为,通过数据仓库的数据与分析的直接结合,我们可以通过相关的分析技术和工具,直接选择具有商业价值的数据,然后通过Bi快速扩展其商业价值,其优点是使用数据的人在分析数据,并且快速使全公司相关人员实时看到分析结果,及时录入决策

  通过这种交流,报表的生成量将大大减少,这样it人员就不必花费大量时间开发报表,可以大大提高数据分析部门的工作效率,满足当今数据分析需求的激增

  5.“输出洞察、输出决策、输出值”

  经过分析和Bi,谈到如何充分发挥数据的价值,张喜萌认为,这主要包括DM(数据挖掘)、AI(人工智能)、洞察、决策、行动、价值等阶段

  数据挖掘和人工智能通过高超的技术手段实现自动机器学习,从而在大数据分析处理后,自动向企业管理者和相关员工输出有见地的发现,并根据这些见地和发现给出决策建议和行动建议,从而最终帮助他们企业实现价值,满足客户需求

  张喜萌认为,大数据框架最终应着眼于帮助企业为客户提供价值,而不应局限于技术本身,只有很好地实现洞察、决策和行动,才能真正实现大数据的价值,达到提高公司效率的目的以及通过大数据实现的业务增长

  6.“底部为高频低值,顶部为高-低值”

  从客户、业务系统、数据采集、数据仓库、分析、Bi、DM、AI、洞察力、决策、行为、价值,最后回到客户,这在张喜萌眼中构成了一个不同的大数据框架

  张喜萌表示,在实践中,他还发现,在这个大数据分析框架中,越接近底部,所需时间就越多,而框架顶部的决策时间非常短;从价值频率来看,顶部是低频、高价值,底部是高频、低价值

  因此,实现低效部件的全方位自动化,实现一站式大数据服务,是大数据技术的一个重要发展方向

  这是张喜萌回国建立growingio的重要方向,张喜萌希望growingio能够成为他在大数据领域创新的载体,将国外大数据领域的最新理念和技术引入中国

  一,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线