解读:一篇对大数据深度思考的文章，让你认识并读懂大数据

　　在写这篇文章之前，我发现我身边的很多IT人往往都渴望这些热门的新技术和新趋势，但很难说透彻，如果你问他大数据和你有什么关系？估计很少能说出一、二、三的名字。原因是每个人都对新技术有着同样的原创

渴望，至少他们在聊天时看起来并不“脏”;其次，工作和生活环境中能够真正参与大数据实践的案例太少，所以没有必要让大家花时间去了解原因。

　　我希望有些不同，所以我考虑了如何理解大数据，包括查阅数据和

　　翻阅最新的专业书籍，但我不想简单地整理堆积那些零散的数据碎片或不同的理解，形成毫无价值的释义或评论，我真诚地希望进入事物来探索本质。

　　如果你说大数据就是大数据，或者谈论

　　4 Vs，也许很深入地谈谈BI的价值或者预测，或者以谷歌和亚马逊为例，技术流可能谈论Hadoop和云计算，无论是对还是错，就是无法勾勒出对大数据的整体理解，不是片面的，但至少是一些猜测，衬衫痒痒的。或许，“解构”才是最好的方式。

　　如何构建大数据？

　　首先，我认为大数据是互联网发展的一种表象或特征。

　　现阶段，没有必要去神话它，也没有必要对它保持敬畏，在以云计算为代表的技术创新大幕下，这些原本难以采集

和使用的数据开始变得容易使用，通过各行各业的不断创新，大数据将逐渐为人类创造更多价值。

　　其次，想要系统的认知大数据，必须全面细致地分解它，我着手从三个层面进行扩展：

　　第一个层次是理论，这是认识的必要途径，也是广泛认识和传播的底线。我将从大数据的特征定义来理解行业对大数据的整体描述和表征;从对大数据价值的讨论中，我们可以深入分析大数据的可贵性;从大数据的现状和未来洞察大数据的发展趋势;从大数据隐私的特殊性和重要角度出发，审视人与数据的长期博弈。

　　第二个层次是技术，它是大数据体现价值的手段和基石。我将解释大数据从采集

、处理、存储到形成云计算、分布式处理技术、存储技术和感知技术发展的结果的全过程。

　　第三个层次是实践，这是大数据的终极价值体现。我将从互联网大数据、政府大数据、企业大数据和个人大数据四个方面描绘大数据所展现的美好场景和将要实现的蓝图。

　　大数据相关理论

　　功能定义

　　最早提出大数据时代到来的是麦肯锡：“如今，数据已经渗透到每个行业和业务功能领域，成为重要的生产要素。大量数据的挖掘和使用预示着新一轮的生产率增长和消费者剩余。"

　　业界（最早定义IBM）将大数据的特征概括为4个“V”（体积、品种、价值值、速度），或者有四个层次的特征：一是数据量巨大。大数据的起始测量单位至少是P（1000 T），E（100万T）或Z（10亿T）;其次，数据类型多种多样。例如，网络日志、视频、图像、地理位置信息等。三是价值密度低，商业价值高。第四，处理速度快。最后一点也与传统的数据挖掘技术有着根本的不同。

　　事实上，这些V并不能真正解释大数据的所有特征，下图有效地解释了大数据的一些相关特征。

　　俗话说：技术三分，数据七分，谁得到数据谁就赢天下。谁说的并不重要，但这句话的正确性就不用争论了。Victor Meier-Schönberg在《大数据时代》一书中举了数百个例子，都说明了一个道理：当大数据时代到来时，我们必须用大数据思维来探索大数据的潜在价值。在书中，作者提到最多的是谷歌如何利用人们的搜索记录来挖掘数据的二次使用价值，比如预测某个地方流感爆发的趋势;亚马逊如何利用用户的购买和浏览历史数据，做出有针对性的购书推荐，有效提升销量;Farecast如何在过去十年中使用所有航线的折扣机票来预测用户是否会在正确的时间购买机票。

　　那么，什么是大数据思维？根据维克多·迈耶-勋伯格的说法，1 - 需要整个数据样本而不是采样;2-注重效率而不是精度;3-关注相关性而不是因果关系。

　　阿里巴巴的王健对大数据也有一些独到的见解，比如

　　“如今的数据不大，真正有意思的是数据已经上线，这正是互联网的特点。”“产品在非互联网时期的功能一定是它的价值，而今天互联网的产品，数据一定是它的价值。“你不想使用数据来改善业务，这不是大数据。你一定做了以前做不到的事情。"

　　特别是最后一点，我非常同意大数据的真正价值在于创造，在于填补无数尚未实现的空白。

　　有些人将数据比作含有能源的煤矿。煤炭按其性质分类，如炼焦煤、无烟煤、脂肪煤、贫煤等，而露天煤矿和深山煤矿的开挖成本不同。同样，大数据不是“大”，而是“有用”。价值内容和挖矿成本比数量更重要。

　　阿拉伯数字

　　价值讨论

　　什么是大数据？投资者眼中闪耀着两个词：资产。例如，当Facebook上市时，评估人员评估的大部分有效资产都是其社交网站上的数据。

　　如果把大数据比作一个行业，那么这个行业盈利的关键在于提高数据的“处理能力”，通过“处理”实现数据的“增值”。

　　目标

　　超市以孕妇在孕期可能购买的20多种产品为基础，以所有用户的购买记录为数据源，通过构建模型分析购买者的行为相关性，可以准确推断出怀孕的具体时间，以便Target的销售部门在每位怀孕顾客的不同阶段发送相应的产品优惠券。

　　塔吉特的例子就是一个很好的例子，证实了维克多·迈耶-勋伯格（Victor Meier-Schönberg）提出的一个有说服力的观点：通过识别关联并对其进行监控，可以预测未来。Target通过监控买家购买商品的时间和类型来准确预测怀孕时间，这是二次使用数据的典型例子。如果，通过从驾驶员的手机采集

GPS数据，我们可以分析出哪些道路目前堵车，我们可以及时发出*敏*感*词*提醒;通过采集

汽车的GPS位置数据，可以分析出城市的哪些区域有更多的停车位，这也意味着该地区有更多的活跃人群，这些分析数据适合出售给广告商。

　　无论大数据的核心价值是否

　　无论预测与否，基于大数据形成决策的模型为许多企业带来了利润和声誉。

　　从大数据价值链的分析来看，有三种模式：

　　大数据在手，但利用不好;比较典型的是金融机构、电信业、政府机构等。没有数据，但知道如何帮助拥有它的人利用它;典型的是IT咨询和服务公司，如埃森哲，IBM，甲骨文等。既有数据思维，也有大数据思维;比较典型的是谷歌、亚马逊、万事达卡等。

　　未来在大数据领域最有价值的是两件事：

　　具有大数据思维的人，能够将大数据的潜在价值转化为实际收益;没有业务领域尚未被大数据触及。这些是未开发的油井，金矿，所谓的蓝海。

　　沃尔玛作为零售业的巨头，他们的分析师会对每个阶段的销售记录进行全面分析，一旦他们意外发现虽然无关紧要但非常有价值的数据，在美国飓风季节，蛋挞和抗飓风商品在超市的销量大幅增加，于是他们做出了明智的决定，将蛋挞的销售地点移到了飓风的一边。商品销售区，看似是为了方便用户选择。但没想到蛋挞的销量因此增加了不少。

　　另一个有趣的例子是，1948年辽沈战役期间，司令员林彪要求每天例行的“军事情报日报”，由值班参谋宣读下属各纵队、师、团的*敏*感*词*报的战情和俘虏情况。这几乎是重复同样无聊的数据：每个单位歼灭了多少敌人，俘虏了多少俘虏;有多少火炮、车辆、*敏*感*词*支、物资...一天，参谋照例汇报当天的战情时，林彪突然打断他：“你刚才听到胡家棚屋里打仗的消息了吗？大家都不知所措，因为这样的战斗每天都有几十场战斗，不都是几乎一模一样的无聊数字吗？林彪扫了一遍，见没人回答，于是连问了三个问题：“为什么那里缴获的短*敏*感*词*和长*敏*感*词*的比例比其他战斗略高？为什么那里的手推车与被俘虏和摧毁的手推车的比例略高于其他战斗？为什么在那里被俘和阵亡的军官与士兵的比例略高于其他战斗？林彪司令大步走到挂满军事地图的墙前，指着地图上的点说：“我猜，不，我决定！敌人的指挥所来了！果不其然，部队很快俘虏了敌人的指挥官廖耀祥，并赢得了这场重要的战斗。

　　这些例子真实地体现在各行各业，对数据价值的追寻取决于掌握数据的人，关键是人的数据思维;与其说大数据创造价值，不如说大数据思维引发了新的价值增长。

　　现在和未来

　　让我们先来看看大数据在今天是如何做的：

　　大数据助力政府实现市场经济调控、公共卫生安全防范、灾害预警、舆情监督;

　　大数据帮助城市预防*敏*感*词*，实现智慧交通，提升应急能力。

　　大数据帮助医疗机构建立患者疾病风险跟踪机制，帮助药企改善药物临床使用，帮助艾滋病研究机构为患者提供定制化药物。

　　大数据帮助航空公司节约运营成本，电信公司提高售后服务质量，保险公司识别欺诈和保险欺诈，快递公司监控和分析运输车辆故障提前预警维修，电力公司有效识别和预警即将发生故障的设备。

　　大数据帮助电商企业向用户推荐商品和服务，帮助旅游网站为游客提供自己喜欢的旅游路线，帮助二手市场的买卖双方找到最合适的交易标的，帮助用户找到最合适的购买期、商家和最优惠的价格。大数据帮助企业提高

　　营销针对性，降低物流和库存成本，降低投资风险，帮助企业提高广告精准度;

　　大数据帮助娱乐行业预测歌手、歌曲、电影、电视剧的热度，为投资者分析评估拍一部电影最合适的钱是多少，否则可能无法收回成本;

　　大数据帮助社交网站提供更精准的好友推荐，为用户提供更精准的企业招聘信息，推荐用户可能喜欢的游戏和适合购买的产品。

" />

　　其实这些还远远不够，大数据的身影在未来应该无处不在，即使无法准确预测大数据最终会给人类社会带来哪种最终形态，但我相信，只要发展步伐继续下去，大数据引发的变革浪潮很快就会淹没地球的每一个角落。

　　比如亚马逊的终极期望是：“最成功的图书推荐应该是唯一的书，也就是用户会买的下一本书。"

　　谷歌

　　同样希望用户搜索的最佳体验是搜索结果只收录

用户需要的内容，而这并不需要用户给Google太多提示。

　　当发展

　　物联网达到一定规模，借助条码、二维码、RFID等唯一标识产品，传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可以实现信息的实时采集和分析，这些数据可以支撑智慧城市、智慧交通、智慧能源、智慧医疗、智慧环保等概念需求，这些所谓的智慧，就是大数据数据源的集合和服务范围。

　　除了更好地解决社会问题、商业营销问题、科技问题外，未来的大数据政策也将出现可预见的以人为本的大数据政策趋势。人才是地球的主人，大部分数据都与人类有关，需要通过大数据解决人类的问题。

　　比如建立个人数据中心，整合大家的日常习惯、身体体征、社交网络、智力、爱好气质、疾病爱好、情绪波动......换句话说，一个人从出生的那一刻起的每一分每一秒都被记录下来，除了头脑之外的一切都被存储起来，这些数据可以得到充分利用：

　　当然，以上一切看起来都不错，但前提是牺牲用户的自由吗？只能说，新事物带来创新的同时，也带来了“萌芽”。比如在手机普及之前，大家都喜欢聚在一起聊天，自从手机普及，尤其是有了互联网，大家不需要聚在一起就可以随时随地聊天，但“病菌”滋生了另一种情况，大家慢慢习惯了与手机共度时光，人与人之间的情感交流似乎永远被一个“网络”隔开了。

　　大数据隐私

　　您可能不敏感，当您在不同网站上注册个人信息时，可能已经扩散，当您莫名其妙地收到各种电子邮件、电话、短信滋扰时，您不会想到您的电话号码、邮箱、生日、购买记录、收入水平、家庭住址、亲友等私人信息早已被各种商业组织非法存储或出售给任何其他有需要的企业或个人。

　　更可怕的是，你永远无法删除这些信息，它们将永远存在于互联网的某个你不知道的角落。除非您替换所有信息，否则成本太高。用户隐私

　　问题一直是大数据应用中难以绕开的问题，如央视曝光的焦点无线、洛威邓白氏、网易邮箱等，都涉及侵犯用户隐私。目前，我国没有专门的法律法规来定义用户隐私，其他相关法律法规多用于解释相关问题。然而，随着公众隐私意识的提高，合法和合规地访问数据，数据分析和应用数据是进行大数据分析时必须遵循的原则。

　　说到隐私被侵犯，爱德华？斯诺登应该为这位前中央情报局雇员提供一席之地，他单*敏*感*词*匹马地引爆了有关美国棱镜计划的内部信息。Project Prism是自2007年以来由国家安全局（NSA）运营的绝密电子监视计划，每年花费近2000亿美元来监控美国各地的电话记录，据称允许情报人员访问九家主要科技公司的服务器，包括微软，雅虎，谷歌，Facebook，PalTalk，AOL，Skype，YouTube和苹果。这一事件引发了人们对政府使用大数据时侵犯公民隐私的担忧。

　　环顾四周，当微博、微信、QQ空间这些社交平台肆意吞噬数亿用户的各种信息时，你不要指望你有隐私，即使你删除了某处，但也许这些信息已经被别人复制或保存了，更有可能被百度或者谷歌保存成快照，早就提供给任何用户搜索。

　　因此，在大数据的背景下，很多人都在积极抵制无底洞的数字化，这场大数据与个人的博弈将永远持续下去......

　　专家就如何在大数据背景下有效保护隐私给出了一些建议：

　　减少信息的数字化;隐私立法;数字隐私基础设施（类似于DRM数字版权管理）;人类改变认知（接受忽略过去）;打造良性信息生态;语境化。

　　但这些都不是立即有效或实质性改善的。

　　例如，现在有一个职业叫做帖子编辑，专门负责帮助人们删除帖子和删除主要网站上的评论。实际上，这些人正在入侵主要网站，破解管理员的密码，然后手动删除它。只是他们不保护客户的隐私，而主要是丑闻。还有一个职业叫做人肉专家，他们负责从互联网上查找与他们无关的用户的任意信息。这是一件可怕的事情，也就是说，如果有人想找到你，只需要两个条件：1-你一直在互联网上并留下了痕迹;2-您的朋友和家人或只是认识您的人一直在互联网上并留下了您的踪迹。如果满足这两个条件之一，人类动物学家可以很容易地找到你，并可能知道你在餐厅和谁共进晚餐。

　　当很多互联网公司意识到隐私对用户的重要性时，为了继续获得用户的信任，他们采取了许多措施，比如谷歌承诺只保留用户的搜索记录9个月，浏览器厂商提供隐身冲浪模式，社交网站拒绝来自公共搜索引擎的爬虫进入，所提供的所有数据都将匿名处理。

　　在这种复杂的环境下，很多人仍然没有树立信息隐私的保护意识，让自己处于被骚扰、精心设计、使用、监控的境地。然而，我们几乎无能为力，因为个人隐私数据不再受我们控制，正如一首诗所说：“如果你现在继续麻木，那么不要指望这种麻木能承受被”剥离“那一刻的恐慌和绝望”

　　大数据相关技术

　　云技术

　　大数据通常与云计算相关联，因为对大型数据集的实时分析需要一个分布式处理框架将工作分配给数十、数百甚至数万台计算机。可以说，云计算起到了工业革命引擎的作用，而大数据就是电。

　　云计算思想的起源是由麦卡锡在 60 年代提出的：作为水和电一样的公用事业为用户提供计算能力。

　　如今，在谷歌、亚马逊、Facebook等一批互联网公司的带领下，出现了一种有效的模式：云计算提供了一个基础设施平台，大数据应用运行在这个平台上。

　　业内人士这样描述两者的关系：没有大数据信息的积累，云计算的算力再强大，也很难找到用处;没有云计算的处理能力，大数据的信息积累再丰富，也终究只是一面镜子。

　　那么大数据需要哪些云计算技术呢？

　　以下是一些示例，例如虚拟化技术、分布式处理技术、海量数据存储和管理技术、NoSQL、实时流数据处理、智能分析技术（类似于模式识别和自然语言理解）等。

　　云计算与大数据的关系可以用下图来说明，两者的结合会产生以下效果：它可以基于海量业务数据提供更多创新的服务;通过云计算技术的不断发展，降低大数据业务的创新成本。

　　如果将云计算与大数据进行比较，最明显的区别在于两个方面：

　　分布式处理技术

　　分布式处理系统

　　可以将不同位置或具有不同功能或具有不同数据的多台计算机与通信网络连接起来，在控制系统的统一管理和控制下协调完成信息处理任务——这就是分布式处理系统的定义。

　　以Hadoop为例（Yahoo

　　）以Yahoo为例，Hadoop是一个软件框架，它实现了MapReduce模式，对大量数据进行分布式处理，这些数据以可靠，高效和可扩展的方式进行处理。

　　MapReduce是一种核心计算模式

　　谷歌提出的云计算，是一种分布式计算技术，也是一种简化的分布式编程模型，MapReduce模式的主要思想是将要执行的问题（如程序）自动拆分为map（map）和reduce（简化）的方式，数据被拆分后通过map函数程序将数据映射到不同的块中，分配给计算机队列进行处理以达到分布式计算的效果，结果通过Reduce功能在程序中聚合，从而输出开发人员所需的结果。

　　首先，它是可靠的，因为它假设计算元素和存储将发生故障，因此它维护工作数据的多个副本，以确保处理可以在故障节点之间重新分配。其次，Hadoop是高效的，因为它并行工作，通过并行处理加快处理速度。Hadoop也是可扩展的，能够处理PB级的数据。此外，Hadoop依赖于社区服务器，因此成本相对较低，任何人都可以使用。

　　你也可以这样理解Hadoop的组成，Hadoop=HDFS（文件系统、数据存储技术相关）+HBase（数据库）+MapReduce（数据处理）+...别人

　　Hadoop中使用的一些技术是：

　　说了这么多，举个实际的例子，虽然这个例子有点老旧，但淘宝的海量数据技术架构还是能帮助我们理解大数据的运行和处理机制：

　　淘宝大数据如上图所示，

　　淘宝的海量数据产品技术架构分为五个层次，从上到下分别是：数据源层、计算层、存储层、查询层和产品层。

　　存储技术

　　大数据可以抽象地分为大数据存储和大数据分析，两者的关系是：大数据存储的目的是支持大数据分析。到目前为止，计算机技术已经是两个截然不同的领域：大数据存储致力于开发可扩展到PB甚至EB的数据存储平台;大数据分析专注于在最短的时间内处理大量不同类型的数据集。

　　说到存储，有一个著名的摩尔定律，我相信每个人都听说过：集成电路的复杂性在18个月内翻了一番。因此，内存成本大约每 18-24 个月下降一半。成本下降也使大数据可存储。例如，谷歌

　　管理着超过50万台服务器和100万个硬盘，谷歌也在不断扩大计算能力和存储容量，其中很多都是基于廉价的服务器和普通存储硬盘，大大降低了其服务成本，因此可以在技术研发上投入更多的资金。

　　就亚马逊而言，Amazon S3是一种面向互联网的存储服务。该服务旨在使开发人员更容易进行网络规模的计算。Amazon S3 提供了一个简洁的 Web 服务界面，允许用户随时随地在 Web 上存储和检索任何大小的数据。该服务使所有开发人员都可以访问亚马逊用于运行其全球网站网络的相同可扩展、可靠、安全和快速成本的基础设施。考虑 S3 的设计指标：给定年份中对象的 99.9999999999% 的持久性和 99.99% 的可用性，以及承受两个设施的数据丢失的能力。

　　S3 已经成功并且确实有效，S3 云中有数万亿个存储对象，并且性能相当不错。S3 Cloud已经跨区域存储了数万亿个对象，AWS的对象执行请求已达到100万个的峰值。全球已有数十万家企业通过 AWS 运行其全部或部分日常业务。这些业务遍布 190 多个国家/地区，亚马逊用户几乎遍布世界每个角落。

　　感知技术

　　大数据的采集

和传感技术的发展密切相关。基于传感器技术、指纹识别技术、RFID技术、坐标定位技术等感知能力的提升也是物联网发展的基石。世界各地的工业设备、汽车、电表上都有无数的数字传感器，它们随时测量和传输位置、运动、振动、温度、湿度，甚至空气中化学物质的变化，这将产生海量的数据信息。

　　随着智能手机的普及，感知技术可以

　　可谓是发展的巅峰，除了地理位置信息的广泛应用外，一些新的感知手段也开始出现在舞台上，比如最新的“iPhone 5S”在Home键中嵌入了指纹传感器，新手机可以直接检测呼气燃烧的脂肪量，手机的嗅觉传感器可以监测从空气污染到危险化学品，微软正在开发能够感知用户当前情绪的智能手机技术，谷歌眼镜InSight新技术使人能够通过服装进行识别。

　　此外，还有许多与感知相关的技术创新让我们精神焕发：例如，牙科传感器实时监测口腔活动和饮食，婴儿可穿戴设备可以使用大数据抚养婴儿，英特尔正在开发可以跟踪眼睛和读取情绪的3D笔记本电脑相机，日本公司正在开发可以监测用户心率的新型纺织材料，该行业正试图将生物识别技术引入支付领域。

　　事实上，这个过程

　　这些感知被逐渐捕捉，就是世界被数据化的过程，一旦世界完全数据化，那么世界的本质就是信息。

　　俗话说：“人类过去延续文明，现在继承信息。"

　　大数据的实践

　　互联网大数据

　　因特网上的数据每年增长50%，每两年将翻一番，而目前世界上90%以上的数据是最近几年才产生的。IDC预测，到2020年，全球将有35泽字节的数据。互联网是大数据发展的前哨，随着WEB 2.0时代的发展，人们似乎习惯于通过网络将自己的生活数字化，方便分享、记录和回忆。

　　互联网上的大数据很难明确界定分类边界，我们先来看看BAT的大数据：

　　在信息技术较为发达的美国，除了谷歌、Facebook等知名公司外，涌现出许多大数据公司，专门从事数据产品，如：

　　Metamarkets：这家公司分析Twitter，支付，签到和一些与互联网相关的问题，为客户提供出色的数据分析支持。

　　Tableau：他们的重点是可视化大量数据。Tableau 提供了一种为数字媒体呈现数据的新方法。他们提供了一个免费工具，允许任何没有编程背景的人创建特定于数据的图表。该软件还会分析数据并提供有价值的建议。

　　ParAccel：他们向美国执法机构提供数据分析，例如跟踪15，000名有*敏*感*词*记录的人，为执法机构提供信息丰富的*敏*感*词*预测。他们是罪的先知。

　　QlikTech：Qlikview是QlikTech的一个部门，是商业智能领域的自主服务工具，可以应用于科学研究和艺术等领域。为了帮助开发人员分析这些数据，QlikTech 提供了用于可视化原创

数据的工具等。

　　好数据

　　：GoodData希望帮助客户从数据中挖掘财富。该初创公司面向业务用户和IT高管，提供数据存储，性能报告，数据分析等工具。TellApart

　　：TellApart与电子商务公司合作，分析用户浏览行为等数据，通过定位潜在买家来增加收入。DataSift

　　：DataSift采集

和分析社交媒体上的数据，帮助品牌掌握突发新闻论点并制定有针对性的营销计划。该公司还与Twitter建立了合作伙伴关系，使其成为业内为数不多的可以分析早期推文的初创公司之一。

　　Datahero：公司的目标是让复杂的数据更简单、更清晰，让普通人更容易理解和想象。

　　例子很多，这里简单总结一下，互联网上大数据的典型代表有：

　　用户行为数据（精准广告、内容推荐、行为习惯与偏好分析、产品优化等）用户消费数据（精准营销、信用记录分析、活动推广、财富管理等）用户

　　地理位置数据（O2O促销、商家推荐、交友推荐等）互联网金融数据（P2P、小额贷款、支付、信贷、供应链金融等）用户社交和其他UGC数据（趋势分析，流行元素分析，流行度分析，舆情监测分析，社会问题分析等）。

　　面向政府的大数据

　　最近，

　　奥巴马政府宣布投资2亿美元，推动大数据相关产业发展，将“大数据战略”提升为国家意志。奥巴马政府将数据定义为“未来的新石油”，并表示一个国家拥有数据的规模、活动、解释和使用的能力将成为综合国力的重要组成部分，未来，数据的拥有和控制甚至将成为国家除土地之外的另一项核心资产，海空力量。

　　在我国，所有政府部门都有构成社会基础的原创

数据，如气象数据、财务数据、信用数据、电力数据、燃气数据、自来水数据、*敏*感*词*数据、客运数据、安全刑事*敏*感*词*数据、住房数据、海关数据、出入境数据、旅游数据、医疗数据、教育数据、环保数据等。这些数据在每个政府部门内似乎是单一和静态的。但是，如果政府能够关联这些数据，并对这些数据进行有效的相关性分析和统一管理，这些数据必将重生，其价值不可估量。

　　具体来说，城市现在正朝着智能化、智慧智慧化、智慧化城市迈进，比如智能电网、智慧交通、智慧医疗、智慧环保、智慧城市，这些都依赖于大数据，可以说大数据是智慧的核心能量。从我国整体投资规模来看，到2012年底，全国城市数量将开始建设智慧城市，通信网络、数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间，智慧城市建设带动的设备投资规模将达到1万亿元。大数据为智慧城市的所有领域提供决策支持。在城市规划方面，通过挖掘城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息，为城市规划提供决策，增强城市管理服务的科学性和前瞻性。在交通管理方面，通过对*敏*感*词*信息的实时挖掘，可以有效缓解交通拥堵，快速应对突发事件，为城市交通良性运行提供科学决策依据。在舆情监测方面，通过网络关键词搜索和语义智能分析，可以提高舆情分析的及时性和全面性，全面掌握社会状况和舆情，提高公共服务能力，应对互联网突发公共事件，打击违法*敏*感*词*。在安防灾害领域，通过大数据挖掘，及时发现人为或自然灾害和恐怖事件，提高应急处置能力和安全防范能力。

　　此外，作为国家的管理者，政府应该有勇气逐步将手中的数据开放给更有能力的组织或个人进行分析和利用，以加速造福人类。比如美国政府建了一个网站，这是奥巴马总统任期内的重要一步：要求政府透明，核心是公开政府机构的数据。到目前为止，已经开放了91054个数据集;349个公民开发的应用程序;137个移动应用程序;175个机构和子机构;87个画廊;295个政府API。

　　面向企业的大数据

　　企业的CXO最关心的是报告曲线背后能有什么样的信息，他应该做出什么样的决策，其实这一切都需要数据的传递和支撑。在理想的世界中，大数据是一个巨大的杠杆，可以改变公司的影响力，区分竞争对手，省钱，增加利润，取悦买家，奖励忠诚用户，将潜在客户转化为客户，增加吸引力，击败竞争对手，扩大用户群，创造市场。

　　那么，哪些传统企业最需要大数据服务呢？我们举几个例子：1）向大量消费者提供产品或服务的企业（精准营销）;2）做中长尾企业（服务转型）的小而美典范;3）在互联网（生死攸关）的压力下必须转型的传统企业。

　　对于企业的大数据，

　　还有一个预测：随着数据逐渐成为企业的资产，数据产业将发展到传统企业的供应链模式，最终形成“数据供应链”。特别是，有两件事是显而易见的：1）外部数据比内部数据越来越重要。在互联互通的互联网时代，单个企业的内部数据与整个互联网数据相比只是沧海一粟;2）能够提供数据供应、数据集成处理、数据应用等多链路服务的企业将具有明显的综合竞争优势。

　　对于提供大数据服务的公司来说，他们正在等待合作的机会，正如微软史密斯所说：“给我一些数据，我可以做出一些改变。如果你把所有的数据都给我，我就能拯救世界。"

　　然而，一直做企业服务的巨头们不会有优势，他们不得不眼睁睁地看着新兴互联网公司加入战斗，开启残酷的竞争模式。为什么会这样？从IT行业发展来看，第一代IT巨头大多是ToB，如IBM、微软、甲骨文、SAP、惠普等传统IT企业;第二代IT巨头大多是ToC，如雅虎、谷歌、亚马逊、Facebook等互联网公司。在大数据到来之前，这两类公司基本互不逆河;但在当前大数据时代，这两类公司已经开始直接竞争。例如，亚马逊已经开始提供基于云的数据仓库服务，直接抢占了IBM和甲骨文的市场。这种现象出现的本质原因是：在互联网巨头的推动下，传统IT巨头的客户普遍开始从事电子商务业务，而正是因为客户进入了互联网，所以传统IT巨头才被不情愿地拖入互联网领域。如果他们不进入互联网，他们的业务就会萎缩。进入互联网后，必须将云技术、大数据等互联网最具优势的技术打包到自己的产品中，然后提供给企业。

　　例如，IBM在过去十年中已经放弃了PC，并成功转向软件和服务，这一次他们将远离服务和咨询，更多地关注大数据分析软件带来的新业务增长。IBM首席执行官Rometty Romet认为，“数据将成为决定所有行业成败的根本因素，最终数据将成为人类至关重要的自然资源。IBM积极提出“大数据平台”架构。该平台的四个核心功能包括Hadoop，流计算，数据仓库以及信息集成和治理。

　　IBM 大数据

　　另一家需要通过云和大数据战略进行恢复的巨头惠普也推出了自己的产品：HAVEn，这是一种可以自由扩展和扩展的大数据解决方案。该解决方案包括四种技术：HP Autonomy、HP Vertica、HP ArcSight 和 HP Operations Management。它还支持Hadoop等通用技术。HAVEn不是一个软件平台，而是一个生态系统。四大组件满足不同应用场景的需求，Autonomy是解决音视频识别的重要解决方案;Vertica 的解决方案，用于解决数据处理的速度和效率问题;ArcSight解决了机器的记录信息处理，帮助企业获得更高级别的安全管理;运营管理不仅涉及外部数据的处理，还涉及IT基础架构生成的数据。

　　个人大数据

　　个人大数据的概念很少被提及，简单来说，在有效采集

了与个人相关的各种有价值的数据信息后，可以得到本人的授权，提供给第三方进行处理和使用，获得第三方提供的数据服务。

　　用一个例子来说明会更清楚：

　　未来，每个用户都可以在互联网上注册一个个人数据中心来存储个人大数据信息。用户可以确定可以采集

哪些个人数据，并通过可穿戴设备或植入芯片等感知技术采集

和捕获个人大数据，如牙科监测数据、心率数据、体温数据、视觉数据、记忆能力、地理位置信息、社交关系数据、运动数据、饮食数据、*敏*感*词*等。用户可以将牙科监测数据授权给XX牙科诊所使用，他们可以监控和使用这些数据，为用户制定有效的牙齿预防和保养计划;也可以授权将个人的运动数据提供给体育和健身机构，该机构将监测其身体运动功能，并有针对性地制定和调整其个人运动计划;您还可以将您的个人消费数据委托给金融机构，他们可以帮助您制定合理的财务计划并预测收益。当然，其中一些个人数据可以提供给国家相关部门进行实时监控，而无需个人授权，例如*敏*感*词*预防和监测中心，它可以实时监控该地区每个人的情绪和心理状态，以防止自杀和*敏*感*词*。

　　以个人为中心的大数据具有一些特征：数据仅

　　保留在个人中心，其他第三方机构仅授权使用（数据有一定的使用期限），使用后必须接受立即销毁的监督。个人数据的采集

应明确分类，其他类型的数据由用户自己采集

，但国家立法明确要求监控的数据除外。数据的使用仅由用户授权，数据中心可以帮助监控个人数据的整个生命周期。

　　前景太好了，也许个人数据中心的实现会

　　在遥远的地方，也许这不是解决个人数据隐私的最好方法，也许行业对大数据的无限渴望会阻止数据个人中心的实现，但随着数据越来越多，在缺乏监管之后，必然会出现一场激烈的博弈：数据重要还是隐私重要;无论是以业务为中心还是以个人为中心。

　　结束

链接和作者，否则产生的版权纠纷与大数据无关。

　　解读:什么是原创文章？原创文章与伪原创文章区别？皆知传媒为您解答？

　　什么是原创文章？原创文章和seo伪原创有什么区别？接下来，知乎传媒将为您详细解读。说白了，原创文章就是从头到尾所有的内容都是用自己的话来表达的。伪原创就是文章的开头和结尾都是自己写的。，其余内容是摘录别人在网上的文章修改的，稍微修改一下别人的内容，冒充自己写的。下面说说原创文章和伪原创文章的区别。

" />

　　原创文章：未被搜索引擎收录的文章。它利用谷歌通过翻墙软件查找英文资料，然后翻译成中文。方法是翻简的方法，通过Kimo搜索引擎找到和你网站相关的文章，用网页编辑器对内容进行格式化，然后创建一个word文档选择里面的所有内容，通过审核给翻简。通过图像识别创作原创文章，需要高清相机或手机、dopdf-7虚拟打印机、rj_nd1854图像识别软件。用word打开你准备好的图片文件，用你安装的虚拟打印机的pdf格式打印出来，放在合适的位置。使用图像识别软件打开此pdf文件并选择一个区域进行识别。

　　伪原创：一般来说，伪原创占网站的70%左右。就是对原创文章进行处理，让文章以为是自己的。修改一篇文章的标题，先把这个标题放到百度的搜索框里，看这个标题出现频率高不高，再看这个标题下的搜索结果是不是全部都是红色的。要修改的标题必须收录

关键词。文章的第一段最好自己写，第一段在文章的关键词加上锚文本。文章中间的段落需要自己写或修改，需要文章的关键词，文章的结尾需要自己写，有关键词。这种伪原创文章至少要经过80%的工具检测才能发表。它可以用作更新站点内容的方法，并与原创

文章结合使用。

" />

　　站外平台发布可以使用伪原创文章，但是要注意站内文章不要重复，那么站外怎么发呢。你可以天天用这个伪原创seo的工具进行批量站外发布，为自己的网站引入流量。网站的内容怎么写，很容易引起网友的兴趣。第一种形式是软文。简单来说，软文就是广告。这种软件通常隐藏在故事情节中。广告自然地穿插在剧情中间。第二种是新闻文章。这类文章具有权威性，比较真实可靠。第三种是知识分享文章的内容，很容易引起客户的共鸣，启发客户。第四类是有争议的文章内容。

AI时代内容工厂

解读:一篇对大数据深度思考的文章，让你认识并读懂大数据

0 个评论

发起人