文章采集内容( 数据的来源及其具体类型,你知道几个?(上))

优采云 发布时间: 2021-08-29 03:17

  文章采集内容(

数据的来源及其具体类型,你知道几个?(上))

  

  一、前言

  我们在日常生活中经常听到这样一个问题:你有数据支持吗?你的数据源在哪里?数据有噪声吗?

  那么这里的“数据”是什么?

  百度百科对数据的定义很简单:数据是事实或观察的结果,是客观事物的逻辑总结,是用来表示客观事物的原材料。

  再仔细想想,我们日常生活中所指的数据真的是数据吗?其实我们更多的指的是已经形成系统、有逻辑结构、实用的“数据知识”。

  所以,我们不能把数据当成一个简单的概念,但其实“数据”里面有很多知识。

  下面先介绍四个与“数据”相关的术语和概念,后面我会详细阐述它们的“价值实现”方法论。

  您真的了解什么是数据、信息、知识和洞察力吗?

  

  今天小陈就给大家介绍一下数据的来源和具体类型。毕竟,知己知彼,百战不殆。有了今天的铺垫,接下来几节就可以轻松学习了~

  二、数据源(菜市场)

  如果说数据是我们做饭所需要的原材料,那么确定数据的来源就像是在出门买菜之前先确定去哪个菜市场;而“菜市场”也专门从事艺术行业!买海鲜去海鲜市场,买家禽去家禽市场……数据也是一个道理。您需要通过所需的字段过滤数据源。毕竟保证数据质量是做好菜的第一步~

  如前所述,数据是一个巨大的概念。要想用好它,首先要知道数据的类型,然后根据类型确定来源,采集数据。

  1.根据结构程度区分数据源

  1)非结构化数据

  非结构化数据是最简单的数据形式;我们周围无时无刻不在存在着非结构化数据,而且几乎触手可及。文本、图片、声音或视频都是非结构化数据。此类数据通常存储在文件存储库中(您可以将其视为计算机硬盘上组织良好的目录)。

  然而,从这种形状的数据中提取价值通常是最困难的;因为我们首先需要从描述性或抽象的数据中提取结构特征(比如使用文本,我们可能需要提取主题和文本到主题的正面或负面评论,一千个读者就会有一千个哈姆雷特,这种信息是高度主观的)。

  目前非常流行的一种文本挖掘技术,它的数据源就是我们这里所说的非结构化数据。

  

  2)结构化数据

  结构化数据,顾名思义,是定义明确的表格数据(行和列),这意味着我们知道它们收录哪些列以及哪些类型的数据;这些数据通常存储在数据库中,我们可以在其中使用 SQL 语言过滤结构化数据并轻松为我们的数据科学解决方案创建数据集。

  

  3)半结构化数据

  半结构化数据介于非结构化数据和结构化数据之间。虽然它定义了一致的格式,但结构并不是很严格。例如,部分数据可能不完整或类型不同;结构化数据通常存储为文件,但某些类型的半结构化数据(例如 JSON 或 XML)可以存储在面向文档的数据库中。

  2.根据数据隐私区分数据源

  1)组织内的数据源(封闭数据源)

  查找数据的第一个地方是组织内部。大多数公司目前都在运行 ERP、CRM、工作流管理和其他系统。此类系统通常使用数据库以结构化的方式存储数据;这些数据库收录了大量您可以轻松地从数据中提取价值;例如,通过工作流管理系统,您可以轻松了解业务流程中的瓶颈,或者通过使用 ERP 系统的数据,您可以进行销售预测。

  2)public 数据源(开源数据源)

  除了内部非公开数据外,许多组织还会接收和发送大量文件、图片、声音或视频。这些在公共互联网上分发和保留的数据是公共数据源;例如,您可以想象一家保险公司,我收到了很多可能附有图片的索赔(纸质或 PDF 格式)。这些文件在处理之前通常会被手动转换为更结构化的格式;但是,在此转换中会丢失一些信息。在尝试改进我们的数据科学解决方案时,我们可以使用这些文件来提取额外的数据,例如场景概览。

  未来,我们可以使用这些额外数据来改进欺诈索赔检测,这是公共数据源的价值所在。

  另外,行业内其实还有很多数据源分类,比如是实时数据、一手数据还是二手数据……

  三、结论和下一个预览

  本期小陈通过一个“菜市场”的例子,让大家洞悉了这个庞大的“数据”系统,并通过“菜市场”的比喻,让大家对源头有个概念数据整体理解。

  下一期小陈将讲解如何使用常用的数据清洗工具和采集基于数据源!

  本文由@小陈同学ing发布。 原创人人都是产品经理,未经作者许可,禁止转载。

  标题图片来自 Unsplash,基于 CC0 协议。

  奖励作者,鼓励他努力!

  欣赏

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线