数据gdp_percap.csv世界银行教你如何识别和清除“脏”数据

优采云 发布时间: 2021-05-26 04:41

  数据gdp_percap.csv世界银行教你如何识别和清除“脏”数据

  原创链接:

  获取,清理和格式化数据

  在本文中,我们将介绍一些技巧和窍门,用于在线查找所需数据,将其存储在计算机上以及如何识别和清除“脏”数据。我们还将回顾一些常见的数据格式以及如何从一种转换为另一种。

  我们今天将使用的数据

  gdp_percap.csv世界银行关于1990年至2016年国家和国家集团的人均GDP的数据,以当前国际美元计价,并根据不同地区的购买力进行了调整。

  ucb_stanford_201 4. csv可以从此处下载2014年从加州大学伯克利分校和斯坦福大学获得的联邦政府拨款数据。

  wr_50m_sept_6_201 8. pdfPDF,其中收录国际泳联,国际游泳及其他水上运动联合会的最新世界游泳记录。

  搜索在线数据库

  可以在线搜索许多重要的公共数据库,其中一些数据库提供了下载查询结果的选项。这些数据库中的大多数都提供了一个简单的搜索框,但是始终值得寻找一个高级搜索页面,该页面将提供更多用于自定义搜索的选项。例如,这是高级搜索页面:

  需要插入img

  

  当您开始使用新的在线数据库时,请花一些时间来熟悉其搜索方式:阅读帮助或FAQ,然后运行测试搜索以查看结果。

  还要找出数据库是否允许使用“通配符”,例如*或%通配符,可以将其放在搜索中以获取单词或数字变化的结果。

  从互联网获取数据

  有时,您需要基于散布在一系列网页上的信息或数据库中维护的信息(不允许简单下载数据或访问API)来编译数据。这是抓取网页的地方。

  使用R或Python之类的编程语言,您可以编写脚本从许多网页中提取数据,或者查询网络搜索表单以逐段下载整个数据库。

  我们通过操纵网络搜索表单上的网址并分批下载每个链接来执行网络抓取的某些元素。

  PDF:数据

  一些组织坚持以PDF格式提供数据,而不是文本文件,电子表格或数据库。这使得数据难以提取。尽管您始终应该以更友好的格式(最好是CSV或其他简单的文本文件)请求数据,但有时您可能会发现自己需要从PDF中提取数据。

  可以从数字PDFS表中提取数据。

  需要插入img

  

  启动时,它将在网络浏览器中打开。但是,您加载到程序中的所有数据将保留在您的计算机上-不会在线发布。

  需要插入img

  

  导入PDF后,突出显示第一张显示该人个人记录的部分,然后单击“预览并导出提取的数据”以查看提取的数据:

  识别脏数据

  在理想的世界中,我们找到的每个数据集都会经过精心计划,以便我们可以开始分析和可视化,而不必担心其准确性。

  但是,实际上,通常最好的可用数据存在一些缺陷,可能需要尽可能多地加以纠正。因此,在开始使用新数据集之前,请将其加载到电子表格或数据库中并检查常见错误。例如,这是来自BMIS数据库的记录的示例。它的名称收录非字母字符,这显然是错误的:

  需要插入img

  

  某些字段提供了一些明显的检查方法:例如,如果您看到的邮政编码少于5位,那么您肯定知道它是错误的。

  日期也可能输入错误,因此值得扫描不在数据范围内的日期。

  还要扫描表示连续变量的字段中的数字,以发现任何明显的离群值。

  其他常见问题是某些条目前后的空白,可能需要将其删除。

  使用Open Refine清理和处理数据

  在许多数据新闻项目中,检查和删除“脏”数据并将数据处理为所需格式可能是最耗费人力的部分。但是,Open Refine(以前称为Google Refine)可以简化任务-您还可以创建可复制的脚本来快速重复必须以相同方式清理和处理的数据的过程。

  启动Open Refine时,它将在Web浏览器中打开。但是,您加载到程序中的所有数据将保留在您的计算机上-不会在线发布。

  打开的屏幕应如下所示:

  需要插入img

  

  将数据从宽格式转换为长格式

  单击“选择文件”按钮,然后导航到文件gdp_percap.csv。单击下一步>>,然后在下一个屏幕上,确保已选择将单元格文本解析为数字,日期,...

  需要插入img

  

  Open Refine以绿色显示数字和日期,以黑色显示整个文本。因此,选择此按钮应使数字变为绿色。 Open Refine还应该识别出数据在CSV文件中,但是如果不是,则可以使用底部面板为数据指定正确的文件类型和格式。

  屏幕现在应如下所示:

  需要插入img

  

  如您所见,数据是宽格式的。每个地区的石油产值每年都按地区进行组织。要将其转换为长格式,请单击这些年第一列中的向下的小三角形,然后选择Transpose>将列中的单元格转置为行。

  在如下所示的对话框中进行填充,请确保正确突出显示了“从列”和“到列”,并为“键”列和“值”列分配了适当的名称,然后选择“在其他列中填充”。

  单击“移调”,然后单击50行链接以查看调整后的数据的前50行:

  需要插入img

  

  单击右上角的“导出”按钮,您将看到用于导出各种文件类型的数据的选项,包括逗号分隔的值和Excel电子表格。

  清理并处理脏数据

  单击左上角的“打开优化”以返回到打开屏幕。从文件中创建一个新项目ucb_stanford_201 4. csv。

  类似地,每个字段/列都有一个带有指向下方的三角形的按钮。单击这些按钮,您将获得为列创建“构面”的选项,这提供了一种强大的方式来编辑和清除数据。

  AllOpen Refine中的列下拉菜单可用于删除不必要的列并快速记录要保留的列。选择“编辑列”>“重新排序/删除列”以弹出此对话框:

  需要插入img

  

  但是,我们将所有数据保留在这里。

  我们可以手动编辑,但是为了说明Open Refine的编辑功能,请单击“群集”按钮。在这里,您可以尝试不同的聚类算法进行编辑:

  需要插入img

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线