全面分析:【疫情分析--数据采集】
优采云 发布时间: 2022-11-03 09:26全面分析:【疫情分析--数据采集】
数据采集-流式传输采集
旧版本的*敏*感*词* 采集 进程(背景)
这里的旧版本采集流程仅代表本人数据采集过程的旧版本,雨女无瓜。
由于本人智力的低下以及为了赶进度,在初始采集数据时采用的是手动和代码采集共同进行的方式,具体如下:
手动将原创 csv 文件重命名为 .xlsx 类型的 excel 文件。使用 Excel 的行列转置功能手动转置文件中的数据。手动合并多个省(州)的国家数据。
劣势/劣势分析:
人工操作和代码进行的操作本身就是不得已而为之,而且由于原创数据是不断更新的,使用老版本的采集流程也意味着每次数据更新都需要一个人花同样的时间做手动集成。操作,浪费时间和人力。当前版本的流采集 流程中使用的技术和实现的功能
说太多是无稽之谈。这个文章主要是记录功能各部分的方式和过程。
1、Python实现文件重命名
2、Python实现文件内部数据的行列转置(xls)
3.python创建一个收录多个sheet页面的xlsx文件,并将其他xlsx文件的数据分别保存到这些sheet页面中
4、Python通过字典等方法整合xls文件内部数据,将整合后的数据写入其他xls文件。
采集流程图----采集策略
数据采集思路:
①
①-1
看看原创数据文件的格式
首先,让我介绍一下这次的主题。这次的目的是做一个关于全球新冠疫情的数据分析项目。原创数据是 GitHub 上一哥分享的数据。原创数据是三个csv文件,分别是收录全球各个国家和地区确诊病例数、治愈人数、死亡人数的数据文件。原创数据文件的内部数据格式如下图所示:
简单观察后,对原文件做一个简单的总结:
原创数据第一行的Province/State、Country/Region、Lat和Long字段分别代表省(州)、国家(地区)、经度和纬度。后者是时间的顺序增加。
①-2
对于本项目采集之后的数据,我们的期望是将数据导入Hive表,然后通过Spark进行数据分析。
第一点:原创数据收录400多列,创建一个400多字段的表本身就是一件令人发指的事情。
第二点:对于建表来说,每一列的字段名应该是一个数据类型的汇总和通用名称。这次原创数据的第一行是从Long依次递增的时间,这个时间不能作为建表时的列名(字段名)。
第三点:将数据加载到我目前使用的hive表中——Hive支持的数据类型有.txt和.csv。将数据进行行列转置后,呈现的数据格式满足将数据导入Hive表,但也因为列太多(200多),无法将转置后的数据转换为load的原创数据数据直接转表,可以看行列转置后的数据格式:
由于上述原因,现在指定 data采集 的策略是:
代码
<p>from pandas.io.excel import ExcelWriter
import pandas as pd
import os
import openpyxl
import time
import xlrd
# 1.原始数据文件是csv文件,为了后面更加方便的操作和采集,先将csv文件转化为excel文件
# 确诊原始数据
if os.path.exists(r'./confirmed.xlsx'):
print("原始确诊文件早就转换成xlsx惹>___