实时抓取网页数据(中国各省市当日实时数据、包含世界历史数据及每日新增数据 )
优采云 发布时间: 2022-01-07 10:26实时抓取网页数据(中国各省市当日实时数据、包含世界历史数据及每日新增数据
)
由于网站提供疫情数据,本文使用腾讯新闻的实现更新。网站的链接如下:
#/全球的
爬行器:
python和jupyter笔记本
获取记录:
由于这个网页只显示了当天的数据,所以我们需要通过搜索网页的源代码来找到收录中国和世界历史流行病数据的网页。以下三个链接分别表示收录中国和中国各省市的实时数据。历史数据和每日新数据,包括世界历史数据和每日新数据的链接
以下仅提供获取湖北及非湖北历史数据的代码
# 获取湖北与非湖北历史数据
def get_data_1():
with open(filename, "w+", encoding="utf_8_sig", newline="") as csv_file:
writer = csv.writer(csv_file)
header = ["date", "dead", "heal", "nowConfirm", "deadRate", "healRate"] # 定义表头
writer.writerow(header)
for i in range(len(hubei_notHhubei)):
data_row = [hubei_notHhubei[i]["date"], hubei_notHhubei[i][w]["dead"], hubei_notHhubei[i][w]["heal"],
hubei_notHhubei[i][w]["nowConfirm"], hubei_notHhubei[i][w]["deadRate"],
hubei_notHhubei[i][w]["healRate"]]
writer.writerow(data_row)
数据处理:
由于数据中缺少数据,绘制时会出现一些问题,所以我们使用R来清理数据;同时,我们在使用SIR模型拟合的时候,并不是所有的数据都用到了,所以对不同时期的数据进行选择。
<p>data_washing