【干货】通过python获取50000条excel中数据的方法
优采云 发布时间: 2021-06-21 00:01【干货】通过python获取50000条excel中数据的方法
文章采集完成后,我们可以对采集到的数据进行筛选和分类保存在excel表格中。采集下来的数据大约有50000条,那么本文就主要介绍通过python获取50000条excel中数据的方法。下面就以时光对比图为例,通过python获取数据。1.获取excel数据如下图所示,采集截图地址如下,开始只有2000条时光数据,我们先保存。
数据一般保存在excel或者csv格式中,我们下面以csv为例进行讲解。打开python环境,在file->new->associatedfiles->availablefolders->csv点击添加后,选择保存路径,点击下一步保存成功,进入该路径为\python\。(我的在的author:fayingc)2.数据清洗一般方法是将数据预处理,即数据降维,转化为特征向量,根据特征选择做分类或回归预测。
现在我们的目标是做回归预测,所以我们选择加载excel中的tidy格式数据集。importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassns#加载数据withopen('xiaochen_weather.csv','w')asf:#打开数据包inf=read_csv(f)inf.sep=','forinfininf:#打开每个季度数据today=''#打开时间戳格式today=f.read_csv('author.csv')ifinf=='1':#查看天数,判断是否需要降维today=today.fillna(today[:,0])ifinf=='10':#查看天数,判断是否需要降维today=f.read_csv('demystify.csv')ifinf=='20':#查看天数,判断是否需要降维today=f.read_csv('demystify.csv')#多列导入为多组数据,如果需要n表示所有的子集sns.imshow(today,interpolation='normal')#多列导入为多组数据,如果需要n表示所有的子集today=f.read_csv('gen.csv')sns.imshow(today,interpolation='normal')#打印全部行foreachintoday:#绘制时间轴图last=sns.imshow(today[:,0],cmap='gray')sns.imshow(today[:,1],cmap='gray')#打印全部列sns.replace('m','b','l')sns.imshow(today[:,1],cmap='gray')#添加某个季度图标plt.figure()plt.scatter(today[:,1],today[:,2],today[:,3],today[:,4],today[:,5],color='gray')plt.legend()plt.show()根据原始数据,将时间拆分到365个小节。