网页表格抓取(2017年成都会计从业资格考试:谈及pandasread_html)
优采云 发布时间: 2021-11-09 12:13网页表格抓取(2017年成都会计从业资格考试:谈及pandasread_html)
过去的一切都是序幕。
真正的放手不是试图强迫它,而不仅仅是不作为。
文章内容
一、简介
一般爬虫例程无非就是发送请求、获取响应、解析网页、提取数据、保存数据等步骤。 requests库主要用于构造请求,xpath和正则匹配多用于定位和提取数据。对于一个完整的爬虫来说,代码量可以从几十行到几百行不等。对于新手来说,学习成本相对较高。
说到pandas read.xxx系列的功能,常用的读取数据的方法有:pd.read_csv()和pd.read_excel(),而pd.read_html()方法很少使用,但是它的功能很强大,尤其是用来抓取Table数据的时候,简直是神器。无需掌握正则表达式或xpath等工具,只需几行代码即可快速抓取网页数据并保存到本地。
二、原理
Pandas 适用于爬取 Table 数据。首先,让我们了解一下具有 Table 数据结构的网页。示例如下:
使用Chrome浏览器查看网页的HTML结构,你会发现Table数据有一些共同点。一般网页结构如下所示。
...
...
...
...
...
...
...
...
...
网页结构如上,我们可以尝试使用pandas的pd.read_html()方法直接获取数据。
pd.read_html()的一些主要参数
三、爬行实战示例1
爬取成都2019年空气质量数据(12页数据),目标网址:
import pandas as pd
dates = pd.date_range('20190101', '20191201', freq='MS').strftime('%Y%m') # 构造出日期序列 便于之后构造url
for i in range(len(dates)):
df = pd.read_html(f'http://www.tianqihoubao.com/aqi/chengdu-{dates[i]}.html', encoding='gbk', header=0)[0]
if i == 0:
df.to_csv('2019年成都空气质量数据.csv', mode='a+', index=False) # 追加写入
i += 1
else:
df.to_csv('2019年成都空气质量数据.csv', mode='a+', index=False, header=False)
九行代码就搞定了,爬虫速度很快。
查看保存的数据
示例 2
抓取新浪金融基金重磅股数据(25页数据),网址:
import pandas as pd
df = pd.DataFrame()
for i in range(1, 26):
url = f'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jjzc/index.phtml?p={i}'
df = pd.concat([df, pd.read_html(url)[0].iloc[::,:-1]]) # 合并DataFrame 不要明细那一列
df.to_csv('新浪财经基金重仓股数据.csv', encoding='utf-8', index=False)
六行代码就搞定了,爬取速度非常快。
查看保存的数据:
后面爬取一些小数据的时候,只要遇到这种表数据,可以先试试pd.read_html()大法。