python抓取网页数据(如何将网页表格数据使用pythonread_html()的方法 )
优采云 发布时间: 2022-01-04 15:20python抓取网页数据(如何将网页表格数据使用pythonread_html()的方法
)
我们在各种官方网站中很常见的有这样一种情况:网站中有很多表格,我们希望官方表格被排序汇总,或者过滤,或者处理分析。但是我们如何使用python将网页表格数据保存为Excel文件呢?
想法整理:
一般情况下,我们可以发现网页的表格数据主要是标签中实现的网页的表格数据。这里我们使用 Pandas 的 read_html() 方法读取标签中的内容,先看元素。
既然有了对应的标签,我们就用Pandas的read_html()方法看看能不能拿到表数据。代码如下:
df = df.append(pd.read_html(url), ignore_index=True)
保存数据:
df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)
完整代码:
import pandas as pd
df = pd.DataFrame()
url_list = ['https://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
# %s 表示把URL变量转换为字符串
url = 'https://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
url_list.append(url)
# 遍历网页中的table读取网页表格数据
for url in url_list:
df = df.append(pd.read_html(url), ignore_index=True)
# 列表解析:遍历 dataframe 第3列并且用$开头
df = df[[x.startswith('$') for x in df[3]]]
df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)
完成结果: