python抓取网页数据(如何将网页表格数据使用pythonread_html()的方法 )

优采云发布时间: 2022-01-04 15:20

　　python抓取网页数据(如何将网页表格数据使用pythonread_html()的方法

)

　　我们在各种官方网站中很常见的有这样一种情况：网站中有很多表格，我们希望官方表格被排序汇总，或者过滤，或者处理分析。但是我们如何使用python将网页表格数据保存为Excel文件呢？

　　想法整理：

　　一般情况下，我们可以发现网页的表格数据主要是标签中实现的网页的表格数据。这里我们使用 Pandas 的 read_html() 方法读取标签中的内容，先看元素。

　　既然有了对应的标签，我们就用Pandas的read_html()方法看看能不能拿到表数据。代码如下：

　　df = df.append(pd.read_html(url), ignore_index=True)

　　保存数据：

　　df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

　　完整代码：

　　import pandas as pd

df = pd.DataFrame()

url_list = ['https://www.espn.com/nba/salaries/_/seasontype/4']

for i in range(2, 13):

# %s 表示把URL变量转换为字符串

url = 'https://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i

url_list.append(url)

# 遍历网页中的table读取网页表格数据

for url in url_list:

df = df.append(pd.read_html(url), ignore_index=True)

# 列表解析：遍历 dataframe 第3列并且用$开头

df = df[[x.startswith('$') for x in df[3]]]

df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

　　完成结果：

0

2022-01-04

python抓取网页数据

0 个评论

要回复文章请先登录或注册