python抓取网页数据(如何将网页表格数据使用pythonread_html()的方法 )

优采云 发布时间: 2022-01-04 15:20

  python抓取网页数据(如何将网页表格数据使用pythonread_html()的方法

)

  我们在各种官方网站中很常见的有这样一种情况:网站中有​​很多表格,我们希望官方表格被排序汇总,或者过滤,或者处理分析。但是我们如何使用python将网页表格数据保存为Excel文件呢?

  想法整理:

  一般情况下,我们可以发现网页的表格数据主要是标签中实现的网页的表格数据。这里我们使用 Pandas 的 read_html() 方法读取标签中的内容,先看元素。

  

  既然有了对应的标签,我们就用Pandas的read_html()方法看看能不能拿到表数据。代码如下:

  df = df.append(pd.read_html(url), ignore_index=True)

  保存数据:

  df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

  完整代码:

  import pandas as pd

df = pd.DataFrame()

url_list = ['https://www.espn.com/nba/salaries/_/seasontype/4']

for i in range(2, 13):

# %s 表示把URL变量转换为字符串

url = 'https://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i

url_list.append(url)

# 遍历网页中的table读取网页表格数据

for url in url_list:

df = df.append(pd.read_html(url), ignore_index=True)

# 列表解析:遍历 dataframe 第3列并且用$开头

df = df[[x.startswith('$') for x in df[3]]]

df.to_csv('Salary.csv', header=['RK', 'NAME', 'TEAM', 'SALARY'], index=False)

  完成结果:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线