网页表格抓取(new)

优采云 发布时间: 2022-01-19 08:16

  网页表格抓取(new)

  我对网络抓取相对较新,我真的不知道为什么这不起作用,我认为这与我想要抓取的表中的隐藏行有关。我对网络抓取比较陌生,我真的不明白为什么这不起作用,我认为这与我要抓取的表中的隐藏行有关。

  我正在尝试通过 for 循环将一个相当简单的表提取到熊猫数据框中。但是,当我尝试使用 find_all('tr') 来提取行时,我最终得到了一个完全空的集合。采集

  这是我的代码:这是我的代码:

  url = 'https://pjammcycling.com/home;mode=search;sort=worldRank;view=table;asc=true;f1=France;dsply=100'

html = requests.get(url)

soup = BeautifulSoup(html.text, 'lxml')

table_body = soup.find('tbody')

rows = table_body.find_all('tr')

  当我打印(行)时,我得到:当我打印(行)时,我得到:

  []

  我要使用的for循环是:我要使用的for循环是:

  labels = []

data = []

for row in rows:

labels.append(str(row.find_all('td')[0].text))

data.append(str(row.find_all('td')[1].text))

cols = {'Field': labels, 'Data': data}

df = pd.DataFrame(cols)

  任何帮助将不胜感激,因为我整个早上都在用头撞墙试图让它工作:(我的谷歌搜索都没有为我清除这个问题今天早上我的头撞到墙上试图让它工作:(我的谷歌搜索都没有为我解决这个问题

  提前谢谢你!提前谢谢!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线