excel抓取多页网页数据( Python3.5和BeautifulSoup.底层数据库是什么意思?(图) )

优采云 发布时间: 2022-03-03 18:16

  excel抓取多页网页数据(

Python3.5和BeautifulSoup.底层数据库是什么意思?(图)

)

  .

  我希望有一个 HTML 链接可用于下一次抓取迭代,但没有运气。进一步检查,通过查看网络流量,发现浏览器为 __VIEWSTATE 等发送了一个很长的(散列的?)字符串。可能保护数据库?

  我正在寻找一种方法来抓取狗的所有页面,或者通过迭代所有页面,或者通过增加页面长度以在第 1 页上显示超过 100 行。底层数据库是 .aspx。

  我正在使用 Python 3.5 和 BeautifulSoup。

  当前代码:

<p> import requests

from bs4 import BeautifulSoup

url = 'http://www.gbgb.org.uk/RaceCard.aspx?dogName=Hardwick%20Serena'

with requests.session() as s:

s.headers['user-agent'] = 'Mozilla/5.0'

r = s.get(url)

soup = BeautifulSoup(r.content, 'html5lib')

target = 'ctl00$ctl00$mainContent$cmscontent$DogRaceCard$btnFilter_input'

data = { tag['name']: tag['value']

for tag in soup.select('input[name^=ctl00]') if tag.get('value')

}

state = { tag['name']: tag['value']

for tag in soup.select('input[name^=__]')

}

data.update(state)

numberpages = int(str(soup.find('div', 'rgWrap rgInfoPart')).split(' ')[-2].split('>')[1].split('

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线