excel抓取多页网页数据( Python3.5和BeautifulSoup.底层数据库是什么意思?(图) )
优采云 发布时间: 2022-03-03 18:16excel抓取多页网页数据(
Python3.5和BeautifulSoup.底层数据库是什么意思?(图)
)
.
我希望有一个 HTML 链接可用于下一次抓取迭代,但没有运气。进一步检查,通过查看网络流量,发现浏览器为 __VIEWSTATE 等发送了一个很长的(散列的?)字符串。可能保护数据库?
我正在寻找一种方法来抓取狗的所有页面,或者通过迭代所有页面,或者通过增加页面长度以在第 1 页上显示超过 100 行。底层数据库是 .aspx。
我正在使用 Python 3.5 和 BeautifulSoup。
当前代码:
<p> import requests
from bs4 import BeautifulSoup
url = 'http://www.gbgb.org.uk/RaceCard.aspx?dogName=Hardwick%20Serena'
with requests.session() as s:
s.headers['user-agent'] = 'Mozilla/5.0'
r = s.get(url)
soup = BeautifulSoup(r.content, 'html5lib')
target = 'ctl00$ctl00$mainContent$cmscontent$DogRaceCard$btnFilter_input'
data = { tag['name']: tag['value']
for tag in soup.select('input[name^=ctl00]') if tag.get('value')
}
state = { tag['name']: tag['value']
for tag in soup.select('input[name^=__]')
}
data.update(state)
numberpages = int(str(soup.find('div', 'rgWrap rgInfoPart')).split(' ')[-2].split('>')[1].split('