excel抓取多页网页数据( Python3.5和BeautifulSoup.底层数据库是什么意思？(图) )

优采云发布时间: 2022-03-03 18:16

　　excel抓取多页网页数据(

Python3.5和BeautifulSoup.底层数据库是什么意思？(图)

)

　　.

　　我希望有一个 HTML 链接可用于下一次抓取迭代，但没有运气。进一步检查，通过查看网络流量，发现浏览器为 __VIEWSTATE 等发送了一个很长的（散列的？）字符串。可能保护数据库？

　　我正在寻找一种方法来抓取狗的所有页面，或者通过迭代所有页面，或者通过增加页面长度以在第 1 页上显示超过 100 行。底层数据库是 .aspx。

　　我正在使用 Python 3.5 和 BeautifulSoup。

　　当前代码：

<p> import requests

from bs4 import BeautifulSoup

url = 'http://www.gbgb.org.uk/RaceCard.aspx?dogName=Hardwick%20Serena'

with requests.session() as s:

s.headers['user-agent'] = 'Mozilla/5.0'

r = s.get(url)

soup = BeautifulSoup(r.content, 'html5lib')

target = 'ctl00$ctl00$mainContent$cmscontent$DogRaceCard$btnFilter_input'

data = { tag['name']: tag['value']

for tag in soup.select('input[name^=ctl00]') if tag.get('value')

}

state = { tag['name']: tag['value']

for tag in soup.select('input[name^=__]')

}

data.update(state)

numberpages = int(str(soup.find('div', 'rgWrap rgInfoPart')).split(' ')[-2].split('>')[1].split('

0

2022-03-03

excel抓取多页网页数据

0 个评论

要回复文章请先登录或注册