抓取动态网页(普德沙我正在尝试抓取此页面的链接,或者至少页面上的每个链接)
优采云 发布时间: 2022-03-08 08:26抓取动态网页(普德沙我正在尝试抓取此页面的链接,或者至少页面上的每个链接)
普德萨
我正在尝试抓取此页面。
我希望所有描述都收录指向“人口”的链接,或者至少收录页面上的每个链接。
这是我当前的脚本:
output = ""
base_url = argv[1]
response = requests.get(base_url)
soup = bs4.BeautifulSoup(response.text, 'html.parser')
em_box = soup.find_all("", href=True)
for link in em_box:
if len(argv) > 2:
if re.match(argv[2].replace("?", "\xe9"),link.text):
output += urljoin(base_url, link.get("href")) + "\n"
else:
output += urljoin(base_url, link.get("href")) + "\n"
argv[1] 我的网址在哪里,argv[2] 我要查找的文本是 -Populations
到目前为止,它适用于基本的 http 页面。为此,似乎相当汤无法从 URL 中看到生成的链接。例如,我看不到以下“汤”:
如果您能指出一些处理此类“动态”页面的技巧。