抓取动态网页(普德沙我正在尝试抓取此页面的链接，或者至少页面上的每个链接)

优采云发布时间: 2022-03-08 08:26

　　普德萨

　　我正在尝试抓取此页面。

　　我希望所有描述都收录指向“人口”的链接，或者至少收录页面上的每个链接。

　　这是我当前的脚本：

　　 output = ""

base_url = argv[1]

response = requests.get(base_url)

soup = bs4.BeautifulSoup(response.text, 'html.parser')

em_box = soup.find_all("", href=True)

for link in em_box:

if len(argv) > 2:

if re.match(argv[2].replace("?", "\xe9"),link.text):

output += urljoin(base_url, link.get("href")) + "\n"

else:

output += urljoin(base_url, link.get("href")) + "\n"

　　argv[1] 我的网址在哪里，argv[2] 我要查找的文本是 -Populations

　　到目前为止，它适用于基本的 http 页面。为此，似乎相当汤无法从 URL 中看到生成的链接。例如，我看不到以下“汤”：

　　如果您能指出一些处理此类“动态”页面的技巧。

0

2022-03-08

抓取动态网页

0 个评论

要回复文章请先登录或注册