抓取动态网页(普德沙我正在尝试抓取此页面的链接,或者至少页面上的每个链接)

优采云 发布时间: 2022-03-08 08:26

  抓取动态网页(普德沙我正在尝试抓取此页面的链接,或者至少页面上的每个链接)

  普德萨

  我正在尝试抓取此页面。

  我希望所有描述都收录指向“人口”的链接,或者至少收录页面上的每个链接。

  这是我当前的脚本:

   output = ""

base_url = argv[1]

response = requests.get(base_url)

soup = bs4.BeautifulSoup(response.text, 'html.parser')

em_box = soup.find_all("", href=True)

for link in em_box:

if len(argv) > 2:

if re.match(argv[2].replace("?", "\xe9"),link.text):

output += urljoin(base_url, link.get("href")) + "\n"

else:

output += urljoin(base_url, link.get("href")) + "\n"

  argv[1] 我的网址在哪里,argv[2] 我要查找的文本是 -Populations

  到目前为止,它适用于基本的 http 页面。为此,似乎相当汤无法从 URL 中看到生成的链接。例如,我看不到以下“汤”:

  如果您能指出一些处理此类“动态”页面的技巧。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线