scrapy分页抓取网页(python脚本获取指定用户的所有图像.body)

优采云 发布时间: 2021-12-10 13:03

  scrapy分页抓取网页(python脚本获取指定用户的所有图像.body)

  作为练习,我决定编写一个python脚本来获取指定用户的所有图像。我对 Scrapy 有点熟悉,这也是我选择它作为爬虫的原因。目前,该脚本只能从第一页(最多 12 个)下载图像。

  据我所知,instagram 页面是由 javascript 生成的。 Scrapy 的 response.body(类似于从 Chrome 查看的源代码)不像 Chrome 的 Inspector 那样显示 html 结构。在Chrome中,在12张图片后,底部有一个带有下一页链接的按钮。

  例如,/instagram。第 2 页上的链接是 /instagram/?max_id=51632610。在第 2 页上,有一个指向第 3 页的链接,地址为 max_id=57754444 。

  我如何在 Scrapy 中获得这个数字,以便我可以将我的蜘蛛发送到那里? response.body 甚至不收录该数字。有没有其他方法可以进入下一页?

  我知道 Instagram API 会提供一些好处,但我认为它可以在没有所有这些令牌的情况下完成。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线