scrapy分页抓取网页(python脚本获取指定用户的所有图像.body)

优采云发布时间: 2021-12-10 13:03

　　作为练习，我决定编写一个python脚本来获取指定用户的所有图像。我对 Scrapy 有点熟悉，这也是我选择它作为爬虫的原因。目前，该脚本只能从第一页（最多 12 个）下载图像。

　　据我所知，instagram 页面是由 javascript 生成的。 Scrapy 的 response.body（类似于从 Chrome 查看的源代码）不像 Chrome 的 Inspector 那样显示 html 结构。在Chrome中，在12张图片后，底部有一个带有下一页链接的按钮。

　　例如，/instagram。第 2 页上的链接是 /instagram/?max_id=51632610。在第 2 页上，有一个指向第 3 页的链接，地址为 max_id=57754444 。

　　我如何在 Scrapy 中获得这个数字，以便我可以将我的蜘蛛发送到那里？ response.body 甚至不收录该数字。有没有其他方法可以进入下一页？

　　我知道 Instagram API 会提供一些好处，但我认为它可以在没有所有这些令牌的情况下完成。

0

2021-12-10

scrapy分页抓取网页

0 个评论

要回复文章请先登录或注册