scrapy分页抓取网页(使用Scrapy分页–使用Python进行网页抓取原文:.. )
优采云 发布时间: 2021-12-25 13:12scrapy分页抓取网页(使用Scrapy分页–使用Python进行网页抓取原文:..
)
使用 Python 使用 Scrapy-Web 爬行进行分页
原来的:。极客们。org/paging-use-scrapy-web-scratch-with-python/
使用剪贴簿分页。网页抓取是一种从网站获取信息的技术。Scrapy 用作 Web 抓取的 Python 框架。从普通网站获取数据更容易。你只需要拉取网站的HTMl,通过过滤标签获取数据即可。但是,如果您尝试获取的数据中存在分页,例如 - 亚马逊产品可以有多个页面。要成功丢弃所有产品,您需要分页的概念。
**分页: **分页,又称分页,是将一个文档分成离散的页面的过程,即将不同的页面上的数据进行捆绑。这些不同的网页都有自己的 URL。所以我们需要一一抓取这些网址和页面。但要记住的是什么时候停止分页。一般来说,页面有一个下一步按钮。这个下一步按钮没问题。当页面完成时,它被禁用。此方法用于获取网页的 URL,直到下一页按钮能够使用,当它被禁用时,没有页面可供抓取。
使用scrapy应用程序分页的项目
从亚马逊网站获取移动详细信息并在以下项目中应用分页。爬取的详细信息包括手机的名称和价格以及分页爬取下面搜索到的所有结果的网址
**分页背后的逻辑:**这里 next_page 变量仅在下一页可用时获取下一页的 url,但如果没有剩余页面,则此条件为 false。
next_page = response.xpath("//div/div/ul/li[@class='alast']/a/@href").get()
if next_page:
abs_url = f"https://www.amazon.in{next_page}"
yield scrapy.Request(
url=abs_url,
callback=self.parse
)
笔记:
abs_url = f"https://www.amazon.in{next_page}"
因为next_page是/page2,所以需要在这里取。这是不完整的,完整的网址是
刮刮结果: