scrapy分页抓取网页(我有一个3级站点,我想抓取并解析2级的链接)
优采云 发布时间: 2021-11-11 10:11scrapy分页抓取网页(我有一个3级站点,我想抓取并解析2级的链接)
我有一个 3 级站点,我想抓取和解析 2 级和 3 级链接。问题是在第 2 级,有一个 javascript 选项卡可以为每个页面提供不同的链接(总共 5 个页面)。
示例:
Level 1:主菜单(我使用 SgmlLinkExtractor catid = 22767 提取类别的链接)
Level 2:有一些链接我想解析,但也有JavaScript分页,我需要提取其余的链接(即catid = 22767 & page1 = 2)
级别 3:对于上述步骤中的每个链接,我都想解析响应。
网站is()
级别 2 是 (summary.asp? catid = 22768)
Level3是我要分析的文章页面(article.asp?catid = 22768&subid = 2&pubid = 63929343)
问题是:对于从第一级提取的每个链接,我如何创建一个循环并构造所有5个链接,然后在第二级使用SgmlLinkExtractor跟踪这些链接?
有两个答案:
通常,网站 提供其 网站 的可搜索版本,或者您可以实现站点地图。
您可以使用 selenium 之类的东西在浏览器中呈现页面,从而启用 JavaScript,并且您可以像用户一样使用它,并且仍然可以抓取它。
确保以合乎道德的方式爬行以避免网站超载:)