scrapy分页抓取网页(我有一个3级站点，我想抓取并解析2级的链接)

优采云发布时间: 2021-11-11 10:11

　　我有一个 3 级站点，我想抓取和解析 2 级和 3 级链接。问题是在第 2 级，有一个 javascript 选项卡可以为每个页面提供不同的链接（总共 5 个页面）。

　　示例：

　　Level 1：主菜单（我使用 SgmlLinkExtractor catid = 22767 提取类别的链接）

　　Level 2：有一些链接我想解析，但也有JavaScript分页，我需要提取其余的链接（即catid = 22767 & page1 = 2)

　　级别 3：对于上述步骤中的每个链接，我都想解析响应。

　　网站is()

　　级别 2 是 (summary.asp? catid = 22768)

　　Level3是我要分析的文章页面（article.asp?catid = 22768&subid = 2&pubid = 63929343)

　　问题是：对于从第一级提取的每个链接，我如何创建一个循环并构造所有5个链接，然后在第二级使用SgmlLinkExtractor跟踪这些链接？

　　有两个答案：

　　通常，网站提供其网站的可搜索版本，或者您可以实现站点地图。

　　您可以使用 selenium 之类的东西在浏览器中呈现页面，从而启用 JavaScript，并且您可以像用户一样使用它，并且仍然可以抓取它。

　　确保以合乎道德的方式爬行以避免网站超载:)

0

2021-11-11

scrapy分页抓取网页

0 个评论

要回复文章请先登录或注册