scrapy分页抓取网页(我有一个3级站点,我想抓取并解析2级的链接)

优采云 发布时间: 2021-11-11 10:11

  scrapy分页抓取网页(我有一个3级站点,我想抓取并解析2级的链接)

  我有一个 3 级站点,我想抓取和解析 2 级和 3 级链接。问题是在第 2 级,有一个 javascript 选项卡可以为每个页面提供不同的链接(总共 5 个页面)。

  示例:

  Level 1:主菜单(我使用 SgmlLinkExtractor catid = 22767 提取类别的链接)

  Level 2:有一些链接我想解析,但也有JavaScript分页,我需要提取其余的链接(即catid = 22767 & page1 = 2)

  级别 3:对于上述步骤中的每个链接,我都想解析响应。

  网站is()

  级别 2 是 (summary.asp? catid = 22768)

  Level3是我要分析的文章页面(article.asp?catid = 22768&subid = 2&pubid = 63929343)

  问题是:对于从第一级提取的每个链接,我如何创建一个循环并构造所有5个链接,然后在第二级使用SgmlLinkExtractor跟踪这些链接?

  有两个答案:

  通常,网站 提供其 网站 的可搜索版本,或者您可以实现站点地图。

  您可以使用 selenium 之类的东西在浏览器中呈现页面,从而启用 JavaScript,并且您可以像用户一样使用它,并且仍然可以抓取它。

  确保以合乎道德的方式爬行以避免网站超载:)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线