scrapy分页抓取网页(目标网站上内容很多时会用多个页显示(图))

优采云 发布时间: 2022-03-17 06:22

  scrapy分页抓取网页(目标网站上内容很多时会用多个页显示(图))

  当目标网站上的内容很多时,会分页显示。网页抓取/数据提取/信息提取工具包MetaSeeker可以翻页,提取每页内容,目标网站显示多页,有几种方式:

  1.页面上的每个页面都由另一个URL地址表示。最好将这样的网页翻页,提取URL,在以后的某个时间在这个地址加载页面。而且 MetaSeeker 还可以将一个信息提取交易中的所有信息都翻过来。在此会话中,这些 URL 称为内嵌线索。这些网址是不记录的,翻过来就丢弃了。事实上,这样的 URL 是被记录下来的。意义不大,目标网站在显示多个页面的时候经常使用一个服务器动态页面,页码作为参数,比如page=2,改变这些页面的内容,比如,一个博客网站,新的博文添加后,原来的分页发生了变化。最初的博文在第 2 页,但稍后可能在第 3 页。

  2.页面上的每个页面都关联了一段Javascript代码,点击时执行。这是普通爬虫的天敌。普通爬虫很难提取javascript管理的内容,特别是用AJAX框架制作的网站,网页抓取/数据提取/信息提取工具包MetaSeeker可以模拟用户的点击操作,在一个信息中完成翻页提取交易。

  ‹ 可以使用 MetaSeeker 进行合法的垂直搜索吗?网页抓取/数据提取/信息提取工具包 MetaSeeker 中的网络爬虫是怎么做的?›

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线