事实:「从零开始学爬虫」采集腾讯新闻数据

优采云 发布时间: 2022-11-01 20:32

  事实:「从零开始学爬虫」采集腾讯新闻数据

  l 采集网站

  【场景描述】采集腾讯新闻数据。

  【来源网站简介】腾讯网自2003年成立以来,已成为集新闻资讯、区域垂直生活服务、社交媒体信息和产品为一体的互联网媒体平台。

  【使用工具】嗅探ForeSpider数据前采集系统,免费下载:ForeSpider免费版下载地址

  l 采集网站

  【入口网址】

  【采集内容】

  采集腾讯新闻的标题和正文内容。

  【采集效果】如下图:

  l 思想分析

  配置思路概述:

  l 配置步骤

  1.新建采集任务

  选择【采集配置】,点击任务列表右上方的【+】号新建采集任务,在【】中填写采集入口地址采集Address]框,[Task Name]可以自定义,点击Next。

  2.获取翻页链接

  此类翻页的翻页链接在页面请求中。您需要先找到请求链接,然后使用脚本拼出链接。具体操作步骤如下:

  ①在浏览器中打开页面后,点击F12,清除所有请求后,刷新页面。

  ②鼠标向下浏览新闻,会发现很多新闻,右侧有很多请求。观看请求以找到翻页请求链接。

  复制多个请求链接并遵守链接规则:

  20&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

  40&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

  60&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

  ③观察到请求链接中只有一个参数不同,分别为20、40、60。参数规则为:翻页数*20。按照这个规则,用脚本拼出翻页链接。选择链接提取后,打开脚本窗口:

  ④编写for循环获取翻页链接:

  脚本如下:

<p>for(var i=0;i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线