事实:「从零开始学爬虫」采集腾讯新闻数据
优采云 发布时间: 2022-11-01 20:32事实:「从零开始学爬虫」采集腾讯新闻数据
l 采集网站
【场景描述】采集腾讯新闻数据。
【来源网站简介】腾讯网自2003年成立以来,已成为集新闻资讯、区域垂直生活服务、社交媒体信息和产品为一体的互联网媒体平台。
【使用工具】嗅探ForeSpider数据前采集系统,免费下载:ForeSpider免费版下载地址
l 采集网站
【入口网址】
【采集内容】
采集腾讯新闻的标题和正文内容。
【采集效果】如下图:
l 思想分析
配置思路概述:
l 配置步骤
1.新建采集任务
选择【采集配置】,点击任务列表右上方的【+】号新建采集任务,在【】中填写采集入口地址采集Address]框,[Task Name]可以自定义,点击Next。
2.获取翻页链接
此类翻页的翻页链接在页面请求中。您需要先找到请求链接,然后使用脚本拼出链接。具体操作步骤如下:
①在浏览器中打开页面后,点击F12,清除所有请求后,刷新页面。
②鼠标向下浏览新闻,会发现很多新闻,右侧有很多请求。观看请求以找到翻页请求链接。
复制多个请求链接并遵守链接规则:
20&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}
40&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}
60&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}
③观察到请求链接中只有一个参数不同,分别为20、40、60。参数规则为:翻页数*20。按照这个规则,用脚本拼出翻页链接。选择链接提取后,打开脚本窗口:
④编写for循环获取翻页链接:
脚本如下:
<p>for(var i=0;i