事实:「从零开始学爬虫」采集腾讯新闻数据

优采云发布时间: 2022-11-01 20:32

　　l 采集网站

　　【场景描述】采集腾讯新闻数据。

　　【来源网站简介】腾讯网自2003年成立以来，已成为集新闻资讯、区域垂直生活服务、社交媒体信息和产品为一体的互联网媒体平台。

　　【使用工具】嗅探ForeSpider数据前采集系统，免费下载：ForeSpider免费版下载地址

　　l 采集网站

　　【入口网址】

　　【采集内容】

　　采集腾讯新闻的标题和正文内容。

　　【采集效果】如下图：

　　l 思想分析

　　配置思路概述：

　　l 配置步骤

　　1.新建采集任务

　　选择【采集配置】，点击任务列表右上方的【+】号新建采集任务，在【】中填写采集入口地址采集Address]框，[Task Name]可以自定义，点击Next。

　　2.获取翻页链接

　　此类翻页的翻页链接在页面请求中。您需要先找到请求链接，然后使用脚本拼出链接。具体操作步骤如下：

　　①在浏览器中打开页面后，点击F12，清除所有请求后，刷新页面。

　　②鼠标向下浏览新闻，会发现很多新闻，右侧有很多请求。观看请求以找到翻页请求链接。

　　复制多个请求链接并遵守链接规则：

　　20&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

　　40&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

　　60&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

　　③观察到请求链接中只有一个参数不同，分别为20、40、60。参数规则为：翻页数*20。按照这个规则，用脚本拼出翻页链接。选择链接提取后，打开脚本窗口：

　　④编写for循环获取翻页链接：

　　脚本如下：

<p>for(var i=0;i

0

2022-11-01

全自动文章采集网源码2020

0 个评论

要回复文章请先登录或注册