内容采集( 腾讯网：前嗅大数据2021-12-31l采集网站)

优采云发布时间: 2022-01-05 11:10

　　内容采集(

腾讯网：前嗅大数据2021-12-31l采集网站)

　　【从零开始学爬】采集腾讯新闻数据

　　前端嗅探大数据 2021-12-31

　　l采集网站

　　【场景描述】采集腾讯新闻数据。

　　[来源网站简介] 自2003年成立以来，腾讯已成为集新闻资讯、区域垂直生活服务、社交媒体资讯及产品为一体的互联网媒体平台。

　　【使用工具】预嗅ForeSpider数据采集系统，免费下载：

　　l采集网站

　　[入口网址]

　　【采集内容】

　　采集腾讯新闻的标题和正文内容。

　　【采集效果】如下图：

　　l 思维分析

　　配置思路概述：

　　l 配置步骤

　　1.新建采集任务

　　选择[采集配置]，点击任务列表右上方的[+]号新建采集任务，在[中填写采集的入口地址采集地址]框，[任务名称]自定义，点击下一步。

　　2.获取翻页链接

　　这种类型的翻页链接在页面请求中。您需要先找到请求链接，然后使用脚本将链接拼写出来。具体步骤如下：

　　①在浏览器中打开页面后，点击F12，清除所有请求后，刷新页面。

　　②向下浏览新闻，你会发现很多新闻，右边有很多请求。观察请求，找到翻页请求链接。

　　复制多个请求链接并观察链接模式：

　　{%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

　　③观察到请求链接中只有一个参数不同，分别为20、40、60。该参数的规则是：翻页数*20。按照这个规则，用脚本拼出翻页链接。选择链接提取后，打开脚本窗口：

　　④ 写一个for循环拼出翻页链接：

　　⑤写好脚本后，点击保存，然后点击采集预览，就可以看到拼出来的链接了。

　　3.提取列表链接

　　①继续观察翻页请求中的源代码内容，发现新闻内容在源数据后面的list后面的json字符串中。如下所示：

　　②新闻列表链接的title和news分别是每个对象的title和url值。

　　③返回ForeSpider系统，新建链接提取，打开脚本界面新建脚本：

　　④编写脚本如下：

　　⑤保存脚本后，采集预览看看是否提取成功。

　　4.提取新闻数据

　　①新建提取模板，在其下新建数据提取。具体操作如下：

　　②数据表的建立，建立如下图所示的数据表。（注意字段属性等要严格按照下图设置）

　　③将新创建的数据表与模板关联，如下图：

　　④填写样例数据，预览采集，复制任意新闻链接。

　　⑤将链接粘贴到本模板的示例地址中，双击内置浏览器空白处加载本链接。

　　⑥关联模板

　　⑦数据值

　　使用定位值的方法，title字段如下：

　　文本字段如下所示：

　　⑧采集预览

　　l采集步骤

　　模板配置完成后，采集预览没有问题，可以进行数据采集。

　　①创建数据表：

　　选择【数据创建表格】，点击【表格列表】中模板的表格，在【相关数据表】中选择【创建】，自定义表格名称，这里命名为【腾迅】（注意不能使用数字和特殊符号命名），点击【确定】。创建完成后，查看数据表，点击右上角的保存按钮。

　　②开始采集

　　选择【数据采集】，勾选任务名称，点击【启动采集】，正式启动采集。

　　③导出数据

　　采集结束后，可以在【数据视图】中选择数据表查看采集的数据，可以导出数据。

　　④导出的文件打开如下图：

　　l 简介

　　前沿嗅探大数据，国内领先的大数据研发专家，多年来一直致力于大数据技术的研发，自主研发了从采集、分析、处理、管理到应用，营销大数据产品。千玺致力于打造国内首个深度大数据平台！

0

2022-01-05

内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集( 腾讯网：前嗅大数据2021-12-31l采集网站)

0 个评论

发起人

AI时代内容工厂

内容采集( 腾讯网：前嗅大数据2021-12-31l采集网站)

0 个评论

发起人

相关问题