内容采集( 腾讯网:前嗅大数据2021-12-31l采集网站)
优采云 发布时间: 2022-01-05 11:10内容采集(
腾讯网:前嗅大数据2021-12-31l采集网站)
【从零开始学爬】采集腾讯新闻数据
前端嗅探大数据 2021-12-31
l采集网站
【场景描述】采集腾讯新闻数据。
[来源网站 简介] 自2003年成立以来,腾讯已成为集新闻资讯、区域垂直生活服务、社交媒体资讯及产品为一体的互联网媒体平台。
【使用工具】预嗅ForeSpider数据采集系统,免费下载:
l采集网站
[入口网址]
【采集内容】
采集 腾讯新闻的标题和正文内容。
【采集效果】如下图:
l 思维分析
配置思路概述:
l 配置步骤
1.新建采集任务
选择[采集配置],点击任务列表右上方的[+]号新建采集任务,在[中填写采集的入口地址采集地址]框,[任务名称]自定义,点击下一步。
2.获取翻页链接
这种类型的翻页链接在页面请求中。您需要先找到请求链接,然后使用脚本将链接拼写出来。具体步骤如下:
①在浏览器中打开页面后,点击F12,清除所有请求后,刷新页面。
②向下浏览新闻,你会发现很多新闻,右边有很多请求。观察请求,找到翻页请求链接。
复制多个请求链接并观察链接模式:
{%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}
{%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}
{%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}
③观察到请求链接中只有一个参数不同,分别为20、40、60。该参数的规则是:翻页数*20。按照这个规则,用脚本拼出翻页链接。选择链接提取后,打开脚本窗口:
④ 写一个for循环拼出翻页链接:
⑤写好脚本后,点击保存,然后点击采集预览,就可以看到拼出来的链接了。
3.提取列表链接
①继续观察翻页请求中的源代码内容,发现新闻内容在源数据后面的list后面的json字符串中。如下所示:
②新闻列表链接的title和news分别是每个对象的title和url值。
③返回ForeSpider系统,新建链接提取,打开脚本界面新建脚本:
④编写脚本如下:
⑤保存脚本后,采集预览看看是否提取成功。
4.提取新闻数据
①新建提取模板,在其下新建数据提取。具体操作如下:
②数据表的建立,建立如下图所示的数据表。(注意字段属性等要严格按照下图设置)
③将新创建的数据表与模板关联,如下图:
④填写样例数据,预览采集,复制任意新闻链接。
⑤将链接粘贴到本模板的示例地址中,双击内置浏览器空白处加载本链接。
⑥关联模板
⑦数据值
使用定位值的方法,title字段如下:
文本字段如下所示:
⑧采集 预览
l采集步骤
模板配置完成后,采集预览没有问题,可以进行数据采集。
①创建数据表:
选择【数据创建表格】,点击【表格列表】中模板的表格,在【相关数据表】中选择【创建】,自定义表格名称,这里命名为【腾迅】(注意不能使用数字和特殊符号命名),点击【确定】。创建完成后,查看数据表,点击右上角的保存按钮。
②开始采集
选择【数据采集】,勾选任务名称,点击【启动采集】,正式启动采集。
③导出数据
采集结束后,可以在【数据视图】中选择数据表查看采集的数据,可以导出数据。
④导出的文件打开如下图:
l 简介
前沿嗅探大数据,国内领先的大数据研发专家,多年来一直致力于大数据技术的研发,自主研发了从采集、分析、处理、管理到应用,营销大数据产品。千玺致力于打造国内首个深度大数据平台!