内容采集( 腾讯网:前嗅大数据2021-12-31l采集网站)

优采云 发布时间: 2022-01-05 11:10

  内容采集(

腾讯网:前嗅大数据2021-12-31l采集网站)

  【从零开始学爬】采集腾讯新闻数据

  

  前端嗅探大数据 2021-12-31

  l采集网站

  【场景描述】采集腾讯新闻数据。

  [来源网站 简介] 自2003年成立以来,腾讯已成为集新闻资讯、区域垂直生活服务、社交媒体资讯及产品为一体的互联网媒体平台。

  【使用工具】预嗅ForeSpider数据采集系统,免费下载:

  l采集网站

  [入口网址]

  【采集内容】

  采集 腾讯新闻的标题和正文内容。

  

  【采集效果】如下图:

  

  l 思维分析

  配置思路概述:

  l 配置步骤

  1.新建采集任务

  选择[采集配置],点击任务列表右上方的[+]号新建采集任务,在[中填写采集的入口地址采集地址]框,[任务名称]自定义,点击下一步。

  

  2.获取翻页链接

  这种类型的翻页链接在页面请求中。您需要先找到请求链接,然后使用脚本将链接拼写出来。具体步骤如下:

  ①在浏览器中打开页面后,点击F12,清除所有请求后,刷新页面。

  

  ②向下浏览新闻,你会发现很多新闻,右边有很多请求。观察请求,找到翻页请求链接。

  

  复制多个请求链接并观察链接模式:

  {%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

  {%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

  {%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

  ③观察到请求链接中只有一个参数不同,分别为20、40、60。该参数的规则是:翻页数*20。按照这个规则,用脚本拼出翻页链接。选择链接提取后,打开脚本窗口:

  

  ④ 写一个for循环拼出翻页链接:

  

  ⑤写好脚本后,点击保存,然后点击采集预览,就可以看到拼出来的链接了。

  

  3.提取列表链接

  ①继续观察翻页请求中的源代码内容,发现新闻内容在源数据后面的list后面的json字符串中。如下所示:

  

  ②新闻列表链接的title和news分别是每个对象的title和url值。

  

  ③返回ForeSpider系统,新建链接提取,打开脚本界面新建脚本:

  

  ④编写脚本如下:

  

  ⑤保存脚本后,采集预览看看是否提取成功。

  

  4.提取新闻数据

  ①新建提取模板,在其下新建数据提取。具体操作如下:

  

  ②数据表的建立,建立如下图所示的数据表。(注意字段属性等要严格按照下图设置)

  

  ③将新创建的数据表与模板关联,如下图:

  

  ④填写样例数据,预览采集,复制任意新闻链接。

  

  ⑤将链接粘贴到本模板的示例地址中,双击内置浏览器空白处加载本链接。

  

  ⑥关联模板

  

  ⑦数据值

  使用定位值的方法,title字段如下:

  

  文本字段如下所示:

  

  ⑧采集 预览

  

  l采集步骤

  模板配置完成后,采集预览没有问题,可以进行数据采集。

  ①创建数据表:

  选择【数据创建表格】,点击【表格列表】中模板的表格,在【相关数据表】中选择【创建】,自定义表格名称,这里命名为【腾迅】(注意不能使用数字和特殊符号命名),点击【确定】。创建完成后,查看数据表,点击右上角的保存按钮。

  

  ②开始采集

  选择【数据采集】,勾选任务名称,点击【启动采集】,正式启动采集。

  

  ③导出数据

  采集结束后,可以在【数据视图】中选择数据表查看采集的数据,可以导出数据。

  

  

  ④导出的文件打开如下图:

  

  l 简介

  前沿嗅探大数据,国内领先的大数据研发专家,多年来一直致力于大数据技术的研发,自主研发了从采集、分析、处理、管理到应用,营销大数据产品。千玺致力于打造国内首个深度大数据平台!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线