自媒体文章采集器(百家号为例告诉大家爆文采集器使用详细的方法!!)

优采云 发布时间: 2022-03-14 08:26

  自媒体文章采集器(百家号为例告诉大家爆文采集器使用详细的方法!!)

  自媒体爆文采集随着互联网的发展,自媒体行业越来越受到关注,出现了很多自媒体网站@ >、网站@>以上爆文相信很多做内容的人也是采集down,本文将以百家账号为例,告诉大家具体使用方法< @爆文采集器 。

  采集网站@>::///doc/74016332dcccda38376baf1ff*敏*感*词*ffe473368fd25.html/(百家号首页,首页一般好读文章,采集@ > 之后,过滤表格中的阅读量,找到百家号爆文)。

  使用功能点:

  分页列表信息采集

  AJAX点击和翻页

  第 1 步:创建一个 采集 任务

  1)进入主界面,选择“自定义模式”

  

  2)把你要采集的网址的网址复制粘贴到网站@>的输入框中,点击“保存网址”

  

  第 2 步:创建翻页循环

  1)在页面右上角,打开“Process”,显示“Process Designer”和“Customize Current Actions”部分。打开网页时,默认显示“热门”文章。向下滚动页面,找到并单击“查看”

  更多”按钮,在动作提示框中,选择“循环点击单个元素”创建翻页循环

  

  由于这个网页涉及到 Ajax 技术,我们需要设置一些高级选项。选择“点击元素”这一步,打开“高级选项”,勾选“Ajax加载数据”,时间设置为“2秒”

  

  注意:AJAX 是一种延迟加载和异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。性能特点: a.当点击网页上的某个选项时,网站@>的大部分URL不会改变;湾。网页没有完全加载,而只是部分加载了数据,这些数据会发生变化。

  验证方法:点击操作后,在浏览器中,URL输入栏不会出现在加载状态或圆圈状态。

  2)观察网页,我们发现点击“查看更多”按钮,可以无限加载页面。如何限制循环次数?选择“循环页面”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循环次数等于“5次”,点击“确定”

  

  (注:这里的循环次数可以根据自己的需要确定)

  第 3 步:创建列表循环并提取数据

  1)移动鼠标选中页面上的第一个文章链接,系统会自动选中页面上的一组文章链接。在弹出的操作提示框中,选择“全选”

  

  2)选择“循环遍历每个链接”

  

  注:如图所示,需要的数据已经加载完毕,但是网页长时间处于加载状态,可以点击右侧的“x”结束加载

  

  3)点击第一篇文章的标题文章,在右侧的操作提示框中,选择“采集本元素的文字”

  

  4)同理,采集文章的发件人、时间、阅读次数和文字

  

  5)字段选择完成后,选择对应的字段,自定义字段的命名。注意:如图,点击“添加特殊字段”,添加当前页面URL、当前时间等字段。

  

  第四步:调整流程图结构

  我们继续观察到,多次“查看更多”后,这个页面加载了多个文章。所以配置规则的思路是先建立一个翻页循环,加载需要的文章,然后建立循环列表提取数据

  1)选择整个循环步骤并将其拖出循环页面步骤。如果不这样做,会出现大量重复数据

  

  拖动完成后,如下图所示

  

  3)点击左上角的“Save and Launch”,选择“Launch Local采集”

  

  4)做了一个采集后,发现当我们点击每一个文章详情页面时,想要的数据已经加载完毕,但是页面还是加载了很久。为了提高采集的速度,我们选择“点击元素”这一步,勾选“Ajax加载数据”

  注意:这个网页没有使用Ajax技术,但是为了提高采集的速度,我们设置Ajax强制停止加载,进入下一步。否则,可能无法提取数据。详情请参考教程:使用AJAX实现超时结束步骤

  /tutorialdetail-1/ajaxdjfy_7.html

  

  第 5 步:数据采集 和导出

  1)重新开始采集。采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好搜狗微信文章的数据

  

  2)这里我们选择excel作为导出格式,导出数据如下图

  

  相关 采集 教程:

  如何通过关键词采集搜狗微信公众号文章搜索:

  /tutorialdetail-1/sgwxwzcj-7.html

  新浪博客文章采集

  /tutorialdetail-1/sinablogcj.html

  uc头条文章采集:

  /tutorialdetail-1/ucnewscj.html

  微信公众号热门文章采集(文字+图片):

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线