文章采集站教程

优采云 发布时间: 2020-05-16 08:06

  

  八爪鱼·云采集服务平台 文章采集站教程文章采集站是 SEO 众多方法中的一种,主要是通过使用工具将大量的文章采集 下来,然后通过程序加工整理,列表整合,相关推荐,从而获取不错的 SEO 流 量。将大量的文章采集下来是很重要的一环,这里推荐一个工具,可以自定义的 去采集多个主流媒体的文章, 下面仅以微信公众号采集为例,去介绍文章采集的 一个思路,其它文章媒体也是同样的采集方法。采集网站:使用功能点:? 分页列表信息采集 ? Xpath ? AJAX 点击和翻页步骤 1:创建采集任务1)进入主界面,选择“自定义模式”八爪鱼·云采集服务平台 微信公众号文章采集步骤 12)将要采集的网址 URL 复制粘贴到网站输入框中,点击“保存网址”八爪鱼·云采集服务平台 微信公众号文章采集步骤 2步骤 2:创建翻页循环1)在页面右上角,打开“流程”,以突显出“流程设计器”和“定制当前操作” 两个蓝筹股。网页打开后,默认显示“热门”文章。下拉页面,找到并点击“加载 更多内容”按钮,在操作提示框中,选择“更多操作”八爪鱼·云采集服务平台 微信公众号文章采集步骤 32)选择“循环点击单个元素”,以创建一个翻页循环八爪鱼·云采集服务平台 微信公众号文章采集步骤 4因为此网页涉及 Ajax 技术,我们须要进行一些中级选项的设置。

  选中“点击元 素”步骤,打开“高级选项”,勾选“Ajax 加载数据”,设置时间为“2 秒”八爪鱼·云采集服务平台 微信公众号文章采集步骤 5注:AJAX 即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少 量数据交换,可以在不重新加载整个网页的情况下,对网页的某部份进行更新。 表现特点:a、点击网页中某个选项时,大部分网站的网址不会改变; b、网页 不是完全加载,只是局部进行了数据加载,有所变化。 验证方法:点击操作后,在浏览器中文章采集站,网址输入栏不会出现加载中的状态或则转 圈状态。八爪鱼·云采集服务平台 观察网页,我们发觉,通过 5 次点击“加载更多内容”,页面加载到最顶部,一 共显示 100 篇文章。因此,我们设置整个“循环翻页”步骤执行 5 次。选中“循 环翻页”步骤,打开“高级选项”,打开“满足以下条件时退出循环”,设置循 环次数等于“5 次”,点击“确定”微信公众号文章采集步骤 6步骤 3:创建列表循环并提取数据1)移动滑鼠,选中页面里第一条文章链接。系统会手动辨识相像链接,在操作 提示框中,选择“选中全部”八爪鱼·云采集服务平台 微信公众号文章采集步骤 72)选择“循环点击每位链接”八爪鱼·云采集服务平台 微信公众号文章采集步骤 83)系统会手动步入文章详情页。

   点击须要采集的数组 (这里先点击了文章标题) , 在操作提示框中,选择“采集该元素的文本”。文章发布时间、文章来源数组的 采集方法同理八爪鱼·云采集服务平台 微信公众号文章采集步骤 94)接下来开始采集文章正文。先点击文章正文的第一段,系统会手动辨识页面 内的同类元素,选择“选中全部”八爪鱼·云采集服务平台 微信公众号文章采集步骤 105) 可以看见, 所有的正文段落均被选中,变为红色。选择“采集以下元素文本”八爪鱼·云采集服务平台 微信公众号文章采集步骤 11注意:在数组表中,可进行数组的自定义更改八爪鱼·云采集服务平台 微信公众号文章采集步骤 126) 经过如上操作文章采集站, 正文都会被全部采集下来 (默认为每一段正文为一个单元格) 。 一般而言, 我们希望采集的正文, 合并为同一个单元格。 点击 “自定义数据字段” 按钮,选择“自定义数据合并方法”,勾选“同一数组多次提取合并为一行,即 追加到同一数组,例如正文分页合并”,再点击“确定”八爪鱼·云采集服务平台 微信公众号文章采集步骤 13“自定义数据字段”按钮八爪鱼·云采集服务平台 选择“自定义数据合并方法”微信公众号文章采集步骤 14八爪鱼·云采集服务平台 微信公众号文章采集步骤 15如图进行勾选步骤 4:修改 Xpath1)选中整个“循环步骤”,打开“高级选项”,可以看见,八爪鱼默认生成的 是固定元素列表,定位的是前 20 篇文章的链接八爪鱼·云采集服务平台 微信公众号文章采集步骤 162) 在火狐浏览器中打开要采集的网页并观察源码。

   我们发觉, 通过此条 Xpath: //DIV[@class='main-left']/DIV[3]/UL/LI/DIV[2]/H3[1]/A, 页面中所需的 100 篇文章均被定位了八爪鱼·云采集服务平台 微信公众号文章采集步骤 173)将修改后的 Xpath,复制粘贴到八爪鱼中所示位置,然后点击“确定”八爪鱼·云采集服务平台 微信公众号文章采集步骤 18步骤 5:修改流程图结构我们继续观察,通过 5 次点击“加载更多内容”后,此网页加载出全部 100 篇 文章。 因而我们配置规则的思路是, 先构建翻页循环, 加载出全部 100 篇文章, 再完善循环列表,提取数据 1)选中整个“循环”步骤,将其拖出“循环翻页”步骤。如果不进行此项操作, 那么将会出现好多重复数据八爪鱼·云采集服务平台 微信公众号文章采集步骤 19拖动完成后,如下图所示八爪鱼·云采集服务平台 微信公众号文章采集步骤 20步骤 6:数据采集及导入1)点击左上角的“保存”,然后点击“开始采集”,选择“启动本地采集”八爪鱼·云采集服务平台 微信公众号文章采集步骤 212)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导入方法”, 将采集好的数据导入八爪鱼·云采集服务平台 微信公众号文章采集步骤 223)这里我们选择 excel 作为导入为格式,数据导入后如下图八爪鱼·云采集服务平台 微信公众号文章采集步骤 234)如上图,部分文章的正文没有采集到。

  那是因为,系统手动生成的文章正文 的循环列表的 Xpath://[@id="js_content"]/P,定位不到此篇文章的正文。 将 Xpath 修改为://[@id="js_content"]//P,所有的文章正文均可被定位到八爪鱼·云采集服务平台 微信公众号文章采集步骤 23更改 Xpath 前八爪鱼·云采集服务平台 微信公众号文章采集步骤 24说明: 本文的方式仅适用于采集搜狗陌陌文章正文的文本内容,不可采集正文中 的图片,如需采集图片,则需在流程中加入一个判定条件。相关采集教程: 网易自媒体文章采集 新浪博客文章采集 uc 头条文章采集 自媒体文章怎么采集 八爪鱼·云采集服务平台 欢乐书客小说采集 百家号爆文采集 百度新闻采集 八爪鱼——70 万用户选择的网页数据采集器。 1、操作简单,任何人都可以用:无需技术背景,会上网才能采集。完全可视化 流程,点击滑鼠完成操作,2 分钟即可快速入门。 2、功能强悍,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布 流、Ajax 脚本异步加载数据的网页,均可经过简单设置进行采集。 3、云采集,关机也可以。配置好采集任务后可死机,任务可在云端执行。庞大 云采集集群 24*7 不间断运行,不用害怕 IP 被封,网络中断。 4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的 基本采集需求。同时设置了一些增值服务(如私有云),满足低端付费企业用户 的须要。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线