如何文章采集( 个人站长如何批量采集文章?优采云采集器使用详细教程已经很久没)

优采云 发布时间: 2021-10-09 04:09

  如何文章采集(

个人站长如何批量采集文章?优采云采集器使用详细教程已经很久没)

  个别站长如何批量采集文章?优采云采集器 详细教程

  个别站长如何批量采集文章?优采云采集器 详细教程

  好久没用优采云采集器了。记得第一次学优采云采集或者刚毕业做外推,经常登录优采云采集器到采集专业相关网站相关内容。而那个时候,采集之风盛行,到处都是各种采集站,尤其是小说站、文章站等,动不动就采集几十万文章,网站很容易达到重量4.虽然大部分网站现在很少采集,但采集还是无处不在,因为一些所谓的原创网站,文章的内容很可能也会被采集后续处理。所以掌握一个采集 技术对个人站长还是很有帮助的。以下冷谋软件库分享优采云采集器教程,供新手个人站长参考。

  

  优采云采集器URL 规则设置

  第一步打开优采云采集器,点击【新建】新建任务,填写任务名称,设置采集 URL规则,设置列表页采集规则和列表页面所在的文章页面规则分为以下两步。

  第一步:添加起始地址,点击【添加】,选择批量/多页,在地址格式设置中设置采集的网页链接,点击【添加】和【完成】。这一步的目的是建立有多少个栏目页面链接。

  

  采集网页链接技巧说明:首先确定你要采集网页栏目页,分别查看栏目页1、第2页和第3页链接规则,比较后即可找到第2页和第3页的链接很像,只有2和3变了(第1页也是一样,一般为SEO格式隐藏,所以第1页与栏目首页链接一致)。可以分析为是等差数列排列。其实大部分都是网站专栏页面按算术数列排列,包括尹华峰的博客。因此,填充规则是选择等差数列,在地址格式中填写第2页的链接,用(*)代替改变的数字,根据栏目页数设置项数。

  第二步:多级网址获取,点击【添加】,选择网址获取选项,添加提取网址的规则。熟练后,建议使用结果网址过滤功能。写出需要收录和不需要收录的URL。可以测试一下规则是否填写正确,然后保存。这一步的目的是在每一栏下建立到文章页面的链接。

  

  多级URL获取技巧说明:我们要获取的是本栏目下文章页面的链接,到原网页查看栏目页面源码,找到第一个链接到文章 页面在源页面位置,然后选择上面的一小段通用代码。它必须是将出现在每个列页面上的代码。通常的表达形式将收录列表或文章的代码。

  优采云采集器内容规则设置

  第二步是设置采集内容规则。可以在典型页面上填写一个文章页面链接进行测试,设置标题采集规则和内容采集规则,也分为两步。

  

  步骤a:双击【标题】标签。一般网页的标题是一个标签,所以这一步可以默认。如有必要,您可以设置内容过滤和内容替换。

  步骤 b:双击 [内容] 选项卡。内容抽取规则与第一步中的第2步多级URL获取方法相同。这里是获取内容,所以就是查看内容页的源码,找到这个页面的body内容,截取body第一段上面的一小段通用代码。这段代码也出现在所有文章页面上,通常的表达形式是以文章标签为开头,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线