不用采集规则就可以采集(掌握一种采集技巧对SEO站长而言还是很有帮助的)

优采云 发布时间: 2021-10-06 01:28

  不用采集规则就可以采集(掌握一种采集技巧对SEO站长而言还是很有帮助的)

  好久没用优采云采集器了。想起以前做站群SEO的时候,经常登录优采云采集器去采集各大相关网站信息内容。而那个时候,采集之风盛行,到处都是各种采集站,特别是小说站,文章站等等,动不动就有采集几十万文章,网站很容易达到重量4.虽然大部分网站现在很少采集,但采集还是无处不在,因为一些所谓的原创网站,文章的内容很可能也会被采集后续处理。所以掌握一个采集技术对SEO站长还是很有帮助的。

  优采云采集器URL 规则设置

  第一步打开优采云采集器,点击【新建】新建任务,填写任务名称,设置采集 URL规则,设置列表页采集规则和列表页面所在的文章页面规则分为以下两步。

  第一步:添加起始地址,点击【添加】,选择批量/多页,在地址格式设置中设置采集的网页链接,点击【添加】和【完成】。这一步的目的是建立有多少个栏目页面链接。

  采集网页链接技巧说明:首先确定你要采集的网页栏目页,分别查看栏目页1、第2页和第3页链接规则,比较后,会发现page 2和page 3的链接很像,只有2和3变了(分页1也是一样,一般为SEO格式隐藏,所以分页1和栏目首页链接是一样的)即可按照等差数列分析,其实绝大多数网站专栏页面都是按等差数列排列的,包括尹华峰的博客。因此,填充规则是选择算术数列,在地址格式中填写第2页的链接,用(*)代替改变的数字,根据栏目页数设置项数。

  第二步:多级网址获取,点击【添加】,选择网址获取选项,添加提取网址的规则。熟练后,建议使用结果网址过滤功能。写出需要收录和不需要收录的URL。可以测试一下规则是否填写正确,然后保存。这一步的目的是在每一栏下建立到文章页面的链接。

  多级URL获取技巧说明:我们要获取的是本栏目下文章页面的链接,到原网页查看栏目页面源码,找到第一个链接到文章页面在源页面的位置,然后选择上面的一小段通用代码,一定是每列页面都会出现的代码,通常的表达形式会收录list或者文章。

  优采云采集器内容规则设置

  第二步是设置采集内容规则。可以在典型页面上填写一个文章页面链接进行测试,设置标题采集规则和内容采集规则,也分为两步。

  步骤a:双击【标题】标签。一般网页的标题是一个标签,所以这一步可以默认。如有必要,您可以设置内容过滤和内容替换。

  步骤 b:双击 [内容] 选项卡。内容抽取规则与第一步中的第2步多级URL获取方法相同。这里是获取内容,所以就是查看内容页的源码,找到这个页面的body内容,截取body第一段上面的一小段通用代码。此代码也出现在所有文章 页面上,通常的表达形式文章标签是开头和结尾。您还可以设置内容过滤、内容替换和标签过滤来过滤掉不需要的信息。如果不需要图片,可以勾选过滤掉img图片标签。

  优采云采集器发布内容设置

  第三步,发布内容设置,勾选需要启用的发布方式,保存,然后在任务列表中右键任务名称,点击【开始任务】,等待采集完成即可。

  注意,优采云采集器分为两种发布内容的方式。第一种方式是通过web在线发布到网站,需要添加发布配置。新手不建议直接发布到网站,建议勾选第二个并保存为本地。至于文件模板,可以【查看默认模板】,然后选择TXT格式。

  结论:优采云采集器很强大,除了采集文章还可以采集视频等,优采云采集器 使用规则并不难。您根本不需要了解任何编程语言。您只需要了解一些常见的简单代码即可。你基本上可以掌握它一次或两次。这是一个非常好的SEO工具。作为网站优化者,我们可以对采集文章之后的内容进行修改和调整,使内容更加完整,同时可以大大提高SEO人员的工作效率。优采云采集器 使用方法介绍到这里。如果不明白,可以在下方留言,尽我所知给予解答。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线