seo文章采集站群系统(徐三在定向采集文章URL设置的演示做参照,亦不觉得全面)

优采云 发布时间: 2021-09-05 14:22

  seo文章采集站群系统(徐三在定向采集文章URL设置的演示做参照,亦不觉得全面)

  昨天许三在使用织梦(Dedecms)采集侠的时候,在设置采集文章URL的过程中遇到了很多问题。虽然有官方的demo可以参考,但也是我觉得不够全面,经常导致采集失败。下面,许三来给大家举一些官方文档中没有规定的定向采集文章URL设置的例子。

  

  官方文档中给出的列表URL设置方法如下:

  示例:

  比如我想要文章优化栏里的采集站长之家,他们的文章URL是

  通配符后的网址为:(*)/(*)/(*).shtml

  

  但大多数时候我们会将其设置为:

  (*).shtml 或

  (*).shtml 或

  (*)/(*).shtml 或

  (*)/0988/(*).shtml

  虽然上面的通配符网址也可以实现采集,但并不是一个完整的通配符。

  温馨提示:以后设置列表网址时,遇到的所有数字都会使用通配符,没错!

  

  说说官方文档中没有列出但很常见的网址:

  示例 1:

  如何为此类文章 链接编写通配符 URL?想必很多朋友会这样写:

  (*)/(*).html

  但是采集在测试的时候会告诉你采集失败了,说明通配符URL错误,那么如何设置呢?

  正确的设置方法:(*)-(*)-(*)/(*).html

  示例 2:

  这是一个动态页面。不会生成伪静态或静态 URL。也可以使用通配符规则吗?

  莎莎会在这里告诉你结果:可以使用通配符规则

  正确的设置方法:(*)

  TIPS:当然要补充的是,采集、采集器都被限制后,并不是所有的文章URL都能正确设置。比如网站设置了反采集功能,不管你在采集设置上做了多少努力都是徒劳的,所以在设置采集的时候一定要先测试一下!一些大网站或者很棒的网站一般都有反采集设置!

  总结

  1.设置文章通配符网址时,如果遇到非数字网址,不能使用通配符(*),必须保留,才能正确采集。 URL中常见的非数据有英文字母、-、_、?等

  2.URL 通配符规则必须完整写入。写完后,检查通配符 URL 是否收录数字。如果是,则通配符 URL 是完整的。将数字修改为通配符后,保存采集,以后当对方网站修改URL命名时,保持不变。除了屏蔽你采集IP。

  以上是rustle设置的织梦(Dedecms)采集侠方向采集文章URL设置完成。希望小伙伴们和沙沙一起完善采集的设定,让它变得这么难采集不再难了!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线