织梦(Dedecms)采集侠定向采集文章URL设置大全

优采云 发布时间: 2020-08-26 04:42

  织梦(Dedecms)采集侠定向采集文章URL设置大全

  昨天飒飒在使用织梦(Dedecms)采集侠时,在定向采集文章URL设置过程中遇见了不少问题,虽然有官方演示做参照,但是亦不认为全面,导致常常会采集失败。下面飒飒来给你们列举一些官方文档没有详尽明说的定向采集文章URL设置。

  

  官方文档给出的列表URL设置方式如下:

  例:

  比如我要采集站长之家优化栏目上面的文章,他们的文章URL是

  通配后的URL就是:(*)/(*)/(*).shtml

  

  但是大多数时侯我们会设置成:

  (*).shtml或

  (*).shtml或

  (*)/(*).shtml或

  (*)/0988/(*).shtml

  虽然以上的通配URL也能实现采集,但是不是完整的通配。

  小技巧:以后在设置列表URL时,遇见数字的全部采用转义,准没错!

  

  以下来说说官方文档未列举但又常见的URL:

  例1:

  这样的文章链接该怎么写通配URL呢?想必有不少小伙伴会如下写:

  (*)/(*).html

  但是采集测试时,会告诉你采集失败,说明通配URL错误,那该怎么设置呢?

  正确设置方式:(*)-(*)-(*)/(*).html

  例2:

  这是动态页面,没有生成伪静态或静态URL,也同样可以使用通配规则吗?

  飒飒在此将结果告诉你:可以使用通配规则

  正确设置方式:(*)

  TIPS:当然,必须补充一点,不是所有文章URL设置正确以后就可以采集,采集器都是有限制的,比如那种网站设置了防采集功能,无论你在采集设置里面做多少努力,都是徒劳,所以,在设置采集时,先测试,很重要!一些大站或则牛逼的网站一般都有防采集设置!

  总结

  1.当设置文章通配URL时,如遇见非数字的,一律不能用转义(*),必须保留,方可正确采集。URL中常见的非数据有英语字母,-,_,?等。

  2.URL通配规则一定要写全,写完后注意检测通配URL中是否富含数字,如富含,则通配URL为完成,将数字更改成键值以后再保存采集,在将来对方网站修改URL命名时,方能以不变应万变。屏蔽你采集IP除外。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线