织梦(Dedecms)采集侠定向采集文章URL设置大全
优采云 发布时间: 2020-08-26 04:42织梦(Dedecms)采集侠定向采集文章URL设置大全
昨天飒飒在使用织梦(Dedecms)采集侠时,在定向采集文章URL设置过程中遇见了不少问题,虽然有官方演示做参照,但是亦不认为全面,导致常常会采集失败。下面飒飒来给你们列举一些官方文档没有详尽明说的定向采集文章URL设置。
官方文档给出的列表URL设置方式如下:
例:
比如我要采集站长之家优化栏目上面的文章,他们的文章URL是
通配后的URL就是:(*)/(*)/(*).shtml
但是大多数时侯我们会设置成:
(*).shtml或
(*).shtml或
(*)/(*).shtml或
(*)/0988/(*).shtml
虽然以上的通配URL也能实现采集,但是不是完整的通配。
小技巧:以后在设置列表URL时,遇见数字的全部采用转义,准没错!
以下来说说官方文档未列举但又常见的URL:
例1:
这样的文章链接该怎么写通配URL呢?想必有不少小伙伴会如下写:
(*)/(*).html
但是采集测试时,会告诉你采集失败,说明通配URL错误,那该怎么设置呢?
正确设置方式:(*)-(*)-(*)/(*).html
例2:
这是动态页面,没有生成伪静态或静态URL,也同样可以使用通配规则吗?
飒飒在此将结果告诉你:可以使用通配规则
正确设置方式:(*)
TIPS:当然,必须补充一点,不是所有文章URL设置正确以后就可以采集,采集器都是有限制的,比如那种网站设置了防采集功能,无论你在采集设置里面做多少努力,都是徒劳,所以,在设置采集时,先测试,很重要!一些大站或则牛逼的网站一般都有防采集设置!
总结
1.当设置文章通配URL时,如遇见非数字的,一律不能用转义(*),必须保留,方可正确采集。URL中常见的非数据有英语字母,-,_,?等。
2.URL通配规则一定要写全,写完后注意检测通配URL中是否富含数字,如富含,则通配URL为完成,将数字更改成键值以后再保存采集,在将来对方网站修改URL命名时,方能以不变应万变。屏蔽你采集IP除外。