seo文章采集站群系统(徐三在定向采集文章URL设置的演示做参照,亦不觉得全面)
优采云 发布时间: 2021-09-05 14:22seo文章采集站群系统(徐三在定向采集文章URL设置的演示做参照,亦不觉得全面)
昨天许三在使用织梦(Dedecms)采集侠的时候,在设置采集文章URL的过程中遇到了很多问题。虽然有官方的demo可以参考,但也是我觉得不够全面,经常导致采集失败。下面,许三来给大家举一些官方文档中没有规定的定向采集文章URL设置的例子。
官方文档中给出的列表URL设置方法如下:
示例:
比如我想要文章优化栏里的采集站长之家,他们的文章URL是
通配符后的网址为:(*)/(*)/(*).shtml
但大多数时候我们会将其设置为:
(*).shtml 或
(*).shtml 或
(*)/(*).shtml 或
(*)/0988/(*).shtml
虽然上面的通配符网址也可以实现采集,但并不是一个完整的通配符。
温馨提示:以后设置列表网址时,遇到的所有数字都会使用通配符,没错!
说说官方文档中没有列出但很常见的网址:
示例 1:
如何为此类文章 链接编写通配符 URL?想必很多朋友会这样写:
(*)/(*).html
但是采集在测试的时候会告诉你采集失败了,说明通配符URL错误,那么如何设置呢?
正确的设置方法:(*)-(*)-(*)/(*).html
示例 2:
这是一个动态页面。不会生成伪静态或静态 URL。也可以使用通配符规则吗?
莎莎会在这里告诉你结果:可以使用通配符规则
正确的设置方法:(*)
TIPS:当然要补充的是,采集、采集器都被限制后,并不是所有的文章URL都能正确设置。比如网站设置了反采集功能,不管你在采集设置上做了多少努力都是徒劳的,所以在设置采集的时候一定要先测试一下!一些大网站或者很棒的网站一般都有反采集设置!
总结
1.设置文章通配符网址时,如果遇到非数字网址,不能使用通配符(*),必须保留,才能正确采集。 URL中常见的非数据有英文字母、-、_、?等
2.URL 通配符规则必须完整写入。写完后,检查通配符 URL 是否收录数字。如果是,则通配符 URL 是完整的。将数字修改为通配符后,保存采集,以后当对方网站修改URL命名时,保持不变。除了屏蔽你采集IP。
以上是rustle设置的织梦(Dedecms)采集侠方向采集文章URL设置完成。希望小伙伴们和沙沙一起完善采集的设定,让它变得这么难采集不再难了!