织梦cms(dedecms)采集文章二
优采云 发布时间: 2020-08-25 09:46织梦cms(dedecms)采集文章二
网页内容获取规则。系统会默认一个采集url为预览网址,另外内容分页导航所在的区域匹配规则也太灵活,除了和phpcms一样有全“部列举的分页列表模式”、“上下页方式或不完整的分页列表模式”外,还多了一个“分页列表规则”。
各数组内容采集,dedecms的内容匹配规则和phpcms一样:“起始无重复HTML[内容]结尾无重复HTML”,[内容]即为所采内容。过滤规则是{dede:trim replace=""}规则{/dede:trim},多个规则的话一个一行,如果要替换成指定的值,则只要在replace=""的冒号里设置即可。
其中,内容摘要、关键字、缩略图系统会用正则进行手动匹配,我们只需设置过滤内容即可。其余数组分别设置匹配规则和过滤规则,系统同样自带了几个常用的过滤规则,但是点击“常用规则”后为弹出小窗口模式,稍微有点不便捷。针对本测试的标题采集,以下两种形式都是可以的,如图:
文章作者、文章来源和发布时间数组一样采集,但是此版本dedecms在这几个数组下没有“自定义处理插口”了,如果有的话会稍显灵活,例如设置固定值可直接用“@me="固定值"”实现。现在不能用自定义处理插口设定固定值,也没有数组值设置,只能通过采集网页某一固定值之后用替换。如图:
dedecms的文章内容采集非常强悍,除了匹配规则和过滤规则,还有个“自定义处理插口”。如果你有php基础的话,可以通过此功能对采集结果@me进行各类处理,强大到不行啊。以后小编会专门发一篇此功能的讲解文章。最后,不能直接在采集管理处新增采集字段,只能在对应内容模型管理中降低数组,采集管理会手动降低。如小编在“普通文章”内容模型那降低了一个“chinaz数组”,则采集设置中手动增了一个“chinaz数组”项目。
保存并测试,查看列表测试信息和网页规则测试,检查是否正确,无误后确定并开始采集。进入采集指定节点设置页面,因为小编之前有测试一遍,所以有60个历史*敏*感*词*网址,即小编之前早已采集了60个网址,另外还有几个选项你们按需求选择。
点开始采集网页,出现此采集提示信息显示采集进度,不知道是小编人品不好还是dede采集本身缺点,经常会浏览器没反应,采集停止在那,只有自动点击了就会继续。