织梦cms(dedecms)采集文章二

优采云发布时间: 2020-08-25 09:46

　　织梦cms(dedecms)采集文章二

　　网页内容获取规则。系统会默认一个采集url为预览网址，另外内容分页导航所在的区域匹配规则也太灵活，除了和phpcms一样有全“部列举的分页列表模式”、“上下页方式或不完整的分页列表模式”外，还多了一个“分页列表规则”。

　　各数组内容采集，dedecms的内容匹配规则和phpcms一样：“起始无重复HTML[内容]结尾无重复HTML”，[内容]即为所采内容。过滤规则是{dede:trim replace=""}规则{/dede:trim}，多个规则的话一个一行，如果要替换成指定的值，则只要在replace=""的冒号里设置即可。

　　其中，内容摘要、关键字、缩略图系统会用正则进行手动匹配，我们只需设置过滤内容即可。其余数组分别设置匹配规则和过滤规则，系统同样自带了几个常用的过滤规则，但是点击“常用规则”后为弹出小窗口模式，稍微有点不便捷。针对本测试的标题采集，以下两种形式都是可以的，如图：

　　文章作者、文章来源和发布时间数组一样采集，但是此版本dedecms在这几个数组下没有“自定义处理插口”了，如果有的话会稍显灵活，例如设置固定值可直接用“@me="固定值"”实现。现在不能用自定义处理插口设定固定值，也没有数组值设置，只能通过采集网页某一固定值之后用替换。如图：

　　dedecms的文章内容采集非常强悍，除了匹配规则和过滤规则，还有个“自定义处理插口”。如果你有php基础的话，可以通过此功能对采集结果@me进行各类处理，强大到不行啊。以后小编会专门发一篇此功能的讲解文章。最后，不能直接在采集管理处新增采集字段，只能在对应内容模型管理中降低数组，采集管理会手动降低。如小编在“普通文章”内容模型那降低了一个“chinaz数组”，则采集设置中手动增了一个“chinaz数组”项目。

　　保存并测试，查看列表测试信息和网页规则测试，检查是否正确，无误后确定并开始采集。进入采集指定节点设置页面，因为小编之前有测试一遍，所以有60个历史*敏*感*词*网址，即小编之前早已采集了60个网址，另外还有几个选项你们按需求选择。

　　点开始采集网页，出现此采集提示信息显示采集进度，不知道是小编人品不好还是dede采集本身缺点，经常会浏览器没反应，采集停止在那，只有自动点击了就会继续。

0

2020-08-25

文章cms采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

织梦cms(dedecms)采集文章二

0 个评论

发起人

AI时代内容工厂

织梦cms(dedecms)采集文章二

0 个评论

发起人

相关问题