DedeCMS文章集合，介绍织梦的采集功能

优采云发布时间: 2020-08-06 11:15

　　织梦CMS文章集

　　创建一个新的文章采集节点，后台-采集-采集节点管理-添加新节点，选择内容模型作为普通文章.

　　文章采集介绍织梦的采集功能'

　　文章采集介绍织梦的采集功能'

　　设置节点的基本信息. 目标源代码与上一篇文章中提到的相同. 查看目标网站的源代码后，设置区域匹配模式的默认字符串. 仅当字符串不能确定区域时才使用正则表达式，但通常不使用. 最后是防水-链接模式，这是编织梦cms集合的特征之一. 如果目标网站具有防盗功能，则可以成功采集次要功能，但是会降低采集速度. 该测试的目标网站没有防盗功能，因此未打开.

　　文章采集介绍织梦的采集功能'

　　列出网站获取规则. 如上一篇文章所分析，列表URL可以定期且批量生成. 在这里，我想谈一谈dedecms的功能. 不仅可以灵活地组合获取列表URL的方式，而且，如果目标网站的整个网站都使用相同的模板，则可以通过设置后一个采集规则来启用“多列通配符（#）”功能. 采集整个网站并发布不同的列，而无需一栏对应一个规则.

　　文章采集介绍织梦的采集功能'

　　文章URL匹配规则. 查看目标列表页面的源代码，设置要采集的文章URL区域的开始和结束html（与您通常使用的优采云采集规则相同），然后，如果要采集，则使用dedecms的功能之一URL页面链接有些图片可以直接采集为缩略图，这非常方便. 区域URL的重新筛选也具有其自身的特征. 除了支持正则表达式外，它还声明了“必须收录”和“不能收录”的优先级. （再次过滤列表页面的URL，以排除混乱页面的影响）

　　文章采集介绍织梦的采集功能'

　　保存并测试，系统将应用先前的设置来测试采集URL，在正确无误后保存信息，然后输入下一个内容采集设置.

　　文章采集介绍织梦的采集功能'

　　Web内容获取规则. 系统将默认使用集合URL作为预览URL. 此外，内容寻呼导航所在区域的匹配规则也非常灵活. 除了完整的“部分列出的分页列表模式”，“上下页面格式或不完整的分页列表模式”（例如phpcms）之外，还有“分页列表规则”.

　　文章采集介绍织梦的采集功能'

　　采集每个字段的内容. dedecms的内容匹配规则与phpcms相同: “开头没有重复的HTML [内容]末尾没有重复的HTML”，并且[content]是采集的内容. 过滤规则为{dede: trimreplace =“”}规则{/ dede: trim}. 如果有多个规则，则每行一行. 如果要替换为指定的值，只需在replace =“”的引号中进行设置即可.

　　其中，内容摘要，关键字和缩略图系统将使用常规规则进行自动匹配，我们只需要设置过滤器内容即可. 为其余字段设置匹配规则和过滤规则. 该系统还带有一些常用的过滤规则，但是在单击“通用规则”后，它将弹出一个小窗口模式，这有点不方便. 对于该测试的标题集合，可以使用以下两种方法，如图所示:

　　文章采集介绍织梦的采集功能'

　　文章采集介绍织梦的采集功能'

　　以相同的方式采集文章作者，文章来源和出版时间字段，但是此版本的dedecms在这些字段下没有“自定义处理界面”. 如果有的话，它会稍微灵活一些，例如，设置固定值可以直接使用“ @ Me =“固定值”“实现. 现在，您无法使用自定义处理界面来设置固定值，并且没有字段值设置，您只能从网页上采集固定值并将其替换为固定值. 如图所示:

　　文章采集介绍织梦的采集功能'

　　Dedecms的文章内容采集功能非常强大. 除了匹配规则和过滤规则之外，还有“自定义处理界面”. 如果您有php基础，则可以使用此功能对采集到的结果@me进行各种处理，这功能非常强大. 将来，编辑器将发布一篇专门文章解释该功能. 最后，您不能在集合管理办公室中直接添加新的集合字段，只能在相应的内容模型管理中添加字段，并且集合管理将自动增加. 如果编辑者在“常见文章”内容模型中添加了“ chinaz字段”，则会将“ chinaz字段”项自动添加到集合设置中.

　　文章采集介绍织梦的采集功能'

<p>保存测试，检查列表测试信息和网页规则测试，检查是否正确，确认正确后再开始采集. 进入集合指定节点设置页面，因为编辑器之前已经对其进行了测试，因此共有60个历史*敏*感*词*URL，即编辑器之前已经采集了60个URL，您可以根据需要选择多个选项.

0

2020-08-06

文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

DedeCMS文章集合，介绍织梦的采集功能

0 个评论

发起人

AI时代内容工厂

DedeCMS文章集合，介绍织梦的采集功能

0 个评论

发起人

相关问题