DedeCMS文章集合,介绍织梦的采集功能

优采云 发布时间: 2020-08-06 11:15

  织梦CMS文章集

  创建一个新的文章采集节点,后台-采集-采集节点管理-添加新节点,选择内容模型作为普通文章.

  

  文章采集介绍织梦的采集功能'

  

  文章采集介绍织梦的采集功能'

  设置节点的基本信息. 目标源代码与上一篇文章中提到的相同. 查看目标网站的源代码后,设置区域匹配模式的默认字符串. 仅当字符串不能确定区域时才使用正则表达式,但通常不使用. 最后是防水-链接模式,这是编织梦cms集合的特征之一. 如果目标网站具有防盗功​​能,则可以成功采集次要功能,但是会降低采集速度. 该测试的目标网站没有防盗功能,因此未打开.

  

  文章采集介绍织梦的采集功能'

  列出网站获取规则. 如上一篇文章所分析,列表URL可以定期且批量生成. 在这里,我想谈一谈dedecms的功能. 不仅可以灵活地组合获取列表URL的方式,而且,如果目标网站的整个网站都使用相同的模板,则可以通过设置后一个采集规则来启用“多列通配符(#)”功能. 采集整个网站并发布不同的列,而无需一栏对应一个规则.

  

  文章采集介绍织梦的采集功能'

  文章URL匹配规则. 查看目标列表页面的源代码,设置要采集的文章URL区域的开始和结束html(与您通常使用的优采云采集规则相同),然后,如果要采集,则使用dedecms的功能之一URL页面链接有些图片可以直接采集为缩略图,这非常方便. 区域URL的重新筛选也具有其自身的特征. 除了支持正则表达式外,它还声明了“必须收录”和“不能收录”的优先级. (再次过滤列表页面的URL,以排除混乱页面的影响)

  

  文章采集介绍织梦的采集功能'

  保存并测试,系统将应用先前的设置来测试采集URL,在正确无误后保存信息,然后输入下一个内容采集设置.

  

  文章采集介绍织梦的采集功能'

  Web内容获取规则. 系统将默认使用集合URL作为预览URL. 此外,内容寻呼导航所在区域的匹配规则也非常灵活. 除了完整的“部分列出的分页列表模式”,“上下页面格式或不完整的分页列表模式”(例如phpcms)之外,还有“分页列表规则”.

  

  文章采集介绍织梦的采集功能'

  采集每个字段的内容. dedecms的内容匹配规则与phpcms相同: “开头没有重复的HTML [内容]末尾没有重复的HTML”,并且[content]是采集的内容. 过滤规则为{dede: trimreplace =“”}规则{/ dede: trim}. 如果有多个规则,则每行一行. 如果要替换为指定的值,只需在replace =“”的引号中进行设置即可.

  其中,内容摘要,关键字和缩略图系统将使用常规规则进行自动匹配,我们只需要设置过滤器内容即可. 为其余字段设置匹配规则和过滤规则. 该系统还带有一些常用的过滤规则,但是在单击“通用规则”后,它将弹出一个小窗口模式,这有点不方便. 对于该测试的标题集合,可以使用以下两种方法,如图所示:

  

  文章采集介绍织梦的采集功能'

  

  文章采集介绍织梦的采集功能'

  以相同的方式采集文章作者,文章来源和出版时间字段,但是此版本的dedecms在这些字段下没有“自定义处理界面”. 如果有的话,它会稍微灵活一些,例如,设置固定值可以直接使用“ @ Me =“固定值”“实现. 现在,您无法使用自定义处理界面来设置固定值,并且没有字段值设置,您只能从网页上采集固定值并将其替换为固定值. 如图所示:

  

  文章采集介绍织梦的采集功能'

  Dedecms的文章内容采集功能非常强大. 除了匹配规则和过滤规则之外,还有“自定义处理界面”. 如果您有php基础,则可以使用此功能对采集到的结果@me进行各种处理,这功能非常强大. 将来,编辑器将发布一篇专门文章解释该功能. 最后,您不能在集合管理办公室中直接添加新的集合字段,只能在相应的内容模型管理中添加字段,并且集合管理将自动增加. 如果编辑者在“常见文章”内容模型中添加了“ chinaz字段”,则会将“ chinaz字段”项自动添加到集合设置中.

  

  文章采集介绍织梦的采集功能'

<p>保存测试,检查列表测试信息和网页规则测试,检查是否正确,确认正确后再开始采集. 进入集合指定节点设置页面,因为编辑器之前已经对其进行了测试,因此共有60个历史*敏*感*词*URL,即编辑器之前已经采集了60个URL,您可以根据需要选择多个选项.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线