DedeCMSv5.7自带采集体验系列之PHPCMSV9一样
优采云 发布时间: 2021-06-27 07:08DedeCMSv5.7自带采集体验系列之PHPCMSV9一样
Dedecms基于PHP+MySQL技术开发,支持多种服务器平台。自 2004 年发布第一个版本以来,至今已发布了五个主要版本。 Dedecms以其简单、健壮、灵活、开源的特点占据了国内cms的大部分市场。目前,超过35万个站点正在使用Dedecms或基于Dedecms核心开发。产品安装量达到95万件。今天小编就带大家体验一下Dedecmsv5.7自己的采集。
同样,织梦cms内置了普通文章等内容模型、*敏*感*词*、软件等。下面我们来测试一下常用的两个模型文章和图片。为了更好的对比其他cms,我们的采集target网站和上一期cms自带采集体验系列PHPcmsV9一样。
1、织梦cms文章采集
新建文章采集节点,后端——采集——采集节点管理——添加一个新节点,内容模型选择普通文章。
设置节点的基本信息。目标源码与上一篇提到的文章相同。通过查看目标网站源码,可以设置区域匹配模式的默认字符串。正则表达式仅在字符串无法确定区域时使用,但一般不使用。最后,织梦cms采集的一大特色就是防盗链模式。如果目标网站有防盗链功能,二级功能可以成功开启采集,但采集的速度会降低。第二次测试的目标网站没有反盗链功能,所以没有开启。
列出网站 以获取规则。和上一篇文章分析一样,可以定时批量生成列表网址。这里我想说说dedecms的力量。不仅可以灵活组合获取列表URL的方式,而且如果目标网站整个站点使用相同的模板,可以启用“多列通配符(#)”功能,通过设置采集规则,可以采集全站,发布不同的栏目,不需要一个栏目对应一个规则。(这个功能编辑会单独写教程)
文章URL 匹配规则。查看目标列表页面的源码,设置html为采集文章 URL区的开头和结尾,然后是dedecms的功能之一。如果采集网址页面链接有图片,可以直接设置采集为缩略图,非常方便。区域网址的重新筛选也有其自身的特点。除了支持正则表达式,它还声明了“必须收录”和“不能收录”的优先级。此体验的目标网站没有干扰 URL,因此将其留空。