文章cms采集(一下DedeCMSv5.7的自带采集体验系列之PHPCMSV9 )
优采云 发布时间: 2021-10-18 13:04文章cms采集(一下DedeCMSv5.7的自带采集体验系列之PHPCMSV9
)
Dedecms基于PHP+MySQL技术开发,支持多种服务器平台。自 2004 年发布第一个版本以来,至今已发布了五个主要版本。德德cms以其简单、健壮、灵活、开源的特点占领了国内大部分的cms市场。目前已有超过35万个站点在使用Dedecms或基于Dede。cms核心开发,产品安装量达到95万。今天小编就带大家体验一下德德cms v5.7自己的采集。
同样,织梦cms内置了常见的文章、图片集、软件等内容模型。下面我们来测试一下文章和图片这两个常用的模型。为了更好的与其他cms对比,我们采集目标网站与上一期cms自带采集PHP体验系列cms 与 V9 相同。
1、织梦cms文章采集
新建一个文章采集节点,后端——采集——采集节点管理——添加一个新节点,正常选择内容模型文章 .
设置节点的基本信息。目标源代码与上一篇文章中提到的相同。通过查看目标网站的源码,设置区域匹配模式的默认字符串。正则表达式仅在字符串不能确定区域时使用,但一般没有用。最后是防盗链模式,织梦cms采集的特色之一。如果目标网站有防盗链功能,可以成功激活二级功能采集,但会降低采集的速度。测试目标网站没有反盗链功能,所以没有开启。
列出 网站 以获取规则。同上一篇文章分析,列表URL是规则的,可以批量生成。这里我想说说dedecms的力量。不仅可以灵活组合获取列表URL的方式,而且如果目标网站在整个站点使用相同的模板,可以启用“多列访问”和(#)功能,通过设置一个采集规则,你可以采集整个站点,发布不同的栏目,不需要一个栏目对应一个规则。(这个功能编辑器会单独写教程)
文章网址匹配规则。查看目标列表页面的源码,设置html为采集文章 URL区的开头和结尾,然后dedecms的特性之一,如果采集 URL页面如果链接中有图片,可以直接将采集设置为缩略图,非常方便。区域网址的重新筛选也有其自身的特点。除了支持正则表达式,它还声明了“必须收录”和“不能收录”的优先级。体验目标站点没有干扰 URL,因此将其留空。
保存并测试,系统会应用之前的设置来测试采集 URL,信息完整无误后保存,进入下一个内容采集设置。