文章cms采集(一下DedeCMSv5.7的自带采集体验系列之PHPCMSV9 )

优采云 发布时间: 2021-12-10 16:04

  文章cms采集(一下DedeCMSv5.7的自带采集体验系列之PHPCMSV9

)

  Dedecms基于PHP+MySQL技术开发,支持多种服务器平台。自 2004 年发布第一个版本以来,至今已发布了五个主要版本。德德cms以其简单、健壮、灵活、开源的特点占领了国内大部分的cms市场。目前有超过35万个站点在使用Dedecms或基于Dede。cms核心开发,产品安装量达到95万。今天小编就带大家体验一下德德cms v5.7自己的采集。

  同样,织梦cms内置了普通文章、图片集、软件等内容模型。下面我们来测试一下文章和图片这两个常用的模型。为了更好的和其他cms对比,我们采集目标网站和上一期cms带上自己的采集体验系列PHP< @cms 与 V9 相同。

  1、织梦cms文章采集

  新建一个文章采集节点,后端——采集——采集节点管理——添加一个新节点,选择内容模型为普通文章 .

  

  

  设置节点的基本信息。目标源代码与上一篇文章中提到的相同。通过查看目标网站的源码,设置区域匹配模式的默认字符串。正则表达式仅在字符串不能确定区域时使用,但一般没有用。最后一种是反盗链模式,这是织梦cms采集的特点之一。如果目标网站具有防*敏*感*词*功能,则可以成功激活辅助功能采集,但会降低采集的速度。测试目标网站没有反盗链功能,所以没有开启。

  

  列出 网站 以获取规则。和之前的文章分析一样,列表URL是定时批量生成的。这里我想说说dedecms的力量。不仅可以灵活组合获取列表 URL 的方式,而且如果目标 网站 对整个站点使用相同的模板,则可以启用“多列访问”和(#)功能,通过设置一个采集规则,你可以采集整个站点,发布不同的栏目,不需要一个栏目对应一个规则。(这个功能编辑器会单独写教程)

  

  文章网址匹配规则。查看目标列表页面的源码,设置html为采集文章 URL区的开始和结束,然后dedecms的特性之一,如果采集 URL页面如果链接中有图片,可以直接将采集设置为缩略图,非常方便。区域网址的重新筛选也有其自身的特点。除了支持正则表达式,它还声明了“必须收录”和“不能收录”的优先级。体验目标站点没有干扰 URL,因此将其留空。

  

  保存并测试,系统会应用之前的设置来测试采集 URL,信息完整无误后保存,进入下一个内容采集设置。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线