齐博CMS自带采集体验系列之DedeCMSv5.7系统
优采云 发布时间: 2021-06-05 21:15齐博CMS自带采集体验系列之DedeCMSv5.7系统
cms自带采集生活系列文章已完成三期:
cms自带采集PHPcmsV9体验系列
cms自带采集Dedecmsv5.7体验系列
cms自带采集测试系列cmsv6.6
今天的第四期,来感受一下齐博cms自己的采集,齐博cms原名PHP168网站管理,是大学时期由“龙城”创建的,也就是在2003年系统于2010年12月1日更名为奇博软件,自2003年10月V1.0版本发布以来,历经多次版本升级,现已发展成为最成熟的“核心+模块+插件” ”架构系统,成为国内领先的开源PHP系统。涉及电子政务、媒体新闻门户、大型企业信息化、电子商务B2B等高端互联网应用,为数以万计的免费和付费用户提供了应用平台。
同理,今天我们来体验采集自带的Qibocms全站系统的文章采集和群图采集功能。目标网站还是和之前的文章一样,所以比较好。
一、文章采集
1、Title 和 URL采集
采集target网站:
任意填写规则名称,以及所属类别,采集不影响内容。
List网站也有两种添加方式,一种是手动输入多页,另一种是有规律连续的多页。分析目标站的列表页URL,得到列表页的规则,用[page]代替换号就够了,所以我们选择“规则连续多页”,填写[page].shtml,然后填写开始和结束页码以及每次更改的渐变。 (温馨提示:在整个采集设置过程中,所有通配符都不需要手动填写,可以点击旁边官方说明中的通配符自动复制,直接粘贴即可)
同时奇博也考虑到网站list页面第一页的一些URL规则不符合整体更改规则,所以在后面有一个文本框填写不规则第一页。我们采集目标的第一页符合整体规律,所以留空。
采集内容页地址和内容页标题。奇博cms自带采集和别人不同:采集title不在内容页采集,而是在采集list页文章url而且还直接放了锚文本文本采集 是标题。您只需要定义这个指向内容页面的锚文本规则。其中{url=*}表示标题URL通配符,{title=*}表示标题通配符,{*}表示不需要的内容通配符。分析我们的目标站,我们可以得到以下规则:
{title=*}{*}
其实这个设计有点瑕疵。比如为了让列表页更美观,有的网站限制了列表页标题字数,然后控制文章双标题中副标题字数显示它在列表页面上。并且主标题出现在内容页面上。
接下来可以勾选“显示不常用的高级设置”来进一步设置采集 URL。其实还有几个功能还是比较常用的,比如设置不能收录在链接中或者必须收录在过滤器中的字符。当它干扰链接时也很常见。另外,其他替换标题字符、链接字符、指定截取区域可以参考页面左侧的说明。这种头尾正则语法的设置,对用户的要求更高。如果您不熟悉 PHP,请谨慎使用。
设置好后点击“test采集title”
如图,我们采集去内容页地址和对应的标题。然后关闭测试页面,点击“下一步”,设置内容采集rule。