文章cms采集(CMS自带采集体验系列之PHPCMSV9.7.6)

优采云 发布时间: 2021-11-27 11:00

  文章cms采集(CMS自带采集体验系列之PHPCMSV9.7.6)

  cms自带采集体验系列文章已完成三个阶段:

  cms自带采集PHP体验系列cms V9

  cms自带采集德德体验系列cms v5.7

  cms自带采集评测系列帝国cms v6.6

  今天的第四期,我们来感受一下奇博cms自己的采集,奇博cms原名PHP168,由“龙城”在大学时期,也就是2003年创建的.网站管理系统于2010年12月1日更名为奇博软件。自2003年10月发布V1.0版本以来,历经多次版本升级,现已发展到最成熟的“核心+模块+插件”架构体系,成为国内领先的开源PHP系统。涉及电子政务、媒体新闻门户、大型企业信息化、电子商务B2B等高端互联网应用,为数以万计的免费和付费用户提供了应用平台。

  同样,今天我们将体验采集自带的启博cms全站系统的文章采集和群图采集功能。目标网站还是和之前的文章一样,所以比较好。

  一、文章采集

  1、标题和网址采集

  采集目标网站:

  任意填写规则名称,属于任意类别,不影响采集的内容。

  添加列表网站也有两种方式,一种是手动输入多页,另一种是有多个连续的有规则的页。分析目标站的列表页URL,得到列表页的规则,用[page]代替 变化次数就可以了,所以我们选择“规则连续多页”填写[page].shtml,然后填写开始和结束页码以及每次更改的渐变。(温馨提示:在整个采集设置过程中,所有的通配符都不需要手动填写。可以通过点击旁边官方说明中的通配符自动复制通配符,直接粘贴即可)

  

  同时奇博也考虑到网站列表页首页的一些URL规则不符合整体变更规则,所以在后面有一个文本框来填写不规则的首页. 我们采集目标的第一页是符合整体规律的,所以留空。

  

  采集内容页地址和内容页标题。奇博cms与采集的区别:采集标题不在内容页采集,而是在采集列表页。@文章url 也直接把锚文本采集作为标题。您只需要定义这个指向内容页面的锚文本规则。其中{url=*}表示标题URL通配符,{title=*}表示标题通配符,{*}表示不需要的内容通配符。分析我们的目标站可以得到如下规则:

  {title=*}{*}

  其实这个设计有点瑕疵。比如有些网站为了让列表页更美观,会限制列表页标题的字数,然后在文章的双标题中控制副标题的字数@> 显示在列表页,主标题出现在内容页。

  

  接下来可以勾选“显示不常用的高级设置”来进一步设置采集 URL。其实还有几个功能还是比较常用的,比如设置不能收录在链接中或者必须收录在过滤器中的字符。链接时也很常见。另外,其他替换标题字符、链接字符、指定截取区域可以参考页面左侧的说明。开头和结尾的正则语法设置对用户的要求更高。如果您不熟悉 PHP,请谨慎使用。

  

  设置好后点击“测试采集标题”

  

  如图,我们采集到内容页地址和对应的标题。然后关闭测试页面,点击“下一步”,设置内容采集规则。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线