Phpcms网站管理系统自带的采集模块功能如何?网站
优采云 发布时间: 2021-08-24 01:20Phpcms网站管理系统自带的采集模块功能如何?网站
Phpcms网站管理系统的最新版本是Phpcms v9。作为国内主流的cms系统之一,目前有数以万计的网站应用。那么它自己的采集模块的功能是什么,我们来看看。
Phpcms v9 默认内置了三种内容模型:文章、图片和下载。我们先来看看最常见的文章采集。以采集新浪互联网频道国内滚动新闻栏目为例
1、进入后台,内容-内容发布管理-采集管理-添加采集点。 (与之前版本的Phpcms不同,采集management在模块菜单中)
2、URL 规则。 采集项目名称随便填,采集page编码默认为GBK,具体采集页面可以查看网页源码。
URL采集,没什么大特色,通过查看你想要的采集页面的URL规则来填写。对目标页面进行分析,是一个序列URL,要获取的内容的URL在两个标签之间。没有其他干扰链接,因此无需定义必须和不得收录在 URL 中的字符。如果目标网站配置了Base,那么也必须配置。
URL采集配置结束,但是如果目标网站列表页面使用js实现上下页,或者获取的URL深度超过2级,这个就很难实现了与采集。
3、Content 规则。 phpcms使用“[content]”作为通配符,然后设置开始和结束字符,然后过滤掉不需要的代码,实现内容的采集。分析目标页面的title标签比较规则,如图所示直接设置即可。
过滤器格式为“要过滤的内容[|]替换值”,如果删除,替换值留空。过滤规则支持正则表达式。该系统带有几个常见的标签过滤规则。新手要灵活过滤有点难度,所以新手需要先熟悉正则表达式。
按规则获取的作者规则、来源规则、时间规则。小编尝试了一个固定值,发现无法实现,即将某个标签设置为固定值。比如设置“源”为,但是采集result源标签为空。
内容规则,填写开始和结束标签,我们测试的目标页面比较干净,所以我们只需要过滤掉里面的超链接和一些无用的标签即可。
内容分页规则。如果内容页有分页,必须填写。文章这里没有分页。小编会在下图采集中介绍这个标签。
4、自定义规则,除了系统默认的标签外,还可以自定义各种标签。规则是一样的,但有一点需要注意:规则的英文名称必须填写,否则可以自定义标签无法保存。
5、高级配置,这次可以设置下载图片、图片水印、内容分页和导入顺序。注意如果需要水印记得修改你的网站水印图片,水印存放路径:statics/images/water
6、规则设置好,提交回采集管理首页,可以先测试一下标签是否准确。
7、发布内容。如果都准确,先点击采集网址,采集文章地址会被自动过滤,重复的网址会被过滤掉。然后会弹出采集网址补全信息,点击“采集文章内容”
采集自动执行并显示采集进度。
采集完成后会自动返回采集管理首页,点击内容发布,进入采集文章列表,勾选要发布的文章,或者点击底部的全部导入。
进入发布计划选择界面,新建发布计划,选择发布栏。本次测试选择文章模块的“国内”列。在新的计划页面上,可以设置摘要自动提取、缩略图自动提取,以及导入文章状态、标签和数据库之间的对应关系。其中,导入文章状态只有一个“发布”。如果站长需要状态为待审核,请先修改对应栏目的工作流程为一级审核。
在标签与数据库的对应关系中,采集标签与数据库字段是一一对应的。如果有自定义标签找不到对应的字段,需要修改模型添加字段,再修改模板显示,技术要求比较高,不适合新手。此外,系统自带的处理功能也非常实用。
发布计划设置好后,会自动开始导入你刚才选择的文章,下次导入就不用再建计划了,选择已经建好的计划即可。
文章采集,发布完成。看效果:
后台内容管理页面
内容页面
来看看采集下面的图片
图片采集
phpcmsv9自带图片模型,还有图片处理的群图模式,方便一些站长制作图片网站或者设置图片展示方式。我们尝试使用我们自己的采集程序来获取采集图片,以采集页面上的图片为例:
网站获取规则和内容获取规则同文章采集。最重要的一点是phpcmsv9采集的图片不能只是采集图片地址,而应该是采集整个标签,这样才能作为一组图片处理。如本例所示:内容标签设置为
采集的内容应该是这样的
还有一个分页问题。目标站的寻呼如图:
网页代码为:
所以只需在内容分页规则中选择全列表模式,然后填写分页标签的首尾字符,系统就会自动采集对内容进行分页。
设置规则后,采集URL,采集content,发布内容。应注意发布计划。经过多次尝试,小编发现要实现群图模式,内容域和群图域必须使用“作为群图处理”功能。但是这种方式无法获取到内容图片的缩略图,所以最好自定义缩略图标签,直接获取内容图片的地址为缩略图。
设置后发布。见采集效果:
栏目页面
内容页面
总结:经过详细体验,phpcmsv9的采集功能相当全面,基本满足文章和图片采集。但是不够灵活,对于一些高要求的站长来说显然是不够的,而且门槛很高。 采集模块的官方说明和帮助文件非常有限,不利于新手。