解决方案:phpcmsv9自带采集模块功能体验
优采云 发布时间: 2022-12-16 20:14解决方案:phpcmsv9自带采集模块功能体验
Phpcms网站管理系统最新版本为Phpcms v9,作为国内主流的cms系统之一,网站有上万个> 应用程序。那么其内置的采集模块的功能究竟如何呢,一起来看看吧。
phpcms v9默认内置文章、图片、下载3个内容模型。我们先来看最常见的文章采集。以采集新浪互联网频道,国内滚动新闻栏目为例
1.进入后台,内容-内容发布管理-采集管理-添加采集点。(与以前版本的Phpcms不同,采集管理在模块菜单中)
2.网站规则。采集项目名称随意填写,采集页面编码默认GBK。具体的采集页面,可以查看其网页源码。
URL采集没有什么大的特点,通过查看想要的采集页面的URL规则来填写。分析目标页面后发现是一个URL序列,要获取的内容的URL都在这两个标签之间。没有其他干扰链接,因此无需定义必须和不能收录在 URL 中的字符。如果目标 网站 配置了 Base,请同时配置它。
URL采集配置完成,但是如果目标网站列表页使用js实现上下页,或者获取的URL深度超过2层,会很难使用内置的 采集 实现它。
3.内容规则。phpcms使用“[content]”作为通配符,然后设置开始和结束字符,然后过滤不需要的代码实现内容采集。分析目标页面的title标签比较规整,直接如图设置即可。
过滤格式为“待过滤内容[|]替换值”,删除则替换值留空。过滤规则支持正则表达式。系统自带几种常用的标签过滤规则。新手想要更灵活的过滤有点困难,所以新手需要先熟悉正则表达式。
根据规则获取作者规则、来源规则、时间规则。小编尝试了一个固定值,发现无法实现。就是将某个label设置为固定值,比如将"source"设置为 ,但是采集结果source label为空。
内容规则,填写开始和结束标签,我们测试的目标页面比较干净,所以只过滤掉里面的超链接和一些无用的标签。
内容分页规则,如果内容页有分页,则必须填写。这里文章没有分页,小编会在下图采集中介绍这个标签。
4.自定义规则。除了系统默认的标签外,您还可以自定义各种标签。规则都是一样的,但是有一点要注意:规则的英文名称一定要填写,否则自定义标签无法保存。
5.高级配置,这次可以设置下载图片、图片水印、内容分页和导入顺序。注意,如果需要水印,记得修改你的网站水印图片,水印存放路径:statics/images/water
6. 规则设置好后提交,返回采集管理主页。您可以先通过测试,看看标签是否准确。
7. 发布内容。如果都正确,先点击采集网址,采集文章地址会自动显示,重复的网址会被过滤掉。然后会弹出采集 URL complete 消息,点击“采集文章Content”
采集 自动进行并显示 采集 进度。
采集完成后自动返回采集管理首页,点击内容发布,进入采集文章列表,勾选文章待发布,或者直接点击最下方的Import All。
进入发布计划选择界面,新建发布计划,选择发布栏目。此测试选择 文章 模块的“Domestic”列。在新建方案页面,可以设置自动提取摘要,自动提取缩略图,导入文章状态、标签和数据库对应关系。其中,导入文章的状态只有一个“Release”,如果站长需要状态为pending review,首先要修改相应栏目的workflow为一级审核。
在标签与数据库的对应关系中,采集标签与数据库字段一一对应。如果有自定义标签,找不到对应的字段,需要修改模型添加字段,再修改模板显示,技术要求比较高,不适合新手。此外,系统自带了多项处理功能,也非常实用。
发布计划设置完成后,刚才选择的文章会开始自动导入,下次导入不需要再建计划,直接选择已经建好的计划即可。
文章采集,发布完成。看看效果:
后台内容管理页面
内容页
让我们看看下面的图片采集
图片 采集
phpcmsv9自带图片模型,图片处理还有组图模式,方便一些站长制作图片网站或者设置图片显示方式。下面来体验一下使用内置的采集程序来采集图片,以采集页面的图片为例:
网站获取规则和内容获取规则和文章采集一样,最重要的一点,phpcmsv9采集的图片不能只采集 图像 URL,但应该是 采集 整个
标签,以便可以将其作为组图进行处理。如本例所示:内容标签设置为
采集内容应该是这样的
还有一个分页问题。目标站寻呼如图:
网页代码为:
所以你只需要在内容分页规则中选择list all模式,然后填写分页标签的起止符,系统就会自动采集分页的内容。
设置规则后,采集URL,采集content,发布内容。应注意发布计划。经过多次尝试,小编发现要实现群图模式,内容字段和群图字段都必须使用“处理成群图”功能。但是这种方式无法获取到第一个内容图片作为缩略图,所以最好自定义一个缩略图标签,直接获取一个内容图片地址作为缩略图。
设置后发布。查看 采集 效果:
栏目页
内容页
总结:经过仔细体验,phpcmsv9的采集功能比较全面,满足了基本的文章和图片采集。但是不够灵活,对于一些高要求的站长来说显然是不够的,门槛也比较高。采集模块的官方说明和帮助文件非常有限,不利于初学者。
解决方案:去除优采云采集器添加在帖子中的广告信息
删除帖子中添加的广告信息优采云采集器
网站想转型,原来网站是一个综合应用,有文章系统、博客、BBS等,使用优采云采集器即可非常方便采集,这个采集器是免费使用的,但是它会在每个采集帖子后立即添加一条广告信息。经分析,除了加上“—、*、-、~”等符号外,文字一般以“This post is by 优采云...”或“Welcome to visit...”开头,我用下面的语句代替,效果不错。我会和你分享。第一步是找出帖子中收录关键字的tid,然后在每个tid后加上“,”。select tid from pw_tmsgs where contentlike '%Welcome to visit%'; 第二步替换刚刚得到的tid 在(1,2,3,.... ...)中添加","{#replace_{#replace_keywordvEyty#}wordFDlFp#}来更新pw_tmsgs set content = mid(content ,1, (INSTR(content,'Welcome')-1)) 其中 tid in(1,2,3,.... ...); 帖子中的其他特殊符号也可以用此方法替换,注意替换前做好备份。因为我的网站资料不多,如果你采集资料多,可以考虑买他的正版,价格不贵,终身使用,谢谢优采云 代表软件作者。帖子中的其他特殊符号也可以用此方法替换,注意替换前做好备份。因为我的网站资料不多,如果你采集资料多,可以考虑买他的正版,价格不贵,终身使用,谢谢优采云 代表软件作者。帖子中的其他特殊符号也可以用此方法替换,注意替换前做好备份。因为我的网站资料不多,如果你采集资料多,可以考虑买他的正版,价格不贵,终身使用,谢谢优采云 代表软件作者。