文章cms采集(帝国cms采集过滤与替换,还需有些技巧!!)
优采云 发布时间: 2022-02-05 21:02文章cms采集(帝国cms采集过滤与替换,还需有些技巧!!)
前两讲我们介绍了帝国cms采集的基本流程和帝国cms如何采集内容分页。上一讲主要介绍了帝国cms采集过滤替换,以及一些技巧。
一、过滤
1、Empirecms采集过滤分为两种:
(1)"整体页面过滤规则":
(2)"过滤广告":
我们有点疑惑,这两种过滤有什么区别?“整体页面过滤规则”是过滤整个网页的html代码。“过滤广告常规”是过滤文章内容,只对文章内容有效([!--newstext--])。
2、过滤器示例:
过滤器实例 (1):
我们采集之后,发现信息内容的底部多了一行代码:“”,按照格式“广告开始[!--ad--]广告结束”,我们得到“过滤广告常规”
“:
过滤器实例 (2):
过滤链接代码怎么做,注意“过滤广告规则”右边的那一堆代码:
先用鼠标点击A,系统会自动生成过滤链接代码“,,”,这样就可以过滤掉采集之后的内容链接。同理,如果要过滤其他html代码,点击对应的标签代码即可。
注意:当内容中收录内容分页时([!--newstext--]),要过滤掉内容分页,否则会重复出现内容分页。
二、替换
1、Empirecms采集替换也分为两种:
(1)"整页替换":
(2)"替换":
它们之间有两个区别:“整页替换”是替换整个网页的html代码。“替换”是替换 文章 标题和内容,仅适用于标题 ([!--title--]) 和 ([!--newstext--])。
2、替换示例:
我们需要将内容中的“新华网”替换为“CDC”:
预览下:
没问题,换了。
三、图片采集
(1)当我们采集时,信息内容可以正常采集,但是里面的图片不显示,例如:
信息内容可以正常采集,但是图片不显示。这是因为内容图片的路径不对,图片的路径是相对地址。
(2)查看源码:
图片是相对地址,必须换成绝对地址才能采集成功。
(3) 被替换为绝对地址:
首先在目标站的图片上右键查看属性:
目标站的图片地址是“”,而我们采集到达的图片地址是“/news/PNews/a/e77366_6346550.jpg”,前缀“”是分析得到的,而我们把前缀放在“图片/FLASH地址前缀(内容)”中,如下图:
(4)前台预览图:
这个图片显示着:
查看源代码:
图片地址正确,是本地地址。
注意:当我们在本地采集预览和暂存信息时,发现已经添加了图片地址前缀,但是图片还是没有显示出来。图像地址前缀将被自动添加。
至此,采集的例子已经讲解完毕。这三讲基本总结了帝国cms采集的基本流程、重点和难点,还有一些基本功能没有介绍清楚。大家可以去帝国官方网站看基础教程。
本文来自国外网站大全原创,转载请注明出处,谢谢!