文章cms采集(帝国cms采集过滤(1)和(1)起作用)
优采云 发布时间: 2022-01-16 11:05文章cms采集(帝国cms采集过滤(1)和(1)起作用)
一、过滤
1、Empirecms采集过滤分为两种:
(1)"整体页面过滤规则":
(2)"常规过滤广告":
我们有点疑惑,这两种过滤有什么区别?“整页过滤规则”是过滤整个网页的html代码。“过滤广告常规”是过滤 文章 内容,它只适用于 文章 内容([!--newstext--])。
2、过滤器示例:
过滤器实例 (1):
在我们采集之后,发现消息内容底部多了一行代码:"
&bnsp;
”,根据格式“ad start [!--ad--] ad end”得到“过滤广告规则”:
过滤器实例 (2):
过滤链接代码怎么做,注意“过滤广告规则”右边的那一堆代码:
先用鼠标点击A,系统会自动生成过滤链接代码“,,”,这样就可以过滤掉采集之后的内容链接。同理,如果要过滤其他html代码,点击对应的标签代码即可。
注意:当内容中收录内容分页时([!--newstext--]),要过滤掉内容分页,否则会重复出现内容分页。
二、替换
1、Empirecms采集替换也分为两种:
(1)"整页替换":
(2)"替换":
它们之间有两个区别:“整页替换”是替换整个网页的html代码。“替换”是替换 文章 标题和内容,仅适用于标题 ([!--title--]) 和 ([!--newstext--])。
2、替换示例:
我们需要将内容中的“新华网”替换为“CDC”:
预览下:
没问题,换了。
三、图片采集
(1)当我们采集时,信息内容可以正常采集,但是里面的图片不显示,例如:
信息内容可以正常采集,但是图片不显示。这是因为内容图片的路径不对,图片的路径是相对地址。
(2)查看源码:
图片是相对地址,必须换成绝对地址才能采集成功。
(3) 被替换为绝对地址:
首先在目标站的图片上右键查看属性:
目标站的图片地址为“”,我们采集到达的图片地址为“/news/PNews/a/e77366_6346550.jpg”,前缀为“***.com”分析得到,我们把前缀放在“图片/FLASH地址前缀(内容)”中,如下图:
(4)前台预览图:
这个图片显示着:
查看源代码:
图片地址正确,是本地地址。
注意:当我们在本地采集预览和暂存信息时,发现已经添加了图片地址前缀,但是图片还是没有显示出来。图像地址前缀将被自动添加。
至此采集的例子已经讲解完毕,帝国cms采集的基本流程、重点和难点也基本总结完了,还有一些基本功能没有介绍清楚地。你可以去帝国。官方网站看了基础教程,感谢阅读,更多内容请关注爱站技术频道网站。