文章cms采集(帝国cms采集过滤与替换,还需有些技巧!!)

优采云 发布时间: 2022-02-05 21:02

  文章cms采集(帝国cms采集过滤与替换,还需有些技巧!!)

  前两讲我们介绍了帝国cms采集的基本流程和帝国cms如何采集内容分页。上一讲主要介绍了帝国cms采集过滤替换,以及一些技巧。

  一、过滤

  1、Empirecms采集过滤分为两种:

  (1)"整体页面过滤规则":

  

  (2)"过滤广告":

  

  我们有点疑惑,这两种过滤有什么区别?“整体页面过滤规则”是过滤整个网页的html代码。“过滤广告常规”是过滤文章内容,只对文章内容有效([!--newstext--])。

  2、过滤器示例:

  过滤器实例 (1):

  

  我们采集之后,发现信息内容的底部多了一行代码:“”,按照格式“广告开始[!--ad--]广告结束”,我们得到“过滤广告常规”

  “:

  

  过滤器实例 (2):

  

  过滤链接代码怎么做,注意“过滤广告规则”右边的那一堆代码:

  

  先用鼠标点击A,系统会自动生成过滤链接代码“,,”,这样就可以过滤掉采集之后的内容链接。同理,如果要过滤其他html代码,点击对应的标签代码即可。

  注意:当内容中收录内容分页时([!--newstext--]),要过滤掉内容分页,否则会重复出现内容分页。

  二、替换

  1、Empirecms采集替换也分为两种:

  (1)"整页替换":

  

  (2)"替换":

  

  它们之间有两个区别:“整页替换”是替换整个网页的html代码。“替换”是替换 文章 标题和内容,仅适用于标题 ([!--title--]) 和 ([!--newstext--])。

  2、替换示例:

  

  我们需要将内容中的“新华网”替换为“CDC”:

  

  预览下:

  

  没问题,换了。

  三、图片采集

  (1)当我们采集时,信息内容可以正常采集,但是里面的图片不显示,例如:

  

  信息内容可以正常采集,但是图片不显示。这是因为内容图片的路径不对,图片的路径是相对地址。

  (2)查看源码:

  

  图片是相对地址,必须换成绝对地址才能采集成功。

  (3) 被替换为绝对地址:

  首先在目标站的图片上右键查看属性:

  

  目标站的图片地址是“”,而我们采集到达的图片地址是“/news/PNews/a/e77366_6346550.jpg”,前缀“”是分析得到的,而我们把前缀放在“图片/FLASH地址前缀(内容)”中,如下图:

  

  (4)前台预览图:

  这个图片显示着:

  

  查看源代码:

  

  图片地址正确,是本地地址。

  注意:当我们在本地采集预览和暂存信息时,发现已经添加了图片地址前缀,但是图片还是没有显示出来。图像地址前缀将被自动添加。

  至此,采集的例子已经讲解完毕。这三讲基本总结了帝国cms采集的基本流程、重点和难点,还有一些基本功能没有介绍清楚。大家可以去帝国官方网站看基础教程。

  本文来自国外网站大全原创,转载请注明出处,谢谢!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线