文章采集规则(资讯站采集规则的时候必然用到过滤与替换的方式)

优采云 发布时间: 2021-12-27 18:11

  文章采集规则(资讯站采集规则的时候必然用到过滤与替换的方式)

  相信很多用户都把织梦当做资讯站使用,因为织梦的优化是非常有好处的,所以做资讯站一定要想做一个采集

。织梦有自己的采集

功能,但是还是需要自己写采集

规则,自己写采集

规则。当需要使用过滤和替换方法时,常用操作:点击“常用规则”,选择要过滤的代码段,然后编辑成我们需要的。如果只是单纯采集

文章,则需要过滤掉采集

内容中的广告、链接等代码。一般的写法是{dede:trim}要过滤的内容{/dede:trim},举几个例子:

  1.去除超链接,这个是最常用的。

  

{dede:trim replace=''}]*)>{/dede:trim}

{dede:trim replace=&#39;&#39;}</a>{/dede:trim}

  如果这样填写,那么链接的文字也被去掉了

  

{dede:trim replace=&#39;&#39;}]*)>(.*)</a>{/dede:trim}

  2. 过滤JS来电广告,如GG广告,添加:

  

{dede:trim replace=&#39;&#39;}]*)>(.*){/dede:trim}

  3. 过滤 div 标签。这是非常重要的。如果不过滤,发布的文章布局可能会错位。目前采集

后出现错位的原因大部分都在这里。

  

{dede:trim replace=&#39;&#39;}{/dede:trim}

{dede:trim replace=&#39;&#39;}{/dede:trim}

  有时需要像这样过滤:

  

{dede:trim replace=&#39;&#39;}(.*){/dede:trim}

  4、其他过滤规则可以根据以上规则引入。

  5.过滤摘要和关键字用法,经常用到。

  

{dede:trim replace=&#39;&#39;}{/dede:trim}

  6.更换简单。

  

{dede:trim replace=&#39;替换后的词语&#39;}要替换的词语{/dede:trim}

  采集

的内容当然需要被搜索引擎收录。过滤和替换的目的是减少重复和执行伪原创。具体操作看个人要求和喜好。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线