文章采集规则(资讯站采集规则的时候必然用到过滤与替换的方式)
优采云 发布时间: 2021-12-27 18:11文章采集规则(资讯站采集规则的时候必然用到过滤与替换的方式)
相信很多用户都把织梦当做资讯站使用,因为织梦的优化是非常有好处的,所以做资讯站一定要想做一个采集
。织梦有自己的采集
功能,但是还是需要自己写采集
规则,自己写采集
规则。当需要使用过滤和替换方法时,常用操作:点击“常用规则”,选择要过滤的代码段,然后编辑成我们需要的。如果只是单纯采集
文章,则需要过滤掉采集
内容中的广告、链接等代码。一般的写法是{dede:trim}要过滤的内容{/dede:trim},举几个例子:
1.去除超链接,这个是最常用的。
{dede:trim replace=''}]*)>{/dede:trim}
{dede:trim replace=''}</a>{/dede:trim}
如果这样填写,那么链接的文字也被去掉了
{dede:trim replace=''}]*)>(.*)</a>{/dede:trim}
2. 过滤JS来电广告,如GG广告,添加:
{dede:trim replace=''}]*)>(.*){/dede:trim}
3. 过滤 div 标签。这是非常重要的。如果不过滤,发布的文章布局可能会错位。目前采集
后出现错位的原因大部分都在这里。
{dede:trim replace=''}{/dede:trim}
{dede:trim replace=''}{/dede:trim}
有时需要像这样过滤:
{dede:trim replace=''}(.*){/dede:trim}
4、其他过滤规则可以根据以上规则引入。
5.过滤摘要和关键字用法,经常用到。
{dede:trim replace=''}{/dede:trim}
6.更换简单。
{dede:trim replace='替换后的词语'}要替换的词语{/dede:trim}
采集
的内容当然需要被搜索引擎收录。过滤和替换的目的是减少重复和执行伪原创。具体操作看个人要求和喜好。