文章自动采集插件(跟自动采集插件第一版的功能对比:自动排版)

优采云 发布时间: 2021-11-01 22:17

  文章自动采集插件(跟自动采集插件第一版的功能对比:自动排版)

  DEDE自动采集插件第三版已经发布。以下是与第一版自动采集插件的对比:

  第一版(试用版)

  第三版(正式版)

  支持的版本

  仅支持 v5.5 GBK

  支持 v5.3/v5.5/v5.6/v5.7/v5.7sp1 GBK 和 UTF8

  支持机型

  仅支持 文章 模型

  支持文章模型/图集模型

  采集效率

  使用DEDE系统自带的功能,效率不高

  专为采集设计的功能,性能更佳

  代码检测

  需要自己判断网页的编码

  插件自行判断并进行编码转换

  网页重定向

  × 不能采集

  √ 插件自动重定向到新地址并执行采集

  gzip压缩

  × 不能采集

  √ 插件自动判断解压

  多线程采集

  × 不支持

  √ 支持多线程采集,失败则转单线程

  采集 再试一次

  × 不支持

  √ 如果采集失败,我们将重试采集最多3次

  图片采集

  支持,但可能采集小于/采集到半图/黑图

  支持,采集失败会自动重试,而且还有专门的图片检测功能,不会出现半图或者黑图

  采集节点

  随机选择节点。有可能一个采集节点已经采集多次,但是其他节点将无法轮流,所以效率不高。

  节点轮询,所有正常节点机会均等

  文章重复

  × 无法避免。只要PV触发速度快,就会有重复文章

  √ 设置了进程锁定机制,同时只允许一个采集进程,从流程设计上避免了文章重复问题

  内容为空

  × 没有判断力,不可避免

  √ 文章 内容为空时自动丢弃不入库

  随机帖子

  × 工艺设计不合理,无法避免

  √ 重新设计了采集流程,入库时自动重新计算文章所属的栏目,避免了流程设计中栏目乱发的问题

  内容伪原创

  仅支持对所有文章进行关键字替换,替换时可能出现乱码

  文章标题关键字替换/文章内容关键字替换/文章句子随机乱序/插入SEO关键词/插入拼音/插入SEO段落/自定义正文摘要/自动排版,各种伪原创 方法可以自由组合或不使用

  搜索引擎优化关键词

  × 不支持

  √ 支持,每段中文随机插入自定义SEO关键词,链接加粗

  文章属性

  × 不支持文章属性的自动设置

  √ 自动为采集到达的文章添加属性,包括【图片/滚动/推荐/推荐/标题/幻灯片/粗体】等。

  文章关键字

  × 不支持文章关键字的自动设置

  √ 新增基于词库的中文分词系统,自动获取文章关键词(TAG)和文章摘要

  文章数量

  × 没办法控制

  √ 可以设置每日最大存储数量,之后继续采集但停止存储,等待第二天再次进入存储

  丢弃过时的采集

  × 不支持

  √ 新增采集文章的时限设置,可以设置超过一段时间文章不再直接丢弃采集,非常适用于对时限有特殊要求的文章严格网站(如新闻网站)

  站点地图

  × 不支持自动生成站点地图

  √ 自动生成网站站点地图,包括【全站HTML地图/全站RSS地图/google站点地图/google新闻站点地图/百度站点地图/各版块RSS数据】

  资源限制

  × 不支持,PV触发器过多可能直接挂服务器

  √ 支持,有进程锁机制保证单个进程,有多种选择限制资源占用

  插件触发器

  完全由PV触发,来多少个PV采集,不来就会少一个采集

  主要依靠插件自身触发(95%以上),PV触发仅作为保险措施,提供服务器主动触发方式,保证插件正常运行。

  时间采集

  × 不支持

  √ 支持,可以设置多个采集时间段

  运行日志

  × 没有日志,插件在后台运行,不知道在干什么

  √ 有运行日志。通过分析日志,还可以看到采集节点故障、列设置不合理等潜在问题。

  控制面板

  × 否

  √ 增加了后台控制面板,所有参数修改直接在控制面板上进行。

  在线升级

  × 否

  √ 增加了在线升级功能,可以直接在控制面板上点击在线升级,将插件程序升级到最新版本。

  自动更新

  × 否

  √ 新增在线自动升级功能,只要开启全局配置中的【自动升级】选项,插件会尝试每天早上自动更新到最新版本。

  需要此插件的请点击这里

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线