dedecms57自动采集更新伪原创完美版插件(跟自动采集插件第一版版的功能对比:第一版采集)

优采云 发布时间: 2022-02-14 14:26

  dedecms57自动采集更新伪原创完美版插件(跟自动采集插件第一版版的功能对比:第一版采集)

  DEDE自动采集插件第二版已经发布。以下是第一版自动采集插件的功能对比:

  第一版(试用版)

  第二版(正式版)

  支持的版本

  仅支持 v5.5 GBK

  支持 v5.3/v5.5/v5.6 GBK 和 UTF8

  采集效率

  使用DEDE系统的内置功能效率不高

  专为采集设计的函数,性能更佳

  代码检测

  需要自己判断网页的代码

  插件自行判断转换代码

  网页重定向

  × 无法采集

  √ 插件自动重定向到新地址并继续采集

  gzip 压缩

  × 无法采集

  √ 插件自动判断解压

  多线程采集

  × 不支持

  √ 支持多线程采集,如果失败则转单线程

  采集再试一次

  × 不支持

  √ 如果 采集 失败,它会尝试 采集 最多 3 次

  照片采集

  是的,但可能采集小于/采集到半图像/黑*敏*感*词*像

  支持,采集失败会自动重试,而且还有专门的图片检测功能,不会出现半图或者黑图

  采集节点

  随机选择节点,有可能一个采集节点被采集多次,但其他节点轮不到,效率不高

  节点轮询,所有正常节点机会均等

  文章重复

  × 难免,只要PV触发速度快,难免会有重复文章

  √ 设置进程锁定机制,同时只允许一个采集进程,避免了文章进程设计重复的问题

  内容为空

  × 没有判断,无法避免

  √ 文章 内容为空的会被自动丢弃不存储

  栏目乱七八糟

  × 工艺设计不合理,无法避免

  √ 重新设计采集流程,入库时自动重新计算文章所属的列,避免流程设计上的随机列问题

  内容伪原创

  只支持所有文章的关键字替换,替换时可能出现乱码

  文章标题关键词替换/文章内容关键词替换/文章随机乱句/插入SEO关键词/插入拼音/插入SEO段落,每个伪原创方法都可以自由组合, 你也可以不使用

  搜索引擎优化关键字

  × 不支持

  √ 支持,每隔中文随机插入SEO关键词

  文章属性

  × 不支持 文章 属性的自动设置

  √ 自动为从采集收到的文章添加属性,包括【图片/滚动/推荐/推荐/标题/幻灯片/粗体】等。

  文章关键字

  × 不支持自动设置文章关键字

  √ 新增基于词库的中文分词系统,自动获取文章关键词(TAG)和文章摘要

  文章数量

  × 完全失控

  √ 可以设置每日最大入库数量,继续采集但停止入库,等待第二天进入入库

  丢弃过时的采集

  × 不支持

  √ 新增采集文章的时间限制设置。可以设置超过一段时间的文章不再被采集直接丢弃。严格的网站(例如新闻网站)

  网站地图

  × 不支持自动生成站点地图

  √ 自动生成网站站点地图,包括【全站HTML地图/全站Rss地图/谷歌站点地图/谷歌新闻站点地图/百度站点地图/各栏目RSS数据】

  资源限制

  × 不支持,PV 触发器过多可能会直接挂掉服务器

  √ 支持,有进程锁机制保证单个进程,有多个选项限制资源使用

  插件触发器

  完全是PV触发的,多少次你带PV采集,不来就不能采集

  主要由插件本身触发(95%以上),PV触发仅作为保险措施

  计时采集

  × 不支持

  √ 支持,可以设置多个采集时间段

  运行日志

  × 没有日志,插件在后台运行,不知道在做什么

  √ 有运行日志,通过分析日志还可以看到采集节点故障、列设置不合理等潜在问题。

  采集能力

  困惑,较少的 PV 触发器可能 采集 不多;更多的触发器可能每天采集上千篇文章文章,但是会有很多重复文章

  就算只有100PV,也能稳定采集4000-5000每天,绝不重复

  如果你需要这个插件,请点击这里

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线