dedecms57自动采集更新伪原创完美版插件(跟自动采集插件第一版版的功能对比:第一版采集)
优采云 发布时间: 2022-02-14 14:26dedecms57自动采集更新伪原创完美版插件(跟自动采集插件第一版版的功能对比:第一版采集)
DEDE自动采集插件第二版已经发布。以下是第一版自动采集插件的功能对比:
第一版(试用版)
第二版(正式版)
支持的版本
仅支持 v5.5 GBK
支持 v5.3/v5.5/v5.6 GBK 和 UTF8
采集效率
使用DEDE系统的内置功能效率不高
专为采集设计的函数,性能更佳
代码检测
需要自己判断网页的代码
插件自行判断转换代码
网页重定向
× 无法采集
√ 插件自动重定向到新地址并继续采集
gzip 压缩
× 无法采集
√ 插件自动判断解压
多线程采集
× 不支持
√ 支持多线程采集,如果失败则转单线程
采集再试一次
× 不支持
√ 如果 采集 失败,它会尝试 采集 最多 3 次
照片采集
是的,但可能采集小于/采集到半图像/黑*敏*感*词*像
支持,采集失败会自动重试,而且还有专门的图片检测功能,不会出现半图或者黑图
采集节点
随机选择节点,有可能一个采集节点被采集多次,但其他节点轮不到,效率不高
节点轮询,所有正常节点机会均等
文章重复
× 难免,只要PV触发速度快,难免会有重复文章
√ 设置进程锁定机制,同时只允许一个采集进程,避免了文章进程设计重复的问题
内容为空
× 没有判断,无法避免
√ 文章 内容为空的会被自动丢弃不存储
栏目乱七八糟
× 工艺设计不合理,无法避免
√ 重新设计采集流程,入库时自动重新计算文章所属的列,避免流程设计上的随机列问题
内容伪原创
只支持所有文章的关键字替换,替换时可能出现乱码
文章标题关键词替换/文章内容关键词替换/文章随机乱句/插入SEO关键词/插入拼音/插入SEO段落,每个伪原创方法都可以自由组合, 你也可以不使用
搜索引擎优化关键字
× 不支持
√ 支持,每隔中文随机插入SEO关键词
文章属性
× 不支持 文章 属性的自动设置
√ 自动为从采集收到的文章添加属性,包括【图片/滚动/推荐/推荐/标题/幻灯片/粗体】等。
文章关键字
× 不支持自动设置文章关键字
√ 新增基于词库的中文分词系统,自动获取文章关键词(TAG)和文章摘要
文章数量
× 完全失控
√ 可以设置每日最大入库数量,继续采集但停止入库,等待第二天进入入库
丢弃过时的采集
× 不支持
√ 新增采集文章的时间限制设置。可以设置超过一段时间的文章不再被采集直接丢弃。严格的网站(例如新闻网站)
网站地图
× 不支持自动生成站点地图
√ 自动生成网站站点地图,包括【全站HTML地图/全站Rss地图/谷歌站点地图/谷歌新闻站点地图/百度站点地图/各栏目RSS数据】
资源限制
× 不支持,PV 触发器过多可能会直接挂掉服务器
√ 支持,有进程锁机制保证单个进程,有多个选项限制资源使用
插件触发器
完全是PV触发的,多少次你带PV采集,不来就不能采集
主要由插件本身触发(95%以上),PV触发仅作为保险措施
计时采集
× 不支持
√ 支持,可以设置多个采集时间段
运行日志
× 没有日志,插件在后台运行,不知道在做什么
√ 有运行日志,通过分析日志还可以看到采集节点故障、列设置不合理等潜在问题。
采集能力
困惑,较少的 PV 触发器可能 采集 不多;更多的触发器可能每天采集上千篇文章文章,但是会有很多重复文章
就算只有100PV,也能稳定采集4000-5000每天,绝不重复
如果你需要这个插件,请点击这里