自动采集发布文章(dede全面支持DEDECMSV5.3/5/6的支持不够)
优采云 发布时间: 2021-08-31 00:10自动采集发布文章(dede全面支持DEDECMSV5.3/5/6的支持不够)
dede自动采集plugin 经过半年的开发,v3版本终于迎来了。
v3版和v2版最大的区别是v3版有后台控制面板,所有参数修改直接在控制面板上进行。
另外,v3版本还有在线升级功能。以后更新程序将不再通过邮寄安装包的方式进行,而是使用更便捷的在线更新。第一次使用v3版本,必须在线升级插件才能正常启动。
另外,v3版本不再开源,核心代码和控件网页都使用我自己开发的编译包。
打包后的插件比开源代码体积更小。目前核心代码超过8000行,打包大小约90kb,是正常大小的1/3。
更少的程序文件和更小的文件大小将更有利于代码管理和在线升级。
同时也为以后插件的自动在线升级提供了良好的基础。
最后,V3版本也是限制域名的版本。根据客户的不同需求,提供5个、12个、20个等不同的域名授权方式。
需要此插件的请点击这里
以下是 v3 的一些特性:
1. 完全支持 DEDEcms V5.3/V5.5/V5.6。第一版对DEDE5.6的支持不完整。
2.添加了UTF8版本,第一个版本只支持GBK。建议使用UTF8版本,插件执行效率高于GBK版本。
3.重写了采集代码,执行效率更高。现在采集不会出现半图或黑图。
4.改写了采集的代码,现在用户无需判断被采集的网页是GBK还是UTF8编码。系统自动判断并进行编码转换。
5.重写了DEDE获取网页区号,现在支持使用简单而强大的正则表达式。
如果6.采集收到的文章内容为空,则自动丢弃不存储。
7.彻底修改了采集文章的分类机制,现在不会再有采集随机发送给文章了。
8.改进了关键字替换功能,现在第一版不再出现乱码的关键字替换。
9.添加了基于同义词库的文章分词,可以自动获取文章keywords(TAG)和文章摘要,并已实现。将自动获取的文章 摘要放在文章 头部对伪原创 非常有利。
10.所有相关词库均基于物理文件系统,无需添加数据表,既降低了系统出错的可能性,又提高了执行效率。
11.增加了线程锁机制,不会再出现采集速度过快时采集去同一个文章的两篇文章的情况。
12. 改进了预览图像机制。现在您可以自定义预览图像的大小。清晰且未缩放的预览图像可以提供更好的访问体验。
13.修改了采集流程,将采集节点的随机选择改为采集节点轮询,提高了采集的效率。更新日志20100606
14.增加了采集日志功能,生成的日志根据日期自动生成文件名保存在/plus/autocollect/log目录下。更新日志20100608
15.增加了解压gzip编码的功能,支持采集gzip编码的网页。更新日志20100613
16. 为采集 程序添加了调试选项。在调试状态下,会显示一些具体的执行步骤信息,日志不会记录这个操作。
17.应网友要求,增加了采集特定节点的采集选项。开启这个选项只会采集这个节点,并且只会处理来自这个节点采集的文档。
18.对采集代码进行了重大调整,将原来的采集同一进程时间内只有一个网页(单进程,单线程)改为采集多个网页在同一个进程中进程时间(单进程和多线程)。经过不完全测试,采集速度至少提升了30%。更新日志20100616
19.文章伪原创方法进行了改进,除了之前的文章body关键字替换,文章title关键字替换(可选)和文章body语句完整的Messy方式。更新日志20100623
20.可以限制每天存储文章的数量,以及存储文章之间的最短间隔。形成规则后,对蜘蛛更加友好。
21.可以限制采集间隔时间。当网站流量巨大时,采集会过于频繁,导致CPU资源过多。
22.可以设置定时采集,想几个点采集就几个点采集。避开网站PV高峰期,在夜间等流量比较小的时间段自动采集。更新日志20100629
23.解决了第一版采集时间过长,数据库服务器下线,出现“MySQL server has away”的问题。更新日志20100707
24. 现在插件可以自己触发了,重新开始采集。 PV 触发现在仅用作保险措施。通过对日志文件的分析,发现90%以上的触发都是插件本身完成的。更新日志20100718
25.对于文章时效性要求非常严格的新闻等网站,增加了采集文章时限的设置,可以设置超过一段时间文章不再采集直接扔掉。更新日志20100729
26.新增采集支持采集目标服务器返回301或302网页代码并重定向地址。
27.根据客户需求,增加了在文件中插入SEO关键词的功能。您可以随机插入每个中文段落中设置的众多关键字之一。 SEO关键词内容由用户自行设置,可以是任何合法的HTML代码。更新日志20100803
28.自动给采集添加属性到文章,包括[图片/滚动/推荐/推荐/标题/幻灯片/粗体]等
29.自动生成网站站点地图,包括【全站HTML地图/全站Rss地图/google站点地图/google新闻站点地图/百度站点地图/各版块RSS数据】。更新日志20100810
30.类采集 插件的采集能力是每天4000+,甚至有客户反映采集每天可以达到1W。更新日志20100827
31. 同义词将不再被循环替换,比如过去很经典的替换:小阿姨->莫阿姨,因为小阿姨->小阿姨->莫阿姨现在只会被替换为: 小阿姨 -> 小阿姨。
32.增加了文章开头和结尾自动插入SEO段落的功能。
33.可以在文章中的关键字后自动插入拼音。这个伪原创 函数比同义词替换更具可读性。更新日志20100904
34.可以从其他采集软件(如优采云)采集自动审核并存储在DEDE的文章中,可以设置文章和文章的数量进行自动每次审核的栏目、排序方式、自动审核的间隔文章。更新日志20100927
35.根据客户反馈,将所有需要频繁读写的文件分别放在/plus/autocollect/data/目录下,以提高cms系统的安全性.
36.将所有key bin数据文件打包成foxcode格式文件。该文件在文件头中添加了反下载代码,更加安全。 V2版本客户可以通过升级数据格式将之前的bin文件转换为新的数据文件,有效保护了客户投入的时间和精力。
37. 在标题中插入关键字。它曾经被随机插入在标题之前和之后。现在,增加了选择正面、背面或随机的选项。
38.增加了后台控制面板,所有参数修改直接在控制面板上进行。
39.增加了在线升级功能,可以直接点击控制面板上的在线升级,将插件程序升级到最新版本。
40.提供服务器主动触发方式,为了方便前期开站的朋友,现在购买此插件的客户免费提供三个月的服务器主动触发,你不用不再需要刚开始的网站,没有流量触发插件采集,担心它。
41.增加了自定义文章正文摘要的功能,需要在SEO变量设置中设置,然后配置每个具体的采集节点。
42.增加了自动调整段落格式(即自动排版)的功能。在采集节点开启这个伪原创选项会自动调整文章正文段落格式,可以带来更好的阅读体验。
43.对采集节点增加每日存储限制,达到存储限制的采集节点将停止存储。
44.优化了文章入仓流程,将之前的文章随机入仓改为节点轮询。默认情况下,即使不开启节点【文章Limited Inventory Quantity】,已经可以在每个节点的入站文章数量上达到基本平衡。更新日志20101128
45.增加了自定义词库功能。您可以在线批量修改多个同义词短语,也可以通过导出和重新导入来修改词库。更新日志20101205
46.增加多线程采集最大并发控制,进一步精准控制资源使用。
47.增加了自动在线升级功能。只要在全局配置中开启了【自动升级】选项,插件就会尝试每天早上自动更新到最新版本。更新日志20101211
48.增加了单节点发布选项,可以选择生成HTML或者动态浏览。
49.在全局设置中增加了强制更新主页的选项,可以设置强制定时更新主页。
50.开始支持Atlas模型。更新日志20101219
看到这么多字是不是头晕目眩? ^_^点此查看->自动采集插件第三版与第一版功能对比表
感谢一直支持插件的所有客户朋友和我自己。特别要向【胡一道】童鞋致敬。这位兄弟花了两天宝贵的时间测试插件v3安装包。同时提出很多好的意见; [有人]和[爱美的人]一直在关注v3的发布时间,在此表示感谢。
感谢老客户对本插件的支持和帮助。 v2 客户即日起免费升级到 v3 版本。同时,之前约定的支持期限和其他服务将保持不变。
以下是其他有用的链接:
1.如何将采集插件从v2升级到v3?
2.如何安装DEDE自动采集插件第三版?
3.常见问题及解答
4.Auto采集Plugin 更新日志
如果您对此插件有其他功能需求,可以在开发计划页面留言,我会酌情增加。
需要此插件的请点击这里