DEDE自动采集插件
优采云 发布时间: 2020-08-07 12:05dede自动采集插件经过半年的开发,v3版本终于迎来了.
v3版本与v2版本之间的最大区别是v3版本具有后台控制面板,并且所有参数修改都直接在控制面板上进行.
此外,v3版本还具有在线升级功能. 将来,将不再通过邮件发送安装软件包来执行更新程序,而是将使用更方便的在线升级. 第一次使用v3版本时,必须在线升级插件才能正常启动.
v3版本也不再是开源的,核心代码和控制网页都使用我开发的编译包.
打包的插件的大小小于开源代码的大小. 目前,核心代码超过8000行,打包后的大小约为90kb,是正常大小的1/3.
较少的程序文件和较小的文件大小将更有助于代码管理和在线升级.
与此同时,它也为将来自动在线升级插件提供了良好的基础.
最后,V3版本也是具有受限域名的版本. 根据客户的不同需求,提供5、12、20个以上的域名以及其他不同的授权方式.
如果您需要此插件,请单击此处
以下是v3的一些功能:
1. 对DEDECMS V5.3 / V5.5 / V5.6的完全支持,对DEDE5.6的第一个支持版本尚未完成.
2. 添加了UTF8版本,第一个版本仅支持GBK. 建议每个人都使用UTF8版本,该插件的执行效率要高于GBK版本.
3. 重写采集代码,执行效率更高. 现在,该图片集中不会出现一半的图片或黑色的图片.
4. 采集代码已被重写. 现在,用户无需确定采集的网页是GBK还是UTF8编码. 系统会自动确定并执行编码转换.
5. 重写DEDE以获取网页区号,现在支持使用简单而强大的正则表达式.
6. 如果采集的文章内容为空,它将被自动丢弃并且不存储在库中.
7. 完全修改了采集品分类机制,现在不再随机发送采集品.
8. 改进了关键字替换功能,现在第一个版本中不再存在乱码关键字替换.
9. 添加了基于词库的文章分词功能,因此可以自动获取文章关键字(TAG)和文章摘要,并且已经实现. 将自动获取的文章摘要放在文章开头非常有利于伪原创.
10. 所有相关的词典都是基于物理文件系统的,不需要添加数据表,这不仅减少了系统出错的可能性,而且提高了执行效率.
11. 增加了线程锁定机制,当采集速度太快时,不再采集两个相同的物品.
12. 改进了预览图像机制. 现在,您可以自定义预览图像的大小. 清晰而不缩放的预览图像可以提供更好的访问体验.
13. 修改了采集过程,将采集节点的随机选择改为采集节点轮询,提高了采集效率. 更新日志20100606
14. 增加了采集日志记录功能. 生成的日志将根据日期自动生成文件名,并将其存储在/ plus / autocollect / log目录中. 更新日志20100608
15. 添加了理解和压缩gzip编码的功能,并支持采集gzip编码的网页. 更新日志20100613
16. 调试选项已添加到采集程序中. 在调试状态下,将显示一些特定的执行步骤信息,并且日志不会记录该操作.
17. 应网民的要求,增加了一个采集特定节点的采集选项. 启用此选项将仅采集节点,并且仅处理该节点采集的文档.
18. 采集代码已进行了很大的调整. 在同一处理时间(单处理和单线程)中仅一个网页的原创集合已被修改,以允许在同一处理时间(单处理和多线程)中采集多个网页. 经过不完全的测试后,采集速度至少提高了30%. 更新日志20100616
19. 该文章的伪原创方法已得到改进. 除了文章正文的先前关键字替换之外,文章标题关键字替换(可选)和文章正文句子也被完全破坏. 更新日志20100623
20. 您可以限制每天数据库中文章的数量,以及数据库中文章之间的最短间隔. 形成规则后,它们对蜘蛛更加友好.
21. 可以限制采集间隔的时间,以便在网站流量巨大时,过于频繁的采集将占用过多的CPU资源.
22. 可以设置计时采集,可以采集任意多次. 避免网站PV高峰期,并在夜间和其他流量相对较小的时间段自动采集. 更新日志20100629
23. 解决了在第一版中“ MySQL服务器已消失”的问题,如果采集时间过长,数据库服务器将脱机. 更新日志20100707
24. 现在,该插件可以触发自身并再次开始采集. PV触发现在仅用作保险措施. 通过分析日志文件,发现超过90%的触发是由插件本身完成的. 更新日志20100718
25. 对于新闻和其他对文章及时性有严格要求的站点,已经增加了文章采集的时限设置,并且可以将超过一段时间的文章设置为丢弃而不采集. 更新日志20100729
26. 添加了对返回到采集目标服务器的301或302网页代码的采集的支持,并且地址被重定向.
27. 根据客户要求,增加了在文件中插入SEO关键字的功能. 您可以在每个中文段落中随机插入设置的许多关键字之一. SEO关键字的内容由用户设置,可以是任何合法的HTML代码. 更新日志20100803
28. 自动为采集的文章添加属性,包括[图片/滚动/推荐/推荐/标题/幻灯片/粗体]等.
29. 自动生成网站站点地图,包括[每个部分的完整站点HTML地图/完整站点RSS地图/谷歌站点地图/谷歌新闻站点地图/百度站点地图/ RSS数据]. 更新日志20100810
30. 同类采集插件的采集容量每天都超过4000个,甚至超过了一些人群,甚至有些客户报告采集容量可以达到每天1W. 更新日志20100827
31. 同义词将不再被循环替换,例如以前非常经典的替换: Little Aunt-> Mo Aunt Mo,因为Little Aunt-> Little Aunt-> Mo Aunt,现在仅将其替换为: Little Aunt-> Little Aunt
32. 添加了在文章的开头和结尾自动插入SEO段落的功能.
33. 拼音可以自动插入文章中的关键字之后. 该伪原创功能比同义词替换更具可读性. 更新日志20100904
34. 它可以自动查看从其他采集软件(例如,优采云)采集并存储在DEDE中的文章. 您可以设置每次自动审阅的文章数,文章列,排序方法以及自动审阅文章的间隔时间. 更新日志20100927
35. 根据客户的反馈,所有需要频繁读写的文件都分别放在/ plus / autocollect / data /目录中,以提高cms系统的安全性.
36. 将密钥箱数据文件打包并封装为foxcode格式的文件. 这种文件将反下载代码添加到文件头中,这更安全. 版本2客户可以通过升级数据格式将以前的bin文件转换为新的数据文件,从而有效地保护了客户投入的时间和精力.
37. 在标题中插入关键字. 过去,它是随机插入标题之前和之后的. 现在,添加了选择前,后或随机的选项.
38. 添加了背景控制面板,所有参数修改都直接在控制面板上进行.
39. 增加了在线升级功能. 您可以直接在控制面板上单击在线升级,以将插件程序升级到最新版本.
40. 提供服务器活动的触发方法. 为了方便早期创建站点的朋友,现在购买此插件的客户免费提供3个月的服务器活动触发. 担心采集.
41. 添加了自定义文章摘要的功能,该功能需要在SEO变量设置中设置,然后配置每个特定的采集节点.
42. 增加了自动调整段落格式的功能(即自动排版). 在集合节点中启用此伪原创选项会自动调整文章正文的段落格式,从而带来更好的阅读体验.
43. 添加了采集节点的每日存储限制,达到存储限制的采集节点将停止存储.
44. 从以前的文章的随机存储到节点轮询,优化了文章的存储过程. 默认情况下,即使不打开节点[限制数据库中的项目数],每个节点中的项目数也基本保持平衡. 更新日志20101128
45. 增加了定制词库的功能. 您可以在线批量修改多个同义词短语,也可以通过导出和重新导入来修改同义词库. 更新日志20101205
46. 增强了对多线程集合最大并发性的控制,以进一步精确地控制资源使用.
47. 增加了自动在线升级功能. 只要在全局配置中打开[自动升级]选项,该插件就会尝试每天早晨自动将自身更新为最新版本. 更新日志20101211
48. 添加了单节点发布选项,您可以选择生成HTML或动态浏览.
49. 添加了用于强制在全局设置中更新主页的选项,可以将其设置为强制定期更新主页.
50. 开始支持Atlas模型. 更新日志20101219
您看到这么多文字感到头晕吗? ^ _ ^单击此处以查看->自动采集插件第三版和第一版的功能比较表
感谢所有一直支持该插件的客户和朋友以及我本人. 我要特别赞扬[Hu Yidao]儿童鞋. 这个兄弟花了两天的宝贵时间来测试插件v3安装程序包. 同时提出了很多好的意见; [某人]和[热爱美丽的人]一直在关注v3的发布时间,在此我要表示感谢.
感谢您的老客户对这个插件的支持和帮助. v2客户将从现在开始免费升级到v3版本. 同时,先前商定的支持期限和其他服务保持不变.
以下是其他有用的链接:
1. 如何将捕获插件从v2升级到v3?
2. 如何安装DEDE自动采集插件的第三版?
3. 常见问题解答
4. 自动采集插件更新日志
如果您对该插件有其他功能要求,可以在开发计划页面上留言,我会适当地增加它.
如果您需要此插件,请单击此处