采集采集器(系统默认的标签提升采集性能是什么?-八维教育)

优采云 发布时间: 2021-10-20 11:07

  采集采集器(系统默认的标签提升采集性能是什么?-八维教育)

  特征:

  1、支持文章内容分页采集;

  2、支持论坛采集

  3、支持UTF-8转GB2312,但采集内容字符格式是UTF-8的目标;

  4、 支持将文章的内容保存到本地;

  5、支持站点+栏目管理模式,让采集管理一目了然;

  6、支持替换链接、替换分页链接,破解一些JS/后台程序设置的反扒功能;

  7、支持采集器设置无限过滤功能;

  8、支持图片采集保存到本地,自动替换文件名避免重复;

  9、支持FLASH文件采集保存到本地,自动替换文件名避免重复;

  10、 支持限制PHP FOPEN和FSOCKET功能的虚拟主机;

  11、 支持手动过滤采集结果,并提供“空标题空内容”的快速过滤和删除;

  12、支持Flash专业站点采集,特色采集flash小游戏,可完美采集缩略图,游戏介绍;

  13、 支持全站配置规则的导入导出;

  14、支持栏目配置规则导入导出,提供规则复制功能,简化设置;

  15、 提供引导库规则导入导出;

  16、支持自定义采集间隔时间,避免被误认为DDOS攻击而拒绝响应,但采集可以设置防止DDOS攻击网站;

  17、支持自定义存储间隔时间,避免虚拟主机并发限制;

  18、支持自定义内容写入,用户可以设置任意内容(如自己的链接、广告代码),写入采集的内容:第一个、最后一个,或者随机写入;需要写入的内容在浏览库时自动带在身边,无需修改WEB系统模板。

  19、支持采集内容替换功能,用户可以设置替换规则随意替换;

  20、支持html标签过滤,让采集接收到的内容只保留必要的html标签,甚至是纯文本,不带任何html标签。如果系统默认标签不能满足您的需求,您还可以自定义其他HTML标签来提高采集性能;

  21、 支持多种cms指南库如:小蜜蜂商业门户网站系统(BBWPS)、Dedecms(织梦)、PHP168、mephpcms、Mambo、Joomla、DuoXun、SupeSite、cmsware、Empire Ecms、 (XYDW)cms、东易cms 、风迅cms、HUGESKY、PHPcms系统指南库;

  22、 支持PHPWIND、Discuz、BBSxp论坛指南库;

  23、支持WordPress、Bo_Blog日志系统指南库,除了官方指南库规则,您还可以设计自己的系统指南库规则,指南库设计功能完全开放;

  24、自带数据库优化工具,减少频繁采集过多的数据碎片降低数据库性能。

  以下特殊功能仅适用于“小蜜蜂采集器”:

  1、支持采集进程断点续传功能,不受浏览器意外关闭影响,重启后不会重复采集;

  2、 支持自动比较过滤功能,不会在采集的链接系统中重复采集和存储;

  以上两个功能可以大大减少采集时间,减少系统负载。

  3、 支持系统每天自动创建图片存储目录,方便管理;

  4、支持采集/guide间隔时间设置,避免被目标站识别为流量攻击而拒绝响应;

  5、支持自定义内容写入,实现简单的反采集功能;

  6、支持html标签过滤,几乎完美展现你想要的采集效果;

  7、完美的内容存储解决方案,不受目标编程语言和数据库类别的限制。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线