自动采集器怎么用(采集模块功能介绍-上海怡健医学())
优采云 发布时间: 2022-02-09 12:18自动采集器怎么用(采集模块功能介绍-上海怡健医学())
适用范围:
1、采集对象不限,HTML、PHP、ASP、JAVA页面无所谓;
2、采集对象支持:文章、图片、Flash;
3、完美的内容存储解决方案,小蜜蜂采集器提供两种存储方式:数据库直接提交和模拟提交。
1)数据库直导完美支持任何基于Mysql数据库存储信息的内容管理系统,包括多表/多字段联动系统导库;
2)模拟提交指导库理论上支持任意目标,不受目标编程语言和数据库类别的限制;实际使用效果受目标应用影响。
各个采集模块的功能介绍:
1、 文章采集模块专用于采集文章/pictures,采集文章中收录的flash也是可用,但功能不如Flash采集模块强大;
2、 BBS 论坛采集 模块专用于采集BBS 论坛内容;
3、Flash采集模块专用于采集flash小游戏,可以完美采集缩略图和游戏介绍;
采集内容导入库介绍:采集各个模块的内容可以自由导入WEB应用系统。
特征:
1、支持文章内容分页采集;
2、支持论坛采集
3、支持UTF-8转GB2312,采集内容字符格式为UTF-8目标;
4、支持将文章内容保存到本地;
5、支持站点+栏目管理模式,采集管理一目了然;
6、支持链接替换,分页链接替换,破解部分JS/后台程序设置的反挖矿功能;
7、支持采集器设置无限过滤功能;
8、支持图片采集保存在本地,自动替换文件名,避免重复;
9、支持FLASH文件采集保存到本地,自动替换文件名,避免重复;
10、支持限制PHP FOPEN和FSOCKET功能的虚拟主机;
11、支持采集手动过滤结果,提供“空标题、空内容”的快速过滤和删除;
12、支持Flash Professional Station采集,专做采集flash小游戏,非常适合采集缩略图和游戏介绍;
13、支持整站配置规则的导入导出;
14、支持列配置规则导入导出,提供规则复制功能,简化设置;
15、提供库规则的导入导出;
16、支持自定义采集间隔,避免被误认为是DDOS攻击而拒绝响应,可以采集设置防DDOS攻击网站;
17、支持自定义存储间隔时间,避免并发虚拟主机数限制;
18、支持自定义内容写入,用户可以设置任意内容(如自己的链接、广告代码等),写入采集的内容:正面、背面、或随机写入;导入库的时候会自动带上要写的内容,不用修改你WEB系统的模板。
19、支持采集内容替换功能,用户可设置替换规则随意替换;
20、支持html标签过滤,允许采集只保留必要的html标签,甚至是不带html标签的纯文本;
21、支持多种cms库如:PHPcms V2/V3、Dedecms(织梦) V2/V< @3、PHP168 cms, mephpcms, Mambo cms, Joomla cms, DuoXun cms, SupeSite, cmsware , Empire E cms、新宇冬网(XYDW)cms、东一cms、风讯cms系统引导库;用户还可以设计适合自己系统库功能的指南。
22、支持PHPWIND、Discuz论坛导库,程序包内含2大论坛导库规则和操作指南说明;
23、附有数据库优化工具,减少频繁的采集数据碎片,降低数据库性能。
以下特殊功能仅适用于“小蜜蜂采集器”:
1、支持采集进程断点连续获取功能,不受浏览器误关机影响,重启后不再重复采集;
2、支持自动比较和过滤,对于已经采集的联动系统不会重复采集和存储;
以上两个功能可以大大减少采集时间,降低系统负载。
3、支持系统每天自动创建图片存储目录,方便管理;
4、支持采集/导库间隔设置,避免被目标站识别为流量攻击而拒绝响应;
5、支持自定义内容编写,实现简单的防挖矿功能;
6、支持html标签过滤,几乎完美展现你想要的采集效果;
7、完美的内容存储解决方案,不受目标编程语言和数据库类别的限制。
以上很多强大的功能都免费供您使用,您可以轻松高效地安装和使用信息采集。