内容采集系统(一个完全面向用户采集系统的格式数据采集行为介绍及功能)
优采云 发布时间: 2022-03-27 11:26内容采集系统(一个完全面向用户采集系统的格式数据采集行为介绍及功能)
完全面向用户采集行为的高度智能化采集系统,允许用户自行设计采集内容;适用于采集格式的数据,如:房产、招聘、招投标、网上经营情况、产品价格、股票/期货价格等信息。
格式数据定义:一条信息收录多个子项,每个子项的内容分别显示;例如,一条出租信息可能收录以下基本子项,包括:位置、位置、面积、房屋类型、楼层、面积、价格、方位、产权、设施、价格、联系人、手机、电话, 电子邮件...;
格式数据采集和普通文章采集的区别:
文章采集一般只设计采集标题、文章内容、出处、作者、发布日期,不能展开;且文章的内容连贯显示,格式数据的内容由多个子项独立显示,无法使用传统的文章采集系统采集 访问类似的房地产、招聘、投标、在线商业状况、产品价格、股票/期货价格这些特殊信息。
特征:
1、在系统基本采集标签的基础上,允许用户随时自定义采集标签(试用版和标准版可自定义20个标签,进阶版不限);
2、站点+渠道管理模式,采集管理一目了然;
3、支持登录采集,只有特定登录才能采集浏览目标信息源;
4、允许设置自定义标签内容属性,采集自动检查内容属性判断是否保留存储;
5、支持手动过滤结果采集,提供“空标题、空内容”的快速过滤和删除;
6、支持站点配置规则导入导出;
7、支持通道配置规则导入导出,提供规则复制功能,简化设置;
8、支持采集进程断点连续获取功能,不受浏览器意外关闭影响,重启后不再重复采集;
9、支持自动比对过滤,对已经采集的链接不再重复采集和存储;
10、PHP程序开发,支持多操作系统环境,Windows、FreeBSD、Linux、Solaris均可安装部署;
11、支持远程部署,产品可以安装在服务器上(推荐)运行,也可以安装在本地电脑上运行;
12、服务器在线部署采集,可以充分发挥本产品的节能高效特性;
13、多种数据导出方式,采集数据可导入WEB系统;
14、支持二次开发提取本系统数据采集;
15、试用版可以测试功能采集,数据无法导入库,其他功能无限制;
16、完全定制采集系统,不是固定的采集一个目标产品;一次购买可以设置采集任意数量的目标。
v1.1207 更新:
1、增加了采集链接替换功能,可以采集一些通过JS或者程序设置不显示真实URL地址的目标