内容采集系统(一个完全面向用户采集系统的格式数据采集行为介绍及功能)

优采云 发布时间: 2022-03-27 11:26

  内容采集系统(一个完全面向用户采集系统的格式数据采集行为介绍及功能)

  完全面向用户采集行为的高度智能化采集系统,允许用户自行设计采集内容;适用于采集格式的数据,如:房产、招聘、招投标、网上经营情况、产品价格、股票/期货价格等信息。

  格式数据定义:一条信息收录多个子项,每个子项的内容分别显示;例如,一条出租信息可能收录以下基本子项,包括:位置、位置、面积、房屋类型、楼层、面积、价格、方位、产权、设施、价格、联系人、手机、电话, 电子邮件...;

  格式数据采集和普通文章采集的区别:

  文章采集一般只设计采集标题、文章内容、出处、作者、发布日期,不能展开;且文章的内容连贯显示,格式数据的内容由多个子项独立显示,无法使用传统的文章采集系统采集 访问类似的房地产、招聘、投标、在线商业状况、产品价格、股票/期货价格这些特殊信息。

  特征:

  1、在系统基本采集标签的基础上,允许用户随时自定义采集标签(试用版和标准版可自定义20个标签,进阶版不限);

  2、站点+渠道管理模式,采集管理一目了然;

  3、支持登录采集,只有特定登录才能采集浏览目标信息源;

  4、允许设置自定义标签内容属性,采集自动检查内容属性判断是否保留存储;

  5、支持手动过滤结果采集,提供“空标题、空内容”的快速过滤和删除;

  6、支持站点配置规则导入导出;

  7、支持通道配置规则导入导出,提供规则复制功能,简化设置;

  8、支持采集进程断点连续获取功能,不受浏览器意外关闭影响,重启后不再重复采集;

  9、支持自动比对过滤,对已经采集的链接不再重复采集和存储;

  10、PHP程序开发,支持多操作系统环境,Windows、FreeBSD、Linux、Solaris均可安装部署;

  11、支持远程部署,产品可以安装在服务器上(推荐)运行,也可以安装在本地电脑上运行;

  12、服务器在线部署采集,可以充分发挥本产品的节能高效特性;

  13、多种数据导出方式,采集数据可导入WEB系统;

  14、支持二次开发提取本系统数据采集;

  15、试用版可以测试功能采集,数据无法导入库,其他功能无限制;

  16、完全定制采集系统,不是固定的采集一个目标产品;一次购买可以设置采集任意数量的目标。

  v1.1207 更新:

  1、增加了采集链接替换功能,可以采集一些通过JS或者程序设置不显示真实URL地址的目标

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线