【优采云数据采集发布系统】优采云采集器下载v2.2

优采云 发布时间: 2020-08-25 13:58

  【优采云数据采集发布系统】优采云采集器下载v2.2

  优采云采集器是一款支持云端的数据采集软件。它还能从任何网页和服务器上采集数据,不需要登入。并且该软件还拥有一个云平台,你可以将采集的数据与其他用户一起分享。

  

  软件介绍

  优采云采集器是一款免费的数据采集发布爬虫软件,采用php+mysql开发,可布署在云服务器,几乎能采集所有类型的网页,无缝对接各种CMS建站程序,免登入实时发布数据,全手动无需人工干预!是大数据、云时代网站数据自动化采集的最佳云端爬虫软件。

  软件特征

  1、数据采集

  支持多级、多页、分页采集,自定义采集规则(支持正则、XPATH、JSON等)精准匹配任意信息流,几乎能采集所有类型的网页,绝大多数文章类型页面内容可实现智能辨识

  2、内容发布

  无缝对接各种CMS建站程序,实现免登录导出数据,支持自定义数据发布插件,也可以直接导出数据库、存储为Excel文件、生成API接口等

  3、自动化及云平台

  软件实现定时定量全手动采集发布,无需人工干预!内置云平台,用户可分享及下载采集规则,发布供求信息以及社区求救、交流等

  

  优采云采集器安装教程

  1、上传至服务器

  将下载的软件上传至您的服务器,如果根目录有站点建议置于子目录里,解压后打开浏览器输入您的服务器域名或ip地址(存放在子目录则加上子目录的名称),进入安装界面

  2、点击“接受”,进入环境检测页面

  3、必须确保所有参数都正确,否则使用中会出现错误,点击“下一步”进入数据安装界面

  

  4、填写好数据库及创始人配置,点击“下一步”

  

  5、最后安装完成,现在可以使用优采云采集器了!

  优采云采集器采集规则

  添加、编辑数组时使用规则匹配可精准获取目标页面的数据

  

  “规则”支持:(*)(通配符)、正则表达式,使用[内容](通用匹配)或捕获组(正则捕获组)将匹配的数据保存为标签,在“拼接内容”中引用[内容N]标签组成结果

  [内容]和捕获组的区别:[内容]会手动转换成固定格式捕获组:(?.*?)

  而捕获组:(?[\s\S]*?),可以编撰任意正则表达式

  [内容]适用于精准度不高的通用匹配,捕获组适用于精准匹配

  默认为单个匹配,多个匹配可勾选“允许匹配多个元素”

  示例

  以网易新闻为例,页面中有许多元素,而我们只须要标题和正文

  

  鼠标右键,查看页面源代码,使用鼠标 CTRL+F 搜索标题,找到标题的位置

  正文处于标记的红框html代码之间

  优采云采集器如何使用

  1、创建任务

  登录后台,左侧导航中点击“添加任务”

  “导入任务”可以复制其他任务的所有设置(包括采集器设置、发布设置)

  “导入规则”可以从其他任务或文件中复制采集器设置

  “更多设置”可以为任务单独配置采集设置

  

  2、采集器设置

  点击任务顶部进度条的“采集器设置”进入规则编辑界面:

  输入采集规则名称和目标网站编码(可手动检查)

  页面渲染可手动加载出ajax内容,适用于js脚本较多的页面

  自动补全网址可以将网页中的相对地址(不收录域名的网址)转为绝对网址(收录域名)

  网址不排重,默认会将采集过的内容页排重处理,不排重适用于更新频繁的动态页面

  修改恳求头信息以适应须要登陆的、手机浏览的等界面

  3、发布设置

  点击任务顶部进度条的“发布设置”,选择发布形式

  本地cms程序:可手动检查出服务器中的CMS程序,实现优采云采集器和cms无缝对接

  

  简单绑定对应的数据,不用登入即可入库,你还可以自行开发cms插件,理论上可实现任何CMS的任意入库操作

  数据库:直接将数据入库,配置好数据库参数点击“数据表”

  绑定数据表的主键和采集器的数组,多张表关联自增id,选择“自定义内容”输入“auto_id@表名”即可

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线