优采云采集器 v2.3.3 Free Edition的最新版本

优采云 发布时间: 2020-08-08 14:29

  软件简介

  优采云采集器是一个非常有用的采集器系统. 它可以部署在云中并支持各种CMS系统,可以帮助用户实时自动采集和发布数据. 优采云采集器使用起来也非常方便,并且功能是完全免费的,没有使用限制,有需要的用户请下载.

  

  优采云采集器的功能

  优采云采集器致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,以方便,智能和基于云的方式采集数据,使您可以随时随地移动和工作!

  数据采集

  支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别

  内容发布

  与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.

  自动化和云平台

  该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供求信息,社区帮助,交流等.

  优采云采集器的安装步骤

  将下载的软件上载到您的服务器. 如果根目录中有一个站点,建议将其放在子目录中. 解压缩后,打开浏览器并输入服务器域名或IP地址(存储在子目录中时添加子目录的名称),进入安装界面

  

  点击“接受”进入环境检测页面

  

  您必须确保所有参数正确,否则在使用过程中会发生错误,请单击“下一步”进入数据安装界面

  

  填写数据库和Founder配置,单击“下一步”

  

  最后,安装完成,现在您可以使用优采云采集器了!

  使用优采云采集器教程

  创建任务

  登录到后台,在左侧导航栏中单击“添加任务”

  

  添加任务页面

  “导入任务”可以复制其他任务的所有设置(包括采集器设置,发布设置)

  “导入规则”可以从其他任务或文件复制采集器设置

  “更多设置”可以分别配置任务的采集设置

  

  采集器设置

  在任务底部的进度栏中单击“采集器设置”以进入规则编辑界面

  输入采集规则的名称和目标网站代码(可自动检测)

  页面渲染可以自动加载ajax内容,适用于具有更多js脚本的页面

  自动完成的URL可以将网页中的相对地址(不带域名的URL)转换为绝对URL(包括域名)

  URL未排序,默认情况下将对采集的内容页面进行排序. 没有排序适合经常更新的动态页面

  修改请求标头信息以适应需要登录,手机浏览等的界面.

  

  起始页网址

  添加需要采集的目标列表页面

  单击“ +”号以批量添加URL,选中“设置为内容页面URL”以直接采集输入的URL,否则需要将其分析为列表页面以提取内容页面URL

  

  内容页面网址

  编写用于提取内容页面URL的规则. 默认情况下提取所有URL. 如果需要精确,可以设置“ URL提取规则”

  

  多级URL获取: 适用于小说,电影等序列化内容.

  只要不直接从起始页获取内容页面URL,就可以通过多个级别获取它

  

  

  获取关联页面的URL: 适用于分散在多个页面中的数据

  如果要爬网的字段不在内容页面上,而是在其他页面上,则可以使用此功能将其他页面用作内容源.

  

  

  获取内容

  “添加默认值”可以自动设置几个通用字段,可以满足大多数文章类型的网站集

  如果目标数据格式更复杂,则可以单击“ +”自己编写字段规则,并支持多种匹配方法,例如正则表达式,xpath,json等.

  

  “数据处理”可以过滤或替换采集的字段值,并且每个字段都可以单独处理或使用常规处理

  

  如果需要获取分页,请单击以打开“内容分页”并编写规则,程序将自动获取每个页面中的字段内容

  

  测试规则

  配置采集器后,需要单击保存按钮. 刷新后,您可以在“内容页面URL”标签和“获取内容”标签中看到测试按钮.

  从测试列表页面获取URL

  

  从测试页获取数据

  

  测试爬网分页

  

  发布设置

  在任务底部的进度栏中单击“发布设置”,然后选择发布方法

  本地cms程序

  可以自动检测服务器中的CMS程序,实现优采云采集器与cms的无缝连接

  

  简单绑定相应数据,您无需登录即可存储在数据库中,也可以自行开发cms插件,理论上,任何CMS都可以存储在任何操作中

  

  数据库

  将数据直接放入数据库中,配置数据库参数,然后单击“数据表”

  

  绑定数据表的字段和采集器的字段,将多个表与自增ID关联,选择“自定义内容”并输入“ auto_id @表名”.

  

  另存为文件

  支持Excel表(xlsx或xls格式),txt文本,隐藏的采集字段可以设置为未写入文件的字段

  

  生成api接口

  您可以直接调用采集的数据

  

  通话界面

  只要有相应的cms存储接口,就可以将数据远程发布到网站,而无需将采集器和网站放在同一服务器上

  

  将数据发送到远程接口并存储在库中时,需要返回响应状态,以便采集器可以正确记录数据状态并将其用于重新放电处理

  您只需要在接口代码末尾或数据存储在库中之后插入代码

  exit(json_encode(array)); //该数组必须为键值对形式,以便您可以在响应状态下直接绑定接口中返回的数组键名

  自定义插件

  适用于任何网站程序,只需创建插件文件并根据需要编写代码

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线