测评:优采云采集器下载

优采云 发布时间: 2020-11-13 09:00

  优采云采集器下载

  软件简介

  优采云采集器是一个非常有用的采集器系统,可以在云中部署,支持各种cms系统,并且可以帮助用户自动采集并实时发布数据。 优采云采集器的使用也非常方便,并且该功能是完全免费的,没有使用限制,有需要的用户请下载。

  

  优采云采集器功能

  优采云采集器致力于发布网站数据自动化采集。该系统是用PHP + Mysql开发的,可以部署在云服务器上,以使数据采集方便,智能和基于云,从而使您可以随时随地移动办公室!

  数据采集

  支持多级,多页,分页采集,自定义采集规则(支持常规,XPATH,JSON等),以准确匹配几乎采集所有类型的网页的任何信息流,文章Type页面的大部分内容都可以实现智能识别

  内容发布

  各种cms网站构建程序的无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等。

  自动化和云平台

  该软件可实现定时定量的采集自动发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供求信息,社区帮助,交流等。

  优采云采集器安装步骤

  将下载的软件上载到您的服务器。如果根目录中有一个站点,建议将其放在子目录中。解压缩后,打开浏览器并输入服务器域名或IP地址(存储在子目录中时添加子目录的名称),进入安装界面

  

  点击“接受”进入环境检测页面

  

  您必须确保所有参数正确,否则在使用过程中会出现错误,请单击“下一步”进入数据安装界面

  

  填写数据库和Founder配置,单击“下一步”

  

  最后,安装完成,现在您可以使用优采云采集器!

  优采云采集器使用教程

  创建任务

  登录到后台,在左侧导航栏中单击“添加任务”

  

  添加任务页面

  “导入任务”可以复制其他任务的所有设置(包括采集器设置,发布设置)

  “导入规则”可以从其他任务或文件复制采集器设置

  “更多设置”可以分别配置任务的采集设置

  

  采集器设置

  在任务底部的进度栏中单击“ 采集器设置”以进入规则编辑界面

  输入采集规则名称和目标网站代码(可自动检测)

  页面渲染可以自动加载ajax内容,适用于具有更多js脚本的页面

  自动完成的URL可以将网页中的相对地址(没有域名的URL)转换为绝对URL(包括域名)

  URL不会排序。默认情况下,将对采集的内容页面进行排序。排序不适合经常更新的动态页面。

  修改请求标头信息以适应需要登录,手机浏览等的界面。

  

  起始页网址

  添加需要采集的目标列表页面

  单击“ +”号以批量添加URL,选中“设置为内容页面URL”直接输入采集输入URL,否则需要将其分析为列表页面以提取内容页面URL

  

  内容页面网址

  编写用于提取内容页面URL的规则。默认情况下提取所有URL。如果需要精确,可以设置“ URL提取规则”

  

  多级URL获取:适用于小说和电影等序列化内容

  只要不直接从起始页获取内容页面URL,就可以通过多个级别获取它

  

  

  获取关联的页面网址:适用于分散在多个页面中的数据

  如果要爬网的字段不在内容页面中,而是在其他页面中,则可以使用此功能将其他页面用作内容源。

  

  

  获取内容

  “添加默认值”可以自动设置几个通用字段,这些字段可以满足大多数文章类型的网站采集

  如果目标数据格式更复杂,则可以单击“ +”自己编写字段规则,并支持多种匹配方法,例如正则表达式,xpath,json等。

  

  “数据处理”可以将字段的值过滤或替换为采集,并且每个字段都可以单独处理或使用常规处理

  

  如果需要获取分页,请单击以打开“内容分页”并编写规则,该程序将自动获取每个页面中的字段内容

  

  测试规则

  采集器完成配置后,您需要单击保存按钮。刷新后,您可以在“内容页面URL”标签和“获取内容”标签中看到测试按钮

  从测试列表页面获取URL

  

  从测试页获取数据

  

  测试爬网分页

  

  发布设置

  在任务底部的进度栏中单击“发布设置”,然后选择发布方法

  本地cms程序

  可以自动检测服务器中的cms程序,以实现优采云采集器和cms之间的无缝连接

  

  简单绑定相应数据,您无需登录即可存储在库中,还可以自行开发cms插件,理论上任何cms都可以存储在任何操作中

  

  数据库

  将数据直接放入数据库中,配置数据库参数,然后单击“数据表”

  

  用采集器字段绑定数据表的字段,多个表与自增ID相关联,选择“自定义内容”并输入“ auto_id @表名”。

  

  另存为文件

  支持Excel表(xlsx或xls格式),txt文本,隐藏的采集字段可以设置为不写入文件字段

  

  生成api接口

  您可以直接从采集调用数据

  

  通话界面

  只要有相应的cms仓库界面,就可以将数据远程发布到网站,而无需将采集器和网站放在同一服务器上

  

  将数据发送到远程接口并存储在数据库中时,需要返回响应状态,以便采集器可以正确记录数据状态并将其用于重复数据删除处理

  您只需要在接口代码末尾或数据存储在库中之后插入代码

  exit(json_encode(array)); //数组必须为键值对形式,以便在响应状态下,您可以直接绑定接口中返回的数组键名

  自定义插件

  适用于任何网站程序,只需创建一个插件文件并根据需要编写代码

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线