测评:优采云采集器下载
优采云 发布时间: 2020-11-13 09:00优采云采集器下载
软件简介
优采云采集器是一个非常有用的采集器系统,可以在云中部署,支持各种cms系统,并且可以帮助用户自动采集并实时发布数据。 优采云采集器的使用也非常方便,并且该功能是完全免费的,没有使用限制,有需要的用户请下载。
优采云采集器功能
优采云采集器致力于发布网站数据自动化采集。该系统是用PHP + Mysql开发的,可以部署在云服务器上,以使数据采集方便,智能和基于云,从而使您可以随时随地移动办公室!
数据采集
支持多级,多页,分页采集,自定义采集规则(支持常规,XPATH,JSON等),以准确匹配几乎采集所有类型的网页的任何信息流,文章Type页面的大部分内容都可以实现智能识别
内容发布
各种cms网站构建程序的无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等。
自动化和云平台
该软件可实现定时定量的采集自动发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供求信息,社区帮助,交流等。
优采云采集器安装步骤
将下载的软件上载到您的服务器。如果根目录中有一个站点,建议将其放在子目录中。解压缩后,打开浏览器并输入服务器域名或IP地址(存储在子目录中时添加子目录的名称),进入安装界面
点击“接受”进入环境检测页面
您必须确保所有参数正确,否则在使用过程中会出现错误,请单击“下一步”进入数据安装界面
填写数据库和Founder配置,单击“下一步”
最后,安装完成,现在您可以使用优采云采集器!
优采云采集器使用教程
创建任务
登录到后台,在左侧导航栏中单击“添加任务”
添加任务页面
“导入任务”可以复制其他任务的所有设置(包括采集器设置,发布设置)
“导入规则”可以从其他任务或文件复制采集器设置
“更多设置”可以分别配置任务的采集设置
采集器设置
在任务底部的进度栏中单击“ 采集器设置”以进入规则编辑界面
输入采集规则名称和目标网站代码(可自动检测)
页面渲染可以自动加载ajax内容,适用于具有更多js脚本的页面
自动完成的URL可以将网页中的相对地址(没有域名的URL)转换为绝对URL(包括域名)
URL不会排序。默认情况下,将对采集的内容页面进行排序。排序不适合经常更新的动态页面。
修改请求标头信息以适应需要登录,手机浏览等的界面。
起始页网址
添加需要采集的目标列表页面
单击“ +”号以批量添加URL,选中“设置为内容页面URL”直接输入采集输入URL,否则需要将其分析为列表页面以提取内容页面URL
内容页面网址
编写用于提取内容页面URL的规则。默认情况下提取所有URL。如果需要精确,可以设置“ URL提取规则”
多级URL获取:适用于小说和电影等序列化内容
只要不直接从起始页获取内容页面URL,就可以通过多个级别获取它
获取关联的页面网址:适用于分散在多个页面中的数据
如果要爬网的字段不在内容页面中,而是在其他页面中,则可以使用此功能将其他页面用作内容源。
获取内容
“添加默认值”可以自动设置几个通用字段,这些字段可以满足大多数文章类型的网站采集
如果目标数据格式更复杂,则可以单击“ +”自己编写字段规则,并支持多种匹配方法,例如正则表达式,xpath,json等。
“数据处理”可以将字段的值过滤或替换为采集,并且每个字段都可以单独处理或使用常规处理
如果需要获取分页,请单击以打开“内容分页”并编写规则,该程序将自动获取每个页面中的字段内容
测试规则
采集器完成配置后,您需要单击保存按钮。刷新后,您可以在“内容页面URL”标签和“获取内容”标签中看到测试按钮
从测试列表页面获取URL
从测试页获取数据
测试爬网分页
发布设置
在任务底部的进度栏中单击“发布设置”,然后选择发布方法
本地cms程序
可以自动检测服务器中的cms程序,以实现优采云采集器和cms之间的无缝连接
简单绑定相应数据,您无需登录即可存储在库中,还可以自行开发cms插件,理论上任何cms都可以存储在任何操作中
数据库
将数据直接放入数据库中,配置数据库参数,然后单击“数据表”
用采集器字段绑定数据表的字段,多个表与自增ID相关联,选择“自定义内容”并输入“ auto_id @表名”。
另存为文件
支持Excel表(xlsx或xls格式),txt文本,隐藏的采集字段可以设置为不写入文件字段
生成api接口
您可以直接从采集调用数据
通话界面
只要有相应的cms仓库界面,就可以将数据远程发布到网站,而无需将采集器和网站放在同一服务器上
将数据发送到远程接口并存储在数据库中时,需要返回响应状态,以便采集器可以正确记录数据状态并将其用于重复数据删除处理
您只需要在接口代码末尾或数据存储在库中之后插入代码
exit(json_encode(array)); //数组必须为键值对形式,以便在响应状态下,您可以直接绑定接口中返回的数组键名
自定义插件
适用于任何网站程序,只需创建一个插件文件并根据需要编写代码