网站自动采集发布系统(优采云采集器是一款支持云端的数据采集发布爬虫软件。)

优采云 发布时间: 2021-09-26 22:28

  网站自动采集发布系统(优采云采集器是一款支持云端的数据采集发布爬虫软件。)

  优采云采集器是一款支持云的数据采集软件。无需登录即可采集任何网页和服务器的数据。而且软件还有云平台,可以与其他用户共享采集的数据。

  

  软件介绍

  优采云采集器是一款免费的数据采集发布爬虫软件,用php+mysql开发,可以部署在云服务器上,几乎采集所有类型的网页,无缝制对接各种cms建站程序,无需登录即可实时发布数据,全自动无需人工干预!大数据云时代最好的云爬虫软件网站数据自动化采集。

  软件特点

  1、数据采集

  支持多级、多页面、分页采集、自定义采集规则(支持regular、XPATH、JSON等)准确匹配任何信息流,几乎采集所有类型网页,绝对可以智能识别大部分文章类型页面的内容

  2、内容发布

  无缝对接各种cms建站程序,实现免登录导入数据,支持自定义数据发布插件,或直接导入数据库,存储为Excel文件,生成API接口等。

  3、自动化和云平台

  软件实现定时定量自动采集发布,无需人工干预!内置云平台,用户可以分享和下载采集规则,发布供需信息,以及社区帮助、交流等。

  

  优采云采集器安装教程

  1、上传到服务器

  将下载的软件上传到您的服务器。如果根目录下有站点,建议放在子目录下。解压后打开浏览器输入你的服务器域名或ip地址(如果存放在子目录中,则添加子目录名称),进入安装界面

  2、点击“接受”进入环境检测页面

  3、 必须保证所有参数正确,否则使用过程中会出现错误,点击“下一步”进入数据安装界面

  

  4、填写数据库和创始人配置,点击“下一步”

  

  5、终于安装完成了,现在可以使用优采云采集器!

  优采云采集器采集 规则

  添加和编辑字段时使用规则匹配来准确获取目标页面的数据

  

  “规则”支持:(*)(通配符)、正则表达式,使用[content](万能匹配)或捕获组(常规捕获组)将匹配的数据保存为标签,并在“拼接content" ]标签组合结果

  [Content] 和捕获组的区别: [Content] 会自动转换成固定格式的捕获组:(?.*?)

  捕获组:(?[\s\S]*?),可以写任何正则表达式

  【内容】适用于精度不高的一般匹配,捕获组适用于精确匹配

  默认为单个匹配,多个匹配可以勾选“允许多个元素匹配”

  例子

  以网易新闻为例,页面元素很多,我们只需要标题和正文

  

  右击,查看页面源码,使用键盘CTRL+F搜索标题,找到标题位置

  正文介于标记为红框的html代码之间

  优采云采集器使用方法

  1、创建任务

  登录后台,点击左侧导航中的“添加任务”

  “导入任务”可以复制其他任务的所有设置(包括采集器设置,发布设置)

  “导入规则”可以从其他任务或文件复制采集器设置

  “更多设置”可以单独配置任务采集设置

  

  2、采集器设置

  点击任务底部进度条中的“采集器设置”进入规则编辑界面:

  输入采集规则名称和目标网站代码(可自动检测)

  页面渲染可以自动加载ajax内容,适用于js脚本较多的页面

  自动补全网址可以将网页中的相对地址(不收录域名的网址)转换为绝对网址(包括域名)

  URL不重排,已经采集的内容页面默认会重排。No reflow 适合经常更新的动态页面

  修改请求头信息以适应需要登录、手机浏览等界面。

  3、发布设置

  点击任务底部进度条中的“发布设置”,选择发布方式

  本地cms程序:可以自动检测服务器中的cms程序,实现优采云采集器与cms的无缝连接

  

  只需绑定相应的数据,无需登录即可存储。 也可以开发自己的cms插件,理论上可以实现任意cms的任意存储操作

  数据库:直接将数据存入数据库,配置数据库参数后点击“数据表”

  将数据表的字段绑定到采集器的字段,多个表关联自增id,选择“自定义内容”,输入“auto_id@表名”。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线