解决方案:优采云采集器自动采集自动换IP
优采云 发布时间: 2022-12-04 03:52解决方案:优采云采集器自动采集自动换IP
当采集和搜索引擎数据时,同一个IP采集太多的数据,会造成IP被封的问题,下面推荐的软件可以通过路由的拨号功能来代替当前电脑的IP。
这所房子支持自动定时IP切换,定时采集优采云采集器,定期更新,简直是杀人神器!
路由器
您可以根据需要复制“优采云采集器自动采集自动IP更改”,但请保留本文的来源和版权信息。
最新发布:优采云采集器最新版 v2.3.3 免费版
软件介绍
优采云采集器是一个非常好用的爬虫系统,可以部署在云端,支持各种cms系统,可以帮助用户自动采集,实时发布数据。优采云采集器使用起来也很方便,而且功能完全免费,没有任何使用限制。欢迎有需要的用户下载。
优采云采集器特点
优采云采集器致力于发布网站数据自动化采集,系统采用PHP+Mysql开发,可部署在云服务器上制作数据采集 便捷智能 云化上云,让您随时随地移动办公!
数据采集
支持多级、多页、分页采集、自定义采集规则(支持正则、XPATH、JSON等)精准匹配任何信息流,几乎采集所有类型网页,绝对智能识别大多数文章类型的页面内容
内容发布
无缝对接各种cms建站程序,实现免登录数据导入,支持自定义数据发布插件,也可直接导入数据库,存储为Excel文件,生成API接口等。
自动化与云平台
软件实现定时、定量、全自动采集发布,无需人工干预!内置云平台,用户可以分享下载采集规则,发布供求信息,以及社区求助、交流等。
优采云采集器安装步骤
将下载的软件上传到您的服务器。如果根目录下有站点,建议放在子目录下。解压后,打开浏览器,输入你的服务器域名或ip地址(如果存放在子目录下,加上子目录名称),进入安装界面
点击“接受”进入环境检测页面
确保所有参数都正确,否则在使用过程中会出现错误,点击“下一步”进入数据安装界面
填写数据库和创始人配置,点击“下一步”
终于安装好了 优采云采集器 可以使用了!
优采云采集器 教程
创建任务
登录后台,点击左侧导航“添加任务”
添加任务页面
“导入任务”可以复制其他任务的所有设置(包括采集器设置、发布设置)
导入规则可以从其他任务或文件复制 采集器 设置
“更多设置”可以为任务配置单独的采集设置
采集器设置
点击任务底部进度条中的“采集器设置”,进入规则编辑界面
输入 采集 规则名称和目标 网站 代码(可自动检测)
页面渲染可以自动加载ajax内容,适合js脚本较多的页面
自动补全网址可以将网页中的相对网址(不收录域名的网址)转换为绝对网址(包括域名)
该 URL 不会重新排名。默认情况下,通过 采集 的内容页面将被重新排名。不重新排名适用于经常更新的动态页面。
修改请求头信息,适配需要登录、手机浏览等界面。
起始页网址
添加需要 采集 的目标列表页面
点击“+”号批量添加网址,勾选“设置为内容页网址”直接采集输入网址,否则需要解析提取为列表页提取内容页网址
内容页面网址
编写提取内容页面 URL 的规则。默认情况下,提取所有 URL。如果您需要更精确,可以设置“提取 URL 规则”
多级URL获取:适用于小说、电影等连载内容。
内容页URL只要不是直接从起始页抓取,都可以通过多级获取
关联页面URL的获取:适用于数据分散在多个页面
如果要抓取的字段不在内容页面中,而是在其他页面中,可以使用该功能将其他页面作为内容源
获取内容
“Add Default”可以自动设置几个常用字段,可以满足大部分文章类型网站采集
如果目标数据格式复杂,可以点击“+”自行编写字段规则,支持正则表达式、xpath、json等匹配方式
“数据处理”可以过滤或替换采集的字段值,每个字段可以单独处理也可以使用通用处理
抓取页面,点击启用“Content Pages”并编写规则,程序会自动抓取每个页面中的字段内容
测试规则
采集器 配置完成后,需要点击保存按钮。刷新后,可以在“内容页URL”选项卡和“获取内容”选项卡中看到测试按钮
抓取测试列表页面中的 URL
从测试页面获取数据
测试爬行分页
发布设置
点击任务底部进度条中的“发布设置”,选择发布方式
本地 cms 程序
可以自动检测服务器中的cms程序,实现优采云采集器和cms之间的无缝连接
只需绑定相应的数据,无需登录即可存储。也可以自行开发cms插件,理论上可以实现任意cms的任意存储操作
数据库
将数据直接放入数据库,配置数据库参数,点击“数据表”
绑定数据表的字段和采集器的字段,多个表关联自增id,选择“自定义内容”,输入“auto_id@表名”
另存为文件
支持Excel表格(xlsx或xls格式)、txt文本、隐藏采集字段可设置不写入文件字段
生成api接口
采集可以直接调用的数据
调用接口
只要有对应的cms存储接口,就可以将数据远程发布到网站,而不用把采集器和网站放在同一台服务器上
当数据发送到远程接口并存入数据库时,需要返回响应状态,以便采集器能够正确记录数据的状态,用于去重处理
只需要在接口代码末尾或者数据存入数据库后插入代码即可
exit(json_encode(array));//数组必须是键值对的形式,这样接口返回的数组key可以在响应状态直接绑定
自定义插件
适用于任何网站程序,只需根据需要创建插件文件和编写代码