解决方案:优采云采集器自动采集自动换IP

优采云 发布时间: 2022-12-04 03:52

  解决方案:优采云采集器自动采集自动换IP

  

  当采集和搜索引擎数据时,同一个IP采集太多的数据,会造成IP被封的问题,下面推荐的软件可以通过路由的拨号功能来代替当前电脑的IP。

  这所房子支持自动定时IP切换,定时采集优采云采集器,定期更新,简直是杀人神器!

  

  路由器

  您可以根据需要复制“优采云采集器自动采集自动IP更改”,但请保留本文的来源和版权信息。

  最新发布:优采云采集器最新版 v2.3.3 免费版

  软件介绍

  优采云采集器是一个非常好用的爬虫系统,可以部署在云端,支持各种cms系统,可以帮助用户自动采集,实时发布数据。优采云采集器使用起来也很方便,而且功能完全免费,没有任何使用限制。欢迎有需要的用户下载。

  优采云采集器特点

  优采云采集器致力于发布网站数据自动化采集,系统采用PHP+Mysql开发,可部署在云服务器上制作数据采集 便捷智能 云化上云,让您随时随地移动办公!

  数据采集

  支持多级、多页、分页采集、自定义采集规则(支持正则、XPATH、JSON等)精准匹配任何信息流,几乎采集所有类型网页,绝对智能识别大多数文章类型的页面内容

  内容发布

  无缝对接各种cms建站程序,实现免登录数据导入,支持自定义数据发布插件,也可直接导入数据库,存储为Excel文件,生成API接口等。

  自动化与云平台

  软件实现定时、定量、全自动采集发布,无需人工干预!内置云平台,用户可以分享下载采集规则,发布供求信息,以及社区求助、交流等。

  优采云采集器安装步骤

  将下载的软件上传到您的服务器。如果根目录下有站点,建议放在子目录下。解压后,打开浏览器,输入你的服务器域名或ip地址(如果存放在子目录下,加上子目录名称),进入安装界面

  点击“接受”进入环境检测页面

  确保所有参数都正确,否则在使用过程中会出现错误,点击“下一步”进入数据安装界面

  填写数据库和创始人配置,点击“下一步”

  终于安装好了 优采云采集器 可以使用了!

  优采云采集器 教程

  创建任务

  登录后台,点击左侧导航“添加任务”

  添加任务页面

  “导入任务”可以复制其他任务的所有设置(包括采集器设置、发布设置)

  导入规则可以从其他任务或文件复制 采集器 设置

  “更多设置”可以为任务配置单独的采集设置

  采集器设置

  点击任务底部进度条中的“采集器设置”,进入规则编辑界面

  

  输入 采集 规则名称和目标 网站 代码(可自动检测)

  页面渲染可以自动加载ajax内容,适合js脚本较多的页面

  自动补全网址可以将网页中的相对网址(不收录域名的网址)转换为绝对网址(包括域名)

  该 URL 不会重新排名。默认情况下,通过 采集 的内容页面将被重新排名。不重新排名适用于经常更新的动态页面。

  修改请求头信息,适配需要登录、手机浏览等界面。

  起始页网址

  添加需要 采集 的目标列表页面

  点击“+”号批量添加网址,勾选“设置为内容页网址”直接采集输入网址,否则需要解析提取为列表页提取内容页网址

  内容页面网址

  编写提取内容页面 URL 的规则。默认情况下,提取所有 URL。如果您需要更精确,可以设置“提取 URL 规则”

  多级URL获取:适用于小说、电影等连载内容。

  内容页URL只要不是直接从起始页抓取,都可以通过多级获取

  关联页面URL的获取:适用于数据分散在多个页面

  如果要抓取的字段不在内容页面中,而是在其他页面中,可以使用该功能将其他页面作为内容源

  获取内容

  “Add Default”可以自动设置几个常用字段,可以满足大部分文章类型网站采集

  如果目标数据格式复杂,可以点击“+”自行编写字段规则,支持正则表达式、xpath、json等匹配方式

  “数据处理”可以过滤或替换采集的字段值,每个字段可以单独处理也可以使用通用处理

  抓取页面,点击启用“Content Pages”并编写规则,程序会自动抓取每个页面中的字段内容

  测试规则

  采集器 配置完成后,需要点击保存按钮。刷新后,可以在“内容页URL”选项卡和“获取内容”选项卡中看到测试按钮

  抓取测试列表页面中的 URL

  

  从测试页面获取数据

  测试爬行分页

  发布设置

  点击任务底部进度条中的“发布设置”,选择发布方式

  本地 cms 程序

  可以自动检测服务器中的cms程序,实现优采云采集器和cms之间的无缝连接

  只需绑定相应的数据,无需登录即可存储。也可以自行开发cms插件,理论上可以实现任意cms的任意存储操作

  数据库

  将数据直接放入数据库,配置数据库参数,点击“数据表”

  绑定数据表的字段和采集器的字段,多个表关联自增id,选择“自定义内容”,输入“auto_id@表名”

  另存为文件

  支持Excel表格(xlsx或xls格式)、txt文本、隐藏采集字段可设置不写入文件字段

  生成api接口

  采集可以直接调用的数据

  调用接口

  只要有对应的cms存储接口,就可以将数据远程发布到网站,而不用把采集器和网站放在同一台服务器上

  当数据发送到远程接口并存入数据库时​​,需要返回响应状态,以便采集器能够正确记录数据的状态,用于去重处理

  只需要在接口代码末尾或者数据存入数据库后插入代码即可

  exit(json_encode(array));//数组必须是键值对的形式,这样接口返回的数组key可以在响应状态直接绑定

  自定义插件

  适用于任何网站程序,只需根据需要创建插件文件和编写代码

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线