使用中常见问题汇总!

优采云 发布时间: 2020-08-19 07:34

  使用中常见问题汇总!

  采集中断、自动采集无效、图片下载不了

  详见:

  cli命令模式

  php可执行文件:默认手动辨识,识别不了,在linux系统中关掉目录跨站保护,手动输入:可输入环境变量名“php”(需要系统中已配置)或输入可执行文件路径,注意不是php目录,一般windows中文件为“php目录/php.exe”,linux中文件为“php目录/bin/php”

  触发不了采集:

  1、确定php配置是否正确

  2、开启proc_open函数

  3、给web服务器配置执行命令的权限

  页面渲染设置

  谷歌浏览器安装:windows百度下载安装即可,linux请看

  配置微软路径:可输入环境变量名“chrome”(需要系统中已配置),或者输入可执行文件路径:一般windows中文件为“浏览器目录/chrome.exe”,linux中文件为“浏览器目录/bin/google-chrome”,注意:浏览器版本不同可能会造成可执行文件名不同!

  采集规则设置

  手机移动端页面:开启恳求头信息,设置UserAgent浏览器标示

  需要登入的页面:开启恳求头信息,设置Cookie缓存数据,如何获取cookie: ... D%91%E7%AB%99cookie

  采集到的网址没有域名:开启手动补全网址

  规则中的特殊字符辨识不了:使用正则规则的时侯特殊字符必须使用“\”转义就能使用,和正则冲突的字符有:^$.*+|?[]{}()

  页面渲染:使用渲染和不使用时的html源码是不一样的,规则可能不通用!

  浏览器中获取到的xpath在采集器中没有用:可能该xpath的对象是渲染下来的元素,采集器默认只能抓取原创html源码的内容,渲染下来的元素须要开启“页面渲染”功能,或者剖析相应的js链接来抓取,使用“测试》分析网页”可以看见采集器实际抓取到的页面

  字段如何插入内容:添加一个新数组,获取方法选择“字段组合”

  发布设置

  本地cms程序检查不下来:

  1、采集器和cms程序是在同一个网站目录中,可能是不支持您的cms程序,需要在路径结尾中加上“@cms名称”即可辨识出插件

  2、采集器和cms程序不在同一网站但在同一服务器中,可能是服务器开启了目录跨站保护,关闭即可

  工具

  错误日志文件太多占用空间:可以在“站点设置”中关掉,后台首页使用“清除缓存”可以清空日志

  插件/应用开发

  应用程序难以访问:应用须要配置伪静态就能使用,配置文件在优采云采集器根目录:nginx.conf(nginx),.htaccess(apache),web.config(iis)

  函数插件创建后不显示:需要在“云端》已下载》函数插件”中点击开启

  云平台下载的文件去哪了

  在“云端》已下载”中可找到云平台中下载的规则、插件等

  采集规则在 “编辑任务 > 导入规则 > 已下载规则” 中使用

  发布插件在 “任务 > 发布设置 > 本地CMS程序” 中使用

  函数插件在 “任务 > 采集器设置 > 数据处理” 中使用

  第三方怎样使用

  开发者安装了“第三方平台”应用,点击“云端》已下载》应用程序》第三方平台”的管理联接,界面中的“应用首页”链接即为您须要提供给用户的平台网址!

  用户在“云端》第三方”中添加开发者提供的平台网址即可在对方平台中下载规则、插件等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线