一键采集上传常见的细节问题(php采集中断、自动采集无效、图片下载不了详见:cli命令模式)

优采云 发布时间: 2021-11-16 21:04

  一键采集上传常见的细节问题(php采集中断、自动采集无效、图片下载不了详见:cli命令模式)

  采集中断,自动采集无效,图片无法下载

  查看详细信息:

  cli 命令模式

  php可执行文件:默认自动识别,无法识别,在linux系统中关闭跨站保护,手动输入:可以输入环境变量名“php”(需要在系统中配置)或回车可执行文件路径,注意不是php目录,一般windows中的文件是“php目录/php.exe”,linux中的文件是“php目录/bin/php”

  查看详细信息:

  无法触发采集:

  1、判断php配置是否正确

  2、打开proc_open函数(见:)

  3、配置web服务器执行命令的权限

  页面渲染设置(请参阅:)

  谷歌浏览器安装:windows百度下载安装,请看linux

  配置谷歌路径:可以输入环境变量名“chrome”(需要在系统中配置),也可以输入可执行文件路径:windows中的文件一般为“浏览器目录/chrome.exe”, linux中的文件是“浏览器目录”/bin/google-chrome”,注意:不同浏览器版本可能会导致不同的可执行文件名!

  采集规则设置

  手机页面:打开请求头信息,设置UserAgent浏览器ID

  需要登录的页面:打开请求头信息,设置cookie缓存数据,如何获取cookie:... D%91%E7%AB%99cookie

  采集 URL 的 URL 没有域名:开启自动完成 URL

  规则中的特殊字符无法识别:使用常规规则时,特殊字符必须用“”转义后才能使用。与正则冲突的字符有:^$.*+|?[]{}()

  页面渲染:渲染时和未使用时html源代码不同,规则可能不通用!

  在浏览器中获取的xpath在采集器中是没有用的:可能xpath的对象是被渲染的元素,采集器默认只能抓取原创html源代码的内容,而被渲染的元素需要要启用“页面渲染”功能,或者分析对应的js链接进行爬取,使用“测试”分析网页”查看实际爬取的页面采集器

  如何插入字段内容:添加新字段,获取方式选择“字段组合”

  发布设置

  本地cms程序检测不到:

  1、采集器和cms程序在同一个网站目录下,可能不支持你的cms程序,需要在程序末尾加上“ path@cmsName"来标识插件

  2、采集器和cms不在同一个程序网站但是在同一个服务器,可能是服务器开启了目录的跨站保护,只是关闭它

  工具

  错误日志文件占用空间过大:可在“站点设置”中关闭,后台首页使用“清除缓存”清除日志

  插件/应用程序开发

  应用无法访问:应用需要配置伪静态配置,配置文件在优采云采集器的根目录:nginx.conf(nginx),.htaccess( apache), web.config (iis)

  功能插件创建后不显示:需要在“云”下载“功能插件”中点击打开

  从云平台下载的文件去哪了?

  云平台下载的规则、插件等可在“云”下载

  采集规则用于“编辑任务>导入规则>下载规则”

  发布插件在“任务>发布设置>本地cms程序”中使用

  功能插件在“任务>采集器设置>数据处理”中使用

  第三方如何使用

  开发者已安装“第三方平台”应用,点击“云”下载“应用”第三方平台”管理链接,界面中“应用首页”链接为您需要提供给用户的平台网址!

  用户可以在“云”第三方”中添加开发者提供的平台网址,下载对方平台的规则、插件等。

  更多教程请看这里:%e8%93%9d%e5%a4%a9%e9%87%87%e9%9b%86

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线