一键采集上传常见的细节问题(php采集中断、自动采集无效、图片下载不了详见:cli命令模式)
优采云 发布时间: 2021-11-16 21:04一键采集上传常见的细节问题(php采集中断、自动采集无效、图片下载不了详见:cli命令模式)
采集中断,自动采集无效,图片无法下载
查看详细信息:
cli 命令模式
php可执行文件:默认自动识别,无法识别,在linux系统中关闭跨站保护,手动输入:可以输入环境变量名“php”(需要在系统中配置)或回车可执行文件路径,注意不是php目录,一般windows中的文件是“php目录/php.exe”,linux中的文件是“php目录/bin/php”
查看详细信息:
无法触发采集:
1、判断php配置是否正确
2、打开proc_open函数(见:)
3、配置web服务器执行命令的权限
页面渲染设置(请参阅:)
谷歌浏览器安装:windows百度下载安装,请看linux
配置谷歌路径:可以输入环境变量名“chrome”(需要在系统中配置),也可以输入可执行文件路径:windows中的文件一般为“浏览器目录/chrome.exe”, linux中的文件是“浏览器目录”/bin/google-chrome”,注意:不同浏览器版本可能会导致不同的可执行文件名!
采集规则设置
手机页面:打开请求头信息,设置UserAgent浏览器ID
需要登录的页面:打开请求头信息,设置cookie缓存数据,如何获取cookie:... D%91%E7%AB%99cookie
采集 URL 的 URL 没有域名:开启自动完成 URL
规则中的特殊字符无法识别:使用常规规则时,特殊字符必须用“”转义后才能使用。与正则冲突的字符有:^$.*+|?[]{}()
页面渲染:渲染时和未使用时html源代码不同,规则可能不通用!
在浏览器中获取的xpath在采集器中是没有用的:可能xpath的对象是被渲染的元素,采集器默认只能抓取原创html源代码的内容,而被渲染的元素需要要启用“页面渲染”功能,或者分析对应的js链接进行爬取,使用“测试”分析网页”查看实际爬取的页面采集器
如何插入字段内容:添加新字段,获取方式选择“字段组合”
发布设置
本地cms程序检测不到:
1、采集器和cms程序在同一个网站目录下,可能不支持你的cms程序,需要在程序末尾加上“ path@cmsName"来标识插件
2、采集器和cms不在同一个程序网站但是在同一个服务器,可能是服务器开启了目录的跨站保护,只是关闭它
工具
错误日志文件占用空间过大:可在“站点设置”中关闭,后台首页使用“清除缓存”清除日志
插件/应用程序开发
应用无法访问:应用需要配置伪静态配置,配置文件在优采云采集器的根目录:nginx.conf(nginx),.htaccess( apache), web.config (iis)
功能插件创建后不显示:需要在“云”下载“功能插件”中点击打开
从云平台下载的文件去哪了?
云平台下载的规则、插件等可在“云”下载
采集规则用于“编辑任务>导入规则>下载规则”
发布插件在“任务>发布设置>本地cms程序”中使用
功能插件在“任务>采集器设置>数据处理”中使用
第三方如何使用
开发者已安装“第三方平台”应用,点击“云”下载“应用”第三方平台”管理链接,界面中“应用首页”链接为您需要提供给用户的平台网址!
用户可以在“云”第三方”中添加开发者提供的平台网址,下载对方平台的规则、插件等。
更多教程请看这里:%e8%93%9d%e5%a4%a9%e9%87%87%e9%9b%86