web服务器采集中断、自动采集无效、图片下载不了
优采云 发布时间: 2021-08-25 00:17web服务器采集中断、自动采集无效、图片下载不了
采集interrupted,自动采集无效,图片无法下载
因为web服务器有运行时间限制,只要采集的执行时间过长,程序就会中断。需要修改web服务器的超时时间
IIS 服务器:
apache 服务器:
apache目录\conf\extra\httpd-default.conf,修改Timeout
nginx 服务器:
nginx目录\conf\nginx.conf,修改fastcgi_connect_timeout
修改以上参数值可以让采集不再中断。修改后记得重启服务器!其他服务器请百度。
如果你是虚拟主机,不能修改配置,只能设置采集的数量。每次都不要采集太多。一般web服务器运行时间为30秒,尽量不要超时!
cli 命令模式
php可执行文件:默认自动识别,无法识别。关闭linux系统中目录的跨站保护。手动输入:可以输入环境变量名“php”(需要在系统中配置)或输入可执行文件路径,注意不是php目录,一般windows下的文件是“php目录/php .exe”,linux下文件为“php目录/bin/php”
无法触发采集:
页面渲染设置
谷歌浏览器安装:windows百度下载安装,linux点击查看
配置谷歌路径:可以输入环境变量名“chrome”(需要在系统中配置),或者输入可执行文件路径:一般windows中的文件为“浏览器目录/chrome.exe”,而linux中的文件是“浏览器目录/bin/google-chrome”,注意:不同浏览器版本可能会导致不同的可执行文件名!
采集规则设置
手机页面:打开请求头信息,设置UserAgent浏览器ID
需要登录的页面:打开请求头信息,设置cookie缓存数据如何获取cookie
采集到达的网址没有域名:开启自动补全网址
规则中的特殊字符无法识别:使用常规规则时,特殊字符必须用“\”转义后才能使用。与正则冲突的字符有:^$.*+|?[]{}()
页面渲染:渲染时和不使用时的html源代码不同,规则可能不通用!
浏览器中获取的xpath在采集器中是没有用的:可能xpath的对象是渲染元素,采集器默认只能抓取原创html源码的内容,渲染元素需要开启“页面渲染”功能,或者分析对应的js链接进行抓取,使用“测试»分析网页”查看采集器实际抓取的页面
如何插入字段内容:添加新字段,获取方式选择“字段组合”
发布设置
无法检测到本地cms程序:
工具
错误日志文件占用空间过大:可在“站点设置”中关闭,后台首页使用“清除缓存”清除日志。
插件/应用开发
应用无法访问:应用需要配置伪静态才能使用。配置文件在优采云采集器根目录下:nginx.conf(nginx)、.htaccess(apache)、web.config(iis)
功能插件创建后不显示:需要在“云»已下载»功能插件”中点击打开