云端内容采集(web服务器采集中断、自动采集无效、图片下载不了)
优采云 发布时间: 2021-10-28 10:13云端内容采集(web服务器采集中断、自动采集无效、图片下载不了)
采集中断,自动采集无效,图片无法下载
因为web服务器有运行时间限制,只要采集的执行时间过长,程序就会中断,需要修改web服务器的超时时间。
IIS服务器:
阿帕奇服务器:
apache目录\conf\extra\httpd-default.conf,修改Timeout
nginx服务器:
nginx目录\conf\nginx.conf,修改fastcgi_connect_timeout
修改以上参数值可以让采集不再中断。修改后记得重启服务器!其他服务器请百度
如果你是虚拟主机,不能修改配置,唯一的办法就是设置采集的数量,每次采集不要太多,一般web服务器运行时间为30秒,尽量不要超时!
cli 命令模式
php可执行文件:默认自动识别,无法识别,在linux系统中关闭跨站保护,手动输入:可以输入环境变量名“php”(需要在系统中配置)或回车可执行文件路径,注意不是php目录,一般windows中的文件是“php目录/php.exe”,linux中的文件是“php目录/bin/php”
无法触发采集:
页面渲染设置
谷歌浏览器安装:windows百度下载安装,linux点击查看
配置谷歌路径:可以输入环境变量名“chrome”(需要在系统中配置),也可以输入可执行文件路径:windows中的文件一般为“浏览器目录/chrome.exe”, linux中的文件为“浏览器目录”/bin/google-chrome,注意:不同的浏览器版本可能会导致不同的可执行文件名!
采集规则设置
手机页面:打开请求头信息,设置UserAgent浏览器ID
需要登录的页面:打开请求头信息,设置cookie缓存数据如何获取cookie
采集 没有域名的网址:开启自动补全网址
规则中的特殊字符无法识别:使用常规规则时,特殊字符必须用“\”转义后才能使用。与正则冲突的字符有:^$.*+|?[]{}()
页面渲染:渲染时和未使用时html源代码不同,规则可能不通用!
在浏览器中获取的xpath在采集器中是没有用的:可能xpath的对象是被渲染的元素,采集器默认只能抓取原创html源代码的内容,而被渲染的元素需要要启用“页面渲染”功能,或者分析对应的js链接进行爬取,使用“测试»分析网页”查看采集器实际爬取的页面
发布设置
本地 cms 程序无法检测到:
工具
错误日志文件占用空间过大:可在“站点设置”中关闭,后台首页使用“清除缓存”清除日志
插件/应用程序开发
应用无法访问:应用需要配置伪静态才能使用。配置文件在优采云采集器的根目录下:nginx.conf(nginx)、.htaccess(apache)、web_config(iis)
函数插件创建后不显示:需要在“云»已下载»函数插件”中点击打开