web服务器采集中断、自动采集无效、图片下载不了

优采云 发布时间: 2021-08-25 00:17

  web服务器采集中断、自动采集无效、图片下载不了

  采集interrupted,自动采集无效,图片无法下载

  因为web服务器有运行时间限制,只要采集的执行时间过长,程序就会中断。需要修改web服务器的超时时间

  IIS 服务器:

  

  

  apache 服务器:

  apache目录\conf\extra\httpd-default.conf,修改Timeout

  nginx 服务器:

  nginx目录\conf\nginx.conf,修改fastcgi_connect_timeout

  修改以上参数值可以让采集不再中断。修改后记得重启服务器!其他服务器请百度。

  如果你是虚拟主机,不能修改配置,只能设置采集的数量。每次都不要采集太多。一般web服务器运行时间为30秒,尽量不要超时!

  cli 命令模式

  php可执行文件:默认自动识别,无法识别。关闭linux系统中目录的跨站保护。手动输入:可以输入环境变量名“php”(需要在系统中配置)或输入可执行文件路径,注意不是php目录,一般windows下的文件是“php目录/php .exe”,linux下文件为“php目录/bin/php”

  无法触发采集:

  页面渲染设置

  谷歌浏览器安装:windows百度下载安装,linux点击查看

  配置谷歌路径:可以输入环境变量名“chrome”(需要在系统中配置),或者输入可执行文件路径:一般windows中的文件为“浏览器目录/chrome.exe”,而linux中的文件是“浏览器目录/bin/google-chrome”,注意:不同浏览器版本可能会导致不同的可执行文件名!

  采集规则设置

  手机页面:打开请求头信息,设置UserAgent浏览器ID

  需要登录的页面:打开请求头信息,设置cookie缓存数据如何获取cookie

  采集到达的网址没有域名:开启自动补全网址

  规则中的特殊字符无法识别:使用常规规则时,特殊字符必须用“\”转义后才能使用。与正则冲突的字符有:^$.*+|?[]{}()

  页面渲染:渲染时和不使用时的html源代码不同,规则可能不通用!

  浏览器中获取的xpath在采集器中是没有用的:可能xpath的对象是渲染元素,采集器默认只能抓取原创html源码的内容,渲染元素需要开启“页面渲染”功能,或者分析对应的js链接进行抓取,使用“测试»分析网页”查看采集器实际抓取的页面

  如何插入字段内容:添加新字段,获取方式选择“字段组合”

  发布设置

  无法检测到本地cms程序:

  工具

  错误日志文件占用空间过大:可在“站点设置”中关闭,后台首页使用“清除缓存”清除日志。

  插件/应用开发

  应用无法访问:应用需要配置伪静态才能使用。配置文件在优采云采集器根目录下:nginx.conf(nginx)、.htaccess(apache)、web.config(iis)

  功能插件创建后不显示:需要在“云»已下载»功能插件”中点击打开

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线