云端内容采集(web服务器采集中断、自动采集无效、图片下载不了)

优采云 发布时间: 2021-10-28 10:13

  云端内容采集(web服务器采集中断、自动采集无效、图片下载不了)

  采集中断,自动采集无效,图片无法下载

  因为web服务器有运行时间限制,只要采集的执行时间过长,程序就会中断,需要修改web服务器的超时时间。

  IIS服务器:

  

  

  阿帕奇服务器:

  apache目录\conf\extra\httpd-default.conf,修改Timeout

  nginx服务器:

  nginx目录\conf\nginx.conf,修改fastcgi_connect_timeout

  修改以上参数值可以让采集不再中断。修改后记得重启服务器!其他服务器请百度

  如果你是虚拟主机,不能修改配置,唯一的办法就是设置采集的数量,每次采集不要太多,一般web服务器运行时间为30秒,尽量不要超时!

  cli 命令模式

  php可执行文件:默认自动识别,无法识别,在linux系统中关闭跨站保护,手动输入:可以输入环境变量名“php”(需要在系统中配置)或回车可执行文件路径,注意不是php目录,一般windows中的文件是“php目录/php.exe”,linux中的文件是“php目录/bin/php”

  无法触发采集:

  页面渲染设置

  谷歌浏览器安装:windows百度下载安装,linux点击查看

  配置谷歌路径:可以输入环境变量名“chrome”(需要在系统中配置),也可以输入可执行文件路径:windows中的文件一般为“浏览器目录/chrome.exe”, linux中的文件为“浏览器目录”/bin/google-chrome,注意:不同的浏览器版本可能会导致不同的可执行文件名!

  采集规则设置

  手机页面:打开请求头信息,设置UserAgent浏览器ID

  需要登录的页面:打开请求头信息,设置cookie缓存数据如何获取cookie

  采集 没有域名的网址:开启自动补全网址

  规则中的特殊字符无法识别:使用常规规则时,特殊字符必须用“\”转义后才能使用。与正则冲突的字符有:^$.*+|?[]{}()

  页面渲染:渲染时和未使用时html源代码不同,规则可能不通用!

  在浏览器中获取的xpath在采集器中是没有用的:可能xpath的对象是被渲染的元素,采集器默认只能抓取原创html源代码的内容,而被渲染的元素需要要启用“页面渲染”功能,或者分析对应的js链接进行爬取,使用“测试»分析网页”查看采集器实际爬取的页面

  发布设置

  本地 cms 程序无法检测到:

  工具

  错误日志文件占用空间过大:可在“站点设置”中关闭,后台首页使用“清除缓存”清除日志

  插件/应用程序开发

  应用无法访问:应用需要配置伪静态才能使用。配置文件在优采云采集器的根目录下:nginx.conf(nginx)、.htaccess(apache)、web_config(iis)

  函数插件创建后不显示:需要在“云»已下载»函数插件”中点击打开

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线