云端内容采集(web服务器采集中断、自动采集无效、图片下载不了)

优采云发布时间: 2021-10-28 10:13

　　采集中断，自动采集无效，图片无法下载

　　因为web服务器有运行时间限制，只要采集的执行时间过长，程序就会中断，需要修改web服务器的超时时间。

　　IIS服务器：

　　阿帕奇服务器：

　　apache目录\conf\extra\httpd-default.conf，修改Timeout

　　nginx服务器：

　　nginx目录\conf\nginx.conf，修改fastcgi_connect_timeout

　　修改以上参数值可以让采集不再中断。修改后记得重启服务器！其他服务器请百度

　　如果你是虚拟主机，不能修改配置，唯一的办法就是设置采集的数量，每次采集不要太多，一般web服务器运行时间为30秒，尽量不要超时！

　　cli 命令模式

　　php可执行文件：默认自动识别，无法识别，在linux系统中关闭跨站保护，手动输入：可以输入环境变量名“php”（需要在系统中配置）或回车可执行文件路径，注意不是php目录，一般windows中的文件是“php目录/php.exe”，linux中的文件是“php目录/bin/php”

　　无法触发采集：

　　页面渲染设置

　　谷歌浏览器安装：windows百度下载安装，linux点击查看

　　配置谷歌路径：可以输入环境变量名“chrome”（需要在系统中配置），也可以输入可执行文件路径：windows中的文件一般为“浏览器目录/chrome.exe”， linux中的文件为“浏览器目录”/bin/google-chrome，注意：不同的浏览器版本可能会导致不同的可执行文件名！

　　采集规则设置

　　手机页面：打开请求头信息，设置UserAgent浏览器ID

　　需要登录的页面：打开请求头信息，设置cookie缓存数据如何获取cookie

　　采集没有域名的网址：开启自动补全网址

　　规则中的特殊字符无法识别：使用常规规则时，特殊字符必须用“\”转义后才能使用。与正则冲突的字符有：^$.*+|?[]{}()

　　页面渲染：渲染时和未使用时html源代码不同，规则可能不通用！

　　在浏览器中获取的xpath在采集器中是没有用的：可能xpath的对象是被渲染的元素，采集器默认只能抓取原创html源代码的内容，而被渲染的元素需要要启用“页面渲染”功能，或者分析对应的js链接进行爬取，使用“测试»分析网页”查看采集器实际爬取的页面

　　发布设置

　　本地 cms 程序无法检测到：

　　工具

　　错误日志文件占用空间过大：可在“站点设置”中关闭，后台首页使用“清除缓存”清除日志

　　插件/应用程序开发

　　应用无法访问：应用需要配置伪静态才能使用。配置文件在优采云采集器的根目录下：nginx.conf(nginx)、.htaccess(apache)、web_config(iis)

　　函数插件创建后不显示：需要在“云»已下载»函数插件”中点击打开

0

2021-10-28

云端内容采集

0 个评论

要回复文章请先登录或注册