自动采集器怎么用(php采集中断、自动采集无效、图片下载不了详见:cli命令模式)
优采云 发布时间: 2021-09-20 03:04自动采集器怎么用(php采集中断、自动采集无效、图片下载不了详见:cli命令模式)
采集中断,自动采集无效,无法下载图片
见:
CLI命令模式
PHP可执行文件:默认情况下自动识别,但无法识别。关闭Linux系统中的目录跨站点保护。手动输入:可以输入环境变量名“PHP”(需要在系统中配置),也可以输入可执行路径。请注意,它不是一个PHP目录。通常,windows的中文版本是“PHP directory/PHP.exe”,Linux中的文件是“PHP directory/bin/PHP”
见:
无法触发采集:
1、确定是否正确配置了PHP
2、start proc_uuuu打开功能(参见:)
3、配置具有执行命令权限的web服务器
页面呈现设置(请参见:)
谷歌浏览器安装:下载并安装windows百度。请看Linux
配置Google路径:可以输入环境变量名“Chrome”(需要在系统中配置),也可以输入可执行文件路径:一般情况下,windows中的文件为“browser directory/Chrome.exe”,Linux中的文件为“browser directory/bin/Google Chrome”。注意:不同的浏览器版本可能导致不同的可执行文件名
采集规则设置
移动终端页面:打开请求头信息,设置useragent浏览器ID
要登录的页面:打开请求头信息,设置cookie缓存数据,以及如何获取cookie:。。。D%91%E7%AB%99cookie
采集在URL中找不到域名:启用自动完成URL
无法识别规则中的特殊字符:使用常规规则时,特殊字符必须用“”转义,与常规规则冲突的字符为:^$.*+|?[]{}()
页面呈现:呈现和不使用时的HTML源代码不同,规则可能不通用
在浏览器中获得的XPath在采集器中是无用的:可能XPath的对象是一个呈现元素,采集器默认情况下只能获取原创HTML源代码的内容。呈现的元素需要打开“页面呈现”功能,或者分析相应的JS链接来抓取它,以便“测试”分析网页“可以看到采集器实际捕获的页面”@
如何在字段中插入内容:添加新字段并选择字段组合作为采集方法
发布设置
本地cms程序无法检测到:
1、采集器和cms程序在同一个网站目录中。您的cms程序可能不受支持。您需要在路径末尾添加“@cmsname”来标识插件
2、采集器和cms程序不在同一个网站中,而是在同一个服务器中。该服务器可能已启用目录跨站点保护。只需关闭它即可
工具
错误日志文件占用了太多空间:它可以在“站点设置”中关闭,并且可以使用后台主页上的“清除缓存”清除日志
插件/应用程序开发
无法访问该应用程序:在使用该应用程序之前,需要将其配置为伪静态。配置文件位于优采云采集器根目录中:nginx.conf(nginx)、.Htaccess(APACHE)、web.config(IIS)
功能插件创建后,将不会显示:您需要在“云”中点击“下载的功能插件”将其打开
从云平台下载的文件在哪里
在“云下载”中,您可以找到从云平台下载的规则和插件
采集规则用于编辑任务>导入规则>下载的规则
发布插件用于任务>发布设置>本地cms程序
函数插件用于任务>采集器Settings>数据处理
第三方如何使用
开发者安装“第三方平台”应用后,点击“云下载应用”与“第三方平台”的管理连接,界面中的“应用首页”链接就是您需要提供给用户的平台网站
用户可以通过将开发者提供的平台网站添加到“云”第三方,在其他平台下载规则和插件
有关更多教程,请参见此处:
相关知识点:优采云采集器优采云采集器采集教程
此网站文章为舒容网络。它摘自权威材料、书籍或网络@K9文章.如有版权纠纷或侵权行为,请立即联系我们删除。未经许可严禁复制和转载!谢谢