自动采集器怎么用(php采集中断、自动采集无效、图片下载不了详见:cli命令模式)

优采云 发布时间: 2021-09-20 03:04

  自动采集器怎么用(php采集中断、自动采集无效、图片下载不了详见:cli命令模式)

  采集中断,自动采集无效,无法下载图片

  见:

  CLI命令模式

  PHP可执行文件:默认情况下自动识别,但无法识别。关闭Linux系统中的目录跨站点保护。手动输入:可以输入环境变量名“PHP”(需要在系统中配置),也可以输入可执行路径。请注意,它不是一个PHP目录。通常,windows的中文版本是“PHP directory/PHP.exe”,Linux中的文件是“PHP directory/bin/PHP”

  见:

  无法触发采集:

  1、确定是否正确配置了PHP

  2、start proc_uuuu打开功能(参见:)

  3、配置具有执行命令权限的web服务器

  页面呈现设置(请参见:)

  谷歌浏览器安装:下载并安装windows百度。请看Linux

  配置Google路径:可以输入环境变量名“Chrome”(需要在系统中配置),也可以输入可执行文件路径:一般情况下,windows中的文件为“browser directory/Chrome.exe”,Linux中的文件为“browser directory/bin/Google Chrome”。注意:不同的浏览器版本可能导致不同的可执行文件名

  采集规则设置

  移动终端页面:打开请求头信息,设置useragent浏览器ID

  要登录的页面:打开请求头信息,设置cookie缓存数据,以及如何获取cookie:。。。D%91%E7%AB%99cookie

  采集在URL中找不到域名:启用自动完成URL

  无法识别规则中的特殊字符:使用常规规则时,特殊字符必须用“”转义,与常规规则冲突的字符为:^$.*+|?[]{}()

  页面呈现:呈现和不使用时的HTML源代码不同,规则可能不通用

  在浏览器中获得的XPath在采集器中是无用的:可能XPath的对象是一个呈现元素,采集器默认情况下只能获取原创HTML源代码的内容。呈现的元素需要打开“页面呈现”功能,或者分析相应的JS链接来抓取它,以便“测试”分析网页“可以看到采集器实际捕获的页面”@

  如何在字段中插入内容:添加新字段并选择字段组合作为采集方法

  发布设置

  本地cms程序无法检测到:

  1、采集器和cms程序在同一个网站目录中。您的cms程序可能不受支持。您需要在路径末尾添加“@cmsname”来标识插件

  2、采集器和cms程序不在同一个网站中,而是在同一个服务器中。该服务器可能已启用目录跨站点保护。只需关闭它即可

  工具

  错误日志文件占用了太多空间:它可以在“站点设置”中关闭,并且可以使用后台主页上的“清除缓存”清除日志

  插件/应用程序开发

  无法访问该应用程序:在使用该应用程序之前,需要将其配置为伪静态。配置文件位于优采云采集器根目录中:nginx.conf(nginx)、.Htaccess(APACHE)、web.config(IIS)

  功能插件创建后,将不会显示:您需要在“云”中点击“下载的功能插件”将其打开

  从云平台下载的文件在哪里

  在“云下载”中,您可以找到从云平台下载的规则和插件

  采集规则用于编辑任务>导入规则>下载的规则

  发布插件用于任务>发布设置>本地cms程序

  函数插件用于任务>采集器Settings>数据处理

  第三方如何使用

  开发者安装“第三方平台”应用后,点击“云下载应用”与“第三方平台”的管理连接,界面中的“应用首页”链接就是您需要提供给用户的平台网站

  用户可以通过将开发者提供的平台网站添加到“云”第三方,在其他平台下载规则和插件

  有关更多教程,请参见此处:

  相关知识点:优采云采集器优采云采集器采集教程

  此网站文章为舒容网络。它摘自权威材料、书籍或网络@K9文章.如有版权纠纷或侵权行为,请立即联系我们删除。未经许可严禁复制和转载!谢谢

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线