详细资料:云采集日志查看

优采云 发布时间: 2022-10-05 10:33

  详细资料:云采集日志查看

  Cloud采集日志主要用在两个方面:

  1、查看任务云​​采集的运行状态,判断任务在云采集中是否正常运行

  2.确定云端遇到的问题采集

  在启动cloud采集之前,需要设置自动截图,这样当cloud采集出错时,我们可以看到出错时显示的页面。

  在任务配置界面,点击右上角【采集配置】按钮进入任务配置页面,勾选【启用云采集错误日志自动截图】,点击【保存配置】 ]。

  (如果不勾选【启动云采集错误日志自动截图】,任务启动时会获取页面截图,任何进入日志的人都可以看到这个截图。当任务结束时,会得到另一个截图页面的截图;此时的页面截图会覆盖任务开始时的页面截图,如果勾选【启动云采集错误日志自动截图】,出现错误日志时会自动获取页面截图。错误日志对应的页面截图会被保存。)

  1、查看任务云​​采集的运行状态,判断任务在云采集中是否正常运行

  云采集日志查看方式

  ①启动云采集后,会弹出云采集窗口。

  点击采集窗口中的任务运行信息,可以看到整个任务的子任务拆分情况,以及各个子任务的运行状态,将鼠标移动到状态为“正在运行”或“已完成”的子任务上',点击右侧详情,可以查看子任务的运行日志,以及云采集任务网页截图

  ②如果启动了多个云采集任务,只会显示上次启动任务的云采集窗口。如果要查看其他任务的云采集日志,可以到任务列表中找到要查看的任务,点击采集中的打开云采集主面板按钮状态打开任务的云采集窗口(此操作会自动关闭其他任务的云采集。采集窗口)。

  

  点击采集窗口中的任务运行信息,可以看到整个任务的子任务拆分情况,以及各个子任务的运行状态,将鼠标移动到状态为“正在运行”或“已完成”的子任务上',点击右侧详情,可以查看子任务的运行日志,以及云采集任务网页截图

  以这个任务为例,我们启动云采集,可以看到任务执行的步骤

  窗口上方是云网页的打开状态。网页正常打开,数据加载完毕。

  窗口下方是任务的运行日志。日志按时间顺序从前到后显示。时间最早的日志在底部,新的日志在顶部不断更新。

  日志的格式,左边是执行的日期和时间,右边是执行的具体步骤。

  第一个是启动采集,然后是我们的任务流程中打开网页、循环页面、循环列表提取数据的步骤,与我们的任务流程完全吻合。

  查看采集完成的一个子任务的日志,可以看到最后一个橙色的日志内容()为:

  [点击加载更多按钮] 没有找到目标元素 //P[normalize-space(text())='点击加载更多'][not(@disabled)][contains(string(),'点击加载更多')][not(contains(@style,'display: none;'))]

  以下日志是循环结束退出循环。

  

  一般错误日志会用橙色文字高亮,但是橙色的日志不一定就说明这一步有问题。判断这一步是否有问题,要根据任务的流程配置和网页的实际加载情况来判断。

  比如这里的橙色日志,首先我们来看看这个任务的流程。循环点击采集后加载更多数据。结合页面截图,我们发现页面上没有更多的显示。内容,也就是数据,已经加载完毕,所以没有Load More按钮,任务完成采集,自己结束。根据我们配置的流程和我们的需求,任务执行良好,没有错误。

  2.确定云端遇到的问题采集

  主要针对本地采集正常而云端采集有问题的情况。如果本地采集有问题,请先参考本地采集故障排除教程。

  如果本地采集可以正常工作采集,但是云端采集采集没有数据,或者只有采集少量数据,可以使用云采集 日志和截图进行故障排除

  比如云采集老板直接录用job数据时,采集显示部分数据任务完成。我们打开云采集日志,发现云采集页面截图显示“403,当前IP多次违反访问行为,已被暂时封禁”,说明反网站的采集在云端采集过程中触发,导致无法正常打开网页,无法继续。采集数据。

  比如cloud采集lazada列出数据的时候,如果数据没有采集,那么cloud采集就说明已经完成了。看截图发现页面有滑动验证,导致无法正常打开网页。无法继续 采集 数据。

  因为云采集日志和云采集页面截图需要从云服务器下载。浏览时加载需要一些时间,请耐心等待。

  最后提醒:

  如果一个任务多次启动采集,只能查看最后一个任务的云采集云采集操作日志和云采集截图。日志和屏幕截图在任务中。结束后最多保留 48 小时。每个账号的屏幕大小为10G。如果截图总大小超过10G,之前的截图也会被自动清除。

  内容分享:WordPress响应式羊毛部落赚客资讯博客网站源码 无人值守采集_源码下载

  WordPress响应式羊毛部落博客网站源无人值守采集与安装教程

  源代码介绍:

  羊毛信息博客自动采集网站的源代码,WordPress后台的前端和后端都是响应式布局,便于管理,并支持用户注册部门的贡献。

  1.大量内置文章,安装后可操作,省时省力;

  

  2.内置高效采集插件,每天自动采集一次(间隔可自行修改),真正无人值守;

  3.内置8采集规则;

  4.内置缓存插件,减少前台访问压力;

  5、网站管理简单快捷,后台可修改基本前台显示信息,无需移动代码;

  6.使用前台html5+CSS3响应式布局,多终端兼容(pc+手机+平板电脑),数据同步,易于管理;

  

  使用源代码的环境

  测试环境: linux php5.6 mysql5.6

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线