节点采集成功的使用说明及使用方法(一幅)

优采云 发布时间: 2021-05-03 04:19

  节点采集成功的使用说明及使用方法(一幅)

  说明1-运行数据的解释(单击下面所有图片放大)

  

  这是典型的运行信息数据图

  主要包括节点(即列表页面)采集,内容页面采集和文章的仓储统计数据,包括当天数据和总数据。

  从图中可以看到,当天采集节点成功了31次,采集内容页面成功了5391次,文章在数据库中发布了29篇文章。

  内容页面采集成功获得5391次,但仅发表了29篇文章,但不相等。这是因为内容页面采集和文章不能同时释放。已经到达采集但尚未发布的文章将在第二天继续发布。

  此外,图中红色框特别标记,可以看到节点采集的成功率不高。

  因为这里[节点采集成功]的定义是:只要列表页面上更新的文章没有采集,就将视为失败!这与我们通常理解的有点不同。至于为什么这样定义,我将在后面讨论。

  

  先前的运行信息是总数据,此图片是每个节点的单独数据

  区域A中的数据是:节点采集,内容采集和库存释放的统计数据。例如,有这样的数据:

  

  其含义是:今天,节点采集成功1次/节点总计采集 7次,内容页面采集成功449次/内容页面总计采集 458次,文章发布到数据库中1条。

  当插件程序采集列出该页面时,它将一次保存所有匹配的URL(有效URL,对于内容页面为采集)。第二次进入采集列表页面。如果您发现文章 URL仍然是先前的URL(这些URL是第一次记录,则被视为无效URL),则无需再次记录它们。由于第二次采集没有新的URL(有效URL),因此程序认为采集这次失败了。

  B区域中的数据是:节点的下一次采集。

  通常来说,目标网站的列表页面不会实时更新,并且一天甚至几天内只会更新几篇文章。因此,无需经常访问采集,默认情况下,插件程序会自动调整列表页面采集的频率。

  这里的时间是插件程序下次的最早采集时间。至少在此时间结束后,程序将成为节点采集。

  当然,可能还会有一个列表页面在几分钟内更新文章,或者您对目标网站的文章更新时间非常敏感,因此您需要从以下位置监视列表页面:时不时。此时,您可以将节点参数中的[列表页面采集频率]设置为[高频率],此设置之后,[下一个时间采集]时间将显示为任何时间,如下图:

  

  C区域中的数据是节点清单的URL,因为某些URL可能不是采集,或者标题可能被重复和排除,等等,因此可以是文章的数量。释放到库中通常大于库存。URL很少。

  

  A区域中的数据,如果出现红色数据,请特别注意。

  节点采集:0/10,节点(列表页面)采集 10次,并且没有有效的URL匹配一次。在这种情况下,有两种可能性:采集规则中有一个列表页面规则。问题是内容页面URL无法匹配(解决方案是重新调整采集规则);或另一方网站尚未更新,并且该节点已被放弃(解决方案是找到新的目标列表页面并重新编写采集规则)。简而言之,无论情况如何,都需要人工干预。

  A区域的红色数据表示存在需要手动干预的情况。

  上图表明节点采集具有红色数据,相同的内容页面采集也可能具有红色数据。同样需要人工干预,并且分析方法与节点采集相似。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线