文章自动采集插件(这是一幅比较典型的运行信息数据图使用说明(一))
优采云 发布时间: 2021-11-13 08:21文章自动采集插件(这是一幅比较典型的运行信息数据图使用说明(一))
使用说明1-运行数据解读(点击下方所有图片放大)
这是一个典型的跑步信息数据图
主要包括节点(即列表页)采集、内容页采集和文章入库统计,包括当天数据和总数据。
从图中可以看出,当天节点采集成功31次,内容页采集成功5391次,文章被释放到数据库中29 篇。
内容页采集成功了5391次,但只发表了29篇文章,不相等。这是因为内容页采集 和文章 不是同时发布的。已采集到达但当天未发布的采集将持续到第二天。继续发布。
另外,图中红框特别标注,可以看出节点采集的成功率不高。
因为这里的[node采集success]的定义是:只要列表页上更新的文章没有采集,就会被认为是失败!这与我们通常理解的有点不同。至于为什么会这样定义,后面会讲到。
前面的运行信息是总数据,这张图是每个节点的个体数据
A区的数据为:节点采集,内容采集,发布到仓库的统计数据。比如有这样一个数据:
意思是:今天节点采集成功1次/节点总数采集7次,内容页采集成功449次/内容页总数采集458秒, 文章 发布了 1 篇文章。
插件程序采集列出页面时,会一次性保存所有匹配的URL(有效URL,准备内容页面采集)。第二次进入采集列表页面。如果找到之前的文章 URL(第一次记录的URL,视为无效URL),则无需再次记录。因为第二次采集没有新的URL(有效的URL),程序认为这次采集失败了。
B区的数据为:下一次节点采集。
一般来说,目标网站的列表页不会实时更新,一天甚至几天只会更新几篇文章。所以没必要经常去采集吧。默认情况下,插件程序会自动调整列表页采集的频率。
这里的时间是下次插件程序最早的采集时间。至少这个时间到了之后,程序就会采集这个节点。
当然,也可能有一个列表页几分钟就更新一篇文章,或者你对目标网站的更新时间很敏感,需要定时监控列表页到时间。这时可以将节点参数中的【List Page采集Frequency】设置为【High Frequency】,设置后,【Next采集】时间会显示为任意时间,如如下图所示:
C区的数据是节点的盘点的URL,因为有些URL可能不是采集,或者标题可能重复排除等,文章@的数量> 最终可以发布到数据库中的通常少于库存 URL。
A区的数据,如果出现这种红色的数据,要特别注意。
节点采集:0/10,节点(列表页)采集 10次,一次没有匹配到有效的URL。这种情况有两种可能: 采集 rule 的列表页规则有问题,无法匹配到内容页URL(解决方法是重新调整采集规则);或者对方网站没有更新,这个节点已经废弃(解决方法是找一个新的目标列表页面,重写采集规则)。总之,无论什么情况,都需要人工干预。
A区红色数据表示存在需要人工干预的情况。
上图表示节点采集有红色数据,同样的内容页面采集也可能有红色数据。同样需要人工干预,分析方法和节点采集类相同。