网站文章自动采集(节点采集成功的使用说明及使用方法(一幅))

优采云 发布时间: 2021-08-29 21:00

  网站文章自动采集(节点采集成功的使用说明及使用方法(一幅))

  使用说明1-运行数据解读(点击下方所有图片放大)

  

  这是一个典型的跑步信息数据图

  主要包括节点(即列表页)采集、内容页采集和文章入库统计,包括当天数据和总数据。

  从图中可以看出,当日节点采集成功31次,内容页采集成功5391次,文章发布29篇。

  内容页采集成功了5391次,但只发表了29篇文章,不相等。这是因为内容页采集 和文章 不是同时发布的。当天已经采集的文章到了但是没有发布,第二天继续发布。

  另外,图中红框是特别标注的,可以看到节点采集的成功率不高。

  因为这里[node采集success]的定义是:只要列表页上更新后的文章没有采集,就视为失败!这与我们通常理解的有点不同。至于为什么会这样定义,后面会讲到。

  

  前面的运行信息是总数据,这张图是每个节点的个体数据

  A区的数据为:node采集、content采集以及发布到数据库中的统计数据。比如有这样一个数据:

  

  其含义是:今天,节点采集成功1次/节点总数采集7次,内容页采集成功449次/内容页总数采集458次,文章发布和存储1次文章。

  插件程序采集列表页面时,会一次性保存所有匹配的URL(有效URL,准备内容页面采集)。第二次进入采集列表页面。如果您找到之前的文章网址(第一次记录的网址,视为无效网址),则无需再次记录。因为采集第二次没有到达新的URL(一个有效的URL),程序认为这次采集失败了。

  B区数据为:节点下一次采集的时间。

  一般来说,目标网站的列表页不会实时更新,一天甚至几天只会更新几篇文章。所以不需要经常去采集它,插件程序默认会自动调整列表页采集的频率。

  这里的时间是下次外挂程序最早的采集时间。至少这个时间到了之后,程序会采集这个节点。

  当然,也可能有一个列表页几分钟就更新一篇文章,或者你对目标网站的文章更新时间很敏感,需要不时监控列表页时间。这时可以将节点参数中的【list page采集frequency】设置为【high frequency】,设置后,【下次采集】时间会显示为任意时间,如图下图:

  

  C区的数据是节点的库存的URL,因为有些URL可能不是采集,或者标题可能重复排除等,文章可以发布到的数量图书馆通常比库存更多,网址很少。

  

  A区的数据,如果出现这种红色的数据,要特别注意。

  节点采集:0/10,节点(列表页)采集已经10次了,没有一个匹配到有效的URL。在这种情况下有两种可能性:列表页面规则的采集rules。问题是内容页URL无法匹配(解决方法是重新调整采集规则);或者对方网站没有更新,节点已经废弃(解决办法是找一个新的目标列表页,重新写采集规则)。总之,无论什么情况,都需要人工干预。

  A区红色数据表示存在需要人工干预的情况。

  上图表示节点采集有红色数据。同一个内容页采集也可能有红色数据。同样需要人工干预。分析方法与节点采集类似。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线