专业知识:指标采集能力也是一种运维经验

优采云 发布时间: 2022-10-02 20:13

  专业知识:指标采集能力也是一种运维经验

  指标采集能力也是一种运维经验

  前几天和一个做智能运维的朋友聊了聊运维体验的话题。我说指标采集也是一种运维经验。只有指标 采集 是准确、完整和可操作的。三维自动化系统可以很好地做到这一点。当时,他觉得他不同意我的观点。他们在用户方面进行了项目,以查看用户 采集 拥有哪些数据。基于用户采集的数据,采用智能算法对数据进行分析。,帮助用户提高运维监控、故障预警、故障追溯水平。不管用户的采集系统运行数据的质量和数量,可以帮助用户搭建智能分析预警平台。我朋友的公司专门研究异常检测算法。其算法能力在国内同行中名列前茅,智能运维平台软件也比较完善。他们的观点是,无论数据是什么,他们都有一套通用的方法,可以帮助用户构建智能运维能力。

  听起来确实不错,但似乎有些不对劲。当我们的沟通比较深入的时候,我们发现了一个问题,就是他们对很多用户做POC的时候,效果往往是好的,但是在实际生产环境中的效果往往比POC差。为什么会这样?因为他们在POC过程中得到的数据往往是用户系统出现问题时的数据,而且故障特征比较明显,所以即使数据质量不是很高,也能有更好的结果,而且算法相同,故障特性不那么明显的生产环境中,效果并不理想。

  

  事实上,如何实现高效、低影响、无风险、低成本、高密度的采集IT系统运行状态指标数据,对于运维自动化和智能化运维来说非常重要。我们可以把 IT 系统想象成一个池塘,小石头不断地往里扔,引起或大或小的涟漪。如果一下子把一块大石头扔进去,马上就会引起巨浪,然后系统就会出现问题。直到波浪平息,整个池塘才会恢复平静。大多数时候,没有那么多土石。常态化的状态是大量的小石块同时抛入池中,每块都产生涟漪。偶尔会有一些涟漪相交,在相交处会产生更大的涟漪,然后扩散开来。有经验的人经过长时间的观察发现,当某些小涟漪相交时,很有可能引发大浪。所以他可以根据自己的经验来警告这种状态的发生,这就是运维经验报警。而当我们没有这种运维经验的时候,我们总是在监测大石头引起的波浪,而那些小石头是我们无法监测的,所以如果我们想发现这种异常,无论如何好算法是没用的。

  我的观点是,无论是运维自动化还是智能运维,都必须以数据为基础。在昨天的文章中,我终于说出了“先数字化,后智能化”的观点,也是这个意思。如果一个智能运维团队无法掌握足够多的会影响系统的数据,那么算法再强大也没用。遗憾的是,无论是我们的智能运维厂商,还是用户自己,都对这一点认识不够。我遇到的大部分用户的看法是,数据的好坏不影响智能运维平台的建设。只能分析高质量数据的想法在大数据时代已经过时,而算法可以弥补数据的不足。. 其实这是对大数据的一种误解。如果影响系统健康的重要元素不纳入监管,如何保证通过算法发现系统问题?

  最后,举个指标的例子,对于IT系统的健康,进程状态监控很容易被忽视,但是一旦进程状态异常,整个操作系统就会处于异常状态,数据库出现故障的概率、中间件等很高。因此,过程状态监控对于运维自动化系统来说非常重要。

  上图是维基百科中进程状态的定义。对于流程状态,有些状态实际上是高风险状态,如果出现一些状态,就是高风险状态。这种风险一旦发生,100%会引起系统问题。例如,当有很多进程处于“D”状态时,往往是系统出了大问题,这些进程不能被kill -9杀死。大部分处于D状态的进程都在等待IO,通常是很短的时间。如果有一个进程长时间处于D状态,那么系统肯定有问题。如果此类进程的数量继续增长,系统就有较大的问题风险,可能需要重启操作系统才能恢复。

  

  在上面的例子中,这些处于 Ds 状态的进程都在等待 IO,并且是瞬间出现的。我们的采样周期为 2 分钟的监控平台无法始终捕获这些状态。

  我们遇到的D态进程问题,往往是由一些比较隐蔽的IO问题引起的。在IO问题爆发之前,D-state进程的数量会慢慢增加。当 D 态进程数较多时,其他 OS 监控命令也能发现问题。是的,但有时这个发现为时已晚。

  另一种情况是您的一个磁盘有问题。只有访问这个磁盘的系统偶尔会挂起,大部分IO指标不受影响。这时候有可能你的其他监控指标都找不到问题,系统中处于D状态的进程越来越多,占用了很多系统资源,我们不知道。

  我认为上面的例子足以证明指标的重要性。但是,要做好指标采集,需要大量专家的介入,需要对企业的运营经验进行梳理和提炼,才能打造高质量指标体系。完善丰富的指标体系,将企业IT运维推向更高层次。但是,梳理指标是一项非常艰巨的任务,而且不能立即看到结果。因此,在很多企业中,人们往往不愿意这样做。甚至我遇到了一家搭建智能运维平台的公司。领导觉得先搭建平台,数据的东西太难了,以后慢慢做吧。

  经验:《SEO常用工具有哪些?》有5个想法

  为网站检测、网站SEO排查和优化任务自动生成的一类工具:

  【星链SEO管理】可以帮助很多SEO功能:站群网站管理维护、SEO人员协同、优化任务生成、分配处理、工作考核统计等。

  1、输入网站的相关信息,仅需几分钟即可完成对所有站点的全面人工智能检测;根据明确的检测结果和待处理任务进行调整优化,可以延长网站的生命周期,提升网站的排名,增加网站的流量获取和查询量。

  

  2、系统自动生成SEO优化任务,可实时手动或自动分配给问题负责人网站。比如Starlink检测到问题的链接(降级,由K,404)第一时间通知负责人。

  不仅集成了短信和邮件,还集成了七微、钉钉等常用的协作工具。

  使用这个工具相当于找了一个得力助手,前三四名的单功能SEO工具

  

  一种是SEO关键词的挖掘和管理工具:

  【星矿关键词库管理】关键词挖掘、导出、维护、关键词管理、关键词预测工具,帮助他们快速准确获取核心关键词@ > 相关的 关键词 和长尾词。

  还可以自定义几十个标签,有20多种外文,词库管理非常方便。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线