解决方案:智能运维就是由 AI 代替运维人员?

优采云 发布时间: 2022-12-04 01:48

  解决方案:智能运维就是由 AI 代替运维人员?

  欢迎大家一起学习交流

  听到AI运维后,很多人都感到焦虑。我现在从事的运维或者开发,未来会不会被AI取代?

  现在新技术发展的非常快,各种语言、技术、概念让大家真的是应接不暇,跟不上。但是有一点,在这里我要重申一下,现阶段AI还是一种大家判断的助手。还有学习、定位和处理问题的工具,就像无人驾驶一样,现在能完全无人化吗?当然不是。未来,无人驾驶可以完全替代人类,但还有很长的路要走。AI运维就像无人驾驶。未来前景一片光明,但任重而道远。

  大部分智能运维还没有完全落地,我公司也处于探索阶段。传统企业的运维应该怎么走?从以前的脚本到工具和自动化,再到现在的智能运维,中间这一步要做什么?今天,我将从以下五个方面与大家分享:

  1构建全面、科学的IT运维管理体系

  我们希望在现有的业务系统中,运维部门实现这样的运维目标?

  我们关注的核心问题是:

  在做好智能运维工作之前,我们经过深入分析提出四点要求:

  我们希望构建现代化、智能化的运维管理模式,主要有以下五个方面,如下图所示:

  2. 全景业务服务管理

  在互联网大爆炸时代,互联网+、数字化转型、智能化等也在国家层面被提及。我们的系统能否快速响应以保护业务?

  面向业务的IT服务管理主要具有以下特点:

  建立面向业务的综合监控平台的主要目的是实现统一展示、统一管理、统一调度。全链路监控的目的是监控和感知从接入入口到数据输出的每一个过程。

  从业务角度管理和维护IT基础资源。一旦某个资源出现故障或者出现问题,可以从业务视图直观的了解到这个资源的故障会影响到哪些业务和服务,进而知道哪些用户会受到影响。.

  数据库慢,CPU突然飙升。这些地方这些资源突然发生变化后,哪些业务会受到影响?这时候就需要将监控资源视图与业务关联起来,从而准确定位到哪些业务受到了影响。

  这是对问题的整体诊断和分析。

  

  任何问题都需要采集相关的日志和数据,才能科学全面的分析问题。

  采集层需要把不同数据源的数据采集带过来,中间层做一些性能分析,配置管理,预警分析,告警处理。展示层展示分析结果,即各种图表,建立全面的业务指标分析,便于根源定位和问题解决。

  3、基于大数据平台的日志分析和多维报表

  基于大数据平台,提供日志采集和聚合处理,通过日志关联分析、智能预测预警,帮助精准全面定位提升绩效和满意度,为科学决策提供量化依据.

  从采集采集网络监控数据、机房数据、服务器和云环境监控数据、*敏*感*词*报警数据。数据采集​​完成后,生成PMDB性能管理库。根据业务应用的特点,建立不同的模型进行相应的算法分析。

  KPI指标根据不同的资源类型定义。建模的目的是为了便于快速分析,为资源管理、告警管理、集中展示等其他模块提供数据分析模型支持。

  有两种类型的数据采集,被动的和主动的。

  采集业务相关的指标可以对数据进行预处理,做一些有效的标签标识,比如这个信息和指标是不是你感兴趣的,格式化不友好的日志。

  性能指标的计算必须与业务相协调,从业务的角度来定义。设定的阈值,有的场景是固定的,有的场景是动态的。固定阈值相当于资源使用率,必须有一个上限。动态阈值就像一些性能曲线,比如CPU利用率、页面响应、图片加载等,都可以使用动态阈值。可以根据历史数据计算动态阈值,根据这些可以合理计算某一时刻的历史峰值。目前需要多少资源。

  根据以上阈值,就会有报警事件发生。任何事件都是以时间为依据的,故障定位也必须以时间为依据,才能找到相关的日志和事件。

  事件诊断一直是运维领域非常重要的工作。事件与时间的相关性不仅可以为事件诊断提供很好的启发,也可以在帮助我们进行根本原因分析时提供很好的线索。在一定时期内发生的故障会产生一些相关的事件。对它们进行筛选过滤,可以详细捕捉故障,定位根源。

  在事件诊断和处理中,是否需要引入算法?我觉得很有必要。如果能提高效率和解决问题的能力,一切探索都是值得的。

  也有一些运维领域的朋友,花费了大量时间和精力学习和研究算法。我觉得没必要太纠结于算法。简单了解一下这些开源算法,知道这些算法的输入输出是什么,就能解决运维问题。有哪些实际问题,结合起来可以解决哪些问题,只要我们合理应用就够​​了,对于智能运维的更快落地会有事半功倍的效果。

  数据聚合处理就是将采集接收到的数据进行有机关联,压缩过滤,形成标准化信息。可以通过全量HDFS和增量Kafka实现数据导入。

  基于大数据平台的多维报表,根据自身需求,按日、周、月生成运维报表,发送给管理层领导。这些数据是他们比较关心的,用更清晰的图表展示这些时间段内发生了什么问题,造成了多大的影响,进而决定是否扩充相关资源,是否需要进行相应的业务部署进行调整。

  综合展示侧重于性能分析、容量分析和自动配置。比如我今年采购了500TB的存储,我用了多少,明年需要扩容多少,业务增长会有多少,这些都会影响到公司的采购计划。根据实际业务评估,计算明年需要购买多少TB的存储。

  

  4、IT监控管理平台开发

  IT监控和管理发展大约经历了三代。从 1990 年代到现在,第一代是以网络为中心的。在此期间,我们提供更多基于网络的监控和故障发现、带宽管理和服务水平协议。.

  第二代监控以监控IT基础设施为中心,我们更多看到的是对主机、存储、操作系统、中间件、数据库等各种基础资源的监控。

  第三代监控以IT应用为核心。对于更复杂的交易,需要实现面向用户体验和应用高可用的实时监控和故障智能诊断。运维人员要有高瞻远瞩、周全规划,能够提供全局实施的灵活、高效、健壮、标准化、自动化的监控方案。

  5. 故障管理与自主自愈

  这是我们每天收到的告警的统计数据。在自动化和智能化之前,我和其他人一样焦虑和崩溃。

  如何从错综复杂的运维监控数据中得到我们需要的信息和结果,总之就是区分提炼,提取出真正需要关注的信息,从而减少日常告警信息量。

  目标是简单、智慧和深度。

  简单是为了保证业务和SLA服务水平。出现问题及时响应,自动分析优化,处理流程精简高效结合,第一时间把问题匹配到正确的场景,找对人,正确处理时间。

  机器学习主要是突出智能。这需要大量数据进行训练。故障以各种形式出现。对历史故障数据进行场景分类和标注,不断利用模式识别和数据训练机器识别和分析,进而让机器自动准确判断。

  当然,贴标签不可能完全由人来完成。还需要机器来自动执行 关键词 标记。标注的合理性需要通过人来判断,然后应用到机器学习中,才能真正帮助我们做出一些决定。

  基于工程师的架构、经验和概率汇聚告警事件,基于规范和分工生成告警事件并发送给合适的人,基于数据和模型提升事件处理能力。一些工程师可以非常快速地处理许多事件。相反,对这个故障不熟悉的人可能要花很长时间。这就需要建立一个政策知识库供他人参考和学习,从而提高在类似场景下处理事件的能力。

  智能运维的最终目标是减少对人的依赖,逐渐信任机器,实现机器的自我判断、自我判断、自我决定。

  技术在不断改进。AI技术未来会解决很多需要大量人力和时间去解决的事情,但是AI并不是一个很纯粹的技术。还需要结合具体的企业场景和业务,以计算驱动和数据驱动,才能生产出真正可用的产品。

  智能运维技术在企业的落地不是一蹴而就的,而是一个循序渐进、价值普及的过程。

  可以看到,智能运维技术已经成为新运维演进的开端。可以预见,经过更高效、更平台化的实践,智能运维将为整个IT领域注入更多的新鲜感和活力。未来,不断发展壮大,成为引领潮流的重要力量!

  欢迎大家一起学习交流

  行业解决方案:阿里云——云迁移中心

  介绍

  Cloud Migration Hub(简称CMH)是阿里云自主研发的一站式迁移平台。为广泛的用户上云项目提供自动化、智能化的系统研究、上云规划、迁移管理,简化和加速用户上云过程,协助用户对整个业务进行面向业务的管理迁移的生命周期。

  产品优势

  多源适配

  云迁移中心适配多种常见用户源IT基础设施,包括:通用IDC环境、AWS、Azure、腾讯云等。针对不同环境,阿里云云迁移团队专门设计了采集器进行用户来源调研,采集网络、机器、流程、拓扑、性能等信息,满足用户在未来分析和场景生成中进一步上云。

  数据安全

  考虑到每个用户的数据安全和审计需求,云迁移中心提供采集数据“本地导出上传”和“自动上传”两种模式。并且,云迁移中心默认为用户的所有源端IT资源信息提供全流程数据加密。依托阿里云密钥管理服务KMS,所有数据加密存盘,保障用户数据安全。(注:用户来源IT资源信息包括但不限于IP、机器名、进程信息、监控信息、网络互访信息等云迁移中心采集或用户上传的所有信息)

  企业全景

  为了方便用户更好的了解当前云迁移项目的状态,云迁移中心提供了多种标签+集群来管理用户的IT资源。用户可以通过拓扑图和架构图的形式快速区分和分类业务集群,从而进一步设计业务在阿里云上的架构。并且云迁移中心会自动关联所有迁移任务,为用户的业务集群创建迁移状态全景图,方便用户一站式跟踪整体业务的迁移进度。

  任务整合

  云迁移中心集成了阿里云的各种迁移产品,包括服务器迁移工具SMC、数据库迁移服务DTS、大数据迁移工具DataWorks中的数据集成等。此外,云迁移中心还开放了OpenAPI支持第三方迁移工具,保证用户自研及第三方合作产品可以将任务状态上报云迁移中心统一管理,为用户呈现完整的迁移状态。

  产品特点

  云迁移成本评估 (TCO)

  上云中心CMH对企业上云进行综合评估,包括从其他云厂商上云到阿里云,或者从自建IDC上云。您可以快速获取阿里云采购清单和成本对比,协助企业做出上云决策。

  他的云账单分析

  通过授权CMH一个对其他云环境具有只读访问权限的账号,可以自动完成账单分析和云产品映射,从而获得使用阿里云的成本分析和对比。

  IDC云分析

  通过本地非侵入式采集工具,识别线下资源清单,自动完成云资源清单和账单预测,配合区域内常用机房成本支出,获取云成本分析对比。

  描述的截图是TCO评估的结果

  综合系统研究

  

  提供丰富的迁移系统研究能力,支持用户从其他云厂商或自建IDC迁移到阿里云,并绘制相应的应用拓扑图,辅助后续迁移方案的制定。

  其他云环境研究

  通过为CMH授权其他云环境只读权限的账号,用户可以自动完成其他云中各类云资源的用户信息采集,包括资源名称、类型、规格、性能、网络等师等一系列信息为后续的云迁移分析做铺垫。此外,他的云环境研究支持在线和离线两种模式,方便不同用户对数据安全和审计的需求。

  描述的截图是AWS资源调查的结果

  描述截图展示了AWS资源研究的细节

  本地非入侵研究

  在本地环境中,用户可以通过SSH通信的机器实现远程无侵入的本地环境信息采集,包括机器名、IP、规格、进程、性能、网络互访等一系列信息等,为后续的云迁移分析做铺垫。同样,调查模式支持在线和离线两种模式,方便不同用户满足数据安全和审计需求。

  描述截图为本地研究资源规范生成的html页面

  描述截图是本地研究网络拓扑生成的html页面

  业务分析和演示

  支持用户对业务应用系统进行可视化分析分类,提供一站式业务维度迁移仪表盘管理进度。

  应用拓扑展示

  为了帮助用户更好的划分自己的应用集群,CMH通过调研信息的分析和智能识别,提供了展示应用架构中各组件依赖关系的架构图,通过动态筛选模式Clusters引导用户更快的构建应用促进后续商业移民市场的建立。

  截图为研究信息上传后显示的应用拓扑图

  商业移民市场

  为了更好的配合用户展示其真实业务维度的迁移进度,CMH为用户的业务打造了专属的迁移仪表盘页面。用户可以一站式监控所有迁移任务,免去筛选、跳转等操作带来的不便。它还提供任务监控,协助用户完成无人值守的迁移。

  

  截图为控制面板显示的各业务集群的迁移进度

  截图为业务集群SSO的业务迁移进度仪表盘

  移民援助和融合

  支持用户一站式监控和管理迁移项目的进度,提供高效的迁移辅助工具,降低用户运营成本。

  迁移、扩张和开放

  CMH根据阿里云迁移交付的最佳实践,提供丰富的配套迁移工具,协助用户更高效地使用阿里云标准迁移产品。还提供OpenAPI,方便用户和其他第三方合作厂商在自研迁移工具中上报任务状态,统一展示给用户。

  迁移任务集成

  CMH打通了阿里云内部多种主流云迁移工具和产品,会自动将云下用户资源与迁移任务进行映射关联,并实时同步迁移任务状态。涵盖服务器迁移、数据库迁移、大数据迁移。通过CMH,您可以快速了解阿里云针对不同场景的迁移最佳实践产品。

  截图为同步用户在阿里云上的迁移任务

  产品应用场景

  云供应商更换和迁移

  可能无法满足非阿里云云厂商的服务,或者多云策略的需求。用户可能需要将某个云厂商的部分或全部资源迁移到阿里云。云迁移中心可以支持对其他云厂商的自动批量研究,协助用户完成自己的迁移计划,并接管用户使用阿里云迁移工具生成的任务状态,让用户看到迁移的进度项目一目了然。

  传统企业上云

  传统企业系统非常庞大,应用之间耦合度高,每个系统负责的部门不同,数据安全和审计要求高。通过云迁移中心的多种研究方式,可以覆盖传统企业的大部分IT资源基础设施,并提供出口审计功能。用户随后可以利用这部分调研信息在平台上完成进一步的云架构,一站式展示用户的迁移进度。

  大数据上云与数据中台建设

  针对企业用户将大数据从云端迁移到云端构建云数据仓库和数据中台,云迁移中心提供工具辅助用户快速创建海量数据迁移任务,自动化检测和模型分析云下数据源,批量配置数据迁移任务上云,迁移任务一站式管理。让用户数据安全、高效、直观地上传到云端。

  灾备站点数据迁移

  为满足企业用户多站点的容灾需求,用户需要将部分数据复制到新的站点。云迁移中心可以快速查询到用户在源站点的资源列表,并根据业务维度展示两站点之间的迁移和同步链接。让用户真正实现高效、快速、可管理、可监控的建站过程。

  有问题请多多联系小编Darkvm~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线