智能采集组合文章(【干货】智能运维是一种技术的融合十分必要和重要意义)
优采云 发布时间: 2021-10-10 19:41智能采集组合文章(【干货】智能运维是一种技术的融合十分必要和重要意义)
0、前言
智能运维是将人类知识和运维经验与各种监控大数据和机器学习技术相结合,制定一系列智能策略,集成到运维系统中,通过自动化手段辅助运维人员完成日常复杂高难度的运维任务。从这个定义来看,智能运维体现的是多种运维技术的融合,不是简单的技术组合或叠加,也绝不是一个独立的个体。集成的重点在于数据、策略、流程、执行和可视化。数据是智能运维的源泉和基石,策略是分析大脑,流程是各个平台联动的中心,执行是基于自动化手段。这种结合失去了智能运维的本质和意义。容易出现运维数据不一致、监控信息孤岛、故障定位不准确、流程执行不准确、全球化不畅等问题。不可能真正实现业务、运维系统和人的联动。多种运维技术的融合是非常必要和重要的。笔者将分析这些要点及其整合的意义。并且执行基于自动化手段。这种结合失去了智能运维的本质和意义。容易出现运维数据不一致、监控信息孤岛、故障定位不准确、流程执行不准确、全球化不畅等问题。不可能真正实现业务、运维系统和人的联动。多种运维技术的融合是非常必要和重要的。笔者将分析这些要点及其整合的意义。并且执行基于自动化手段。这种结合失去了智能运维的本质和意义。容易出现运维数据不一致、监控信息孤岛、故障定位不准确、流程执行不准确、全球化不畅等问题。不可能真正实现业务、运维系统和人的联动。多种运维技术的融合是非常必要和重要的。笔者将分析这些要点及其整合的意义。监控信息孤岛,故障定位不准确,流程执行不准确,全球化差。不可能真正实现业务、运维系统和人的联动。多种运维技术的融合是非常必要和重要的。笔者将分析这些要点及其整合的意义。监控信息孤岛,故障定位不准确,流程执行不准确,全球化差。不可能真正实现业务、运维系统和人的联动。多种运维技术的融合是非常必要和重要的。笔者将分析这些要点及其整合的意义。
1、CMDB——智能运维的数据“基石”
CMDB也是一个配置管理数据库,它的重要性应该是智能运维系统的核心。在整体规划建设智能运维系统时,首先要以数据为基石进行建设。但是,企业在建立运维管理体系时,最容易忽视CMDB的建设。相反,它首先开始构建监控、流程和自动化系统,然后在另一方面构建CMDB,寻求运维项目建设的利益最大化,或者在构建CMDB的过程中处于世界中间,企业的一些认知问题也容易导致一些问题,比如建立多套CMDB,如硬件管理平台、云资源管理平台、运维流程平台、信息资产管理平台、监控管理平台、架构管理平台等,每个平台都有自己的CMDB视角,提供数据服务和来源适用于各自的平台。企业IT架构的海量数据信息必然需要这些平台从不同角度提供数据管控支持,但CMDB之间的数据联动、数据共享却鲜有提及,数据的统一性和一致性容易被忽视。如果智能运维在这样各种杂乱的数据源中,智能运维的决策是否正确、具有指导意义?对于数据的真实性,应该信任哪个数据源?如果我们构建一个统一完整的CMDB,提取各个平台CMDB的公共和对立字段,从大CMDB的角度来看,从CMDB向各个平台发送公共数据,从各个平台推送对立数据。 CMDB平台,通过这个Big CMDB实现数据的集中管理,建立CMDB数据共享平台。这样,智能运维所需的数据只需接入CMDB即可,无需对接各个相关平台。还可以使用智能运维生成的基础数据。推送到本CMDB数据共享平台,供其他运维平台调用。这样才能灵活正确地使用基础数据。那么企业应该怎么做呢?笔者认为,CMDB中数据对象的精细度首先要合理定位,不要过度细分。按照企业IT精细化管理的水平,你应该不会一口气做一个大胖子。比如在CMDB数据维护人员只有一个人。在这种情况下,如果IT资产的线缆标签也收录在CMDB类别中,CMDB的数据运维将变得非常困难;其次,CMDB的运维需要专岗专责,专设基础数据规划和管理岗位,保证数据的正确性。责任到人,从上到下严格执行;最后明确定义其他运维平台CMDB数据的边界,可以自动化采集
2、T/N/B/APM——智能运维的监控“探针”
实现智能运维,需要从不同角度、不同平台的监控“探针”。这里的“探针”并不是过去传统上考虑的多层次(如动态循环、系统、网络、数据库等)。监控点,而不是从不同角度构建多套异构监控平台,如动态循环、系统、存储、数据库、网络监控系统只是面向基础监控视角的监控平台,可以向上扩展到用户-面向/终端性能(U/TPM)、网络性能(NPM)、业务性能(BPM)、应用性能(APM)等监控平台为何划分?一是因为在互联网业务飞速发展的时代,服务开始横向分布,应用开始纵向模块化,网络运维开始向*敏*感*词*其实已经大大扩展了,那么企业应该怎么做呢?笔者认为,首先我们的任务是定义这些监控的边界,明确定义T/N/B/APM或者日志监控的范围,不要模棱两可,跨界,每个领域都要专注而非普遍;在监测领域,进行充分的研究,选择和测试,选择最合适的产品,尽量选择旁路监控方式而不是代理方式,尽量选择国内大型案例中市场占有率最高的产品,尽量选择产品而不是定制软件. 监控平台应该是基于平台的和可配置的。最后,要有整合这些监控的思路,比如将不同的监控平台与智能运维分析平台进行整合,整合才能产生价值。监控平台应该是基于平台的和可配置的。最后,要有整合这些监控的思路,比如将不同的监控平台与智能运维分析平台进行整合,整合才能产生价值。监控平台应该是基于平台的和可配置的。最后,要有整合这些监控的思路,比如将不同的监控平台与智能运维分析平台进行整合,整合才能产生价值。
3、运维大数据——智能运维的决策“大脑”
智能运维需要数据有输出。基础配置数据来自CMDB,分析数据来自不同角度的监控平台。通过建立运维大数据平台,整合所有基础性能数据、用户终端性能数据、网络。性能数据、业务性能数据、应用性能数据等索引类数据,事件数据、应用日志数据、系统日志数据等日志类数据,甚至网络消息数据。指标数据接入大数据kalfka消息集群,进入spark/storm进行实时流式数据分析,如基线分析、单/多指标性能预测、容量预测、策略决策等。日志数据进入ES集群进行结构化处理、统计分析、单日志/多日志字段分析和关联等,索引和日志历史数据存储在HDFS中,进一步用于大数据挖掘,如报警事件和索引数据。智能分析,查找可能原因,定位报警源;应用/系统日志上下文历史挖掘分析;报警事件周期规律分析;分析成对和成组的报警发生;告警相关性和因果关系分析;报警事件和变化过程关联分析等。运维大数据不仅仅是简单的数据集中和展示,更深层的目标是数据挖掘和分析,以促进运维工作的自动化和智能化,甚至业务运维数据,促进业务创新。改善用户体验。因此,笔者认为,单纯的将运维技术叠加起来,并不是拥抱智能运维的方式。将多种运维技术融合起来,实现运维和商业价值就更难了。
大数据平台运维的技术壁垒就在这里。然而,大多数使用大数据技术进行运维的厂商,仍然停留在数据的集中采集和单一数据的分析上,比如指标数据的基线和预测。趋势值和可能的未来值通常由单一数据源的历史数据按照一定的算法模型计算得出;日志类数据的统计分析,通常是对单个日志源中的日志进行格式化后,对字段或关键字进行分类分类统计、多字段联合统计等;对网络消息类数据进行解码、分析、提取业务领域后,对用户行为和异常情况进行监控等。无疑,这种方式确实可以产生一定的运维和商业效益,但是离智能运维还差得很远。最能代表智能运维的场景之一是故障定位和建议。结果可能只是“现象”而不是“根本原因”,端到端多数据源挖掘的结果才能真正定位问题。比如银行业常见的手机跨行转账业务转账:手机银行-ESB-统一支付,手机银行应用有问题,线程繁忙,CPU利用率高,应用端口频繁UP和DOWN,业务量锐减,统一支付和ESB业务量正常。按照传统的运维模式,故障位于手机银行应用程序中。结合大数据分析,定位可能是JAVA程序造成的。但实际情况是统一支付应用线程因某种原因挂了,影响了支付和正常支付,影响了跨行转账业务。手机银行线程等待跨行转账消息返回,全部挂掉。如果运维大数据整合了所有数据源,真正实现了端到端的大数据挖掘,并立即根据上游部分事务失败导致的下游问题策略,消除事件噪声,找出问题根源。故障定位准确。当然,智能运维的场景远不止这么简单。实际运维故障情况和现象要复杂得多。多种运维技术的融合,未必能解决所有的运维问题,但至少我们走在正确的道路上。
4、运维流程平台——智能运维的串行“枢纽”
目前,大部分企业,尤其是金融企业,已经完成了从传统的纸质运维流程向电子化运维流程的转变。基于ITTL理念设计的运维流程平台也在各个公司开花,相关厂商也有上百家。家中盛放,但流程如何与其他平台紧密衔接、联动,逐渐成为运维体系建设的重点和难点。处理和审计的全生命周期,在智能运维时代,也急需一个串口集线器来实现各个运维平台之间的流通,实现企业IT组织架构对运维的管控。没有流程,也没有人工审批干预。任由机器的“智能运维”不健全也是极其危险的。这里有两个案例。案例一:多个监控平台同时预警,将告警事件上报给事件集中平台和运维大数据平台。经过智能分析定位,发现根本原因是网络交换机某个端口故障,导致部分业务突然成功。应用日志也开始报错等,此时需要立即重启交换机恢复业务,但是重启交换机也会影响交换机承载的其他业务。如果流程平台没有连接智能运维和各种监控平台,那么恢复这个故障必须一一上报给相关领导,领导做出决定,事后补流程. 决策者只能从报告人的口头报告中获得决策依据,并没有实际的相关数据支持。如果流程平台连接到其他运维平台,故障事件和相关决策数据已经通过运维大数据自动发送到流程平台,领导有了决策依据。通过数据,他们知道目前的实际情况和实施操作可能带来的影响,此时做出的决策确实符合实际情况,符合监管要求。事后审计也是循证的;情况二,业务系统在运行时,突然业务响应时间比较高,运维大数据结合指标数据和日志数据立即定位故障的根本原因。业务虚拟机所在服务器压力大,多台虚拟机争抢资源。这时候就需要立即通过云平台或者自动化运维平台将虚拟机在线迁移。其他物理机或关闭一些不是很重要的虚拟机。此时,若流程平台已接入,相关操作审核通过后,业务将自动恢复运营。结合这两种情况,笔者认为智能运维和运维过程不是矛盾,而是相互融合的两个个体。智能运维需要运维流程化作为支撑,通过将智能运维以节点的形式加入到流程链中,辅以人工干预和引导,实现智能运维 经批准相关业务后,业务将自动恢复经营。结合这两种情况,笔者认为智能运维和运维过程不是矛盾,而是相互融合的两个个体。智能运维需要运维流程化作为支撑,通过将智能运维以节点的形式加入到流程链中,辅以人工干预和引导,实现智能运维 经批准相关业务后,业务将自动恢复经营。结合这两种情况,笔者认为智能运维和运维过程不是矛盾,而是相互融合的两个个体。智能运维需要运维流程化作为支撑,通过将智能运维以节点的形式加入到流程链中,辅以人工干预和引导,实现智能运维
5、自动化运维——智能运维的执行“武器”
自动化运维也是智能运维系统不可或缺的一部分。智能运维需要一个自动化的运维平台来实现决策的最终执行,同时减轻运维人员的工作压力。单一的自动化运维绝对不是智能运维。智能运维需要自动结合监控“探针”数据和基本配置(CMDB)数据。它具有丰富的独立决策和判断能力,以及自动化执行的能力。,而自动化运维就是只有简单的判断逻辑或人工数据和智能输入才能获得输出。因此,现阶段自动化运维只适合大型辅助运维人员进行日常运维操作、脚本操作,减少人工执行命令的时间成本,但不能真正做到“自动化”因为它没有判断力和决策能力。智能运维就是充分发挥数据、数据挖掘和处理、机器学习的价值,让自动化运维更有“灵魂”。随着未来AIops技术的升级,笔者认为智能运维会变得更加智能化,成为运维。人员难以接近的部分。那么在智能运维时代,企业应该如何构建自动化运维呢?笔者认为有以下三点:一是做运维操作场景,哪些场景需要自动化,常规的比如生产、补丁更新、巡检、查询配置、安装系统和软件等.、资源的横向和纵向扩展和迁移、业务系统的容灾切换、异常问题的业务恢复等智能化;二是自动化运维平台化和服务化,以开放的态度兼容新的自动化场景,以服务的形式被其他平台调用;智能运维根据不同的决策策略调度不同的自动化服务;三是控制自动化运维执行的安全性。自动化场景的上线和更新必须经过全面测试和审核。正式执行前需要预执行,执行中需要流程审批,执行后需要详细的执行报告,包括耗时、中间流程、结果,甚至执行前后的业务操作。
6、IT监控可视化——智能运维的高效“指挥”
如前所述,智能运维的建设引入了大量专业的监控平台。这些监控平台的引入,一方面极大地丰富了我们的管理信息,另一方面也带来了很多冗余的告警。运维大数据虽然可以整合多个数据源,智能分析可能的故障点,将事件告警与多个指标和日志数据关联起来,但无法在整个系统架构层面直观地展示故障点的位置。带来的后果和隐患;另外,当告警风暴来临时,一线运维人员会在这场风暴中筋疲力尽,很容易忽视重点告警,因为多个报警之间的关系极其复杂,大数据的智能无法覆盖这种场景。由于对定位精度的怀疑,此时需要人工干预,运维人员的技术细分使得无法从全局的角度思考问题的根源。因此,企业需要一个高效的“指挥员”,让运维人员从整个IT架构或应用系统架构的角度,清晰直观地掌握各个组件的运行状态,消除不同角色在运维和运维中的差异。维护过程。认知偏差和监督盲点,实现管理透明化,推动运维管理从传统的黑窗运维走向可视化、智能化运维。笔者认为,IT监控可视化解决的本质问题是运维的“直观性”。平台不需要数据分析处理,只需要数据集成,比如集成所有监控平台、流程平台、云平台、短信平台。运维大数据平台等异构运维平台采集数据,结合高效友好的视图工具,灵活组合钻取IT视图,将“数据”与“图”联系起来。运维大数据解决方案的本质是解决数据分析和决策。两个平台虽然进行了数据整合,但本质是不同的。运维大数据也作为数据提供者。对于IT可视化展示,在智能运维系统下,两者缺一不可。
7、结论
罗马不是一天建成的,智能运维的建设也不是一朝一夕的。是构建一个运维体系,涉及到企业IT运维的方方面面。它是不可或缺的。同时,它也是一个多运维技术集成系统。建设之初,要合理统一规划,逐步建设,尽量用平台化、松耦合、统一思维引导智能运维建设。相信随着人工智能技术的进步和智能运维技术的发展和成熟,运维将走向更高、更新的高度。