整套解决方案:关于运维自动化:智能运维时代如何做好日志全生命周期管理
优采云 发布时间: 2022-10-22 04:23整套解决方案:关于运维自动化:智能运维时代如何做好日志全生命周期管理
云智能AIOps社区由云智能发起。针对运维业务场景,为智能运维业务场景提供算法、算力、数据集、解决方案交流社区的整体服务体系。社区致力于传播AIOps技术,旨在与各行业的客户、用户、研究人员和开发者一起,独特解决智能运维行业的技术难题,推动AIOps技术在企业中落地应用,构建弱者共赢。赢得 AIOps 开发者生态系统。
本文将从平台架构入手,具体讲解云智慧如何快速高效地解决日志生命周期问题。
智能日志平台架构概述
云智能日志平台架构的第二个特点是可以连接多个日志源的日志。此外,云智能采用分布式和可扩展的组件。当组织需要扩容、减少运维对象数量时,企业可以快速扩容,适应新的变化。日志采集部分被自研日志采集器使用,采集器可以连接日志、数据库、消息队列等。同时云智能提供能够批量部署和管理采集器。在日志解决方案方面,云智能采用了Kafka消息队列和Flink流解决方案组件,可以满足海量数据采集需求,防止横向扩展。
目前云智慧的日志采集都制作成标准化的采集模板,可以间接连接数据源,通过配置满足日志访问。
日志数据采集 获胜后,进入数据处理阶段。Cloud Wisdom 利用拖放式编排数据处理组件来标准化日志数据。例如,当有来自不同日志源、不同时间格式的日志时,运维人员可以通过“日期转换”组件将固定格式的日期字段转换为时间戳格式。在整体数据处理编排中,针对单步流程调试性能。
在存储方面,如下所述,Cloud Intelligence 的底层存储可以同时支持 Elasticsearch 和 Clickhouse 双引擎存储。通过对自身环境的性能测试,ES引擎的日志搜索性能提升了一倍以上。Clickhouse 不仅数据压缩率高达 30%,而且在固定场分析中表现出数倍的性能劣势。以上分析结果反映了Elasticsearch和Clickhouse在不同场景下的应用范围,也让云智慧的日志产品在不同场景下有最佳实践。
下图为云智慧在第三方接收平台和航空信息企业的解决方案能力。从下图可以看出,云智能日志平台在3秒内可以支持超过3亿条数据查询。云智慧在某航空信息公司的采集中有10000多个日志节点,全部依赖云智慧的采集控制平台进行批量治理。在数据存储能力方面,云智能在高压缩比的情况下,依然可以控制在已经很敌对的水平。
应用场景介绍
介绍完日志是如何从采集传输到存储中的,我再分享一下云智能智能日志平台的应用场景。
通过云智慧日志智能平台成功管理不同、碎片化的日志后,运维人员可以在智能日志平台中快速便捷地进行全文检索和查询,查询日志时无需登录每台机器. 平台支持SPL语法查询、联想查询、词分析等功能,可提高整体查询效率。
运维人员在进行故障排除时,往往无法启动,因为他们查看的日志中没有收录全局信息。但是,云智能智能日志平台可以通过拼接日志中的相关字段,创建日志的不完整上下游信息。全局直观的人员显示,帮助运维人员展示所有故障相关的问题日志,便于快速查询和排除故障。
当日志监控手段多而全面时,误报率会增加,而模式识别是云智能的日志“转化场景”之一。在传统的运维中,由于运维人员需要做大量的手动配置,日志管理分析非常麻烦。云智能方案无需企业进行任何配置,即可享受智能方案带来的效率提升。
同一种模式的日志往往具有某些独特的特征,例如相似的日志结构。日志模式识别使用聚类算法对日志文本中相似度高的数据进行聚合,从而提取出独特的日志模式。无需运维人员配置,即可主动快速发现异常模式日志。此*敏*感*词*。
基于日志的链路拓扑是一种非侵入式的日志转换形式。无需安装探针和日志链路,即可为运维人员提供全链路跟踪和故障排除能力。
如下图,运维人员可以具体看到各个应用相关日志组成的调用链。此外,每个可观察节点都会用不同的颜色来识别自己的弱点。同时,云智慧日志管理平台也反对点击节点下钻,方便运维人员查看节点的具体运行状态。
日志审计的主要内容是各种操作日志、流量日志、会话日志、原创数据包等。*敏*感*词*内的日志数据可要求监管部门调取。同时,云智慧也认为日志审计应该具备安全事件的预警和分析能力,让企业在管理日志后也能具备安全合规的能力。
劣势及价值分析 智能日志异常检测VS传统日志异常检测
与传统的日志异常检测相比,智能日志在人力成本、告警准确率、异常定位等方面存在明显劣势。基于规定的传统日志异常检测,报警准确率只有20%左右,而云智能的智能日志可以达到70%。
模式识别在日志分析中的价值案例分享
下图为国内某顶级券商云智能服务的真实案例。为了更好的保证系统的稳定性,云智慧对业务系统中收录用户行为的采集日志进行管理,并管理到日志智能分析平台中。在上面,我们尝试通过比较异常期和异常期日志的分布趋势来定位辅助根因。
首先看异常期间日志的日志分布趋势以及用户登录客户端和版本号的分布(如左图)。接下来我们看一下异常时期的日志分布趋势图(如右图所示)。异常期间,日志量比异常期间增加了10倍以上,登录客户端的用户比例和版本号比例发生了显着变化。,Android的占比从68%变成了95%。同期,7.2.4 版本生成了 12,000 多条日志。基于此,不难推断该故障极有可能是7.2.4版本的Android客户端造成的。经调查确认,上述说法得到证实。短短3分钟,
案例二:携号转网行为日志辅助根因分析
下图是一个云智能服务运营商企业的真实案例。日志是转号业务产生的服务器日志。从下图可以看出,异常发生的时间是2021年8月2日15:35,此时运维人员可以直接点击系统中的异常点,查看系统的分析页面异常点。图片右侧可以看到的原创日志信息显示,群服务器申请某个IP时信息异常。在传统的运维中,运维人员只能停留在这一步。但是,借助云智能的智能日志平台,运维人员可以对这些日志进行汇总和分析。
这个场景就是调用链的应用。在一家银行,Cloud Intelligence 帮助企业建立了从前端到后端的呼叫链接(通过 Opentracing 协议)。某天,当你收到39或更多时,APP会发出9.9元的优惠券。由于APP卡住,响应慢,无法申请优惠券,引发大量用户投诉。云智慧通过调用链接来检查问题的时间段。上述投诉问题是由于*敏*感*词*系统响应慢和HTTP500错误造成的。
案例4:某资产管理公司基于日志的系统漏洞分析
下图是一家资产管理公司的案例。公司的系统来自内部协商,企业运维人员想独立管理所有系统日志。其次,有两个需求。一方面,当接到报警后,可以快速解决问题,增加了运维的难度。基于以上需求,云智慧提供日志+对抗告警+监控核心分片墙方案,对日志中的关键字进行监控告警,通过事后防护知识库匹配告警信息的关键字。,并提供推荐的常识(常识为客户推荐定制的性能),
写在开头
近年来,在AIOps领域快速回归的背景下,各行业对IT工具、平台能力、解决方案、AI场景和可用数据集的需求呈爆发式增长。基于此,云智慧于 2021 年 8 月宣布成立 AIOps 社区,旨在打造开源旗帜,为各行业的客户、用户、研究人员和开发者打造一个沉闷的用户和开发者社区,为行业做出独特贡献和解决。问题,并促成了该领域的技术倒退。
社区开源了数据可视化编排平台——FlyFish、运维治理平台OMP、云服务治理平台——摩尔平台、Hours算法等产品。
视觉编排平台-FlyFish:
我的项目介绍:...
Github地址:…
吉特地址:…
行业案例:…
本地大屏案例:
请通过上面的链接了解我们,加个小助手(xiaoyuerwie) 注:飞鱼。退出开发者交流群,与业内大咖进行1V1交流!
您还可以通过小助手获取云智能AIOps信息,了解云智能FlyFish最新进展!
【腾讯云】云产品限时发售,热门1核2G云服务器首年50元
阿里云限时活动-2核2G-5M带宽-60G SSD-1000G月流量,特价99元/年(原价1234.2元/年,可直接购买3年),抓紧时间
操作方法:极简易用网页采集器:爬一爬数据采集实战教程
在使用了各种爬虫软件后,终于找到了一个好用又免费的数据采集器。对于没有强大编程基础的数据分析师来说,攀登 采集器 就像是量身定做。在使用的过程中,有几处感受是必须要表扬和表扬的。
免费/易操作/跨平台/高效
下面简单介绍一下使用方法,让更多的人可以用最简单的方式采集到需要的数据。
首先爬取采集器的谷歌浏览器插件。
单击浏览器工具栏右侧的按钮 -> 更多工具 -> 扩展。或在地址栏中输入 chrome://extensions/
安装步骤2:打开扩展页面
3、将下载好的插件拖入浏览器的“扩展”页面,点击“添加扩展”,插件安装完成。“Climb”标志出现在插件栏的右侧。
安装步骤 3:添加扩展
4. 确保你的账号已经登录,打开你要采集的网站,点击浏览器插件栏的“爬升”图标启动插件。
5. 单击以选择要抓取的元素。如果彩盒中没有收录所有的任务数据,点击选中元素右侧的“变换”按钮切换算法,直到选中所有的任务数据。
采集第一步:依次选择要为采集的元素
6、如果要抓取多页,点击分页设置的箭头,选择页码所在的区域。
采集第二步:选择页码所在区域
7、确认颜色框中的数据全部选中后,先点击“完成”按钮,再点击“测试”按钮,测试数据采集是否成功。(注:测试模式下最多可以采集5页数据)
采集第三步:测试数据
8、确认测试成功后,点击“确定”关闭测试窗口。填写任务名称(长度4-32个字符,必填),根据个人需要修改列名。
9.点击“提交”按钮,任务创建成功。您可以在 网站 的“任务”页面下运行和管理此任务。
采集第四步:运行任务
10. 在任务运行过程中,您可以点击任务的“管理”页面,查看任务运行状态和日志。
采集第五步:查看任务运行状态
11. 任务运行后,点击“任务”页面的数据选项,即可查看和下载数据。
采集第 5 步:查看和下载数据
教程简单分享给大家,操作很简单,免费,功能很强大。希望本次分享能够对一些需要采集数据工作者或者数据支持的公司有所帮助!