最佳实践:阿里智能运维实践|阿里巴巴DevOps实践指南

优采云 发布时间: 2022-11-02 07:29

  最佳实践:阿里智能运维实践|阿里巴巴DevOps实践指南

  阿里巴巴运维团队致力于打造无人值守的运维平台,用智能化推动应用高效低成本运维。智能运维是运维平台实现信息化、数字化后的自然发展。它利用扎实的技术基础,将机器学习、优化算法和各个专业领域的知识完美结合,为特定的运维场景提供满意的运维场景。解决方案。

  智能运维(AIOps)是基于阿里巴巴DevOps经验打造的智能运维平台。通过运维大数据的积累和算法团队各种算法的校对,将运维提升到了一个新的高度。利用AI帮助我们查看数据、判断异常、决定运维操作,形成一个集监督、管理、控制于一体的运维平台。

  运维系统面临的挑战

  在 DevOps 运维时代,阿里巴巴的运维体系面临以下挑战:

  首先,规模。阿里巴巴的基础设施规模呈指数级增长。当服务器数量在上千或上万台时,几乎无法通过人工操作来操作和维护。但是,当它发展到百万级别时,任何单纯依靠人工操作的步骤都将是不可能的。不切实际。当服务器规模达到百万级时,如何保证安全高效的整体运维是首要挑战。

  二是复杂度高。阿里巴巴业务的多元化和快速发展也对系统稳定性提出了更高的要求,对运维系统提出了更大的挑战。我们曾经评估过7个9的系统可用率,在存储上达到6个9是不错的,但是像盒马鲜生这样的业务需要100%的可用性。作为线下商家,在盒马门店半小时无法付款是无法接受的。我们必须从整个环节的角度来关注每个环节的稳定性。

  三是成本优化。成本是门槛。没有一定的门槛,就没有机会进入这个市场。除了固定资产投资外,运营成本也是重要组成部分。用技术优化流程,降低各个环节的成本,是提升企业核心竞争力的关键。

  第四,安全。云计算最关心的是安全性。系统越来越大,变化越来越快,面临的内外风险也越来越多。每天在同一时间进行无数次的改变和升级。如何在系统发生变化时保持稳定是另一个需要面对的巨大挑战。

  阿里巴巴基础设施的规模和复杂程度显然超过了人脑的处理能力。有必要从新的角度应用机器智能来解决这些复杂的问题。

  智能运维实践

  基于以上挑战,我们在阿里巴巴集团的各种业务场景中实现了无人值守发布和无人值守运维的解决方案。

  无人部署

  新一代发布平台支持滚动、蓝绿、金丝雀等多种发布模式。通过算法,机器学习方法对应用发布过程进行异常检测,避免因代码更改导致的故障。基于大量监控数据、日志数据的积累,以及算法的加持,我们推出了无人值守发布系统。

  自无风险系统无人值守发布以来,从探索到实施再到优化,已经将近三年时间。当前的业务范围定义了应用程序发布时的故障预防。提交无人值守发布申请后,系统会分析整个发布过程中的监控数据。如果出现异常,会自动暂停发布,并提示异常指标和拦截原因。如果开发确认有问题,可以选择关闭或回滚,如果没有问题则继续发布。

  在线发表的痛苦

  以往在网上发布时,工程师一般会做以下“细心”的工作:

  测试人员对代码进行全方位的单元测试和集成测试。如果发现错误,开发人员将被返工。这里有两个问题:一是有的业务团队因为人事问题根本没有测试人员,既是开发人员又是测试人员;其次,并不是所有的bug都能通过测试发现,难免有漏网之鱼。

  预发布、灰度发布、批量发布、金丝雀发布。在每个环境的缓慢发布过程中,你必须去监控平台,检查每个*敏*感*词*,甚至登录机器“刷”日志。通过您自己的“眼睛”,您可以期望在众多日志中找到特定的异常模式。日志; 另外,如果是依赖多方的应用,也需要检查上下游应用监控是否有问题。

  查看应用的机器是否正常启动,将故障机器下线或更换,查看故障系统是否报警,查看上下游团队是否“调用”。如果是这样,它们必须立即回滚。总之,这个过程耗时耗力,也不能保证没有漏掉任何细节,而且不同发行商的体验不同,一个发行版对于老手和新手的稳定性保证程度是巨大的.

  我们的解决方案

  我们设计了一个无人值守的发布系统

  

  系统分为两部分:

  在线分析,无人值守发布系统会对系统监控、业务监控、日志监控、调用链接等维度进行异常检测。检测到异常后,会拦截或回滚发布命令。当用户认为没有异常时,会给出反馈并继续发布。离线分析,经过第一步用户反馈后,这个反馈数据对我们的算法非常有用,我们的算法可以自动调整。当反馈数据积累一段时间后,异常检测的准确率非常高。算法平台

  在发布过程中,系统会采集各个监控源的数据,对数据采集、清洗和存储的要求非常高。我们设计了一个算法平台来承担各个平台的数据来源和算法检测。、算法验证、算法上线等流程,系统架构如下图所示。

  主要包括三个部分:

  数据采集存储:采集各个监控数据源的数据,包括系统监控、业务监控、中间件监控、日志监控、数据库监控、云监控等。数据之后是采集,根据不同数据的特点,存储在时序数据库或关系数据库中。算法结果存储:存储每次测试的结果,方便结果检查和效果评估。数据打标:可以对每一个异常检测结果进行打标,打标数据可以用来重新训练算法,形成正循环。检测结果也可以通过邮件、钉钉等方式实时通知发布者,并可以自动对接上述运维编排自愈过程,例如,直接自动更换异常机器。智能算法

  在上述算法平台中,我们设计了很多异常检测算法。异常检测在无人值守发布系统中起着举足轻重的作用,主要分为三个部分:

  数据采集:我们整合了各个维度的监控数据,调用链接分析等,观察的广度是人工盯着屏幕无法比拟的。异常检测:我们精心调整的异常检测算法完全不依赖于传统的基于阈值的、3Sigma 和其他检测算法。它是自动确定的,具有良好的泛化能力。支持单指标检测、多指标检测、前后对比检测。已发布对比度检测,其他模式未发布。检测算法包括ArimaKSigma、BoxplotDetect方法(Tukey方法)、GrubbsTest方法、Donat等。排除正常波动:通过历史数据和用户反馈数据,准确过滤正常波动,让用户获得准确的异常检测结果。*敏*感*词*如下:

  实际效果

  无人值守发布自上线以来,覆盖了阿里巴巴集团所有应用发布流程,为发布的安全稳定保驾护航。异常检测结果如下图所示:

  此时,开发者在访问无人值守发布后,点击发布后可以专注于其他事情,不需要一直关注发布过程。如果发布过程中出现异常,系统会通过钉钉消息和邮件通知开发,然后进行干预。如果进程出现异常,会自动更换异常机器,继续开发,无需人工干预。

  简而言之,无人值守发布是一种智能的变更失败检测和异常推荐系统。通过分析变更执行过程中的多维度监控数据,判断当前变更是否会导致失败,并在发布异常时进行拦截和智能推荐。

  无人操作-ChatOps(无人操作)

  日常运维有很多分类。目前,我们专注于两类运维工作的“无人值守”操作:1.用户收到告警或事件后发起的运维操作;2、日常运维问题或咨询。

  第一种情况,通过“运维诊断”,对应用进行360度“体检”,发现异常点,一键修复;对于第二种情况,我们发布了ChatOps机器人,加强了DevOps之间的沟通交流。合作帮助研发完成一些“脏”、“累”、“机械”的任务,目标是实现人工干预的“0”咨询和回答。

  ChatOps 简介

  运维小米(简称“维米”)是Chatbot在运维领域的实践,也是ChatOps的具体实现,是DevOps的重要工具。微米的定位是一个面向应用的智能DevOps服务助手,然后展开说:

  Vimi希望通过一键式、秒级响应的体验,实现极致服务,让研发、测试、运维的同学们开心地工作,这是我们的最终目标。

  ChatOps 优势

  再来看看小米运维的价值:

  第一,从员工个人的角度来看,可以提高员工的工作效率。运维小米可以帮助用户处理简单、重复、枯燥的任务,例如查看日志、执行命令、切换告警、查看机器状态、查看监控、推送运维事件等。

  

  其次,从团队沟通的角度来看,可以降低协作成本。在团队内部,ChatOps 是一种透明、合作和对话驱动的开发模型。小组中的每个人都知道发生了什么/何时发生以及由谁/如何修复它,以便事件现场完整透明,并且共享事件解决过程。,可以查询和记录,方便其他同学学习和参考类似事件的处理,也就是所谓的“Teachby doing”。

  ChatOps 也是一种对话驱动的运维模型。它通过聊天机器人连接各种系统背景,连接软件开发和交付所涉及的开发、测试、运维人员、工具、环境和自动化流程。站点中的每个人都可以共享信息、学习技术并就特定主题进行合作,加快应用程序的测试、发布、监控和诊断,整个工作都可以被所有员工看到。

  操作机器人的好处包括:

  方便将多个系统的常用操作聚合到机器中,无需登录多个系统查找信息。协作,将事件的所有信息推送到*敏*感*词*,所有成员都可以了解这里发生的事情。很快,在定位问题的时候,大家可以看到所有的信息,不用大家重复查找信息了。

  ChatOps 实施

  我们来看一下小米运维的实现架构图:

  它主要收录三个模块,分别是对话管理器、nlp工具和意图调度器管理器。对话管理器用于判断用户的话语意图是什么,是发起新一轮对话还是承接上面已有的意图。它调用nlp工具的处理器来辅助判断。Intent Dispatcher Manager负责连接具体的业务系统,将对话Manager的处理结果传递给它调用具体的业务逻辑来触发任务的执行。

  ChatOps 实践

  我们来看看小米运维在阿里巴巴集团的几个落地场景:

  1.智能问答

  2.查询应用的监控信息

  3.机器更换

  总之,ChatOps 可以帮助我们提高开发效率,提高开发幸福感。

  总结

  随着智能算法的成熟和大量运维数据的积累,越来越多的智能运维场景将落地。阿里巴巴运维从阿里巴巴集团的大量研发场景出发,打磨一系列智能化运维。产品,赋能中小企业。我们的理念是把复杂留给我们自己,把简单留给用户。智能化是运维的终极状态。未来,我们将在自动化、无人化运维和智能化方面加大投入,打造世界一流的智能化运维平台。

  【关于云霄】

  ​​云效,云原生时代的一站式BizDevOps平台​​,支持公有云、专有云和混合云多种部署形式。通过新的云原生技术和新的研发模式,帮助创新创业和数字化转型企业快速实现研发敏捷和组织敏捷,打造“双心”组织,实现10倍效率提升。

  ​​现在试试​​​​

  小技巧:亚马逊运营必备:10款超实用的关键词研究工具

  亚马逊搜索框的功能越来越类似于谷歌等搜索引擎。由于亚马逊没有明确标出每个关键词的价格,卖家必须在有限的范围内提高关键词的出价,以换取被搜索的产品。在结果页面的顶部,除了诱人的出价,下面列出的方法还可以帮助卖家提高他们在亚马逊上的产品排名。

  1. 亚马逊自动建议关键词

  Amazon autosuggest关键词是用户输入一些单词和短语后系统的自动推荐。这类似于谷歌的自动完成,用户一次输入的越完整,建议的词条就越少。所有建议的术语都是潜在的关键词。

  亚马逊没有说明这些关键词是如何排序的,一般认为比较流行的关键词会先出现。此外,亚马逊会根据用户过去的搜索习惯,个性化关联词条。

  2.亚马逊搜索建议扩展器

  这个免费的 Google Chrome 扩展通过添加扩展了亚马逊的自动建议。“之前”是一个建议的术语,它是通过在查询的前面添加一个词而产生的。“附加”,即通过输入更长的短语生成的关键词。这是在亚马逊搜索框中输入“甲板清洁工”后的扩展关联。

  安装扩展程序时,还可以将建议下载到 Excel 文件中。

  3.关键词工具.io

  Keywordtool.io 是一个数据分析平台,数据源包括亚马逊。该工具将亚马逊的自动建议关键词 与来自 Google Ads 的数据相结合。该工具的特别之处在于能够按类别研究 关键词 以解析购买背后的行为逻辑。

  使用 Keywordtool.io 的费用为每月 69 美元。

  4. 商户词

  MerchantWords是专为亚马逊卖家开发的关键词工具,可以输出各种关键词搜索量、搜索趋势变化等。上图是关键词“golf”的搜索结果。

  MerchantWords 的价格从每月 79 美元起。

  

  5.亚马逊搜索

  亚马逊的搜索功能类似于谷歌,分析和预测消费者的搜索意图。密切关注亚马逊上的产品列表、相关搜索和类别细分。查看产品列表可以掌握其他高度相关的关键词。例如,搜索“甲板清洁剂”会产生诸如“防滑”、“多用途”、“户外清洁剂”等关联词。

  亚马逊会在初始搜索结果下方生成一个“相关搜索”列表,可能来自其他消费者的搜索历史。

  上图显示了相关搜索,都是与“deck cleaner”相关的搜索词。

  亚马逊的“部门”相当于一个品类,它将为卖家提供构建页面的想法。上图为“甲板清洁剂”下的产品分类展示。

  6.增加ERP【关键词搜索人气】功能

  集家ERP推出了【关键词搜索人气】功能,不仅对ABA数据进行了重组,展示了更全面、更立体的数据,还让没有品牌注册的卖家也可以使用这些数据!

  01.关键词扩展

  市面上有很多关键词分析工具,但是亚马逊官网刚出炉的一手数据还是比较火的~

  主要搜索关键词,可以找到很多相关词,查看这些词的前三名产品,可以判断这些词与自己产品的匹配程度,卖家可以选择性价比高的词匹配度为长尾词,实现高效的词扩展。

  以旅行用的便携化妆包为例,它的主要关键词是:化妆包。当你在[关键词搜索流行度]面板中输入这个关键词时,可以匹配更多的长尾关键词,这些词也会按照搜索频率排序。

  02. ASIN反查:掌握竞争流量词

  在集嘉ERP【关键词搜索热度】中,可以查看竞品的ASIN,可以快速找到给竞品带来流量和转化的主要关键词。您可以选择适合您产品的优质关键词,并将其添加到您的产品链接或手动广告中。同时,您可以根据产品排名的变化来判断某个关键词下的竞争激烈程度,并调整您的广告策略。

  以化妆包为例,查看竞品ASIN:B072B94GXN,找到为竞品带来流量的主要关键词,如“化妆包”、“化妆包”等。关键词。

  

  如果我们需要知道竞品在不同关键词s下的竞争程度,我们应该选择竞争相对较少的关键词来推送,所以我们需要了解竞品在各个关键词下的竞争程度关键词 排名状态——操作时点击商品排名详情按钮,会跳转到ASIN的商品排名详情页面。

  7.关键词工具支配者

  Keyword Tool Dominator 提供独特的数据:排名 1-10 关键词 基于亚马逊的自动建议 关键词 表。#1 最受欢迎的 关键词 建议短语,第 10 受欢迎的不太受欢迎。但是,由 Keyword Tool Dominator 生成的 Amazon 自动建议关键词 并不全面。输入“蘑菇包”只会产生 4 个结果,卖家可以升级付款,但在这种情况下,他们需要至少支付 16 美元才能获得每天 3 个以上的结果关键词。

  8. 科学卖家

  Scientific Seller 的免费亚马逊关键词工具关键词优化工具,通过销售比其他工具更深入的升级数据工具获利。使用一个小时后,我找到了58个关键词,在所有关键词中都有一些其他软件没有找到的单词。这个工具可以让用户去掉一些类型的关键词,让关键词的相关性更高,同时这个工具的可操作性很强,甚至可以让卖家觉得搜索结果是无穷无尽的。如果卖家需要一个小时来完成 96% 的 关键词 搜索“蘑菇套件”,那么完成所有 关键词 搜索需要多长时间?

  此外,该工具没有看到导出按钮,可能会在报告运行完成时出现,但是不知道运行需要多长时间。卖家可以将短语一个一个复制粘贴到Excel表格中,这个过程相当繁琐,而且可能会出现格式错误的问题。最后,没有与 关键词 相关的数值,它只是一个短语列表。同样,卖家也需要通过 Google Keyword Planner 运行这些词组来获取 关键词 的相关值。但作为一种查找许多相关短语的方法,这个工具很棒。

  9. 商家词

  MerchantWords 是唯一可以将您的搜索范围缩小到特定亚马逊类别的关键词工具,它可以为您提供与您的搜索相匹配的产品类别,并且 MerchantWords 可以通过算法确定输入词的相关性关键词每月搜索。不过,也有卖家对这一数据的结果表示怀疑。例如,一个月内,有 73,500 人在亚马逊上搜索“蘑菇包”,但在 Google 上搜索相同词的只有 1,300 人。这个数据不可信。如果卖家想要获得超过 5 个搜索结果,那么他们需要以每月 30 美元的价格订阅完整版。

  10. Ahrefs 站点浏览器

  Ahrefs 是谷歌最强大的 SEO 辅助工具,它有一套用于反向链接分析和 SEO 分析的工具,它的 Site Explorer 工具显示有机关键词,这些关键词是将用户带到亚马逊产品页面的有机搜索关键词。

  使用站点资源管理器,我们还可以查看每个 关键词 在搜索结果页面上的位置。此外,我们可以使用仪表板上的各种指标来分析竞争对手的数据。

  总结:

  这些工具的数据并非直接来自亚马逊的 关键词 数据。不过在亚马逊不提供关键词数据的情况下,以上工具的搜索结果可以提供很好的参考价值。在这里,我们也希望我们的中国卖家能够做好跨境电商,让国内的产品畅销海外。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线