话题：文章采集api - 自动文章采集器-优采云官网

数据治理之数字画像

采集交流 • 优采云发表了文章 • 0 个评论 • 177 次浏览 • 2022-07-10 02:00 • 来自相关话题

　　数据治理之数字画像
　　00引言
　　随着全网步入大数据时代，企业的目光日益聚焦在利用大数据服务精细化营销、精细化运营上，各类客户画像、员工画像理论如雨后春笋般兴起，而数据应用的底层——数据治理，却鲜有整体的理论体系。如何避免治理工作自身“无的放矢”，如何量化数据基础建设的贡献，我们需要为数据治理工作描绘一张“数字画像”。这个命题的内涵外延非常丰富，在此我们选取用户体验、架构质量两个角度进行讨论。
　　01用户体验的数字画像
　　基于不同的感知角度，将用户分为外部客户、内部用户、管理层、技术人员四类，针对特定的业务场景刻画四类使用者所体会到的“科技赋能”。
　　1、外部客户
　　功能体验指标：功能体验指标用于衡量操作平台的易用性及直观程度。可以通过各类埋点，对用户的点击行为、页面停留时间、页面浏览深度进行跟踪。从而挖掘用户常使用的功能，探究的实际需要，对于常用功能可以开展功能的改版优化，进行同业产品比较、用户反馈调查等，重点关注主要功能的流畅度、实用性。
　　平台服务指标：
　　（1）服务平台一般利用API接口向外提供数据，因此，通过计算API调用率可以计算出其向外输出服务的活跃程度。
　　（2）由数据服务带来的产品升值也是需要衡量的一大重要指标。营销、运营等商业活动价值提升以一定的比例分配给其相应的数据治理工作，从业务部门有感的角度评估数据治理工作对营销等活动的赋能。
　　2、内部用户
　　
　　便利性：过去业务部门向数据管理部门申请使用数据，通常使用邮件或行政流程的方式，这种方法无法实时跟踪申请进度，也无法在统一的页面集中管理，导致相关工作人员在查询与沟通上花费了大量精力。建立自动化、规范化流程以及线上运营工具，将极大地便利流程，因此，手工提取工单压降比率可以作为度量内部用户程度的指标。
　　时效性：线上化数据治理意味着资产地图、标准架构即存放在用户指尖，关键作业的全链路交付时间是触达内部用户的另一直观感受。该指标可以通过统计各节点的流转时间，计算相应平均值获得。
　　贡献度：不仅是底层的数据管理，数据的应用输出同样能够为用户带来实际业务价值。BI工具的使用、模型提供数量等指标标志着用户对于应用类数据成果的满意度。
　　3、管理层
　　质量提升：对于管理层而言，保障数据仓库、数据湖的“清澈”是他们关心的问题。由于监管报送结果是银保监对银行的重点考核指标，报送规定的达标率成为对于管理层数据治理成效最直观的反映。基于DQC的一系列指标同样可作为面向管理层的数据清洁度体现。
　　效率提升：除监管要求之外，数据运营成本对于全行管理也是至关重要的。只有建立规范和高效的数据架构，压降数据报表，降低储存、运维成本，才能实现精细化营运，维持高效率盈利。
　　4、技术人员
　　数据字典评分：当企业实施开发过程强管控时，数据字典的角色可看作是法律之于社会，其整体逻辑必须经得起反复推敲。在数据字典的查询页面设立评分反馈是一种简单但行之有效的方法。页面上有计划的引导，反映设计者关注开发人员的使用体验，从而让“吐槽”变成建议，优化和解决使用数据字典时遇到的问题。
　　02架构质量的数字画像
　　全行统一的数据架构应在追求高效率的同时降低成本，根据《华为数据之道》中信息架构的经典四范式，我们将从模型、分布、标准、资产四个角度对架构赋能能力进行度量。
　　1、模型
　　公共层加工频率：公共层中存放有事实数据、维表数据等等，它们支撑着指标体系中的一级指标层。在建立指标时，将规范化、集约化，提高公共指标的复用性，减少重复加工的操作，故公共层数据模型的复用率可作为公共层架构评估的指数之一。
　　
　　应用层引用频率：类似于人际关系网络拓扑结构中的核心人物算法，该指数直接衡量应用层中数据的系统性重要程度，引导资产盘点的目标。数据血缘关系是一种有向的、无权值、无自环的网络图。被引用频率高的资产一般来源于关键业务实体中最准确和最及时的业务记录。这一些资产被跨部门、跨业务领域调用的概率最大，需要实现所有部门可访问并且访问到相同的数据。该指数还能够有效地筛选出“孤儿表”、临时表，减少资源投入和储存成本。
　　2、分布
　　数据覆盖：对于大型银行而言，数以百计的系统，数以万计的库表在全国范围内分布式储存。采集是资产盘点的第一步，测量采集数在全量系统的覆盖率帮助我们明确当前采集的进度，定位未采集的数据来源。
　　数据冗余：数据冗余指同层数据的冗余，具体可分为两个来源。第一，多个物理位置中存储了相同意义的数据；第二，架构模型本身在设计上有较多的重复交叉项。
　　数据容量：数据容量是对数据中台的整体描述，它包括当前中台所囊括的整体数据体量的绝对值，也包含该体量随时间的增长比例。数据容量并非越高或者越低更理想，它需要结合银行的现状辩证性地看待。
　　3、标准
　　标准稳定性：数据标准规范化了数据含义、结构等等，应当满足内容统一、不交叉定义等条件，避免数据标准内部发生“数据打架”。
　　标准落标率：在标准的技术规范完备，主题齐全，标准已权威发布的前提下，标准落标率反映了数据标准“最后一公里”的执行情况。借助自动化工具，能够计算出各类分层、切片后的数据落标率，智能化地发现落标潜在问题。
　　4、资产
　　技术元数据统计：技术元数据打通了源数据和，记录了数据从产生到消亡的过程。我们从中挑选出系统覆盖率、系统内表级覆盖率、表名以及字段名的有效率、枚举值的有效率等统计指标表示数据架构中技术类资产的产出效益。
　　企业活动命中率：数据资产是从业务流程、业务模型中抽取出来的数字化描述。标签资产对业务行为的命中率、指标资产对报表统计的命中率、报表资产的用户访问量等数值越高，代表着资产内容映射企业活动的准确度越高。
　　03结语
　　伴随着企业数字化转型不断深入，“数据治理的数字画像”从方法论到实践都将趋于完善，内容价值、安全性能、用户体验也会随之提高。如何动态地衡量数据治理工作成效，建立适合自身企业的“北极星指标”，是每一家处于智慧转型阶段的公司所必须研究的，它的成功将创造出不可估量的商业价值。查看全部

　　便利性：过去业务部门向数据管理部门申请使用数据，通常使用邮件或行政流程的方式，这种方法无法实时跟踪申请进度，也无法在统一的页面集中管理，导致相关工作人员在查询与沟通上花费了大量精力。建立自动化、规范化流程以及线上运营工具，将极大地便利流程，因此，手工提取工单压降比率可以作为度量内部用户程度的指标。
　　时效性：线上化数据治理意味着资产地图、标准架构即存放在用户指尖，关键作业的全链路交付时间是触达内部用户的另一直观感受。该指标可以通过统计各节点的流转时间，计算相应平均值获得。
　　贡献度：不仅是底层的数据管理，数据的应用输出同样能够为用户带来实际业务价值。BI工具的使用、模型提供数量等指标标志着用户对于应用类数据成果的满意度。
　　3、管理层
　　质量提升：对于管理层而言，保障数据仓库、数据湖的“清澈”是他们关心的问题。由于监管报送结果是银保监对银行的重点考核指标，报送规定的达标率成为对于管理层数据治理成效最直观的反映。基于DQC的一系列指标同样可作为面向管理层的数据清洁度体现。
　　效率提升：除监管要求之外，数据运营成本对于全行管理也是至关重要的。只有建立规范和高效的数据架构，压降数据报表，降低储存、运维成本，才能实现精细化营运，维持高效率盈利。
　　4、技术人员
　　数据字典评分：当企业实施开发过程强管控时，数据字典的角色可看作是法律之于社会，其整体逻辑必须经得起反复推敲。在数据字典的查询页面设立评分反馈是一种简单但行之有效的方法。页面上有计划的引导，反映设计者关注开发人员的使用体验，从而让“吐槽”变成建议，优化和解决使用数据字典时遇到的问题。
　　02架构质量的数字画像
　　全行统一的数据架构应在追求高效率的同时降低成本，根据《华为数据之道》中信息架构的经典四范式，我们将从模型、分布、标准、资产四个角度对架构赋能能力进行度量。
　　1、模型
　　公共层加工频率：公共层中存放有事实数据、维表数据等等，它们支撑着指标体系中的一级指标层。在建立指标时，将规范化、集约化，提高公共指标的复用性，减少重复加工的操作，故公共层数据模型的复用率可作为公共层架构评估的指数之一。
　　

　　应用层引用频率：类似于人际关系网络拓扑结构中的核心人物算法，该指数直接衡量应用层中数据的系统性重要程度，引导资产盘点的目标。数据血缘关系是一种有向的、无权值、无自环的网络图。被引用频率高的资产一般来源于关键业务实体中最准确和最及时的业务记录。这一些资产被跨部门、跨业务领域调用的概率最大，需要实现所有部门可访问并且访问到相同的数据。该指数还能够有效地筛选出“孤儿表”、临时表，减少资源投入和储存成本。
　　2、分布
　　数据覆盖：对于大型银行而言，数以百计的系统，数以万计的库表在全国范围内分布式储存。采集是资产盘点的第一步，测量采集数在全量系统的覆盖率帮助我们明确当前采集的进度，定位未采集的数据来源。
　　数据冗余：数据冗余指同层数据的冗余，具体可分为两个来源。第一，多个物理位置中存储了相同意义的数据；第二，架构模型本身在设计上有较多的重复交叉项。
　　数据容量：数据容量是对数据中台的整体描述，它包括当前中台所囊括的整体数据体量的绝对值，也包含该体量随时间的增长比例。数据容量并非越高或者越低更理想，它需要结合银行的现状辩证性地看待。
　　3、标准
　　标准稳定性：数据标准规范化了数据含义、结构等等，应当满足内容统一、不交叉定义等条件，避免数据标准内部发生“数据打架”。
　　标准落标率：在标准的技术规范完备，主题齐全，标准已权威发布的前提下，标准落标率反映了数据标准“最后一公里”的执行情况。借助自动化工具，能够计算出各类分层、切片后的数据落标率，智能化地发现落标潜在问题。
　　4、资产
　　技术元数据统计：技术元数据打通了源数据和，记录了数据从产生到消亡的过程。我们从中挑选出系统覆盖率、系统内表级覆盖率、表名以及字段名的有效率、枚举值的有效率等统计指标表示数据架构中技术类资产的产出效益。
　　企业活动命中率：数据资产是从业务流程、业务模型中抽取出来的数字化描述。标签资产对业务行为的命中率、指标资产对报表统计的命中率、报表资产的用户访问量等数值越高，代表着资产内容映射企业活动的准确度越高。
　　03结语
　　伴随着企业数字化转型不断深入，“数据治理的数字画像”从方法论到实践都将趋于完善，内容价值、安全性能、用户体验也会随之提高。如何动态地衡量数据治理工作成效，建立适合自身企业的“北极星指标”，是每一家处于智慧转型阶段的公司所必须研究的，它的成功将创造出不可估量的商业价值。

文章采集api Zabbix 任性，文末送书 X 5

采集交流 • 优采云发表了文章 • 0 个评论 • 123 次浏览 • 2022-07-02 05:59 • 来自相关话题

　　文章采集api Zabbix 任性，文末送书 X 5
　　Zabbix版本不断升级，以满足日益增长的用户需求，支持高可用HA，k8s、指标topN、机器学习、定制前端品牌logo等！
　　旧版本需要脚本才实现的功能，升级至最新版本可轻松解决！Zabbix6.0为业务服务提供商、DevOps和ITOps团队提供了附加值，优化了整体监控工作流程，并在许多不同层面提供了新见解。
　　目录
　　业务服务监控达到全新高度
　　高阶业务服务SLA计算逻辑
　　通过根因分析增强业务服务监控能力
　　开箱即用的Zabbix server高可用群集
　　机器学习
　　Kubernetes监控
　　详细高效的Zabbix审计日志模式
　　可视化数据的新方法
　　Zabbix性能优化
　　提升Zabbix Agent2模块化，新的Zabbix Agent 监控项和功能
　　原生TLS/SSL网站证书监控
　　通用性改进
　　通过自定义密码复杂程度要求来保护您的Zabbix登录
　　支持定制前端展示品牌logo
　　新增模板和集成
　　其它新功能和优化
　　01
　　BMS业务服务监控达到全新高度
　　优化Services部分，显示业务服务的状态和当前SLA级别
　　通过对现有Services页面和功能的重大改进和优化，业务服务监控提升到了一个新高度。业务服务监控功能（BSM）非常适合多组件服务场景，例如服务器群集、负载平衡器和其它具有冗余组件的服务。
　　Zabbix 6.0提供多种功能自定义业务服务树实现BMS业务服务监控：
　　• 重新设计 Zabbix 6.0 Services页面和功能
　　• 支持单个Zabbix实例监控超过10万个业务服务
　　• 支持新的灵活服务状态计算逻辑
　　• 能够自定义业务服务的访问权限
　　• 能够为特定业务服务自定义只读和读写权限
　　• 业务服务权限既可以基于显式服务列表，也可以基于服务标签的访问限制
　　• 导出和导入业务服务树
　　• 新的Service动作类型能让用户接收告警并对业务服务状态更改作出反应
　　02
　　高阶业务服务SLA计算逻辑
　　提供大量可供选择的服务状态计算规则，能支持灵活的服务定义
　　业务服务状态计算逻辑在Zabbix 6.0中得到了极大扩展，增加了许多新功能，例如：
　　• 能够为每项业务服务分配权重
　　• 仅当N个子服务都处于X严重级别的问题状态时才更改状态
　　• 对处于问题状态下的子服务的权重进行分析并作出反应
　　• 仅当特定百分比的子服务处于问题状态时才作出反应
　　• 其它计算规则
　　用户还可以自定义和访问指定服务的SLA报告。
　　03
　　通过根因分析增强业务服务监控能力
　　根因问题会立即显示在service下
　　对业务服务执行根因分析。利用根因分析功能找出可能导致业务服务SLA下降的潜在问题列表：
　　• 在Zabbix前端Services页面查看根因问题列表
　　• 接收告警中的根因问题列表
　　• 通过Zabbix API收集根因问题信息
　　04
　　开箱即用的Zabbix server高可用群集
　　在系统信息组件中跟踪集群集节点状态
　　Zabbix server高可用防止硬件故障或计划维护期的停机：
　　• 原生选择加入HA群集配置
　　• 定义一个或多个备用节点
　　
　　•实时监控Zabbix server群集节点的状态
　　• 不需要外部工具即可将Zabbix server配置为HA群集模式
　　05
　　机器学习
　　使用新函数对意外异常率或与指标基准的偏差做出反应
　　新的基线监控和异常检测趋势功能以动态方式检测问题，而不是静态阈值方式：
　　•新的趋势函数-baselinewma and baselinedev ，能计算指标基线和偏离值
　　•新的趋势函数-trendstl，能检测异常指标行为
　　•能够指定异常检测偏差算法及季节性
　　06
　　Kubernetes监控
　　Zabbix 6.0 LTS添加了多个新模板，用于监控不同的Kubernetes组件
　　Zabbix 6.0 LTS新增Kubernetes监控功能，可以在Kubernetes系统从多个维度采集指标：
　　•Kubernetes节点和pods的自动发现和监控
　　•无代理方式采集Kubernetes pods和节点的信息
　　•获取Kubernetes节点主机高水平信息
　　Kubernetes监控还能够监控Kubernetes组件，例如
　　•kube-controller-manager
　　•kube-proxy
　　•kube-apiserver
　　•kube-scheduler
　　•kubelet
　　07
　　详细高效的Zabbix审计日志模式
　　重新设计的审计日志能提供全新的详细信息，并优化筛选功能。
　　新的审计日志模式允许用户对Zabbix前端、Zabbix API和Zabbix server记录执行详细审计。通过修改审计日志，对Zabbix实例执行的所有更改都将记录在审计日志中：
　　•创建、修改或删除新对象
　　•通过LLD发现新实体
　　•API命令
　　•定期登录/退出
　　•Zabbix实例中发生的所有其它事情
　　新的审计日志模式在设计时考虑了最佳性能，因此扩展的功能不会影响Zabbix实例的性能。审计日志模式的工作是一项持续的工作，会在后续Zabbix发布周期中持续进行。
　　08
　　可视化数据的新方法
　　主机排序组件可显示按监控项值排序的前N个或后N个主机的列表
　　Zabbix 6.0新增的构件提供了展示信息的许多新方法。
　　•地理地图构件能在地图上显示主机和问题
　　•数据表构件能创建有关主机指标状态的摘要视图
　　•数据表构件的前N和后N函数能展示最高或最低的监控项值
　　•单一监控项构件能展示单个指标的值
　　•对现有矢量图的许多改进，例如新的矢量图类型、引用单一监控项等
　　•SLA构件能显示特定业务服务的当前SLA
　　09
　　Zabbix性能优化
　　针对不同的Zabbix组件进行多项性能优化：
　　•提升链接模板时的性能
　　•提升Zabbix proxy性能和内存使用率
　　历史数据表使用主键，这有多种好处，例如：
　　•提高Zabbix server和Zabbix前端的性能
　　•减少历史数据表的大小
　　10
　　提升Zabbix Agent2模块化，
　　新的Zabbix Agent 监控项和功能
　　优化的Zabbix agent现在能够开箱即用监控一组指标
　　Zabbix 6.0为Zabbix Agent和Agent2提供了一套新的监控项。支持以下功能：
　　•获取额外文件信息，如文件所有者和文件权限
　　•采集agent主机元数据作为指标
　　
　　•计数匹配的TCP/UDP sockets
　　某些已有的监控项支持新的功能：
　　•vfs.fs.discovery-在Windows上添加了对{#FSLABEL}宏的支持
　　•vfs.fs.get-在Windows上添加了对{#FSLABEL}宏的支持
　　• vfs.file.size-添加了一个新的模式参数。设置以字节数或行数为单位
　　Zabbix Agent2现在支持加载独立插件，而无需重新编译Agent2。
　　11
　　原生TLS/SSL网站证书监控
　　使用新的Zabbix agent2 监控项监控SSL/TLS证书
　　支持使用新的Zabbix agent 2监控项来监控SSL/TLS证书。监控项可用于验证TLS/SSL证书，并提供其它证书详细信息。
　　12
　　通用性改进
　　通过优化的创建主机UI，使创建新主机从未如此简单
　　Zabbix 6.0使Zabbix配置工作流程更精简！Zabbix用户现在可直接在Monitoring页面创建主机和监控项：
　　•直接从Monitoring -Hosts页面创建主机
　　•直接从Monitoring -Latest data页面创建监控项
　　•删除了Monitoring -Overview页面。为了改善用户体验，现在只能通过仪表盘构件访问触发器和数据概览功能。
　　现在将根据监控项的键值自动选择监控项的默认信息类型。
　　拓扑图标签和图形名称中的简单宏已替换为表达式宏，以确保与新的触发器表达式语法一致。
　　13
　　通过自定义密码复杂程度要求
　　来保护您的Zabbix登录
　　设置密码复杂程度确保前端登录安全
　　Zabbix超级管理员现在能够定义密码复杂程度要求。现在可以：
　　•设置最小密码长度
　　•定义密码字符要求
　　•通过禁止使用最常见的密码字符串来降低字典攻击的风险。
　　14
　　支持定制前端展示品牌logo
　　定制Zabbix实例代表您的公司。将现有的Zabbix品牌和帮助页面URL替换为您自己的公司品牌和自定义网站URL。
　　改名功能不会违反Zabbix许可协议-可以自由更换Zabbix品牌！
　　15
　　新增模板和集成
　　Zabbix 6.0为最受欢迎的供应商提供了许多新模板：
　　•f5 BIG-IP
　　•Cisco ASAv
　　•HPE ProLiant servers
　　•Cloudflare
　　•InfluxDB
　　•Travis CI
　　•Dell PowerEdge
　　Zabbix 6.0还带来了一个新的Github webhook集成，能基于Zabbix问题或恢复事件生成Github问题！
　　所有官方的Zabbix模板现在都是独立的，不需要依赖导入其他模板。
　　请查看当前可用集成的完整列表。
　　16
　　其它新功能和优化
　　更多改进功能（部分）：
　　•使用新聚合函数计数返回值或匹配监控项的数量-count和item_count函数
　　•在未配置交换空间的情况下提升system.swap监控项行为
　　•使用新的单调历史函数检测连续增加或减少的值
　　•支持两个新的Prometheus预处理标签匹配运算符！= 及 !~
　　•当从构件链接导航到列表样式页面时，构件显示能更可靠地转换为不同的筛选器选项
　　•使用新配置参数ListenBacklog为Zabbix server、Zabbix proxy、Zabbix agent配置TCP队列中挂起连接的最大数量
　　•文档页面字体和可读性的改进
　　•调整许多现有模板和修复小bug
　　•新增utf8mb4作为受支持的MySQL字符集和校对集
　　•新增对Webhook的额外HTTP方法的支持
　　•对Zabbix命令行工具的超时设置
　　Zabbix官方首本工具书《Zabbix监控系统之深度解析和实践》现已出版，欢迎阅读。查看全部

　　•实时监控Zabbix server群集节点的状态
　　• 不需要外部工具即可将Zabbix server配置为HA群集模式
　　05
　　机器学习
　　使用新函数对意外异常率或与指标基准的偏差做出反应
　　新的基线监控和异常检测趋势功能以动态方式检测问题，而不是静态阈值方式：
　　•新的趋势函数-baselinewma and baselinedev ，能计算指标基线和偏离值
　　•新的趋势函数-trendstl，能检测异常指标行为
　　•能够指定异常检测偏差算法及季节性
　　06
　　Kubernetes监控
　　Zabbix 6.0 LTS添加了多个新模板，用于监控不同的Kubernetes组件
　　Zabbix 6.0 LTS新增Kubernetes监控功能，可以在Kubernetes系统从多个维度采集指标：
　　•Kubernetes节点和pods的自动发现和监控
　　•无代理方式采集Kubernetes pods和节点的信息
　　•获取Kubernetes节点主机高水平信息
　　Kubernetes监控还能够监控Kubernetes组件，例如
　　•kube-controller-manager
　　•kube-proxy
　　•kube-apiserver
　　•kube-scheduler
　　•kubelet
　　07
　　详细高效的Zabbix审计日志模式
　　重新设计的审计日志能提供全新的详细信息，并优化筛选功能。
　　新的审计日志模式允许用户对Zabbix前端、Zabbix API和Zabbix server记录执行详细审计。通过修改审计日志，对Zabbix实例执行的所有更改都将记录在审计日志中：
　　•创建、修改或删除新对象
　　•通过LLD发现新实体
　　•API命令
　　•定期登录/退出
　　•Zabbix实例中发生的所有其它事情
　　新的审计日志模式在设计时考虑了最佳性能，因此扩展的功能不会影响Zabbix实例的性能。审计日志模式的工作是一项持续的工作，会在后续Zabbix发布周期中持续进行。
　　08
　　可视化数据的新方法
　　主机排序组件可显示按监控项值排序的前N个或后N个主机的列表
　　Zabbix 6.0新增的构件提供了展示信息的许多新方法。
　　•地理地图构件能在地图上显示主机和问题
　　•数据表构件能创建有关主机指标状态的摘要视图
　　•数据表构件的前N和后N函数能展示最高或最低的监控项值
　　•单一监控项构件能展示单个指标的值
　　•对现有矢量图的许多改进，例如新的矢量图类型、引用单一监控项等
　　•SLA构件能显示特定业务服务的当前SLA
　　09
　　Zabbix性能优化
　　针对不同的Zabbix组件进行多项性能优化：
　　•提升链接模板时的性能
　　•提升Zabbix proxy性能和内存使用率
　　历史数据表使用主键，这有多种好处，例如：
　　•提高Zabbix server和Zabbix前端的性能
　　•减少历史数据表的大小
　　10
　　提升Zabbix Agent2模块化，
　　新的Zabbix Agent 监控项和功能
　　优化的Zabbix agent现在能够开箱即用监控一组指标
　　Zabbix 6.0为Zabbix Agent和Agent2提供了一套新的监控项。支持以下功能：
　　•获取额外文件信息，如文件所有者和文件权限
　　•采集agent主机元数据作为指标
　　

　　•计数匹配的TCP/UDP sockets
　　某些已有的监控项支持新的功能：
　　•vfs.fs.discovery-在Windows上添加了对{#FSLABEL}宏的支持
　　•vfs.fs.get-在Windows上添加了对{#FSLABEL}宏的支持
　　• vfs.file.size-添加了一个新的模式参数。设置以字节数或行数为单位
　　Zabbix Agent2现在支持加载独立插件，而无需重新编译Agent2。
　　11
　　原生TLS/SSL网站证书监控
　　使用新的Zabbix agent2 监控项监控SSL/TLS证书
　　支持使用新的Zabbix agent 2监控项来监控SSL/TLS证书。监控项可用于验证TLS/SSL证书，并提供其它证书详细信息。
　　12
　　通用性改进
　　通过优化的创建主机UI，使创建新主机从未如此简单
　　Zabbix 6.0使Zabbix配置工作流程更精简！Zabbix用户现在可直接在Monitoring页面创建主机和监控项：
　　•直接从Monitoring -Hosts页面创建主机
　　•直接从Monitoring -Latest data页面创建监控项
　　•删除了Monitoring -Overview页面。为了改善用户体验，现在只能通过仪表盘构件访问触发器和数据概览功能。
　　现在将根据监控项的键值自动选择监控项的默认信息类型。
　　拓扑图标签和图形名称中的简单宏已替换为表达式宏，以确保与新的触发器表达式语法一致。
　　13
　　通过自定义密码复杂程度要求
　　来保护您的Zabbix登录
　　设置密码复杂程度确保前端登录安全
　　Zabbix超级管理员现在能够定义密码复杂程度要求。现在可以：
　　•设置最小密码长度
　　•定义密码字符要求
　　•通过禁止使用最常见的密码字符串来降低字典攻击的风险。
　　14
　　支持定制前端展示品牌logo
　　定制Zabbix实例代表您的公司。将现有的Zabbix品牌和帮助页面URL替换为您自己的公司品牌和自定义网站URL。
　　改名功能不会违反Zabbix许可协议-可以自由更换Zabbix品牌！
　　15
　　新增模板和集成
　　Zabbix 6.0为最受欢迎的供应商提供了许多新模板：
　　•f5 BIG-IP
　　•Cisco ASAv
　　•HPE ProLiant servers
　　•Cloudflare
　　•InfluxDB
　　•Travis CI
　　•Dell PowerEdge
　　Zabbix 6.0还带来了一个新的Github webhook集成，能基于Zabbix问题或恢复事件生成Github问题！
　　所有官方的Zabbix模板现在都是独立的，不需要依赖导入其他模板。
　　请查看当前可用集成的完整列表。
　　16
　　其它新功能和优化
　　更多改进功能（部分）：
　　•使用新聚合函数计数返回值或匹配监控项的数量-count和item_count函数
　　•在未配置交换空间的情况下提升system.swap监控项行为
　　•使用新的单调历史函数检测连续增加或减少的值
　　•支持两个新的Prometheus预处理标签匹配运算符！= 及 !~
　　•当从构件链接导航到列表样式页面时，构件显示能更可靠地转换为不同的筛选器选项
　　•使用新配置参数ListenBacklog为Zabbix server、Zabbix proxy、Zabbix agent配置TCP队列中挂起连接的最大数量
　　•文档页面字体和可读性的改进
　　•调整许多现有模板和修复小bug
　　•新增utf8mb4作为受支持的MySQL字符集和校对集
　　•新增对Webhook的额外HTTP方法的支持
　　•对Zabbix命令行工具的超时设置
　　Zabbix官方首本工具书《Zabbix监控系统之深度解析和实践》现已出版，欢迎阅读。

腾讯3面：说说前端监控平台/监控SDK的架构设计和难点亮点？

采集交流 • 优采云发表了文章 • 0 个评论 • 65 次浏览 • 2022-06-28 05:55 • 来自相关话题

腾讯3面：说说前端监控平台/监控SDK的架构设计和难点亮点？
　　前言
　　事情是这样的，上周，我的一位两年前端经验的发小，在腾讯三轮面试的时候被问了一个问题：说说你们公司前端监控项目的架构设计和亮点设计；
　　而说回我这位发小，因为做过他们公司监控项目的可视化报表界面，所以简历上有写着前端监控项目的项目经验；但是不幸的是，他虽然前端基础相当不错，但并没有实际参与监控SDK的设计开发（只负责写监控的可视化分析界面），所以被问到这个问题，直接就一个懵了；结果也很正常，面试没过；
　　那么这篇文章，我就来介绍一下对于前端监控项目的整体架构和可以做的亮点优化；前文几篇文章有介绍具体的前端监控实现，感兴趣的小伙伴可以点击链接跳转过去阅读；传送门就在下面。
　　传送门
　　这篇文章的标题原拟定是：一文摸清前端监控实践要点（四）架构设计；但是我的发小面试刚好碰上了这么一个问题，于是我便将标题改为了这个。
　　一文摸清前端监控实践要点（一）性能监控[1]
　　一文摸清前端监控实践要点（二）行为监控[2]
　　一文摸清前端监控实践要点（三）错误监控[3]
　　腾讯三面：说说前端监控告警分析平台的架构设计和难点亮点？[4]
　　整体架构设计
　　image.png
　　直接上图，我们在应用层SDK上报的数据，在接入层经过削峰限流和数据加工后，将原始日志存储于 ES 中，再经过数据清洗、数据聚合后，将 issue（聚合的数据）持久化存储于 MySQL ，最后提供 RESTful API 提供给监控平台调用；
　　SDK 架构设计
　　为支持多平台、可拓展、可插拔的特点，整体SDK的架构设计是内核+插件的插件式设计；每个 SDK 首先继承于平台无关的 Core 层代码。然后在自身SDK中，初始化内核实例和插件；
　　image.png
　　image.png值得一谈的点
　　下面将主要谈谈这些内容：前端监控项目除了正常的数据采集、数据报表分析以外；会碰上哪些难点可以去突破，或者说可以做出哪些亮点的内容？
　　SDK 如何设计成多平台支持？
　　首先我们先来了解一下，在前端监控的领域里，我们可能不仅仅只是监控一个 web环境下的数据，包括 Nodejs、微信小程序、Electron 等各种其余的环境都是有监控的业务需求在的；
　　那么我们就要思考一个点，我们的一个 SDK 项目，既然功能全，又要支持多平台，那么怎么设计这个 SDK 可以让它既支持多平台，但是在启用某个平台的时候不会引入无用的代码呢？
　　最简单的办法：将每个平台单独放一个仓库，单独维护；但是这种办法的问题也很严重：人力资源浪费严重；会导致一些重复的代码很多；维护非常困难；
　　而较好一点的解决方案：我们可以通过插件化对代码进行组织：见下图
　　image.png
　　这样子进行 SDK 的设计有很多好处：
　　最后打包上线时，我们通过修改 build 的脚本，对 packages 文件夹下的每个平台都单独打一个包，并且分开上传到 npm 平台；
　　SDK 如何方便的进行业务拓展和定制？
　　业务功能总是会不断迭代的，SDK 也一样，所以说我们在设计SDK的时候就要考虑它的一个拓展性；我们来看下图：
　　image.png
　　上图是 SDK 内部的一个架构设计：内核+插件的设计；
　　而看了上图已经上文的解释，可拓展这个问题的答案已经很清晰了，我们需要拓展业务，只需要在内核的基础上，不断的往上叠加 Monitor 插件的数量就可以了；
　　至于说定制化，插件里的功能，都是使用与否不影响整个SDK运行的，所以我们可以自由的让用户对插件里的功能进行定制化，决定哪个监控功能启用、哪个监控功能不启用等等....
　　我这边举个代码例子，大家可以参考着看看就行：
　　// 服务于 Web 的SDK，继承了 Core 上的与平台无关方法; class WebSdk extends Core { // 性能监控实例，实例里每个插件实现一个性能监控功能； public performanceInstance: WebVitals; // 行为监控实例，实例里每个插件实现一个行为监控功能； public userInstance: UserVitals; // 错误监控实例，实例里每个插件实现一个错误监控功能； public errorInstance: ErrorVitals; // 上报实例，这里面封装上报方法 public transportInstance: TransportInstance; // 数据格式化实例 public builderInstance: BuilderInstance; // 维度实例，用以初始化 uid、sid等信息 public dimensionInstance: DimensionInstance; // 参数初始化实例 public configInstance: ConfigInstance; private options: initOptions; constructor(options: initOptions) { super(); this.configInstance = new ConfigInstance(this, options); // 各种初始化...... } } export default WebSdk; 
　　看上面的代码，我在初始化每个插件的时候，都将 this 传入进去，那么每个插件里面都可以访问内核里的方法；
　　SDK 在拓展新业务的时候，如何保证原有业务的正确性？
　　在上述的内核+插件设计下，我们开发新业务对原功能的影响基本上可以忽略不计，但是难免有意外，所以在 SDK 项目的层面上，需要有单元测试的来保证业务的稳定性；
　　我们可以引入单元测试，并对每一个插件，每一个内核方法，都单独编写测试用例，在覆盖率达标的情况下，只要每次代码上传都测试通过，就可以保证原有业务的一个稳定性；
　　SDK 如何实现异常隔离以及上报？
　　首先，我们引入监控系统的原因之一就是为了避免页面产生错误，而如果因为监控SDK报错，导致整个应用主业务流程被中断，这是我们不能够接收的；
　　实际上，我们无法保证我们的 SDK 不出现错误，那么假如万一SDK本身报错了，我们就需要它不会去影响主业务流程的运行；最简单粗暴的方法就是把整个 SDK 都用 try catch 包裹起来，那么这样子即使出现了错误，也会被拦截在我们的 catch 里面；
　　但是我们回过头来想一想，这样简单粗暴的包裹，会带来哪些问题：
　　那么，我们就需要一个相对优雅的一个异常隔离+上报机制，回想我们上文的架构：内核+插件的形式；我们对每一个插件模块，都单独的用trycatch包裹起来，然后当抛出错误的时候，进行数据的封装、上报；
　　这样子，就完成了一个异常隔离机制：
　　SDK 如何实现服务端时间的校对？
　　看到这里，可能有的同学并不明白，进行服务端时间的校对是什么意思；我们首先要明白，我们通过 JS 调用 new Date() 获取的时间，是我们的机器时间；也就是说：这个时间是一个随时都有可能不准确的时间；
　　那么既然时间是不准确的，假如有一个对时间精准度要求比较敏感的功能：比如说 API全链路监控；最后整体绘制出来的全链路图直接客户端的访问时间点变成了未来的时间点，直接时间穿梭那可不行；
　　image.png
　　如上图，我们先要了解的是，http响应头上有一个字段 Date；它的值是服务端发送资源时的服务器时间，我们可以在初始化SDK的时候，发送一个简单的请求给上报服务器，获取返回的 Date 值后计算 Diff差值存在本地；
　　这样子就可以提供一个公共API，来提供一个时间校对的服务，让本地的时间比较趋近于服务端的真实时间；（只是比较趋近的原因是：还会有一个单程传输耗时的误差）
　　let diff = 0; export const diffTime = (date: string) => { const serverDate = new Date(date); const inDiff = Date.now() - serverDate.getTime(); if (diff === 0 || diff > inDiff) { diff = inDiff; } }; export const getTime = () => { return new Date(Date.now() - diff); }; 
　　当然，这里还可以做的更精确一点，我们可以让后端服务在返回的时候，带上 API 请求在后端服务执行完毕所消耗的时间 server-timing，放在响应头里；我们取到数据后，将 ttfb 耗时减去返回的 server-timing 再除以 2；就是单程传输的耗时；那这样我们上文的计算中差的单程传输耗时的误差就可以补上了；
　　SDK 如何实现会话级别的错误上报去重？
　　首先，我们需要理清一个概念，我们可以认为：
　　为什么有上面的结论呢？理由很简单:
　　所以说我们在第三篇文章《一文摸清前端监控实践要点（三）错误监控》[5]中有一个生成错误mid 的操作，这是一个唯一id，但是它的唯一规则是针对于不同错误的唯一；
　　// 对每一个错误详情，生成一串编码 export const getErrorUid = (input: string) => { return window.btoa(unescape(encodeURIComponent(input))); }; 
　　
　　所以说我们传入的参数，是错误信息、错误行号、错误列号、错误文件等可能的关键信息的一个集合，这样保证了产生在同一个地方的错误，生成的错误mid 都是相等的；这样子，我们才能在错误上报的入口函数里，做上报去重；
　　// 封装错误的上报入口，上报前，判断错误是否已经发生过 errorSendHandler = (data: ExceptionMetrics) => { // 统一加上用户行为追踪和页面基本信息 const submitParams = { ...data, breadcrumbs: this.engineInstance.userInstance.breadcrumbs.get(), pageInformation: this.engineInstance.userInstance.metrics.get('page-information'), } as ExceptionMetrics; // 判断同一个错误在本次页面访问中是否已经发生过; const hasSubmitStatus = this.submitErrorUids.includes(submitParams.errorUid); // 检查一下错误在本次页面访问中，是否已经产生过 if (hasSubmitStatus) return; this.submitErrorUids.push(submitParams.errorUid); // 记录后清除 breadcrumbs this.engineInstance.userInstance.breadcrumbs.clear(); // 一般来说，有报错就立刻上报; this.engineInstance.transportInstance.kernelTransportHandler( this.engineInstance.transportInstance.formatTransportData(transportCategory.ERROR, submitParams), ); }; 
　　SDK 采用什么样的上报策略？
　　对于上报方面来说，SDK的数据上报可不是随随便便就上报上去了，里面有涉及到数据上报的方式取舍以及上报时机的选择等等，还有一些可以让数据上报更加优雅的优化点；
　　首先，日志上报并不是应用的主要功能逻辑，日志上报行为不应该影响业务逻辑，不应该占用业务计算资源；那么在往下阅读之前，我们先来了解一下目前通用的几个上报方式：
　　我们来简单讲一下上述的几个上报方式
　　首先 Beacon API[6] 是一个较新的 API
　　然后 Ajax 请求方式就不用我多说了，大家应该平常用的最多的异步请求就是 Ajax；
　　最后来说一下 Image 上报方式：我们可以以向服务端请求图片资源的形式，像服务端传输少量数据，这种方式不会造成跨域；
　　上报方式
　　看了上面的三种上报方式，我们最终采用 sendBeacon + xmlHttpRequest 降级上报的方式，当浏览器不支持 sendBeacon 或者传输的数据量超过了 sendBeacon 的限制，我们就降级采用 xmlHttpRequest 进行上报数据；
　　优先选用 Beacon API 的理由上文已经有提到：它可以保证页面卸载之前启动信标请求，是一种数据可靠，传输异步并且不会影响下一页面的加载的传输方式。
　　而降级使用 XMLHttpRequest 的原因是， Beacon API 现在并不是所有的浏览器都完全支持，我们需要一个保险方案兜底，并且 sendbeacon 不能传输大数据量的信息，这个时候还是得回到 Ajax 来；
　　看到了这里，有的同学可能会问：为什么不用 Image 呀？那跨域怎么办呀？原因也很简单：
　　我们将其简单封装一下：
　　export enum transportCategory { // PV访问数据 PV = 'pv', // 性能数据 PERF = 'perf', // api 请求数据 API = 'api', // 报错数据 ERROR = 'error', // 自定义行为 CUS = 'custom', } export interface DimensionStructure { // 用户id，存储于cookie uid: string; // 会话id，存储于cookiestorage sid: string; // 应用id，使用方传入 pid: string; // 应用版本号 release: string; // 应用环境 environment: string; } export interface TransportStructure { // 上报类别 category: transportCategory; // 上报的维度信息 dimension: DimensionStructure; // 上报对象(正文) context?: Object; // 上报对象数组 contexts?: Array; // 捕获的sdk版本信息，版本号等... sdk: Object; } export default class TransportInstance { private engineInstance: EngineInstance; public kernelTransportHandler: Function; private options: TransportParams; constructor(engineInstance: EngineInstance, options: TransportParams) { this.engineInstance = engineInstance; this.options = options; this.kernelTransportHandler = this.initTransportHandler(); } // 格式化数据,传入部分为 category 和 context \ contexts formatTransportData = (category: transportCategory, data: Object | Array): TransportStructure => { const transportStructure = { category, dimension: this.engineInstance.dimensionInstance.getDimension(), sdk: getSdkVersion(), } as TransportStructure; if (data instanceof Array) { transportStructure.contexts = data; } else { transportStructure.context = data; } return transportStructure; }; // 初始化上报方法 initTransportHandler = () => { return typeof navigator.sendBeacon === 'function' ? this.beaconTransport() : this.xmlTransport(); }; // beacon 形式上报 beaconTransport = (): Function => { const handler = (data: TransportStructure) => { const status = window.navigator.sendBeacon(this.options.transportUrl, JSON.stringify(data)); // 如果数据量过大，则本次大数据量用 XMLHttpRequest 上报 if (!status) this.xmlTransport().apply(this, data); }; return handler; }; // XMLHttpRequest 形式上报 xmlTransport = (): Function => { const handler = (data: TransportStructure) => { const xhr = new (window as any).oXMLHttpRequest(); xhr.open('POST', this.options.transportUrl, true); xhr.send(JSON.stringify(data)); }; return handler; }; } 
　　上报时机
　　上报时机这里，一般来说：
　　上报优化
　　或许，我们想把我们的数据上报做的再优雅一点，那么我们还有什么可以优化的点呢？还是有的：
　　平台数据如何进行削峰限流？
　　假设说，有某一个时间点，突然间流量爆炸，无数的数据向服务器访问过来，这时如果没有一个削峰限流的策略，很可能会导致机器Down掉，
　　所以说我们有必要去做一个削峰限流，从概率学的角度上讲，在大数据量的基础上我们对于整体数据做一个百分比的截断，并不会影响整体的一个数据比例。
　　简单方案-随机丢弃策略进行限流
　　前端做削峰限流最简单的方法是什么？没错，就是 Math.random() ，我们让用户传入一个采样率，
if(Math.random() 查看全部

所以说我们传入的参数，是错误信息、错误行号、错误列号、错误文件等可能的关键信息的一个集合，这样保证了产生在同一个地方的错误，生成的错误mid 都是相等的；这样子，我们才能在错误上报的入口函数里，做上报去重；
　　// 封装错误的上报入口，上报前，判断错误是否已经发生过 errorSendHandler = (data: ExceptionMetrics) => { // 统一加上用户行为追踪和页面基本信息 const submitParams = { ...data, breadcrumbs: this.engineInstance.userInstance.breadcrumbs.get(), pageInformation: this.engineInstance.userInstance.metrics.get('page-information'), } as ExceptionMetrics; // 判断同一个错误在本次页面访问中是否已经发生过; const hasSubmitStatus = this.submitErrorUids.includes(submitParams.errorUid); // 检查一下错误在本次页面访问中，是否已经产生过 if (hasSubmitStatus) return; this.submitErrorUids.push(submitParams.errorUid); // 记录后清除 breadcrumbs this.engineInstance.userInstance.breadcrumbs.clear(); // 一般来说，有报错就立刻上报; this.engineInstance.transportInstance.kernelTransportHandler( this.engineInstance.transportInstance.formatTransportData(transportCategory.ERROR, submitParams), ); }; 
　　SDK 采用什么样的上报策略？
　　对于上报方面来说，SDK的数据上报可不是随随便便就上报上去了，里面有涉及到数据上报的方式取舍以及上报时机的选择等等，还有一些可以让数据上报更加优雅的优化点；
　　首先，日志上报并不是应用的主要功能逻辑，日志上报行为不应该影响业务逻辑，不应该占用业务计算资源；那么在往下阅读之前，我们先来了解一下目前通用的几个上报方式：
　　我们来简单讲一下上述的几个上报方式
　　首先 Beacon API[6] 是一个较新的 API
　　然后 Ajax 请求方式就不用我多说了，大家应该平常用的最多的异步请求就是 Ajax；
　　最后来说一下 Image 上报方式：我们可以以向服务端请求图片资源的形式，像服务端传输少量数据，这种方式不会造成跨域；
　　上报方式
　　看了上面的三种上报方式，我们最终采用 sendBeacon + xmlHttpRequest 降级上报的方式，当浏览器不支持 sendBeacon 或者传输的数据量超过了 sendBeacon 的限制，我们就降级采用 xmlHttpRequest 进行上报数据；
　　优先选用 Beacon API 的理由上文已经有提到：它可以保证页面卸载之前启动信标请求，是一种数据可靠，传输异步并且不会影响下一页面的加载的传输方式。
　　而降级使用 XMLHttpRequest 的原因是， Beacon API 现在并不是所有的浏览器都完全支持，我们需要一个保险方案兜底，并且 sendbeacon 不能传输大数据量的信息，这个时候还是得回到 Ajax 来；
　　看到了这里，有的同学可能会问：为什么不用 Image 呀？那跨域怎么办呀？原因也很简单：
　　我们将其简单封装一下：
　　export enum transportCategory { // PV访问数据 PV = 'pv', // 性能数据 PERF = 'perf', // api 请求数据 API = 'api', // 报错数据 ERROR = 'error', // 自定义行为 CUS = 'custom', } export interface DimensionStructure { // 用户id，存储于cookie uid: string; // 会话id，存储于cookiestorage sid: string; // 应用id，使用方传入 pid: string; // 应用版本号 release: string; // 应用环境 environment: string; } export interface TransportStructure { // 上报类别 category: transportCategory; // 上报的维度信息 dimension: DimensionStructure; // 上报对象(正文) context?: Object; // 上报对象数组 contexts?: Array; // 捕获的sdk版本信息，版本号等... sdk: Object; } export default class TransportInstance { private engineInstance: EngineInstance; public kernelTransportHandler: Function; private options: TransportParams; constructor(engineInstance: EngineInstance, options: TransportParams) { this.engineInstance = engineInstance; this.options = options; this.kernelTransportHandler = this.initTransportHandler(); } // 格式化数据,传入部分为 category 和 context \ contexts formatTransportData = (category: transportCategory, data: Object | Array): TransportStructure => { const transportStructure = { category, dimension: this.engineInstance.dimensionInstance.getDimension(), sdk: getSdkVersion(), } as TransportStructure; if (data instanceof Array) { transportStructure.contexts = data; } else { transportStructure.context = data; } return transportStructure; }; // 初始化上报方法 initTransportHandler = () => { return typeof navigator.sendBeacon === 'function' ? this.beaconTransport() : this.xmlTransport(); }; // beacon 形式上报 beaconTransport = (): Function => { const handler = (data: TransportStructure) => { const status = window.navigator.sendBeacon(this.options.transportUrl, JSON.stringify(data)); // 如果数据量过大，则本次大数据量用 XMLHttpRequest 上报 if (!status) this.xmlTransport().apply(this, data); }; return handler; }; // XMLHttpRequest 形式上报 xmlTransport = (): Function => { const handler = (data: TransportStructure) => { const xhr = new (window as any).oXMLHttpRequest(); xhr.open('POST', this.options.transportUrl, true); xhr.send(JSON.stringify(data)); }; return handler; }; } 
　　上报时机
　　上报时机这里，一般来说：
　　上报优化
　　或许，我们想把我们的数据上报做的再优雅一点，那么我们还有什么可以优化的点呢？还是有的：
　　平台数据如何进行削峰限流？
　　假设说，有某一个时间点，突然间流量爆炸，无数的数据向服务器访问过来，这时如果没有一个削峰限流的策略，很可能会导致机器Down掉，
　　所以说我们有必要去做一个削峰限流，从概率学的角度上讲，在大数据量的基础上我们对于整体数据做一个百分比的截断，并不会影响整体的一个数据比例。
　　简单方案-随机丢弃策略进行限流
　　前端做削峰限流最简单的方法是什么？没错，就是 Math.random() ，我们让用户传入一个采样率，
if(Math.random()

腾讯三面：说说前端监控平台/监控SDK的架构设计和难点亮点？

采集交流 • 优采云发表了文章 • 0 个评论 • 103 次浏览 • 2022-06-27 21:05 • 来自相关话题

腾讯三面：说说前端监控平台/监控SDK的架构设计和难点亮点？
　　前言
　　事情是这样的，上周，我的一位两年前端经验的发小，在腾讯三轮面试的时候被问了一个问题：说说你们公司前端监控项目的架构设计和亮点设计；
　　而说回我这位发小，因为做过他们公司监控项目的可视化报表界面，所以简历上有写着前端监控项目的项目经验；但是不幸的是，他虽然前端基础相当不错，但并没有实际参与监控SDK的设计开发（只负责写监控的可视化分析界面），所以被问到这个问题，直接就一个懵了；结果也很正常，面试没过；
　　那么这篇文章，我就来介绍一下对于前端监控项目的整体架构和可以做的亮点优化；前文几篇文章有介绍具体的前端监控实现，感兴趣的小伙伴可以点击链接跳转过去阅读；传送门就在下面。
　　传送门
　　这篇文章的标题原拟定是：一文摸清前端监控实践要点（四）架构设计；但是我的发小面试刚好碰上了这么一个问题，于是我便将标题改为了这个。
　　一文摸清前端监控实践要点（一）性能监控[1]
　　一文摸清前端监控实践要点（二）行为监控[2]
　　一文摸清前端监控实践要点（三）错误监控[3]
　　腾讯三面：说说前端监控告警分析平台的架构设计和难点亮点？[4]
　　整体架构设计
　　image.png
　　直接上图，我们在应用层SDK上报的数据，在接入层经过削峰限流和数据加工后，将原始日志存储于ES中，再经过数据清洗、数据聚合后，将issue（聚合的数据）持久化存储于MySQL，最后提供RESTful API提供给监控平台调用；
　　SDK 架构设计
　　为支持多平台、可拓展、可插拔的特点，整体SDK的架构设计是内核+插件的插件式设计；每个SDK首先继承于平台无关的Core层代码。然后在自身SDK中，初始化内核实例和插件；
　　image.png
　　image.png值得一谈的点
　　下面将主要谈谈这些内容：前端监控项目除了正常的数据采集、数据报表分析以外；会碰上哪些难点可以去突破，或者说可以做出哪些亮点的内容？
　　SDK 如何设计成多平台支持？
　　首先我们先来了解一下，在前端监控的领域里，我们可能不仅仅只是监控一个web环境下的数据，包括Nodejs、微信小程序、Electron等各种其余的环境都是有监控的业务需求在的；
　　那么我们就要思考一个点，我们的一个 SDK 项目，既然功能全，又要支持多平台，那么怎么设计这个SDK可以让它既支持多平台，但是在启用某个平台的时候不会引入无用的代码呢？
　　最简单的办法：将每个平台单独放一个仓库，单独维护；但是这种办法的问题也很严重：人力资源浪费严重；会导致一些重复的代码很多；维护非常困难；
　　而较好一点的解决方案：我们可以通过插件化对代码进行组织：见下图
　　image.png
　　这样子进行 SDK 的设计有很多好处：
　　最后打包上线时，我们通过修改build的脚本，对packages文件夹下的每个平台都单独打一个包，并且分开上传到npm平台；
　　SDK 如何方便的进行业务拓展和定制？
　　业务功能总是会不断迭代的，SDK也一样，所以说我们在设计SDK的时候就要考虑它的一个拓展性；我们来看下图：
　　image.png
　　上图是 SDK 内部的一个架构设计：内核+插件的设计；
　　而看了上图已经上文的解释，可拓展这个问题的答案已经很清晰了，我们需要拓展业务，只需要在内核的基础上，不断的往上叠加Monitor插件的数量就可以了；
　　至于说定制化，插件里的功能，都是使用与否不影响整个SDK运行的，所以我们可以自由的让用户对插件里的功能进行定制化，决定哪个监控功能启用、哪个监控功能不启用等等....
　　我这边举个代码例子，大家可以参考着看看就行：
　　// 服务于 Web 的SDK，继承了 Core 上的与平台无关方法; class WebSdk extends Core { // 性能监控实例，实例里每个插件实现一个性能监控功能； public performanceInstance: WebVitals; // 行为监控实例，实例里每个插件实现一个行为监控功能； public userInstance: UserVitals; // 错误监控实例，实例里每个插件实现一个错误监控功能； public errorInstance: ErrorVitals; // 上报实例，这里面封装上报方法 public transportInstance: TransportInstance; // 数据格式化实例 public builderInstance: BuilderInstance; // 维度实例，用以初始化 uid、sid等信息 public dimensionInstance: DimensionInstance; // 参数初始化实例 public configInstance: ConfigInstance; private options: initOptions; constructor(options: initOptions) { super(); this.configInstance = new ConfigInstance(this, options); // 各种初始化...... } } export default WebSdk; 
　　看上面的代码，我在初始化每个插件的时候，都将this传入进去，那么每个插件里面都可以访问内核里的方法；
　　SDK 在拓展新业务的时候，如何保证原有业务的正确性？
　　在上述的内核+插件设计下，我们开发新业务对原功能的影响基本上可以忽略不计，但是难免有意外，所以在 SDK 项目的层面上，需要有单元测试的来保证业务的稳定性；
　　我们可以引入单元测试，并对每一个插件，每一个内核方法，都单独编写测试用例，在覆盖率达标的情况下，只要每次代码上传都测试通过，就可以保证原有业务的一个稳定性；
　　SDK 如何实现异常隔离以及上报？
　　首先，我们引入监控系统的原因之一就是为了避免页面产生错误，而如果因为监控SDK报错，导致整个应用主业务流程被中断，这是我们不能够接收的；
　　实际上，我们无法保证我们的 SDK 不出现错误，那么假如万一SDK本身报错了，我们就需要它不会去影响主业务流程的运行；最简单粗暴的方法就是把整个SDK都用try catch包裹起来，那么这样子即使出现了错误，也会被拦截在我们的catch里面；
　　但是我们回过头来想一想，这样简单粗暴的包裹，会带来哪些问题：
　　那么，我们就需要一个相对优雅的一个异常隔离+上报机制，回想我们上文的架构：内核+插件的形式；我们对每一个插件模块，都单独的用trycatch包裹起来，然后当抛出错误的时候，进行数据的封装、上报；
　　这样子，就完成了一个异常隔离机制：
　　SDK 如何实现服务端时间的校对？
　　看到这里，可能有的同学并不明白，进行服务端时间的校对是什么意思；我们首先要明白，我们通过JS调用new Date()获取的时间，是我们的机器时间；也就是说：这个时间是一个随时都有可能不准确的时间；
　　那么既然时间是不准确的，假如有一个对时间精准度要求比较敏感的功能：比如说API全链路监控；最后整体绘制出来的全链路图直接客户端的访问时间点变成了未来的时间点，直接时间穿梭那可不行；
　　image.png
　　如上图，我们先要了解的是，http响应头上有一个字段Date；它的值是服务端发送资源时的服务器时间，我们可以在初始化SDK的时候，发送一个简单的请求给上报服务器，获取返回的Date值后计算Diff差值存在本地；
　　这样子就可以提供一个公共API，来提供一个时间校对的服务，让本地的时间比较趋近于服务端的真实时间；（只是比较趋近的原因是：还会有一个单程传输耗时的误差）
　　let diff = 0; export const diffTime = (date: string) => { const serverDate = new Date(date); const inDiff = Date.now() - serverDate.getTime(); if (diff === 0 || diff > inDiff) { diff = inDiff; } }; export const getTime = () => { return new Date(Date.now() - diff); }; 
　　SDK 如何实现会话级别的错误上报去重？
　　首先，我们需要理清一个概念，我们可以认为：
　　为什么有上面的结论呢？理由很简单:
　　所以说我们在第三篇文章《一文摸清前端监控实践要点（三）错误监控》[5]中有一个生成错误mid的操作，这是一个唯一id，但是它的唯一规则是针对于不同错误的唯一；
　　// 对每一个错误详情，生成一串编码 export const getErrorUid = (input: string) => { return window.btoa(unescape(encodeURIComponent(input))); }; 
　　
　　所以说我们传入的参数，是错误信息、错误行号、错误列号、错误文件等可能的关键信息的一个集合，这样保证了产生在同一个地方的错误，生成的错误mid都是相等的；这样子，我们才能在错误上报的入口函数里，做上报去重；
　　// 封装错误的上报入口，上报前，判断错误是否已经发生过 errorSendHandler = (data: ExceptionMetrics) => { // 统一加上用户行为追踪和页面基本信息 const submitParams = { ...data, breadcrumbs: this.engineInstance.userInstance.breadcrumbs.get(), pageInformation: this.engineInstance.userInstance.metrics.get('page-information'), } as ExceptionMetrics; // 判断同一个错误在本次页面访问中是否已经发生过; const hasSubmitStatus = this.submitErrorUids.includes(submitParams.errorUid); // 检查一下错误在本次页面访问中，是否已经产生过 if (hasSubmitStatus) return; this.submitErrorUids.push(submitParams.errorUid); // 记录后清除 breadcrumbs this.engineInstance.userInstance.breadcrumbs.clear(); // 一般来说，有报错就立刻上报; this.engineInstance.transportInstance.kernelTransportHandler( this.engineInstance.transportInstance.formatTransportData(transportCategory.ERROR, submitParams), ); }; 
　　SDK 采用什么样的上报策略？
　　对于上报方面来说，SDK的数据上报可不是随随便便就上报上去了，里面有涉及到数据上报的方式取舍以及上报时机的选择等等，还有一些可以让数据上报更加优雅的优化点；
　　首先，日志上报并不是应用的主要功能逻辑，日志上报行为不应该影响业务逻辑，不应该占用业务计算资源；那么在往下阅读之前，我们先来了解一下目前通用的几个上报方式：
　　我们来简单讲一下上述的几个上报方式
　　首先Beacon API[6]是一个较新的 API
　　然后Ajax请求方式就不用我多说了，大家应该平常用的最多的异步请求就是Ajax；
　　最后来说一下Image上报方式：我们可以以向服务端请求图片资源的形式，像服务端传输少量数据，这种方式不会造成跨域；
　　上报方式
　　看了上面的三种上报方式，我们最终采用sendBeacon+xmlHttpRequest降级上报的方式，当浏览器不支持sendBeacon或者传输的数据量超过了sendBeacon的限制，我们就降级采用xmlHttpRequest进行上报数据；
　　优先选用Beacon API的理由上文已经有提到：它可以保证页面卸载之前启动信标请求，是一种数据可靠，传输异步并且不会影响下一页面的加载的传输方式。
　　而降级使用XMLHttpRequest的原因是，Beacon API现在并不是所有的浏览器都完全支持，我们需要一个保险方案兜底，并且sendbeacon不能传输大数据量的信息，这个时候还是得回到Ajax来；
　　看到了这里，有的同学可能会问：为什么不用Image呀？那跨域怎么办呀？原因也很简单：
　　我们将其简单封装一下：
　　export enum transportCategory { // PV访问数据 PV = 'pv', // 性能数据 PERF = 'perf', // api 请求数据 API = 'api', // 报错数据 ERROR = 'error', // 自定义行为 CUS = 'custom', } export interface DimensionStructure { // 用户id，存储于cookie uid: string; // 会话id，存储于cookiestorage sid: string; // 应用id，使用方传入 pid: string; // 应用版本号 release: string; // 应用环境 environment: string; } export interface TransportStructure { // 上报类别 category: transportCategory; // 上报的维度信息 dimension: DimensionStructure; // 上报对象(正文) context?: Object; // 上报对象数组 contexts?: Array; // 捕获的sdk版本信息，版本号等... sdk: Object; } export default class TransportInstance { private engineInstance: EngineInstance; public kernelTransportHandler: Function; private options: TransportParams; constructor(engineInstance: EngineInstance, options: TransportParams) { this.engineInstance = engineInstance; this.options = options; this.kernelTransportHandler = this.initTransportHandler(); } // 格式化数据,传入部分为 category 和 context \ contexts formatTransportData = (category: transportCategory, data: Object | Array): TransportStructure => { const transportStructure = { category, dimension: this.engineInstance.dimensionInstance.getDimension(), sdk: getSdkVersion(), } as TransportStructure; if (data instanceof Array) { transportStructure.contexts = data; } else { transportStructure.context = data; } return transportStructure; }; // 初始化上报方法 initTransportHandler = () => { return typeof navigator.sendBeacon === 'function' ? this.beaconTransport() : this.xmlTransport(); }; // beacon 形式上报 beaconTransport = (): Function => { const handler = (data: TransportStructure) => { const status = window.navigator.sendBeacon(this.options.transportUrl, JSON.stringify(data)); // 如果数据量过大，则本次大数据量用 XMLHttpRequest 上报 if (!status) this.xmlTransport().apply(this, data); }; return handler; }; // XMLHttpRequest 形式上报 xmlTransport = (): Function => { const handler = (data: TransportStructure) => { const xhr = new (window as any).oXMLHttpRequest(); xhr.open('POST', this.options.transportUrl, true); xhr.send(JSON.stringify(data)); }; return handler; }; } 
　　上报时机
　　上报时机这里，一般来说：
　　上报优化
　　或许，我们想把我们的数据上报做的再优雅一点，那么我们还有什么可以优化的点呢？还是有的：
　　平台数据如何进行削峰限流？
　　假设说，有某一个时间点，突然间流量爆炸，无数的数据向服务器访问过来，这时如果没有一个削峰限流的策略，很可能会导致机器Down掉，
　　所以说我们有必要去做一个削峰限流，从概率学的角度上讲，在大数据量的基础上我们对于整体数据做一个百分比的截断，并不会影响整体的一个数据比例。
　　简单方案-随机丢弃策略进行限流
　　前端做削峰限流最简单的方法是什么？没错，就是Math.random()，我们让用户传入一个采样率，
if(Math.random() 查看全部

所以说我们传入的参数，是错误信息、错误行号、错误列号、错误文件等可能的关键信息的一个集合，这样保证了产生在同一个地方的错误，生成的错误mid都是相等的；这样子，我们才能在错误上报的入口函数里，做上报去重；
　　// 封装错误的上报入口，上报前，判断错误是否已经发生过 errorSendHandler = (data: ExceptionMetrics) => { // 统一加上用户行为追踪和页面基本信息 const submitParams = { ...data, breadcrumbs: this.engineInstance.userInstance.breadcrumbs.get(), pageInformation: this.engineInstance.userInstance.metrics.get('page-information'), } as ExceptionMetrics; // 判断同一个错误在本次页面访问中是否已经发生过; const hasSubmitStatus = this.submitErrorUids.includes(submitParams.errorUid); // 检查一下错误在本次页面访问中，是否已经产生过 if (hasSubmitStatus) return; this.submitErrorUids.push(submitParams.errorUid); // 记录后清除 breadcrumbs this.engineInstance.userInstance.breadcrumbs.clear(); // 一般来说，有报错就立刻上报; this.engineInstance.transportInstance.kernelTransportHandler( this.engineInstance.transportInstance.formatTransportData(transportCategory.ERROR, submitParams), ); }; 
　　SDK 采用什么样的上报策略？
　　对于上报方面来说，SDK的数据上报可不是随随便便就上报上去了，里面有涉及到数据上报的方式取舍以及上报时机的选择等等，还有一些可以让数据上报更加优雅的优化点；
　　首先，日志上报并不是应用的主要功能逻辑，日志上报行为不应该影响业务逻辑，不应该占用业务计算资源；那么在往下阅读之前，我们先来了解一下目前通用的几个上报方式：
　　我们来简单讲一下上述的几个上报方式
　　首先Beacon API[6]是一个较新的 API
　　然后Ajax请求方式就不用我多说了，大家应该平常用的最多的异步请求就是Ajax；
　　最后来说一下Image上报方式：我们可以以向服务端请求图片资源的形式，像服务端传输少量数据，这种方式不会造成跨域；
　　上报方式
　　看了上面的三种上报方式，我们最终采用sendBeacon+xmlHttpRequest降级上报的方式，当浏览器不支持sendBeacon或者传输的数据量超过了sendBeacon的限制，我们就降级采用xmlHttpRequest进行上报数据；
　　优先选用Beacon API的理由上文已经有提到：它可以保证页面卸载之前启动信标请求，是一种数据可靠，传输异步并且不会影响下一页面的加载的传输方式。
　　而降级使用XMLHttpRequest的原因是，Beacon API现在并不是所有的浏览器都完全支持，我们需要一个保险方案兜底，并且sendbeacon不能传输大数据量的信息，这个时候还是得回到Ajax来；
　　看到了这里，有的同学可能会问：为什么不用Image呀？那跨域怎么办呀？原因也很简单：
　　我们将其简单封装一下：
　　export enum transportCategory { // PV访问数据 PV = 'pv', // 性能数据 PERF = 'perf', // api 请求数据 API = 'api', // 报错数据 ERROR = 'error', // 自定义行为 CUS = 'custom', } export interface DimensionStructure { // 用户id，存储于cookie uid: string; // 会话id，存储于cookiestorage sid: string; // 应用id，使用方传入 pid: string; // 应用版本号 release: string; // 应用环境 environment: string; } export interface TransportStructure { // 上报类别 category: transportCategory; // 上报的维度信息 dimension: DimensionStructure; // 上报对象(正文) context?: Object; // 上报对象数组 contexts?: Array; // 捕获的sdk版本信息，版本号等... sdk: Object; } export default class TransportInstance { private engineInstance: EngineInstance; public kernelTransportHandler: Function; private options: TransportParams; constructor(engineInstance: EngineInstance, options: TransportParams) { this.engineInstance = engineInstance; this.options = options; this.kernelTransportHandler = this.initTransportHandler(); } // 格式化数据,传入部分为 category 和 context \ contexts formatTransportData = (category: transportCategory, data: Object | Array): TransportStructure => { const transportStructure = { category, dimension: this.engineInstance.dimensionInstance.getDimension(), sdk: getSdkVersion(), } as TransportStructure; if (data instanceof Array) { transportStructure.contexts = data; } else { transportStructure.context = data; } return transportStructure; }; // 初始化上报方法 initTransportHandler = () => { return typeof navigator.sendBeacon === 'function' ? this.beaconTransport() : this.xmlTransport(); }; // beacon 形式上报 beaconTransport = (): Function => { const handler = (data: TransportStructure) => { const status = window.navigator.sendBeacon(this.options.transportUrl, JSON.stringify(data)); // 如果数据量过大，则本次大数据量用 XMLHttpRequest 上报 if (!status) this.xmlTransport().apply(this, data); }; return handler; }; // XMLHttpRequest 形式上报 xmlTransport = (): Function => { const handler = (data: TransportStructure) => { const xhr = new (window as any).oXMLHttpRequest(); xhr.open('POST', this.options.transportUrl, true); xhr.send(JSON.stringify(data)); }; return handler; }; } 
　　上报时机
　　上报时机这里，一般来说：
　　上报优化
　　或许，我们想把我们的数据上报做的再优雅一点，那么我们还有什么可以优化的点呢？还是有的：
　　平台数据如何进行削峰限流？
　　假设说，有某一个时间点，突然间流量爆炸，无数的数据向服务器访问过来，这时如果没有一个削峰限流的策略，很可能会导致机器Down掉，
　　所以说我们有必要去做一个削峰限流，从概率学的角度上讲，在大数据量的基础上我们对于整体数据做一个百分比的截断，并不会影响整体的一个数据比例。
　　简单方案-随机丢弃策略进行限流
　　前端做削峰限流最简单的方法是什么？没错，就是Math.random()，我们让用户传入一个采样率，
if(Math.random()

文章采集api

话题描述

相关话题

最佳回复者

1 人关注该话题