解决方案:成都核酸采集系统宕机,究竟是谁的锅?

优采云 发布时间: 2022-11-21 04:24

  解决方案:成都核酸采集系统宕机,究竟是谁的锅?

  2022年9月2日,成都核酸采集系统连续两次中断服务,累计中断时间超过2小时。大白只能将手机(采集端)高高举在空中,希望信号好一些。这一幕真是程序员的耻辱。

  这种影响上千万人核酸采集的系统故障,是一起特别重大的网络与信息安全事件。按照规则要求,需要启动一级响应,并且必须有人对此事负责。

  不过,这一次,《罗生门》在技术层面出现在了成都。为了避免承担主要责任,当事人开始各执一词,相互指责。东软发文《东软集团声明_技术*敏*感*词*[1]》称是网络故障所致,但四川省通信管理局发文称网络通信一切正常。谁的责任?

  事实上,无论是四川交管局还是东软,既然敢对这样特别重要的事件发表不负责任的强硬声明,大概率不是他们的“主要责任”。

  在《狼人杀》中,谁不发声谁就会有罪恶感,谁不能斩钉截铁地证明自己是好人,就有可能是狼。

  在这个罗生门中,不仅仅是四川省通信管理局和东软,还有几个关键的参与方,比如成都市大数据中心(成都网管中心)建设的成都市政务云。

  摸索真正的原因

  我倾向于认为东软没有说谎,但可能隐瞒了一部分真相。原因是日志系统还在,东软的谎言太容易被戳穿了。

  核酸采集系统必须部署在政务云上,所以核酸采集系统的连接日志、防火墙日志、数据库日志都在政务云上。东软就算想动,能骗得过天府软件园的十万程序员吗?

  其实在东软的声明中,已经暗中指出了责任方,见下图

  四川省交通管理局无罪。他们的核心目标是证明自己已经完成了自己的职责,只要老百姓不骂通信运营商和主管部门就行。

  因此,在公告中,四川省通信管理局列出了通信应急保障人员的具体人数和应急保障工作内容,并承诺移动通信绝对不会出现问题。

  事实上,当核酸采集系统中断时,成都排队的人就应该看某一个字母,该看某个语气的就应该读某个语气。这已经说明移动通信网络没有问题。

  手机通过4G/5G网络连接到接入服务器这一段明显是畅通的,所以问题只能出在接入服务器到数据库服务器这一阶段——这部分由成都政务云来保障。

  成都市政云在电子政务外网提供网络服务,包括外网DMZ区域的负载均衡、应用服务器、防火墙、外网数据库服务器之间的网络。

  

" />

  如上图,只有左侧红框内的网络,即智能手机上网业务,由通信管理局负责;而右侧红框内,政务外网的网络、安全设备和服务器均由成都政务云管理。

  政务外网是相对于政务专网和政务内网而言的。它不在公共网络上。可以理解为政府部门内网中距离公网最近的网络。政务外网通过防火墙分为外部DMZ区和内部安全区。我们只能正常访问政务外网DMZ区的特定IP和端口。核酸采集系统一般部署在政务外网,只有接口服务器放在DMZ区,可以自由访问。

  请不要看到“政务外网”三个字,就认为政务外网可以像门户网站一样随便访问。事实上,政务外网的安全措施一点也不低。例如限制频繁IP登录、抵御DDoS攻击等都是防火墙的标准操作。

  那我们再看看这张截图。有关部门呼吁市民将手机调成飞行模式,不要占用基站信号信道。他们还提到,在一些区县试行时,效果不错。这是一个非常有价值的线索。

  其实让大家开启飞行模式并不是基站信号通道不足的问题。一个社区只有2000到3000人。现在无论是5G还是应急通信车,都能有效保障居民的移动通信;政务外网防火墙的瞬时流量不会触发网络安全机制。

  因为我们在使用手机4G/5G上网时,手机终端不可能获取到公网IPv4地址,而只能获取到运营商分配的内网地址172.xxx。一批内网地址可能只有一个公网地址。网络IP作为出口,也可以打开查看手机在公网的真实IP。如果一个地区有几千人同时使用移动终端访问一个网站,在网站服务器端看到的很可能是某个联通/移动IP在短时间内出现了不同的包头. 文件,访问了数千次。

  网络安全配置问题

  应对这种场景对于互联网公司来说是一样的,但是对于政务网来说,情况就大不一样了——大家也看到了西北工业大学被美网攻击的事件——政务网和政务网之间公共网络 有严格的安全策略来阻止黑客入侵。

  政务外网DMZ区(非军事区)与政务外网之间设有防火墙、入侵检测、入侵防御等设备,并进行了严格的安全服务配置。比如防DDoS攻击会突然出现几千个IP访问时,直接让访问的IP下线;例如,反爬虫机制会限制一定时间内同一IP的访问次数。

  成都有多少人在用这个系统?成都有2000万人口。如果计划在一天内(16小时内)完成筛查,那么一小时内需要采样125万人。按每个采样站120人(2人)每小时估算,至少需要20800人;为了让大白穿上防护服,连续工作16个小时,还得安排轮班,所以需要一支4万人的一线核酸采样队伍。系统刚推出时,可能有 40,000 人尝试登录。

  每个采样站按每小时120个采样人员的标准(2个采样人员)计算采样人员数量,计算公式为:核酸采样人员数量(单位:人)=人口÷360;采用10合1混合采样检测技术 是的,检测能力的衡量公式为:核酸检测能力(单位:管/天)=人口÷10×2;如果采用20合1混合采样检测技术,检测能力的衡量公式为:核酸检测能力(单位:管/天)天)=人口÷20×2。

  ——来源:2022年关于印发区域新型冠状病毒核酸检测机构实施指南(第三版)的通知[2]

  东软的系统于9月2日上线,出现响应延迟和卡顿的情况。可能是前端负载均衡服务器数量配置不足,4万多人的流量高峰同时涌入。会不断刷新,导致http请求不断堆积;也可能是用于负载均衡的云主机没有配置反亲和性,几台云主机在同一台物理机上,导致虚拟机IO不足,最后导致请求丢失。

  成都新冠指挥部回应称,“9月2日17时30分左右,全市核酸检测系统低估短时超大并发,导致系统卡顿。故障发生后,我们第一时间组织专业技术团队与承包商一起排查原因并积极修复,系统在增加多台服务器和优化关键参数设置后逐渐恢复,但仍存在不确定性,我们正在努力解决。

  这表明9月2日服务中断的原因是前端负载均衡服务器或后端应用服务器数量不足;另外,关键参数的优化显示,之前他们的部分参数配置错误。

  对于9月3日13:00出现的问题,东软公告称是网络故障,恢复网络连接后,14:00左右系统恢复运行。这个熟悉的问题很可能是由于防火墙配置了 DDoS 保护。面对几万个极其相似的请求,直接判断为DDoS攻击,然后阻断网络请求。

  也有可能是防火墙或其他安全设备配置了反爬虫,限制同一IP的访问次数。当某个IP重复访问接口服务器达到一定次数后,该IP会自动封禁一段时间,比如1小时。但采样者使用的是移动网络,很可能某个区域内有数百人使用同一个IP连接接口服务器,所以反爬虫机制很快就被触发了。

  别问我为什么知道,因为这种事情在江苏发生过,我是有经验的。

  

" />

  但如果说全怪成都政务云,那就太欺负大数据局和成都政务云了。毕竟,这个涉及上千万人排队测试的关键信息系统在上线之前,必须经过试运行,完成链式管理。路压测试,双轨并行一段时间,确保服务稳定可用再上线。

  每个城市的政务云架构大同小异,但每个城市的安全策略配置可能完全不同。东软已在17个省份、120多个城市部署了核酸采集系统应用,这并不意味着换一个2000万人口的城市就可以轻松拿下。

  面对4万采样器用户和2000万待采样居民,新上线的东软全场景病原体监测系统敢于跳过全链路压测直接上线,随即开始支持全城筛查. 要求也太超乎常理了,难免被现实打脸。

  东软作为软件系统的供应商和实施方,负责向成都政务云提出服务器和网络环境需求,并在成都政务云提供的政务外网云主机上安装应用系统和数据库。系统调试完成后,东软应根据政务外网要求完成安全检测、压力测试和系统加固工作。待系统服务稳定后,核酸采集系统方可正式上线。

  如果东软的系统在上线前已经通过压力测试,那么这次系统服务中断100%是东软的错。强行上线,他当然有问题。

  成都政务云作为服务器、网络基础设施、安全设备的提供商,简单的提供虚拟机、负载均衡、防火墙,开放几个端口,没有和东软商量清楚潜在的卡点,也没有告诉东软安全政策如何配置好了,肯定有问题。

  关键是无论是东软还是成都政务云,有没有提前跟总部领导说明不检测就上线的风险?如果根本没有提及,那么东软和成都政务云应该承担100%的责任;如果风险情况已经以文件的形式传给了总部,那么责任就在总部。

  单一来源采购

  看看东软和成都政务云的几个招标,我们可以发现他们喜欢使用单一来源采购。

  1、成都市卫生信息中心于2022年5月31日紧急使用单一来源向东软采购本系统,链接在此:成都卫生信息中心全场景疫情病原体检测信息系统[3]。然后在四川省采购中心和成都采购中心的网站上都找不到该系统的单一来源采购价格公示。不知道有没有读者发现。

  2、成都政务云也采用单一来源采购方式,采购新华三云、浪潮云、曙光云作为政务云。政务外网应该部署新华三云,政务云分别部署浪潮云和曙光云。内联网和政府专用网络。

  不明白为什么私有云平台是大街小巷随处可见的东西,为什么一定要单一采购。1.45亿元,成都市政云,单源宣传:曙光云、新华三云、浪潮云_腾讯新闻[4]

  3、成都政务云的微软操作系统也是通过单一来源采购方式,直接从成都代理商处采购微软的操作系统和数据库。成都市大数据中心(成都网管中心)2022年成都市政务云服务采购项目-关于微软操作系统和数据库服务采购实行单一来源采购的公告-

  摩天轮[5]

  与公开招标相比,单一来源采购总是需要领导承担一点疑虑。可以看出,每个人都勇于担当,敢于担当,就像下图中站在凳子上拿着手机的疫情防控人员一样。但是谁该为这次特别重大的网络与信息安全事件负责呢?

  解决方案:房山智能云站群是如何进行推广展示的?

  智慧云房山站群是如何推广展示的?理解这个问题,我们可以看看智能云房山站群的推广形式、自动更新原理和软文采集机制。

  智能房山站群系统,最多可一键生成、批量管理各城市3000个分站。每个城市分站可以有一个独立的域名。每个子站点都是一个完整的站点,可以有自己的子站点域名、站点主页面、产品、公司介绍等。

  智能云站群将以何种形式展现?

  

" />

  独立显示站点。里面的所有链接都可以显示在子站的子页面上,除了一些需要数据录入的动态链接,如会员注册、留言板等,可以重定向回主站进行操作。

  智能云站群自动更新会不会消耗主站流量?

  云站群同步数据时,分站房山服务器会抓取源站整个站点的数据,而不是只抓几个页面,所以不建议频繁手动同步。如果是配额空间,每个月都限流量,那么流量可能不够用。

  

" />

  软文采集采用什么机制?

  软文采集分为自动采集和手动采集。自动采集是指定时任务根据产品属性采集并发布每日采集对应的软文数量。手动采集是指点击智能采集实时抓取内容,然后编辑发布。

  由于目前新闻采集源有限的问题,部分集关键词信息无法获取相关新闻文章信息。本版块建议各客户添加自己的软文采集来源。我司审核通过后,即可按设置进行操作。采集

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线