与其纠结于“背锅人”是谁,我们更应该把精力放在未来应该如何未雨绸缪,避免类似情况的发生。
所谓“好事不出门,坏事传千里”,身为一名在京工作的陕西人民,看到自己的家乡西安最近总是以各种负面姿态出现在热搜榜上,心里难免不是滋味儿。
疫情的突然爆发让所有人都猝不及防,在抗疫过程中各种问题也随之暴露,#一码通崩了#是目前西安遇到的诸多问题中比较典型、影响面也比较广的一个,而且短短两个星期内竟然发生了两次。
放在以前我们可能很难想象,一个数字化系统的故障竟然可以引起如此大规模的社会混乱。
在一码通崩溃的当天,大量市民无法乘坐地铁和出租车,进不了公司和商厦,甚至有家都不能回,一时间怨声载道——我们同学、同乡群里各种问候祖宗的“优美陕西话”此起彼伏,让人不禁感慨中文的“表意丰富”和“博大精深”。
这事儿也引起了领导层的高度重视,这不,据工信部官网4日发布,2021年12月30日至31日,工业和信息化部总工程师韩夏到陕西省通信管理局开展疫情防控工作调研。
韩夏强调,西安“一码通”要加强技术改进和网络扩容,确保平台安全稳定运行。韩夏甚至还专程来到西安“一码通”工作专班,了解核酸采样系统应急处置措施,要求系统再优化,细节再完善,确保不出现拥塞宕机现象。
到了5日上午,“西安大数据资源管理局局长被停职”突然曝出,事件再度升级,“一码通崩了的锅究竟该由谁来背”的话题也引发了网友们的广泛议论。
身为一名在京工作家乡又在陕西的科技圈媒体人,觉得有必要趁此来聊聊这个事儿。
首先,“西安一码通”为什么会崩?关于问题的原因,目前可谓是众说纷纭,笔者也咨询了一些业内专家,在没有官方详细的调查报告出来之前,大家给了以下几种猜测:
当“一码通”系统第一次崩溃的时候,原西安市大数据资源管理局局长刘军在出席新闻发布会时对此做出回应称,近日因“一码通”使用频率加大,对网络与平台造成较大压力,“12月20日早7:40分左右,西安‘一码通 ’用户访问量激增,每秒访问量达到以往峰值的10倍以上,造成网络拥塞,致使包括 ‘一码通’在内的部分应用系统无法正常使用。经紧急协调资源并采取扩容、限流等应急措施,平台已逐步恢复使用,但因访问量仍很大,尚可能有部分卡顿现象。”
然而,对于该回应,部分专家和网友并不完全买账。网友分析道——西安“一码通”其实上线已经很长时间了,大部分时候还是很稳定的。西安上班高峰期,也就是扫码高峰期应该在8点至9点之间,但“一码通”崩溃是从7点多开始的,当时大部分人都还没出门,更谈不上扫一码通了。网络应该不可能在那个时候拥堵,更不可能因为拥堵造成系统崩溃。
某不愿意透露姓名的通信专家则向笔者直截了当地吐槽:“这个和网络的关系应该不大,大家用的都是4G,难道西安的4G就比其他地方的4G慢?大家平时上网打游戏看视频都没有问题,扫个码网络就承受不了了?更多的可能是和服务器、计算能力或大数据相关。”
西安电子科技大学网络与信息安全学院教授杨超则在接受媒体采访时表示,“一码通”此次出现长时间、大范围不能扫码的情况,可能是系统不够健壮,同时扫码人数的激增导致系统的压力变大了,软硬件系统负荷大了以后,会出现各种意想不到的问题,不一定是系统本身计算能力不行。”
这个从工信部总工韩夏在陕西调研时强调的话中就可以一窥端倪。韩夏表示:“要切实加强网络和信息安全,优化应急预案,强化安全防护,排查安全隐患,防止出现网络安全事故,出现问题要及时响应,快速修复。”
物联网智库在采访时,也有多位专家提到了安全问题的可能性。比如,以前电商平台会经常出现被黑产薅羊毛的情况,类似的情形也会在一码通亮码的场景下发生,比如有的用户手机上安装了有缺陷的软件,那该类软件就会不停重复访问行为,或者越是亮不了码,用户越是不停的重试,如果系统本身没有安全机制,那就识别不了这种异常访问。
有来自某IT大厂的专家猜测,可能是反向代理服务器崩了。反向代理服务器位于用户与目标服务器之间,但是对于用户而言,反向代理服务器就相当于目标服务器,即用户直接访问反向代理服务器就可以获得目标服务器的资源。同时,用户不需要知道目标服务器的地址,也无须在用户端作任何设定。反向代理服务器通常可用来作为Web加速,即使用反向代理作为Web服务器的前置机来降低网络和服务器的负载,提高访问效率,反向代理服务器崩了自然系统也就出问题了。
所谓“容灾”,是指灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断地运行。“备份”则是指为防止系统出现操作失误或系统故障导致数据丢失,而将全系统或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程,是数据高可用的最后一道防线,目的是为了系统数据崩溃时能够恢复数据。
很容易理解,容灾和备份其实都是系统未雨绸缪的措施,如果容灾和备份机制做得足够好的话,是完全可以在短时间内恢复到昨天或者前天的状态的。如果容灾和备份机制存在问题,那出了问题就没有办法及时得到解决。
从系统反反复复的表现看,西安一码通虽有一定的备份机制,但是备份机制明显不够完善。
谁应该为之“背锅”?
出了问题的时候,除了分析问题的原因,还有一个大家都很关心的点在于“谁来为此负责”?
为了找到真正的“背锅侠”,媒体们已经把“西安一码通”涉及的机构和单位扒了个底儿朝天。
相关资料显示,该数字化系统由西安市大数据资源管理局牵头,中国电信西安分公司开发部署,于2020年2月25日在全市范围内推广使用。参与西安“一码通”安全工作的还有启明、安恒、思安、东软、阿里云、美林数据等多家公司,从网络、应用、数据等多个层面为其提供安全防护。
根据公众号“云头条”的部分整理:
2020年3月1日,中国电信股份有限公司西安分公司发布《疫情联控平台一码通项目》单一来源采购公示,单一来源采购供应商为“西安东软系统集成有限公司”。
2020年7月13日,西安电信发布《“一码通”应用采买短信服务项目》中选人公示,阿里巴巴云计算(北京)有限公司中标。
2021年10月25日,西安电信发布《2021年“一码通”服务专席热线业务外包项目》单一来源采购公示,单一来源采购供应商为中通服旗下“陕西省通信服务有限公司中意科技分公司”。
2020年12月10日,西安电信发布《西安“一码通”安全平台项目》单一来源采购公示,单一来源采购供应商为“杭州安恒信息技术股份有限公司 ”。
2020年12月10日,西安电信发布《西安“一码通”大数据可视化分析项目》单一来源采购公示,单一来源采购供应商为“中译语通科技(陕西)有限公司 ”。
......
网友们对此评论:“哦,我知道原因了,原来是单一来源采购的锅!”
事情发生后,立即有网友涌到相关企业的官方渠道下方留言询问。
对此,安恒信息在互动平台表示,公司在西安一码通业务中负责部分应用层安全防护及合规产品,以应对可能存在的网络攻击和运维风险。自服务一码通以来,公司长期安排技术人员值守,重点时期进行24小时不间断的监测和保障,到目前为止,并无黑客攻击导致业务问题的迹象。
上游新闻记者也曾多次致电西安一码通的开发公司美林数据以及运营维护公司西安东软,但两家公司的联系电话均处于可以拨通、无人接听状态。去年12月20日,西安一码通首次出现故障之后,记者就拨打了美林数据的公司和西安东软的公司电话,当时接听热线的工作人员对这一事件进行了回应。美林数据的工作人员强调他们仅负责一码通的后台和赋码算法,不负责运营和维护,因此崩溃与他们无关。西安东软则不愿就一码通崩溃原因做过多分析。
总结一下大家的回复,“不知道,不清楚,不是我的锅。”
北京数洋智慧科技有限公司CEO朱瑾鹏则对此表示:“说到责任这个话题,更应该强调每个建设环节、每个参与者都应该有相应的认责机制,才能做到各环节层层把关,层层防护,主动担当。”
以后如何“未雨绸缪”?
无论是寻找问题的根源,还是找到所谓的责任人,本意都是为了防患未然,避免再次发生。
在北京数洋智慧科技有限公司CEO朱瑾鹏看来,采取一些有效的手段和措施,杜绝类似问题的发生才是关键所在,而相关措施则可以分为事前、事中和事后三个方面。
首先,在事前,我们可以通过良好的架构设计、有效的方案预审、评审等方式去避免系统设计缺陷,另外,系统还需要进行充分的压力与仿真测试。朱瑾鹏表示,“一码通这个应用虽然数据接口比较复杂,但是业务逻辑并不是很复杂,数据量容易测算,民众在高峰期间访问的行为模式也可以通过大数据算法仿真模拟,所以说应该比较容易模拟类似的场景,当前的测试与数据算法技术是完全具备支撑条件的。但从结果来看显然是当初压力与仿真测试没有做好,没有预料到会出现现在这么一个极端负荷的情况。”
接着,在事中,应通过技术、算法和主动运维手段去实时监控关键指标,做到主动监控,甚至主动预警,一旦流量超过阈值或前兆预警指标出现应主动触发排障机制,通过启动备用线路、增加处理能力甚至系统降速等手段确保系统不宕机。
最后,在事后,系统遇到故障怎么抢修?从目前看前期预案考虑的不够完善,技术、管理与运维保障机制准备不足,才会出现抢修慢以及屡次发生的情况
结语
文章的最后,想再强调一下,虽然西安此次应对疫情出现了各种混乱和诸多问题,但也希望大家也能多给这座城市一点儿耐心和信心。
也由衷的祝愿我家乡的亲人和朋友们早日恢复平静的生活。
西安,加油~
最后的最后,对愿意为本文提供支持的5位业内专家表示由衷的感谢~
参考资料:
1.《西安一码通,两个星期两次崩溃,这到底为了什么?》,锋利传媒法治视野
2.《不堪重负!西安“一码通”半个月内再次故障,细数崩溃的N种可能》,智领云科技
3.《#西安一码通#又崩了。。。谁之责 ?》,云头条
4.《西安“一码通”系统崩溃背后:多家公司为其提供安全防护》,红星新闻