核心摘要:去年星巴克和麦当劳的宕机事件只是冰山一角。随着企业 IT 生态系统因微服务、SaaS 和 API 而日益纠缠,加上即将到来的 Agentic AI(AI 自主智能体)浪潮,单一组件的故障可能瞬间引爆系统性灾难。CIO 必须重新定义“韧性”,从追求完美运行转向确保“最小可行业务(MVB)”。

还记得去年 11 月星巴克和麦当劳的那次大规模服务中断吗?或者 2024 年那次让航班停飞的网络安全更新?
这些灾难揭示了一个残酷的现实:我们的 IT 系统已经从“复杂”变成了“脆弱”。
如果说疫情期间为了维持业务运转而引入的数十种新应用是复杂的“第一乐章”,那么即将来临的 Agentic AI(自主智能体)将奏响更危险的“第二乐章”。
德勤和 IDC 的专家指出,企业实际上已经将复杂性制度化了。
过度连接:从本地到云端,从微服务到 SaaS,API 调用和端点数量呈指数级增长。
连锁反应:以前一个组件坏了只是局部问题,现在通过互联系统,任何一个微小的故障都能被无限放大,像病毒一样瞬间瘫痪整个业务。
在这个即使是亚马逊云服务也可能宕机的时代,追求 100% 的在线率是不现实的。CIO 的首要任务是定义并保护最小可行业务(Minimum Viable Business, MVB)。
什么是你的 MVB?对于航空公司,是航班预订系统;对于医院,是电子病历(EHR)。
策略:分割关键平台。像前 MultiCare CIO Bradd Busick 那样,将核心系统(如 EHR)与一般办公 IT 系统物理或逻辑隔离,建立防波堤。

Forrester 分析师建议构建多层次的防御体系:
主动防御(Proactive):也是最重要的一环。定期进行“火灾演习”,压力测试关键系统和员工反应。在合同层面就要求供应商提供韧性保障。
主动监测(Active):从监控(Monitoring)升级为可观测性(Observability)。不要只盯着已知问题,要具备发现“未知的未知”的能力。
被动响应(Reactive):传统的灾备、备份和危机管理计划,这是最后的底线。
Agentic AI 能规模化提升生产力,也能规模化地摧毁组织。去年一个 AI 编码工具误删整个数据库的案例就是警钟。当 AI 开始自主行动,风险将被成倍放大。
结语
在这个没有 100% 安全的世界里,CIO 的目标不是完美,而是“足够好”。通过降低不必要的复杂性、增加关键环节的冗余,并打破技术与业务之间的隔离墙,我们才能在下一次多米诺骨牌倒下时,护住那块最核心的业务基石。
摘要:由于 IT 相互依赖的广泛性,在服务中断中维持最低可行业务变得越来越具有挑战性。人工智能很快将加剧复杂性,带来更大风险。

去年 11 月,星巴克、麦当劳及许多大型品牌的数字服务因数据库错误而瘫痪。2024 年,一项网络安全更新导致航班停飞、手术取消以及数千项其他服务中断。
如今,IT 相关灾难都有了自己的“年度回顾”。而明天,Agentic AI(AI 自主智能体)系统的日益普及将加剧复杂性并带来更大风险。
由公有云和私有云、边缘网络、以及配备 GPU 和专用硬件的所谓“AI 工厂”支持着这些新兴工作负载——每一个都是复杂网络中的环节,任何组件宕机时都可能危及业务韧性。
“随着技术领导者展望未来,问题在于如何构建能够在人工智能要求的规模、速度和复杂性下茁壮成长的基础设施,”德勤综合研究中心助理经理 Iram Parveen 指出。
好消息是,IT 领导者可以专注于控制他们能控制的部分,采取措施降低广泛 IT 依赖的风险——也许,甚至可能避免灾难。但首先,让我们回顾一下组织是如何变得如此被复杂性笼罩的。
数字服务经历了艰难的几年,但没人应该感到惊讶。
在 COVID-19 疫情期间,组织为了维护全球分布式团队的业务生产力,急于采用数十种新的应用和服务——无论是本地部署还是云端——从而推高了复杂性。
这反过来加深了客户与其服务提供商之间的相互依赖,API 调用和端点数量超过了大多数组织的业务支持范围。从本地部署到云端,从微服务到 SaaS,故障点繁多且不断增加。
Frazier Healthcare Partners 的 AI、数据与技术负责人、前 MultiCare Health System 首席信息官 Bradd Busick 表示,对于 CIO 而言,风险特征已从数据中心正常运行时间 (uptime)转向了生态系统脆弱性。
换句话说:IDC 分析师 Frank Dickson 表示,企业实际上已经将复杂性制度化了。“将复杂性引入互联系统后,以前可能只导致单一系统问题的因素,现在可以通过所有系统进行复制和扩散,”他补充道。
在大多数组织不断增加应用和服务的当下——尤其是在人工智能的诱惑无法忽视的情况下——IT 领导者该如何应对?在日益复杂化的环境中,IT 韧性的应对手册是什么?
总体而言,CIO 必须将网络安全、业务连续性和架构融合为一个假设会失败并围绕其进行设计的企业学科,Busick 说。
IT 领导者必须利用这些元素来运营他们的最小可行业务 (MVB)。MVB 的定义因行业而异,但对于航空公司来说,这包括确保其航班预订系统始终对客户可用。
“如果终端用户无法查看电子邮件,那就是个问题,”IDC 的 Dickson 说,“但如果航空公司不能飞他们的飞机,那他们的生意就完了。”
IT 领导者在实际操作中是如何做到这一点的?该方法必须是多层次的,包含三类保护:主动 (Proactive)、活跃 (Active) 和被动 (Reactive)。
Forrester Research 首席分析师 Brent Ellis 表示,主动措施是关键,这包括技术架构选择和旨在提升生产环境中技术韧性态势的合同方法。这些可能包括“火灾演习”,对员工和关键系统进行压力测试,以应对停机、网络安全事件和自然灾害。
Busick 表示,他将关键平台(如电子健康记录 (EHR) 系统、药物和监控系统)从一般企业 IT 系统中分割出来,以防范停机或网络攻击的波及。
IT 领导者自然拥有丰富的技术工具来辅助这些工作。
其中一套工具包括可观测性 (Observability),这是一种旨在通过日志、指标和追踪等遥测数据,深入了解 IT 系统健康状况和性能的软件工具集。过去的方法主要是监控已知问题,而可观测性使 IT 人员能够查询系统行为,在新问题对环境产生不利影响之前发现和调试它们。
活跃措施涵盖日常运营以及用于监控和管理业务技术的服务。经典的被动措施包括备份、灾难恢复基础设施、故障转移和高可用性环境、事件计划以及危机管理实践。
Ellis 表示,这些领域中有些可能会重叠,但最终建立系统层面的韧性,而非仅仅在组件或服务层面,才是关键。随着技术环境的变化,韧性也必须受到考验。
“从组织层面来看,企业必须打破技术实施与业务之间的壁垒,”Ellis 说,“因为在这一点上,技术就是业务,技术韧性就是业务韧性。”
这些最佳实践旨在保护核心及辅助业务运营免受系统性故障、网络安全攻击及其他风险,都是 IT 韧性箭囊中的关键利箭。随着组织对 AI 工作负载消耗的增加,这些方法将变得更加重要。
虽然大多数组织尚未大规模推出 Agentic AI(AI 自主智能体),但当这项技术主流化时,它将指数级增加业务风险。毕竟,虽然 Agentic 系统可以提升生产力,但它们也可能“大规模毁掉整个组织”,Dickson 引用了去年一个 AI 编码工具误删整个数据库的事件说道。
无论是 IT 领导者保护 Agentic 系统,还是物理或虚拟供应链,都没有 100% 的解决方案。尽管大家都在谈论培养人才、技术和流程,组织仍然受制于其供应商、工具以及传统的人为错误。
“这不是关于完美;这是关于足够好 (Good),”Dickson 说,“我们如何降低复杂度,增加冗余性,又如何让这些系统变得更好?”