首席信息官们对CrowdStrike宕机的反应以及他们应该吸取的教训-福建信息主管（CIO）网

首席信息官们对CrowdStrike宕机的反应以及他们应该吸取的教训

作者：mittrchina 来源：CIOCDO 发布时间：2024年08月07日点击数：

来自多个行业的IT领导者讨论了他们团队的实际工作，以及他们为提高响应计划和能力而获得的早期成果。

图源：GORODENKOFF（图片上传者，可以译为用户GORODENKOFF，或者GORODENKOFF） / SHUTTERSTOCK

Mike Mainiero（迈克·迈尼耶罗）在7月19日凌晨2点左右被其事故响应团队唤醒。Catholic Health（Catholic Health Services of Long Island 是位于美国纽约长岛的一家健康服务机构。‌该机构全资收购了斯特林外科中心，‌这笔交易扩大了其在该地区的门诊眼科和胃肠外科手术服务。此外，其‌还计划部署由ElectrifAi公司生产的未经测试的人工智能产品，‌以减轻急诊病房处理病患的压力。‌）的IT系统及其合作伙伴的系统出现故障，其中一家放射学供应商是首批遇到技术困难的供应商之一。

这家位于长岛的医疗保健系统拥有近16，000名员工，支持六家急症护理医院、三家疗养院、一个家庭健康服务中心、一个临终关怀中心和一个医生诊所网络提供支持。Catholic Health的高级副总裁兼CDIO（Chief Information and Digital Officer，首席信息和数字官）的Mainiero（迈尼耶罗）表示，该机构成立了一个分诊团队，负责召集IT人员，并建立网络安全和其他事件的指挥中心。

他说：“我们需要立即召集团队，首先尝试了解发生了什么，然后进行分流、沟通和缓解。”他补充说，要员们很快意识到这是一个一级优先事件。“显然，当医院里发生任何事情时，人们都会出大事。”

和Mainiero（迈尼耶罗）一样，许多首席信息官在7月19日惊觉，他们的组织由于网络安全公司CrowdStrike（是一家提供网络安全产品和服务以阻止违规行为的公司。它提供跨端点、云工作负载、身份和数据、威胁情报、托管安全服务、IT运营管理、威胁搜索、零信任身份保护和日志管理的云交付保护。CrowdStrike为全球客户提供服务，致力于帮助客户发现攻击即将到来时的征兆，并在漏洞出现前采取措施。公司成立于2011年，总部位于美国德克萨斯州奥斯汀市。）的软件更新故障而遭遇了宕机。全球数百万台运行微软Windows（Microsoft Windows是美国微软公司以图形用户界面为基础研发的操作系统，主要运用于计算机、智能手机等设备。共有普通版本、服务器版本/Windows Server、手机版本/Windows Phone等、嵌入式本/Windows CE等各子系列，是全球应用最广泛的操作系统之一。）的计算机崩溃，显示“蓝屏死机”错误消息。

然后，Mainiero（迈尼耶罗）开始向最高管理层发送消息，告知他们情况，并让他们了解到指挥中心已经建立。

Mainiero（迈尼耶罗）说，Catholic Health收到了CrowdStrike的通知，其中包含了有关补救措施的信息，这些补救措施必须手动应用于数百台服务器。随后，对患者护理环境中的台式机和工作站进行了修复。

指挥中心向所有医疗系统设施的运营负责人提供接触点更新。他说：“我们能够减轻这种情况，所以我们不必取消任何手术或预约，他们的设施仍然能够为患者提供护理，工作人员会在纸上做笔记。到当天下午5点，所有关键问题都得到了缓解。”

Mainiero（迈尼耶罗）指出，如果停摆发生在白天，影响将会更大。“在医院里，你会不想把病人转移到另一个环境中，我们能够避免所有的转移。”他说，“所以这肯定会影响到最终用户，而非病人。由于我们的快速反应，我们能够减轻伤害。”

一、全体人员响应

虽然并非所有危及生命的情况，但这种情况在全球各地的组织中都发生了。对于许多首席信息官来说，做好准备，制定灾难恢复和业务连续性计划，并与利益相关者不断沟通，可以减轻停摆的影响。

虽然不是所有危及生命的情况，但同样的情况在全球各地的组织中都发生过。对于许多首席信息官来说，做好准备、制定灾难恢复和业务连续性计划，以及与利益相关者的持续沟通，减少了中断的影响。

“我们能够在三个小时内让所有服务器重新运行起来，并且……到那个星期五下午，所有笔记本电脑也都重新运行了，”全国性注册会计师事务所The Bonadio Group（是一家提供会计、‌税务和咨询服务的前50名全国排名CPA公司。它不仅在纽约州外是最大的独立会计、‌商业咨询和金融服务提供商之一，‌而且已经从最初的两个人发展到现在拥有超过1，000名员工。‌）的首席信息官John Roman（约翰·罗曼）估计，每1100台设备中大约有300台受到了影响。“我们能够做到这一点，是因为我们实施了事件响应计划。大多数事件响应计划都是在发生某种恶意软件事件时制定的。我们对计划进行了泛化，以考虑任何类型的事件，包括全球范围的疫情。”

一旦部署了事件响应计划，第二步就是呼吁IT部门的每个人实施CrowdStrike为解决问题而创建的脚本，Roman（罗曼）说，他还通过全公司的短信服务、内联网门户和电子邮件与公司领导和所有员工保持不断的沟通。

和Mainiero（迈尼耶罗）一样，Roman（罗曼）说，停摆产生了影响。“如果有什么好消息的话，那就是我们是一家会计师事务所，我们全年无休，不过，我们一年中最繁忙的时候可能是纳税季节。”他说，“如果这发生在3月份，将会对业务产生重大影响，因为我们无法提供税务服务，但因为它发生在夏末，我们能够尽快补救，对业务的影响微乎其微。”

这对stablecoin 2.0 ecosystem management（是指专注于管理和运营稳定币，即‌Stablecoin，‌2.0生态系统的公司。‌稳定币是一种加密货币，‌其价值与某种资产，‌如美元，‌保持固定汇率，‌旨在提供一种价格稳定的数字货币。‌Stablecoin 2.0生态系统指的是第二代稳定币系统的构建和运营，‌这可能包括技术创新、‌去中心化治理、‌用户赋权等特征。‌这样的生态系统管理公司负责维护和扩展稳定币生态，‌确保其稳定运行，‌同时推动创新和用户参与，‌以提供更加全面和高效的金融服务。）公司Black Wallet（是一家提供数字货币钱包服务的公司，‌其服务主要涉及加密货币钱包的管理和使用。‌该公司通过提供安全、‌便捷的数字资产管理解决方案，‌帮助用户存储、‌发送和接收多种加密货币，‌包括比特币、‌以太坊等。‌Black Wallet注重用户隐私和安全，‌采用先进的加密技术保护用户资产，‌同时也提供易于使用的界面，‌使得即使是初学者也能轻松管理自己的数字资产。‌此外，‌该公司还积极参与加密货币社区，‌为用户提供最新的市场信息和交易建议，‌帮助用户更好地理解和利用加密货币。）的影响更为显著。首席信息官Remi Alli（雷米·阿里）将其描述为“对我们的组织来说是一次具有挑战性的经历”，并表示停摆持续了数小时，“在此期间，我们无法访问关键的安全功能，这影响到了我们的服务器和笔记本电脑。”

Alli（阿里）说，如果无法访问CrowdStrike的服务，“我们无法有效地监控和应对潜在威胁，这引发了对我们整体安全态势的担忧。这是一个紧张而具有挑战性的时期，因为我们必须在保持系统完整性的同时，克服停摆带来的限制。”

二、保持冷静是关键

Alli（阿里）做的第一件事是召集事件响应小组评估情况，并制定公司的即时响应计划。Alli（阿里）说：“我们必须确保在解决停摆影响的同时保持业务连续性。”。

沟通至关重要，Alli（阿里）定期向领导层和利益相关者通报情况以及IT正在采取的措施。“在这种情况下很容易感到恐慌，但我们专注于保持透明和冷静，这有助于保持团队脚踏实地，”Alli（阿里）说。

此外，Alli（阿里）说：“缺乏对关键安全见解的访问使我们暂时处于风险之中，但更重要的是，这突显了我们整体安全态势中的漏洞。我们不得不迅速改变一些安全协议，并依赖其他措施，这提醒了我们制定强有力的备份计划和冗余的重要性。”

Mainiero（迈尼耶罗）对此表示赞同，他说，在这种情况下，“你必须扮演一个角色——如果你惊慌失措，你的团队也会惊慌失措，”他说，训练教会了他永远不要提高嗓门。“但我将会应用一种指挥和控制的语气…我可能会坚定[而且]毫不道歉，但总体是和蔼的。你会想要激励人们，因为只要你不颐气指使，他们一般上会为你做得更多。”

三、经验教训和其他收获

应付账款软件供应商AvidXchange（AvidXchange Holdings, Inc.是一家为中间市场企业及其供应商提供AP自动化软件和支付解决方案的领先供应商。该公司基于SaaS的端到端软件和支付平台实现了AP工作流程的数字化和自动化，‌为7,000多家企业‌提供了服务。‌AvidXchange利用其深厚的专业知识，‌专门构建了一个强大的双向网络，‌连接买家和供应商，‌推动数字化转型，‌提高AP工作流程的效率和准确性，‌加速支付，‌实现对关键分析的洞察，‌并降低买家的运营成本。‌AvidXchange成立于2000年，‌位于美国夏洛特市，‌创始人为MichaelPraeger。）的部分面向客户的产品组合受到停摆的影响，但首席信息官Angelic Gibson（安吉利·吉布森）表示，IT部门能够在不到24小时内完全恢复服务。她将这归功于“过度准备”，并在停摆时制定了场景计划。

Gibson（吉布森）说：“我们按照我们的业务中断计划行事。采取措施进行积极准备，并建立正确的沟通渠道，使我们能够在内部工作以恢复系统运行的同时，快速有效地与所有必要方进行沟通。”

Gibson（吉布森）说，首席信息官们必须公开且频繁地保持沟通，同时要对策略有信心并提供保证，确保他们有冗余，并准备好动员资源，以便IT能够迅速行动。

Catholic Health的Mainiero（迈尼耶罗）强调，有一个预先构建的沟通计划至关重要，包括人员名单和一个平台，让你能够创建预设的主题行和文本。同样重要的是拥有一个系统，让你能够“自动召集你的团队进行集合”。

他还建议随时联系供应商。尽管Mainiero（迈尼耶罗）直接与CrowdStrike打交道，但他表示，鉴于Catholic Health与数百家供应商合作，通知所有受停摆影响的人非常重要。

和其他组织一样，the Bonadio Group的Roman（罗曼）说，一个组织的事故响应计划需要考虑到任何重大事件，而不仅仅是勒索软件或恶意软件攻击。此外，仅仅制定一个计划是不够的；你必须践行它。

Roman（罗曼）说：“我们每年都会进行桌面演习，并在此基础上更新我们的事件应对计划。”

根据你的IT部门的规模，如果有整个公司的停摆，它应该随时待命。

“然后是沟通，沟通，再沟通，”Roman（罗曼）说，“人们想知道在整个停摆期间发生了什么。我经常旅行，最令人恼火的一件事可能是无缘无故的航班取消。但当你知道原因时，你还是会感觉不太好……但你可能比一无所知时感觉好一点。”

Black Wallet的Alli（阿里）从停摆中吸取了一些关键的教训。首先是“为意外事件做好准备。不管供应商看起来多么可靠，都要有应急计划。”Alli（阿里）说，“测试我们的事件响应协议以应对包括供应商停摆在内的各种情况是当务之急。”

另一个是加强内部沟通，不仅在IT内部，而且在整个组织内部。Alli（阿里）说，这可以帮助缓解恐慌，并确保每个人都意见一致。

停摆还促使我们“深入研究我们的第三方依赖关系，不仅审查CrowdStrike，还有所有关键供应商。了解我们对他们的依赖，可以更积极地管理这些关系，并更好地进行风险评估。”

Alli（阿里）说，这还加强了Black Wallet在组织内部培养强大的网络安全习惯的必要性。

恢复后，Black Wallet“进行了彻底的事后分析，不仅分析哪里出了问题，还分析我们是如何反应的，”Alli（阿里）说，“这种反思性实践将有助于我们改进自己的流程。”

总体来说，虽然CrowdStrike宕机是一次艰难的经历，但它也提醒了组织“在我们的网络安全方法中，弹性和适应性的重要性，”Alli（阿里）说，“恢复过程不仅涉及技术修复，还包括加强我们组织在安全和风险管理方面的文化。”

四、保持忠诚

Roman（罗曼）和Mainiero（迈尼耶罗）都强调，停摆不会影响他们与CrowdStrike的关系。

尽管该公司受到了批评，但“CrowdStrike是一家了不起的公司，我们看看供应商的工程文化，”Mainiero（迈尼耶罗）说，“他们犯了一个错误。”他补充说，医疗系统必须为任何可能出现的故障做好准备。

注意到CrowdStrike被一些人指责在行业中拥有垄断地位，Mainiero（迈尼耶罗）说，这一事件是一个质量保证问题。随着系统和集成变得更加复杂和精密，他说，行业应该团结起来讨论如何处理质量保证问题。

Roman（罗曼）也表达了同样的观点，他说：“我们都是人。我们都会犯错误。如果你倾向放弃CrowdStrike……你就必须考虑放弃任何基于云的提供商。到目前为止，CrowdStrike一直运作良好，并阻止了病毒和恶意软件的爆发，他们的支持非常出色，我们仍然致力于与他们保持关系。”

作者：Esther Shein（埃斯特·谢恩）

Esther Shein（埃斯特·谢恩）是一名记者，在纸媒和网络写作方面具有丰富的写作和编辑经验，专注于业务和技术，以及教育和普罗大众。

译者：宝蓝

上一篇：企业正准备建立自己的大语言模型（LLM）…

下一篇：新西兰废弃物管理公司首席数字官（CDO）…