你可能每天都在惊叹 AI 的生成速度,但你有没有想过,支撑这些 AI 运转的数据中心正在经历怎样的一场“变形记”?

过去的数据中心,就像一座有护城河的城堡,防守主要靠外围的防火墙。但在 AI 时代,这种老掉牙的防守方式已经完全行不通了。为什么?
AI 加速器(比如 GPU)成了黑客眼中的“香饽饽”。它们内部结构复杂,如果固件被黑客篡改,不仅会导致模型训练失败,还可能泄露机密数据!
训练数据的海洋里潜藏暗礁。如今,AI 训练需要海量数据,如果黑客在其中混入“有毒”数据,你的 AI 可能会学偏,甚至崩溃!
AI 模型本身就是无价之宝。偷走了模型,就等于偷走了公司的核心机密。
因此,现代的 AI 数据中心正在进行一场深刻的变革:在追求极致算力的同时,打造坚不可摧的“零信任”网络安全防御体系。
那么,未来的 AI 数据中心会长什么样?
用 AI 打败 AI:智能防御系统将主动出击,不仅能实时预测攻击,还能自动隔离受感染的设备。
机密计算成为标配:即使是云平台供应商或管理员,也无法偷窥正在处理的数据。
IT 与 OT(运营技术)安全大融合:黑客甚至可能通过攻击大楼的管理系统,让数据中心过热烧毁。因此,物理安全与网络安全必须紧密结合。
总而言之,AI 数据中心的现代化,是一场算力与安全相互依存、共同进化的双向奔赴。没有安全这台强大的引擎,再快的算力也只是海市蜃楼!
原文:AI数据中心正在成为堡垒——而这正是其意义所在
AI 数据中心不仅速度在变快,同时也在遭受各种攻击。这意味着如今的现代化不仅依赖于强大的计算能力,更离不开坚实的安全性。

图源:Steve Douglas
十年前,在 NVIDIA 开发者大会(GPU 技术会议)上,NVIDIA 首席执行官黄仁勋就曾断言:“在这个时代,软件将自我编写,机器将自主学习。很快,数千亿台设备将被赋予智能,AI 将彻底改变每一个行业。”
因此,AI 被广泛认为是 21 世纪的智能引擎。而这台强大的引擎,亟需一种全新的“工厂”来驱动——这就是现代化的 AI 数据中心。
如今,我们正在见证 AI 数据中心的现代化进程,这无疑是一场双轨竞赛:在追求前所未有的计算规模和极致速度的同时,必须构筑起坚不可摧的网络安全防线。这种计算加速与网络安全的深度融合,正在为 AI 数据中心的现代化开创一种全新的范式。
2024 年,美国国土安全部部长 Alejandro Mayorkas 明确指出:“参与开发 AI 的组织和个人,他们今天做出的选择,将深刻影响这项技术在未来对我们关键基础设施产生的作用。”的确,网络威胁的形势日益复杂且不断演变。我们的关键基础设施,尤其是那些为 AI 未来提供源源动力的数据中心,已经成为攻守势力眼中的首选目标。因此,现代化的 AI 数据中心必须兼具“最强大的引擎”和“最坚固的堡垒”的双重属性。
本文将从过去、现在和未来的全景视角,深入探讨网络安全在 AI 数据中心现代化进程中扮演的关键角色。
传统的数据中心在历史上普遍采用基于边界防御的安全模型。这就像是“城堡与护城河”的防御模式。在这种模式下,安全防护主要集中在外部边界,且处于一种静态存在状态,具有以下典型特征:
强化边界:过去,数据中心的网络防御控制主要集中在网络边缘,例如部署防火墙、入侵检测系统和虚拟专用网络(VPN)。企业内部网络通常被默认认为是可信的,而任何从外部试图跨越边界进入的人或设备则默认被视为不可信。
侧重静态数据加密:加密措施主要应用于存储在数据库或物理磁带上的敏感数据。而在数据中心内部,服务器之间的数据传输(尤其是东西向的内网流量)通常是不加密的。这基于一个假设:内部网络是安全的。然而,这种假设存在致命漏洞,一旦恶意攻击者成功渗透企业网络,他们就可以在内部网络中畅通无阻地进行横向移动。
手动合规与审计:过去,网络安全检查通常是一种依赖清单的手动操作过程。它往往被安排在系统正式上线生产环境前的最后一步,涉及人工的目视检查和逐项勾选。这种方式不仅导致合规与审计标准不一致,更严重拖慢了现代数字化转型所追求的敏捷开发步伐。
数据中心向加速计算的转型,改变的不仅仅是性能。它呈爆炸性地扩大了攻击面,并迫切要求网络安全领域进行一场与数据中心现代化同步的平行革命。
因此,遵循“永不信任,始终验证”核心原则的新型安全模型——零信任网络架构(Zero Trust Architecture)——获得了行业的广泛认可。零信任网络架构彻底摒弃了对传统网络周界的依赖,它强制要求对所有访问请求,无论其来源何处,都必须在授予权限前进行严格的验证。这波安全框架的深刻转变,与 AI 数据中心现代化的步伐紧密契合,具体体现在以下几个方面:
AI 加速器沦为新的威胁向量:GPU、TPU 等其他 AI 加速器是极其复杂的系统级芯片。它们拥有独立的固件、驱动程序和内存空间,而这些都成为网络攻击者眼中的高价值目标。例如,如果 GPU 固件被攻破,攻击者就可以大规模毒害模型训练过程、窃取专有模型权重,或者为自己创建一个持久的后门。因此,当今的网络安全防护必须深入到芯片(硅片)级别,要求每一个 AI 加速器都具备硬件信任根(Hardware Root of Trust)和安全启动机制。
软件供应链成为攻击标靶:现代 AI 开发高度依赖于错综复杂的软件供应链,包括各种 AI 框架(如 PyTorch、TensorFlow)、代码库、容器以及预训练模型等。这要求必须实施更严格的软件成分分析、制品签名验证,以及建立经过严格审查的 AI 工作负载容器注册表。SolarWinds 供应链攻击事件虽然并非直接针对 AI 领域,但它无疑为整个行业敲响了警钟。
从“数据湖”到 AI 训练数据的“汪洋大海”:AI 训练数据往往规模庞大、结构松散,且来源于无数不同的渠道。我们几年前常说的“数据湖”概念,现在已经远远不足以形容其规模,我们需要的是一片“数据海洋”。AI 训练数据是发动“中毒攻击(Poisoning Attacks)”的主要载体。攻击者恶意构建的训练样本,能够让模型产生严重偏见,甚至直接破坏模型。因此,AI 训练数据的安全防护已经从简单的访问控制,进化为包括数据血缘追踪、完整性校验等一系列复杂手段,旨在在那些“有毒”数据破坏昂贵的训练模型之前,及时发现并将其清除。
2022 年 11 月 30 日,OpenAI 向公众发布了 ChatGPT,这款产品在短短两个月内就吸引了 1 亿用户。随之而来的生成式 AI 狂潮,将 AI 数据中心推上了“皇冠上的明珠”的宝座,同时也吸引了国家级黑客和犯罪团伙的密切关注。
正如著名网络安全专家 Bruce Schneier 所言:“安全是一个持续的过程,而不是一个静态的产品。”对于 AI 数据中心而言,这个安全过程现在必须与 AI 工作负载本身保持相同的速度,进行持续的集成和度量。那么,当前生成式 AI 与安全的融合究竟体现在哪里?
AI 模型成为亟待保护的新型知识产权(IP):AI 数据中心的核心资产不再仅仅是海量的数据本身,更是那些正在训练和已经训练成熟的 AI 模型。昂贵的 AI 模型被盗窃或泄露,已经成为首当其冲的威胁。正因如此,现代 AI 数据中心实施了极为严苛的安全治理措施,例如严格的访问控制、详细记录模型交互日志,以及采用水印等技术来追踪泄露的模型。这些都是防范针对 AI 特定的网络攻击(如提示注入、数据泄露和恶意使用)的重要屏障。
身份认证成为新的防御边界:随着零信任网络架构在 AI 数据企业现代化进程中的不断深入,与 AI 相关的非人类身份(Non-human identities)将呈现出爆炸式增长。每一个 AI 服务和 AI 工作负载,都必须拥有一个可以通过加密手段进行验证的强大身份标识。
“以魔法打败魔法”:用 AI 对抗 AI:安全运营中心(SOC)作为现代安全防御的核心枢纽,正在积极整合 AI 技术,以期实现用 AI 来防御 AI 攻击。以 AI 数据中心为例,如果 GPU 突然表现出与权重提取攻击相吻合的异常内存访问模式,或者 AI 模型的训练模式严重偏离了其预期的标准数据访问轨迹,这些异常行为都将立即触发安全告警,提醒网络安全专家:有恶意攻击者正企图毒害我们的 AI 服务。
AI 数据中心安全的未来,将是一个由 AI 深度增强的时代,其安全体系在设计之初就将具备高度的智能和韧性。以下是对未来十年发展趋势的几项预测:
AI 防御 AI 攻击:下一代安全防御将由运行在 AI 数据中心内部的自主、智能的防御 AI 系统主导。这些防御系统能够自适应地配置防火墙策略,通过实时分析全球范围内的威胁情报和本地配置数据,动态预测潜在的攻击向量。不仅如此,它们还能自动在 AI 数据中心内部启动事件响应机制,例如,迅速隔离已被攻破的 GPU。
机密计算(Confidential Computing)将成为新标准:对“使用中”的数据进行加密仍然是必不可少的,但它将从以往仅针对敏感工作负载的小众安全实践,彻底转变为所有 AI 训练和 AI 推理过程中的默认标准。机密计算通过在 CPU/GPU 中建立基于硬件的“可信执行环境(TEE)”来隔离数据,实现对内存中数据的加密。这意味着,即使是云服务提供商或系统管理员,也无法窥探这些数据。这成功填补了过去静态数据加密和传输中数据加密所遗留的安全漏洞,全方位保护了正在使用中的数据。英特尔的 SGX 和 AMD 的 SEV 等芯片巨头研发的关键技术,成功创建了这些“安全飞地(Secure Enclaves)”,使得敏感的 AI 计算能够在云端或边缘环境中安全运行。
IT(信息技术)与 OT (运营技术)安全的深度融合:AI 数据中心对电力和冷却系统日益增长的庞大需求,使得数据中心的物理设施也成为了网络攻击的新目标。例如,如果黑客成功攻击了 AI 数据中心的楼宇管理系统(BMS),可能导致系统过热,从而直接摧毁数据中心内部价值数百万美元的 AI 机架。因此,我们迫切需要一种更加集成的安全编排方案,将 IT 安全与 OT 安全,以及自动化技术和智能技术无缝整合在一起。
传统BMS | AI赋能的BMS |
|---|---|
人工设定阈值,被动响应 | AI学习历史数据,主动预测并优化 |
仅能监测设备状态 | 能预测设备故障,提前安排维护 |
固定运行策略 | 根据AI分析动态调整最优策略 |
事后分析能耗 | 实时优化能耗,实现"预测性节能" |
表1:传统BMS与AI赋能的BMS的区别
AI 数据中心的现代化之旅,本质上是一个相互依存、共同进化的故事——这是一场日益增长的计算能力和能效需求,与日益复杂、严峻的网络安全挑战之间的持久较量。在这场较量中,两者缺一不可。
AI 数据中心的现代化,需要构建一个极其精妙的生态系统。这个生态系统必须足够开放,以激发 AI 开发的无限创造力;同时,它又必须足够封闭,能够借助 AI 的力量,有效抵御那些极其狡猾的网络攻击者。这种自适应的防御体系,要求我们将不断演进的网络安全理念,深深地嵌入到 AI 模型、数据、系统,甚至是最底层的硅片之中。
因为,安全,正是驱动 AI 数据中心迈向现代化智能时代的强化引擎!