
如果英伟达CEO黄仁勋所言非虚——“通用计算时代正走向终结”,那么我们此刻正站在两百年前“马力”向“蒸汽”跃迁的历史关口。
然而,在这场轰轰烈烈的AI算力军备竞赛中,一个隐秘但致命的短板正在暴露:存储。
麦肯锡估算,为跟上AI算力需求,全球需投入7万亿美元。但在疯狂抢购GPU的同时,许多企业却在用“上个时代”的存储系统来喂养“这个时代”的最强大脑。
结果是什么?GPU闲置、训练中断、投资回报率(ROI)雪崩。
传统的存储系统是为数据库和虚拟化设计的,它们习惯了“排队打饭”式的顺序读写。
但AI工作负载完全不同。成千上万个GPU线程像饥饿的野兽,以并行、随机、高吞吐的方式同时轰击存储系统。
这种错配会产生级联效应:
GPU闲置:存储吞吐量跟不上计算速度,昂贵的GPU只能空转等待数据。
成本飙升:训练是一种投资,每一小时的停滞都在推迟价值实现。
模型重训:数据一旦损坏或丢失,往往意味着从头再来,带来巨额的意外成本。
对于大模型训练而言,可靠性(Reliability)不仅仅是一个技术指标,它是生存指标。
Gartner发出严厉警告:“到2026年,组织将放弃60%以上没有得到AI就绪数据支撑的AI项目。”
为什么?因为传统存储依赖的本地RAID或双机热备(HA-pair)架构,只能应对小规模故障。在AI这种海量数据、超大规模并发的场景下,它们显得捉襟见肘。
劣质数据每年已令单家企业损失1290万–1500万美元,管道故障则每小时造成约30万美元的洞察力损失。
要解决这个问题,修修补补已经不够了。AI需要原生高性能、专为AI设计的存储系统。
3.1 架构革新:从RAID到纠删码
现代设计必须利用多级纠删码(Erasure Coding)和无共享架构(Shared-nothing)。即使多个节点同时故障,也能确保数据完整且业务不中断,提供集群范围的容错能力。
3.2 性能与成本的平衡:混合架构
采用闪存+磁盘的混合架构:将高性能数据保留在闪存上,确保GPU“吃得饱”;将不太关键的信息分层到低成本介质上,确保预算“受得了”。
3.3 运营自动化
在脏数据进入AI管道前,通过自动完整性检查发现并隔离;通过定期恢复演练,确保在灾难发生时能迅速回血。
不要有任何误解,高性能存储不仅仅是锦上添花,它是AI基础设施的地基。
如果你的存储系统还停留在“通用计算时代”,那么你的AI项目可能还没起跑就已经输了。在AI时代,没有更快、更可靠的数据系统,再强大的GPU也会闲置。
原文:AI如何重塑计算与存储的根基
AI工作负载正在打破传统的存储方式,如果没有更快、更可靠的数据系统,再强大的GPU也会闲置。

图源:Credit: optimarc/Shutterstock
如果黄仁勋所言非虚——通用计算时代正走向终结——那么我们正在见证一场堪比两百年前“马力”向“蒸汽”跃迁的深刻变革。
这场新革命的核心在于AI和数据基础设施领域的交汇发展:前所未有的计算能力正试图与同样极致的速度、可靠性和规模需求对齐。
AI通过创造史上数据最密集的工作负载,彻底重塑企业基础设施。全球数据中心扩容的天价投资证明了这一点:Meta最新公布的6000亿美元计划只是众多公告之一。今年4月,麦肯锡曾估算“为跟上算力需求”需投入7万亿美元;若AI势头不减,这个数字还可能上调。
这对数据存储带来根本冲击——传统的存储是为像数据库和虚拟化这样的可预测的顺序工作负载而设计的,而AI让成千上万的GPU线程以并行、随机、高吞吐的方式同时轰击系统。
这种性能问题会在基础设施组件之间产生级联效应。当存储无法跟上时,GPU会闲置,训练周期停滞,总体成本上升。每个小时的GPU缺乏都会延迟投资回报,因为训练是一种投资,停滞或低效的周期会推迟价值实现的时间。风险还不止于此:数据一旦损坏或丢失,往往需重训整个模型,这会带来巨额意外成本。影响甚至延伸到推理阶段——推理是变现环节,缓慢或不稳定的数据管道会直接削减AI应用的商业回报。为应对这一问题,传统厂商正在尝试改造现有架构以满足AI需求,但多数设计仍受限于性能与扩展性。
破局之道,始于一条共识:AI需要原生高性能、专为AI设计的存储系统。
一、可靠性101
这些性能压力也暴露出一个更根本的问题——可靠性。大模型训练依赖对数据的不间断访问,任何中断——无论是元数据服务器故障、数据损坏还是其他意外,都会显著影响生产力并损害结果。
事实上,可靠性不仅仅是单一的指标;而是耐久性、可用性和可恢复性的乘积。这些是至关重要的问题,因为保持连续运营和数据完整性的能力不仅仅是技术保障,它决定了AI投资是否真正带来价值。
问题在于,许多传统系统仍然依赖本地RAID或HA-pair架构,这可以防止小规模故障,但在AI规模上却无法应对。相比之下,现代设计利用多级纠删码和无共享架构来提供集群范围的容错能力,即使在多个同时故障的情况下也能确保持续的正常运行时间。
遗留问题的连锁反应是巨大的,Gartner警告称:“到2026年,组织将放弃60%以上没有得到AI就绪数据支撑的AI项目。”更糟糕的是,劣质数据每年已令单家企业损失1290–1500万美元,管道故障则每小时造成约30万美元的洞察力损失和SLA的错过。
二、以AI速度运行的存储
要构建AI系统所需的可靠性,必须从技术和运营架构层面彻底重新思考。例如,弹性能力必须在一开始就内嵌,而不是等应用更迭后再对旧存储产品进行事后添加。
在技术层面,多级纠删码这类现代分布式数据保护机制将取代传统RAID的有限容错能力,提供跨多个节点的保护,即使多个组件同时失效,也能确保数据的完整性。
同时,闪存+磁盘的混合架构通过将高性能数据保留在闪存上,将不太关键的信息分层到成本较低的介质上,兼顾性能与成本。模块化、无共享设计则消除单点故障,只需添加标准服务器节点即可线性扩展性能,无需专有硬件。
运营层面同样关键:例如,自动数据完整性检查可在损坏数据进入AI管道前发现并隔离;定期恢复演练确保恢复过程在AI生产所需的严格时间范围内正常工作。将这些技术层和操作层与治理和合规框架对齐,可以最小化技术和监管风险。
不要有任何误解,这些功能不仅仅是锦上添花,而是设计AI基础设施的基本要素。不可避免的是,AI工作负载和数据集将继续扩展,存储架构必须模块化、厂商中立,才能在无需整体替换的前提下实现容量与性能的平滑升级。
作者:Ken Claffey(肯·克拉菲)
译者:木青 编审:@lex