
在微软最新的《人工智能基础设施状况》报告中,一个残酷的现实被揭开:在受访的1500多名商业领袖中,超过一半的人承认,他们没有合适的基础设施来支持想要运行的AI工作负载。
许多企业在POC(概念验证)阶段顺风顺水,一旦试图扩展到生产环境,项目便轰然倒塌。
Colt Technology Services的首席AI官Frank Miller打了一个极其形象的比喻:
“在遗留架构上运行AI,就像通过拨号网络流式传输4K视频。你可以欺骗自己它会起作用,但现实会给你狠狠一击。”
你投入了巨额资金,不能毁在基建上。以下是构建现代化AI架构的四大关键支柱。
对于企业IT来说,高可用性和灾备是基本功。但AI——尤其是GPU集群训练和推理——对网络提出了完全不同的要求。
IDC副总裁Daniel Saroff警告:“这不仅是买几块显卡的问题。你必须综合考虑GPU基础设施、带宽、网络可用性以及应用间的连接性。”
你需要关注的硬核技术:
低延迟、高带宽:AI流量具有突发性和大规模并行的特点。
新型网络硬件:SmartNICs(智能网卡)、InfiniBand或RoCE(融合以太网RDMA)。
智能路由:采用智能、自适应路由和动态多路径I/O,确保一条拥塞路径不会中断整个AI管道。
VAST Data的Jason Hammons指出,随着AI智能体(Agents)的兴起,其复杂的I/O模式会让系统更加脆弱,对存储和网络的要求甚至比单纯的模型训练更高。
云服务商Leaseweb的CEO Richard Copeland指出,很多企业的AI架构就像“鲁布·戈德堡机械”——设计得过度复杂,迂回曲折。
工具、代理、队列、存储层……每一层都在增加延迟和脆弱性。数据在到达模型前必须在这些堆栈中上下移动,每一次跳转都是成本。
如何简化?
扁平化架构:去除冗余的中间件。
计算靠近数据:将工作负载转移到数据已经存在的环境中,解决“数据引力”问题。
弹性设计:将弹性视为设计原则,而不是保险策略。
传统的数据库拼凑已经跟不上AI对延迟和治理的要求。SingleStore的CTO Nadeem Asghar认为,统一的智能平面将取代碎片化的堆栈。
图数据库提供商Memgraph的CEO Dominik Tomicevic则提出了一个极具参考价值的架构思路:
将“智能层”(模型和代理)与“知识层”(事实和数据)分开。
知识图谱/GraphRAG:建立一个强类型的知识存储,像关键任务数据库一样进行备份和监控。
细粒度访问控制:在图级别进行控制,确保存储层永远不会泄露底层不允许的数据,即使LLM对此“感到好奇”。
如何让AI从一系列零散的实验变成企业的一种核心能力?答案是平台化。
Domino Data Lab的Jarrod Vawdrey指出,每家公司都面临同样的痛点:“你需要AI来竞争,但你所有的实际业务都跑在比iPhone还老的传统系统上。”
你需要建立统一的平台工作流,引入“前置部署工程师”作为翻译者,将现代AI能力与陈旧的ERP系统集成。同时,必须引入FinOps(财务运营)。
IDC预测,到2027年,组织将意识到他们低估了AI基础设施成本近三分之一。 API管理、实时成本监控不再是可选项,而是生存必修课。
正确地进行IT工作,才能正确地进行AI工作。
如果你的架构是为弹性而构建的,那么你已经成功了一半。但剩下一半,需要你果断地抛弃“拨号上网”时代的旧思维,为AI重塑一个高带宽、低延迟、智能化的新底座。
原文:为人工智能提供弹性和连续性
你投入了太多,以至于不能把基础弄错。以下是为人工智能正确构建架构、基础设施和网络时的样子。

图源:Shutterstock / kung_tom
基础设施可能是许多组织在将人工智能从POC/Proof - of - Concept(概念验证)扩展到生产阶段时报告失败的原因。在Microsoft(微软)最新的《State of AI Infrastructure/人工智能基础设施状况》报告中,几乎每家公司都谈到了扩展和实现人工智能运营所面临的挑战,来自不同行业和地区的 1500多名商业领袖中,超过一半的人表示他们没有合适的基础设施来支持他们想要运行的人工智能工作负载——这一比例在其他调查中也有体现。
在构建、部署和运营人工智能模型时,你会发现自己的基础设施到底有多现代化,以及它在哪些方面让你失望。数字基础设施公司Colt Technology Services的首席人工智能和平台官Frank Miller(弗兰克·米勒)说:“在遗留架构上运行人工智能就像通过拨号网络流式传输4K视频,你可以说服自己它会起作用,但现实却大不相同。”
如果你不想仅仅为了让投入大量资金的人工智能保持可用而疲于应对各种问题,你就需要治理和现代架构。“这意味着用混合云原生设计取代僵化的传统系统,这些设计可以为人工智能工作负载进行扩展,”他补充道,“高带宽、低延迟的连接确保快速的数据访问;冗余和自动故障转移提供连续性;带有加密的零信任安全保护敏感的人工智能流程。增加可观测性和预测性监控有助于在问题干扰运营之前预测到它们,从而创建一个具有弹性、安全且为人工智能创新做好准备的基础设施。”
IDC集团副总裁Daniel Saroff(丹尼尔·萨罗夫)认为,可以把这看作是技术债务,因为大多数企业都低估了人工智能对连接性和计算能力的压力。孤立的基础设施无法满足人工智能的需求,首席信息官们需要以更综合的方式考虑这些及其他因素,以使人工智能取得成功。“你必须考虑你的GPU/Graphics Processing Unit(图形处理单元)基础设施、带宽、网络可用性以及各个应用程序之间的连接性,”他说,“如果你没有为高事务性、GPU密集型环境设置好环境,你就会遇到问题,”Saroff(萨罗夫)警告说,“而且基础设施非常分散意味着你需要提取数据并集成多个不同的系统,尤其是当你开始考虑智能体时。”
训练、RAG/Retrieval-Augmented Generation(检索增强生成)和智能体工作流程假定数据不仅是正确的,而且始终是可访问的,并且不存在瓶颈。他补充说,像MCP这样的通用API(应用程序编程接口)技术正在成为一种标准化数据访问的方式,而传统系统可能不容易支持这一点。
一、精于GPU
对于企业IT来说,弹性并不是一个新的概念。高可用性、故障转移和灾难恢复是普遍要求,以至于微软在其Azure Copilot中添加的前六个智能体之一就是专门为了提高云的弹性。在本地,企业有几十年的基础设施经验可以借鉴,但这很少包括对人工智能至关重要的昂贵GPU和其他加速器,无论你是进行训练还是运行推理。
无论是需要用正确的驱动程序和操作符自动配置GPU Kubernetes集群所增加的复杂性,还是构建更难维护的专用人工智能基础设施,以及需要针对具有不熟悉且快速变化模式的分布式流量的高速网络,它们的要求都更高。
VAST Data的国际系统工程副总裁Jason Hammons(杰森·哈蒙斯)说:“构建GPU基础设施真的很困难。在很大程度上,这是因为其大规模并行的性质,也因为其组件。它们就是要复杂得多。”
人工智能需要具有低延迟且可预测的高带宽网络,以传输大量的数据有效负载以及少量的推理和API调用有效负载。这可能意味着企业网络的至少一部分看起来更像云数据中心中的网络,可能包括SmartNICs(智能网络接口卡)、InfiniBand(无限带宽)或RoCE/RDMA over Converged Ethernet(融合以太网 RDMA),以及像SONiC这样的可编程网络操作系统,还有与人工智能数据中心和云API的稳定直接连接。
Hammons(哈蒙斯)表示,如果企业内部到GPU集群本身有高速网络,就可以提供良好的人工智能体验,但构建代理在存储和网络方面的要求更高。“当你开始扩展代理工作负载时,由于它们表现出的复杂I/O模式,保持这些系统正常运行的复杂性质可能会加剧,”他说。
在人工智能中,智能路由和底层优化更为重要,负载平衡也比以往任何时候都更关键,这需要智能、自适应的路由以及动态、多路径I/O,这样一条拥塞或不健康的路径就不会中断人工智能管道。你必须给予关键的人工智能流量足够高的优先级,以支持你的工作负载,同时又不会妨碍像ERP/Enterprise Resource Planning(企业资源规划)和支付服务,或VoIP(IP语音)和视频会议等关键生产系统。
软件开发公司Fastly的首席技术官Artur Bergman(阿图尔·伯格曼)说:“人工智能工作流程更加基于网络。你必须在多台机器上进行扩展,这与对网络或延迟要求没有那么高的企业工作负载相比,是一个相当大的转变。”
这不再仅仅是避免关键故障或快速从故障中恢复的问题。你还必须设计系统以实现优雅降级,这样在出现故障时它们仍然能够有足够好的性能表现。
同样,具有弹性的人工智能需要的不仅仅是你习惯用于任何生产工作负载的同步复制。Hammons(哈蒙斯)说:“很多这些系统需要在站点之间进行负载平衡,并在多个域之间具有冗余,”这种复杂性甚至让成熟的组织都转向像CoreWeave这样的供应商,以及他所说的人工智能原生新云。
采用混合API的方法几乎是普遍存在的。无论你是将工作负载扩展到人工智能数据中心,在超大规模GPU基础设施和云数据库上构建,还是调用云API,你都需要考虑这些连接。这意味着更新传统网络,并考虑多个连接提供商以实现冗余。
如果你在边缘进行人工智能应用,特别是在像工厂和零售这样的近实时环境中,你还必须考虑分布式可靠性,以及需要什么样的连接性和延迟来进行推理或跨站点更新本地模型以确保一致性。
Bergman(伯格曼)说:“跨云通信只会不断增长。Fastly的客户已经在那里保存训练集数据,以便他们可以在多个云中使用它。‘我们可以将其引入所有云,而无需支付云出口费用’。”
他建议,未来代表员工进行操作时,对代理访问和权限进行身份验证可能会增加复杂性。这不需要底层网络更改,但在应用层,他预计为了以安全、可靠的方式扩展这些功能,会发生很多演变。
二、简化你的架构
云服务提供商Leaseweb的首席执行官Richard Copeland(理查德·科普兰)表示,如今大多数人工智能的采用都是在从未为这种波动性水平设计的架构上进行的。“每个人都想要人工智能的魔力,但一旦他们进行扩展,就会面临数据引力、延迟预算和存储经济性的混乱现实,”他补充道,“团队试图保护端点、扩展管道、添加GPU并增加带宽,但如果其基础没有特意设计为具有弹性,那么这些都无法阻止运营混乱。”
他指出,几乎可以肯定的是,你需要更多的存储来支持人工智能,而不仅仅是用于训练集。“你要存储嵌入向量、向量索引、模型检查点、代理日志、合成数据集,而且代理本身每秒都在产生新的数据,”他说。所以花时间计算出你实际需要存储多少数据、存储在哪里以及存储多长时间。
但为连续性而设计意味着将弹性视为一个设计原则,而不是一份保险政策。Copeland(科普兰)说,保持领先的组织正在简化架构,将计算推向更接近数据的位置,自动化生命周期策略,并构建人工智能管道可以在无人紧张的情况下进行故障转移的环境。
更扁平的架构还可以减少技术债务,但大多数企业已经积累了太多层的工具、代理、队列、存储层和检查点,以至于他们的人工智能管道就像Rube Goldberg machines(鲁布·戈德堡机械,是一种被设计得过度复杂的机械组合,以迂回曲折的方法去完成一些其实非常简单的工作)一样。“数据在到达需要它的模型之前必须在这个堆栈中上下移动,每一次跳转都会增加延迟、脆弱性和运营开销,”他说。
找出延迟来自哪里,你可能会发现一些不需要的系统。“去除冗余的中间件,自动化数据放置和生命周期策略,并将工作负载转移到数据已经存在的环境中,”他继续说道。整合存储层,将GPU工作负载转移到更简单的区域或本地环境中,并调整网络路径,应该可以使系统表现得可预测而不是混乱。
三、设计数据架构
要使人工智能实现扩展,几乎肯定意味着要认真审视你的数据架构。每个数据库都增加了人工智能相关的功能。lakehouses(数据湖仓)承诺可以将运营数据和分析结合在一起,而不会影响生产工作负载的SLAs/Service - Level Agreements(服务级别协议)。或者你可以进一步使用像Azure Fabric这样的数据平台,它引入流数据和时间序列数据以用于人工智能应用程序。
如果你已经尝试过不同的方法,你可能需要重新构建数据层,以摆脱碎片化微服务的运营混乱,在这种情况下,不同的向量存储、图数据库和文档孤岛之间的每一次数据交接都会引入延迟和治理差距。太多的故障点使得很难提供高可用性保证。
云人工智能数据库平台SingleStore的首席产品和技术官Nadeem Asghar(纳迪姆·阿斯加尔)说:“传统的数据库、管道和定制向量存储的拼凑根本无法跟上人工智能对延迟、治理和规模的要求。统一的智能平面将取代如今碎片化的堆栈,将数据、计算和推理整合到一个单一的实时系统中。”
图数据库提供商Memgraph的首席执行官Dominik Tomicevic(多米尼克·托米切维奇)建议,将构成智能层的模型和代理与知识层分开,在知识层中,事实、数据和信息存在,并且需要在各个区域之间进行同步或近同步复制。
尽管人工智能基础设施意味着要处理数据和网络密集型的分布式系统,但他认为这是一个可以解决的工程问题。“一个具有弹性的人工智能堆栈始于一个强类型的知识图谱或GraphRAG存储,它可以像任何其他关键任务数据库一样进行集群、复制、备份、监控和访问控制,”他说。
这为你提供了分别扩展搜索和数据节点的灵活性,甚至可以在未来更改模型和供应商。这也意味着安全性和弹性是相辅相成的。
“在图级别进行细粒度的访问控制意味着检索层永远不会泄露底层数据库不允许的数据,即使LLM(大语言模型)对此感到好奇,”他补充说,“在此基础上,你还专门为人工智能制定可观测性和服务级别目标,比如GraphRAG查询的延迟和错误预算、检索结果的质量指标以及模型调用的成本预算。”
四、建立平台
从原型到能够实现人工智能价值的生产部署的压力意味着单个项目需要有可遵循的政策和最佳实践,而不是必须自己做出所有正确的决策,这样他们就可以专注于选择模型等技术问题,而不是构建基础设施。
如果这听起来像是平台工程的原则,那是因为这样你才能使人工智能成为一种能力,而不是一系列实验。IDC的Saroff(萨罗夫)认为,你已经完成的统一平台工作流程为你提供了流程、API、数据和技术的支柱。你不是一遍又一遍地解决同样的问题,而是交付包括GPU和加速器、多种计算类型、模型的可观测性、API调用和应用程序,以及成本管理和治理的基础设施。
所有这些系统都需要将数据输入到具有近实时反馈的可观测性和优化工具中。你不能等到收到每月的云账单时才发现已经超出预算,或者等到出现停机时才意识到依赖的API返回错误并且需要多次重试。API管理是跟踪使用情况和优化成本的关键。
而且你需要所有这些与现有的基础设施和工作流程集成。Domino Data Lab的现场首席数据科学家Jarrod Vawdrey(贾罗德·沃德雷)认为:“每家公司都有同样的问题。你需要人工智能来竞争,但你所有的实际业务都在早于iPhone出现的传统基础设施和软件上运行。”
他将前置部署工程师定义为在期望的业务成果、传统系统和现代人工智能能力之间应对复杂性的“翻译者”。“他们可以驾驭大型语言模型,并将其与20年来没有人想碰的ERP系统集成。”
集成将是新的,但基本原则不是。技术研究和咨询公司CCS Insight的企业研究主管Bola Rotibi(博拉·罗蒂比)表示,正确地进行IT工作才能让你正确地进行人工智能工作。
好消息是,你可能已经完成了一些繁重的工作,例如,为云使用精心设计的框架,因为人工智能应用程序将继承这种冗余、异常处理和混沌工程。“如果你的架构是为弹性而构建的,那么很可能你已经开始考虑支持人工智能所需的所有事情,”她说。
当然,所有这一切都将花费资金。IDC预测,到2027年,组织将意识到他们低估了人工智能基础设施成本近三分之一,并将开始对其应用FinOps(是一种将财务管理原则和实践应用于云计算和其他技术服务的方法,旨在优化成本、提高效率和实现业务价值)。
但Rotibi(罗蒂比)建议,真正的弹性依赖于理解业务和运营背景,从而创造一个更综合、协作的环境。虽然首席信息官们通常难以证明基础设施投资的合理性,但将其与提供可靠和安全的人工智能联系起来,使IT能够继续提供与业务优先级一致的价值,而不是被视为成本中心。
作者:Mary Branscombe(玛丽·布兰斯科姆)
Mary Branscombe(玛丽·布兰斯科姆)是一名自由记者,三十多年来一直报道科技领域的新闻,撰写的内容涵盖编程语言、早期版本的Windows和Office办公软件、网络的兴起,以及消费电子产品和家庭娱乐等各个方面。
译者:宝蓝