“疯狂”的支出、计算密集型的工作量以及由一家硬件制造商主导的市场,使得IT 领导者开始寻求新技术和方法来控制生成式人工智能的高成本。利用较小的、特定领域的模型来完成较小范围的任务是CIO 控制生成式 AI 成本的另一种方法。
来源:PRESSMASTER / SHUTTERSTOCK
【睿观:CIO们面临的GenAI高成本挑战,并探讨了多种可能的解决方案和策略,以期在享受新技术带来的好处的同时控制成本支出。主要内容包括:
1.GenAI实验的早期账单远高于预期,一些CIO对此感到震惊。行业正经历类似于云计算早期"疯狂消费"的情况。
2.Nvidia在GPU市场占据主导地位,导致GenAI工作负载的高额成本。一些CIO正在寻求GPU即服务等替代方案来控制成本。
3.CIO们可以考虑选择性部署GenAI、与供应商协商基于输出质量的价格模式、利用开源模型等方式来降低成本。
4.使用较小的领域特定模型,而非大型语言模型,也有助于控制成本。
5.GenAI的高能耗也是一个需要考虑的成本因素。云服务可能是更节能的选择。
6.一些CIO依赖现有的云供应商企业许可协议来获得GenAI产品的优惠价格。】
生成式人工智能实验的早期账单即将出炉,许多首席信息官发现这些账单比他们预想的要高得多——有些人只能怪自己。
AWS商务平台副总裁詹姆斯·格林菲尔德 (James Greenfield) 在 6 月份圣地亚哥举行的 FinOps X 会议上表示:“我们正在重新回到云计算早期的疯狂消费模式。”
FinOps基金会执行董事 JR Storment 也表达了同样的担忧。
他说:“这很让人回想起云计算发展的早期,当时云计算在支出方面是‘免费武器’,每个人都试图在各地实施云计算——现在是genAI——但几乎没有成本控制或治理。”
为了解决这个问题,并期待进一步应用该技术,一些首席信息官正在探索一系列技术和方法来降低生成式人工智能实验和应用的成本。
根据IDC 的《生成式 AI 定价模型:战略购买指南》,生成式 AI 的定价格局因“技术堆栈之间的相互依赖性”而变得复杂。但是,由于训练和调整生成式 AI 模型所需的核心基础设施“主要由一家公司提供:Nvidia ” ,因此无法避免对生成式 AI 工作负载征收高额溢价,IDC 指出。
根据《IDC市场概览:生成式 AI 基础模型》,随着客户等待更充足的 GPU 供应,许多客户都在寻求 AI 专用服务提供商以及用于托管 genAI 工作负载的公有云和私有云产品,包括 Nvidia 的云、AWS Trainium 和 Infertia 以及 Google Tensor 处理器单元。IDC 指出,首席信息官也在向戴尔 Project Helix 或 HPE GreenLake 等 OEM 寻求 AI 支持。
AI服务提供商有时也被称为 AI 超大规模提供商,他们提供 GPU 即服务,使企业能够按需购买 GPU 能力以限制支出。这些 AI 服务提供商包括 CoreWeave、Equinix、Digital Realty 和 Paperspace,以及 GPU 领导者 Nvidia,以及某种程度上的云超大规模提供商 Microsoft、Google 和 AWS。
IBM、Oracle、戴尔和惠普企业也提供GPU 即服务。
鉴于Nvidia 在 GPU 市场占据压倒性主导地位,CIO 们现在正在寻找 GPUaaS 替代方案,而不是等待其他顶级芯片公司赶上来。谷歌合作伙伴和 CIO 咨询公司 CloudBench 的前任 CIO 兼现任首席执行官 Tom Richer 指出,这种按需方法还大大降低了购买处理器的前期成本,并可以根据工作量进行扩展或缩减。
Richer表示:“为了满足 CIO 的需求,供应商将提供各种选项,例如具有不同 GPU 配置的虚拟机实例和折扣计算能力的现货实例。”他补充说,容器化的 AI 框架还可以帮助 IT 领导者确保高效的资源利用率。“通过了解他们的选择并利用 GPU 即服务,CIO 可以优化 genAI 硬件成本并保持创新的处理能力。”
Richer还认为,基于云的 GPU 访问将帮助企业释放 IT 资源以用于其他关键任务,并“有可能简化 genAI 项目的开发流程”。
一、成本方程
但FinOps的 Storment 认为,专注于 GPUaaS 和其他基于云的生成式 AI 解决方案的 CIO在成本控制方面可能会面临类似的问题。
“我们已经看到人工智能的成本确实开始对云预算产生负面影响,”他说。“最终,许多CIO 仍不清楚他们从人工智能实验中获得的价值,因此我们看到人工智能的成本对许多人来说呈螺旋式上升,并引发了人们对如何通过将 FinOps 中已经普遍存在的成本可见性原则应用于其他云成本来实现‘人工智能的 FinOps’ 的兴趣。”
波士顿红袜队和芬威体育管理公司的首席技术官布莱恩·希尔德表示,为了控制成本,首席信息官应该有选择地将genAI 解决方案部署到业务的关键领域,并实施周到的 genAI 评估流程,以防止重叠和扩散。
Shield还希望根据输出质量协商成本。“我提议根据用例向 genAI 供应商付费。换句话说,如果工具表现良好,也就是说值得投入生产,我会付给你 X。对于准确率低于 90% 的解决方案,如果仍有可行的用例,我会付给你 Y,”Shield 说。“如果你能改进你的工具,我会把你转到收入更高的组。所有供应商都犹豫不决,但我仍在与其他供应商交谈。”
德勤美国常驻首席信息官、前先锋集团全球首席信息官John Marcante 认为,市场创新也将为首席信息官提供帮助。
“生成式AI 的核心在于 GPU。这些芯片正在快速发展,以满足实时推理和训练的需求。随着我们深入研究这一创新周期,预计 GPU 将变得更加高效、强大和专业化,以应对 AI 工作负载,”他说。
Marcante表示,GPU 即服务提供商和平台也开始为营销、财务、法律和客户流程提供交钥匙解决方案,以使企业能够专注于其核心竞争力。
他指出,一些组织将构建自己的生成式AI 平台,并根据其独特需求进行量身定制。“这种方法确保了所有权和定制化,”他说,并指出,以当今企业与云提供商合作的方式与AI 提供商合作是另一种方式。“这些模型将包括从租用 GPU 到全面的全栈 AI 服务。”
大型语言模型(LLM)的快速加速、实验和发展也为定制结果和降低成本提供了见解。
例如,Gartner杰出分析师 Bern Elliott 表示,预算有限的 CIO 可以通过使用开源模型(如 OpenAI 和 LLaMA)来降低生成式 AI 成本,这些模型可从各种市场访问并提供多种优势。
“开源是CIO 绝对可以降低成本的一种方式,”他指出,开源模式也是透明的,可以定制。“对许多企业来说,这就是成本所在。如果运营成本低,利润就会更高。”
利用较小的、特定领域的模型来完成较小范围的任务是CIO 控制生成式 AI 成本的另一种方法。
ServiceNow首席数字信息官 Chris Bedi 表示:“如果你看看 GPU,就会发现它们非常昂贵,尤其是当你使用大型语言模型时。每个人都在寻找适合自己的正确答案,因为不使用 genAI 的答案并不在考虑范围内。拥有特定领域的模型有助于控制我们的成本,然后我们就可以把这种好处传递给我们的客户。”
RunPod是面向开发者的 GPU 即服务,对于大学和初创公司来说非常划算。
OpenCV.org 首席执行官兼博士 Satya Mallick 表示,OpenCV University 和一家 AI 咨询公司的学生使用 RunPod 来训练 AI 模型。
“对于像我们这样的小型企业来说,每次只需要使用多个高端GPU 几天到几周的时间,RunPod 的解决方案非常划算,因为我们不需要花费巨额的前期成本来购买 GPU,”Mallick 说道,并指出他的团队也在评估 RunPod 的无服务器产品。
首席信息官们还注意到生成式人工智能应用的巨大能源消耗,这是另一项需要考虑的巨额成本。
“人工智能是计算密集型的,它正在影响全球的数据中心,”Vuori前首席信息官、现任 Schumacher Homes 首席技术官 Bryan Muehlberger 表示。“除非我们在全国范围内解决能源问题,否则这最终将成为一个更大的问题,成本将转嫁给使用这些服务的公司。”Cloudbench 的 Richer
表示,随着人工智能的不断发展,管理硬件成本和最大化处理能力的创新解决方案可能会出现,并补充说,运行强大的GPU 对环境的影响将成为一些组织关注的问题。
Richers表示:“云提供商越来越注重可持续实践,与内部部署硬件相比,利用基于云的 GPU 可以成为更节能的解决方案。然而,对于 CIO 来说,在选择 GPUaaS 解决方案时,仔细评估成本、性能和数据安全之间的权衡至关重要。”
其他CIO 则享受着与微软、谷歌和 AWS 等主要云和 AI 提供商签订的企业许可协议所带来的成本节约优势。
“我们选择MS Copilot 是因为它适用范围广,我们相信它将满足我们大约 80% 的使用情况,”美国本田首席信息官 Bob Brizendine 表示。“这是我们与微软现有许可协议的一部分,使我们能够有效精简成本。其他人可能没有同样的情况。”