
【导读】
2025年,AI的狂热正在退潮,取而代之的是董事会的一句灵魂拷问:“我们投了这么多钱,回报到底在哪里?”
如果你还在用“节省了多少工时”来回答这个问题,那么你已经落后了。
Source86、Transformativ等技术先锋的实践告诉我们:AI的真正ROI,不仅仅是效率的提升,更是决策质量、客户体验和组织适应能力的综合体现。
作为睿信咨询顾问,我们为您深度剖析AI价值评估的“新范式”。
洞察一:人机协作的“混合账本”
Wolters Kluwer的内容管理总监Tom Poutasse指出,简单地说“AI做了这个”或“人类做了那个”是不准确的。
未来的ROI计算将不再是零和游戏,而是“混合性能图景”。我们需要标记每一个环节:哪些是机器生成的?哪些是人类验证的?哪些是人类增强的?
洞察二:SaaS经济学的终结
Zuora的Michael Mansard提出了一个震撼的观点:AI打破了IT依赖的SaaS经济模式。
传统软件边际成本为零,但AI的运营成本(推理、Token)是高昂且可变的。这迫使企业从“按席位付费”转向“按结果付费”(例如:每解决一个Case付1.5美元)。
洞察三:软性指标的硬核价值
UserTesting的Michael Domanic强调,“软性ROI”(员工情绪、文化转变)是硬性财务回报的先行指标。当73%的员工觉得工具好用时,这种认知会创造采用的良性循环。
风险一:基线模糊与归因谬误
如果没有清晰的“AI前基线”和受控的A/B测试,你根本无法证明是AI带来了增长,还是仅仅赶上了旺季。
风险二:扩展陷阱(Scale Trap)
Movadex的Salome Mikadze警告:“AI投资回报率几乎从来不会干净利落地扩展。”
为一个团队构建的工具,在没有重新审视假设的情况下被推向全公司,往往会导致灾难性的摩擦。
风险三:总拥有成本(TCO)黑洞
不仅是推理成本。集成、数据标记、护栏干预、模型漂移后的再训练……这些“冰山下的成本”往往被CIO忽略,最终吞噬了所有的纸面利润。
为了帮助您在董事会面前交出一份漂亮的答卷,我们整理了以下可操作的建议:
| 维度 | 关键动作 (Action Item) | 衡量指标 (Metrics) | 战略价值 (Strategic Value) |
| 基线与归因 | 建立“反事实”基线。在推广前进行严格的A/B测试,隔离AI影响。 | 转化率提升、单次合格结果成本、影响链映射。 | 证明价值:确保每一分增长都无可辩驳地归因于AI。 |
| 财务模型 | 重构定价与成本模型。放弃按人头付费,探索基于结果/使用量的定价。 | 经风险调整的ROI = (总收益 - TCO) × 可靠性折扣。 | 控制风险:适应AI的高变动成本结构,避免财务失控。 |
| 混合工作流 | 实施“标记框架”。明确区分机器生成、人工验证和人工增强的环节。 | 自动化率、人工干预率、决策准确性提升。 | 优化协作:展示AI如何“增强”而非“替代”人类,减少抵触。 |
| 全生命周期 | 设定“扩展关卡”。在试点成功后,重新验证目标,不要盲目全员推广。 | 价值实现速度(Time to Value)、模型漂移率、护栏触发率。 | 持续增长:将AI视为有生命的产品,而非一次性项目。 |
| 文化与采用 | 追踪“软性ROI”。关注员工情绪和自我报告的生产力。 | 员工净推荐值(eNPS)、工具使用活跃度、采用率。 | 长期护城河:建立信任,让员工成为AI的倡导者而非阻碍者。 |
AI的ROI计算,不再是一道简单的算术题,而是一场关于信任、流程和文化的变革。
正如StarApple AI的Adrian Dunkley所说:“衡量ROI不仅仅是证明AI有效,而是证明人和AI可以共同取得胜利。”
CIO和CDO们,是时候以此为契机,重塑企业的数字竞争力了。
原文:AI的ROI:如何衡量AI的真正价值
节省的时间和赚取的钱只是故事的一部分。AI的真正ROI(投资回报率)取决于组织的适应、扩展能力以及对它的信任程度。
图源:Rob Schultz / Shutterstock
尽管围绕AI改变商业的潜力备受热议,但许多组织仍难以确定他们的AI实施实际的生效程度。
部分原因在于AI不仅仅是取代一项任务或使一个流程自动化——相反,它改变了工作本身发生的方式,而且通常是以难以量化的方式。衡量这种影响意味着要确定回报的真正含义,以及如何将新形式的数字劳动与传统业务成果联系起来。
“像世界上其他人一样,我们正在边做边摸索,”Source86的高级营销经理Agustina Branz(阿古斯蒂娜·布兰兹)说。
这种试错方法定义了当前关于AI投资回报率的讨论。
为了帮助阐明衡量AI价值的方法,我们与几位技术领导者进行了交谈,了解他们的组织是如何学会在这一领域评估性能的——从与人类工作的简单基准对比,到跟踪文化变革、成本模型以及价值实现的复杂框架。
一、最简单的基准:AI能比你做得更好吗?
所有组织都开始问一个基本问题,这个问题几乎是当今使用的每一个AI指标的基础:与人类相比,AI执行任务的表现如何?对于Source86的Branz(布兰兹)来说,这意味着对AI应用与衡量人类产出相同的标准。
“AI肯定能让工作更快,但更快并不意味着投资回报率,”她说,“我们试图用衡量人类产出的相同方式来衡量它:看它是否能推动像流量、合格潜在客户和转化率这样的实际结果。对我们来说一个有用的KPI(关键绩效指标)是每个合格结果的成本,这基本上意味着获得像我们以前得到的那种实际结果的成本降低了多少。”
关键是要与人类在相同背景下的产出进行比较。“我们试图通过在使用AI的内容和不使用AI的内容之间进行A/B测试来隔离人工智能的影响,”她说。
“例如,在测试AI生成的文案或关键词组时,我们跟踪相同的KPI——流量、参与度和转化率——并将结果与仅由人类产出的结果进行比较。”Branz(布兰兹)解释说,“此外,我们将AI的性能视为一个方向性指标,而不是一个绝对指标。它对优化非常有用,但绝对不是最终的判断标准。”
有机数字营销机构的创始人Marc-Aurele Legoux(马克-奥雷尔·勒古)更是直言不讳。“AI能比人类做得更好吗?如果是,那就很好。如果不是,就没有必要在它上面浪费金钱和精力,”他说,“例如,我们为我的一家豪华旅游客户部署了一个智能体聊天机器人,它通过一次预订额外带来了7万欧元(约合81,252美元)的收入。”
他说,KPI很简单:“潜在客户是来自聊天机器人吗?是的。这个潜在客户转化了吗?是的。谢谢你,AI聊天机器人。我们会在一段固定时间内将AI生成的结果——潜在客户、转化率、预订电话——与人类处理的结果进行比较。如果AI达到或超过了人类的基准,那么它就是成功的。”
但这种基准在理论上虽然简单,在实践中却要困难得多。建立有效的比较、控制外部因素以及将结果完全归因于AI说起来容易做起来难。
二、真金白银:时间、准确性和价值
AI投资回报率最切实的形式涉及时间和生产力。Transformativ的董事总经理John Atalla(约翰·阿塔拉)将其称为“productivity uplift/生产力提升”:“节省的时间和释放的产能”,通过完成一个流程或任务所需的时间来衡量。
但即使是明确的指标也可能无法反映全貌。“在早期项目中,我们发现我们最初的KPI相当狭窄。”他说,“随着交付的推进,我们看到在决策质量、客户体验,甚至员工参与度方面的改善,这些都产生了可衡量的财务影响。”
这一认识促使Atalla(阿塔拉)的团队创建了一个包含三个视角的框架:生产力、准确性以及他所说的“价值实现速度”——“收益在业务中出现的速度有多快”,通过投资回收期还是通过前90天捕获的收益份额来衡量。
同样的逻辑也适用于Wolters Kluwer,产品管理协会主任Aoife May(奥菲·梅)表示,她的团队帮助客户比较手动和AI辅助工作在具体时间和成本上的差异。
“我们为手动进行法律研究等任务估算时间,并纳入律师每小时的平均成本,以确定手动工作的成本。然后,我们估算在AI辅助下完成同样任务的情况。”她说,客户“在义务性调研上花费的时间减少了多达60%。”
但时间并非一切。Atalla(阿塔拉)的第二个视角——决策准确性——捕捉到了因错误、返工和例外情况减少而带来的收益,这些直接转化为更低的成本和更好的客户体验。
StarAppleAI的首席执行官Adrian Dunkley(阿德里安·邓克利)从价值链的更高层次看待财务问题。“有三类指标始终很重要:效率提升、客户支出和整体投资回报率,”他说,并补充说他追踪“使用AI能够节省多少钱,以及在不增加支出的情况下,从业务中能够多获得多少钱。”
Dunkley(邓克利)的研究实验室Section 9也探讨了一个更微妙的问题:当多个系统相互作用时,如何追溯AI的具体贡献。他依靠一个称为“影响链”的过程,这是他“从我的气候研究时期里借鉴过来的”。影响链将每个过程与其下游业务价值进行映射,以创建“AI应用前的投资回报率预期”。
Wolters Kluwer的内容管理总监Tom Poutasse(汤姆·普塔塞)也使用影响链,并将其描述为“追溯一个变化或产出如何影响一系列下游效应”。实际上,这意味着展示自动化在哪些方面加速了价值,以及人类判断在哪些方面仍然增加了必要的准确性。
不过,即使是最好的指标,也只有在正确衡量的情况下才有意义。建立基线、归因结果以及计算实际成本,这些是将数字转化为投资回报率的关键——而这正是数学开始变得棘手的地方。
三、算对数学:基线、归因和成本
指标背后的数学从设定清晰的基线开始,以理解AI如何重塑商业成本结束。
Movadex的联合创始人Salome Mikadze(萨洛梅·米卡泽)建议重新思考要衡量的内容:“我告诉高管们不要问‘模型的准确性如何’,而是从‘这个模型推出后,业务发生了哪些变化’开始。”
Mikadze(米卡泽)的团队在每次推出时都进行这些比较。“我们为AI应用前的过程设定基线,然后进行受控推出,这样每个指标都有一个清晰的反事实,”她说。根据组织的不同,这可能意味着跟踪客户支持中的首次响应和解决时间、工程中代码更改的前置时间,或销售中的胜率和内容周期时间。但她说所有这些指标都包括“价值实现时间、活跃用户的采用率以及无需人工干预的任务完成率,因为未使用的模型投资回报率为零。”
然而,当人和AI共享相同的工作流程时,基线可能会变得模糊,这促使Wolters Kluwer的Poutasse(普塔塞)团队重新思考归因问题。“我们从一开始就清楚,AI和人类专家都在以不同的方式增加价值——所以简单地说‘AI做了这个’或‘人类做了那个’是不准确的。”
他们的解决方案是一个标记框架,将每个阶段标记为机器生成的、人类验证的或人类增强的。这使得更容易展示自动化在哪些方面提高了效率,以及人类判断在哪些方面增加了背景信息,从而创建一个更真实的混合性能图景。
在更广泛的层面上,衡量投资回报率也意味着要应对AI的实际成本。Zuora的Subscribed Institute的首席董事Michael Mansard(迈克尔·曼萨德)指出,AI打破了自SaaS(软件即服务)时代开始以来IT所依赖的经济模式。
“传统的SaaS构建成本高昂,但边际成本接近于零,”Mansard(曼萨德)说,“而AI开发成本低廉,但会产生高且可变的运营成本。这些转变对基于席位或功能的模型提出了挑战,因为当价值与智能体的成就相关,而不是与登录的人数相关时,这些模型就会失效。”
四、帮助首席信息官衡量投资回报率的5个技巧
1.不要再只关注模型的准确性。相反,关注业务变化。在推出任何AI系统之前,为AI应用前的过程设定基线,并进行受控推出,以确保每个指标都有一个清晰的反事实进行比较。
2.认识到人工智能颠覆了传统的SaaS经济学。传统的IT边际成本低,但AI有高且可变的运营成本。放弃简单的基于席位的定价模型;相反,探索基于使用量或基于结果的定价,其中价值直接与智能体的影响(例如,每个解决方案的成本)相关联。
3.人工智能的成功不仅仅关乎总收益;还关乎可靠性。对TCO/total cost of ownership(总拥有成本)进行建模,并根据安全性和可靠性信号对预期的总收益进行折扣。这包括诸如幻觉率、护栏干预率、覆盖率和模型漂移等指标。
4.由于人类和AI共享工作流程,将结果归因于“AI”是不准确的。需要一个标记框架,将每个步骤标记为机器生成、人工验证或人工增强,以准确衡量自动化在哪些方面提高了效率,而人类判断在哪些方面增加了必要的背景信息。
5.AI的长期成功取决于员工的采用和信任。在初始阶段跟踪“软性投资回报率”(员工情绪、使用率、自我报告的生产力)。使用这些指标来推动认同感,因为员工的认知会促进采用的良性循环,从而在以后实现“硬性投资回报率”。
Mansard(曼萨德)看到一些公司正在尝试基于结果的定价——为节省或收益的一定百分比付费,或者为诸如Zendesk的每个案例解决方案1.5美元的特定交付成果付费。这是一个不断变化的目标:“没有也不会有一个‘正确’的定价模型,”他说,“许多公司正在转向基于使用量或基于结果的定价,其中价值直接与影响相关联。”
随着公司在使用AI方面逐渐成熟,他们面临的挑战不仅仅是定义一次投资回报率:随着系统的发展和扩展,他们必须保持这些回报的一致性。
五、扩展和维持投资回报率
对于Movadex的Mikadze(米卡泽)来说,测量并不会在AI系统启动时结束。她的框架将投资回报率视为一个持续的计算,而不是一个一次性的成功指标。“在成本方面,我们对总拥有成本进行建模,而不仅仅是推理成本。”她说。这包括“集成工作、评估工具、数据标记、提示和检索支出、基础设施和供应商费用、监测,以及运行变更管理的人员”。
Mikadze(米卡泽)将所有这些纳入一个清晰的公式:“我们报告经过风险调整的投资回报率:总收益减去总拥有成本,根据幻觉率、护栏干预率、人在回路审查中的覆盖率、数据泄露事件以及迫使重新训练的模型漂移等安全性和可靠性信号进行折扣。”
Mikadze(米卡泽)补充说,大多数公司接受一个简单的基准:投资回报率=(收入变化+毛利率变化+避免的成本)-总拥有成本,对于运营用例,回报目标是小于两个季度,对于开发人员生产力平台,目标是在一年以内。
但是,即使是一个完美的公式,如果模型没有为扩展而构建,在实践中也可能失败。“一个有积极性的本地试点团队可以在早期取得令人印象深刻的胜利,但扩展往往会破坏一些东西。”Mikadze(米卡泽)说。数据质量、工作流程设计和团队激励措施很少同步增长,而且“AI投资回报率几乎从来不会干净利落地扩展”。
她说她反复看到同样的错误:为一个团队构建的工具在没有重新审视其假设的情况下,被重新命名为一个公司范围的计划。“如果销售部门期望提高效率,产品部门想要洞察力,而运营部门希望实现自动化,但模型只针对其中一个进行了调整,摩擦是不可避免的。”
她的建议是将AI视为一个有生命的产品,而不是一次性的推出。“成功的团队在实验阶段设定非常严格的成功标准,然后在扩展之前重新验证这些目标。”她说,尽早定义所有权、重新训练的节奏和评估循环,以在系统扩展时保持其相关性。
这种长期的纪律取决于测量本身的基础设施。StarApple AI的Dunkley(邓克利)警告说:“大多数公司甚至没有考虑到进行实际测量的成本。”他说,维持投资回报率“需要人员和系统来跟踪产出以及这些产出如何影响业务绩效。没有这一层,企业是在管理印象,而不是可衡量的影响”。
六、投资回报率的软性方面:文化、采用和信念
即使是最好的指标,如果没有认同感也会失效。一旦你建立了电子表格并且仪表板已经启动并运行,AI的长期成功取决于人们采用它、信任它并看到其价值的程度。
UserTesting的人工智能主管Michael Domanic(迈克尔·多马尼克)区分了“硬性”投资回报率和“软性”投资回报率。
“硬性投资回报率是大多数高管熟悉的,”他说,“它指的是可以追溯到特定AI部署的可衡量的商业成果。”这些可能是转化率的提高、收入增长、客户留存或更快的功能交付,“这些是可以而且应该严格衡量的切实业务结果。”
但Domanic(多马尼克)表示,软性投资回报率是关于人的方面——即那些使持久影响成为可能的文化和行为转变。“它反映了当员工开始尝试、发现新的效率,并培养出对AI如何改变他们工作的直觉时所发生的文化和行为转变。” 他补充道,这些结果更难量化,但“对于公司保持竞争优势至关重要”。随着AI成为基础架构,“两者之间的界限将变得模糊。软性的将变得可衡量,可衡量的将变得具有转型性”。
Promevo的首席技术官John Pettit(约翰·佩蒂特)认为,那些可被视为属于“软性”类别的自我报告关键绩效指标——比如员工情绪和使用率——可能是强大的领先指标。“在人工智能推出的初始阶段,自我报告的数据是最重要的成功领先指标之一。”他说。
当他合作过的一家客户公司中,73%的员工表示新工具提高了他们的生产力时,这种认知有助于推动采用,即使这种生产力的提升尚未得到客观衡量。“基于认知的口碑会创造一个采用的良性循环。”他说,“任何工具的有效性都会随着时间的推移而增长,主要是通过人们分享他们的成功经验,而其他人也纷纷效仿。”
不过,信念并不会自动产生。StarApple AI和Section 9的Dunkley(邓克利)警告说,员工常常担心人工智能会抹去他们对成功的功劳。在Section 9正在进行长期研究的一家公司中,“员工对将他们的工作部分归因于AI犹豫不决;他们觉得自己受到了贬低”。
他说,克服这种阻力需要有倡导者“付出努力,让他们对AI带来的益处感到舒适和兴奋。”换句话说,衡量投资回报率不仅仅是证明AI有效——而是证明人和AI可以共同取得胜利。
作者:Josh Fruhlinger(乔希·弗鲁林格)
译者:宝蓝