如果没有其他指标,token(词元)使用排行榜可能会产生不良激励,导致员工在不考虑成本、真正的生产力或成果的情况下,最大化词元使用量。

图源:LightField Studios / Shutterstock
在企业中追踪人工智能(AI)的采用情况,给IT领导者带来了一个指标难题。虽然ROI(投资回报率)应该是AI计划成功与否的评判标准,但确保员工真正使用你推出的AI工具,是实现该ROI过程中的关键一步。
那么,在不忽视最终目标的情况下,衡量AI采用情况的最佳方法是什么呢?
一些企业已将词元使用量作为追踪采用情况的指标,甚至将AI交互游戏化以鼓励使用。一些AI专家表示,这是一种危险的做法。
据报道,Amazon(亚马逊)、JPMorgan(摩根大通)、Meta和Disney(迪士尼)等公司已经采用了AI使用排行榜来鼓励采用,在某些情况下,导致员工消耗词元额度,产生高额账单。据《Business Insider/商业内幕》报道,一名迪士尼员工在9天内与Claude AI交互了46万次。
这种公司排行榜导致了一种被称为“token-maxxing(词元刷满)”的现象,员工为了在竞争中获胜而增加对AI工具的使用。几位AI专家表示,仅追踪员工的词元使用量,而不将其与产出或生产力指标相结合,是灾难的根源,尤其是对负责AI预算的IT领导者来说。
据报道,在某些情况下,公司中词元使用量最高的员工已经花费了数百万美元。
软件开发支持供应商Harness的高级副总裁Trevor Stuart(特雷弗·斯图尔特)表示,词元使用排行榜的初衷是好的,初衷是统计员工对AI工具的使用情况。
“他们只是试图了解人们如何使用这些工具,有多少人在使用这些工具,” 他说,并补充说,通过鼓励采用,排行榜大概会带来“下游生产力”。
然而,词元排行榜激励员工在不考虑成本的情况下使用AI工具,有些人甚至使用前沿AI模型来完成简单任务。
“这就好比当你可以用更简单的工具完成工作时,却大材小用,”他说,“这就是‘token-maxxing’真正激励错误行为的地方。”
一、快速指标
AI分析供应商Pendo的CEO(首席执行官)Todd Olson(托德·奥尔森)指出,衡量词元使用量变得流行,是因为这是一个相对容易收集的指标。
他说:“如果有人使用的词元数量为零,他们根本就没有使用AI,也没有从中获得任何价值。但是,一旦每个人都真正开始使用它,情况就会变得更加复杂和模糊。”
Olson(奥尔森)说,一旦组织让员工迈出使用AI工具的第一步,他们就需要开始考虑其他指标。他说:“让人们尝试新事物并改变他们的习惯,存在最初的惰性。这有点像是从零起步的阶段难题。但随后的问题是,人们只是为了使用而使用吗?”
全球企业转型、AI和主权科技战略实践公司Kyndryl的合伙人Logan Wolfe(洛根·沃尔夫)表示,最大的问题是,词元使用并不一定能带来生产力。
他解释说:“公司将消耗的词元数量作为衡量员工使用AI的生产力的代理指标。实际上,员工被激励去使用词元,或者在某些情况下,因使用的词元数量偏低被问责,显然,这是一个很容易被操纵的指标。”
Wolfe(沃尔夫)将词元使用指标与对编写最多代码行的软件开发人员的奖励进行了比较,这会导致代码冗余、程序臃肿。
“当词元使用量成为KPI(关键绩效指标)时,你激励的是产出数量,而不是效率、质量和降低风险等成果,”他补充道。
Wolfe(沃尔夫)说,IT领导者面临的主要陷阱之一是,词元使用激励措施可能会超出预算。
他说:“考虑到如今单位词元(Token)价格和单次调用成本似乎都没有下降的趋势,这在很大程度上要归咎于能源成本持续上涨,这实际上导致了AI计划的单位收益与ROI持续走低。”
二、衡量错误的东西
AI代码审查提供商Qodo的CEO Itamar Friedman(伊塔马尔·弗里德曼)表示,仅衡量词元使用量,就好比一个人为了改善健康而只追踪自己每天行走的英里数,却不计算自己消耗的卡路里,或者不定期检查自己的基础健康指标。如果你每天走两英里,但却消耗5000卡路里,你的健康状况不太可能得到改善。‘’
他说,追踪员工的词元使用量本身并不是一个糟糕的做法,但将其作为唯一的指标,会让公司对其AI部署所带来的好处了解不全面。
他说:“我确实认为,最大化词元使用量与提高生产力之间存在关联。但问题是,如果你只将其视为衡量生产力的最重要甚至是唯一的指标,你实际上可能会制造一种数据虚高现象。”
他说,在某些情况下,公司似乎在追踪程序员的词元使用量。他指出,当开发人员被激励在没有进行质量和安全审查的情况下,大量输出AI生成的代码时,这些代码可能包含重大漏洞和安全隐患。
三、需要更多指标
为了避免追踪词元使用量带来的陷阱,Harness的Stuart(斯图尔特)建议公司同时建立生产力或产出方面的指标。
他说:“你需要以一种方式来设置,将你所关心的行为和激励措施游戏化。对我们Harness来说,激励措施可能不是你消耗的词元数量,而是我们能够交付的产出,以及从资源投入到业务产出的转化。”
他指出,生产力指标因公司而异。例如,对于使用AI助手的开发人员来说,主要指标可能不是编写的代码行数,而是投入生产的代码行数。
他说:“你是否花钱编写了被驳回、废弃或未上线的代码?我认为有必要了解那些被浪费的资金。如果你要设置排行榜,你还需要用结合资源损耗数据进行综合评估,并将其纳入衡量范围。”
他补充说,公司还可以追踪员工如何优化他们对AI的使用。他说:“有可优化的资金、被浪费的资金,还有消耗的词元。开始将这三者放在一起考虑真的很重要。而第四个评估维度是:产出是什么?我们是否将代码投入生产了?”