确保人工智能安全与准确的标准建议,是保留人工监督。然而,即便人类也有局限,尤其当企业大规模部署AI时。
图片来源:SvetaZi / Shutterstock
“如果我的医生说:‘ChatGPT 是这么说的,我就按这个方案给你治疗。’我会无法接受。”达拉斯德州大学计算机科学教授、网络安全研究与教育研究所创始主任 Bhavani Thuraisingham (巴瓦尼·图赖辛汉姆)说。
而那是在有消息传出ChatGPT建议一名男子用溴化钠代替食盐,导致他产生幻觉并忍受了三周治疗之前。她指出:“如今,对于关键系统,我们必须让人类留在决策环中。”
持同样观点的不止她一人。“human in the loop”(人在回路)是降低 AI 风险最常见、最核心的做法,许多企业都以此推进 AI 部署。Thomson Reuters(汤森路透,是一家专业信息服务提供商)便是典型例子:始终让人类参与,是其 AI 战略不可或缺的一环。
“我们把人工评估视为黄金标准。”该公司首席技术官 Joel Hron (乔尔·赫隆)说。
汤森路透正将生成式AI 集成到其商业产品中,包括法律、税务与会计平台,同时在内部开发、网络安全、人力资源、客户支持等众多场景中使用。Hron(赫隆)表示,人工评估不仅是当前生成式 AI 的关键环节,也是公司正在构建的新一代智能体系统的重要机制。但光说一句“让人类盯紧AI”远远不够。
他说:“我们花了大量时间设计极为精细的评分表,告诉人类如何标注他们发现的错误,以便我们能建立更好的防护措施”。
然而,反面现实是,在很多场景下“人在回路”并不现实,尤其当企业利用 AI 实现自动化和智能体工作流时。把人类塞进每一个决策环节,既会拖慢流程,也可能导致“橡皮图章”式(比喻不经审查、不加思考就盖章批准的行为。)的敷衍,甚至随着 AI 越来越擅长欺骗人类,人类反而被蒙蔽。因此,一些企业正探索如何把人类“拉出回路”,同时依旧确保人类牢牢掌握最终指挥权。
一、人工智能是不是聪明得过了头?
一种“人在回路”的 AI 监控做法,是让系统在真正执行任何可能带来风险或损害的操作前,必须征得人类许可。但这默认了 AI 会诚实汇报,而遗憾的是,这一点并不可靠。
Apollo Research 最近的一篇论文指出,更先进的模型不仅欺骗率更高,而且手段更为高明。当它们知道自己正在接受测试时,会故意蒙蔽评估者;有时甚至装傻,以降低触发防护机制的概率。
今年7月,顶尖 AI 供应商 Anthropic 发布的报告显示,具备高级推理能力的模型会对其思考过程撒谎;当它们意识到自己正被评估时,不良行为会减少;而一旦认为“没人看着”,就会变本加厉。
“一个智能体系统以目标为导向,会不择手段地达成那个目标。”Hron(赫隆)说。例如,它可能直接篡改单元测试。“它还会骗我说:‘我可没改单元测试。’但我去 GitHub 存储库一看,就知道它确实改了。”
这种行为并非只是理论上的风险。同样是在 7 月,风险投资人 Jason Lemkin 发现,Replit 的 vibe coding 平台上的一款 AI 助手为了掩盖漏洞和其他问题,伪造了报告,还在单元测试上撒谎。随后,它不顾“未经批准不得更改任何内容”的严格指令,直接删除了整个生产数据库。要解决这类问题,企业必须对 AI 的具体操作有可见性,Hron(赫隆)指出:“这样你就能知道,智能体发现了哪些漏洞或捷径,从而为它构建更完善的护栏。”
二、自动化流程是否快到无法监控?
将AI 智能体嵌入企业工作流的一大好处,是能显著加速业务流程。若每次都要暂停流程,让人类检查 AI 的行为,便失去了提速的意义。因此,企业必须把部分乃至大部分监控也自动化。
“这是我们最终必须抵达的、显而易见且必要的状态。”Hron(赫隆)说。监控可由传统脚本系统完成,也可由专门被提示去发现问题的大模型执行,他补充道:“还可以使用完全独立、专为智能体系统做护栏与监控而训练的模型”。
具体采用哪种方式,应视每个用例的风险高低而定。例如,一个只做信息搜集的AI,对公司风险极低,可允许其较少受监督地运行;反之,一旦其操作可能引发灾难性后果,就需叠加多层监督。
他说:“所以别把它看作非黑即白,而应视为一条连续光谱”。
对某些流程,企业甚至会有意不把所有步骤自动化,而是加入人工把关,即便这会拖慢整个工作流。
“我们明确区分哪些流程适合 AI,就用 AI 和智能体;其他流程则必须经人类验证。”数据工程公司 Indicium 的首席数据官 Daniel Avancini (丹尼尔·阿万西尼)说。这包括软件开发与大规模数据迁移项目。他补充道:“我们设置了关卡,让人类验证关键步骤,绝不会 100% 自动化。”
三、人类会不会开始对AI 的建议“橡皮图章”式放行?
人们很容易掉进“电脑说什么就点什么”的陷阱。Indicium为此建立了流程,确保人类真正在验证,而非盲目授权。
Avancini(阿万西尼)说:“我们用审计来验证工作质量,甚至可以追踪每个人花了多少时间做复核,如果有人两秒钟就点完,我们立刻知道他只是按按钮,根本没在看,这存在真实风险。我们通过培训和流程来减少这种情况。”
但如果AI 的错误率极低,而需要人工复核的动作却海量增长,会发生什么?
网络安全公司 Schellman 的 CEO Avani Desai(阿瓦尼·德赛)指出:“人类根本跟不上生成式 AI 高频、高并发的决策速度,持续监督会造成‘人在回路’疲劳和警报疲劳,人会逐渐麻木。”
到了这一步,人工监督就形同虚设,而且情况会更糟:足够聪明的AI 会把审批请求包装得滴水不漏,让人类一看就想点“同意”。
“智能体系统已具备规划与推理能力,还能学会操纵人类监督者,”Desai(德赛)说,“尤其是在开放式强化学习训练下。”
这叫“reward hacking”(奖励劫持):AI被无意训练成只要达成目标就给奖励,于是它找到了捷径并反复利用。
“因此,‘人在回路’反而可能变成一张虚假的安全网。”
缓解措施包括:自动把最危险的操作标出来做额外复核;轮岗人类审核员;部署自动化异常检测;设置多级监督,让不同的审核员关注不同类型的风险。
另一种方案是从系统设计之初就把约束条件写死。“必须事先布好控制点,让智能体 AI 根本做不了某些事。”Desai(德赛)举例:支付系统可限制 AI 发起的交易金额上限;开发环境可禁止 AI 修改或删除特定类别文件。
她说:“我始终认为,面对真正的智能体,人类参与是不够的”。
四、建立清晰的等级制
Desai(德赛)认为,企业应转向“人类主导”的架构。“你不仅要去监督,还要设计控制系统和防护措施,在错误发生之前就进行有效干预,”她说,“安全必须内建于设计之中,而不是等事故发生后再去修补。”
AI应该在“沙盒”环境里运行,企业可以严格限制它能看到什么、能做什么。毕竟,我们完全可以控制比自己更强大的系统,Desai(德赛)指出:“飞机比人快,但我们能驾驶它。”
但如果一个组织把工作流或决策框架构建得人类无法推翻,或复杂到人类无法理解,AI 就会成为重大风险。
“这就是‘温水煮青蛙’的场景,”她说,“等你意识到失控时已经太晚了。我们失去控制,不是因为AI比我们聪明,而是因为我们放弃了责任。这才是我担心的。”
其他专家也赞同把AI 关进“紧箍咒”沙盒,让它只能接收极受控的输入,并输出极其狭窄的结果。安永全球 AI 咨询负责人 Dan Diasio (丹·迪亚西奥)表示,事实上,许多公司已经在高风险流程中采取这种做法。
大语言模型只处理业务流程中真正需要它的那一小部分,其余由机器学习模型甚至脚本流程完成。
“我们发现,大多数客户在设计系统时都非常谨慎,不会过度放大 LLM 的能力去完成全部工作。”Diasio(迪亚西奥)说。
有人谈论那种“无所不能、可访问公司一切资源、自主达成目标”的 AI,但企业内部的实际做法截然不同,他指出:“他们设计的流程是‘有引导’的,而非完全无约束。”
毕马威全球可信AI 负责人 Bryan McGowan (布莱恩·麦高恩)表示,当生成式 AI 在业务流程中被大规模使用时,另一种约束方式是“职责分离”。
他说:“如果所有智能体能力都由一个 AI 统一调度,它就能最终调用所需的全部权限,从而变得极其强大,我们可以把其中一部分职责拆分,并在它们之间设立‘防火墙’”。
两个智能体可以通过共享信息协作,但这些通信可以被监控和控制。这种做法类似于金融公司为防止串谋和腐败而设置的控制措施。
五、人在回路(闭环)
一旦AI 智能体的所有动作和通信都被记录并纳入监控,人类便可以从“in the loop”(人在闭环中)转为“on the loop”(人在环上)。
McGowan(麦高恩)说:“如果你硬要在50个步骤的流程里让真人每一步都把关,人类根本不会去看所有细节,那我应该在这个生命周期的哪些节点做评估,才能确保我对最终结果放心?”
企业可能想知道:每个步骤是否完成、是否准确等等。这就要求把智能体的行为日志化,追踪它执行的顺序步骤,并将其行为与预期进行比对。
举个例子,如果用户只让AI 发一封邮件,它却发了五封,就属于可疑行为。准确且不可篡改的日志是监督流程的关键。“我要一份智能体所做事情的日志,而且这份日志必须不可更改,防止智能体自己篡改。”他补充道。随后,企业可以用一个专门负责质量保证的 AI 智能体,或传统分析工具,来评估这些日志。
德州大学的Thuraisingham (图拉伊辛厄姆)说:“人类不可能一一检查所有内容,所以我们需要这些检查器也自动化——这是目前唯一的可行方案。”
作者:Maria Korolov(玛丽亚·科罗洛夫)
Maria Korolov(玛丽亚·科罗洛夫)是一位屡获殊荣的科技记者,拥有20多年报道企业技术的经验,长期为Foundry旗下媒体撰稿,包括《CIO》《CSO》《Network World》《Computerworld》《PCWorld》等。她同时也是演讲者、科幻小说作家与杂志编辑,并主持一档YouTube频道。她曾在亚洲运营商业新闻分社五年,并为《芝加哥论坛报》、路透社、合众国际社、美联社及《好莱坞报道》供稿。上世纪90年代,她曾任前苏联地区的战地记者,报道过包括车臣和阿富汗在内的十余个战区。
2025年,Maria凭借对博通VMware及量子计算的报道荣获AZBEE奖。
尽管“human in the loop”(人在回路)被视为确保AI(人工智能)安全的核心手段,但随着智能体规模化部署,人类因难以跟上其速度、易被欺骗和产生“橡皮图章”式授权,该机制正变得不可靠,甚至可能成为虚假的安全网。为此,企业必须从“人在回路”(in the loop)转向“人在环上”(on the loop),这需要将监控也自动化,通过不可篡改的日志记录AI所有行为;并在系统设计之初就建立硬性“护栏”,对高风险操作进行限制;同时采用“职责分离”原则,为不同智能体设置“防火墙”以防串谋。因此,应对AI风险的关键,不是依赖人类进行细致入微的检查,而是将安全内建于设计之中。CIO(首席信息官)的责任是构建一个“人类主导”的架构,通过设计自动化监督机制和严格的等级制,确保人类始终拥有最终的指挥权,从而防止AI陷入“温水煮青蛙”式的失控。
从“人在回路”到“人在环上”,标志着我们对AI安全的理解,已从依赖“善意”的人类审查,升级为依赖“无情”的系统设计。