图片来源:Shutterstock / Foundry
在3GEM代表SnapLogic于2月进行的一项调查中,1000名IT决策者和转型领导者中,有一半表示大型企业已经在使用AI智能体,另有32%计划在年内实施。调查还显示,92%的受访者预计AI智能体将在未来12至18个月内带来有意义的业务成果,44%的人相信AI智能体能做得和人类一样好,而40%的人实际上更信任AI。 AI智能体的定义各不相同,虽然一些供应商给他们的聊天机器人起了可爱的名字并将其重新包装为智能体,但大多数专家期望它们能做的不仅仅是回答问题。例如,AI智能体应该能够代表用户采取行动、自主行动,或与其他智能体和系统交互。作为区分,代理式AI(Agentic AI)通常更进一步,涉及用于构建、部署和管理智能体的企业级平台,以及允许智能体彼此交互以及与内外部系统交互的平台。
一个单一的业务任务可能涉及多个步骤,使用多个智能体,并调用多个数据源。此外,每个智能体可能由不同的大型语言模型(LLM)、微调模型或专门的小型语言模型驱动。工作流也可能是迭代的,智能体会重做某些序列或步骤,直到它们通过特定的准确性或完整性阈值。
根据Gartner的说法,代理式AI是今年的首要战略趋势,到2029年,80%常见的客户服务问题将无需人工干预即可自主解决。 “一些用例包括简化供应链管理和提供实时的个性化支持,”Gartner副总裁分析师Sid Nag说。他表示,代理式AI还可以实现更直观的交互。“这绝对引起了企业的关注。”
随着驱动单个智能体的模型变得越来越智能,代理式AI系统的用例也变得更加宏大——而这些系统带来的风险也呈指数级增长。 咨询公司Presidio的高级副总裁Chris Cosentino说:“我们发现公司缺乏对这些智能体如何做决策的可见性和控制力,并且对它们的监控尚未成为行业标准。”“随着这些智能体进入这些环境,新的风险正在被引入,你有智能体代表用户做决策,在某些情况下,这些决策偏离了预期的模型。”事实上,最近关于前沿语言模型的研究和红队测试报告显示,它们有能力进行欺骗和操纵,如果基于矛盾的指令或糟糕的数据集工作,很容易失控。 如果一个能访问所有公司数据库和功能的代理式AI系统突然失控,或落入攻击者手中,那将不是一件好事。
专家们表示,解决方案是仔细限制智能体能做的事情范围和它们能访问的数据,设置防护机制(guardrails),然后仔细监控智能体所说和所做的一切。
一、保持对智能体的控制 (Staying in control of agents)
Change.org是一个允许世界任何人发起请愿的非营利组织。迄今为止,已有超过5亿人使用该网站,每月在其平台上创建7万份请愿书,但并非所有请愿书都值得它们所占据的数字空间。其中存在垃圾信息、欺诈和非法内容。 该公司曾使用一家每月花费5000美元的供应商,而之前的系统只能捕获所有违规行为的一半,并且其标记为需要审查的内容中有一半是误报。
然后ChatGPT问世了,Change.org惊讶地发现,即便是开箱即用的版本,它捕获有问题内容的效率也与他们花费数年开发的工具相当。于是,该公司开始试验AI能做什么,并最终在咨询公司Fractional AI的帮助下,设计出了一个多步骤的代理式工作流,使用OpenAI的GPT 4.0和一个微调的GPT 3.5来驱动各个智能体。 该组织的AI应用与自动化负责人Danny Moldovan说,即使需要多次调用LLM,每次审核的总成本也只是公司过去支付费用的一小部分。“我们在更大规模和更高准确性下显著降低了成本。” 结果是一个复杂的决策树,它使用Langchain将智能体串联起来,并使用Langsmith进行可观测性。
“智能体能够自行选择在决策树中将其发送到何处,”Moldovan说。在某些情况下,链条中的最终智能体可能会将其送回决策树上游进行额外审查。“它允许人类处理一套更易于管理的信号和解释,”他补充道。 为了防止系统失控,设置了多重控制措施。首先,OpenAI本身设有一套控制措施,包括一个审核API。其次,系统能接收的信息以及能用这些信息做什么受到了极其严格的限制。最后,所有决策都交由人类进行审查。 “我们是风险管理者,不是边界推动者,”Moldovan说。“我们使用这个系统来恰当地识别出一组需要人工审查的内容,所有最终的审核决定都是由人做出的。我们相信,内容审核,特别是在我们这样的平台上,需要一定程度的细微差别判断,我们尚未准备好将其完全交给机器人。”
然后,为了确保系统按预期工作并持续如此,审计就派上用场了。 “任何时候出现不同的模式,我们都会回放记录,看看发生了什么,”Moldovan说。“我们记录了代理式流程的每一步,智能体会提供决策摘要。这给了我们一个可以审计的凭证(receipt)。事实上,当机器人解释自己时,准确性更高。你越让AI解释它的思考过程,结果就越好。” 例如,有一次,系统开始将反对虐待动物的请愿标记为虐待动物内容。“一旦我们引入了一些纠正性的框架引导(correction framing),系统就回到了正轨,”他说。
代理式AI审核系统于2024年下半年上线,现在Change.org正将相同的方法应用于其他流程。例如,代理式AI可以用来发现正面内容的例子,这些内容可以通过额外的营销获益——并识别可能对看到这些内容感兴趣的记者。
二、没有防护机制(Guardrails),就没有代理式AI (No agentic AI without guardrails)
信安金融集团(The Principal Financial Group)是一家全球性的投资和保险公司,多年来一直在使用各种形式的AI。但新的生成式AI,以及建立在其之上的代理式AI系统,可能有点像一个“黑箱”。 “在我们传统的AI模型中,理解模型如何得出结论——这是相当可靠的,因为它们已经存在了一段时间,”CIO Kathy Kay说。
而记录交互和问题以便公司能够评估整个系统中发生的情况也是一个挑战。“我们希望确保我们评估的风险不仅仅是模型的表现,”她说。“但实际监控所有这些的工具仍然处于早期阶段。” 该公司仍处于代理式AI采用的早期阶段。“我们有几个模型在生产环境中运行,但可观测性、可解释性以及理解模型如何得出结论对我们来说是巨大的关注点,”她补充道。 一个用例是软件开发,已有近1200名工程师在使用GitHub Copilot,该工具于2月推出了其智能体模式,现在可以从零开始创建应用程序、跨多个文件进行重构、编写和运行测试以及迁移遗留代码。
“但我们不会直接将代码随意发布,”Kay说。“目前我们始终会有人在中间环节把关。这是我们所做任何事情的防护机制之一。” 智能体也被用于总结文档和其他低风险领域。她说,已设置防护机制以确保智能体满足所有监管和合规要求。同时,对可访问的数据和智能体能做的事情也有限制。信安金融使用AWS,其AI平台提供了防护机制作为一部分。 “此外,我们记录了与任何模型的及其答案的所有交互,以帮助分析它们,看看模型是否出现任何形式的偏见,或者我们是否看到一些令人惊讶的事情,”她说。
总的来说,信安金融对使用代理式AI持乐观态度。 “我们已经确定了很多不同的用例,我们相信代理式AI可以成为解决方案,”她说。“但我们采取基于风险的方法。我们绝不会在没有‘人在环路’(human in the loop)的情况下,将这些智能体或仅仅是LLM直接面向客户。目前风险太高了。”
三、谁来监督监督者? (Who watches the watchers?)
IEEE会士、塔夫茨大学研究生工程学院院长Karen Panetta提出,我们可能需要用AI来监控AI。
“当你谈到记录它时,很可能还有另一个智能体在其之上观察它记录了什么,并试图进行总结——就像一个指挥家,汇集所有这些不同的信息,”她说。 对于具有许多交互和大量数据注入提示的复杂系统来说,尤其如此。 “你想要记录什么?”她说。“我是否要记录内部的一切?那可能是海量的。”
网络安全公司eSentire的高级机器学习科学家Jeff Schwartzentruber同意代理式AI已使调用的提示和响应数量激增。“它们进行函数调用、拉取数据、进行它们自己的对话,”他说。“进出的提示很难追踪,你永远无法真正看到客户端上的所有交互。” 当企业使用外部供应商作为代理式系统的一部分时,这带来了特殊的挑战。 “假设一个第三方服务提供商为你生成一份报告,你发送给他们一些文件,”他说。“一旦进入他们的系统,你对他们正在进行的不同函数调用一无所知。这是一个非常大的可观测性问题。” 但这并非全是坏消息。
“虽然挑战变得更加困难,但我们可用的工具也变得更加强大,”安永(EY)数字与新兴技术负责人Rakesh Malhotra说。“我们在可观测性方面拥有代理式系统带来的机遇是,它为我们提供了提高这些系统可靠性的机会。这个机遇远超它们失控的风险。” 关键在于提前规划,曾在微软花了十年时间构建监控工具的Malhotra说。 “当我构建智能体时,我会为可观测性而设计,”他说。“如果你先构建了东西,然后才决定我们必须对其进行监控和管理,那你总是在偿还这笔技术债务,而这是很难做到的。”
作者:Maria Korolov 特约撰稿人 Maria Korolov是一位屡获殊荣的技术记者,报道人工智能和网络安全。她还创作科幻小说,编辑一本科技幻想杂志,并主持一个YouTube节目。
睿观:代理式AI(能够自主行动、交互并执行多步骤任务的AI智能体系统)正迅速成为企业关注焦点并被寄予厚望,有望大规模变革业务流程,但其“黑箱”特性、决策过程的不可控性、潜在的“失控”风险以及安全隐患也随之剧增。因此,企业在拥抱其巨大潜力的同时,必须优先解决可见性与控制力问题,通过实施严格的范围限制、防护机制、保持关键环节的人工监督(Human-in-the-Loop),并大力投入构建和完善监控、审计与可观测性(Observability)体系,以确保安全、负责任地部署和应用。
主要观点:
巨大潜力与快速采用趋势:
代理式AI被视为顶级战略趋势(Gartner),预期能自主处理复杂任务(如供应链管理、客户服务),显著提升效率。市场调查显示企业采用意愿强烈,对其业务价值抱有高期望。
核心风险与挑战:
缺乏可见性与控制:
难以理解和监控智能体(尤其是多智能体协作时)的内部决策逻辑和行为路径。
“失控”与安全风险:
前沿模型存在被误导、欺骗甚至恶意利用的可能,若拥有广泛权限的智能体失控或被攻击,后果严重。
可观测性难题:
现有监控工具尚不成熟,难以追踪和记录海量、复杂的智能体交互(特别是涉及第三方系统时),给审计和问题排查带来巨大困难。
关键应对策略与实践:
强力管控与防护(Guardrails):
必须严格限制智能体的权限、可访问数据范围,并设置明确的操作规则和防护机制。
人机协同监督(Human-in-the-Loop):
在高风险或关键决策环节,保留人工审核与最终决策权,作为重要的安全保障。Change.org 和 Principal Financial 的案例均强调了这一点。
强化监控与审计:
详细记录智能体交互过程、决策逻辑(如Change.org记录“决策凭证”),进行持续审计以发现异常或偏见。
为可观测性而设计:
在系统构建初期就将监控和管理需求纳入设计考量,而非后期弥补,是降低技术债务、确保系统可靠性的关键(Malhotra观点)。
未来方向:
随着系统复杂性增加,可能需要利用AI技术本身来辅助监控AI系统(Panetta观点)。尽管挑战严峻,但通过精心设计和利用更强大的工具,提高系统可靠性的机遇大于风险(Malhotra观点)。