多智能体协作是神话？揭秘AI代理的“大厂病”-福建信息主管（CIO）网

多智能体协作是神话？揭秘AI代理的“大厂病”

作者：CIO.com&睿观来源：CIOCDO 发布时间：2026年03月19日点击数：

几十个 AI 代理（Agent）在没有人类干预的情况下自动协同、解决复杂任务——这听起来像是企业数字化的完美乌托邦。许多供应商也正在大力兜售这一愿景。但现实可能要骨感得多。

近期的研究和多位行业专家的实践揭示了一个反直觉的真相：单个 AI 智能体可能极其可靠，但当它们被组队在一起协作时，往往会遭遇惨败。

为什么？因为它们染上了和人类一样的“组织病”。

组织系统研究员 Jeremy McEntire 的实验表明，当使用单个智能体执行任务时，成功率是 100%；但当引入层级结构或自发群体协作时，失败率大幅飙升，甚至在规划阶段就耗尽了所有预算，没写出一行可用代码。

你以为去除了人类的疲劳、自负和办公室政治，AI 就能完美协作？错。系统间的每一次交接，都会导致意义丢失、语境压缩和错误传播。正如思科平台架构师 Nik Kale 一针见血指出的：“人类在组织中处理沟通偏差，会走到别人的办公桌前问一句‘你那话到底是什么意思？’，但 AI 智能体可不会在走廊里闲聊。”

那么，IT 领导者该如何正确部署 AI 智能体？

专注单体任务：让单个智能体专注于范围明确、高度具象化的独立任务，这能产生令人震惊的可靠结果。
拒绝虚幻的“群智涌现”：不要幻想着 AI 能自发无缝协同。AI 智能体的真正价值不在于自主的群体行为，而在于受控的专业化。
拥抱“链式编排”：不要让智能体去自由协作，而是让它们按规格交付。建立一层强有力的“编排层（Orchestration Layer）”，明确规定数据在智能体间如何传递、触发人工审查的条件是什么。

底线很简单：真正的多智能体协作行不通。企业需要的心智模型，是一支由“角色清晰的数字员工 + 负责监督和判断的人类 + 串联两者的编排层”共同组成的混合劳动力队伍。别让你的 AI 团队，重蹈人类官僚主义的覆辙！

标题：真正的多智能体协作行不通

单个 AI 智能体可能非常可靠，但当它们被组合在一起时，似乎只是表面上协同工作，实际会产生很高的失败率。链式编排可能是解决方案。

图片来源：Rob Schultz / Shutterstock

一些人工智能倡导者正在兜售这样一种愿景：数十个智能体（Agent）协同工作，在几乎不需要人工干预的情况下解决复杂问题。到目前为止，这种场景只是一个神话。

一项新研究表明，AI 智能体在单独处理独立任务时可能很有效，但当它们被组合在一起完成复杂的分配任务时，大多数情况下都会失败。

倡导者设想了一个多智能体的未来，这将带来巨大的效率提升和成本节约，这要归功于自主型智能体 AI 接管了目前由人类员工执行的许多复杂任务。

但大多数在单一工作流中部署多个智能体的组织，实际上是将它们分成负责特定任务的独立智能体孤岛，在另一个智能体接手之前，将它们的工作交接给一个编排层（orchestration layer）。

组织系统研究员兼作家杰里米·麦肯泰尔（Jeremy McEntire）表示，真正的多智能体协作之所以行不通，是因为智能体遭遇了与人类相同的组织问题。他说，智能体会无视其他智能体的指令、重复别人已经做过的工作、未能进行工作委派，并陷入“计划瘫痪”。

“人工智能系统失败的结构性原因与人类组织相同，尽管消除了所有人类特有的致因因素，”他在最近的研究论文中写道。“没有职业激励。没有自负。没有办公室政治。没有疲劳。没有文化规范。没有地位竞争。这些智能体只是执行提示的语言模型。但功能失调还是出现了。”

一、复杂性导致失败

奢华度假租赁服务公司 Wander 的工程主管麦肯泰尔表示，也许毫不奇怪的是，加入的智能体越多，智能体的组织结构越复杂，它们无法完成既定任务的频率就越高。

麦肯泰尔基于四种组织结构对智能体的产出进行了测试。当使用单个智能体来生成结果时，智能体在 28 次尝试中成功了 28 次。在层级组织中使用多个智能体（一个智能体向其他智能体分配任务）时，有 36% 的情况下未能交付正确结果。

一种“共识主动性涌现（stigmergic emergence）”方法，即智能体在一个自组织集群中工作，其失败率高达 68%；而一个 11 个阶段的门控流水线（或称组织集群），从未产生过好结果。事实上，这个门控流水线在五个规划阶段就耗尽了该项目的全部预算，却没有写出一行实现代码。

“我进行的每一项实验都以违反直觉的方式失败了，而这种失败方式正是它表面上被设计来极力避免的，”麦肯泰尔说。“流水线一直在绕圈子。层级结构未能进行委派。共识主动性系统未能进行协调，而协调正是共识主动性的核心意义。唯一可靠且持续成功的是单智能体模式。”

麦肯泰尔指出，当人类将工作转移给 AI 智能体时，长期存在的组织问题并没有消失。“那些表征人类组织的失败模式——审查拉扯、基于偏好的把关、治理冲突、因协调失败导致预算耗尽——在多智能体人工智能系统中以完全相同的数学特征出现了，”他在论文中写道。“基底变了；但大规模协调的物理学定律保持不变。”

二、结果被复现

虽然人们可能倾向于将麦肯泰尔视为在荒野中呐喊的孤勇者，但几位人工智能专家表示他们观察到了类似的结果。

网络安全供应商 CrowdStrike 现任首席工程师迪普塔迈·桑亚尔（Diptamay Sanyal）表示，在之前的工作中构建 AI 智能体平台时，他观察到了智能体协同工作的类似问题。他说，处理离散、范围明确任务的单个智能体是可靠的，但多智能体协作往往会失败。

“正如研究所发现的那样，失败率随着复杂性的增加而快速攀升，”他补充道。“智能体之间的协调开销、上下文传递和错误传播，完全是人类组织在大规模下功能失调的翻版。”

然而他指出，智能体链（agent chaining）——这并非真正的协作——是行得通的。这与其他一些人工智能专家的观察不谋而合。

“威胁检测、警报丰富和自动化遏制作为离散的、范围明确的模块通过编排层链接起来时，效果最好，”他说。“从外部看，这像是多智能体合作，但从架构上讲，它是带有确定性交接和内置人工检查点的顺序专业化（sequential specialization）。”

他补充说，数十个智能体在没有人类干预的情况下自主协作的愿景尚未实现。“如今 AI 智能体的真正价值在于大规模自动化那些重复性的、定义明确的任务——通过快速的数据处理和一致的输出来增强人类分析师的能力，”桑亚尔说。“而不是涌现的集体智能。”

三、老问题重现

思科（Cisco）致力于多智能体协调和智能体系统设计的首席工程师兼平台架构师尼克·卡勒（Nik Kale）表示，麦肯泰尔的论文展示了常见的人类沟通问题是如何转移到多智能体环境中的。

“系统之间的每一次交接，都是意义丢失、上下文压缩和假设产生的地方，”他说。“人类在组织中处理这个问题的方式是走到某人的办公桌前说：‘等等，你那话到底是什么意思？’但智能体们不会在走廊里闲聊。”

卡勒补充道，部署智能体的 IT 领导者应该将重点放在专注于范围明确任务的单个智能体上，这会产生“令人震惊的可靠”结果。

“‘数十个智能体自主协同工作’的营销话术，是在兜售一种违反信息论的幻想，”他说。“你不能让智能体去协作。你要让智能体按照规格交付，然后让一个薄薄的编排层来组装结果。”

基于 AI 的应用构建供应商 Empromptu.ai 的首席执行官沙内娅·莱文（Shanea Leven）补充说，多智能体系统应该从执行专门任务的单个高度结构化智能体开始，或者是多个智能体在严格的边界、共享的上下文模型和评估控制下运行。

“认为几十个智能体可以在没有监督或边界的情况下自发协作的想法，和人类这样做一样疯狂，”她说。“AI 智能体的价值是真实存在的，但它不在于自主的群体行为。而在于受控的专业化。”

四、编排结果

一些人工智能用户报告说，通过在智能体之间使用编排工具将它们链接起来，取得了成功。

劳动力编排供应商 Asymbl 已经部署了 150 多个智能体，但它们彼此之间的交互受到高度控制，该公司的首席数字劳动力与技术官希瓦纳特·德维纳拉亚南（Shivanath Devinarayanan）表示。

“我们的 150 多名数字员工进行交互、交接工作，并共同交付我们围绕它们设计的成果，它们彼此协调，并与人类团队成员协调，这是因为我们在它们周围构建了一个编排层，”他说。“在两个 AI 智能体互动之前，我们已经规划好了交接流程——什么数据在它们之间传递、以什么格式、在什么条件下、什么会触发人工审查以及为什么。”

他补充说，控制智能体并在部署之前定义每个智能体角色的编排模型，是拼图的关键部分。

“我们有专门负责离散任务的 AI 智能体，也有具有共享内存和共享任务列表的智能体，以跟踪其他智能体正在做什么，”德维纳拉亚南说。“这两种情况的关键都在于：部署前角色的清晰度。这个数字工作者负责什么，工作从哪里来，到哪里去，人类什么时候需要做决定？”

他补充说，麦肯泰尔的研究证实了 Asymbl 的观察，即多智能体系统的失败是一个组织和编排问题，而不是技术问题。

“该研究发现，智能体在协同工作时会遇到与人类相同的协调失败，”德维纳拉亚南说。“智能体是基于人类推理建模的。当组织设计薄弱时，它们就会继承人类组织的失败模式。”

他补充说，那些倡导数十个智能体在没有人类干预的情况下协同工作的供应商或 AI 倡导者，正在推行一个错误的愿景。

“正确的心智模型是一支混合劳动力队伍：角色明确的数字员工、负责监督和判断的人类员工，以及连接两者的编排层，”德维纳拉亚南说。

上一篇：别再被忽悠了！IT圈最常被滥用的12个“黑…

下一篇：AI正在重新定义企业对数据中心的期望