代理式企业转型有望带来无与伦比的生产力提升。
然而,在代理式AI革命进入深水区一年后,一个明确的教训已经浮现:要成功驾驭它,需要艰苦卓绝的努力和深刻的战略洞察。尽管部分先行企业已在享受早期成功,但更多的组织发现,其AI投资难以转化为可衡量的商业价值,在某些情况下,甚至因智能体(Agent)的表现未达预期,而不得不重新雇佣员工来填补空缺。
这些早期的挫折,是任何颠覆性技术在走向成熟过程中的自然演变。为了从这些实践中提炼出可复制的成功模式,我们深入复盘了麦肯锡在全球范围内主导的超过50个代理式AI项目,并结合对市场上数十个其他案例的分析,总结出以下六项核心法则,旨在帮助企业领导者穿越炒作的迷雾,真正从代理式AI中捕获价值。
什么是代理式AI?
代理式AI(Agentic AI)是一个基于生成式AI基础模型,能够在现实世界中采取行动并执行多步骤复杂流程的系统。AI智能体能够自动化并执行那些通常需要人类投入大量精力的复杂任务,其交互方式常基于自然语言处理。
企业在部署代理式AI时最常见的误区,是将焦点过度集中在智能体或工具本身,而忽视了其所处的完整工作流。这种本末倒置的做法,最终往往只能产出在演示中效果惊艳,但在实际业务流程中却无法带来整体效率提升的“花瓶”应用,导致价值远低于预期。
成功的代理式AI项目,无一例外都始于对整个端到端工作流(即涉及人员、流程和技术的完整链路)的根本性重构。其关键在于,将现有流程图谱化,识别出关键的用户痛点,并思考智能体如何在每一个环节中,与人类员工、现有系统协同,以更高效、更智能的方式达成业务目标。
在这种新模式下,人类员工依然是完成工作的核心,但他们的角色、工具和协作方式将被重新定义。通过设计有效的学习循环和反馈机制,可以创建一个自我强化的智能系统:智能体使用得越频繁,它们就变得越智能、与业务流程的契合度也越高。
【案例】一家法律服务提供商在对其合同审查工作流进行现代化改造时,面临着法律专业知识(如新判例法、管辖权差异)不断演变的挑战。为解决此问题,团队设计的代理式系统并非静态的,而是能在工作流中持续学习。例如,系统会记录并分类人类律师在文档编辑器中的每一次修改。这些宝贵的反馈数据,被工程师和数据科学家用来持续训练智能体、优化提示逻辑并丰富知识库。随着时间的推移,智能体得以将最新的专业知识和判断标准,内化为自身的能力。
通过专注于工作流而非智能体本身,团队得以在流程的正确节点,部署最合适的技术。这在重构复杂的多步骤工作流时尤为重要。
AI智能体能力强大,但这并不意味着它们是解决所有问题的最佳答案。领导者在决策前,必须像组建一支高绩效团队一样,审慎地评估“需要完成的工作是什么,以及每个潜在的‘团队成员’(无论是人类还是AI智能体)各自的才能是什么?”
在急于采纳代理式解决方案之前,应首先对任务需求进行清晰的解构。在实践中,这意味着要明确:该流程的标准化程度有多高?需要处理多大的变异性?以及智能体最适合承担哪些部分的工作?
核心在于,不要陷入“用或不用智能体”的二元思维。关键是为正确的任务,匹配正确的工具。
对于低变异性、高标准化的工作流(如合规报告、投资者引导流程),其逻辑严密且可预测。在这种场景下,引入基于非确定性大语言模型的智能体,可能弊大于利,反而增加不必要的复杂性和风险。基于规则的自动化(RPA)或传统的分析型AI往往是更可靠、更具成本效益的选择。
对于高变异性、低标准化的工作流(如复杂的金融信息提取、多源情报聚合),智能体则能发挥巨大价值。这些任务需要信息整合、交叉验证和合规分析,恰是智能体的用武之地。
在许多场景下,混合使用多种技术可能是最优解。例如,保险公司的理赔流程,可以通过一个统一的编排框架,将基于规则的系统(用于初步筛选)、分析型AI(用于风险评分)、生成式AI(用于生成理赔报告初稿)和AI智能体(用于协调各系统、处理复杂查询)有机地结合起来。在这种模式下,智能体扮演的是“编排者”和“集成者”的角色,是统一工作流、减少人工干预的“粘合剂”。
部署AI智能体时最常见的陷阱之一,是产出大量低质量、看似正确实则充满错误的“AI糟粕”(AI Slop)。当用户发现智能体的输出华而不实时,他们会迅速失去信任,导致系统采纳率低下。自动化带来的任何效率增益,都很容易被质量下滑和信任丧失所抵消。
从这一反复出现的问题中,我们得到一个来之不易的教训:企业必须像投资于员工发展一样,大力投资于AI智能体的开发、评估和持续改进。正如一位商业领袖所言:“为一个智能体办理‘入职’,更像是招聘一位新员工,而非简单地部署一个软件。”
这意味着,智能体需要:
清晰的“职位描述”:明确其任务、目标和边界。
系统的“入职培训”:通过高质量的评估(Evals)和最佳实践范例,对其进行训练。
持续的“绩效反馈”:建立机制,让领域专家能够持续地测试、评估和修正智能体的表现。
开发有效的评估体系是一项极具挑战,但至关重要的工作。它需要将顶尖员工头脑中的隐性知识(Tacit Knowledge)——例如,王牌销售代表如何推动对话、处理异议、匹配客户风格——以足够精细的粒度,编纂为可供机器学习的最佳实践。这套编纂出的知识库,既是智能体的“培训手册”,也是其“绩效考核标准”。
【案例】一家全球性银行在改造其“了解你的客户(KYC:know-your-customer )”和信贷风险分析流程时,将这一理念贯彻到底。每当智能体对合规性的建议与人类专家的判断出现分歧时,团队便会深入分析,识别逻辑差距,优化决策标准,并重新进行测试。例如,在发现智能体的初步分析过于笼统后,团队通过连续追问“为什么”的方式,开发并部署了多个辅助智能体,以确保分析能够达到所需的深度和粒度,从而大幅提升了最终输出的质量和用户的接受度。
在急于推进代理式AI的进程中,企业常常为每个新任务都创建一个独立的智能体。这种做法会导致严重的冗余和资源浪费,因为许多看似不同的任务,其底层行为(如数据提取、信息检索、内容分析)是共享的。
如何平衡“快速构建一次性智能体”与“投资于可复用的通用智能体”之间的关系,是CIO们面临的经典IT架构难题。
一个有效的起点是,识别出跨业务流程中反复出现的、高频的任务模式。基于此,企业可以开发出一系列模块化的智能体或智能体组件,并建立一个中央化的、经过验证的服务与资产库,供所有开发者轻松访问和复用。这个资产库应包括:
标准化的服务:如LLM可观测性工具、预先批准的提示词模板等。
可复用的资产:如成熟的应用模式、代码库、高质量的培训材料等。
根据我们的经验,将这些能力整合到一个统一的平台上,几乎可以消除30%到50%的非必要重复性工作,从而极大地加速创新并降低成本。
随着AI智能体日益普及,一个核心问题随之而来:人类在新的工作流中将扮演什么角色?我们必须明确:智能体将完成大量工作,但人类依然是劳动力等式中不可或缺的一部分,尽管双方的工作类型都将随时间而变。人类需要负责监督模型的准确性、确保合规性、运用专业判断力以及处理各种边缘案例。
我们从实践中得到的另一个深刻教训是,企业必须有意识地、深思熟虑地重新设计工作,以便人类与智能体能够高效、顺畅地协作。如果缺乏这种以人为本的设计,即使是最先进的代理式项目,也可能面临无声的失败、复合的错误和最终的用户抵制。
在设计人机协作流程时,应仔细识别在何时、何地以及如何整合人类的输入、判断与审批。例如,在前述的法律服务案例中,智能体能够高精度地整理核心索赔和金额,但考虑到这些信息对整个案件的重要性,最终必须由律师进行复核与批准。同样,智能体可以推荐案件的工作计划方案,但最终决策仍需人类专家来审查和调整。流程的最后,仍需由具备执业资格的人类律师签署文件,为其法律决策承担责任。
这种人机协作设计的一个关键部分,是开发简洁、直观的用户界面(UI)。例如,一家财险公司开发了交互式视觉元素(如边界框、高亮显示),以帮助理赔员快速验证AI生成的摘要。当理赔员点击某条洞见时,系统会自动滚动到原始文档的对应页面并高亮相关文本。这种对用户体验的极致关注,节省了时间,减少了猜测,并建立了用户对系统的信任,最终使采纳率接近95%。
当仅与少数几个AI智能体协作时,审查其工作并发现错误尚且直接。但当企业推广成百上千个智能体时,这项任务将变得极具挑战性。许多公司只追踪最终结果,这使得当错误发生时(而错误是必然的),很难精确地定位问题所在。
因此,必须在工作流的每一个步骤中,验证智能体的性能。将监控和评估能力,作为“可观测性”(Observability)工具,内嵌到工作流的设计中,能使团队在智能体部署后,依然能够及早发现错误、优化逻辑并持续提升性能。
【案例】在一个文档审查工作流中,某法律服务提供商的产品团队观察到,当系统遇到一批新类型案件时,准确率突然下降。由于他们在设计之初就构建了可观测性工具来追踪流程的每一步,团队迅速定位了问题:部分上游用户提交了低质量的数据,导致了错误的解析和下游的推荐失误。凭借这一洞察,团队迅速改进了数据收集规范,并调整了系统的解析逻辑,智能体的性能很快便得以恢复。
结论
代理式AI的世界正在飞速发展,更多的经验教训将不断涌现。但核心原则是清晰的:除非企业在推进其代理式项目时,始终将“学习”作为核心(无论是在理念上还是在实践中),否则他们很可能会重复错误,并延缓自身的进步。从重构工作流开始,审慎选择工具,像对待员工一样培养和评估智能体,构筑可复用的架构,精心设计人机协作的每一个细节,并确保全程可追溯——这正是从“试点炼狱”走向“规模化盈利”的必经之路。