你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
从“事后诸葛亮”到“预知未来”:企业级AI可观测性(Observability)必须跨越的5级进化阶梯
作者:CIO.com&睿观 来源:CIOCDO 发布时间:2025年12月26日 点击数:

可观测性(Observability)不再是运维工程师的工具箱,而是CIO手中的“水晶球”。

当AI开始接管业务,传统的“监控”已经失效。企业必须从“被动响应”进化到“自主运营”。这不仅关乎IT稳定性,更关乎在AI时代企业的生存能力。



——别再盯着仪表盘发呆了!可观测性的终局是“自主运营”

当你的微服务崩溃时,你需要知道的不仅仅是“CPU飙升了”,而是“这一秒钟我们损失了多少钱?”

这正是监控(Monitoring)可观测性(Observability)的本质区别。

然而,在AI重塑数字生态的今天,即使是“可观测性”也不够用了。Forrester分析师Carlos Casanova指出,整个行业正在经历一场深刻的进化:从单纯的诊断问题,迈向自主修复(Self-Healing)

Pacvue、SpotOn和Oracle的技术领袖们共同勾勒出了一个清晰的5级成熟度模型。你的企业正处在哪一级?

💡读完本文,你将获得关于IT运营转型的3大核心战略洞察。

📉 洞察一:从“技术信号”到“金钱语言”

(Level 3:Business Observability)

前两级(Level 1监控、Level 2技术可观测性)解决了工程师的问题:发生了什么?为什么发生? 但这对CIO来说还不够。

到了第3级,可观测性必须回答商业问题:

  • 延迟如何影响转化率?

  • 这次宕机造成了多少收入损失?

  • 哪些高净值客户受到了影响?

案例:Pacvue他们的团队发现,MTTR(平均修复时间)与客户流失率直接相关。通过自动化可观测性减少漏洞,直接提升了客户留存率。 

睿信咨询顾问解读:

这标志着可观测性从“成本中心”转向“价值中心”。当你能把系统稳定性直接换算成美元时,你在董事会上的话语权将截然不同。

🤖 洞察二:AI的双重角色——是“副驾驶”,也是“被监管者”

(Level 4:AI-Assisted Observability)

数据太多,人脑不够用了。这时候,AI副驾驶(Co-pilot)进场。 它可以像气象预报员一样,跨越数千个微服务,识别出人类无法察觉的“风暴前夕”。

但这里有一个悖论:我们用AI来观测系统,谁来观测AI?AI模型会漂移(Drift)、会产生幻觉(Hallucination)。因此,现代可观测性管道必须纳入全新的指标:漂移检测、数据新鲜度、幻觉监测

睿信咨询顾问解读:

这是一个双向系统:AI增强了可观测性,而可观测性也让AI更可信。没有护栏的AI是危险的,没有AI的可观测性是盲目的。

🔄 洞察三:终极形态——系统自己修好自己

(Level 5:Autonomous Operations)

进化的终点,是不再需要人类介入。 在Pacvue,低风险的故障已经实现了全自动修复。AI智能体(Agent)负责调查,另一个AI智能体(Agent)负责修复,只有涉及核心数据的高风险操作才需要人工审批。

这不仅是效率的提升,更是组织韧性的飞跃。 SpotOn通过AI提供上下文解释,让初级工程师也能像老专家一样处理故障,从而降低了对个别核心人员的依赖(“巴士系数”风险:关键系统依赖于一两个人的知识,如果他们不在场,就会造成脆弱性)。

🚀 战略启示:给CIO的进阶指南

要沿着这5级阶梯向上攀登,你需要做三件事:

  1. 统一数据底座(OpenTelemetry):抛弃碎片化的工具。如果你的日志、指标和链路追踪不在同一个平台上,AI就无法获得完整的上下文。拥抱OpenTelemetry等开放标准是必经之路。

  2. 建立“业务-技术”映射:不要只看SLI(服务水平指标),要看SLA(服务等级协议)背后的商业承诺。把每一个技术警报都挂钩到一个业务影响上。

  3. 为自动化设定“护栏”:不要试图一夜之间实现全自动。先自动化“调查”,再自动化“低风险修复”。建立信任是一个渐进的过程。

总结

可观测性的进化,本质上是一场认知的升级

它不再是关于修好一台服务器,而是关于如何让你的数字业务在混乱和不确定中,保持脆弱性

当你的系统能够在故障发生的毫秒级内自主感知、决策并修复时,你就拥有了AI时代最坚固的护城河。

原文:可观测性(Observability)成熟度的五个阶段


随着AI重塑数字生态系统,可观测性正在演进为一项业务关键型能力:它不仅能够预测故障、保障收入,还日益具备自主修复问题的能力。



图源:Rob Schultz / Shutterstock

CIO首席信息官)们谈论可观测性(Observability)时,他们可能指的是日志仪表盘、实时因果图,或是在客户尚未感知前就揭示业务风险的 AI 智能体(Agent)。这个词已被过度使用,以至于连资深分析师听到它都会皱眉。

Forrester 的 Carlos Casanova 就是其中之一。他表示,整个行业把这个词滥用到了极致:从 APM(应用性能监控)工具、网络遥测到完整的平台智能,统统被塞进可观测性的大筐。然而,在混乱的表象之下,一件更重要的事正在发生——可观测性正沿着一条清晰的路径演进:系统不仅能检测和诊断问题,还将基于业务影响自主修复。

与三位技术领袖的访谈勾勒出了一个明确的五级成熟度模型。Pacvue 全球 DevOps 总监 Michael Woodside、SpotOn 工程副总裁 Jeremy White,以及 Oracle 首席云架构师 Khushboo Nigam 一致认为,不同阶段的进展不仅仅是工具的变化,可观测性的进步重塑了企业如何保护收入、保障客户体验并治理日益依赖的 AI 系统。

一、阶段 1:监控——对已发生故障的被动视角


传统监控围绕阈值、指标和仪表盘构建:CPU 飙升、错误率或延迟超过警戒线即触发警报。监控在设计上是反应性的(Reactive),因为它在问题发生后告诉你出了什么问题。在单体、本地部署、故障域狭小的年代,这种“事后诸葛亮”已足够了。

如今,分布式系统产生海量遥测数据,一个微服务的故障可能波及数十个依赖项。基于阈值的警报既解释不了为什么,也判断不了这是小麻烦还是百万美元的大灾难。CIO 们需要更前瞻、更贴合业务语境的能力。

二、阶段 2:技术可观测性——穿透整个技术栈


从监控到可观测性的转变引入了对系统行为更深、更立体的理解。现代可观测性平台汇聚日志、指标、链路追踪(Traces)与配置上下文,绘制服务依赖图,让工程师得以复盘事故全过程。

但数据的激增带来了新问题。SpotOn 为餐厅和酒店业务提供服务,White 及其团队在高度分散的环境中运行核心服务和基础设施,以确保支付、订购和店内系统的正常运行。他描述了公司最初使用可观测性平台 Grafana Cloud 的经历如何导致信号与噪声的过载:“我们从数据不足跳到数据过载,工程师拿到了他们要求的细粒度遥测数据,却无从辨别哪些是真正重要的。技术可观测性解决了‘发生了什么’的问题,却仍未回答‘这意味着什么’。

技术可观测性加快了诊断速度,但如果没有业务视角,它仍会把人淹没在噪音里。于是,这自然演进到下一阶段:将遥测数据与收入、客户体验、风险直接联系起来。

三、阶段 3:业务可观测性——当技术信号与金钱相遇


业务可观测性让可观测性从工程话题升级为“CIO级战略议题”。在这一阶段,企业不再满足于遥测技术,而是提出更具后果性的问题:哪些交易正面临风险?延迟如何影响转化率?这次降级带来多少收入损失?该优先向哪些客户主动发出关怀?在业务高峰时段,如何按经济影响给事故排优先级?

CIO 们不仅想知道发生了什么,更想知道代价有多大。Pacvue 帮助品牌管理和自动化市场中的活动,清楚地展示了这一转变。Woodside 的团队分析了运营指标与业务结果之间的相关性,特别是客户流失率。他说:“当 MTTR平均修复时间)下降,流失率就跟着下降。”同样,减少生产缺陷能提升留存率。自动化可观测性为 CI/CD流水线提供数据,减少漏洞数量,稳定功能,并提高客户保留率。对 Woodside 而言,这是实打实的利润影响,而非纸上谈兵。

Oracle 的 Nigam 直接与企业合作设计云和可观测架构,她揭示了这种联系背后的结构:延迟、错误率等SLI服务水平指标汇聚成 SLO(服务水平目标),再支撑对外承诺的 SLA(服务等级协议)。她说:“领导和客户只看 SLA,但 SLA 源自最基础的遥测。”一旦遥测数据缺位或采集不一致,企业就无从量化业务风险。

SpotOn 的 White 补充了客户体验维度。他的团队会主动识别餐厅网络故障,通常是在餐厅自己意识到之前。他说:“服务商先打电话告诉你‘我们发现问题了’,这会完全改变整个体验。”即使底层故障是相同的,客户也感受到被关怀,而非被拖累。

业务可观测性将可观测性从技术安全网转变为业务韧性系统,但要规模化运作,它需要新搭档:AI。

四、阶段 4:AI 辅助可观测性——上下文、关联与副驾驶


AI 的到来并非替代可观测性,而是将其推向新高度。随着遥测数据量的激增,人类的解读成为瓶颈。团队缺的不是数据,而是时间、上下文与认知带宽。AI 副驾驶(Co-pilot)正在开始填补这一鸿沟。

Casanova 把 AI 比作气象预报员。他说,本地工程师或许了解巴黎或伦敦的天气,却没人能俯瞰整个大西洋上正在形成的巨型气象系统。AI 能够跨域拼接信号,识别单点团队无法监测的模式,并在这些模式显现前就做出预测。

Nigam 指出,AI 副驾驶擅长在数十万条日志中抽丝剥茧,总结因果链,并提供关于哪些环节出错的假设,这缩短了 MTTD平均检测时间)和 MTTU(平均理解时间)

Woodside 注意到,AI 的可解释性——他称之为“面包屑”——已成为赢得信任的关键。当 AI 生成的诊断能清晰展示推导过程时,工程师接受得更快、犹豫得更少。结果之一是他的 DevOps 团队花费更少时间在监控日志上,更多时间投入成本优化与架构升级。

然而,可观测性在此又完成一次进化跃迁:AI 不仅增强可观测性,自身也成为必须被观测的系统,因为模型会漂移、性能会退化、答案会波动,甚至偶尔会产生幻觉。因此,现代可观测性管道必须纳入全新遥测:漂移指标、数据新鲜度检查、可变性指标、幻觉监测以及保障可信行动的护栏。依赖 AI 的企业,必须确保 AI 本身是可靠的、可审计的和稳定的。

在这一阶段,可观测性变成双向系统:AI 让可观测性更强,可观测性也让 AI 更可信。

五、阶段 5:自主运营——从洞察到行动


进化的终点不仅是检测或诊断事故,而是自主解决事故,这已经在所采访企业中的一些领域发生。

在 Pacvue,Woodside 描述了一条日益由 AI 智能体(Agent)驱动的生产工作流:一个智能体(Agent)负责调查,另一个负责潜在修复,低风险场景可全自动执行;涉及持久化数据存储等高风险操作,则保留人工审批回路。这种平衡让团队在扩大自动化规模的同时仍保有安全闸口。

这里的核心创新是“智能体(Agent)到智能体(Agent)”协议的出现,它让 AI 智能体(Agent)之间可以像微服务一样传递完整上下文。一旦上下文可被机器读取,许多任务的主要操作者就不再是人,而是机器。

在 SpotOn,White 看到由于升级链的崩溃所带来的影响:过去新工程师必须依赖少数老专家才能摸清系统的隐性依赖;如今 AI 提供上下文解释,初级工程师也能自信、高效地参与应急通话。这还降低了“巴士系数”风险,即关键系统依赖于一两个人的知识,如果他们不在场,就会造成脆弱性

自主运营提升的是人类,而非取代人类。企业通常先自动化调查环节,再对低风险场景进行补救。随着信任、透明度与治理机制的成熟,自动化会稳步向更高价值的工作流扩张。

六、如何沿着五级成熟度模型进阶


组织不能仅仅通过增加更多仪表板或启用选定的机器学习功能来实现自主运营。自主性需要在两个维度上实现可观测:业务可观测性与 AI 可观测性,而这两者都要求达到少数企业尚未实现的纪律水平。

第一,连贯性(Consistency)。公司必须抛弃碎片化工具,构建能一致采集日志、指标、链路追踪与模型信号的统一遥测管线。对许多人来说,这意味着拥抱 OpenTelemetry 等开放标准,整合数据源,让 AI 拥有完整的环境视图。没有这一基础,再高级的 AI 副驾驶也缺乏可靠上下文。

第二,业务对齐(Business Alignment)。那些成功从监控走向可观测、再走向自主运营的企业,都学会了把技术信号与业务结果对应起来。领导层不仅想知道微服务抛出的错误数量,还想知道受影响的客户、潜在的收入损失,或者如果问题持续下去的 SLA 暴露情况。业务可观测性让这种对话成为可能,也为自动化提供了经济合理性。

第三,AI 治理(AI Governance)。正如 Nigam 所言,AI 模型会随时间改变特性,因此可观测性必须延伸到 AI 层,实时洞察模型行为与不稳定性早期迹象。越依赖 AI,企业越要承担新的运营责任,以确保 AI 本身保持可靠、可审计和安全。

最后,为自动化建立护栏(Guardrails)。Casanova 与 Woodside 一致认为,迈向自主运营不是一夜跃迁,而是人类审查和机器自动处理之间的界限逐步扩展。成熟的组织先自动化调查步骤,再对低风险场景实施自愈,待可追溯性与信心建立后,才扩展到更复杂的工作流。

这些要素共同构成了下一代数字运营的框架,让可观测性反映的是业务现实而非工程噪音,让自动化不再是风险,而是战略优势。

作者:Pat Brans  译者:木青  编审:@lex