你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
告别IT“救火队长”!AI的第一个战场:DevOps的“自我修复”革命
作者:CI0.com&睿观 来源:CIOCDO 发布时间:2025年11月24日 点击数:

——AIOps如何实现从“警报疲劳”到“根因分析”的智能化飞跃

各位CIO、CTO和运维负责人:

AI的第一个重大应用领域,正是孕育它的“母体”——计算机系统

与自动驾驶汽车需要应对大雾和任性的行人不同,计算机系统中精确的硬编码数据,能促成更明确的决策。这使得DevOps(运维开发)领域成为探索人工智能强大功能的绝佳“试验场”。

如今,我们不再满足于简单的自动化,而是在寻求AIOps(人工智能运维)的智能化转型。AIOps正在将运维团队从“救火队员”的角色中解放出来,其核心目标是:实现预测式监控系统“自我修复”

以下是AIOps如何重塑IT运维的三个关键转变。

1. 🌐 AIOps的核心价值:从“反应式”到“预测式”

AIOps不再是等问题发生后才通知你。它正在利用AI算法,在灾难发生前就提前干预。

  • 警报降噪与预测:AIOps体系的很大一部分功能都用于管理警报,确保只有最严重的问题才会打断会议或美梦。工具能够根据历史数据并结合季节和时间因素,构建性能预测,一旦指标偏离正常范围,就会触发警报。

  • 根本原因分析(RCA):复杂的AIOps工具具备“根本原因分析”功能。它能够生成流程图,追踪一个故障(例如:数据库过载)如何在现代企业应用的各种机器中蔓延(例如:导致API网关变慢,进而使网络服务冻结)。这种自动记录的工作流程目录,能帮助团队更快地找出潜在问题

  • 实现“自我修复”:最终目标是系统能够自动运行,自行处理更多IT工单。例如,经过适当配置的Dynatrace Davis核心AI,可以自动触发诸如重启实例等操作来解决问题,无需等待人工介入


2. 🤖 界面革命:生成式AI的“平民化”潜力

生成式人工智能(GenAI)正在进入AIOps平台,重塑人机交互界面。

  • 对话式交互:员工能够使用自然语言与工具进行更流畅的对话式交互。虽然讨论的内容仍然涉及底层系统的技术细节,但交流方式采用的是自然语言,而非像SQL那样的编程语言。

  • 平民化与争议:一些AIOps工具用户认为,这将使工作更加“平民化”(democratizing),让那些可能没有接受过太多专业培训的人也能管理IT系统。但另一些人则觉得,如果讨论的核心仍然是部署的具体细节,便捷的交互界面带来的改变不大。

【顾问洞察】尽管有争议,但这种对话式界面很难让人抗拒。它降低了学习门槛,使运维团队能够更专注于解决问题,而非学习复杂的编程或查询语言


3. 🛠️ CIO评估AIOps的3个关键维度

在评估市面上琳琅满目的AIOps平台时,CIO应关注三个核心维度:

  • 数据连接的多样性:平台的价值取决于它能从企业系统的各个角落收集多少数据。你需要评估每个平台与自身特定数据库和服务的集成效果。

  • 架构的起源与核心能力:平台是基于历史监控系统(后融入AI)构建,还是起源于AI实验室?核心AI是确定性AI(如Dynatrace Davis,能够准确找出根本原因),还是概率性AI

  • 闭环自动化与降噪:平台是否能提供闭环自动化(如Digitate ignio,能主动处理40%的问题),同时优先致力于减少“警报疲劳”(如LogicMonitor,避免铺天盖地的“警报风暴”)?

AIOps是DevOps实践的自然延伸,它正在将IT运维从一个纯粹的“成本中心”转化为一个保障企业系统平稳运行的“智能引擎”。


全文:助力人工智能融入IT运维的14大顶尖AIOps工具


融入人工智能和机器学习的基础设施监控工具能够预测和分析事件及警报,确保企业系统平稳运行。

图源:Rob Schultz / Shutterstock

人工智能(AI)的首个重大应用领域正是孕育它的“母体”。计算机系统中充斥着硬编码数据,非常适合应用数据驱动的机器学习算法。自动驾驶汽车需要应对大雾、任性的行人以及降雨等复杂情况。然而,计算机系统本身所包含的精确数值能促成明确的决策。这些决策或许并不总是简单直接,但相比在暴风雪中操控汽车要容易得多。

在DevOps(运维开发)领域,人工智能的应用潜力尤为显著。DevOps是一个数据丰富的后台实践领域,为探索人工智能的强大功能提供了绝佳的“试验场”。如今,负责运维的团队有了越来越多打着AIOps(人工智能运维)旗号的省力且提效的工具和平台可供选择,这些工具都承诺将最先进的人工智能算法应用于维护IT基础设施的工作中。

一、 AIOps平台的功能

AIOps最基本的任务之一是加快软件部署到云实例的速度。运维开发团队的所有工作都可以借助更智能的自动化技术得到优化,这些技术能够监控负载、预测需求,甚至在请求量激增时启动新的实例。

智能的AIOps工具能够预测机器负载,并实时监测是否有任何情况偏离预期。异常情况可能会触发警报,通过电子邮件、Slack消息发送通知;如果偏差足够大,甚至会发出传呼提醒。AIOps体系的很大一部分功能都用于管理警报,确保只有最严重的问题才会打断会议或美梦。

这些监测异常水平或活动的方法有时也用于加强安全性,这是一项更具挑战性的任务,使得一些AIOps工具同时成为安全人员和运维开发团队关注的对象。

复杂的AIOps工具还具备“根本原因分析”功能,能够生成流程图,追踪问题如何在现代企业应用的各种机器中蔓延。例如,数据库过载会导致API网关变慢,进而使某个网络服务冻结。这些自动记录的工作流程目录可以通过记录和追踪问题链,帮助团队更快地找出潜在问题。

最近,关于“自我修复” 系统的讨论越来越多,这类系统能够自动运行。一些管理人员对给予AIOps系统过多自主权感到不安,而另一些人则着迷于机器能够自行处理更多IT工单的能力。

二、 生成式人工智能:AIOps界面的演变

一些AIOps平台正在集成更多生成式人工智能工具,使员工能够使用自然语言与工具进行更流畅的对话式交互。虽然讨论的内容仍然涉及底层系统的技术细节,但交流方式采用的是自然语言,而非像SQL那样的编程语言。

对于这一演变,人们看法不一。一些AIOps工具用户认为,这将使工作更加“平民化”,让那些可能没有接受过太多专业培训的人也能管理IT系统。另一些人则觉得,如果讨论的核心仍然是部署的具体细节,那么即使使用自然语言与AIOps平台交互变得更便捷,也不会带来太大改变。对话的本质依然非常专业。不过,即便有些人对生成式人工智能的必要性存疑,这种对话式界面还是很难让人抗拒。

三、 评估AIOps平台时应考虑的因素

本次调研中的许多工具都是基于历史悠久的监控系统构建的。它们最初是用于追踪复杂企业系统中的事件,如今已融入了人工智能技术。也有少数工具起源于人工智能实验室,而后逐步向外拓展应用。无论哪种情况,评估这些平台时,人们都需要关注收集数据的连接器的多样性。

不同的AIOps平台与企业现有系统的集成程度各不相同。所有平台都提供了一套基本的数据收集途径,但某些连接器的性能更优。任何考虑采用AIOps平台的企业都需要评估每个平台与自身特定数据库和服务的集成效果。

四、 当前领先的AIOps平台

以下是14款领先的AIOps工具,它们能简化维护企业IT基础设施平稳运行的工作。


  1. IBM Watson Cloud Pak for AIOps:IBM通过将其通用的Watson品牌人工智能与更大的云服务业务集成,创建了Watson Cloud Pak for AIOps工具。该工具为从云监控软件收集的数据提供自动根本原因分析。他们声称,人工智能可以将事件响应从疯狂的责任追查转变为统一的、由信息驱动的解决方案大会战。Watson持续监控事件流,直到事件达到可配置的严重程度级别。然后,Watson会以一组可编程的基本警报或自动响应进行回应。IBM已将该工具的结果与其他云平台包集成,包括网络、业务和机器人流程自动化等平台包。

  2. BMC HelixITSM(IT服务管理)专业人员经常借助BMC Helix平台来管理问题和系统演进。BMC基于人工智能的解决方案既注重根本原因分析,又提供对话式界面,帮助团队各级人员诊断和解决问题。BMC Helix平台不仅专注于AIOps和后端工作流程,还有与客户服务管理和SecOps(安全运维)紧密集成的产品,以支持对外业务。

  3. Datadog:Datadog一直在其性能管理套件中添加如Watchdog或Bits等人工智能工具,以便在性能开始下降时,运维开发团队能收到更智能的预警。这些工具包含一系列基于机器学习的选项,可根据历史记录并结合季节和时间因素调整来构建性能预测。如果诸如延迟、内存消耗或网络带宽等指标偏离正常范围,就会触发警报。Datadog正在增加更多自主性服务,使工具能够自主运行,减少人工干预的需求。该公司还提供一些功能的预览访问权限,这些功能可以分析代码甚至重写代码以消除错误。该工具与Datadog的安全检测系统集成,可与虚拟机、云实例和无服务器函数协同工作。

  4. Digitate ignio:Digitate公司的ignio AIOps平台专注于闭环自动化,为IT和业务运营带来敏捷性和弹性。它主要监控企业内外部业务健康状况,同时优化成本,特别是在云计算环境中。该公司估计,其自主工具集在典型配置下能够主动处理40%的问题,并减少60%的人工工作量。它拥有数百种集成方式,并提供一个低代码工具用于添加其他集成。该公司的其他产品还包括针对ERPOps(企业资源计划运维)和采购中的工作负载管理、问题跟踪与解决的类似解决方案。

  5. Dynatrace:Dynatrace的核心有三大战略技术:Analytics(分析)、AI(人工智能)和Automation(自动化)。机器学习和LLMs(大语言模型)是其功能全面的监控工具的一部分,用于跟踪基于云的虚拟机、容器和其他无服务器解决方案。输入日志文件、事件报告和其他触发因素,就能得到该公司所称的“精确的、由人工智能驱动的答案”。其核心包括一组代理,可通过编程来监控特定事件或事件集合。其核心人工智能名为Davis,这是一个确定性人工智能,能够构建流程图和树形结构,从而准确找出任何异常或故障的根本原因。Davis与Grail(一个充满遥测数据的数据湖仓)、SmartScape(一个用于绘制企业拓扑结构的工具)和AutomationEngine(一个用于整合收集到的信息的工具)协同工作。经过适当配置,它可以自动触发诸如重启实例等操作来解决问题,而无需等待人工介入。

  6. GitHub Copilot:大多数AIOps工具旨在帮助已上线运行的软件。而GitHub Copilot在软件开发过程中更早介入,在编写代码时提供帮助。正如该公司的广告语所说:“让你的编辑器成为最强大的加速器”。该工具会观察程序员输入的内容,并给出代码补全建议。Copilot基于大量开源代码进行训练,其给出的建议具有一定的现实依据。不过,对于新代码的最终作者是谁、能否信任人工智能以及数百万开源程序员是否应因提供帮助而获得赞誉或认可,仍存在疑问。答案或许是“有可能”。一个更大的问题是:Copilot对代码的理解究竟有多深入,它是否真的比自动补全功能强很多?答案是:大多数时候Copilot确实更胜一筹。

  7. BigPanda:BigPanda专注于检测异常行为,并协调负责解决问题的团队。其同名平台提供根本原因分析和主动事件检测功能,可与主要云服务提供商集成。它的L1自动化功能能够在问题出现后承担更多工作,借助人工智能驱动的自动化加速做出更明智的决策。BigPanda通过为Jira或ServiceNow等系统创建工单、发送警报,并提供针对根本原因的包含回滚策略的工作流计划,简化了IT工作流程。其目标是创建一个智能知识图谱,使其了解不断发展的企业系统,并为保持系统平稳运行提供智能方案。

  8. LogicMonitor:LogicMonitor是一个混合可扩展平台,可从企业系统的各个角落收集遥测数据,从数据库、数据湖到网络和虚拟机,涵盖云服务和本地机器。来自3000多个集成收集器的所有这些数据会使用标准规则和一组智能人工智能进行分类、分析和异常监测。该平台将根本原因检测器与基于历史数据调整的动态阈值的警报系统捆绑在一起。其早期预警系统依赖于一个预测模块,该模块利用历史数据来计算延迟、带宽和其他指标的阈值。LogicMonitor优先致力于减少“警报疲劳”,避免铺天盖地的“警报风暴”,帮助团队将精力集中在真正异常的行为上。

  9. Moogsoft:Moogsoft如今是Dell Technologies(戴尔科技集团)的一部分,它是一款专门的AIOps解决方案,可与主要的性能监控工具集成,如New Relic、Datadog、AWS Cloudwatch和AppDynamics。该产品将数据通过一个管道进行处理,对事件进行去重,用来自其他来源的上下文数据丰富这些事件,并在发出警报之前对数据进行关联分析。其人工智能引擎运用生成式人工智能进行解释,并使用各种统计和聚类算法,将新警报置于历史行为的背景中进行分析。其目标是“降噪”,减少人们在理解警报时面临的困扰。

  10. New Relic:当问题出现时,New Relic使用人工智能引擎分析从一系列云跟踪工具(如Splunk、Grafana和AWS的CloudWatch)收集的性能数据。该工具可以针对各种潜在严重程度的事件配置灵活的敏感度级别。例如,你可以告诉New Relic,一个低优先级错误只有在15分钟内多次出现时才触发警报。但是,像服务器崩溃这样的高优先级事件会立即触发传呼警报。问题日志会跟踪所有事件,并包含一份关联决策报告,该报告详细列出了人工智能发出警报过程中所采取的逻辑步骤。客户可以通过多种方式自定义历史数据的存储方式,以便进行分析和检索。其目标是尽量缩短mean time to detection/MTTD(平均检测时间),并为人工提供足够支持,以减少mean time to investigate/MTTI(平均调查时间)和mean time to resolve/MTTR(平均解决时间)。

  11. PagerDuty:从名字来看,PagerDuty似乎主要是为了叫醒人来解决IT问题。但如今情况已有所不同,PagerDuty宣称它“由人工智能驱动”,能够在呼叫人工之前做出一些决策。该系统非常注重将事件响应的大部分流程自动化,无论是内部问题还是客户通过其客户支持门户提出的问题。

  12. ServiceNow:ServiceNow构建的平台致力于提供大量人工智能代理来处理任何企业事务,其中一些事务与AIOps相关。例如,ITOM(IT运维管理)套件将机器学习与工作流自动化相结合,根据过去的经验仔细监控并快速做出响应。人工智能控制塔将所有代理连接到一个中央枢纽,该枢纽可以回答关于云稳定性的基本问题,以及关于治理和管理的更复杂问题。ServiceNow的目标是全面掌控企业系统的几乎每个方面。

  13. ScienceLogic:ScienceLogic的Skylar One平台旨在提供一组智能监测工具,用于监控企业云,并在必要时进行干预。该产品针对复杂的混合环境构建一个完整的模型,为任何人工智能和监管人员提供理解系统运行状况(以及出现问题时了解故障情况)所需的背景信息。该平台内值得注意的工具包括一个用于以传统方式自动化工作流的低代码工具,以及Skylar Advisor,这是一个由人工智能驱动的工具,可提供有关如何解决问题的建议。使用Skylar Analytics的实时仪表板为人们提供有关正在发生的事情的快速可视化线索。

  14. Splunk AppDynamics:Splunk的可观测性产品系列旨在监控企业系统,评估其性能,并分析该性能如何影响各种业务指标。AppDynamics是Cisco(思科)的一个部门,现已并入Splunk产品系列,它可以监控复杂系统,找出根本原因,并尽快为修复最关键部分提供建议。它可以与所有类型的定制软件和授权软件配合使用,无论是在本地环境、云环境还是两者皆有。Splunk人工智能助手提供一个对话式界面,利用机器学习跟踪与从行为分析等数据中收集的历史基线不同的指标。该系统可以构建流程图,并了解事件如何级联直至系统故障,从而帮助识别根本原因。使用定制机器学习构建的智能架构可以与诸如Model Control Protocol/MCP(模型控制协议)等开放标准相连接。AppDynamics致力于将这些指标与诸如销售数字等硬性“业务成果”相关联,并通过提供链接,利用开放标准的组合自动解决常见故障,为其平台带来一种“自我修复理念”。


作者:Peter Wayner(彼得·韦纳)

译者:宝蓝   编审:@lex