IBM的IT automation benchmarking platform(IT自动化基准测试平台)现已向公众开放,该平台通过AI Alliance(AI联盟)带来了透明度、特定领域的指标以及协作机会。【ITBench是一个专门用于评估AI智能体在真实IT自动化任务中表现的框架,它特别关注站点可靠性工程(SRE)、合规与安全运营(CISO)以及财务运营(FinOps)这三个关键领域。该框架由IBM在2025年初发布,旨在通过模拟真实世界的IT环境和事件,来衡量AI智能体的有效性。】
图源:Laborant / Shutterstock
IBM研究院正通过推出ITBench(该公司用于企业IT自动化的基准测试平台)的SaaS版本,大力推动人工智能评估指标在全行业的标准化。此举将2月份开始的有限学术测试升级为建立衡量IT运营中人工智能有效性的行业标准。
随着此次面向公众发布,IBM正式与AI联盟展开合作。该联盟由150多个组织组成,包括科技公司、学术机构和研究实验室,旨在推动企业领域更广泛地采用标准化的人工智能评估方法。
IBM研究院负责IT自动化人工智能的主任Daby Sow(达比·索)向笔者表示:“我们旨在借助与人工智能联盟等开源社区的合作,将ITBench扩展到复杂IT环境中的新领域和现实场景。通过将该工具开源,我们邀请合作伙伴共同塑造基准,并建立基于标准的可靠评估实践。”
一、公开发布的平台增强功能
ITBench现在作为一个完整的SaaS应用程序运行,具备自动环境部署和场景执行功能。Sow(索)解释道:“ITBench可以处理与企业相关场景的设置和执行,无需手动配置。”
IBM还在GitHub上发布了一个公开的排行榜,透明地跟踪不同供应商和解决方案的性能指标。“ITBench排行榜托管在GitHub上,提供透明的性能跟踪,促进IT自动化领域的竞争和创新。”Sow(索)说。
根据测试期间的反馈,该框架也进行了扩展,纳入了更全面的场景。该平台现在涵盖了三个关键企业领域的94个现实场景:Site Reliability Engineering/SRE(站点可靠性工程)、Financial Operations/FinOps(财务运营)以及Compliance and Security Operations/CISO(合规与安全运营)。
IBM现在通过与人工智能联盟合作,正式将ITBench定位为行业标准,从学术合作阶段迈向更广泛的行业应用。
二、解决企业AI评估的缺口
与现有的主要侧重于编码技能或聊天功能的人工智能基准测试不同,ITBench旨在解决企业市场中的一个基本空白,即为关键任务IT运营提供评估指标,因为这些运营中的故障可能会对业务产生重大影响。
“如果没有标准化的测试或基准,几乎不可能评估哪些系统真正有效,”Sow(索)指出,“这就是为什么强大的基准测试至关重要,不仅是为了指导应用,也是为了确保安全性、问责制和运营弹性。”
该平台与现有基准测试方法的不同之处在于,它专注于在动态IT环境中对人工智能智能体进行端到端评估。据IBM称,当前行业基准测试通常侧重于狭窄的功能,如“静态异常检测、表格工单分析或硬编码故障注入”,这些无法充分反映企业IT运营的复杂性。
三、特定领域的评估与部分评分系统
ITBench框架的一个显著特点是其以领域为中心的评估指标,这些指标针对特定企业功能进行了定制,可能会提供比通用人工智能基准更细致的评估。
Sow(索)解释说:“评估指标以领域为中心,根据SRE、CISO和FinOps的特定需求进行定制。例如,SRE任务侧重于故障诊断,检查人工智能智能体能够多好地找出问题的起源和传播方式,以及缓解措施,即问题能够多快得到解决。”
Sow(索)说:“ITBench还采用了部分得分系统,超越了简单的及格/不及格评估。推理质量也会被评分,即使最终答案并不完美,也会对有意义的进展给予部分分数。”
【睿观:ITBench是一个专门用于评估AI智能体在真实IT自动化任务中表现的框架,它特别关注站点可靠性工程(SRE)、合规与安全运营(CISO)以及财务运营(FinOps)这三个关键领域。该框架由IBM在2025年初发布,旨在通过模拟真实世界的IT环境和事件,来衡量AI智能体的有效性。初步的研究结果表明,目前最先进的AI模型在解决这些复杂的IT任务方面仍有很大的提升空间。
ITBench具有一些重要的特点,例如它以实际的IT场景为基础进行评估,并且是一个开放、可扩展的框架,鼓励社区参与贡献。此外,它还采用了部分评分机制,这意味着即使AI智能体没有完全解决问题,只要在推理过程中展现出有价值的步骤,也能获得一定的分数。评估指标是根据SRE、CISO和FinOps的具体需求定制的,例如,SRE任务会侧重于故障诊断和问题解决的速度。
ITBench的架构基于Kubernetes,并提供了便捷的环境部署工具。它还包含了使用CrewAI框架构建的参考AI智能体,这些智能体可以配置不同的LLM模型。初步的评估结果显示,即使是最先进的LLM模型,在解决ITBench的复杂场景时成功率仍然较低,这突显了真实世界IT自动化任务的难度以及未来AI在该领域的发展潜力。ITBench包含94个不同的场景,涵盖了SRE、CISO和FinOps三个领域】
这种方法可能会提供比传统基准测试更现实的评估,不过该行业是否会将这些指标作为标准采用还有待观察。任何基准测试工具面临的挑战都是在多个供应商之间建立可信度,并避免可能偏袒特定方法的偏差。
四、开源但有部分限制
IBM将ITBench描述为一个免费的开源SaaS平台,不过实际上公众可访问的内容存在一定限制。
虽然该公司开源了11个演示场景和智能体,但为了“维护基准测试的完整性,防止数据泄露到基础模型中”,公司特意对一些场景保密。这种部分公开的做法引发了人们对该平台是否能真正被视为完全开源的质疑,不过IBM坚称,这种做法对于防止系统被恶意利用是必要的。
对于那些难以评估相互矛盾的人工智能供应商说法的首席信息官和IT领导者来说,标准化的基准测试能够提供急需的明确指引。Sow(索)称:“ITBench通过提供一种基于现实场景、由开源工具支持的透明且系统的评估方法,满足了这一需求。”
作者:Gyana Swain(吉亚纳·斯万),Gyana(吉亚纳)是一位特约撰稿人。
译者:宝蓝
【睿观: IBM 推出了 ITBench 这一公开的 SaaS 化基准测试平台,并与 AI 联盟合作,致力于为企业 IT 自动化领域的人工智能评估建立行业标准。该平台通过提供针对 SRE、FinOps 和 CISO 等关键领域的特定指标、端到端评估以及创新的部分评分机制,填补了现有 AI 基准测试的空白。尽管其开源程度受到一定限制以确保基准的完整性,ITBench 旨在为 IT 领导者提供一个透明、可靠的工具,以评估和比较不同 AI 解决方案在复杂现实场景中的表现。
(一)解决方案分析:(SCA - Situation, Complication, Answer)分析
情景 (Situation):
企业在 IT 运营中越来越多地寻求利用人工智能(AI)来提升自动化水平,但缺乏统一标准来评估这些 AI 解决方案的真实有效性。
冲突 (Complication):
现有的 AI 基准测试主要集中在通用技能(如编码、聊天),未能满足企业在关键 IT 运营(如站点可靠性工程SRE、财务运营FinOps、合规与安全运营CISO)中评估 AI 智能体复杂、动态、端到端表现的特定需求,导致企业难以客观比较和选择合适的 AI 工具。
答案 (Answer):
IBM 通过 AI 联盟公开发布了 ITBench 平台——一个专注于企业 IT 自动化的 SaaS 化基准测试解决方案,旨在通过提供透明的、领域特定的评估指标(针对 SRE、FinOps、CISO)、部分评分机制以及一个协作但有控制的开源框架,为行业树立评估 AI 在关键 IT 运营中效能的新标准,帮助企业做出更明智的技术决策。
(二)支撑核心论点的关键理由:
ITBench 通过公开发布和与 AI 联盟合作,推动 IT 自动化 AI 评估的行业标准化:
平台已从有限学术测试升级为向公众开放的 SaaS 应用程序,具备自动环境部署和场景执行功能。
通过与 AI 联盟(包含150多个组织)合作,旨在将 ITBench 扩展到新的领域和现实场景,并建立基于标准的可靠评估实践。
在 GitHub 上发布了公开排行榜,以透明地跟踪不同供应商和解决方案在 IT 自动化领域的性能指标,促进竞争和创新。
ITBench 填补了企业级 AI 评估的关键空白,专注于关键任务 IT 运营:
与现有主要关注编码技能或聊天功能的 AI 基准测试不同,ITBench 专为评估在SRE、FinOps、CISO 这三个关键企业领域的 AI 有效性而设计(目前涵盖94个现实场景)。
强调对 AI 智能体在动态 IT 环境中进行端到端评估,而不是像当前行业基准测试那样仅关注静态异常检测或表格工单分析等狭窄功能。
旨在解决因缺乏标准化测试而难以评估系统真实有效性、安全性、问责制和运营弹性的问题。
平台提供针对特定领域的精细化评估指标和创新的部分评分系统:
评估指标以领域为中心,根据 SRE(侧重故障诊断和缓解速度)、CISO 和 FinOps 的特定需求进行定制,提供比通用 AI 基准更细致的评估。
采用部分评分系统,超越简单的及格/不及格评估,对推理质量进行评分,即使最终答案不完美,也会对有意义的进展给予部分分数,以提供更现实的评估。
ITBench 在提供透明度的同时采取有控制的开源策略以维护基准完整性,旨在为 CIO 提供决策依据:
虽然被描述为免费的开源 SaaS 平台(IBM 开源了11个演示场景和智能体),但为维护基准测试的完整性并防止数据泄露到基础模型中,特意对一些场景保密。
这种做法旨在防止系统被恶意利用,尽管引发了对其是否完全开源的质疑。
最终目标是通过提供一种基于现实场景、由开源工具支持的透明且系统的评估方法,满足 CIO 和 IT 领导者在评估相互矛盾的 AI 供应商说法时对明确指引的需求。】