你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
IBM 2025年最新调查:仅26%的CDO对数据有信心?这也许是你弯道超车的机会
作者:CI0.com&睿观 来源:CIOCDO 发布时间:2025年12月17日 点击数:

——8个关键步骤,帮你的数据战略“配得上”你的AI野心

【导读】

2025年,AI的雄心正在超越数据的准备度。IBM的一项研究显示,全球1700名CDO中,仅有26%的人对自己的数据能够支持AI收入流感到自信。

这并非个例。长期以来的“应用孤岛”策略,导致企业拥有海量数据,却缺乏统一的标准和治理。当AI需要动态、实时、细粒度的数据管道时,传统架构显得力不从心。

作为CIO,如何重建一个“AI-Ready”的数据战略?我们结合IBM、IDC和Salesforce专家的建议,为您提炼了8个核心步骤。


1. 🏗️ 重塑地基:从“静态治理”到“动态血脉”

传统数据战略是为BI报表设计的,而AI需要的是模型驱动的工作流

  • 痛点:数据碎片化、缺乏上下文元数据。

  • 解法:建立集成的企业数据架构。无论数据诞生于何处(本地、云端、SaaS),都应适用同一套标准和治理。

  • 技术栈:投资现代数据湖(Data Lakes)、数据湖仓(Lakehouses)和向量数据库,以处理多模态数据。


2. ⚖️ 权责变革:数据所有者 vs 数据管理者

谁拥有数据?这个问题在AI时代有了新答案。

  • 旧模式:数据归IT或特定业务部门“私有”。

  • 新模式:将“数据所有者”重新定义为“数据管理者”(Data Stewards)。

    • 原则:他们不拥有数据本身,而是拥有数据的意义和质量。数据是企业的公共资产,需在受控、安全的前提下实现民主化。


3. 🔄 智能化与自动化:告别“手工搬运”

Thoughtworks首席AI官Shayan Mohanty指出,数据生产者和消费者之间存在巨大裂痕。

  • 手段:采用“数据产品”思维。

  • 工具:利用模型上下文协议(MCP)来包装数据,提供协议级访问,让AI能自动识别并调用所需数据。

  • 非结构化数据:将客户通话、文档等视为“一等公民”,通过向量数据库进行标记和检索,填补这一巨大的价值盲点。


4. 🚀 落地策略:逆向工程,小步快跑

Salesforce的Shibani Ahuja给出了最务实的建议:不要等到数据完美了再动手

  • 逆向工程:从你想要的AI业务结果出发,倒推所需的数据支持。

  • 增量实施:支持一个AI用例,建立相应的数据架构,跑通后,再扩展到下一个。快速上线、观察、调整、扩展

【结语】

AI时代的数据战略,不再是收集和存储一切,而是有意识的、价值驱动的。

CIO们,现在是时候打破孤岛,建立跨职能的“数据+AI”生态系统了。只有当IT、安全和业务部门共享所有权时,AI的飞轮才能真正转动起来。


全文:重建面向人工智能的数据战略的八个技巧


随着 AI 的雄心超越数据准备,CIO 们必须革新数据策略,打造统一且具备支持企业范围应用场景的 AI 基础。


图源:Rob Schultz / Shutterstock

任何想要拥有领先AI战略的组织,首先必须拥有一个成功的数据战略。这是IBM副总裁兼首席数据官Ed Lovely传递的信息。

“当你考虑扩展AI时,数据是基础,”他说。

然而,他表示,很少有组织拥有与其AI雄心相匹配的数据架构。相反,它们拥有的是孤岛化的数据,这些数据不受一致数据标准的管理——这是长期以来企业数据战略的产物,这些战略逐个应用地创建IT环境,旨在提供特定时间点的决策,而非支持企业范围的人工智能部署。

IBM 2025年的研究《人工智能雄心激增,但企业数据准备好了吗?》显示了有多少企业在数据方面苦苦挣扎。研究发现,全球1700名CDO中,仅有26%的人对自己的数据能够支持新的AI收入流感到自信。

Lovely表示,需要的是一个集成的企业数据架构,在这个架构中,无论数据诞生于何处,都应用相同的标准、治理和元数据。

Lovely并非唯一看到组织需要更新数据战略的人。

“大多数组织需要现代化其数据战略,因为AI不仅改变了数据的使用方式,还改变了数据被使用的原因以及价值创造的地点,”IDC全球DataSphere和Global StorageSphere研究项目的研究经理、2025年报告《生成式人工智能时代的内容创作》的合著者Adam Wright说。

“传统的数据战略是为报表、BI(商业智能)和自动化构建的,但AI需要更加动态、细粒度且实时的数据管道,以推动迭代的、模型驱动的工作流。这意味着从静态数据治理转向持续的数据质量监控、更强的元数据和血缘(lineage)追踪,以及反映AI混合了临时、缓存和保存数据的保留策略,”他说。“AI时代要求组织从‘收集/存储一切’的心态,进化为有意识的、价值驱动的数据战略,平衡成本、风险和他们想要实现的具体AI成果。”

一、高成熟度数据基础

大多数组织距离这一目标还很远。

“许多组织在拥有‘正确’数据方面继续挣扎,无论是意味着足够的体量、适当的质量,还是支持AI用例所需的上下文元数据,”Wright说。“在IDC的研究和行业对话中,数据准备度始终是实现AI价值的首要障碍之一,往往超过了计算成本或模型选择。大多数企业仍在处理碎片化的系统、不一致的治理,以及对其实际拥有的数据及其可信度缺乏可见性。”

Lovely表示,IBM曾面临许多此类挑战,但过去三年致力于解决这些问题,使其数据为AI做好准备。

IBM在AI时代的数据战略包括对长期方法的多次调整,使其能够构建Lovely所称的集成企业数据架构。例如,公司保留了数据所有者的概念,但“帮助他们理解数据是IBM的资产,如果我们能以受控、安全的方式使其民主化,我们就能以更好、更高效的方式运营业务,”Lovely说。

结果,IBM从由多个团队管理孤岛数据,转变为使用通用标准和通用架构的单一团队。企业领导者还整合了300TB的数据,根据公司寻求的成果以及驱动这些成果的工作流来选择所需的数据。

“我们是有意为之的,”Lovely说,并补充道其数据平台现在覆盖了约80%的IBM工作流。“如今企业最大的生产力解锁之一就是创建一个集成的企业数据架构。因为我们在数据上的投资,我们正在公司内迅速部署AI。”

二、构建更好数据战略的8个建议

为了在数据基础和数据消费能力上建立高成熟度,组织需要一个AI时代的数据战略——一个能够强制执行数据质量、打破数据孤岛,并将数据能力与业务优先的AI用例相对齐的战略。

专家们提供了以下步骤:

1. 重新思考数据所有权

“当业务部门、产品团队和AI平台都在持续生成和转换数据时,将数据所有权视为纯粹IT问题的传统模式已不再奏效,”Wright解释道。“理想情况下,明确的问责制应由高级数据领导者(如CDO)承担,但没有CDO的组织必须确保数据治理职责在IT、安全和业务部门之间明确分配。”

他补充说,拥有“一个定义策略的单一权威点和一个执行的联邦模式至关重要,这样业务部门既能获得授权,又不会不受约束。”

圣托马斯大学软件工程与数据科学系教授兼系主任、应用人工智能中心主任Manjeet Rege建议组织将数据所有者重新定义为数据管理者(data stewards)。他们不拥有数据,而是基于中央数据职能部门设定的标准、治理、安全和互操作性,拥有数据的意义和质量

2. 打破孤岛

要做到这一点,“CIO需要围绕共享的AI和数据成果来协调业务部门,因为只有当工作流、流程和数据源在整个企业内连接起来时,生成式AI才能创造价值,”Wright说。

“这意味着建立跨职能治理,标准化分类法和策略,并为团队创造共享数据而非保护数据的激励机制,”他补充道。“技术通过统一平台、元数据层和通用安全框架提供帮助,但真正的解锁来自于最高管理层(C-suite)和业务利益相关者的协调领导。”

3. 投资于AI时代的数据技术

Wright表示,这些技术包括现代数据湖(data lakes)和数据湖仓(data lakehouses)、向量数据库(vector databases)和可扩展的对象存储,所有这些“都能在强有力的治理下处理海量的多模态数据。”

组织还需要编排和管道工具,自动化摄取、清洗、转换和移动,以便AI工作流能端到端可靠运行。元数据引擎和治理层对于使模型理解上下文、追踪血缘,并安全可靠地使用结构化和非结构化数据至关重要。

Rege建议构建一个“模块化、受控且能够演进”的数据平台层。“你需要一种架构,能将数据视为可复用的产品,而不仅仅是为了单一管道,并且可用于批处理和实时需求。”

Rege也支持数据湖和数据湖仓,称它们“正在成为AI的骨干,因为它们能处理结构化和非结构化数据。”

此外,Thoughtworks首席AI和数据官Shayan Mohanty建议CIO构建一个可组合企业(composable enterprise),利用模块化技术和灵活结构,使人类和AI能够跨多层访问数据并协作。

专家还建议CIO投资于能够解决新兴数据生命周期需求的技术。

“生成式AI正在从根本上重塑数据生命周期,创造出一种更加动态的混合体,包含临时、缓存和持久存储的内容。大多数生成式AI输出是短暂的,仅使用几秒、几分钟或几小时,这增加了对DRAM和SSD等高性能基础设施的需求,以处理快速迭代、缓存和易失性工作流,”Wright说。

“但与此同时,生成式AI输出中有意义的一部分确实会持久化,例如定稿文档、获批的媒体资产、合成训练数据集和合规相关内容,这些仍然严重依赖具有成本效益的高容量HDD进行长期存储,”他补充道。“随着生成式AI采用率的增长,组织将需要适应这种全生命周期的数据战略——从用于临时内容的超快内存到用于持久归档的稳健HDD系统,因为存储负担/动态正在发生转移。”

4. 自动化并为数据架构增加智能

Mohanty将企业数据状况不佳归咎于“数据生产者和数据消费者之间的裂痕”,产生的数据被“扔进某处的巨大堆里,即所谓的数据仓库”,然后再创建分析层来利用它。他指出,这种方法需要大量的人类知识和手动努力才能奏效。

他建议组织采用数据产品思维(data product mindset),“拉近数据生产者和消费者的距离”,并向企业架构中添加自动化和智能,以便AI在需要时能识别并访问正确的数据。

Mohanty说,CIO可以使用模型上下文协议(MCP)来包装数据并提供协议级访问,并指出这种访问要求组织在目录和工具中编码信息,以确数据可发现性。

5. 确保结构化和非结构化数据都具备AI就绪性

当结构化数据格式一致、治理良好并富含准确的元数据时,它就是AI就绪的,使模型易于理解和使用,”Wright说。“组织应优先考虑强有力的数据质量控制、主数据管理和明确的所有权,以确保结构化数据集保持可靠、可互操作并与特定AI用例对齐。”

专家强调,需要将同样的纪律带入非结构化数据,确保非结构化数据也得到适当的标记、分类并丰富元数据,以便AI系统能够有效地理解和检索它。

“你需要将非结构化数据视为一等数据资产,”Rege说。“大多数最有趣的AI用例都存在于非结构化数据中,如客户服务音频通话、消息和文档,但对于许多组织来说,非结构化数据仍然是一个盲点。”

Rege建议将其存储在信息可搜索的向量数据库中。

6. 考虑外部数据源和合成数据

“当现有数据不完整、有偏见、太小或与试图追求的AI用例对齐不佳时,组织绝对应评估是否需要外部或合成数据(synthetic data),”Wright说,并指出“当真实数据敏感、收集成本高昂或受隐私、监管或运营限制时,合成数据尤为有用。”

7. 逐步实施高成熟度数据基础

Salesforce企业IT战略高级副总裁Shibani Ahuja表示,不要等到数据处于完美状态才开始。

“有些组织觉得必须先把所有数据都弄好才能扣动扳机,但他们也面临着开启旅程的压力,”她说。

正如大多数企业项目成熟过程一样,CIO及其高管同事可以——也应该——采取增量方法来构建AI时代的数据项目。

Ahuja建议通过一个接一个的结果(outcome to outcome)来完善数据项目,创建一个数据战略和架构来支持一个AI驱动的结果,然后再推进后续的。

“这是一种思维方式:从你需要的东西进行逆向工程,”Ahuja说。“把某些东西投入生产,确保你有正确的护栏,观察它,调整它使其扩展,然后再投入下一个。”

8. 采取跨职能的数据团队建设方法

“数据应由一个跨职能生态系统支持,包括IT、数据治理、安全以及实际使用数据驱动决策的业务部门,”Wright说。“当这些团队共享所有权时,AI时代的数据战略效果最佳:IT团队赋能基础设施,治理团队确保信任和质量,业务团队定义背景和价值。”

作者Mary K. Pratt(玛丽·K·普拉特)

Mary K. Pratt(玛丽·K·普拉特)是马萨诸塞州的一名自由撰稿人。

译者:宝蓝  编审:@lex