你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
2026年AI决胜关键:为什么说“垃圾进,垃圾出”依然是铁律?
作者:CIO.com&睿观 来源:CIOCDO 发布时间:2026年01月19日 点击数:

导语:当生成式 AI(Gen AI)席卷各行各业,企业都在争先恐后地部署最新的模型。然而,2026年的竞争壁垒不再是拥有最好的模型,而是拥有最好的数据。当“幻觉”褪去,我们发现那个古老的计算机科学定律依然统治着一切:垃圾进,垃圾出(Garbage In, Garbage Out)。

一、 数据的真相:人人都有,但并非都有用

企业并不缺乏数据——代码库、文档、提案、合同、客户数据库浩如烟海。但这些数据真的能直接“喂”给 AI 吗? 根据波士顿咨询集团BCG)和思科的调查,68% 的决策者认为缺乏高质量数据是关键挑战,仅有 35% 的企业拥有干净、集中且可供 AI 实时集成的数据。IDC更是预测,到 2027 年,忽视数据质量将导致 AI 扩展受阻,直接造成 15% 的生产力损失。

二、 CIO面临的三大数据陷阱

2.1语义的泥沼(Semantic Confusion)

当企业通过并购或新项目积累了多个数据源,同一类型的信息(如“客户”)往往有着不同的定义和结构。如果缺乏统一的语义映射,AI 模型就会在相互冲突的标准中“迷路”。

  • 专家建议:即使数据看起来很干净,也要进行语义映射练习。先从一个小数据量的用例开始,做对之后再扩展。

2.2非结构化的混乱(Unstructured Chaos)

将 OneDrive 或文件存储直接连接到聊天机器人听起来很美,但后果往往是灾难性的。AI 难以区分“项目计划_v2”和“项目计划_v2_最终版”。过时的文档和未编辑的草稿会严重污染 AI 的输出。

2.3安全的后门(Security Blind Spots)

这是一个常被忽视的巨大风险。传统的软件界面有严格的输入限制(例如数字字段不能输入字母),但 AI 代理(Agentic AI)通过 MCP 服务器自主查询数据库时,它可能绕过这些传统的 UI 防护。

  • 现状:仅有 27% 的企业拥有动态且详细的 AI 访问控制。当所有数据被一股脑倒入数据湖时,细粒度的权限控制就失效了。


三、 速度陷阱:欲速则不达

Sutherland Global 的 CIO Doug Gilbert 指出,CIO 们犯的最大错误就是“跑得太快”。许多人将数据治理和测试视为拖慢进度的障碍,这完全是误解。 如果在没有完善基础设施和测试的情况下匆忙上线,最终只会被审计叫停,甚至被迫推倒重来。记住:建立正确的基础设施不是减速,而是为了后续能安全地加速。

四、 破局:用 AI 治理 AI

虽然数据问题看似无解,但 AI 本身也许就是解药。Unisys 的高管 Manju Naglapur 认为,AI 工具正变得越来越成熟,它们可以帮助企业在 12 到 18 个月内完成过去需要三年才能完成的数据清理和整合工作,实现真正的 360 度客户视图。

结语:2026 年,区分 AI 项目成败的关键不在于谁的模型更聪明,而在于谁的数据底座更坚实。别让你的 AI 输在起跑线上——现在就开始清洗你的数据。


全文:说到人工智能,并非所有数据都生而平等

多年来,公司一直在收集数据,希望有朝一日能派上用场。随着生成式人工智能(Gen AI)的到来,时机已经成熟,但艰难的工作才刚刚开始。

生成式 AI 正成为几乎颠覆所有行业的力量,但仅使用最好的 AI 模型和工具是不够的。大家都在使用相同的模型,真正能创造竞争优势的是能够训练和微调你自己的模型,或者为模型提供独特的背景上下文,而这需要数据。

贵公司庞大的代码库、文档和变更日志?那是你的编码智能体(Coding Agents)的燃料。你过去的提案和合同库?那是你的写作助手的素材。你的客户数据库和支持工单?那是你的客户服务聊天机器人的知识库。

但仅仅因为这些数据存在,并不意味着它们是好数据。

“将模型指向任何可用的数据是非常容易的,” Unisys 云、应用和基础设施解决方案高级副总裁兼总经理 Manju Naglapur 表示,“在过去三年里,我们一次又一次地看到这种错误。那句老话‘垃圾进,垃圾出’依然适用。”

根据波士顿咨询集团(BCG)去年 9 月发布的一项调查,在 1250 名高级人工智能决策者中,有 68% 的人表示,缺乏高质量数据的访问权限是采用 AI 时面临的关键挑战。其他最新研究也证实了这一点。在思科 10 月份对 8000 多名 AI 领导者的调查中,只有 35% 的公司拥有干净、集中化且能与 AI 智能体实时集成的数据。根据 IDC 的数据,到 2027 年,那些不优先考虑高质量、AI 就绪(AI-ready)数据的公司,将难以扩展生成式 AI 和代理式解决方案,从而导致生产力下降 15%。

一、语义层的混乱

将所有数据混合使用的另一个问题是语义层会变得混乱。当数据来自多个来源时,同一类型的信息可能以多种方式定义和结构化。随着新项目或并购导致数据源数量激增,挑战也随之加剧。对于许多公司来说,仅仅是追踪“客户”这一最关键的数据类型以及处理基本数据问题,都非常困难。

邓白氏(Dun & Bradstreet)去年报告称,超过一半的受访组织对他们用于 AI 的数据质量和可信度表示担忧。例如,在金融服务行业,52% 的公司表示 AI 项目失败是因为数据质量差。根据去年 12 月发布的一项针对 2000 多名行业专业人士的调查,44% 的人认为数据质量是他们 2026 年最大的关注点,仅次于网络安全。

云咨询公司 Lemongrass 的首席技术官 Eamonn O'Neill 表示,拥有多个相互冲突的数据标准对每个人来说都是挑战。

“每一次不匹配都是风险,”他说,“但人类总能找到绕过的方法。”

他补充说,如果你了解挑战所在,并投入时间和精力去解决,人工智能也可以被配置来处理类似的问题。即使数据是干净的,公司仍应进行语义映射练习。如果数据不完美,整理它则需要时间。

“拿一个数据量小的用例,把它做对,”他说,“这是可行的。然后再进行扩展。这才是成功应用(Adoption)该有的样子。”

二、无管理且非结构化的数据

O'Neill 说,公司在将 AI 连接到企业信息时犯的另一个错误是,将 AI 指向非结构化的数据源。诚然,大语言模型(LLM)非常擅长读取非结构化数据并理解文本和图像。问题在于,并非所有文档都值得 AI 去关注。

例如,文档可能已经过时。或者它们可能是尚未编辑的早期版本,甚至包含错误。

“人们经常看到这种情况,”他说,“我们将你的 OneDrive 或文件存储连接到聊天机器人,突然之间它分不清‘版本 2’和‘版本 2 最终版’的区别。”

他补充说,对于人类用户来说,保持适当的版本控制非常困难。“微软可以帮你处理不同版本,但人们仍然习惯用‘另存为’,最终你会得到大量混乱的非结构化数据,”O'Neill 说。

三、被忽视的安全问题

当 CIO 们通常思考与 AI 系统相关的安全性时,他们可能会考虑模型的护栏,或者对训练数据及 RAG(检索增强生成)嵌入数据进行保护。但随着基于聊天机器人的 AI 演变为自主智能体 AI(Agentic AI),安全问题变得更加复杂。

举个例子,假设有一个员工薪资数据库。如果员工对薪资有疑问,向嵌入其 AI 门户的聊天机器人提问,传统的 RAG 方法是使用传统代码从数据库仅收集相关数据,将其嵌入提示词中,然后将查询发送给 AI。AI 只看到它被允许看到的信息,而传统的、确定性的软件栈则负责保护其余员工数据的安全。

但当系统演变为代理式系统时,AI 智能体可以通过 MCP(模型上下文协议)服务器自主查询数据库。由于它们需要能够回答任何员工的问题,因此需要访问所有员工数据,防止数据落入错误之手就成了一项艰巨的任务。

根据思科的调查,只有 27% 的公司拥有针对 AI 系统的动态且详细的访问控制,且不到一半的公司对保护敏感数据或防止未经授权的访问有信心。

O'Neill 说,如果所有数据都被收集到一个数据湖中,情况会更加复杂。

“如果你输入了来自许多不同来源的数据,每个独立来源可能都有自己的安全模型,”他说,“当你把所有东西堆进块存储时,你就失去了那种细粒度的控制能力。”

事后尝试添加安全层可能会很困难。他说,解决方案是直接访问原始数据源,完全跳过数据湖。

“过去的做法是永远保留历史数据,因为存储成本极低,而且机器学习可以从中发现长期模式和趋势,”他说,“此外,如果混合不同来源的数据,还可以发现跨领域的模式。”

数字化转型咨询公司 Sutherland Global 的 CIO 兼 CDO Doug Gilbert 表示,一般来说,当参与者从人类变成 AI 智能体时,数据访问会发生巨大变化。

“对于人类来说,围绕着操作者有着大量的安全措施,”他说,“例如,大多数用户界面都经过编写,如果是仅限数字的字段,你就无法输入字母。但一旦你接入了 AI,这些限制都消失了。这相当于给你的系统开了一个原始的后门。”

四、速度陷阱

但 Gilbert 认为 CIO 们犯的第一大错误就是动作太快。“这就是大多数项目失败的原因,”他说,“这就好比一场竞速赛。”

他补充道,CIO 们常常将解决数据问题视为拖慢进度,但忽略这些问题会带来巨大的风险。“很多做人工智能项目的人都会面临审计,到时候他们将不得不停下来,把所有事情推倒重来,”他说。

所以,把数据做对并不意味着变慢。“当你建立了合适的基础设施时,你就能加速创新进程,顺利通过审计,并确保持续合规,”他说。

另一个可能让人觉得浪费时间的领域是测试。在 AI 领域,“快速行动、打破常规(Move fast and break things)”然后部署后再修复,并不总是明智的策略。

“一个以光速传播的错误,代价是什么?”他问道,“我总是会先进行测试。令人惊讶的是,我们看到有多少产品在没有任何测试的情况下就被推向了市场。”

五、利用 AI 修复数据

缺乏高质量数据可能让人觉得是一个无解的问题,而且随着 AI 应用场景的扩大,情况只会变得更糟。

根据 AvePoint 10 月份基于对 775 位全球企业领袖的调查发布的报告,81% 的组织已因数据管理或数据安全问题推迟了 AI 助手的部署,平均延迟了六个月。

与此同时,不仅 AI 项目数量持续增长,数据量也在激增。近 52% 的受访者表示他们的公司管理着超过 500PB 的数据,而一年前这一比例仅为 41%。

但 Unisys 的 Naglapur 表示,借助 AI,获得客户的 360 度全景视图,以及清理和协调其他数据源将变得更加容易。

“这就是悖论所在,”他说,“AI 会帮你解决一切。如果你以此前需要三年才能完成的数字化转型为例,现在利用 AI,你可以在 12 到 18 个月内完成。”他说,这些工具正逐渐接近实用阶段,它们将加速变革的步伐。