你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
让数据为人工智能做好准备的三个步骤
作者:CIO&睿观 来源:CIOCDO 发布时间:2025年04月02日 点击数:

IT领导者在采用人工智能时面临的数据管理挑战,比如缺乏“AI就绪数据”是主要障碍,并可能导致大量AI项目失败。CIO要关注三个关键步骤:革新传统IT以支持AI,构建AI就绪的数据管道;利用人工智能提升数据质量,通过代理式AI确保数据一致性,并重视知识而非仅数据以提高AI准确性;以及采取迭代的转型方法,明确项目成果,逐步实现数据转换。核心内容是IT领导者需要重新思考数据管理方式,以确保数据质量和一致性,从而成功推进人工智能的应用。

图源:Credit: GaudiLab / Shutterstock

尽管许多组织已成功开展一些小规模的概念验证(PoC),以展示生成式人工智能的价值,但若不将生成式AI就绪数据作为标准实践,就无法将这些概念验证扩展至更大规模,并将新技术应用于业务的其他环节。Gartner(高德纳)近期预测,明年将有60%未使用AI就绪数据的人工智能项目面临失败,这一预测警示IT领导者需要立即着手解决这一潜在危机。 

对于许多首席信息官(CIO)而言,为一个人工智能(AI)项目准备数据已然是一项艰巨的任务。软件支持公司Rimini Street(锐敏尼街)的首席技术官Eric Helmer(埃里克·赫尔默)指出:“当他们开始探索人工智能的应用时,许多人发现其数据质量堪忧。在某些情况下,他们甚至不确定数据存储在何处,可能分散在数百个不同的系统中。即便找到了数据,他们也往往不确定这些数据是否处于可供人工智能使用的状态。这种情况往往会阻碍他们实现人工智能的宏伟目标。” 

为了应对未来企业各部门对人工智能的大量需求,首席信息官(CIO)们应采取以下三个关键步骤,以确保将数据准备就绪以支持人工智能成为一项标准的实践。

一、革新传统信息技术以支持人工智能。 

安永(EY)全球人工智能行业负责人Beatriz Sanz Sáiz(贝阿特丽斯·桑斯·萨伊兹)表示:“最终目标是拥有AI就绪数据,这意味着数据需要具备高质量和一致性,并且结构合理,能够被AI模型有效利用,并为特定应用产生预期的结果。”AI就绪数据并非首席信息官们仅需为单一应用准备,而是需要为所有需要企业特定智能的应用提供这种数据。 

遗憾的是,许多IT领导者发现,仅凭标准的数据管理实践以及传统的IT硬件和软件,难以达成这一目标。Helmer(赫尔默)认为:“在庞大且分散的系统中清理数据并使其对人工智能可用几乎是不可能的。例如,在人力资源系统中删除重复记录或进行任何其他数据清理操作,这些更改可能无法同步到所有相关的数据存储中,从而导致数据不一致。” 

为了定期训练业务特定用例所需的模型,首席信息官(CIO)需要构建AI就绪的数据管道,引入新的方法来收集、清洗和编目企业信息。Gartner(高德纳)近期对数据管理领导者进行的调研进一步显示,大多数组织尚未达到这一水平。在对超过1200名数据管理领导者的调查中,三分之二的组织要么缺乏适合人工智能的数据管理实践,要么不确定是否拥有正确的数据管理实践。因此,计划加大人工智能采用的IT领导者显然需要重新思考他们管理数据的方式。 据日立Vantara人工智能首席技术官Jason Hardy(杰森·哈迪)介绍,迄今为止,大多数组织一直依赖于传统系统,这些系统在支持现有生产工作负载方面已显力不从心。如今,随着人工智能工作负载的增加,由此产生诸多下游问题,影响了正常的日常运营。

首席信息官需要对其基础设施进行根本性改造,不仅要通过一套新的接口处理海量数据,还要应对生成式人工智能以前所未有的模式产生的新数据。Hardy(哈迪)强调:“人工智能革命正在推动各行业数据中心的现代化。” Sáiz(萨伊兹)指出,大规模的现代化进程大约在2018年左右已经启动。当时,新技术的出现使得组织能够开始调整其数据基础设施和实践,以满足对大规模结构化和非结构化数据集日益增长的需求,从而驱动分析和机器学习。他们开始采用数据虚拟化技术,通过将数据使用与数据来源分离,减少了对大型数据仓库的依赖。如今,随着代理型人工智能(agentic AI)的兴起,对高质量数据的需求比以往任何时候都更为迫切,这进一步凸显了现有趋势的紧迫性。

二、借助人工智能提升数据质量,利用知识深化人工智能应用。 

Sáiz(萨伊兹)补充说:“可喜的是,人工智能本身也是解决方案的一部分。”例如,生成式人工智能可以用于生成合成数据,而其他类型的人工智能则可以用于辅助分析和提高数据质量。一些组织利用人工智能分析数据分布,识别超出合理范围的值并填充缺失值。人工智能还可以帮助工程师定位存在问题的数据集,并运用不同的技术来判断给定值是否真实的概率。Sáiz(萨伊兹)表示:“我们看到‘用于数据的人工智能’目前是企业中人工智能应用最广泛的领域之一。数据革命和人工智能革命同步发生,实现了互利共赢的局面。”

 人工智能还可以通过采用代理式人工智能来管理去中心化的基础设施,从而构建更加去中心化的数据基础设施。成千上万的代理可以强制执行数据标准并确保数据一致性,而据Sáiz(萨伊兹)称,这正是企业在数据基础设施方面面临的最大挑战之一。 例如,人工智能可以帮助确保某个特定客户的记录在所有系统中保持一致,包括客户关系管理(CRM)系统、呼叫中心软件和财务应用程序。Sáiz(萨伊兹)解释道:“为了保持一致性,每当客户与呼叫中心或网站互动时,所有系统都会近乎实时地获取更新信息。”

“过去,系统之间存在较长的延迟,并且需要大量的手动检查,而现在,这一切都由人工智能驱动。人工智能会持续检查状态和主数据集,并基于智能判断是否需要在整个系统中更新记录。” 据Sáiz介绍,知识的重要性正日益超越数据,因为它有助于解释数据。可以在数据基础设施之上构建一个知识层,以提供上下文并最大程度地减少人工智能的“幻觉”(即人工智能生成的不准确或不合逻辑的内容)。她举例说:“如果电信行业的从业者运行一个预测模型,其变量、输入和结果将与运行相同的财务预测模型的有所不同。”“你越注重知识的融入,你的人工智能就越精准。”

三、采取迭代方法进行转型。 

一些IT领导者可能因眼前的挑战而感到力不从心,认为在启动人工智能项目之前,需要将所有数据都整理到完美状态。但Hardy(哈迪)认为:“更好的方法是采用迭代的方式逐步改进数据管理实践和基础设施。一旦基本原则和实践得到落实,就可以逐个项目地进行转型。” Hardy(哈迪)指出,网络安全是首席信息官最为关注的问题之一,也是必须遵循的基本原则之一。

IT领导者不仅需要确保用于训练模型的数据不违反任何数据隐私规则,还要确保模型生成的响应与用户的访问权限相符。Hardy(哈迪)强调:“人工智能系统需要识别提问者的身份,以便返回适当级别的信息,避免泄露额外信息。” 

此外,还需要降低知识产权被泄露的风险,尤其是在人工智能以基于云的服务形式提供时。Hardy(哈迪)补充道:“根据与服务的交互方式以及数据类型、数据主权要求、敏感性要求和法规,你可能会决定某些数据永远不应存储在云端。”“制定明确的指导方针将有助于根据具体情况确定哪些内容应保留在本地,哪些内容可以部署到云端。” Helmer(赫尔默)建议,应建立一个管理机构,以确保最佳实践的遵循。任何开发或部署人工智能应用的人员都必须遵守一套明确的规则,这些规则不仅要与数据质量保持一致,还要符合数据保留政策、数据依赖关系政策以及所有适用的法规。 Hardy总结道:“在开启人工智能之旅时,要明确每个项目预期达成的成果。”“然后确定实现这些成果所需的数据类型,以及需要与之交互的系统。不要试图在看到任何回报之前就彻底改变一切,而是专注于一次实现一个数据转换目标。

作者:Pat Brans(帕特·布兰斯)

译者:木青   审核:@lex


评分结果参考:

  • 80分以上: 您的组织在AI就绪数据方面做得非常出色,为人工智能的成功应用奠定了坚实的基础。

  • 60-80分: 您的组织在AI就绪数据方面具备一定的基础,但在某些方面仍有提升空间。建议关注得分较低的二级和三级指标。

  • 40-60分: 您的组织在AI就绪数据方面面临较多挑战,需要系统性地改进数据管理实践。

  • 40分以下: 您的组织在AI就绪数据方面存在严重不足,可能会严重阻碍人工智能的应用。建议优先投入资源进行改进。


了解更深入专业评价和示例,询:fjcioxl