你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
首席信息官(CIO)如何为人工智能(AI)提供正确的数据
作者:CIO&睿观 来源:CIOCDO 发布时间:2025年06月18日 点击数:

一项成功的AI项目在很大程度上取决于底层数据的质量。IT领导者们正在提升他们的数据湖、数据仓库和数据湖仓策略,以提供基础支持。

图源:Rob Schultz / Shutterstock

对于任何IT项目而言,高质量的数据至关重要,对于AI项目来说更是如此。虽然不良的数据总会导致糟糕的结果,但在AI领域,风险尤其高,因为劣质数据可能会导致严重的财务损失、监管罚款以及声誉损害。然而,优质的数据如果能推动一项成功的计划,可能会带来巨大的,甚至可能改变游戏规则的战略优势。

“在AI的世界里,‘垃圾进,垃圾出’这句话的影响加倍放大,”Skyworks Solutions(思佳讯解决方案公司)的副总裁兼首席信息官Satya Jayadev(萨提亚·贾亚德夫)说道,该公司为无线网络制造半导体,“任何优秀AI系统的秘诀在于你如何构建数据层。构建架构和基础设施至关重要——要了解数据来源、生成数据,并构建单一数据平台。Jayadev(贾亚德夫)说。

对于Jayadev(贾亚德夫)和其他人来说,这意味着要加大对数据湖、数据仓库或数据湖仓实施的投入,将其作为AI(无论是传统ML/机器学习、生成式人工智能还是智能体)的唯一真实数据源。

十多年前,当大数据崭露头角时,数据湖应运而生,用于容纳非结构化数据,作为分析洞察的来源。数据湖仓,有时被称为查询加速器,像数据湖一样包含非结构化数据,但又像数据仓库一样增加了结构层,能够更快、更经济地提供洞察。

CIO们正在运用这些以及其他数据技术,以确保数据管道强大且质量达标,从而从他们的人工智能战略中实现转型性价值。

一、更好的数据=更好的AI

那些已采取措施更好地组织数据的组织,更有可能具备数据成熟度,这是在AI领域取得成功的公司的一个关键特质。研究公司IDC将数据成熟度定义为对先进数据质量、编目和元数据以及数据治理流程的运用。该研究公司的首席数据官办公室调查发现,具备数据成熟度的公司比其他组织更有可能在生产中采用生成式人工智能解决方案。

图源:IDC: Gen AI Maturity

各组织都在优先重视数据质量,以提高数据工作者的生产力,并提高AI生成结果的准确性和相关性。”IDC的数据智能和集成软件服务副总裁Stewart Bond(斯图尔特·邦德)说。

此外,IDC的同一项研究还表明,为获得最佳AI结果而进行的数据准备工作对企业的基线(指标)有着显著影响,能使客户留存率提高五倍,同时在利润、效率和收入方面也能取得显著增长。

图源:Tirachard Kumtanom / Shutterstock

对于Skyworks Solutions的Jayadev(贾亚德夫)来说,使用Databricks技术构建的数据湖仓是数据质量工作的重点。

“从某种意义上说,数据湖仓就像是摩天大楼的基础。我们收集每一条数据,然后进行分类和分组,构建青铜级、白银级和黄金级的数据质量层,”这位副总裁兼CIO解释说,“我们有数PB的数据存储在数据湖仓中,还有数TB的数据来自我们的工厂和其他来源。”

二、Gallo收获陈年数据

并非只有Jayadev(贾亚德夫)和Skyworks Solutions在关注数据。Gallo(嘉露酒庄),这家葡萄酒和其他饮料的巨头生产商,据其首席信息官Robert Barrios(罗伯特·巴里奥斯)称,已经实施了一个数据仓库和一个数据湖仓,以便从中获取人工智能洞察。该公司构建了一个SAP S/4HANA数据仓库,它被细分为用于消费者、财务和采购数据的独立数据集市。此外,嘉露酒庄还为非SAP数据实施了AWS Redshift数据湖仓,并应用元数据来赋予数据结构。

Reyes(雷耶斯)说:“CEDAR在数据的收集和定义方面实现了统一。它使我们整个产品线的数据标准保持一致。”Reyes(雷耶斯)解释道,CEDAR使用了数据编目工具Atlan和基于机器学习的数据质量工具Qualytics,为数据应用标准,以便它能成为人工智能的单一数据源,无论是财务、工程、维护还是公司的其他部门使用。

AES的Farseer为公司赢得了2024年的CIO 100大奖,这是一个基于AI的平台,它利用CEDAR的数据,帮助AES能够了解市场需求、预期天气条件、能源产能和预期收入。Reyes(雷耶斯)表示,这些信息使AES能够确定向市场投放多少能源以及如何定价。此外,AES正在同时使用谷歌Gemini和微软Copilot,并且正在探索利用智能体来处理后台办公流程。

五、一切都依赖于数据基础

尽管数据仓库、数据湖和数据湖仓并非新事物,但推动从AI中获取商业价值的行动却使它们受到了前所未有的关注——这要求具备一流的数据治理。

Skyworks Solutions的Jayadev(贾亚德夫)表示:“AI并非传统的信息技术,而是一种转型性工具——每个人都希望能够使用它。目前面临的挑战在于建立有效的治理机制,这样我们才能开放数据和AI平台,让企业基于此构建各种应用场景。”

据Servier的Yunger(扬格)说,光靠空想是无法实现目标的,这需要专业的IT人才。Yunger(扬格)表示,自他启动数据治理项目的18个月以来,最大的障碍就是如何填补人才缺口。“这涉及人才——包括能力和技能组合——以及流程等多方面因素。你需要找到合适的人才,来推动并加速这些工作的开展。”

为了实现他所说的“可持续AI”,AES的Reyes(雷耶斯)建议需要谨慎地把握好平衡:实施数据治理,但不能影响正常的工作模式。他建议要确保公司的每一个人都明白,数据必须被视为一种宝贵的资产:鉴于AI带来的高风险,数据必须得到准确的编目和管理,这是非常有必要的。

嘉露的Barrios(巴里奥斯)强调了单一强大数据基础的重要性。“如果你有一堆不同的基础架构,那整个体系可能就会像纸牌屋一样不堪一击。”但仅有一个基础是不够的。嘉露的Barrios(巴里奥斯)坚持认为,让公司业务部门参与进来至关重要。

他建议:“与业务部门合作,确保他们有衡量指标来评估你的工作成效。即便你拥有最出色的数据湖仓,但人们得真正去使用它才行。

作者:Stan Gibson(斯坦·吉布森)

Stan Gibson(斯坦·吉布森)是一位屡获殊荣的技术编辑、作家和演说家,在信息技术领域拥有36年的经验。他曾是《eWeek/电子周刊》和《PC Week/电脑周刊》的执行编辑,目前是StanGibsonCommunications的负责人,他继续在IT领域各方面钻研并撰写文章。

译者:宝蓝


睿观:AI项目的成败高度依赖于底层数据的质量,即“垃圾进,垃圾出”原则的放大(核心理念)。为支持AI战略,领先的CIO们正加大投入构建以数据湖仓为代表的现代化数据平台,旨在打造AI的“单一事实来源”(关键策略)。通过实施先进的数据治理、分类和质量控制,并努力克服治理、人才和业务部门参与度等挑战,企业才能为AI奠定坚实基础,从而安全、有效地释放其转型价值(实施路径与成功要素)。

金句:

在AI的摩天大楼中,算法是闪亮的设计,应用是华丽的楼层,而坚实、统一、高质量的数据平台,才是决定其能否屹立不倒的唯一地基。