你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
多亏了AI,数据治理的时刻已然来临
作者:CIO&睿观 来源:CIOCDO 发布时间:2025年04月30日 点击数:

AI让企业高度关注自身数据,但一味追求更多数据,会分散企业在创建和维护高质量数据这一同样重要工作上的精力。

图源:Bojan Milinkov / Shutterstock

在打造最智能的LLM的竞赛中,人们的口号一直是“more data!/更多数据!”。这一口号也进入了公司董事会会议室。随着企业急于利用人工智能获取竞争优势,尽可能多地查找和使用公司数据似乎成了最合理的做法。

毕竟,如果更多数据能造就更好的大语言模型,那么对于人工智能商业解决方案来说,情况难道不也应该如此吗?

答案是否定的。盲目地将大量数据投入人工智能是短视之举。相反,企业需要了解现有数据面临的挑战,以及确保拥有并使用优质数据来推动人工智能解决方案所需采取的措施。数据评估时刻已经到来,企业不仅要考虑使用了多少数据,还要考虑这些数据的质量。

一、当务之急

人工智能的兴起迫使企业更多地思考如何存储、维护和使用大量数据。企业在实施人工智能解决方案时很快就会面临的一个现实问题是,一旦数据被用于LLM或SLM,就没有回头路了。

传统上,处理大量数据的公司会使用数据湖来存储和处理数据。虽然数据被存储起来,但在数据来源、最新更新以及其他确保数据完整性的关键管理措施方面,往往缺乏有效管理。

这种数据存储方式如今给企业带来了问题,因为如果企业使用过时或不准确的数据来训练大语言模型,这些错误就会融入模型之中。结果并非模型产生幻觉(模型本身运行正常),而是用于训练模型的数据有误。

同样令人担忧的是,由于数据存在于大语言模型的“黑箱” 之中,有谁会知道答案是错误的呢?如果用户没有其他参照,他们往往会理所当然地接受答案。这个例子充分说明,我们可能需要更多数据来驱动人工智能,但前提是这些数据必须正确。

二、当今的挑战

当今企业数据存在几个主要挑战:

1.数据来源

将大量数据存储在数据湖中,给企业数据带来了诸多不确定性。这些数据是谁创建的?来自哪里?上次更新是什么时候?数据源是否可靠?了解数据集的来源是信任并放心使用数据的关键第一步。

2.数据分类

随着数据存储在数据湖中,且连接方式日益复杂,另一个挑战是数据分类。谁有权查看特定数据?从政府安全级别的分类到人力资源部门的机密信息,数据不应被所有人随意访问。数据必须进行妥善分类,并且随着公司以新方式整合和利用数据,这些分类及其限制必须得到维护和延续。

3.稳定性

许多数据是动态变化的。例如,如果你从传感器获取数据,就需要根据传感器的读数了解应该多久更新一次数据。这是一个数据稳定性问题,因为不断变化的数据可能会导致不同的结果。

数据也会随着时间推移而过时。例如,假设九年来你一直采用特定流程来提交新员工招聘申请,但去年对该流程进行了修订。如果你使用这十年的数据来训练一个模型,然后询问如何提交招聘申请,大多数情况下,你得到的答案会是错误的,因为大部分数据已经过时。

这清楚地表明,更多数据并不总是更好。涵盖重大流程变化的十年数据,其价值可能不如一小部分准确反映现有流程的数据。

4.复制偏见

当你开始使用数据来训练人工智能时,你面临的风险是,训练模型依据的是当下的实际情况,而非你期望达成的结果。例如,设想一下,你们公司的人力资源部门正在使用人工智能筛选求职者。如果你用公司现有的数据来训练模型,设定理想候选人的标准,那么最终模型可能会复制你公司员工队伍中现有的、与年龄或性别等相关的偏见。

你要训练模型,不应基于数据集中呈现的现实情况,而应基于你期望实现的结果。而这首先需要你对数据及其局限性有清晰的认识。

三、问题数据的危害

使用有问题的数据训练大语言模型可能会带来严重的危害。最基本的层面上,这可能会增加模型产生幻觉的情况,削弱你对结果的信心。你可能会得到不准确的结果,或者系统无法按照你的预期运行。一旦出现这种情况,员工对系统的信任度和使用意愿可能会下降。

使用不良数据甚至可能损害公司声誉。如果你用数据训练一个面向客户的工具,但该工具表现不佳,你可能会损害客户对公司能力的信心。

使用有问题的数据生成有关公司或其他公开信息的报告,甚至可能引发政府监管和合规问题。而且,如果数据分类错误,你就有可能泄露个人信息。所有这些情况,无论是在经济上还是声誉上,都可能让公司付出高昂代价

四、立即行动

为了充分利用人工智能革命带来的机遇,你的企业现在可以采取以下数据管理措施:

1.强化数据治理流程

每家企业都需要一套完善的数据治理流程。你必须通过回答以下问题,明确数据处理、存储和更新的规则:

  • 谁负责数据的分类?

  • 谁负责审查数据访问权限?

  • 谁来掌控数据的管理工作?

  • 你会任命一位首席数据官、一个分析团队,还是其他人来负责?

  • 数据将保留多长时间,由谁来做出这些决策?

在开始将公司数据用于人工智能解决方案之前回答这些问题,将对你的企业有益。

2.确保合规流程

企业应将完善的数据治理流程与同样严格的合规流程相结合。当数据准备投入使用时,你是否有一套合规流程,来确认提交数据的人已经通过了适当的治理审查?

在开始采用人工智能工具时,仅仅妥善存储数据是不够的。你必须确保围绕数据完整性制定的政策和程序,涵盖数据访问和使用的各个环节。

总体而言,治理流程和合规流程对于维护数据完整性至关重要。鉴于公司积累的数据量惊人,它们的重要性只会与日俱增。

例如,正如Brian Eastwood(布莱恩·伊斯特伍德)所指出的:“普通医院每年大约产生50拍字节的数据。这比美国国会图书馆存储的数据量的两倍还多,相当于每天产生137太字节的数据。”当数据对公司至关重要,尤其是当数据量还在迅速增长时,你需要明确的规划和明确的职责分工,来保护、管理和利用这些数据。

五、智能体人工智能的数据评估

下一个重要领域是如何结合智能体人工智能使用数据。是让人工智能智能体使用大语言模型更有效,还是让一个主智能体协调多个各自拥有小语言模型的人工智能智能体更有效呢?

想想智能体人工智能可能为企业带来的各种可能性,就让人兴奋不已。无论哪种方法最终胜出,智能体人工智能都将依赖强大的数据治理和合规流程。强大的数据完整性将使人工智能真正发挥作用。

我们不能只是一味高呼“更多数据!”相反,让我们追求高质量的数据。要知道,现在设定高标准,未来才能取得优化的成果。

作者:Dave Wright(戴夫·赖特)

十多年来,Dave(戴夫)在ServiceNow担任过多种领导职务。自2017年起担任首席创新官兼首席传道者,Dave(戴夫)专注于如何提高工作场所的生产力。他与数千家组织合作,实施能够提高效率、简化业务流程和降低成本的技术。在2011年加入ServiceNow之前,Dave(戴夫)在VMware, Inc.工作了六年多,担任欧洲、中东和非洲地区技术服务副总裁。2003年至2005年,Dave(戴夫)领导了Mercury Interactive在北欧和南欧的技术部门。在此之前,他在Peregrine Systems, Inc.工作了六年,担任过多个高级技术和营销职位。

译者:宝蓝

睿观:企业要成功利用AI,必须将重心从追求数据数量转向确保数据质量和实施严格的数据治理,这是克服盲目追求“更多数据”所带来风险的关键。


主要支撑论据:

I. “数据越多越好”的观念存在误导,低质量数据会严重破坏AI价值。

急于利用AI导致企业倾向于尽可能多地收集数据,但这忽视了数据质量。 

将未经有效管理的(如数据湖中的)过时或不准确数据用于训练AI,会将错误固化在模型中,导致结果不可靠,而非模型本身的“幻觉”。 

用户可能难以辨别AI输出的错误,尤其在缺乏参照时,会盲目信任错误答案。

II. 企业当前面临严峻的数据挑战,影响AI应用。

数据来源不清:缺乏对数据创建者、来源、更新时间和可靠性的了解,难以信任和使用。 

数据分类混乱:难以有效管理数据访问权限(如保密信息),在数据整合利用时风险加剧。 

数据稳定性问题:动态数据(如传感器数据)更新不及时导致结果不准;历史数据会过时(如流程变更),大量过时数据价值远低于少量准确数据。 

复制现有偏见:用反映现状(而非期望目标)的数据训练AI,会复制并固化现实中的偏见(如招聘中的年龄、性别偏见)。

III. 使用有问题的数据训练AI会带来严重危害。

损害模型表现与信任:增加错误输出(“幻觉”),降低用户对AI系统的信任度和使用意愿。 

破坏公司声誉:面向客户的AI工具若表现不佳,会损害客户对公司能力的信心。 

引发合规与法律风险:生成错误的公开报告可能导致监管问题;数据分类错误可能泄露个人信息。 

造成经济与声誉损失:上述所有情况都可能给公司带来巨大的财务和名誉代价。

IV. 企业必须立即采取行动,强化数据管理以迎接AI机遇。

强化数据治理流程:明确数据处理、存储、更新规则(谁负责分类、访问审查、管理、决策保留期等)。 在应用AI前回答这些治理问题至关重要。 

确保合规流程到位:建立流程,确保投入AI的数据已通过治理审查。 数据完整性政策需覆盖数据访问和使用的所有环节。 鉴于数据量激增(如医院数据例子),明确的规划和职责分工对保护和利用数据极为重要。

V. 数据质量和治理对新兴的智能体AI同样至关重要。

无论是采用单一LLM还是多个协调的SLM,智能体AI的成功都依赖于强大的数据治理和合规流程。 

高质量的数据是让人工智能(包括智能体AI)真正发挥作用的基础。 

目标应是追求“高质量数据”,而非仅仅“更多数据”,现在设定高标准才能获得未来的优化成果。