经过近两年的生成式人工智能实验,许多IT 领导者已准备好扩大规模。然而,在此之前,他们需要重新考虑数据管理。成功实施生成式人工智能需要建立一套完善的数据管理体系,涵盖数据收集、处理、治理、安全和隐私等多个方面。只有这样,才能充分发挥人工智能的潜力,同时避免潜在的风险。
图片来源:DC Studio / Shutterstock
根据Nvidia 人工智能模型、软件和服务副总裁 Kari Briski 的说法,成功实施新一代人工智能取决于有效的数据管理以及评估不同模型如何协同工作以服务于特定用例。虽然 Nvidia 等少数精英组织将新一代人工智能用于设计新芯片等工作,但大多数组织已经确定了采用更简单模型的较不复杂的用例,并且可以专注于实现卓越的数据管理。
自动化和人工智能从业者、Gartner同行社区大使 Doug Shannon 表示,绝大多数企业现在专注于最有可能带来积极投资回报的两类用例。一类是知识管理 (KM),包括收集企业信息、对其进行分类,并将其提供给允许用户查询的模型。另一个是检索增强生成 (RAG) 模型,其中来自较大来源的数据片段被矢量化,以允许用户“与”数据“对话”。例如,他们可以获取一份长达一千页的文档,让模型将其提取,然后向模型询问有关它的问题。
Doug Shannon,Gartner全球智能自动化负责人,Gartner
大型企业固然拥有庞大的数据资产,但复杂的遗留系统和僵化的组织结构往往限制了它们对数据的有效利用。相比之下,中小企业在数据管理和 AI 应用方面更加灵活,能够快速响应市场变化。例如,许多中小企业通过构建轻量级的知识图谱和 RAG 模型,成功实现了知识的快速检索和利用,从而在竞争中脱颖而出。 然而,无论企业规模大小,数据治理都是成功的关键。企业需要建立健全的数据治理体系,确保数据的质量、安全和可用性,才能充分发挥 AI 的价值。
如果数据管理做得不好,会导致收益减少和额外成本。例如,由不良数据引起的幻觉需要花费大量额外的时间和金钱来修复——并且会让用户对工具失去兴趣。但一些IT 领导者做对了,因为他们专注于三个关键方面。
一、收集、过滤和分类数据
第一个是一系列过程——收集、过滤和分类数据——对于知识管理(KM )或 检索增强生成(RAG )模型来说,可能需要几个月的时间。结构化数据相对容易,但非结构化数据虽然更难分类,但却是最有价值的。“你需要知道数据是什么,因为只有在你定义它并将其放入分类法中之后,你才能用它做任何事情,”Shannon 说。
Nvidia提供开源工具和企业软件进行过滤,可以配置为删除个人身份信息 (PII) 或对特定领域有害的信息。工具包中提供了分类器,允许企业设置阈值。“我们还进行数据混合,将来自不同来源的数据组合在一起,”Briski 说。
在混合过程中,可以重新排列数据以改变相对数量。例如,一些企业可能希望30% 的数据来自 18 至 25 岁之间的人,只有 15% 的数据来自 65 岁以上的人。或者他们可能希望 20% 的培训数据来自客户支持,25% 来自售前。在混合过程中,还可以消除重复信息。
Kari Briski,Nvidia AI软件产品管理副总裁,Nvidia
信息也应该进行质量过滤。据Briski 介绍,这是一个迭代过程,涉及各种任务以获得最高质量的数据——这些信号可以提高模型的准确性。质量与你所在领域的背景有关,因此,例如,对金融的准确响应可能对医疗保健完全错误。“通过质量过滤,我们找到了正确的信号,并综合生成了类似类型的数据来提高该信号的重要性,”她说。
Briski还指出了用于训练 AI 的数据集的版本控制的重要性。由于不同的人过滤和扩充数据,你需要追踪谁做了哪些更改以及为什么,并且你需要知道哪个版本的数据集用于训练给定的模型。
对于企业必须管理的所有数据,自动化数据收集、过滤和分类过程至关重要。“许多组织都有数据仓库和结构化数据报告,许多组织已经采用了数据湖和数据结构,”哈佛大学副总裁兼首席信息官Klara Jelinkova 说。 “但随着数据集随着生成式人工智能而增长,确保确保数据的高质量和一致性成为一项挑战,尤其是在速度加快的情况下。拥有自动化和可扩展的数据检查是关键。”
【睿观:打造AI的“营养餐”——将数据比作食材,将AI模型比作一个正在成长的孩子。
收集数据: 就像为孩子准备食材一样,企业需要从各个渠道收集各种各样的数据,这些数据就是AI模型的“原材料”。
过滤数据: 过滤数据就好比给食材清洗、去杂质。我们不能给孩子吃所有东西,同样,AI模型也不能处理所有数据,需要去除其中的噪音和有害信息,比如PII等。
分类数据: 分类数据就像给食材分类,哪些是肉类,哪些是蔬菜,哪些是水果。只有将数据分类清楚,AI模型才能更好地理解和利用这些数据。
数据混合: 数据混合就像将不同的食材搭配在一起,以创造出更美味的菜肴。通过调整不同类型数据的比例,可以影响AI模型的输出结果。
质量控制: 质量控制就像是品尝食物,确保食材新鲜、营养。只有高质量的数据才能训练出准确可靠的AI模型。
版本控制: 版本控制就像记录食谱,以便下次可以复现同样的菜肴。通过版本控制,我们可以追踪数据的变化,了解哪些数据对模型的影响最大。
自动化: 自动化就像厨房里的各种电器,可以帮助我们更高效地处理食材。通过自动化数据处理,可以节省大量人力,提高效率。
总结来说,打造一个强大的AI模型,就像为孩子准备营养均衡的膳食一样。需要精心挑选食材(数据),进行清洗、分类、搭配,并不断调整配方,才能培养出一个健康、聪明的孩子。】
二、磨练数据治理和合规性
数据管理的第二个方面是数据治理和合规性,哈佛大学的实验清楚地说明了这一点。去年,IT部门推出了 AI Sandbox,这是一个内部开发的 gen AI 环境,免费提供给其用户社区。沙盒提供对几个不同 LLM 的访问,允许人们尝试各种工具。
哈佛IT 部门还运行了创新计划,人们在其中推销使用 gen AI 的项目。宣传必须包含一些关于预期投资回报率的内容,其中不一定是关于财务回报,但可以是其他收益的组合,例如新知识和发现,或改进的流程。如果项目被接受,则会获得一小笔种子资金,而那些表现出预期收益的项目可能会扩大规模。
Klara Jelinkova,哈佛大学副校长兼首席信息官,哈佛大学
据Jelinkova 称,对于新一代人工智能项目,数据管理的一个重要方面是重新审视数据治理,思考需要改变什么。“我们从通用的人工智能使用指南开始,只是为了确保我们的实验有一些护栏,”她说。“我们从事数据治理已经很长时间了,但当你开始谈论自动化数据管道时,很快就会发现你需要重新考虑那些围绕结构化数据构建的旧数据治理模型。”
合规性是另一个重要的关注领域。作为一家考虑扩展部分AI 项目的全球性机构,哈佛大学密切关注着世界各地不断变化的监管环境。它有一个活跃的工作组,致力于遵循和理解欧盟 AI 法案,在他们的用例投入生产之前,他们会执行一个流程,以确保满足所有合规义务。
“当你使用新技术时,你处于前沿,并且面临着立法环境随着时间的推移而发生变化的风险,”她说。“对我们来说,这都是数据治理的一部分。你需要有一个合规框架,允许你随着立法环境的变化重新制定你以前做过的事情。”
【睿观:数据治理与合规性——给AI建一堵安全的围墙。
AI Sandbox(沙箱): 这就像一个安全的游乐场,在这个游乐场里,研究人员可以自由地探索AI的各种可能性,但同时也要遵守一定的规则。
数据治理: 数据治理就像是围墙的地基,它为AI的运行提供了基础和保障。就像地基要足够坚固才能支撑起高墙一样,数据治理要足够完善才能保证数据的安全和有效利用。
合规性: 合规性就像围墙上的摄像头和警报系统,它可以及时发现并阻止潜在的威胁。就像我们需要遵守法律法规一样,AI的应用也必须符合相关的法律法规。
不断变化的监管环境: 不断变化的监管环境就像围墙外的世界,它随时可能发生变化,我们需要不断调整围墙的高度和强度,以适应新的环境。
总结来说,数据治理和合规性就像给AI建了一堵安全的围墙,这堵墙不仅要足够坚固,还要能够灵活应对不断变化的环境。只有这样,我们才能放心地让AI在我们的世界中发挥作用。
数据隐私: 数据隐私就像围墙上的锁,它保护着我们的个人信息。我们需要采取各种措施,确保数据的安全性和隐私性。
算法偏见: 算法偏见就像围墙上的裂缝,它可能导致不公平的结果。我们需要对算法进行审计和评估,以确保其公平性。
伦理道德: 伦理道德就像围墙上的警示牌,提醒我们AI应用的边界。我们需要遵循伦理原则,确保AI的发展符合人类的价值观。】
三、优先考虑数据隐私和保护知识产权
第三是数据隐私和知识产权(IP) 保护。对于大多数组织来说,数据管理本质上与隐私息息相关。他们需要确保自己不会面临风险。“你有过滤、规范化、某种增强,你必须注释数据,”Jelinkova 说。 “但随后你还要解决数据的安全性和隐私性问题,你需要保护自己的知识产权。”
在深入研究数据时,许多企业发现他们不了解与某些数据相关的基于角色的访问控制(RBAC)——如果有的话。因此,他们不知道在企业内部甚至外部共享了哪些数据。这就是指导方针和护栏显示其重要性的地方,也是需要提前实施它们的原因。
Jelinkova说,哈佛大学在隐私原则方面非常积极主动,它有一个全面的数据安全计划,包括数据分类和指导哪些数据可用于不同类型的人工智能。“我们对知识产权非常谨慎,”她说。“当我们收集数据来构建人工智能导师时,我们需要确保我们拥有我们将要输入的所有数据的所有知识产权。”
而且,由于与大多数大学一样,哈佛大学创造了许多自己的知识产权,因此它也必须确保保护这些知识产权。对于内部创建的人工智能工具来说,这并不难做到。但当使用公共模型时,必须采取额外措施,以免他们直接或间接地利用你的宝贵信息来获取商业利益。为了安全起见,哈佛大学与第三方人工智能工具供应商签订了合同保护措施,以确保其数据的安全和隐私。
【睿观:数据隐私与知识产权——给AI建一扇坚固的大门,数据隐私和知识产权就像一扇坚固的大门,保护着我们的数据资产。这扇大门需要有坚固的锁、清晰的标识和完善的监控系统,才能抵御各种威胁。
数据隐私: 数据隐私就像大门上的锁,它保护着我们的个人信息不被泄露。就像我们在家中安装锁一样,企业也需要在数据处理的过程中设置各种安全措施,防止数据被未经授权的人访问。
知识产权: 知识产权就像大门上的牌子,表明这是我们的私人领地。企业产生的数据和算法都是宝贵的资产,需要通过知识产权保护来防止被他人非法利用。
RBAC: RBAC就像大门的门禁系统,它可以根据不同的身份赋予不同的访问权限。通过RBAC,我们可以更精细地控制数据的访问权限,防止数据泄露。
第三方合作: 与第三方合作就像在自家大门前安装监控摄像头,虽然增加了安全措施,但也需要与第三方签订协议,确保我们的隐私和权益得到保护。】
数据质量决定模型质量:
数据收集、过滤、分类是数据管理的基础。
数据质量直接影响模型的准确性。
自动化数据处理提高效率。
数据治理保障数据安全:
数据治理为AI提供坚实基础。
合规性是数据治理的重要组成部分。
不断变化的监管环境要求持续调整数据治理策略。
数据隐私与知识产权保护是核心关注点:
数据隐私是数据管理的本质。
知识产权保护是企业核心资产的保障。
RBAC等机制确保数据访问安全。
成功实施生成式人工智能需要建立一套完善的数据管理体系,涵盖数据收集、处理、治理、安全和隐私等多个方面。只有这样,才能充分发挥人工智能的潜力,同时避免潜在的风险。】