你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
让新一代人工智能和数据连接发挥作用
作者:福建CIO网 来源:CIOCDO 发布时间:2024年08月12日 点击数:

面对数据集不足和使用受版权保护的数据训练机器学习系统的风险,当今首席信息官面临的挑战包括隐私和安全、合规性和匿名化。那么,除了警惕监管和与其他管理人员合作以帮助建立对人工智能的信任之外,首席信息官还能做些什么呢?


来源:shapecharge

根据Gartner 5 月份发布的一项调查,随着人工智能被大肆宣传,它成为企业的主要人工智能解决方案也就不足为奇了 。在美国、德国和英国的 644 名公司高管中,有 29% 表示他们已经在使用人工智能,而且它比其他人工智能相关技术(如优化算法、基于规则的系统、自然语言处理和其他类型的机器学习)更为广泛。


然而,真正的挑战是“论证和评估”项目的价值,这不仅与TCO 和可以获得的广泛利益有关,而且还要面对诸如对 AI 技术方面缺乏信心以及缺乏足够数据量等障碍。但这些并不是无法克服的挑战。


一、隐私保护


人工智能和新一代人工智能项目的第一步始终是获取正确的数据。佛罗伦萨大学技术专家Vincenzo Laveglia 表示:“在隐私至关重要的情况下,我们会尝试尽可能匿名化,然后再开始训练模型。隐私和实用性之间需要取得平衡。如果匿名化后数据中的信息级别相同,则数据仍然有用。但是一旦删除个人或敏感信息,数据就不再有效,就会出现问题。合成数据避免了这些困难,但它们也不能免除权衡的需要。我们必须确保各种信息类别之间的平衡,否则模型会成为某个主题的专家,而对其他主题却非常不确定。”


合成数据的范围包括使用数据增强方法生成的数据,或从现有数据中人工生成新数据的过程,用于训练机器学习模型。


Laveglia说:“在适用的情况下,数据增强可以解决数据不足或不符合隐私和知识产权法规的问题。”


Gartner认为,合成数据有助于解决 AI 产品的数据可用性问题,以及隐私、合规性和匿名化挑战。合成数据可以反映与真实数据相同的统计特征,但不会泄露个人身份信息,从而符合隐私设计法规和其他敏感细节。合成数据的替代方案是手动对数据集进行匿名化和去身份化,但这需要更多时间和精力,错误率也更高。


《欧洲人工智能法案》也谈到了合成数据,称其是减轻使用个人数据训练人工智能系统所带来的风险的一种可能的措施。


“近几个月来,人们对人工智能个人数据保护的关注度显著提高,”Dentons的 TMT、商业和数据保护律师兼法律顾问 Chiara Bocchi 表示。“从通用的人工智能模型来看,目前人们关注的焦点是数据抓取,无论是执行者还是受其影响的人。意大利当局已经采取了一些措施来防止这种活动。”


二、合规的复杂性


今年5 月,意大利数据保护局强调,新一代人工智能系统所基于的训练模型始终需要大量数据,这些数据通常通过网络抓取或在网上进行大规模、无差别的收集获得。网络抓取活动可以是直接的,由开发模型的同一主体进行,也可以是间接的,从第三方数据湖进行。因此,对于首席信息官来说,确保数据以合规的方式收集,以及最重要的是确保他们能够使用这些数据变得很复杂。


“从保护个人数据和版权的立法角度来看,了解某段数据是否受到保护并不复杂,”Bocchi说道。“隐私方面的复杂性在于保证将公开或可公开访问的数据用于除决定其传播的目的之外的其他目的。仅从处理的法律基础来看,获得所有可以使用抓取技术收集个人数据的主体的同意基本上是不可能的。”


这就是隐私当局试图寻找指导方针的原因。


“具体来说,问题和评估在于,合法利益的法律基础是否适用于处理通过抓取收集的个人数据,以训练人工智能系统,”Bocchi补充道。“意大利数据保护机构宣布,它将很快对基于合法利益的网络个人数据抓取的合法性作出裁决。”

 

荷兰数据保护局和法国数据保护局(CNIL)已经就此问题进行了干预。CNIL表示,合成数据以及匿名化和假名化技术是限制处理个人数据以训练人工智能系统相关风险的有效措施。


三、降低人工智能风险的策略


在复杂的环境中,充分利用人工智能的潜力并降低风险是一项持续的高难度任务。


Bocchi说:“成功的策略是从训练数据库开始,从新一代人工智能系统的设计阶段开始,定义确保遵守隐私法规的解决方案。”


另一项有效举措是建立公司结构,以促进高层管理人员之间的更大协作。“为了增加对新技术的信任,许多公司正在采取行动,成立内部道德委员会,这些委员会还被赋予支持和促进创新治理的职能,”她补充道。


在人工智能模型的训练和数据存储方面,CNIL还建议企业注重人工智能系统的透明开发及其可审计性,并对模型开发技术进行有效的同行评审。


四、驾驭技术和变革管理


在对人工智能技术的信任方面,首席信息官们担心幻觉和歧视风险。因此,为了获得信任,有必要确保数据集的质量,并适当限制数据存储,以防止个人或敏感信息泄露。


然而,鉴于这些前提,佛罗伦萨大学的拉维利亚表示,人工智能是一种完全可靠的工具,只要系统构建良好、测试数据的性能令人放心,并且所使用的数据集代表数据的实际分布。


“一个例子是Alpha Fold,它广泛用于结构生物学和生物信息学,”他说。“这是一个完全基于 DeepMind 开发的人工智能技术的程序,用于从蛋白质的氨基酸序列开始预测蛋白质的 3D 结构。它具有革命性,因为它可以在一天内完成研究人员需要数月或数年才能完成的任务,而且即使训练数据集很大,错误率也非常低。但它的数量级还不能与训练现代 LLM 的数据集相提并论。”


公司可以采用类似的方式使用预先训练的模型,以确保最佳配置、微调和适应其用例。事实上,从头开始使用自己的模型需要更多的数据收集工作和大量技能。但另一方面,使用大型技术套件中包含的产品是一种更直接的解决方案,但可定制性较差,因为它可能会迫使CIO 进入某些应用程序的界限。下载预先训练的模型,然后用自己的数据对其进行改进,这对 IT 团队的创造力来说是一个很好的折衷方案,只要与业务一起,首先确定了可能为公司带来优势的用例。


在公司中成熟地采用人工智能意味着在流程和功能中大规模推广这项技术,并努力产生超越提高生产力的效益。IT还需要专注于人工智能工程,即技术开发和具体实施。


此外,项目必须伴随着技能提升和变革管理活动,因为团队的组织方式和工作方式注定会发生重大变化。根据普华永道最近的《人工智能就业晴雨表》研究,对使用人工智能的技能的需求增长了 25%,这意味着人们不会被人工智能取代,而是必须学习更好的方法来使用它,普华永道的另一项研究《2024 年全球首席执行官调查》也证实了这一点,该研究称,对于 69% 的样本来说,人工智能将要求大多数员工开发新技能。


【睿观:首席信息官在人工智能时代面临的挑战与应对

(一)核心问题与挑战

数据隐私与安全: 如何在保证数据隐私的前提下,收集足够高质量的数据用于训练AI模型?

合规性: 如何在遵守相关法律法规的前提下,合法获取和使用数据?

数据质量与模型可靠性: 如何确保训练数据的高质量,并降低模型产生幻觉或歧视的风险?

技术人才与组织变革: 如何培养具备AI技能的人才,并推动组织适应AI带来的变革?


(二)应对策略与建议

1、合成数据: 利用合成数据解决数据不足和隐私问题。合成数据可以模拟真实数据,但又不包含个人隐私信息。

2、数据匿名化与去标识化: 对数据进行匿名化和去标识化处理,降低隐私风险。

3、合法合规: 严格遵守相关法律法规,确保数据收集和使用的合法性。

4、建立道德委员会: 成立内部道德委员会,监督AI的开发和应用,确保其符合伦理道德。

5、透明度与可审计性: 提高AI模型的透明度和可审计性,增强用户对AI的信任。

6、预训练模型: 利用预训练模型,减少数据收集和模型训练的工作量。

7、技能提升与组织变革: 加强员工AI技能培训,推动组织适应AI带来的变革。


(三)分析与建议

1、平衡隐私与实用性: 在数据隐私和模型性能之间找到平衡点,既要保护用户隐私,又要保证模型的准确性。

2、关注模型解释性: 提高模型的可解释性,帮助用户理解模型的决策过程,增强对模型的信任。

3、建立数据治理体系: 建立完善的数据治理体系,规范数据采集、存储、使用和共享,确保数据安全。

4、加强国际合作: 加强国际合作,共同制定AI伦理规范和法律法规。

5、关注AI的社会影响: 关注AI对社会的影响,积极应对AI可能带来的挑战。


总结

首席信息官在人工智能时代面临着巨大的机遇和挑战。通过积极应对数据隐私、合规性、技术人才等方面的挑战,可以充分发挥人工智能的潜力,推动企业数字化转型。

以下为首席信息官的行动建议:

1、制定AI战略: 明确企业AI发展的目标和方向,制定详细的实施计划。

2、组建AI团队: 建立一支具备AI专业知识的团队,负责AI项目的开发和管理。

3、投资AI基础设施: 建立完善的AI基础设施,包括硬件、软件和数据平台。

4、加强与业务部门的合作: 与业务部门紧密合作,共同探索AI应用场景。

5、关注AI伦理: 始终将AI伦理放在首位,确保AI技术的负责任开发和应用。

总结来说,人工智能的发展为企业带来了巨大的机遇,但也带来了新的挑战。首席信息官需要积极应对这些挑战,抓住机遇,推动企业在人工智能时代实现创新发展。】