长久以来,合成数据一直用于为人工智能创建更大的训练集,同时保护隐私和敏感信息。但其使用一直局限于那些能够负担数据科学家的公司。生成式人工智能正在改变这一切。
图片来源:Rob Schultz / Shutterstock
今年,几乎所有企业都在迅速采用人工智能,但大多数企业部署的都是与其他公司相同的供应商平台。
根据公司的独特需求创建定制化的人工智能解决方案需要数据。然而,公司手头的数据可能存在重大空白,数据本身可能杂乱不堪,并且在隐私或合规性方面存在问题。此外,数据也可能不够充足。
合成数据可以弥补这一空白,帮助企业在人工智能部署中找到真正的商业价值。
4月中旬,数字转型咨询公司EPAM发布了一项针对7300多名大型企业的高管和信息技术专业人员的调查。所有受访者要么在试验人工智能,要么在部署人工智能,其中14%刚刚开始,32%正在培养能力,但尚未取得一致的结果。近一半的受访者表示,他们正在取得成果,并利用这些成果增强竞争力。但只有5%的受访者认为自己是颠覆者,在人工智能的使用上处于领先地位。
德勤也发现,30%的高管表示,高质量数据的短缺是采用生成式人工智能的主要障碍之一。而这就是合成数据的用武之地。
德勤咨询的数据云和机器学习首席专家Chida Sadayappan(查达·萨达亚帕南)说,“真实数据对任何企业来说都是关键,但用合成数据加以补充是一个很好的商业差异化因素。使用这种合成数据生成的人工智能模型将使公司获得竞争优势。”
根据Gartner的数据,到明年,75%的企业将使用生成式人工智能生成合成客户数据,这一比例高于2023年的不到5%。
事实上,根据Forrester的报告,大多数全球企业已经在进行涉及合成数据的项目。更具体地说,报告显示,14%的企业已经在企业规模部署了多个用例,22%的企业在部门规模部署,22%的企业正在进行初步生产实施。此外,15%的企业处于试点阶段,同样数量的企业处于后期研究和概念验证阶段。
那么,合成数据是如何帮助企业创造商业价值的呢?以下是主要方式。
1. 构建真正了解您业务的人工智能
大型人工智能公司的模型必然具有通用性。
数据服务公司Data Axle的首席执行官Andy Frawley(安迪·弗莱利)表示,当主要的人工智能供应商在相同的公开数据集上训练模型时,结果往往是同质化的人工智能输出。这限制了差异化。
“除此之外,这些数据集可能会延续长期以来嵌入的不准确之处,降低人工智能驱动决策的可靠性。”他补充道。可靠性还可能受到影响,因为大型商业模型可获取的信息可能无法涵盖特定客户群体的细微差别。
公司可以通过微调或增强现有的人工智能模型,或者使用自己的数据或购买的数据构建小型定制模型来解决这一差距。而当这些方法不够时,他们可以通过创建新的合成数据来实现。
库存管理公司Nextuple使用合成数据创建定制的人工智能和机器学习模型,以理解库存管理挑战。例如,假设一批大量库存进入中央仓库。“我们需要决定将其发送到哪里,”公司联合创始人兼首席执行官Darpan Seth(达帕恩·塞斯)说。“这是一个高价值的决策。”这种决策涉及许多物流和优化因素,这些因素因公司而异,而合成数据的使用多年来对于构建和测试这一点至关重要。
Seth(塞斯)说,“这并不新鲜,但现在使用合成数据的方式——其可能性比以往任何时候都更大。”
他说,Nextuple并不仅仅使用合成数据来帮助训练机器学习和人工智能模型,生成式人工智能现在用于创建合成数据,使该过程比以往更快、更容易、更灵活、更智能。
“我们向它输入了我们在所有客户中看到的大量需求,”Seth(塞斯)说。“它拥有所有这些数据,现在你可以要求它生成用户故事、测试用例、测试数据 —— 以及测试自动化。”
在过去,生成这种合成数据将是一个非常手动的过程。例如,可以创建一个包含三件商品的订单,然后再创建一个包含10 件商品的订单,依此类推,进行不同的细微变化。“所有这些如今都非常迅速,因为你可以使用生成式人工智能来完成,”Seth(塞斯)说。
生成式人工智能还使整个过程民主化。
“去年年底,我们为团队中的每个人配备了人工智能工具,”他说。“这是任何人都可以使用的东西。”
由于他们的商业客户使用各种平台,Nextuple构建其系统以实现模型不可知。
“我们使用从OpenAI和Claude到Llama和Gemini的一切,”Seth(塞斯)说。“AWS有Bedrock,还有Azure,所有这些提供商都有一系列模型可用。有超过75到80家公司提供各种不同的模型。”
因此,Nextuple构建其技术以使后端人工智能可互换。“此外,明天你可能会发现一个不同的模型可以更好地完成任务,或者成本更低。”他说。
由于Nextuple必须与所有主要的云提供商和人工智能平台合作,它没有使用任何特定供应商的人工智能技术栈,而是使用开源组件构建了自己的技术栈,包括LangChain、LangGraph、LangFlow,以及用于RAG嵌入的向量数据库,如PostgreSQL的Pgvector。
“还有一些新的范式正在出现,比如模型上下文协议,”他说。“事情变化如此之快。”
2.填补空白
真实数据很少是完整的。有时,空白是由于行为的变化。例如,历史购物数据可能会显示黑色星期五的购物高峰。但今天,每个人都可能在线购物,一天的购物高峰可能会延长到整整一周。有时空白是因为某些情况很少发生,因此没有足够的例子。对于某些企业来说,这些空白可能具有重要影响。
“我做了很多交通管理工作,”图夫茨大学研究生工程学院院长、IEEE院士Karen Panetta(卡伦·帕内塔)说。她表示,来自各种摄像机的交通数据很多。但一些最关键的数据,比如某些类型的交通事故,也是最罕见的。
她说,“我们没有足够的翻车事故视频,所以我们使用合成数据来生成这些。”然后是面部识别。有许多在良好光照条件下拍摄的正面照片的人脸数据库。仅在这种数据上进行训练会导致系统有时无法正常工作,如果用于安全目的,甚至可能是危险的。
“一旦你转动头部或戴上眼镜,或者微笑,或者戴上口罩,它就会失败。”她说。
图像生成器可以用来创建模拟不同光照条件或角度的照片排列。但当前技术能做到这一点是有限的。
“我们尝试为戴口罩的人生成一些合成数据,但与人体解剖学不太匹配,”Panetta(帕内塔)说。“这些轮廓很重要。所以它彻底失败了。但如果合成数据真的表现出你想要匹配的行为,它是一个很好的工具。”
3.在保护隐私的同时最大化数据价值
许多公司有特定的用例是现成的模型无法很好覆盖的。这不仅仅是专门的库存管理应用程序或自动驾驶汽车。它可能也像为客户生成一封电子邮件或一个幻灯片那样简单。
“关于如何起草一封给客户的电子邮件,没有客观的答案,”专注于人工智能护栏和合规性的人工智能公司Dynamo AI的应用人工智能副总裁Eric Lin(林育泽)说。这是因为公司有自己的风格、语言,当然还有独特的产品信息。可以通过在推理点通过RAG嵌入将人工智能指向一个向量数据库来填补产品信息缺口。但通过对实际客户电子邮件进行微调或RAG嵌入来训练人工智能可能会侵犯他们的隐私。你不会希望人工智能将一个客户的敏感信息包含到另一个客户的邮件中。
“我们一直因为隐私和安全问题而不敢利用这些数据,”Lin(林)补充道。但合成数据可以剥离所有敏感的私人信息,使其不会进入人工智能的知识库,并使企业能够创建编写他们所需电子邮件和幻灯片的模型。这不仅仅适用于营销应用。
“例如,对于医疗保健公司,合成数据有助于模拟患者数据和临床场景,确保遵守隐私法规,同时创建多样化的训练集。”Kearney数字和分析业务合伙人Bharath Thota(巴拉特·托塔)说。
他说,通过使用合成数据,医疗保健公司可以获得更好的准确性或创造创新的新产品,尽管该领域受到高度监管。
4.加速产品开发和研发
说到创造产品,如果一家公司正在构建新事物,问题可能不是隐私,而是可能没有历史数据可供使用。当Nextuple想要构建一个新的库存管理应用程序时就出现了这种情况。
“我们希望模拟根据典型需求因素,公司的库存如何在其分销中心和商店网络中被消耗,”Nextuple的Seth(塞斯)说。“在没有真实世界数据的情况下,没有办法测试它是否能在现实世界场景中正常工作。”
他们创建的合成数据包括商店和仓库网络中的库存位置,以及模拟订单及其到达时间。
“我们使用模拟来了解,例如,在感恩节期间,销售会出现某些激增,了解这些真实情况后,我们创建了合成数据,”他说。“然后我们有幸与一个潜在客户一起测试,这验证了我们的假设。”
另一个使用合成数据进行产品开发的例子?构建机器人。
“我们最近在机器人技术方面看到了如此多的进步,”软件开发公司Globant 的数字创新高级副总裁Agustin Huerta(奥古斯丁·赫尔塔)说。有像英伟达Omniverse这样的虚拟环境,模拟机器人可以在其中与模拟对象交互,创建大量训练数据,以启动机器人在空间中导航或处理产品的能力。
“如果你谈论用于训练自动驾驶解决方案的计算机视觉数据,我们需要合成数据 —— 没有其他方法可以做到这一点,”他说。“否则,我们将不得不撞车。”
5.在没有历史数据的情况下探索新市场
Thota 说,合成数据的另一个用例是当一家公司有产品,但希望在新市场销售时。企业可以模拟消费者的行为方式、他们的偏好,以及他们可能对新产品或服务的反应,他们还可以使用模拟数据来帮助完善功能和营销策略。
“一家希望进入新地区的银行可以使用合成数据来模拟当地经济状况、消费习惯,以及人们可能如何采用他们的金融产品,”他补充道。
卡内基梅隆大学的人工智能教授Anand Rao(阿南德·拉奥)曾与一家希望扩展到新市场的拼车公司合作。但到处都使用相同的策略不会很有效,因为条件因地理位置而异。
“在纽约市,你需要五到十分钟的周转时间,”Rao(拉奥)说。“他们对错误预测的容忍度较低,比如如果它说八分钟,但汽车需要12分钟才能到达。但在密歇根州的安阿伯,如果晚几分钟,他们可以接受。”
这意味着优化策略需要不同,而合成数据帮助完善了这些策略。
“我们有超过200,000个针对十个城市的上市情景,”他补充道。这让高管们对如何适应新市场有了真正的洞察。
6.构建数字孪生
历史上,数字孪生一直用于建模喷气发动机,帮助公司进行预测性维护,或用于设计和管理工厂等复杂的物理设施。今天,数字孪生的定义正在扩展,包括软件系统、业务流程,甚至人员。
公司正在通过创建合成客户档案来模拟客户、他们的行为、购物旅程、购买模式,以及他们对特定促销活动的反应,EY 美洲消费者人工智能负责人Tom Edwards(汤姆·爱德华兹)说。“这帮助我们了解不同人群对不同产品定位的反应,”他说。“我们得到的是更好的需求预测和更好的定位。”
他看到公司用合成人物资料代替焦点小组。
“你可以创建数百个不同的人物资料,测试不同的信息传递方式,” 他说。“合成数据允许你填补心理特征细节。”
这些模拟的人物资料也可以用于改善电子商务个性化。
“我可以运行数百万种不同的组合,当您购物时,我可以立即根据这些基于合成数据预设的人物资料之一与您匹配,”他补充道。“我比传统算法更了解您,因为我已经推断出数百万种潜在的前进路径。”
他说,这里的商业价值可能达到数百万美元,因为它解锁了一种与消费者无缝对齐并提供他们尚未见过的推荐产品的方式。公司还可以创建员工的数字孪生。
“在内部,我们正在研究的一件事是我们的人员配备和技能,”管理咨询公司SSA & Company的应用解决方案负责人Nick Kramer(尼克·克莱默)说。
“我们有关于我们顾问的历史数据,以及关于技能和能力的不可靠数据,” 他说。“但我们有丰富的项目数据,从中我们可以说,我们有了我们的粘土块,并一直在尝试不同的方法来合成数据。”
他说,合成的人物资料可以是个人、项目角色或特定头衔,这些被组合成模拟的项目团队,进而创造了人员配备可能是什么样子的视图,以及如何将其与技能和工具平衡,以及如何优化结果、速度、收入和利润率。
7.为代理人工智能做好准备
随着人工智能的演变,使用合成数据的机会也在增加。例如,今年,一切都是关于代理人工智能的。
根据今年4月Cloudera的一项调查,96%的企业IT领导者表示,他们计划在未来12个月内扩大人工智能代理的使用。尽管57%的人表示他们已经实施了人工智能代理,但最大的障碍是数据隐私,53%的人表示这正在减缓采用。但培训人工智能代理不仅仅是为了保护隐私。
“合成数据是加速这些代理学习并映射复杂场景的绝佳方式,”EY的Edwards(爱德华兹)说。它还可以用来确保代理能够处理任何被抛给它们的事情。
“如果你能够基于复杂交互运行数百万种不同的情景,这将成为一个非常有价值的工具,” 他说。“它将成为在组织内部署代理的基础方面。”
现状检查:过度依赖合成数据的风险
过度使用合成数据也有危险。正如Panetta(帕内塔)在尝试创建戴口罩的人的合成图像时发现的那样,它有其局限性。
“如果滥用,你将面临相当于过拟合的问题,输出变得高度重复。” 人工智能平台公司Mendix的战略高级副总裁Gordon Van Huizen(戈登·范·休伊岑)说。“然后在训练数据之外输入提示可能会导致随机或奇怪的结果,因为系统难以解释新模式。”
不过,有解决方法。公司可以创建更多样化的数据集,将合成数据与真实数据混合。
“但关键是要尽可能在所有情况下包含人工验证协议,以利用合成数据。” 他说。
作者:Maria Korolov(玛利亚·科罗洛夫)
Maria Korolov(玛利亚·科罗洛夫)是一位屡获殊荣的科技记者,拥有超过20年报道企业科技的经验,主要为Foundry出版物——《CIO》《CSO》《网络世界》《计算机世界》《个人电脑世界》等撰写文章。她还是一位演说家、科幻作家和杂志编辑,并且主持着一个YouTube频道。她在亚洲经营了一个商业新闻社五年之久,还曾为《芝加哥论坛报》、路透社、联合通讯社、美联社和《好莱坞报道》等媒体供稿。在20世纪90年代,她曾在前苏联担任战地记者,并从车臣和阿富汗等十几个战区进行报道。
Maria(玛利亚)凭借对博通公司收购VMware以及量子计算的报道,荣获2025年AZBEE奖。
译者:小知
睿观:在生成式AI的强力推动下,合成数据正从简单的训练集补充工具,演变为企业释放AI全部价值、实现差异化竞争的关键战略手段(核心演变)。文章详细阐述了其七大商业用含例,包括:构建能理解特定业务的定制化AI、填补真实世界数据的空白、在保护隐私的同时最大化数据价值、加速新产品研发、在无历史数据的情况下探索新市场、构建客户或流程的数字孪生,以及为新兴的代理型AI做好准备(关键应用场景)。因此,善于利用合成数据克服现实数据瓶颈,已成为企业在AI时代加速创新、降低风险并获得竞争优势的核心策略(战略价值)。
金句:
从“数据替身”到“价值引擎”,生成式AI正将合成数据从幕后推向台前,成为企业在AI竞赛中实现差异化超车的“秘密武器”。