生成数据可能比收集数据更快、更容易、更便宜、更具代表性,且更有利于保护隐私。但如果操作不当,合成数据可能会让你试图避免的问题成倍增加。那么,如何确保选择阻力最小的前进道路呢?
图片来源:NicoElNino / Shutterstock
目前,用于训练人工智能的数据中,已有高达 20% 是合成数据——即通过生成而非从现实世界观测获得的数据——LLM(大型语言模型)使用了数百万个合成样本 。据 Gartner(高德纳)预测,到 2028 年,这一比例可能会达到 80% 。该公司还表示,到 2030 年,合成数据将比真实数据更多地用于商业决策 。不过,从技术层面来讲,你从大型语言模型获得的任何输出都是合成数据 。
Gartner 首席研究员 Vibha Chitkara(维布哈·奇特卡拉)表示,人工智能训练是合成数据大放异彩的领域 。“它有效地解决了与现实世界数据相关的许多固有挑战,例如偏差、不完整性、噪声、历史局限性,以及隐私和监管方面的问题,包括个人身份信息等,”她说 。
与缓慢、昂贵且可能充满隐私问题或根本无法获取的现实世界数据收集相比,按需生成大量训练数据具有很大吸引力 。她补充道,合成数据应该有助于保护隐私、加快开发速度,并且对于企业在其他情况下难以处理的长尾场景而言,成本效益更高 。假设你能够使其足够准确,它甚至可以用于可控实验 。
针对特定目的构建的数据非常适合用于情景规划和运行智能模拟,而足够详细、能够涵盖整个场景的合成数据可以预测资产、流程和客户的未来行为,这对于商业规划来说将具有极高价值 。这类高级应用需要模拟引擎,而除了一些早期采用领域外,与数字孪生类似的模拟技术仍在开发中 。
材料科学、制药研究、石油和天然气以及制造业显然是合成数据的应用市场,但供应链和保险行业对其的兴趣也在不断增加 。足够易用且准确的工具可以在许多商业决策领域带来运营改善、增加收入,同时优化成本并降低风险 。
此外,市场营销和产品设计团队可以根据购买数据和现有的客户调查创建模拟客户,然后向他们询问对新产品和营销活动的反馈 。一家全球供应链公司正在尝试模拟自然灾害、大流行和地缘政治变化等干扰情况,以提高供应链的弹性 。这是一个多阶段的过程,首先要构建模拟引擎,生成这些情景对供应和交付路线影响的数据集,然后训练人工智能模型来分析这些情景,并提出加强供应链的建议 。
合成数据更直接的用途可能较为平常 。实际上,各组织可能已经在人工智能领域之外有限地使用合成数据 。网络和应用程序开发人员依赖合成监控,大规模模拟用户交互,以衡量不同情景、地点和设备下的性能和可用性,而不是等待真实用户遇到问题区域,或者在发布前测试新应用和功能 。
一、精准放大
Domino Data Lab(多米诺数据实验室)的现场首席数据科学家 Jarrod Vawdrey(贾罗德·沃德雷)表示,如果创建得当,合成数据可以模拟现实世界数据的统计属性和模式,而不包含原始数据集中的实际记录 。IBM Research(IBM研究院)人工智能模型副总裁 David Cox(大卫·考克斯)建议将其视为对数据的放大而非创建 。他说:“生成真实数据可能极其昂贵,但如果你有少量真实数据,就可以对其进行倍增 。在某些情况下,你可以创建出质量比原始数据更高的合成数据 。真实数据只是一个样本 。它无法涵盖你在现实世界中可能遇到的所有不同变体和排列 。”
在没有个人数据且不存在威胁模型的情况下,合成数据最为有用 。例如,在你自己的环境中合成多个示例,以改进基于大型语言模型的智能体(即函数和应用程序编程接口),这显然能使模型表现得更好 。
对于这些场景,Cox(考克斯)认为像 IBM 这样的供应商提供的一站式工具既安全又强大 。“在这种情况下,合成数据是你的好帮手,”他说 。“它能帮助你在某些方面提升模型性能 。它与真实的人物或你担心会泄露的数据无关,完全无害且安全 。”
向合成数据中注入领域知识,并确保特征、属性和特性的真实分布,实际上能使模型比仅用真实数据训练时表现得更好 。
实时数据平台 SingleStore 的首席创新官 Rahul Rastogi(拉胡尔·拉斯托吉)说:“在实际应用中遇到的大多数问题都源于边界条件,但真实数据并不能涵盖所有这些条件 。”
例如,想要检测流水线上有损坏或瑕疵产品的制造商,不太可能拥有他们希望计算机视觉模型检测的所有可能组合的图像 。他说,欺诈检测和网络安全领域可以使用合成数据进行更极端的测试 。他说:“进行威胁建模并尽可能多地生成合成数据可能是最佳实践,因为你不能等到模型出现数据泄露、产生错误结果或出现过多误报 。”
《欧盟人工智能法案》(EU AI Act)可能会鼓励更多地使用合成数据,因为如果组织希望在符合公共利益标准(例如能源可持续性或保护关键基础设施)的人工智能监管沙盒中使用个人数据,就必须证明无法使用合成数据来替代 。要证明这一点,就需要对合成数据进行实验,这可能意味着在其确实足够有用的地方,它会得到更广泛的应用 。
即使对于不受《欧盟人工智能法案》影响的组织,高德纳也建议尽可能使用合成数据,因为生成式人工智能模型很可能会保留提示中(直接或间接)包含的个人数据 。语言使用模式、兴趣主题,或者仅仅是用户资料,都可能足以带来重新识别个人身份的风险 。然而,尽管合成数据有潜在优势,但要正确使用它并非总是一帆风顺 。
Gartner 副总裁分析师 Kjell Carlsson(凯尔·卡尔松)说:“合成数据可能是一股积极的力量,但你也可能会把它用得一团糟 。在某种程度上,我们可以通过使用合成数据来改进大多数用例,但它存在风险,而且人们对它并不熟悉 。你需要有懂行的人,并且在操作时要格外小心 。”
二、过度复制现实
医疗保健领域,隐私保护措施阻碍了本可改善人工智能的数据分析,这使得合成数据在这里有明显的用武之地,但对于任何客户数据特别有价值的组织,合成数据都是有帮助的 。
尽管 Rastogi(拉斯托吉)不能透露他在苹果公司负责全球报告、分析和数据服务时具体为哪家公司工作,但他表示,尽管最初持怀疑态度,但在首先检查了数据的维度、分布以及笛卡尔关系后,他的前团队成功地将合成客户数据用于技术评估,评估新技术时避免了让供应商接触真实客户数据 。
他说:“我们对使用真实数据很谨慎 。虽然真实数据会带来最佳效果,但我们总是非常犹豫 。” 那是五年前的事了,但他认为如今企业在将数据用于人工智能时仍面临类似的挑战 。
IBM 研究院的 Cox(考克斯)补充道:“真实数据就像低放射性物质 。你不会把它带出公司,但如果可以的话,你根本不想随意挪动它 。” 而且提供给开发人员的数据副本可能会被盗取 。许多企业坐拥大量数据却小心翼翼,未能充分挖掘其价值,这其中蕴含着巨大的机会 。复制一份客户数据库并放在其他地方存在很大风险,因此创建一个合成替代数据要安全得多 。
Carlsson(卡尔松)表示,合成数据有望以保护隐私的方式做到这一点,因为你创建的是数据集的合成版本,其中不应包含任何真实个体 。但这也可能出问题 。他说:“你可能犯了错误,对某一个体采样过于频繁,结果复制了那个人,而且之后没有进行清理,没有去除与真实人物对应的信息 。或者有人可以直接对其进行逆向工程,因为不同字段之间的关系足够紧密,他们可以推断出来 。” 当你合并多个数据集时,重新识别身份的可能性更大 。
Vawdrey(沃德雷)将这种无意的复制称为模型泄露 。他说:“这种风险随着生成技术的发展而出现 。基于 GAN(现代生成对抗网络)和大型语言模型的方法有时会记住并重现敏感的训练示例,因此企业应该实施严格的隐私保护方法,如差分隐私,从数学层面确保能够防止身份被重新识别 。”
假设你有一个包含客户人口统计信息和购买习惯的数据库 。差分隐私通过添加噪声来确保隐私,但这是一种权衡,可能会降低数据的准确性 。Cox(考克斯)警告说:“你添加的噪声越多,你的数据就越不像数据 。”
合成数据本身就需要专业知识,而像差分隐私这样的先进技术更是提高了门槛,因此许多组织将依赖人工智能平台,或与经验丰富的合作伙伴合作,而不是依靠内部能力 。
三、纠偏的局限性
Carlsson(卡尔松)表示,所有数据集实际上都存在偏差,只是程度不同而已 。将代表性不足的群体数据添加回数据集中可以对模型进行纠偏 。
理论上,合成数据可以训练出在处理多样化群体数据或应对复杂情况时表现更好的模型 。以音频数据为例,你可以添加更多边缘情况的示例,如不同的口音、嘈杂的环境(如零售环境)、需要准确识别的罕见术语,或者从一种语言转换到另一种语言的对话 。
Carlsson(卡尔松)说:“你可以创建数据中代表性不足群体的合成变体版本 。在我的临床试验中,某一特定种族、年龄或性别的样本数量不足 。” 通过增加足够多样化的代表性数据可以重新平衡数据集 。“我可以创建这些个体的合成版本,并围绕它们添加更多变体,从而使这个模型针对该群体的性能得到实际提升 。但我也可能完全搞砸,对数量过少的群体进行过度采样,最终只是一遍又一遍地复制同一个体 。这从隐私角度来看是不利的,而且也无助于提升模型性能,因为该个体可能并不能很好地代表这个群体 。你很容易误入歧途,使数据问题变得更糟,让偏差比之前更大 。”
IT 数据库 ACM Digital Library 最近的一项研究表明,即使是那些声称能生成无偏差数据集的工具,如果没有基于人口统计数据提供指导或控制措施,也可能会生成严重不均衡的种族数据集,这种数据集看似多样,但却完全遗漏了构成真实人口相当比例的某些群体 。如果生成的数据基于极少数基础数据样本,且不清楚这些样本的某些特定特征在真实人口中的分布情况,那么得到的统计多样性可能并不具有代表性 。
Carlsson(卡尔松)说:“你会误以为模型能够正常工作,从而产生一种虚假的安全感 。”
因此,显而易见的风险是合成数据可能质量较差,甚至是错误的 。所以,针对每个用例使用正确的技术来生成数据,与对数据进行全面检查同样至关重要 。
Vawdrey(沃德雷)说:“对于表格数据,统计相关性可能会被过度简化,而合成图像可能缺乏现实世界视觉数据中存在的细微变化 。文本生成在事实准确性和连贯性方面面临挑战 。” 当合成数据未能捕捉到现实世界数据的真正复杂性和细微差别时,也会出现问题,导致模型在合成测试中表现良好,但在实际生产环境中却失败 。
四、基于专业知识构建
AI 生命周期平台 Future AGI 的首席执行官 Nikhil Pareek(尼基尔·帕里克)表示,与大型语言模型一样,合成数据也需要在现实世界背景中有严格的基础支撑,例如通过 RAG(检索增强生成)来避免产生幻觉或输出无意义的内容 。如果合成数据的分布不准确,存在类别不平衡或相关性不匹配的问题,即使看起来合理的数据也可能会引发问题 。
迭代验证和语义聚类可以将生成的数据与实际观察到的模式相结合,这会有所帮助,而这需要领域专业知识,这样你就能发现错误的数据,尤其是在进行模拟时 。
好消息是,这为组织提供了差异化竞争的机会,Cox(考克斯)说 。“你对业务、客户以及业务运作方式的领域专业知识是最为关键的 。”
关键在于让企业内部合适的专家参与进来,并获取正确的技术专长 。但可供企业聘请的有经验的合成数据工程师很少 。Chitkara(奇特卡拉)警告说:“生成高质量、符合特定用途的数据需要专业知识和技能,这对如今的许多组织来说是一个障碍 。” 而且,在组织能够信任合成数据及其相关管理机制之前,其采用速度将会很缓慢 。
Cox(考克斯)继续说道:“对于考虑应用人工智能的企业利益相关者而言,如今需要培养的最重要技能是基准测试和评估 。你得明确‘好’的标准是什么,以及要如何测试系统,才能判断在添加合成数据后,系统的表现是否比之前有所提升 。” 监测和评估需要持续进行,并与企业目标相结合 。
五、空间不足
由于合成数据通常比真实数据更容易生成,而且其目的就是创建大量示例以涵盖多种场景,企业最终很可能会得到规模大得多的数据集 。此外,他们可能还会低估生成合成数据所需的基础设施 。
Vawdrey(沃德雷)说:“早期的方法,如基于规则的生成方法或合成少数类过采样技术(SMOTE),所需的计算资源较少,而像生成对抗网络(GAN)这样的现代深度学习方法则需要大量的图形处理器(GPU)计算能力 。最新的基于大语言模型的合成数据生成可能需要企业级的基础设施,特别是在进行大规模图像或视频合成时 。”
合成数据一旦生成,企业还需要保留合成数据集和模型工件以供审计;必须有清晰的文档记录,以显示合成数据是如何创建、验证和使用的 。
合成数据可以是结构化的和紧凑的,没有混乱的真实世界数据中的噪声、冗余和非结构化元素 。但 Chitkara(奇特卡拉)说,由于生成的数据量很大,场景探索和智能模拟需要大量的计算资源和存储容量 。合成媒体数据集可能会达到 PB(千万亿字节)级别 。
Cox(考克斯)补充道:“这是一种财富过剩的情况 。你很容易创造出多得不知如何处理的东西 。仅仅因为它是合成数据,并不意味着你就不必保留它、对其进行审计,以及了解它是如何创建和使用的 。你仍然需要对其进行处理 。”
睿观:
合成数据因其在AI训练中的高效、低成本及隐私保护潜力而迅速普及。但其应用亦伴随偏见放大、隐私泄露及质量参差等风险,需专业知识、严格验证与审慎治理。组织唯有平衡机遇与风险,方能安全释放其价值。
【专家解读】合成数据,即非通过直接观测真实世界、而是通过算法生成的数据,正以前所未有的速度渗透到 AI 领域。Gartner 的预测——到 2028 年 AI 训练数据中 80% 是合成数据,到 2030 年其在商业决策中的应用将超过真实数据——清晰地揭示了这一趋势的强度。这不仅是 LLM 发展的必然产物(其输出本质上就是合成数据),更是解决现实世界数据固有顽疾(如偏差、不完整、隐私限制、获取成本高等)的关键路径。合成数据为 AI 发展提供了更广阔、更灵活、更安全的数据基础,尤其是在隐私保护、开发加速和处理长尾场景方面,展现出巨大潜力。
【小白提问 & 解答】问:啥是合成数据?听起来像是“假数据”,我们为啥要用“假”的,不用真的呢? 答:没错,你可以把它理解成“高仿数据”或者“AI 的电影替身”。为什么要用“替身”呢?因为“真明星”(真实数据)有几个问题:
太贵了:
采集真实数据费时费力又费钱。
太少了:
有些特殊情况(比如罕见病、极端天气)的真实数据很难找到。
怕曝光:
真实数据涉及隐私,不能随便用,法律管得严。
有偏见:
真实数据可能本身就不公平,比如只拍帅哥美女,忽略了普通人。 而“替身”(合成数据)就可以又快又便宜地大批量生产,还能专门造出稀有场景,最重要的是,它不涉及真人隐私,用起来更安全、更自由!
【专家解读】合成数据的应用远不止于模型训练。其在情景规划和智能模拟方面价值巨大,通过构建高保真度的数字孪生或模拟引擎,企业可以预测资产、流程乃至客户在不同假设条件下的行为,为商业规划、风险管理(如供应链弹性推演)提供前所未有的洞察力。此外,它还能创建模拟客户,用于市场调研和产品测试。虽然高端模拟应用仍在发展,但在材料科学、制药、制造业等领域已显现成效,并正向供应链、保险等行业扩展。同时,合成监控等相对基础的应用也已在软件开发中普及。
【小白提问 & 解答】问:这“高仿数据”听着很神,到底能用在哪儿? 答:用处可多了!想象一下:
开“沙盒模式”:
就像玩游戏开沙盒,公司可以用它来模拟各种“假如”——假如发生地震了供应链怎么办?假如推出这个新产品客户会买吗?它能帮你提前演练,少走弯树。
造“虚拟客户”:
想知道新广告效果?不用满世界找人做问卷,造一批“虚拟客户”出来,让他们“看广告”,直接告诉你喜不喜欢。
当“测试假人”:
开发新 APP 或网站时,可以用它模拟成千上万个用户同时在线,看看系统会不会崩溃,哪里会卡顿,比等真实用户抱怨强多了。
【专家解读】合成数据的核心优势并非无中生有,而是对真实数据的“精准放大” (Accurate Amplification)。它可以捕捉并模拟真实数据的统计特性和模式,却不包含具体个体信息。如 IBM 的 David Cox 所言,它能将少量珍贵的真实数据“倍增”,甚至通过注入领域知识和确保分布真实性,生成比原始样本质量更高、更能覆盖边界条件 (Boundary Conditions) 的数据。这对于需要处理极端情况(如欺诈检测、网络安全测试)或改进特定模型功能(如 LLM Agent 的 API 调用)的场景至关重要。《欧盟 AI 法案》等法规也可能因其隐私优势而推动其应用。
【小白提问 & 解答】问:“假数据”怎么可能比真的还好?这不是吹牛吗? 答:这不是吹牛,关键在于“举一反三”!真实数据就像你手里只有几张猫的照片,可能都是猫趴着的样子。而合成数据可以根据这几张照片,学习猫长什么样,然后“画”出成千上万张猫的照片,包括猫跳起来的、躲起来的、甚至在月球上的(只要你敢想)!它能帮你补全真实世界里很难收集到的场景,让 AI 变得更聪明、见识更广。特别是那些犄角旮旯的“疑难杂症”,真实数据里很少,但合成数据可以专门造出来给 AI 练手。
【专家解读】合成数据并非万无一失,它是一把双刃剑。Kjell Carlsson 警告说:“你可能会把它用得一团糟”。主要风险体现在:
隐私泄露(过度复制现实):
尽管初衷是保护隐私,但生成过程可能无意中“记住”并“复制”真实个体(模型泄露),尤其是在对抗性网络( GAN )和大语言模型 LLM 中。多个数据集的关联更可能导致身份重识别。差分隐私 (Differential Privacy)是一种数学保障手段,但它通过添加噪声来实现,这又会牺牲数据准确性——这是一个艰难的权衡。
偏见放大(纠偏的局限性):
理论上,合成数据可以用于纠偏,增加代表性不足群体的样本。但如果操作不当(如过度采样不具代表性的少数个体,或生成不真实的变体),反而可能加剧甚至创造新的偏见,产生虚假的安全感。ACM 的研究就证明了这一点。
质量低下(错误与失真):
合成数据可能过度简化(表格数据)、缺乏细节(图像)、不准确或不连贯(文本)。如果未能捕捉真实世界的复杂性,会导致模型在测试时表现良好,但在生产环境中失效。
【小白提问 & 解答】问:听起来这么好,那用它有什么风险吗?会不会坑了我? 答:风险当然有,而且不小!这就像用“替身”:
“替身”太像,穿帮了:
如果“替身”造得太像某个真人,甚至把真人的小秘密(比如胎记)都复制了,那隐私保护就成了空话。或者,有人把好几个“替身”的信息拼起来,居然猜出了真人是谁!虽然有办法(比如给“替身”加点“马赛克”),但加多了又不像了,影响使用。
“替身”加剧了不公平:
本想多找些“少数族裔替身”来消除歧视,结果找来找去都是那一个“替身”在演,或者造出来的“替身”根本不像那个族裔的人,结果比以前更不公平了,还让你误以为问题解决了。
“替身”演技太差:
造出来的“替身”可能看着像那么回事,但细节一塌糊涂,动作僵硬。AI 跟这种“烂替身”学习,考试可能能过,一到“拍真戏”(实际应用)就露馅了。 所以,用合成数据就像走钢丝,必须非常小心,技术要过硬!
【专家解读】要成功驾驭合成数据,必须以真实世界为锚点(如通过 RAG 避免幻觉),并深度融合领域专业知识,才能发现生成数据中的谬误,尤其是在进行模拟时。这为拥有深厚行业知识的企业提供了差异化优势。同时,基准测试和评估能力至关重要,需要明确“好”的标准,并持续监控模型表现。然而,当前市场缺乏经验丰富的合成数据工程师,且企业需要建立对合成数据及其治理机制的信任,这都构成了采纳的障碍。
【小白提问 & 解答】问:既然这么难,我们到底该怎么办? 答:关键有两点:
找对人:
你不仅需要懂 AI 的技术大牛来“造替身”,更需要懂你这行生意的老师傅来“把关”,看看造出来的“替身”是不是真的符合实际情况。比如,造“虚拟客户”,你得让真懂销售的人来看看这些“客户”买东西的逻辑对不对。
定好规矩,做好检查:
你得有个标准,知道什么样的“替身”算合格。还要不停地测试,看看用了“替身”后,AI 是不是真的变聪明了,有没有帮到你的生意。这需要持续的努力和投入。
【专家解读】生成合成数据,尤其是使用现代深度学习方法(如 GAN、LLM)进行大规模生成时,需要巨大的计算资源(特别是 GPU)和企业级基础设施。此外,生成的大量数据(可能达到 PB 级别)需要庞大的存储空间。更重要的是,企业必须保留这些数据和模型工件以供审计,并建立清晰的文档记录,追踪其创建、验证和使用过程。这并非一次性投入,而是持续的管理负担。
【小白提问 & 解答】问:这玩意儿是不是很“烧钱”,还得找个大仓库放? 答:没错!造高质量的“替身”,特别是像电影那样的,需要超级电脑(很贵!)。而且你会造出海量的“替身”,确实需要超大的“仓库”(硬盘)来放。最麻烦的是,你还得给每个“替身”建档立卡,记录它是怎么来的,怎么用的,有没有问题,以备将来查验。这就像管理一个巨大的电影道具库,既费钱又费心。
【专家解读】合成数据为 AI 发展和企业决策开启了充满机遇的新篇章,它能有效应对真实数据的诸多挑战。然而,它并非银弹,其潜在的隐私、偏见和质量风险要求我们必须以高度的专业知识、严谨的验证流程和健全的治理机制来驾驭它。成功利用合成数据的关键,在于深刻理解其能力边界,审慎评估应用风险,并持续投入技术、人才和管理资源,最终实现回报与风险的平衡。
【小白提问 & 解答】问:所以,这“高仿数据”到底是好是坏? 答:它是一把非常锋利的双刃剑。用好了,它能帮你解决大问题,省钱省力还安全;用不好,它可能会捅出更大的篓子,让你头疼不已。所以,关键在于:想用好它,就得真正懂它,尊重它,管好它。不能光想着它的好,忘了它也可能带来的麻烦。