你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
别让完美数据毁了CIO的AI模型——人工智能时代的数据质量挑战与应对
作者:CIO&睿观 来源:CIOCDO 发布时间:2024年11月29日 点击数:

人工智能时代的数据质量并非一蹴而就,而是需要根据具体应用场景和模型需求进行灵活、迭代的处理。过度追求数据纯净可能导致信息的丢失和模型泛化能力的下降。

数据质量对于AI项目的成功至关重要,但您需要保留原始数据的丰富性、多样性和完整性,以免破坏结果。


数据管理曾经是数据仓库团队的职责,如今已日益成为高管层的优先事项,数据质量被视为客户体验和业务绩效的关键。但除了数据孤岛和合规性问题外,数据质量差也阻碍了企业AI项目的发展。虽然大多数高管普遍信任他们的数据,但他们也表示,只有不到三分之二的数据是可用的。

人工智能编码助手Tabnine(Tabnine是一款人工智能代码补全和生成工具。它利用深度学习算法来分析代码,并提供完成代码片段的智能建议。核心功能包括AI代码补全、多语言支持、IDE集成、AI驱动的聊天功能、代码解释和文档生成、测试用例生成以及代码重构建议的联合创始人兼首席技术官Eran Yahav(埃兰·亚哈夫)【Eran Yahav(埃兰·亚哈夫)是一位在计算机科学领域有着显著贡献的科学家和企业家,他与Dror Weiss共同创立了Tabnine,还在学术界有着丰富的研究经历,他的研究领域包括程序语言、软件工程和人工智能】表示,对于许多组织来说,为人工智能准备数据是他们第一次以跨领域的视角看待数据,从而显示出系统之间的差异。

解决这个问题可能意味着要从基本的数据清洁开始,比如确保数据库中有正确的字段来满足不同团队的需求,或者精简你用人工智能处理的数据以反映你想要的结果。“我们正试图让人工智能拥有与企业中最好的员工相同的知识,”他说。“这需要整理和清理以保证数据清洁和一致性,也需要一个反馈循环。”

使用自己的代码库来教授AI编码助手最佳实践的组织,需要删除他们不想重复的模式的遗留代码,而且大型数据集并不总是比小型数据集更好。“一位客户通过复制现有项目并对其进行修改来创建新项目,”Yahav(亚哈夫)说。“他们有一百份相同内容的副本,只有细微的差别,而且无法区分它是否重要,因为它淹没在重复中。”

良好的数据治理始终涉及处理数据集中的错误和不一致,以及通过删除重复项、纠正拼写错误、标准化和验证数据格式和类型以及扩充不完整信息或检测数据中不寻常和不可能的变化来索引和分类结构化数据。这仍然很重要,但并不总是与人工智能处理的非结构化和半结构化数据相关,因为这些数据也会有更多的变化。人工智能的数据质量需要涵盖偏见检测、侵权预防、模型特征数据中的偏差检测和噪声检测。

【睿观:人工智能的数据质量综合评价指标表 100分@福建CIO网

序号

一级指标

二级指标

三级指标

定义

计算方式

权重

数据来源









1

偏见检测

人群偏见

性别偏见

模型对不同性别的个体输出结果的差异程度

计算不同性别群体在模型输出结果上的差异性指标(如差异性比例、置信区间等)

15%

模型预测结果、用户数据




年龄偏见

模型对不同年龄段的个体输出结果的差异程度

计算不同年龄段群体在模型输出结果上的差异性指标

15%

模型预测结果、用户数据




其他群体偏见

模型对其他受保护群体(如种族、宗教)的个体输出结果的差异程度

计算不同受保护群体在模型输出结果上的差异性指标

10%

模型预测结果、用户数据

2

侵权预防

版权侵权

内容相似度

模型生成内容与现有版权内容的相似度

使用相似度算法计算(如BLEU、ROUGE等)

10%

模型生成内容、版权数据库




来源标识

模型生成内容是否明确标注来源

对生成内容进行人工或自动审核

5%

模型生成内容

3

模型特征数据偏差

代表性不足

少数群体代表性

模型训练数据中少数群体的样本比例

计算少数群体样本在训练数据中的比例

10%

训练数据




标签偏差

标签数据是否准确、一致

对标签数据进行人工审核或使用一致性检查算法

5%

标签数据

4

噪声检测

数据噪声

异常值检测

数据中是否存在明显偏离正常范围的值

使用统计方法或异常检测算法

5%

模型训练数据、模型预测结果




数据缺失

数据是否完整

计算缺失值的比例

5%

模型训练数据


常见的数据管理做法对于人工智能来说太慢、太结构化、太死板,因为数据清理需要针对具体情况并根据特定用例进行量身定制。对于人工智能来说,没有通用的标准来衡量数据何时“足够干净”。

即使对于更传统的机器学习,为商业智能和金融带来红利的大规模数据清理工作也很少能满足数据科学团队的需求,因为他们可能已经在为AI进行自己的数据工程——并且在此过程中创建了更多不受管控的数据孤岛,Domino数据实验室【Domino数据实验室(Domino Data Lab)是一个企业级人工智能平台,它提供了一系列工具和服务,帮助企业构建、部署和管理AI模型。该平台支持数据科学家在一个统一的端到端平台上快速、负责任且经济高效地构建、部署和管理AI,同时增强协作和监管的AI战略主管Kjell Carlsson(谢尔·卡尔森)【Kjell Carlsson(谢尔·卡尔森)是一位在数据分析、人工智能和机器学习领域有着深厚背景的专业人士,他拥有丰富的经验,曾在多个领域内推动数据的战略洞察。他的研究议程集中在策略、最佳实践、技能和供应商上,以加速公司采纳和从机器学习和高级分析中获得价值说。

数据清理不够会导致明显的问题,但背景才是关键。谷歌的错误示例是建议使用胶水制作披萨食谱,因为这就是美食摄影师让融化的马苏里拉奶酪看起来诱人的方式,而这应该从普通的大模型(LLM)中剔除。但这正是你在训练人工智能提供摄影技巧时想要包含的数据类型。相反,如果在训练集中保留了明显讽刺性网站的内容来源,谷歌搜索中发现的其他一些不恰当的建议可能会被避免。

数据质量极其重要,但它会导致过于循序渐进的思维,从而让你误入歧途,”Carlsson(卡尔森)说。“在最好的情况下,它最终会浪费大量的时间和精力。在最坏的情况下,它可能会从你的数据中删除信号,实际上与你所需要的完全相反。”

一、相对而言

不同的领域和应用需要不同级别的数据治理。您不能将数据治理视为一种通用的方法来获取适合所有用途的数据,而传统的“单一事实版本”一直是商业智能的目标,实际上是一个有偏见的数据集。“没有所谓的‘干净的数据’,”Carlsson(卡尔森)说。“它总是与您使用它的目的有关。在所有这些不同的用例中,清理的样子都非常不同。”

以员工记录的数据质量为例,您可能将其用于薪资处理和包含公司新闻的内部邮寄活动。“应该以不同的方式看待这些内容,并对其质量做出不同的判断,”日立有限公司全资子公司Pentaho(Pentaho是Hitachi Vantara的一个部门,专注于提供企业级的数据集成和业务分析平台)的产品管理高级总监Kunju Kashalikar(昆居·卡沙利卡)【Kunju Kashalikar(昆居·卡沙利卡)是Pentaho的高级产品管理总监,他在数据平台、数据治理和数据质量领域拥有多年的工作经验,在工程和产品管理的不同角色中积累了丰富的经验,并在该领域持有多项专利】表示。

Carlsson(卡尔森)补充道,人工智能需要更灵活、更具协作性、更具迭代性、更适合数据使用方式的数据清理。“很棒的一点是,我们现在以许多以前没有过的方式使用数据,”他说。“但现在的挑战是,你需要考虑使用数据的每一种不同方式的清洁度。”有时这意味着在清理方面做更多的工作,有时则意味着做更少的工作。

Carlsson(卡尔森)警告称,如果一家企业在开始理解和构建AI用例之前就尝试为AI准备好数据,那么它可能会损害自身利益。因此,在开始为企业AI进行大规模数据清理之前,请考虑将数据清理得太干净的弊端。

二、收益递减

软件开发商Cohesity(Cohesity是一家由软银集团支持的企业数据存储公司,专注于提供超融合二级存储解决方案。该公司的解决方案旨在统一和管理系统备份和分析等二级数据,这些系统跨公有云和私有云连接到一个统一的视图中,消除了IT孤岛的欧洲、中东和非洲地区首席技术官Mark Molyneux(马克·莫利纽克斯)【Mark Molyneux(马克·莫利纽克斯)是Cohesity公司欧洲、中东和非洲地区的首席技术官。的职责包括向客户、潜在客户和合作伙伴提供建议,帮助他们管理、保护、安全地处理数据,并从数据中获取价值表示,首席信息官会问如何清理数据,但他们应该问清理到什么程度。“理论上,你可以永远清理数据,这取决于数据的大小,”他说。

例如Syniti EMEA(Syniti EMEA是指企业数据管理软件和服务提供商Syniti在欧洲、中东和非洲地区的业务和领导团队)董事总经理Chris Gorton(克里斯·戈顿)【Chris Gorton(克里斯·戈顿)是Syniti公司的高级副总裁兼欧洲、中东和非洲地区的董事总经理。他在技术和数据行业拥有超过23年的经验,包括管理损益表(P&L)和实现收入增长和盈利能力】,他在职业生涯早期花了大量时间为一家自动售货机公司清理客户地址,结果却发现他们真正需要的是用于发送发票的电子邮件地址,或者是用于维修的设备的具体位置。

他警告说,许多组织都在囤积没有运营价值的大型数据集,在开始进行大型且昂贵的数据清理计划之前,确定更清洁的数据将带来什么价值非常重要。如果你不能描述你需要的数据活动或结果如何与业务中的某些价值相关联,那么它可能就不需要做,”Gorton(戈顿)说。

80/20规则经常适用,边际收益(尤其是清理旧数据)可能不值得付出努力。无论您将数据用于什么用途,这都是适用的。如果检测和删除数据集中错误电话号码的成本高于拨打那么多无用电话或发送那么多无法送达的短信的成本,那么提前修复号码就没有投资回报。

“许多组织花费大量时间来丢弃或改进邮政编码,但对于大多数数据科学而言,邮政编码中的子部分并不重要,”Kashalikar(卡沙利卡)说。“我们正在查看一个大致的地理区域,以了解趋势可能是什么。这是一个浪费太多好处的典型例子。”

哥伦比亚大学卫生政策与管理副教授Howard Friedman(霍华德·弗里德曼)【Howard Friedman(霍华德·弗里德曼)是一位杰出的心理学教授。他在健康和长寿科学领域的研究受到了科学界的广泛关注,并在世界各地的大众媒体上得到了报道】表示,要了解数据清理是否能带来价值,首先要定义成功并了解模型的意义。首先要对缺失数据、范围检查、分布和相关性进行基本数据分类和标准质量检查。并非所有列都相同,因此您需要优先清理对您的模型和业务成果至关重要的数据特征。不要清理数据,而要自动化基本操作,寻找解释缺失数据的模式,并考虑转换特征,因为缩放可能会压缩值或增加方差。

但在你寻求更先进的数据质量改进方法之前,请先评估增量模型改进将是什么。Friedman(弗里德曼)问道:“如果我只花了几个小时的努力和几千美元的投资,就能获得90%的模型价值,而不是花费25万美元来获得完美的数据,那会怎样?”为了模型的小改进而多获得10%可能并不值得。

他说:“把它想象成一个商业问题:我把时间和金钱投资到哪里,以及我期望获得什么回报。

调查现有项目,了解数据质量问题实际上会产生什么影响。除了投资清理低质量数据集之外,您还可以使用其他来源。这可能是您购买的数据或您构建的黄金数据集。“如果您的数据清理预算有限,那么值得花钱创建一个由人工策划的高质量输入和黄金标准输出的数据集,”斯坦福大学医学院生物医学数据Knight-Hennessy【Knight-Hennessy Scholars是斯坦福大学(Stanford University)的一个研究生奖学金项目。该项目旨在培养下一代全球领袖,以解决世界面临的日益复杂的各种挑战】学者Akshay Swaminathan(阿克沙伊·斯瓦米纳坦)【Akshay Swaminathan(阿克沙伊·斯瓦米纳坦)是一位在医疗保健和数据科学领域有着深厚背景的学者和研究者。他在哈佛大学获得了统计学学士学位,并辅修全球健康和卫生政策,致力于通过结合医学、数据科学和创业精神来加强资源匮乏地区的卫生系统表示。“在生成式AI世界中,准确性的概念更加模糊。”随着技术的进步,问题黄金数据集与黄金标准答案相结合可以帮助您快速对新模型进行基准测试。

三、机会成本

过多的数据清理不仅浪费时间和金钱,甚至可能会删除看似不完整的有用数据。

“如果你最初有100万条记录,而你得到了50万条质量最好的记录,你真正想知道的是,在缺失的50万条记录中,有多少条质量足够好而你没有得到,”Kashalikar(卡沙利卡)说。

【睿观:假设我们有100万条原始数据,经过筛选,我们得到了50万条质量最好的数据。Kashalikar认为,我们真正想知道的是:在剩下的50万条数据中,有多少条也具备足够好的质量,只是由于我们的筛选标准或方法不够完善而被我们遗漏了?

  • 潜在损失: 如果有大量的优质数据被误认为是低质量数据而被丢弃,那么我们就会损失宝贵的信息,这就好比我们丢掉了一大笔潜在的财富。

  • 不必要的时间浪费: 另一方面,如果我们把大量时间和精力花在清理那些本来就不需要清理的低质量数据上,那么就会造成资源的浪费。】


同样重要的是,不要过度清理数据,以免失去其独特性,这也称为过度规范化。过度标准化或同质化数据集可能会消除有价值的变化和细微差别,而这些变化和细微差别对于AI模型来说是重要的特征,从而降低其泛化能力。例如,在不考虑区域差异的情况下规范化地址拼写可能会抹去重要的人口统计见解。

丢失异常值与过度标准化问题类似,但针对的是单个数据点,而不是整个数据集。积极移除异常值和极端情况可以消除重要的边缘情况。正如Swaminathan(斯瓦米纳坦)所说,“一个人的垃圾可能是另一个人的宝藏。

数据集中的一些不可能值很容易且安全地修复,例如价格不太可能为负数或人类年龄不可能超过200岁,但手动数据收集或设计不良的数据库可能会出现错误。“也许数据是在医院紧急情况下输入的,然后人员调换了身高和体重,”Tabnine的Yahav(亚哈夫)说。例如,他处理的一个产品数据库没有产品序列号字段,因此工作人员将其放在重量字段中。“突然间,玩具店里的产品重达五吨,”他补充道。

但一些异常值或看似“脏”的数据点可能是真正的信号,而不是错误,并且可能表明值得探索的有趣领域。“有人因为下雨而在路上花了五个小时?这对于交通信息来说是一个有趣的异常值,”Yahav(亚哈夫)说。

如果您正在训练一个模型来去除医疗数据的身份信息,那么它需要对异常值(如唯一名称、地址的变体格式和身份证号码)具有鲁棒性,以便正确检测它们,这意味着您需要在训练集中包含这些内容。尤其是在处理代码不太可能更新的遗留系统时,您的数据管道需要验证和清理已知问题。但Yahav(亚哈夫)认为,其中一些需要人类判断来区分真正的错误,而不是用于泛化的有意义的信号。

四、添加偏见

过度清理会删除未通过验证的记录,从而导致数据集出现偏差,因为会丢失具有特定特征的记录。Kashalikar(卡沙利卡)警告说,删除没有中间名首字母的记录会删除来自印度次大陆某些地区的人员。同样,删除不常见的姓名或坚持要求所有姓名长度超过两个字母可能会导致模型出现偏差,从而导致模型在不同人群中表现不佳。

他指出:“创建模型的数据科学家可能不理解没有数据对业务的影响。”让了解您要解决的问题背景的人可以参与数据清理决策非常重要。

五、删除上下文

过于彻底地清理数据集,你可能会删除对整体情况至关重要的上下文信息。一些网络钓鱼邮件故意包含错误的拼写和语法,以吸引不太谨慎和不太了解情况的受害者,而虚假链接将包含接近真实域名的URL。清理这些数据——或者清理沮丧客户消息中的语言——可以删除有关如何应对的宝贵线索。而且LLM使用数据的方式与更传统的ML不同;数据的语义可能至关重要。

医疗转录模型的干净数据集显然不应包括YouTube视频中要求用户“点赞和订阅”的常用短语,因为像OpenAI的Whisper(Whisper是由OpenAI开发的一款人工智能语音识别模型。它是一个通用的语音识别系统,使用了大量多语言和多任务的监督数据进行训练,能够在英语语音识别上达到接近人类水平的鲁棒性和准确性这样的通用模型在处理乱码音频时经常会产生这些短语的幻觉,使其不适合医疗转录。但这些数据对于创建转录视频的模型至关重要。

标准数据清理还会删除停顿、叹息、犹豫和说话者不愿意说完的单词,但这些线索在预测购买意愿或意图时很有用,Carlsson(卡尔森)指出。“如果有一个模型可以检测客户的兴趣并告诉客户代表你应该停止强行推销,因为这个人显然不感兴趣,那将很有用,”他说。这就是为什么在清理数据之前知道要用数据做什么是如此重要。

六、怀念现实世界的混乱

传统机器学习在处理杂乱数据时会变得脆弱,因此人们很容易将其剔除。但是,如果数据过于统一,则会导致模型在干净、结构化的数据(如训练集)上表现良好,但在处理现实世界的杂乱数据时却举步维艰,导致在生产环境中表现不佳。

Swaminathan(斯瓦米纳坦)解释说,大语言模型(LLM)之所以能通过律师资格考试或医学委员会考试,是因为这些考试太过清晰,无法作为有用的基准。“它为你提供了一个患者简介,其中包含所有相关信息,”他说。“它告诉你,患者会告诉你他们的生命体征、影像和实验室结果。在现实世界中,医生需要分别获取所有这些信息。”同样,如果你正在为客户支持创建一个黄金数据集,请避免让客户请求过于清晰和信息丰富。

Friedman(弗里德曼)承认,这其中存在着明显的矛盾。“你训练的数据集越脏,模型就越难学习并取得成功,”他说。“但与此同时,为了在现实世界中充分发挥作用,它需要能够在那些更脏的环境中运行。”

LLM尤其需要能够对错误输入做出反应。删除口语、拼写错误或区域语言差异可能会妨碍模型处理现实世界语言使用的能力。“了解如何应对脏数据以及理想的干净数据——从干净数据开始很好,但最终它必须是稳健的,”Friedman(弗里德曼)补充道。

七、缺失的趋势

以同样的方式清理新旧数据可能会导致其他问题。新传感器可能会更精确、更准确,客户支持请求将涉及您产品的较新版本,或者您将从新潜在客户的在线足迹中获取更多有关他们的元数据。无论数据来源是什么,都可能有新的信息需要捕获,或者数据中的特征可能会随着时间的推移而发生变化。例如,在印度,离婚直到最近才得到官方承认。您不能将其添加到旧记录中,但为了保持一致性,您不应该将其从新记录中删除。因此,请注意数据清理不会掩盖新旧数据之间的差异,从而导致模型无法考虑不断变化的趋势。

“即使对于相同的用例,基础数据也会随着时间的推移而发生变化,”Swaminathan(斯瓦米纳坦)警告说。“例如,我们在2024年10月为回答客户问题而制定的黄金基准,可能会在三个月后因自然灾害而过时,并且突然出现卫生纸短缺的情况。即使是在同一家公司为同一客户执行同一任务,基准也会随着时间的推移而过时。”

随着趋势的变化,数据中的信号也可能会丢失。当客户的联系电话从固定电话转移到手机时,组织就失去了从号码中提取客户位置的能力。“如果你使用区号来验证位置,你会丢失很多记录,”Kashalikar(卡沙利卡)补充道。你合作的两家公司也可能会合并,因此决定是将它们视为同一实体还是将它们单独保留在你的公司黄金主记录中取决于用例。

即使没有重大变化,基础数据本身也可能已经发生变化。“感兴趣的结果变量与特征之间的关系可能已经改变,”Friedman(弗里德曼)说。“你不能简单地锁定并说,‘这个数据集绝对完美’,然后把它从架子上拿下来用于一年后的问题。”

为了避免所有这些问题,您需要让具有专业知识的人员参与进来,以区分真正的错误和有意义的信号,记录您对数据清理做出的决策及其原因,并定期审查数据清理对模型性能和业务结果的影响。

不要先进行大量数据清理然后才开始开发,而是采用增量数据清理和快速实验的迭代方法。

“我们认为成功的方法就是逐步导入数据,”Yahav(亚哈夫)说道。“人们很想说让我们把所有东西都连接起来,相信它能正常工作。但当它来袭时,你不知道哪里出了问题,然后你就必须开始断开连接。”

因此,从少量近期数据或您信任的数据开始,看看它是如何工作的,然后从那里构建更多来源或数据量,看看它在哪里出现问题。“它最终会出问题,因为你忘记的东西会进入主管道,有些事情会让你大吃一惊,”他说。“你希望这个过程足够渐进,这样你才能了解是什么原因造成的。

作者:Mary Branscombe(玛丽·布兰斯科姆)

译者:穿山甲

【睿观:人工智能时代的数据质量并非一蹴而就,而是需要根据具体应用场景和模型需求进行灵活、迭代的处理。过度追求数据纯净可能导致信息的丢失和模型泛化能力的下降。

核心支撑论点:

  • 数据质量与应用场景密切相关: 没有绝对的“干净数据”,数据质量的衡量标准取决于具体的应用场景和模型需求。

  • 数据清理的收益递减: 过度的数据清理可能导致边际收益递减,甚至删除有价值的信息。

  • 数据清理的时机: 在开始大规模数据清理之前,应先明确数据的使用目的和模型需求。

  • 数据质量与模型性能的关系: 数据质量过高或过低都可能影响模型的泛化能力。

  • 数据质量的动态性: 数据质量会随着时间的推移而变化,需要持续关注和调整。

具体论证:

  • 数据清理的误区:

    • 过度清理: 删除异常值、重复数据等可能导致信息丢失。

    • 过度标准化: 抹平数据差异,降低模型泛化能力。

    • 忽视上下文: 删除上下文信息,影响模型对复杂场景的理解。

    • 忽略数据动态性: 未能适应数据随时间变化的趋势。

  • 数据清理的最佳实践:

    • 根据应用场景定制: 针对不同的应用场景,采用不同的数据清理策略。

    • 迭代式清理: 逐步引入数据,不断调整清理策略。

    • 关注数据质量对模型性能的影响: 通过实验评估数据清理的效果。

    • 保留部分“脏数据”: 这些数据可能包含有价值的信息。

    • 重视数据质量的动态性: 定期评估和更新数据清理策略。

结论:

人工智能时代的数据质量管理是一项复杂而富有挑战性的任务。企业需要根据自身的业务需求和模型特点,制定灵活、可持续的数据质量管理策略。通过平衡数据质量与模型性能,企业可以更好地利用人工智能技术,推动业务创新和发展。

建议:

  • 建立数据治理委员会: 负责制定数据质量标准和策略。

  • 投资数据质量工具: 提升数据清洗和验证效率。

  • 培养数据质量文化: 提高员工对数据质量重要性的认识。

  • 持续学习和探索: 跟随技术发展趋势,不断优化数据质量管理实践。

关键词: 人工智能,数据质量,数据清理,模型性能,业务创新

目标受众: 数据科学家、数据工程师、业务分析师、企业管理者

应用场景:

  • 培训课程: 可作为人工智能相关培训课程的教学内容。

  • 企业内部培训: 可用于提高企业员工对数据质量的认识。

  • 学术研究: 可作为人工智能领域研究的参考。】