——CIO 的 AI 数据困局:为何“脏数据”反而是好数据?
传统 IT 追求完美数据,但 AI 却偏爱充满噪音的“真实世界乱码”。CIO 们必须打破思维定势:允许 AI 摄入不完美的、混乱的甚至带有拼写错误的数据,只要它符合业务算法的真实逻辑。
为避免预算超支与项目延期,CIO 不能再把耗时费力的 AI 数据清洗工作“藏”起来。必须向 CEO 坦白并将其作为独立的战略项目申请预算,毕竟,前期省下数据准备的钱,后期就会为 AI 的致命幻觉买单。
高效的AI系统通常需要与传统数据管理标准相悖的数据。要让这些标准适应AI,意味着需要采用新的实践和政策以及新的投资。

图源:insta_photos / Shutterstock
为AI获取正确数据是首席信息官从AI计划中取得成功的关键,这一点很明确。不那么明确的是,鉴于AI数据使用的特性,这一过程具体涉及什么以及如何为基础性工作提供资金以确保组织拥有对AI"有益"的数据。
问题在于,AI使用的数据是许多传统应用不使用的且最适合AI工作流程的数据并不总是质量最高的。相反,让AI数据"良好"的因素在于它是否符合使用它的业务用例和算法的具体需求。因此,使用不完整或"不完美"的数据可能完全没问题——只要它符合用例。
首席信息官应该关注这个数据困境吗?是的,有两个原因:
首先,IT数据分析师必须重新调整方向,为AI生成"正确"的数据,即使这些数据从传统标准来看似乎“错误”。这将需要修订数据管理工作实践,并对负责AI工作的数据分析师进行一定的重新定位。
其次,任何数据工作,无论是用于传统应用还是AI,都需要时间和资源。这是一项基础设施级别的工作,首席执行官和高级管理层等“外部人员”无法看到其具体价值。那么首席信息官如何解释为AI进行这种新数据准备工作的必要性并获得执行预算呢?
一、接受AI数据质量的悖论
机器学习工程师和数据分析师Isha Khatana(伊莎·卡塔纳)表示:"在生产级AI中,干净的数据很少见,但有价值的数据无处不在。Khatana(卡塔纳)接着说:"构建更智能的AI系统在于接受这样的现实:充满错别字的日志、随机冻结的传感器读数、每月更改的类别名称以及被来自不同团队的人员手动调整的数值。"
这种不稳定性与面向传统IT系统的数据管理和治理实践背道而驰——可能让首席信息官感到棘手。然而,如果AI需要从各种不同的数据源中获取数据,这些数据可能并未得到充分的整理,那么不一致和波动的数据就是现实。正如Khatana(卡塔纳)从自己的经验中观察到的:"真实数据是混乱的,真正的影响力来自于无论如何都要理解它。"
那么首席信息官如何理解不完整或混乱的数据?首先,向AI利益相关者和管理层解释,AI使用的数据在IT传统设定的数据质量标准方面绝非"正常"——并且,使用不完美数据对AI来说是必要的,因为如果AI要全面掌握其主题领域,就必须用"现有的"和相关的一切数据来全面了解。
关于AI如何使用非标准数据的这一解释很重要,因为处理非标准数据将需要数据分析师为AI准备数据时采用不同的数据管理实践和技能。因此,首席执行官和其他业务利益相关者将在AI项目中看到新的数据准备任务出现,这些新任务将消耗时间、资源和资金。由于大多数这些利益相关者将数据准备视为非增值的繁重工作,他们不会喜欢所看到的。
这将由首席信息官向利益相关者解释为什么AI处理不同类型时需要以不同方式准备的数据。强调这种数据准备"繁重工作"必要性的一种方法是指出——如果AI系统因不完美的算法或未经适当准备的数据而交付错误结果,将给公司带来风险。
二、为每个AI项目量身定制数据准备方案
每个AI项目在数据准备方面都是独特的,但可以应用一些总体指导原则。
首先要承认的是,由于AI数据来源多样化,输入AI的一些数据可能不够完美。一个直接依赖于所摄入数据的自动机器学习函数,不一定需要筛选这些数据以确保其准确性,这是第一个例子;另一个例子是依赖传感器生成数据的AI系统。在某些情况下,这些数据会是噪声——需要将其去除。在其他情况下,例如为开发疫苗而对分子进行建模,来自全球研究的大量数据可能需要有意将收集管道缩小,仅收集明确提及所研究分子名称的研究。
这是AI治理工作,它需要一套超越传统提取、加载和转换数据的数据分析技能,并且还要评估数据在AI环境中的不同类型的使用。
三、将AI数据准备任务"项目化"
AI项目经理可能会倾向于将数据准备工作"隐藏"到其他AI任务中,以使数据"繁重工作"不可见。不幸的是,这会导致项目截止日期被错过和成本超出预算。
最好与管理层坦诚沟通对特殊AI数据准备的需求,并将数据准备任务纳入AI项目计划。大多数首席执行官都会理解——因为没有人希望因为AI出错而造成代价高昂的业务失误和公关尴尬。