许多首席信息官在匆忙推进人工智能部署之前,都会跳过关键的数据治理步骤。
图源:HURST PHOTO(图片上传者,可以译为用户HURST PHOTO,或者HURST PHOTO) / SHUTTERSTOCK
【睿观:在推进AI项目之前,企业必须先在数据治理方面做好充分准备。尽管技术和投资压力使得AI应用成为趋势,但没有高质量的数据治理,AI项目难以成功。企业应当从小处着手,逐步整理和优化数据,确保数据的质量和一致性,以支持AI的有效应用。分析企业在推进人工智能(AI)项目过程中面临的关键数据治理挑战,将提供成功部署AI的建议。
跳过数据治理步骤:
许多企业匆忙推进AI项目,但未能先整理和管理好数据,这导致AI项目无法达到预期的效果。Databricks和Astera Software的领导者指出,仅不到一半的组织具备连贯的数据管理流程。
Databricks的AI副总裁Naveen Rao表示,只有约20%的组织拥有成熟的数据策略来充分利用AI工具,很多AI部署需要全面的内部数据。
启动AI的压力:
企业面临市场和投资者的压力,纷纷启动AI项目,但由于未能先整理数据,很多项目未能取得成功。例如,Dell的AI主管Jeff Boudreau指出,高质量的数据是AI应用成功的关键。
数据管理挑战:
企业在数据管理中遇到的挑战包括数据孤岛、数据量庞大、数据不完整和不一致,以及大量非结构化数据。Astera的Jay Mishra强调,文档中存储的数据是企业交流的主要形式,管理这些数据是一个巨大的挑战和机遇。
数据质量胜过数量:
Mishra指出,数据质量决定了AI项目的成败。尽管一些AI工具需要大量数据,但未经过策划的数据会导致错误结果。
单一真实来源和数据清理:
组织需要解决数据中的单一真实来源问题,并且需要持续清理和更新数据。cBEYONData的CTO Bryan Eckle建议在AI项目中花费大量时间清理和准备数据,以确保AI模型的准确性。
数据策略和标准化:
Dell的Boudreau建议企业在数据治理过程中应注重隐私、标准化、质量和集成。Eckle则建议企业明确数据的目标,从需要回答的问题入手,确定所需的基本数据元素和数据真相来源。
逐步推进:
Mishra建议企业在AI项目启动时从小处着手,先处理单个业务部门中的数据,然后再逐步扩展,以防一次性处理大量数据过于繁琐。】
尽管首席信息官和其他技术领袖面临应用人工智能的压力,许多组织仍在跳过成功部署的关键第一步:整理数据库。
据一些数据治理供应商称,尽管至少六年前有警告,但许多首席信息官未能收集和组织其组织不断生成的大量数据。Databricks(属于 Spark 的商业化公司。致力于提供基于 Spark 的云服务,可用于数据集成、数据连接等任务。)和Astera Software(帮助企业以更快、更用户友好的方式管理企业数据。为企业的数据驱动计划提供动力。愿景是为数据专业人员提供可访问的数据管理工具,这些工具提供了在一个统一、无代码、易于使用的平台中集成数据、数据仓库功能以及数据分析和验证功能的功能和灵活性。)的IT领导者表示,在启动人工智能项目之前,只有不到一半的组织拥有连贯的数据管理流程。
数据治理供应商Databricks的人工智能副总裁Naveen Rao(纳维恩·拉奥)估计,只有大约20%的组织拥有足够成熟的数据策略,可以充分利用大多数人工智能工具。他说,一些小型人工智能项目可以基于有限的公司数据或公司外部的数据来进行工作,但许多成功的人工智能部署需要全面的内部数据。
“今天,当我们与客户谈论生成式人工智能时,我们所做的很多事情实际上都是水平设置的。”他补充道,“如果他们的数据实际上没有整理好,那他们就不会产生他们想要的影响。”
一、启动压力
与此同时,另一家数据管理供应商Astera Software的首席运营官Jay Mishra(杰伊·米什拉)补充道,只有不到一半的组织制定了数据战略来支持任何类型的人工智能部署。一些组织对数据管理几乎没有概念,但仍在启动人工智能项目。
“来自市场的投资者面临着很大的迈入人工智能领域的压力。”他表示,“他们从某处开始,花了几个月时间,再意识到这并没有给出预期的结果。”
Dell Technologies(戴尔科技,指的是戴尔对EMC的收购完成后的名称)的人工智能主管Jeff Boudreau(杰夫·布德罗)补充说,如果IT基础设施和计算能力构成了人工智能的引擎,那么数据就是燃料。“即使是最复杂的人工智能应用程序也依赖于高质量的数据来发挥作用。”他表示,“数据是区别。糟糕的数据等于糟糕的人工智能。”
Rao(拉奥)和Mishra(米什拉)的数据成熟度观察在某些方面与Gartner(高德纳,Gartner Group公司成立于1979年,它是第一家信息技术研究和分析的公司。它为有需要的技术用户来提供专门的服务。Gartner已经成为了一家独立的咨询公司,Gartner公司的服务主要是迎合中型公司的需要,它希望使自己的业务覆盖到IT行业的所有领域,从而让自己成为每一位用户的一站式信息技术服务公司。)最近的一项调查相匹配。61%的受访首席数据和分析官同意,ChatGPT(是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务)和其他技术市场中断迫使他们发展或重新思考数据和分析战略。
然而,78%的CDAO(chief data and analytics officers,首席数据和分析官)表示,他们的数据和分析策略在2023年发展到足以支持创新。然而,拥有CDAO或首席数据官职位的公司很可能已经走在数据管理曲线的前面。
二、常见数据问题
数据管理方面的挑战可分为四个方面:
首先,数据存在于孤岛中。营销团队的数据可能与工程团队的数据位于不同的位置,具有不同的访问规则。
其次,大多数组织已经生成了大量的数据,而且每天都在创建更多的数据。如果没有数据管理计划和系统,旧数据就会被隐藏在旧服务器黑暗角落的文件夹中,新数据也不会被编目和组织。
数据不完整、不准确且不一致。
最后,很大一部分的数据是非结构化的,因此不容易组织。关键数据存在于每天发送和接收的数百封电子邮件、电子表格、PowerPoint演示文稿、视频、图片、带图表的报告、文本文档、网页、采购订单、水电费账单和PDF中。
Astera的Mishra(米什拉)说,文本文档通常存储在一个组织的多个位置,通常包含丰富的信息。一个重要的数据点可以隐藏在20页文件第5页的图表上,也可以隐藏在100页的华尔街分析师报告中。
“由常规应用程序或业务用户产生的大量数据都保存在文档中,而文档仍然是最大的交流形式。”他表示,“这些数据是自由流动的,不存在于一个地方。这是一个巨大的挑战和机遇。”
三、更多的数据并不总能产生更好的人工智能
Mishra(米什拉)补充道,对公司持有的数据量的一个误解是,向人工智能模型提供越多的数据会产生越好的人工智能结果。虽然一些人工智能工具需要大量的数据,但质量更为重要。
“未经策划的数据将成为错误结果的基础。”他说,“数据质量决定一切。”
但人工智能用户不应忽视大型语言模型人工智能对数据的需求,美国政府机构专业服务提供商cBEYONData(是一家专门打造的专业服务公司。专门为联邦机构和组织提供增强和自动化其业务流程的解决方案,并提供数据分析,以实现有效的决策。提供财务管理报告和预算管理解决方案的快速部署,以提供首席财务官员工之间的透明度和协作。其利用这些能力帮助客户在完成使命的同时实现正投资回报。)的首席技术官Bryan Eckle(布莱恩·埃克尔)表示。
“人工智能非常、非常渴求数据,”为客户评估人工智能工具的Eckle(埃克尔)说,“数据需要准确、及时、快速,且大批量。”
Eckle(埃克尔)说,除了四大数据管理问题之外,组织也在努力寻找数据中的单一真实来源。在一个组织中浮动的产品规范PDF的五个版本中,哪一个是正确的?您客户支持的聊天机器人是否可以访问所有五个版本?
四、注重质量和标准化
对于那些努力清理数据的组织,戴尔的Boudreau(布德罗)建议将重点放在考虑隐私、标准化、质量和集成的数据管理流程和治理上。
甚至在组织开始清理和组织数据之前,Eckle(埃克尔)就建议他们仔细考虑数据的目标。
“您可以回过来,从‘我们希望能够回答哪种问题?’开始,”他说,“然后是,‘我们需要什么样的基本数据元素来回答?’最后,‘真相源自哪里?’”
Eckle(埃克尔)补充说,在人工智能项目中,清理数据往往被忽视,因为它并非那些华而不实的部分。但人工智能项目的很大一部分,80%或更多,关乎清理数据。
“这是一项繁重的工作,”他说,“这些项目的大部分时间都花在确保您有正确的训练数据输入到这些机器学习模型中,这些模型知道如何识别数据中存在的模式。”
Eckle(埃克尔)补充说,人工智能用户还必须认识到,清理数据并不是一个一次性的项目。如果您在三年前整理了内部数据,那您现在又过时了。数据不仅来自内部用户;大多数组织源源不断地接收来自合作伙伴、供应商和其他来源的数据。
“这是一次旅程,对吧?”他说,“您总是会带来额外的数据源,这些数据源可以提供洞察力,您总是想监控数据管道的健康状况。”
五、小步骤
Mishra(米什拉)建议组织在推出人工智能项目时从小处着手,也许只关注单个业务部门中的一个人工智能用例。组织一个业务部门持有的数据比从整个组织中收集数个TB(太字节,计算机存储容量单位。也常用TB来表示。1TB=1024GB=2^40字节。)的数据更容易。
“找到一种特定类型的数据,并在一次迭代中清理这些数据,”他说,“看看您整理的一个子集数据,然后开始您的人工智能工作。与引入所有数据相比,这不会是太繁琐的工作。”
作者:Grant Gross(格兰特·格罗斯)
Grant Gross(格兰特·格罗斯)是CIO的资深撰稿人,是一名长期的科技记者。他曾担任华盛顿记者,后来担任IDG新闻服务的高级编辑。在他职业生涯的早期,他曾担任Linux.com的总编辑和科技职业网站Techies.com的新闻编辑。在遥远的过去,他曾在明尼苏达州和达科他州的报纸担任记者和编辑。
译者:宝蓝 @lex