如果说2023年是生成式人工智能聊天机器人和搜索的一年,那么2024年就是人工智能代理(AI Agent)的一年。就像过去的工厂用机器代替工人进行重复性劳动一样,现在的AI代理正在代替数据团队进行重复性的数据任务。
【睿观:本文主要讲述了人工智能代理(AI Agent)在数据领域快速发展和应用的趋势,以及这种趋势将如何改变未来数据团队的工作方式。
趋势1.2024年是人工智能代理爆发的一年,尤其在数据领域,AI代理正在接管越来越多的数据任务,从最基础的数据集成到复杂的分析和管理。
主要内容:
AI代理接管数据任务:
传统的自动化只能执行一些基本任务,而新一代AI代理则可以完成更复杂、更智能的任务。
谷歌利用Gemini AI改进了其数据基础设施产品BigQuery,使其具备强大的代理功能,可以帮助企业完成数据发现、清理、准备、管道管理和分析等工作。
越来越多的公司开始使用这些AI代理来简化工作流程,例如金融科技公司Julo使用Gemini来自动化查询生成,日本IT公司Unerry使用Gemini SQL来更快地提供洞察。
不仅大公司在行动,许多初创公司也在开发针对特定数据操作的AI代理,例如AirByte和Fastn专注于数据集成,Altimate AI专注于数据文档、测试和转换,Redbird和RapidCanvas则致力于处理AI和分析管道中的大部分数据任务。
AI代理支持RAG和其他工作流:
AI代理不仅应用于广泛的数据操作,还在检索增强生成(RAG)和下游工作流自动化等领域发挥作用。
例如,Weaviate讨论了代理RAG的概念,允许AI代理访问各种工具来检索和验证数据,提高答案的准确性。
Snowflake Intelligence推出了数据代理功能,可以利用存储在Snowflake中的数据以及来自其他工具的数据,根据自然语言问题提供见解,并采取具体行动,例如将见解输入表单、上传文件、写入Snowflake表等。
未来展望:
文章预测,AI代理的应用将继续快速发展,越来越多的组织会将重复性任务委托给AI代理,从而提高效率。
调查显示,大部分科技高管计划在未来几年内将AI代理集成到他们的系统中,并信任AI代理代表他们分析和综合数据,以及处理代码生成等任务。
随着AI代理的不断发展,它们的结果将越来越接近生产级别,甚至超越人类的表现。
这意味着数据科学家和分析师的角色可能会发生变化,他们可能会转向AI监督或处理更高价值的任务。
总之,AI代理使得数据团队可以把精力放在更需要创造性和思考性的工作上,例如制定数据战略、解决复杂问题等。未来的数据团队可能更像是“AI监督员”,负责管理和指导AI代理的工作,而不是自己亲自去做大量的数据处理工作。】
在这些广泛的应用中,我们今年还看到了数据代理的兴起——由人工智能驱动的代理可以处理数据基础设施堆栈中的不同类型的任务。有些代理执行基本的数据集成工作,而另一些代理则处理下游任务,例如数据管道中的分析和管理,从而使企业用户的工作变得更简单、更轻松。
这样做的好处是提高了效率并节省了成本,这让许多人不禁想知道:未来几年数据团队的情况会发生怎样的变化?
一、新一代人工智能代理接管数据任务
虽然代理功能已经存在了一段时间,允许企业自动执行某些基本任务,但生成式人工智能的兴起将事情完全提升到了一个新的水平。
借助新一代人工智能的自然语言处理和工具使用能力,智能体可以超越简单的推理和回答,真正规划多步骤行动,独立与数字系统交互以完成行动,同时与其他智能体和人员协作。它们还会随着时间的推移不断学习,提高自己的表现。
Cognition AI(Cognition AI是一家专注于人工智能应用的创新平台,致力于开发先进的AI工具,以提升软件工程领域的效率和智能化水平。其首款产品Devin是全球首个完全自主的AI软件工程师,能够执行复杂的编程任务,帮助开发团队加速项目进程)的Devin是第一款主要的代理产品,可实现大规模工程运营。随后,更大的公司开始提供由其模型驱动的更有针对性的企业和个人代理。
今年早些时候,在接受VentureBeat(VentureBeat是一个领先的科技新闻平台,专注于报道变革性技术,尤其是人工智能和游戏领域。它提供最新的新闻、分析和观点)采访时,Google Cloud(Google Cloud是谷歌提供的一套云计算服务,它允许个人、企业和开发者存储数据、运行应用程序、分析数据,并提供机器学习等服务)的Gerrit Kazmaier(格里特·卡兹迈尔)【Gerrit Kazmaier(格里特·卡兹迈尔)是Google Cloud的副总裁兼总经理,负责数据和分析业务。他领导着Google Cloud数据技术的开发和设计,这包括数据管理、分析和相关的技术】表示,他从客户那里听说,他们的数据从业人员不断面临挑战,包括为数据团队实现手动工作自动化、缩短数据管道和分析的周期以及简化数据管理。本质上,这些团队并不缺乏如何从数据中创造价值的想法,但他们缺乏时间去实施这些想法。
Kazmaier(卡兹迈尔)解释说,为了解决这个问题,谷歌利用Gemini AI(Gemini AI是谷歌开发的一项革命性的人工智能技术,它是一个多模态的AI系统,能够理解和生成文本、图像、音频等多种类型的数据)改进了其核心数据基础设施产品BigQuery(BigQuery是Google Cloud提供的一个完全托管的、服务器无关的、超大规模的分析数据仓库服务。它允许用户在云端存储、处理和分析大规模数据集,而无需管理底层基础设施)。由此产生的代理功能不仅使企业能够发现、清理和准备下游应用程序的数据(打破数据孤岛并确保质量和一致性),而且还支持管道管理和分析,使团队能够专注于更高价值的任务。
如今,许多企业都在BigQuery中使用Gemini的代理功能,其中包括金融科技公司Julo(Julo是一家印尼的金融科技公司,通过提供P2P贷款和其他金融服务,致力于推动金融包容性,并在业务增长和盈利方面取得了显著成绩),该公司利用Gemini理解复杂数据结构的能力来自动化其查询生成过程。日本IT公司Unerry(Unerry是一家日本的IT公司,主要业务是开发环境智能基础设施,将现实世界的数据数字化,为各种商业和政府客户提供基于人流数据的深入分析和解决方案,以优化客户体验和提高运营效率)也在BigQuery中使用Gemini SQL(Gemini SQL是一个利用Google的生成式人工智能模型来帮助用户将自然语言问题转换成SQL查询的工具)生成功能来帮助其数据团队更快地提供洞察。
但发现、准备和协助分析仅仅是个开始。随着底层模型的发展,即使是由专注于各自领域的初创公司开创的精细数据操作也成为了更深层次的代理驱动自动化的目标。
【睿观:随着底层模型(例如大型语言模型)的进步,数据发现、准备和辅助分析等传统上需要人工干预的环节,正逐渐被更深层次的、由代理驱动的自动化所取代。
理解:
传统的分析流程通常是:
发现: 找到相关的数据源。
准备: 清理、转换和整合数据。
分析: 使用统计方法、机器学习等技术进行数据分析,得出结论。
而“代理驱动的自动化”则意味着,通过赋予AI“代理”的能力,使其能够自主地完成以上步骤,甚至更进一步:
自主决策: 代理可以根据预设的目标或规则,自主决定需要哪些数据、如何准备数据、使用哪种分析方法。
持续学习和改进: 代理可以从历史数据和用户反馈中学习,不断改进其分析能力和效率。
自动化执行: 代理可以自动执行分析任务,无需人工干预或只需少量干预。
这种自动化不仅仅是简单的脚本或程序的执行,而是基于AI的智能决策和行动。
实际应用案例:
一个很好的例子是AutoML(Automated Machine Learning,自动化机器学习)。AutoML旨在自动化机器学习模型的整个生命周期,包括数据预处理、特征工程、模型选择、超参数优化等。
举例来说,假设一个电商公司想要预测用户的购买行为。使用传统的机器学习方法,需要数据科学家花费大量时间进行数据清洗、特征提取、模型选择和调参。而使用AutoML,则可以:
自动数据准备: AutoML可以自动检测数据中的缺失值、异常值,并进行相应的处理。
自动特征工程: AutoML可以自动创建新的特征,例如用户历史购买频率、商品类别偏好等。
自动模型选择和调参: AutoML可以尝试多种不同的机器学习模型(例如逻辑回归、支持向量机、神经网络),并自动调整模型的参数,以找到最佳的模型。
通过AutoML,电商公司可以大大降低机器学习应用的门槛,无需专业的数据科学家也能构建高性能的预测模型。
Modern(现代风格)
Tudor(都铎风格)
Ranch(牧场风格)
Victorian(维多利亚风格)
网址索引:
Google Cloud AutoML:
https://cloud.google.com/automl
Google Cloud 提供的 AutoML 服务,涵盖图像、文本、表格数据等多种类型。
Amazon SageMaker Autopilot:
https://aws.amazon.com/sagemaker/autopilot/
Amazon Web Services 提供的 AutoML 服务,可以自动构建、训练和部署机器学习模型。
这些平台都提供了不同程度的代理驱动的自动化功能,能够帮助用户更高效地进行数据分析和机器学习。
代理驱动的自动化是数据分析领域的一个重要发展趋势。通过赋予AI“代理”的能力,可以实现数据分析流程的更高级别的自动化,降低分析门槛,提高分析效率。AutoML 是一个很好的例子,它展示了如何使用自动化技术来简化机器学习模型的开发和部署。随着技术的不断发展,我们可以期待看到更多基于代理驱动的自动化应用涌现出来,进一步改变数据分析的格局。】
例如,AirByte(AirByte是一个开源的数据集成平台,它支持从300多种数据源和向量存储目的地移动数据,提供灵活的部署选项、安全性和低代码/无代码的易用性)和Fastn(Fastn是一个全栈Web开发框架,它提供了一个集成开发环境,支持其专有语言fastn language,用于构建用户界面和内容中心的网站)在数据集成领域名列前茅。前者推出了一款助手,可在几秒钟内从API文档链接创建数据连接器。与此同时,后者通过代理增强了其更广泛的应用程序开发产品,这些代理仅使用自然语言描述即可生成企业级API(无论是用于读取还是写入任何主题的信息)。
总部位于旧金山的Altimate AI(Altimate AI是一家专注于人工智能在数据管理领域的公司,提供一系列旨在增强数据团队工作流程、提高效率的AI工具)则以不同的数据操作为目标,包括文档、测试和转换,其新推出的DataMates(DataMates是Altimate AI提供的创新解决方案,这些是作为数据团队的虚拟队友的AI代理,可以显著加快他们的工作流程)技术利用代理AI从整个数据堆栈中提取上下文。其他初创公司,包括Redbird(Redbird是一个人工智能驱动的企业分析平台,它使组织内的任何人都可以在几分钟内轻松自动化和统一他们的分析工作,而无需编写代码)和RapidCanvas(RapidCanvas是一个无代码AutoAI平台,它赋能业务用户轻松创建、定制和部署AI解决方案。通过利用预测性和生成式AI,该平台将原始数据转化为可行的洞察,推动显著的业务成果),也朝着同一方向努力,声称提供的AI代理可以处理AI和分析管道中所需的高达90%的数据任务。
二、为RAG等提供支持的代理
除了广泛的数据操作之外,代理功能还在检索增强生成(RAG)【检索增强生成(简称RAG)是一种结合了信息检索技术与语言生成模型的人工智能技术】和下游工作流自动化等领域得到了探索。例如,矢量数据库Weaviate(Weaviate是一个开源的向量数据库,专为高效存储和查询大规模向量数据而设计。Weaviate的灵活性和强大功能使其成为处理非结构化数据和实现AI驱动应用的有力工具,广泛应用于语义搜索、内容推荐、图像识别和自然语言处理等领域)背后的团队最近讨论了代理RAG的想法,这是一种允许AI代理访问各种工具(如网络搜索、计算器或软件API的过程,以检索和验证来自多个来源的数据,以提高答案的准确性。
此外,临近年底,Snowflake Intelligence(Snowflake Intelligence是Snowflake公司推出的一个创新平台,旨在通过创建数据代理来增强企业用户对企业数据的分析、总结和行动能力。使团队能够轻松且安全地推进业务,通过数据驱动的洞察实现可衡量的影响)面世,企业可以选择设置数据代理,不仅可以利用存储在Snowflake实例中的商业智能数据,还可以利用孤立的第三方工具中的结构化和非结构化数据——例如数据库中的销售交易、SharePoint(SharePoint是微软公司开发的一款企业级协同工作平台和内容管理系统,它允许用户存储、共享和管理文档,以及协同工作)等知识库中的文档以及Slack(Slack是一个团队协作工具,它提供了一个即时通讯平台,旨在提高团队间的沟通效率和透明度)、Salesforce(Salesforce是一个客户关系管理平台,它提供了一系列的云服务,帮助企业管理与客户之间的关系)和Google Workspace(Google Workspace是谷歌提供的一套云服务和协作工具,它包括了一系列的应用程序和服务,旨在提高团队的生产力和协作效率)等生产力工具中的信息。
有了这些额外的背景信息,代理便可以根据自然语言问题提出相关见解,并针对生成的见解采取具体行动。例如,用户可以要求数据代理将提出的见解输入到可编辑的表单中,并将文件上传到Google Drive(Google Drive是谷歌公司提供的一个云存储服务,允许用户在云端存储文件,如文档、电子表格、演示文稿、PDF、图片和视频等)。他们甚至可以被提示写入Snowflake(Snowflake是一种基于云的数据分析平台,专门设计用于存储和分析大规模数据集。帮助企业不受数据类型、数据规模的制约,并且支持多种不同的计算需求)表并根据需要修改数据。
三、接下来还有更多
虽然我们可能没有涵盖今年看到或宣布的所有数据代理应用,但有一点非常清楚:这项技术将继续存在。随着新一代人工智能模型的不断发展,人工智能代理的采用将全速发展,大多数组织,无论其行业或规模如何,都会选择将重复性任务委托给专业代理。这将直接转化为效率。
作为证据,Capgemini(凯捷公司)【Capgemini(凯捷公司)是一家全球领先的管理咨询、技术和外包服务供应商。提供包括咨询服务、技术服务、外包服务在内的全方位解决方案,以提升客户的业务绩效和竞争力】最近对1,100名科技高管进行了一项调查,其中82%的受访者表示他们打算在未来3年内将基于人工智能的代理集成到他们的堆栈中,而目前这一比例仅为10%。更重要的是,多达70%至75%的受访者表示,他们会信任人工智能代理代表他们分析和综合数据,以及处理诸如生成和迭代改进代码等任务。
这种由代理驱动的转变也意味着数据团队运作方式将发生重大变化。目前,代理的结果不是生产级的,这意味着人类必须在某个时候接管,以根据他们的需求微调工作。然而,随着未来几年的进一步发展,这一差距很可能会消失——团队将拥有更快、更准确、更不容易犯人类通常会犯的错误。
因此,总而言之,我们今天看到的数据科学家和分析师的角色可能会发生变化,用户可能会转向人工智能监督领域(他们可以密切关注人工智能的行为)或系统可能难以执行的更高价值的任务。
作者:Shubham Sharma(舒巴姆·夏尔马)
译者:穿山甲