谷歌准备推出Jarvis以应对人工智能“computer use”之战-福建信息主管（CIO）网

谷歌准备推出Jarvis以应对人工智能“computer use”之战

作者：CIO&睿观来源：CIOCDO 发布时间：2024年10月30日点击数：

人工智能自动化正在成为一个备受关注的领域。Jarvis作为其中的代表性产品，展示了LLM在自动化任务中的强大潜力。各大科技公司纷纷布局，竞争激烈。未来，随着技术的不断发展，人工智能自动化将会在我们的工作和生活中发挥越来越重要的作用。预计将于今年12月推出的Jarvis（Project Jarvis，是一个旨在通过人工智能技术自动化网页任务的大型动作模型。旨在通过自动化网页任务来提升用户体验。该项目预计将在12月进行首次展示，并由谷歌未来版本的Gemini模型驱动，特别针对Chrome浏览器进行优化。）可能在企业中有多种用途，如开发、CRM（客户关系管理，是指企业为提高核心竞争力，利用相应的信息技术以及互联网技术协调企业与顾客间在销售、营销和服务上的交互，从而提升其管理方式，向客户提供创新式的个性化的客户交互和服务的过程。其最终目标是吸引新客户、保留老客户以及将已有客户转为忠实客户，增加市场。）和ERP（即企业资源计划，是一种主要面向制造行业进行物质资源、资金资源和信息资源集成一体化管理的企业信息管理系统。ERP是一个以管理会计为核心可以提供跨地区、跨部门、甚至跨公司整合实时信息的企业管理软件。针对物资资源管理-物流、人力资源管理-人流、财务资源管理-财流、信息资源管理-信息流，集成一体化的企业管理软件。）等各种任务。

图源：GORODENKOFF（图片上传者，可以译为用户GORODENKOFF，或者GORODENKOFF） / SHUTTERSTOCK

谷歌也加入了由Agentic AI（代理人工智能，‌是一种高级的人工智能系统，它能够自主规划和采取行动以实现用户定义的目标。核心特点包括自主设定目标、做出决策和根据对复杂环境的理解采取行动。）驱动的基于人工智能的计算机使用之战，与Anthropic（是一家人工智能初创公司，由前 OpenAI 员工创立，成立于2021年，总部位于旧金山，致力于构建可靠、可解释和可控的人工智能系统。）和OpenAI（在美国成立的人工智能研究公司，核心宗旨在于“实现安全的通用人工智能，AGI”，使其有益于人类。OpenAI于2015年由一群科技领袖，包括山姆·阿尔特曼、彼得·泰尔、里德·霍夫曼和埃隆·马斯克等人创办。）等公司一起，努力在新兴且不断发展的基于人工智能的自动化市场中获得份额。

据The Information（‌是一家位于硅谷的付费订阅科技新闻媒体，成立于2013年。该媒体以独家和深度报道著称，追踪科技行业的独家新闻和商业动态，如Snap Inc.的IPO计划、Uber董事会的决策、Nest Labs创始人的详细报道等。）报道，该公司正在开发Jarvis，它将允许用户在谷歌的Gemini 2.0（是谷歌即将发布的下一代AI模型，预计在2024年12月发布‌。其在图像生成和文本创作方面有着显著的提升，能够生成更为逼真的图像和撰写更具创意的文本，同时在多模态学习和自然语言处理领域展现出强大的应用潜力。）大型语言模型在Chrome browser（‌Chrome浏览器，‌是由谷歌公司开发的一款高效、安全的网络浏览器，以其快速的加载速度、稳定的性能和丰富的功能而备受用户喜爱。其采用了多进程架构，能够更好地利用计算机资源，提高浏览器的运行速度和稳定性。）上自动化研究和购物等任务。

据The Information援引的消息人士称，Jarvis控制操作和完成浏览器任务的能力将结合多种基于LLM（大型语言模型。是使用深度学习算法处理和理解自然语言的基础机器学习模型。这些模型在大量文本数据上进行训练，以学习语言中的模式和实体关系。LLM可以执行多种类型的语言任务，例如翻译语言、分析情绪、聊天机器人对话等。）的开发技术，如读取和理解屏幕截图、生成文本以及模拟用户交互。

谷歌利用基于LLM的人工智能自动化用户任务的努力，与Anthropic上周发布的“computer use（是一种革命性的新功能，使得Claude AI模型能够像人类一样操作电脑。Claude可以通过API独立操作鼠标光标在屏幕上移动、点击按钮、输入文本等，无需用户直接干预。这种操作方式真正模拟了人类与计算机交互的方式，使得AI助手能够使用为人类设计的各类软件。）”能力非常相似，专家认为，一旦作为成品推出，这可能会彻底改变自动化市场，因为大量的工作仍在计算机上进行。

反过来，Anthropic的“computer use”能力，使开发人员能够通过Anthropic API（‌是由Anthropic公司开发的一种强大的自然语言处理/NLP API，旨在通过API灵活配置和调用AI系统，完成各种任务。Anthropic公司致力于推动人机交互的界限，其API的核心在于强大的自然语言处理能力，通过先进的机器学习模型，能够理解并生成近乎自然的语言。）指示Claude 3.5 Sonnet（‌是Anthropic公司推出的一款AI模型，属于Claude 3.5模型家族中的首个版本。Claude 3.5 Sonnet旨在提高智能水平，超越竞争对手和之前的模型，并在广泛的评估中表现出色，成为行业新标杆‌。）阅读和解释显示的内容，输入文本，移动光标，点击按钮，以及在窗口或应用程序之间切换——就像今天的robotic process automation/RPA（机器人流程自动化，是以软件机器人及人工智能为基础的业务过程自动化科技。RPA系统是一种应用程序，它通过模仿最终用户在电脑的手动操作方式，提供了另一种方式来使最终用户手动操作流程自动化。）工具可以被指示——但更为繁琐地——去做。

虽然Jarvis似乎是针对消费者的，但这项技术也可以在企业中使用，因为许多开发活动、工作流和自动化管理、CRM、ERP等都是通过基于万维网的客户端或界面在浏览器上访问的。

事实上，如果Django（‌是一个高级的Python Web框架，旨在快速开发安全和可维护的网站。它由经验丰富的开发者构建，能够处理网站开发中的许多常见问题，使开发者能够专注于编写应用程序，而无需重新开发。）网络框架的共同创建者Simon Willison（西蒙·威利森）是可信的，谷歌可能比Anthropic更早地解锁了从屏幕截图或图像中确定坐标的能力。

然而，在借助基于人工智能的代理和LLM控制计算机方面，Anthropic可能是第一个将这种能力与其他能力结合起来率先推向市场的公司。

另据报道，OpenAI自2月以来一直在开发类似的能力。

此外，在他的一篇领英帖子中，软件专家Martin Bechard（马丁·贝查德）声称OpenAI已经开发了一个名为Tools（‌OpenAI Tools功能‌是OpenAI提供的一组预定义工具，旨在简化与OpenAI API的交互，并扩展其功能应用范围。这些工具可以快速实现复杂任务，广泛应用于智能聊天机器人、企业级应用、教育平台等领域。）的功能，该功能遵循与Anthropic的computer use能力相同的基本原理。

微软、Meta和苹果也参与其中。

虽然微软本月早些时候展示了其Copilot（是微软在Windows 11中加入的AI助手，该AI助手是一个集成了在操作系统中的侧边栏工具，可以帮助用户完成各种任务。）的新功能Vision（‌Copilot Vision是微软最新推出的功能，旨在提升用户在浏览网页时的体验。在日常使用中，其可以帮助用户快速找到网页上的关键信息，例如总结文章、提取重要数据等。此外，它还可以帮助用户进行更复杂的任务，如布置新公寓、搜索家具、找到合适的调色板等。），可以阅读和理解图像并回答有关它们的问题，苹果一直在通过其Apple Intelligence（是2024年苹果公司推出的自家的人工智能系统。是苹果自主研发的人工智能版本，它专注于将技术注入软件并升级现有应用程序，使其更加智能化和实用。值得一提的是，Apple Intelligence将由苹果自主研发的技术以及与知名人工智能公司OpenAI的合作共同提供支持。）更新，努力向其虚拟助手Siri（是Speech Interpretation & Recognition Interface的首字母缩写，原义为语音识别接口，是苹果公司在iPhone、iPad、iPod Touch、HomePod、Apple Watch、Apple TV、Apple CarPlay等产品上应用的一个语音助手，利用Siri用户可以通过手机查找信息、拨打电话、发送信息、获取路线、播放音乐、查找苹果设备等。可以支持自然语言输入，并且可以调用系统自带的天气预报、日程安排、搜索资料等应用，还能够不断学习新的声音和语调，提供对话式的应答。Siri可以令iPhone4S及以上手机，iPad 3以上平板变身为一台智能化机器人。）引入自动化能力。

另一方面，Facebook（是一个流行的社交网络平台，允许用户与朋友、家人和其他人分享照片、视频、链接和消息。）的母公司Meta（美国互联网公司，原名Facebook，创立于2004年2月4日，总部位于美国加利福尼亚州门洛帕克。“Meta”，来源于“元宇宙”，Metaverse，意思是包涵万物无所不联。Facebook坚定地希望甩掉问世以来就牢牢被贴在身上的标签——社交媒体，要跳出发家领域社交媒体的“舒适圈”，着力开拓元宇宙e。）一直在努力将其LLMs压缩到智能手机中。今年早些时候，谷歌在Chrome浏览器中展示了几个新的基于人工智能的功能，包括使用人工智能比较两个标签页之间的信息，并提出将相似标签组合在一起的建议。

作者：Anirban Ghoshal（阿尼班·戈沙尔）

Anirban Ghoshal（阿尼班·戈沙尔）是一位资深作家，为CIO.com报道企业软件，为InfoWorld报道数据库、云和人工智能基础设施。

译者：宝蓝

【睿观：

人工智能，尤其是大型语言模型（LLM），正在推动自动化领域的新浪潮，各大科技巨头纷纷布局，Jarvis是其中一个代表性的产品。

支撑论点：