你好,欢迎您来到福建信息主管(CIO)网! 设为首页|加入收藏|会员中心
您现在的位置:>> 新闻资讯 >>
谷歌准备推出Jarvis以应对人工智能“computer use”之战
作者:CIO&睿观 来源:CIOCDO 发布时间:2024年10月30日 点击数:

人工智能自动化正在成为一个备受关注的领域。Jarvis作为其中的代表性产品,展示了LLM在自动化任务中的强大潜力。各大科技公司纷纷布局,竞争激烈。未来,随着技术的不断发展,人工智能自动化将会在我们的工作和生活中发挥越来越重要的作用。预计将于今年12月推出的JarvisProject Jarvis,是一个旨在通过人工智能技术自动化网页任务的大型动作模型。旨在通过自动化网页任务来提升用户体验。该项目预计将在12月进行首次展示,并由谷歌未来版本的Gemini模型驱动,特别针对Chrome浏览器进行优化。)可能在企业中有多种用途,如开发、CRM(客户关系管理,是指企业为提高核心竞争力,利用相应的信息技术以及互联网技术协调企业与顾客间在销售、营销和服务上的交互,从而提升其管理方式,向客户提供创新式的个性化的客户交互和服务的过程。其最终目标是吸引新客户、保留老客户以及将已有客户转为忠实客户,增加市场。ERP(即企业资源计划,是一种主要面向制造行业进行物质资源、资金资源和信息资源集成一体化管理的企业信息管理系统。ERP是一个以管理会计为核心可以提供跨地区、跨部门、甚至跨公司整合实时信息的企业管理软件。针对物资资源管理-物流、人力资源管理-人流、财务资源管理-财流、信息资源管理-信息流,集成一体化的企业管理软件。)等各种任务。

图源:GORODENKOFF(图片上传者,可以译为用户GORODENKOFF,或者GORODENKOFF) / SHUTTERSTOCK


谷歌也加入了由Agentic AI(代理人工智能,‌是一种高级的人工智能系统,它能够自主规划和采取行动以实现用户定义的目标。核心特点包括自主设定目标、做出决策和根据对复杂环境的理解采取行动。驱动的基于人工智能的计算机使用之战,与Anthropic(是一家人工智能初创公司,由前 OpenAI 员工创立,成立于2021年,总部位于旧金山,致力于构建可靠、可解释和可控的人工智能系统。)OpenAI(在美国成立的人工智能研究公司,核心宗旨在于“实现安全的通用人工智能,AGI”,使其有益于人类。OpenAI于2015年由一群科技领袖,包括山姆·阿尔特曼、彼得·泰尔、里德·霍夫曼和埃隆·马斯克等人创办。)等公司一起,努力在新兴且不断发展的基于人工智能的自动化市场中获得份额。

The Information(‌是一家位于硅谷的付费订阅科技新闻媒体,成立于2013年。该媒体以独家和深度报道著称,追踪科技行业的独家新闻和商业动态,如Snap Inc.IPO计划、Uber董事会的决策、Nest Labs创始人的详细报道等。)报道,该公司正在开发Jarvis,它将允许用户在谷歌的Gemini 2.0(是谷歌即将发布的下一代AI模型,预计在202412月发布‌。其在图像生成和文本创作方面有着显著的提升,能够生成更为逼真的图像和撰写更具创意的文本,同时在多模态学习和自然语言处理领域展现出强大的应用潜力。大型语言模型在Chrome browser(‌Chrome浏览器,‌是由谷歌公司开发的一款高效、安全的网络浏览器,以其快速的加载速度、稳定的性能和丰富的功能而备受用户喜爱。其采用了多进程架构,能够更好地利用计算机资源,提高浏览器的运行速度和稳定性。)上自动化研究和购物等任务。

The Information援引的消息人士称,Jarvis控制操作和完成浏览器任务的能力将结合多种基于LLM(大型语言模型。是使用深度学习算法处理和理解自然语言的基础机器学习模型。这些模型在大量文本数据上进行训练,以学习语言中的模式和实体关系。LLM可以执行多种类型的语言任务,例如翻译语言、分析情绪、聊天机器人对话等。的开发技术,如读取和理解屏幕截图、生成文本以及模拟用户交互。

谷歌利用基于LLM的人工智能自动化用户任务的努力,与Anthropic上周发布的“computer use(是一种革命性的新功能,使得Claude AI模型能够像人类一样操作电脑。Claude可以通过API独立操作鼠标光标在屏幕上移动、点击按钮、输入文本等,无需用户直接干预。这种操作方式真正模拟了人类与计算机交互的方式,使得AI助手能够使用为人类设计的各类软件。能力非常相似,专家认为,一旦作为成品推出,这可能会彻底改变自动化市场,因为大量的工作仍在计算机上进行。

反过来,Anthropic“computer use”能力使开发人员能够通过Anthropic API(‌是由Anthropic公司开发的一种强大的自然语言处理/NLP API,旨在通过API灵活配置和调用AI系统,完成各种任务。Anthropic公司致力于推动人机交互的界限,其API的核心在于强大的自然语言处理能力,通过先进的机器学习模型,能够理解并生成近乎自然的语言。)指示Claude 3.5 Sonnet(‌是Anthropic公司推出的一款AI模型,属于Claude 3.5模型家族中的首个版本。Claude 3.5 Sonnet旨在提高智能水平,超越竞争对手和之前的模型,并在广泛的评估中表现出色,成为行业新标杆‌。)阅读和解释显示的内容,输入文本,移动光标,点击按钮,以及在窗口或应用程序之间切换——就像今天的robotic process automation/RPA(机器人流程自动化,是以软件机器人及人工智能为基础的业务过程自动化科技。RPA系统是一种应用程序,它通过模仿最终用户在电脑的手动操作方式,提供了另一种方式来使最终用户手动操作流程自动化。工具可以被指示——但更为繁琐地——去做。

虽然Jarvis似乎是针对消费者的,但这项技术也可以在企业中使用,因为许多开发活动、工作流和自动化管理、CRM、ERP等都是通过基于万维网的客户端或界面在浏览器上访问的。

事实上,如果Django(‌是一个高级的Python Web框架,旨在快速开发安全和可维护的网站。它由经验丰富的开发者构建,能够处理网站开发中的许多常见问题,使开发者能够专注于编写应用程序,而无需重新开发。网络框架的共同创建者Simon Willison(西蒙·威利森是可信的,谷歌可能比Anthropic更早地解锁了从屏幕截图或图像中确定坐标的能力。

然而,在借助基于人工智能的代理和LLM控制计算机方面,Anthropic可能是第一个将这种能力与其他能力结合起来率先推向市场的公司。

据报道,OpenAI自2月以来一直在开发类似的能力。

此外,在他的一篇领英帖子中,软件专家Martin Bechard(马丁·贝查德声称OpenAI已经开发了一个名为Tools(‌OpenAI Tools功能‌是OpenAI提供的一组预定义工具,旨在简化与OpenAI API的交互,并扩展其功能应用范围。这些工具可以快速实现复杂任务,广泛应用于智能聊天机器人、企业级应用、教育平台等领域。的功能,该功能遵循与Anthropic的computer use能力相同的基本原理。

微软、Meta和苹果也参与其中。

虽然微软本月早些时候展示了其Copilot(是微软在Windows 11中加入的AI助手,该AI助手是一个集成了在操作系统中的侧边栏工具,可以帮助用户完成各种任务。的新功能Vision(‌Copilot Vision是微软最新推出的功能,旨在提升用户在浏览网页时的体验。在日常使用中,其可以帮助用户快速找到网页上的关键信息,例如总结文章、提取重要数据等。此外,它还可以帮助用户进行更复杂的任务,如布置新公寓、搜索家具、找到合适的调色板等。)可以阅读和理解图像并回答有关它们的问题,苹果一直在通过其Apple Intelligence(是2024年苹果公司推出的自家的人工智能系统。是苹果自主研发的人工智能版本,它专注于将技术注入软件并升级现有应用程序,使其更加智能化和实用。值得一提的是,Apple Intelligence将由苹果自主研发的技术以及与知名人工智能公司OpenAI的合作共同提供支持。)更新,努力向其虚拟助手Siri(是Speech Interpretation & Recognition Interface的首字母缩写,原义为语音识别接口,是苹果公司在iPhone、iPad、iPod Touch、HomePod、Apple Watch、Apple TV、Apple CarPlay等产品上应用的一个语音助手,利用Siri用户可以通过手机查找信息、拨打电话、发送信息、获取路线、播放音乐、查找苹果设备等。可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。Siri可以令iPhone4S及以上手机,iPad 3以上平板变身为一台智能化机器人。)引入自动化能力。

另一方面,Facebook(是一个流行的社交网络平台,允许用户与朋友、家人和其他人分享照片、视频、链接和消息。)的母公司Meta(美国互联网公司,原名Facebook,创立于2004年2月4日,总部位于美国加利福尼亚州门洛帕克。“Meta”,来源于“元宇宙”,Metaverse,意思是包涵万物无所不联。Facebook坚定地希望甩掉问世以来就牢牢被贴在身上的标签——社交媒体,要跳出发家领域社交媒体的“舒适圈”,着力开拓元宇宙e。)一直在努力将其LLMs压缩到智能手机中。今年早些时候,谷歌在Chrome浏览器中展示了几个新的基于人工智能的功能,包括使用人工智能比较两个标签页之间的信息,并提出将相似标签组合在一起的建议。

作者:Anirban Ghoshal(阿尼班·戈沙尔


Anirban Ghoshal(阿尼班·戈沙尔)是一位资深作家,为CIO.com报道企业软件,为InfoWorld报道数据库、云和人工智能基础设施。

译者:宝蓝

【睿观:

人工智能,尤其是大型语言模型(LLM),正在推动自动化领域的新浪潮,各大科技巨头纷纷布局,Jarvis是其中一个代表性的产品。

支撑论点:

  • Jarvis的潜力:

    • 基于Gemini模型,针对Chrome浏览器优化。

    • 可自动化网页任务,提升用户体验。

    • 在企业端有广泛应用前景(开发、CRM、ERP等)。

  • 行业趋势:

    • 各大科技公司竞相投入人工智能自动化领域。

    • Anthropic、OpenAI等公司在LLM驱动的计算机自动化方面取得进展。

    • 功能包括:阅读理解屏幕截图、生成文本、模拟用户交互等。

    • 潜在应用场景广泛,可彻底改变自动化市场。

  • 技术细节:

    • Jarvis利用LLM技术,结合图像识别、文本生成等能力。

    • Anthropic的computer use能力与Jarvis相似。

    • OpenAI的Tools功能也具备类似能力。

    • 其他公司如微软、Meta、苹果也在积极布局。

具体例子:

  • Jarvis可通过读取和理解屏幕截图,自动完成购物等任务。

  • Anthropic的Claude 3.5 Sonnet可以像人类一样操作电脑。

  • OpenAI的Tools功能可以遵循与Anthropic的computer use能力相同的原理。

  • 微软的Copilot Vision可以阅读和理解图像。】