据The Information报道,谷歌可能最快在12月展示其对Rabbit大型动作模型概念的自家解读。这个被称为“Project Jarvis”的项目将为用户执行任务,包括“收集研究、购买产品或预订航班”。
Jarvis项目由谷歌未来的Gemini版本提供支持,它仅与网络浏览器一起工作(特别是为Chrome优化)。该工具通过获取和解析屏幕截图,然后点击按钮或输入文本, 来帮助人们完成“自动化日常的、基于网络的任务”。在当前状态下,完成这些动作显然需要“几秒钟”。
主要的大型AI公司都在研究类似方向的大模型任务。微软的Copilot Vision将允许你与它讨论你正在查看的网页;预计苹果智能将在明年某个时候能够了解你屏幕上的内容,并在多个应用程序中为你执行任务;Anthropic推出了一个“笨拙且容易出错”的Claude beta更新,可以为你使用计算机;而OpenAI也在研究类似版本。
The Information提醒说,谷歌计划在12月展示Jarvis的计划可能会有变化。据报道,该公司正在考虑将其发布给一些测试人员,以发现并帮助研发团队解决BUG。
Jarvis项目的核心在于其能够理解和执行基于网络的任务,这意味着它能够处理从在线研究到购买产品等一系列活动。这种能力不仅能够节省用户的时间,还能减少在执行这些任务时可能出现的错误。通过自动化这些任务,Jarvis项目有望在浏览器上变革用户与网络交互的方式。