OpenAI憋新大招:将推AIAgent,会操控电脑

智东西 2024-11-14 19:10:11

编译 | 汪越

编辑 | Panken

智东西11月14日消息,据彭博社报道,据知情人士透露,OpenAI正在开发一款名为“Operator”的AI Agent(AI代理、AI智能体),计划于明年1月发布。这款工具将能够自动执行包括编写代码、预订旅行等在内的复杂任务,并将作为研究预览版发布,面向开发者提供API接口。OpenAI目前尚未置评。

据三位知情人士透露,OpenAI还在进行多个与Agent相关的研究项目,其中最接近完成的是一款通用工具,能够在Web浏览器中执行任务。

随着大语言模型(LLM)发展进入瓶颈期,OpenAI、美国AI大模型独角兽Anthropic、微软、谷歌等科技公司纷纷转向开发AI Agent,试图通过这一新领域打破现有的技术平台期,抢占市场先机。

据彭博社报道,Anthropic在10月推出了一款类似的AI Agent。与其他AI Agent不同,这款工具不仅能够与浏览器进行互动,还能直接控制用户计算机上的多个应用程序。这项名为“计算机使用”的功能可以实时解析用户屏幕上的内容,并在获得授权后,执行如浏览网页、点击按钮和输入文本等任务。

目前,Anthropic正在向其Claude模型的开发者提供该工具的测试版,几周前,该工具也已在部分企业客户中进行了初步测试。

▲Anthropic展示如何在计算机中使用AI Agent(图源:YouTube)

微软也在加速推进其AI Agent的商业化。今年10月,在伦敦举办的微软“AI Tour”活动中,微软宣布将为Dynamics 365系列业务应用推出10个新的AI Agent,涵盖销售、客户支持和会计等领域。微软计划从12月起提供这些AI Agent的公共预览版,并持续至2025年初。

同时,微软还计划在11月发布Copilot Studio的公开预览版,帮助企业构建和使用定制化的AI Agent。Copilot Studio是微软Copilot的扩展平台,允许用户根据需求定制AI Agent。

▲微软将推出10个AI Agent,帮助完成销售、客户支持和会计等工作。(图源:微软)

据The Information报道,谷歌正在研发一款名为“Jarvis”的AI Agent,该工具可以接管用户的网络浏览器,自动执行如收集研究资料、购买产品和预订航班等任务。预计这款工具将在12月发布预览版,并将与谷歌的下一代大语言模型Gemini一同推出。

谷歌的AI Agent与Anthropic的相似,都能通过频繁捕捉用户计算机屏幕的内容来响应指令,但在操作范围上有所不同。谷歌的Jarvis专注于浏览器操作,Anthropic的工具能控制用户计算机上的各类应用程序。

结语:谁能占领AI Agent市场的制高点?

发布AI Agent的举措,正值OpenAI及其竞争对手在开发更先进AI模型时发现高昂投入的回报递减之际。

随着LLM改进速度放缓,OpenAI和其他公司正在积极寻找新的技术突破口。今年10月,OpenAI CEO萨姆·阿尔特曼(Sam Altman)在Reddit的“Ask Me Anything”会议上谈道,AI Agent将是下一个重大突破的方向。

AI Agent正在逐步成为自动化任务和提升生产力的重要组成部分。OpenAI、Anthropic、微软和谷歌等科技公司都在争相开发各自的AI Agent,Salesforce等公司也开始加入进来,计划推出定制化的AI Agent。未来,谁能在这场竞争中脱颖而出,将取决于其如何平衡技术深度、商业化进程以及对市场需求的精准洞察。

来源:彭博社

0 阅读:2