OpenAI憋新大招：将推AIAgent，会操控电脑 - 科技资讯(古典风资讯网)

编译 | 汪越

编辑 | Panken

智东西11月14日消息，据彭博社报道，据知情人士透露，OpenAI正在开发一款名为“Operator”的AI Agent（AI代理、AI智能体），计划于明年1月发布。这款工具将能够自动执行包括编写代码、预订旅行等在内的复杂任务，并将作为研究预览版发布，面向开发者提供API接口。OpenAI目前尚未置评。

据三位知情人士透露，OpenAI还在进行多个与Agent相关的研究项目，其中最接近完成的是一款通用工具，能够在Web浏览器中执行任务。

随着大语言模型（LLM）发展进入瓶颈期，OpenAI、美国AI大模型独角兽Anthropic、微软、谷歌等科技公司纷纷转向开发AI Agent，试图通过这一新领域打破现有的技术平台期，抢占市场先机。

据彭博社报道，Anthropic在10月推出了一款类似的AI Agent。与其他AI Agent不同，这款工具不仅能够与浏览器进行互动，还能直接控制用户计算机上的多个应用程序。这项名为“计算机使用”的功能可以实时解析用户屏幕上的内容，并在获得授权后，执行如浏览网页、点击按钮和输入文本等任务。

目前，Anthropic正在向其Claude模型的开发者提供该工具的测试版，几周前，该工具也已在部分企业客户中进行了初步测试。

▲Anthropic展示如何在计算机中使用AI Agent（图源：YouTube）

微软也在加速推进其AI Agent的商业化。今年10月，在伦敦举办的微软“AI Tour”活动中，微软宣布将为Dynamics 365系列业务应用推出10个新的AI Agent，涵盖销售、客户支持和会计等领域。微软计划从12月起提供这些AI Agent的公共预览版，并持续至2025年初。

同时，微软还计划在11月发布Copilot Studio的公开预览版，帮助企业构建和使用定制化的AI Agent。Copilot Studio是微软Copilot的扩展平台，允许用户根据需求定制AI Agent。

▲微软将推出10个AI Agent，帮助完成销售、客户支持和会计等工作。（图源：微软）

据The Information报道，谷歌正在研发一款名为“Jarvis”的AI Agent，该工具可以接管用户的网络浏览器，自动执行如收集研究资料、购买产品和预订航班等任务。预计这款工具将在12月发布预览版，并将与谷歌的下一代大语言模型Gemini一同推出。

谷歌的AI Agent与Anthropic的相似，都能通过频繁捕捉用户计算机屏幕的内容来响应指令，但在操作范围上有所不同。谷歌的Jarvis专注于浏览器操作，Anthropic的工具能控制用户计算机上的各类应用程序。

结语：谁能占领AI Agent市场的制高点？

发布AI Agent的举措，正值OpenAI及其竞争对手在开发更先进AI模型时发现高昂投入的回报递减之际。

随着LLM改进速度放缓，OpenAI和其他公司正在积极寻找新的技术突破口。今年10月，OpenAI CEO萨姆·阿尔特曼（Sam Altman）在Reddit的“Ask Me Anything”会议上谈道，AI Agent将是下一个重大突破的方向。

AI Agent正在逐步成为自动化任务和提升生产力的重要组成部分。OpenAI、Anthropic、微软和谷歌等科技公司都在争相开发各自的AI Agent，Salesforce等公司也开始加入进来，计划推出定制化的AI Agent。未来，谁能在这场竞争中脱颖而出，将取决于其如何平衡技术深度、商业化进程以及对市场需求的精准洞察。

来源：彭博社