AIAgents究竟是什么?

新兴科技是个圈 2024-07-11 08:25:06

当 ChatGPT 首次亮相的时候,人工智能领域都在谈论新一代人工智能助手,然而过去一年来,大家开始转向了一个新的目标:人工智能体(AI Agent)。

在今年 5 月的谷歌年度 I/O 会议上,谷歌重点介绍了其新推出的名为“Astra”的新人工智能体,用户可以使用音频和视频与之交互。此外,在谷歌之前,OpenAI 的新推出的 GPT-4o 模型也被称为人工智能体。

这不仅仅是炒作(尽管其中肯定也存在一些炒作的成分),科技公司正在投入巨额资金创建人工智能体,这些公司的研究工作可能会带来我们数十年来一直所盼望的那种真正有用的人工智能。

包括奥特曼在内的许多业内人士表示,“人工智能体将会是下一个行业重点。”但人工智能体是什么?我们应该如何使用它们?

如何定义“人工智能体”?

事实上,业界对人工智能体的研究还处于初期阶段,还没有对其进行明确的定义。“简单地理解,它们本质上就是人工智能模型和算法,可以在动态世界中自主做出决策。”英伟达高级研究科学家、人工智能体项目负责人 Jim Fan 表示。

人工智能体的宏伟愿景是一个可以执行大量任务的系统,就好比是一个“人类助手”。未来,它可以帮助你制定假期计划,记住你是否更喜欢豪华酒店,并在四星级或四星级以上的酒店里预订其中的一家;然后,它还将建议最适合你日程的航班,并根据你的喜好规划行程;它可以根据旅行计划和天气预报列出需要携带的个人物品清单;它甚至可能把你的行程安排发送给你的好朋友并邀请他们一起旅行;而在工作中,它可以分析你的待办事项列表并执行任务,例如发送会议邀请、备忘录以及电子邮件等。

“多模态”是人工智能体的重要愿景之一,这意味着它们可以处理语言、音频和视频等。例如,在谷歌的演示中,用户可以用智能手机摄像头对准各种物体并向 Astra 提问,人工智能体可以对文本、音频以及视频输入做出回应。

“这些人工智能体还可以使企业和公共组织的流程更加顺畅。”伦敦大学学院人工智能中心主任 David Barber 表示。

比如,人工智能体可能能够充当更复杂的客户服务机器人。当前基于语言模型的助手只能生成句子中下一个可能的单词并组成句子,而人工智能体将有能力自主处理自然语言命令,并且在没有监督的情况下处理客户服务任务。再比如,人工智能体将能够分析客户的投诉电子邮件,然后知道如何检查客户的单号,访问客户关系管理和交付系统等数据库,以查看投诉是否合法,并根据公司的政策进行处理。

“广义上讲,有两类不同的人工智能体:软件智能体(Software Agents)和具身智能体(Embodied Agents)。”Jim Fan 说道,“软件智能体在电脑或手机上运行并使用应用程序,这些智能体对办公室工作、发送电子邮件或完成这一系列活动非常有用。”

具身智能体是位于 3D 世界(比如电脑游戏中)或机器人中的智能体。具身智能体可以让人们与人工智能控制的非玩家角色一起互动,从而使电子游戏更具吸引力。这类智能体还可以帮助构建更有用的机器人,帮助人们完成家里的日常任务,如叠衣服和做饭等。

Jim Fan 所在的团队在一个名为“Minecraft”的电脑游戏中构建了一个人工智能体(MineDojo)。该人工智能体利用从互联网上收集的大量数据能够学习新的技能和任务,能够在虚拟的 3D 世界中进行自由探索,并完成一系列复杂的任务,比如用栅栏围住骆驼,或是将熔岩铲到桶里。毕竟,电脑游戏能够对真实世界进行模拟,需要让智能体理解物理、推理和常识等。

普林斯顿大学的研究人员在一篇尚未经过同行评审的新论文中表示,人工智能体往往具有三种不同的特征:如果人工智能系统能够在复杂的环境中不受指导地追求困难的目标,那么它们就被认为是智能体;或者能在没有监督的情况下接受自然语言的指导并自主行动,它们也称得上是智能体;最后,“智能体”一词也适用于能够使用网络搜索或编程等工具,以及能够进行规划的系统。

人工智能体并非新鲜事物

华盛顿大学计算机科学教授 Chirag Shah 表示,“人工智能体”一词其实已经存在了很多年,但是其在不同的时间意味着不同的东西。

“已经出现了两波人工智能体热潮,眼下的这一波热潮主要归功于语言模型的繁荣和 ChatGPT 的兴起。”Jim Fan 指出,“上一波热潮是在 2016 年,当时谷歌 DeepMind 推出了 AlphaGo,这是一个强大的围棋人工智能系统,能够做出决策并制定战略。AlphaGo 主要依赖于强化学习,这是一种奖励人工智能算法做出理想行为的技术。”

谷歌 DeepMind 研究副总裁 Oriol Vinyals 表示,“但这些人工智能体太过于‘专一’,换句话说,这些智能体只是为完成某种特地任务而创建的,比如 AlphaGo 就只是会下围棋。相较之下,新一代基于基础模型的人工智能使智能体更加普遍,因为它们可以从人类互动的世界中进行学习。”

“你会觉得这个模型是在与世界互动,然后给你更好的答案或更好的辅助等等。”Oriol Vinyals 说。

来源:MIT Technology Review

当前还存在哪些限制?

然而现阶段仍有许多悬而未决的问题需要回答。人工智能初创公司 Imbue 的首席执行官兼创始人邱侃君致力于开发能够推理和编码的智能体,她将目前智能体的现状与十多年前的自动驾驶汽车相比较。在她看来目前的人工智能体虽然可以完成一些事情,但它们并不可靠,而且仍然没有真正的自主性。

邱侃君说,“举个例子,编码智能体可以生成代码,但有时会出错,而且它也不知道如何测试正在创建的代码。因此,人类仍然需要参与到这一过程中。人工智能系统仍然无法完全实现推理,这是在复杂且模糊的人类世界中运行的关键一步。”

Jim Fan 则表示:“我们还远远没有一个可以为我们自动化所有这些家务的智能体。目前的系统可能会产生幻觉,而且它们也不总是严格遵循指令,显然这就很麻烦了。”

除此之外还有一个限制,人工智能体在一段时间后可能会完全忘记它们的工作内容,要知道,人工智能系统受到其上下文窗口的限制,这意味着它们能够思考的数据量是有限的。

“ChatGPT 可以敲写代码,但不能很好地处理较长的内容。但对于人类开发人员来说要查阅的是整个 GitHub 代码库,其中有几十行乃至数百行代码,显然,这对于人类而言完全没有任何压力。”Jim Fan 说。

为了解决这个限制,谷歌提高了其模型处理数据的能力,这使得用户可以与他们进行更长的互动,从而更多地记住过去的互动内容。谷歌声称正在努力使其上下文窗口在未来能够变得无限多。

对于像机器人这样的具身智能体来说,局限性就更多了。研究人员还没有足够的训练数据来训练它们,刚刚才开始利用机器人基础模型的力量。

因此,在当下所有的炒作和兴奋中,需要注意的是,人类对人工智能体的研究仍处于早期阶段,我们可能需要花费数年的时间才能充分体验它们的潜力。

现在可以体验人工智能体吗?

实际上,从某种程度来说,你很可能已经体验过它们的早期原型,比如 OpenAI 的 ChatGPT 和 GPT-4。“如果你正在与感觉很智能的软件进行交互,那它其实就是一种智能体。”邱侃君说。

“就目前而言,我们所拥有的最好的智能体都是专一的、具有特定用途的系统,比如编码助理、客户服务机器人或 Zapier 等工作流自动化软件等等,这些与能够完成复杂任务的通用型人工智能体相比,还差得很远。”她补充说。

她表示:“今天我们有了这些计算机,它们真的很强大,但我们必须对它们进行‘微观管理’。”

“比如,OpenAI 的 ChatGPT 插件允许人们为网络浏览器创建人工智能助手,这是对智能体的一次尝试,但这些系统仍然笨拙、不可靠,而且无法推理。”邱侃君说。

尽管如此,邱侃君认为,这些系统总有一天会改变人类与技术互动的方式,这是人们需要关注的趋势。

“这并不是说,我们突然之间有了通用型人工智能体,而是说,我的电脑比五年前能做更多事情。”她表示。

原文链接:

1.https://www.technologyreview.com/2024/07/05/1094711/what-are-ai-agents/

0 阅读:0