吴恩达教授曾任谷歌大脑项目的创始人,并开创性地提出了深度学习概念,推动了人工智能的发展。今天分享的是,吴恩达教授在红杉资本的人工智能峰会(AI Ascent)上发表了一次演讲。
在本次演讲中,他谈到了AI agent工作流多步迭代的模式与基于人工评估基准测试的效果分析,还谈到了自己对于AI agent设计模式的四种分类,包括检查、工具使用、规划、多智能体协作。
与此同时,吴恩达还分享了其对AI agent的未来发展潜力的展望。在他看来,通过代理工作流程,人工智能能够胜任的任务种类今年将会大幅扩展。此外,快速 token 生成也很重要,即使使用质量略低但速度更快的语言模型,通过更多轮次的迭代,也可能比使用更高质量但速度较慢的模型获得更好的结果。
目录如下:
01 AI agent工作流的模式与效果
02 四种AI agent设计模式
03 总结
/ 01 / AI agent工作流的模式与效果
我很高兴与大家分享我对人工智能代理的看法,这是一个令人兴奋的新兴趋势,所有从事人工智能的人都应该关注。
目前,我们使用大语言模型的主要方式是一种非代理工作流程,即您输入一个提示,模型就生成一个回答。这有点像让一个人坐下来一次性从头到尾编写一篇文章,而不允许使用退格键,尽管这样做很难,但大语言模型的表现出奇地出色。
相比之下,代理工作流程看起来是这样的:首先,让人工智能大语言模型写一个文章大纲,如果需要进行网络研究就先做研究,然后写出第一稿,然后阅读并思考需要修订的部分,再修改这一稿,如此循环往复、迭代多次。很多人没有意识到,这种做法可以带来显著的改进效果。我自己在使用这些代理工作流程时也感到非常惊讶,它们工作得如此之好。
我的团队分析了一个叫做"人工评估基准测试"的编码基准数据,它包含诸如"给定一个非空整数列表,返回所有偶数位置元素的和"之类的编码问题。现有的做法是使用零样本提示,即直接让人工智能编写代码并运行,但没有人是这样编码的。
研究发现,GPT-3.5使用零样本提示时只有48%的正确率,GPT-4提高到了67%。但如果在GPT-3.5上使用一个代理工作流程,它的表现实际上比GPT-4还要好。如果在GPT-4上使用代理工作流程,它的表现也非常出色。这意味着采用代理工作流程对于构建应用程序至关重要。
目前,行业内有很多关于代理的讨论和报告,但我想更具体地与大家分享一下我在代理设计模式方面的一些观察。尽管这个领域还很混乱,但我尝试对正在发生的事情进行了分类。
/ 02 / 四种AI agent设计模式
1.反思(reflection)
首先是检查(reflection),我认为这是一种大家都应该使用的工具,它非常有效。你可以将之前生成的代码再次输入给语言模型,并提示它"仔细检查这段代码的正确性、效率和结构,并提出评论。"同一个生成代码的模型可能会发现漏洞并提出改进意见。接收反馈后,你可以再次提示它,它可能会生成更好的代码版本。我觉得这是一种相当可靠的技术。
对于那些想更多了解这些技术的人,在每张幻灯片的底部我都列出了一些推荐阅读资料,希望能提供更多参考。
我之前描述的是一个单一的编码代理,你提示它与自己进行交互。这个想法的一种自然延伸是,不是单一的代码代理,而是有两个代理,一个是编码代理,另一个是评审代理。它们可以基于同一个大型语言模型,但你以不同的方式对它们进行提示,对一个说"你是专业编码者,编写代码",对另一个说"你是专业代码评审员,评审这段代码"。这种工作流程实际上非常容易实现,我认为它是一种通用技术,可以为很多工作流程带来显著的大型语言模型性能提升。
2.工具使用(Tool use)
第二个设计模式是工具使用。我们已经看到,语言模型可以搜索网页、生成和运行代码等,使用各种工具来分析、收集信息、执行操作以及提高生产效率。
如果你实际查看相关文献,你会发现早期很多工具使用研究似乎都源于视觉领域,因为在GPT-4和Llama等模型出现之前,大型语言模型对图像都是盲目的,所以唯一的选择就是让大型语言模型生成一个可以操作图像的函数,比如生成图像或进行目标检测之类的。这就是工具使用,它扩展了大型语言模型的能力。
3.规划(Planning)
第三个是规划。如果您还没有尝试过规划算法,那可能会像我第一次看到 ChatGPT 时那样,体会到人工智能的惊人能力。我曾运行过现场演示,当出现失败时,人工智能代理能自主规避失败继续运行。
我从一篇论文中摘录了一个例子:比如你给出一张男孩的图像,并说根据说明生成一张女孩的新图像。现在我们有了这样的人工智能代理:它可以确定第一步是确定男孩的姿势,然后可能在Hugging Face上找到一个合适的模型来提取这个姿势,接下来要找到一个姿势图像模型来合成一个女孩的图像,然后使用图像到文本的模型,最后使用语音合成。
我不想说它们已经能够可靠地工作,有时候还是有些不稳定,但当它们工作时,效果确实令人惊叹。再加上使用代理循环,有时你还可以从早期的失败中恢复过来。所以对于一些研究工作,我已经开始使用研究代理,比如说我不想自己花很长时间在谷歌上搜索,而是把任务交给研究代理,过几分钟再回来看它都找到了什么,有时它管用,有时不管用,但它已经成为了我个人工作流程的一部分。
4.多智能体协作(Multiagent collaboration)
第四个设计模式是多智能体协作。比如开源项目 ChatDev,你可以提示一个语言模型扮演不同的角色,比如公司CEO、设计师、产品经理或测试员,这些"代理"会相互协作,共同开发游戏等复杂程序。虽然不是每次都能成功,但有时确实令人印象深刻。研究还发现,让不同的人工智能代理进行辩论,也能提高它们的表现。
/ 03 / 总结
总之,我认为采用这些代理推理设计模式能够显著提高我们的工作效率。我预计,通过代理工作流程,人工智能能够胜任的任务种类今年将会大幅扩展。
不过我们需要改变一种习惯,那就是习惯了在提示语言模型后立即获得响应。在代理工作流程中,我们需要学会能够耐心等待几分钟甚至几个小时,才能得到响应,就像我们交代任务给人时需要适当地等待一段时间再进行检查一样。
此外,快速生成token也很重要。因为这些迭代式工作流程需要语言模型快速生成token供自己阅读。即使使用质量略低但速度更快的语言模型,通过更多轮次的迭代,也可能比使用更高质量但速度较慢的模型获得更好的结果。
我期待着 Claude 5、Claude 4、GPT-5和 Gemini 2.0 等新模型的到来。如果你期待在最新模型上通过零样本获得最佳表现,采用这种代理推理方法在早期模型上有可能达到相当的性能。
总的来说,通往人工通用智能的道路就像一条漫长的旅程,而代理工作流程有望成为通往目的地的一小步。谢谢大家!