模型上下文长度越来越长,RAG会被取代吗?

乌鸦智能说 2024-03-04 19:10:22

在大模型这场竞争中,提升模型智能水平被认为是唯一的路径。其中,随着处理信息规模的提升,上下文长度被正在被大模型公司提到一个更高的位置。

去年下半年开始,OpenAI、Anthropic等模型公司纷纷发布上下文长度的最新进展。今年2月,谷歌发布的Gemini 1.5Pro,再次将上下文刷新为100万 token,创下了最长上下文窗口的纪录,相当于1小时的视频或者70万个单词。

这极大提升了模型处理信息的能力。如果参数规模大小比喻成模型的计算能力,那么上下文长度更像是模型的“内存”,决定了模型每轮对话能处理多少上下文信息,直接影响着AI应用的体验好坏。

随着模型上下文长度的提升,另一个问题也逐渐出现:作为提升模型输出内容的准确性和相关性的工具,RAG(检索增强生成)技术迎来了快速发展。但模型处理信息不断增强,RAG技术是否会被取代?

/ 01 / 人人都卷上下文长度

2月初,谷歌发布了Gemini 1.5Pro,这个性能水平与谷歌迄今为止最大的模型1.0 Ultra类似。而这个模型最大的特点就是,创下了最长上下文窗口的纪录。

根据官方披露,它能够稳定处理高达100万 token,相当于1小时的视频、11小时的音频、超过3万行代码或70万个单词,处理极限为1000万token,相当于《指环王》三部曲。

要知道,OpenAI最新的模型GPT-4 Turbo仅支持128K上下文输入。而在实际测试中,GPT-4 Turbo对于理解73K tokens文档的理解能力急速下降。

凭借超长上下文理解能力,Gemini 1.5 Pro得到了很多用户的认可。很多测试过 Gemini 1.5 Pro 的人更是直言,这个模型被低估了。有人尝试将从 Github 上下载的整个代码库连同 issue 都扔给 Gemini 1.5 Pro,结果它不仅理解了整个代码库,还识别出了最紧急的 issue 并修复了问题。

当然,除了谷歌在卷“上下文长度”,其他大模型公司也都在卷这个能力。去年下半年,GPT-3.5上下文输入长度从4千增长至1.6万token,GPT-4从8千增长至3.2万token;OpenAI最强竞争对手Anthropic一次性将上下文长度打到了10万token;LongLLaMA将上下文的长度扩展到25.6万token,甚至更多。

在国内,刚刚完成8亿美元融资的AI大模型公司月之暗面,也把“长文本(Long Context)”当前主打的技术之一。去年10月,当时月之暗面发布了首个模型 Moonshot 和 Kimi 智能助手,支持 20 万字的输入。

那么,上下文到底意味着什么,为什么大家都在卷这个能力?

上下文技术,是指模型在生成文本、回答问题或执行其他任务时,能够考虑并参照的前置文本的数量或范围,是一种大模型对信息理解深度和广度的评价维度。用通俗的话来说,如果参数规模大小比喻成模型的计算能力,那么上下文长度更像是模型的“内存”,决定了模型每轮对话能处理多少上下文信息,直接影响着AI应用的体验好坏。

比如,随着上下文窗口长度的增加,可以提供更丰富的语义信息,有助于减少LLM的出错率和「幻觉」发生的可能性,用户使用时,体验能提升不少。

在业内人士看来,上下文长度增加对模型能力提升意义巨大。用OpenAI开发者关系主管Logan Kilpatrick话说,“上下文就是一切,是唯一重要的事”,提供足够的上下文信息是获得有意义回答的关键。

在杨植麟看来,通往 AGI 的话,上下文长度将会成为一个很重要的点。根据杨植麟判断,AI-Native 产品的终极价值是提供个性化的交互,而无损长上下文是实现这一点的基础——模型的微调长期不应该存在,用户跟模型的交互历史就是最好的个性化过程,历史上每一代技术都是在提升上下文长度。

那么,上下文长度的提升对当下AI行业会产生哪些影响呢?

/ 02 / RAG正在被“杀死”?

放在当下,受到上下文长度提升影响最大的莫过于RAG技术。RAG,中文翻译过来就是检索增强生成,所做的事情并不复杂,就是对知识文本、专业知识库通过AI模型做一个简易的、零成本的搜索增强训练。

随着ChatGPT的面世,大模型需要频繁通过上下文学习来输出内容,但由于模型本身存在幻觉、依赖的信息可能过时,导致其在处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。在这种情况下,RAG技术迎来了快速发展。

具体来说,在语言模型生成答案前,RAG先从广泛的文档数据库中检索相关信息,然后利用这些信息来引导生成过程,极大地提升了内容的准确性和相关性。

举个例子,你问大模型三国演义里曹操对刘备做过什么评价?在没有读过三国演义的情况下,大模型没有办法回答。但是,借助 RAG 方法,我们可以先让一个检索模型到三国演义里去寻找最相关的几个答案,然后把你的问题和它找到的相关答案都送到生成模型中,让大模型生成答案。

RAG 有效地缓解了幻觉问题,提高了知识更新的速度,并增强了内容生成的可追溯性,使得大型语言模型在实际应用中变得更加实用和可信。尽管RAG价值巨大,但更多只是大模型能力欠缺之下的权益之计。随着模型上下文输入上限不断提升,RAG也在面对越来越多的质疑。

爱丁堡大学博士生付尧认为,长文本正在取代RAG。他给出解释是,长文本相比于RAG在解码过程中检索具有明显的优越性:

“RAG只在最开始进行检索。通常,给定一个问题,RAG会检索与该问题相关的段落,然后生成。长上下文对每一层和每个Token进行检索。在许多情况下,模型需要进行即时的每个Token的交错检索和推理,并且只有在获得第一个推理步骤的结果后才知道要检索什么。只有长上下文才能处理这种情况。”

但很多人也对这一观点持有反对意见,其中成本是制约长文本的最大阻碍。如果将上下文的窗口设定为1M,按现在0.0015美元/1000token的收费标准,一次请求就要花掉1.5美元,这样的成本显然有些过高了。

时间成本上,RAG几乎实时输出内容,但在Gemini 1.5 Pro的演示实例中,1M的上下文长度需要60秒来完成结果的输出。在实际应用中,这样的时间差异会极大影响用户体验。种种迹象显示,至少从目前看,上下文长度想要完全取代RAG技术还有些难度。

0 阅读:10