Tokenization,再见!Meta提出大概念模型LCM,1B模型干翻70B?

烟雨江南情长 2025-01-08 15:53:14

【导读】Meta提出大概念模型,抛弃token,采用更高级别的「概念」在句子嵌入空间上建模,彻底摆脱语言和模态对模型的制约。

最近,受人类构思交流的高层级思路启发,Meta AI研究员提出全新语言建模新范式「大概念模型」,解耦语言表示与推理。

网友Chuby兴奋地表示:「如果Meta的大概念模型真的有用,那么同等或更高效率的模型,其规模将更小。比如说1B模型将堪比70B的Llama 4。进步如此之大!」

而在最近的访谈中,Meta的首席科学家Yann LeCun表示下一代AI系统LCM(大概念模型)。新系统将不再单纯基于下一个token预测,而是像婴儿和小动物那样通过观察和互动来理解世界。

华盛顿大学计算机科学与工程博士Yuchen Jin,非常认同Meta的新论文,认为新模型增强了其对「tokenization将一去不复返」这一看法的信心,而大语言模型要实现AGI则需要更像人类一样思考。

甚至有人因此猜测Meta是这次AI竞赛的黑马,他们会用模型给带来惊喜。

简而言之,「大概念模型」(LCM)是在「句子表示空间」对推理(reasoning)建模,抛弃token,直接操作高层级显式语义表示信息,彻底让推理摆脱语言和模态制约。

具体而言,只需要固定长度的句子嵌入空间的编码器和解码器,就可以构造LCM,处理流程非常简单:

首先将输入内容分割成句子,然后用编码器对每个句子进行编码,以获得概念序列,即句子嵌入。

然后,大概念模型(LCM)对概念序列进行处理,在输出端生成新的概念序列。

最后,解码器将生成的概念解码为子词(subword)序列。

文中对推理(inference)效率的分析颇具看点:在大约1000个token数左右,新模型理论上需要的计算资源就比LLama2-7b具备优势,且之后随着下上文中token数越大,新模型优势越大。具体结果见论文中的图15,其中的蓝色表示LLama2-7b模型,红色和绿色分别代表新模型;红色的参数规模为7b,而绿色为1.6b;右图是左图在0-3000的token数下的局部放大图。

新模型的其他亮点如下:

在抽象的语言和模态无关的层面上进行推理,超越token:(1)新方法模拟的是底层推理过程,而不是推理在特定语言中的实例。(2)LCM可同时对所有语言和模态进行训练,即获取相关知识,从而有望以无偏见的方式实现可扩展性。目前支持200种语言文本。

明确的层次结构:(1)提高长文输出的可读性。(2)方便用户进行本地交互式编辑。

处理长上下文和长格式输出:原始的Transformer模型的复杂性随序列长度的增加而呈二次方增长,而LCM需要处理的序列至少要短一个数量级。

无与伦比的零样本(zero-shot)泛化能力:LCM可在任何语言或模态下进行预训练和微调。

模块化和可扩展性:(1)多模态LLM可能会受到模态竞争的影响,而概念编码器和解码器则不同,它们可以独立开发和优化,不存在任何竞争或干扰。(2)可轻松向现有系统添加新的语言或模态。

为什么需要「概念」?

虽然大语言模型取得了无可置疑的成功和持续不断的进步,但现有的LLM都缺少人类智能的一个重要的特点:在多级别抽象上显式的推理和规划。

人脑并不在单词层面运作。

比如在解决一项复杂的任务或撰写一份长篇文档时,人类通常采用自上而下的流程:首先在较高的层次上规划整体结构,然后逐步在较低的抽象层次上添加细节。

有人可能会说,LLM是在隐式地学习分层表示,但具有显式的分层结构模型更适合创建长篇输出。

新方法将与token级别的处理大大不同,更靠近在抽象空间的(分层)推理。

上下文在LCM所设计的抽象空间内表达,但抽象空间与语言或模态无关。

也就是说在纯粹的语义层面对基本推理过程进行建模,而不是对推理在特定语言中的实例建模。

为了验证新方法,文中将抽象层次限制为2种:子词token(subword token)和概念。

而所谓的「概念」被定义为整体的不可分的「抽象原子见解」。

在现实中,一个概念往往对应于文本文档中的一个句子,或者等效的语音片段。

作者认为,与单词相比,句子才是实现语言独立性的恰当的单元。

这与当前基于token的LLMs技术形成了鲜明对比。

大概念模型总体架构

训练大概念模型需要句子嵌入空间的解码器和编码器。而且可以训练一个新的嵌入空间,针对推理架构进行优化。

在此研究使用其开源的SONAR作为句子嵌入的解码器和编码器。

SONAR解码器和编码器(图中蓝色部分)是固定的,不用训练。

更重要的是,LCM(图中绿色部分)输出的概念可以解码为其他语言或模态,而不必从头执行整个推理过程。

同样, 某个特定的推理操作,如归纳总结,可以在任何语言或模态的输入上以零样本(zero-shot)模式进行。

因为推理只需操作概念。

总之,LCM既不掌握输入语言或模态的信息,也不以特定语言或模态生成输出。

在某种程度上,LCM架构类似于Jepa方法(见下文),后者也旨在预测下一个观测点在嵌入空间中的表示。

不过,Jepa更强调以自监督的方式学习表示空间,而LCM则不同,它侧重于在现有的嵌入空间中进行准确预测。

模型架构设计原理

SONAR嵌入空间

SONAR文本嵌入空间使用编码器/解码器架构进行训练,以固定大小的瓶颈代替交叉注意力,如下图2。

SONAR广泛用于机器翻译任务,支持200种语言的文本输入输出,76种语言的语音输入和英文输出。

因为LCM直接在SONAR概念嵌入上运行,因此可对其支持的全部语言和模态进行推理。

数据准备

为了训练和评估LCM需要将原始文本数据集转换为SONAR嵌入序列,每个句子对应嵌入空间的一个点。

然而处理大型文本数据集有几个实际限制。包括精准的分割句子很难,此外一些句子很长很复杂,这些都会给SONAR嵌入空间的质量带来负面影响。

文中使用SpaCy分割器(记为SpaCy)和Segment any Text (记为SaT)。

其中SpaCy是基于规则的句子分割器,SaT在token级别预测句子的边界进行句子分割。

通过限制句子的长度的长度还定制了新的分割器SpaCy Capped和SaT Capped。

好的分割器产生的片段,经过编码后再解码而不会丢失信号,可以获得更高的AutoBLEU分值。

为了分析分割器器的质量,从预训练数据集中抽取了10k份文件,代表了大约500k个句子。

测试中,使用每个分割器处理文档,然后对句子进行编码和解码,并计算AutoBLEU分数。

如图3所示,如果字符上限为200个,与SpaCy Capped相比,SaT Capped方法总是略胜一筹。

然而,随着句子长度增加,两种分割器都表现出明显的性能不足。

当句子长度超过250个字符时,这种性能低下的情况尤为明显,这突出表明了在不设置上限的情况下使用分段器的局限性。

Base-LCM

下个概念预测(next concept prediction)的基线架构是一个标准的只含解码器的Transformer,它将一系列先行概念(即句子嵌入)转换为一系列将来的概念。

如图4所示,Base-LCM配备了「PostNet」和「PreNet」。PreNet对输入的SONAR嵌入进行归一化处理,并将它们映射到模型的隐藏维度。

Base-LCM在半监督任务上学习, 模型会预测下一个概念,通过优化预测的下一个概念与真实的下一个概念的距离来优化参数,也就是通过MSE回归来优化参数。

基于扩散的LCM(Diffusion-based LCM)

基于扩散的LCM是一种生成式潜变量模型,它能学习一个模型分布pθ ,用于逼近数据分布q。

与基础LCM相似,将扩散LCM建模被视为自动回归模型,每次在文档中生成一个概念。

大概念模型「Large Concept Model」并不是单纯的「next token prediction」, 而是某种「next concept predition」,也就是说下一个概念的生成是以之前的语境为条件的。

具体而言, 在序列的位置n上,模型以之前全部的概念为条件预测在此处某概念的概率, 学习的是连续嵌入的条件概率。

学习连续数据的条件概率,可以借鉴计算机视觉中的扩散模型用于生成句子嵌入。

在文中讨论了如何设计不同扩展模型用于生成句子嵌入, 包括不同类型的正向加噪过程和反向去噪过程。

根据不同的方差进度(variance schedule), 生成不同的噪音进度(noise schedule),从而产生对应的前向过程;通过不同的权重策略,反映不同的初始状态对模型的影响。

文中提出了3类噪音进度:余弦Cosine,二次函数Quadratic以及Sigmoid。

并提出了重建损失加权策略:

论文详细讨论了不同噪音进度和加权策略策略的影响,结果如下:

单塔扩散LCM(One-Tower Diffusion LCM)使用图像领域的扩散加速技巧,也可以加速LCM的推理。

如图6左图,单塔扩散LCM由一个Transformer主干组成,其任务是在给定句子嵌入和噪音输入的条件下预测干净的下一个句子嵌入 。

双塔扩散LCM(Two-Tower Diffusion-LCM)

如图6右侧,双塔扩散LCM模型将前一语境的编码与下一嵌入的扩散分开。

第一个模型,即上下文标注模型,将上下文向量作为输入,并对其进行因果编码。

也就是说,应用一个带有因果自关注的纯解码器Transformer。

然后,上下文分析器的输出结果会被输入第二个模型,即去噪器(denoiser)。

它通过迭代去噪潜高斯隐变量来预测干净的下一个句子嵌入 。

去噪器由一系列Transformer和交叉注意力块组成,交叉注意力块用于关注编码上下文。

去噪器和上下文转换器共享同一个Transformer隐藏维度。

去噪器中每个Transformer层(包括交叉注意力层)的每个区块都使用自适应层规范(AdaLN)。

在训练时,Two-Tower的参数会针对无监督嵌入序列的下一句预测任务进行优化。

因果嵌入在去噪器中移动一个位置,并在交叉注意力层中使用因果掩码。在上下文向量中预置一个零向量,以便预测序列中的第一个位置(见图8)。为了有条件和无条件地训练模型,为无分类器引导缩放推理做准备,以一定的比率从交叉注意力掩码中删除随机行,并仅以零向量作为上下文对相应位置进行去噪处理。

量化LCM在图像或语音生成领域,目前有两种处理连续数据生成的主要方法:一种是扩散建模,另一种是先对数据进行学习量化,然后再在这些离散单元的基础上建模。

此外,文本模态仍然是离散的,尽管处理的是SONAR空间中的连续表示,但全部可能的文本句子(少于给定字符数)都是SONAR空间中的点云,而不是真正的连续分布。

这些考虑因素促使作者探索对SONAR表示进行量化,然后在这些离散单元上建模,以解决下一个句子预测任务。

最后,采用这种方法可以自然地使用温度、top-p或top-k采样,以控制下一句话表示采样的随机性和多样性水平。

可以使用残差矢量量化作为从粗到细的量化技术来离散SONAR表示。

矢量量化将连续输入嵌入映射到所学编码本中最近的元素。

RVQ每次迭代都会使用额外的码本,对之前量化的残余误差进行迭代量化。

在试验中从Common Crawl提取的1500万个英语句子上训练了RVQ编码本,使用64个量化器,每个编码本使用8192个单元。

RVQ的一个特性是,第一个码本的中心点嵌入累积和是输入SONAR向量的中等粗略近似。

这样,在使用SONAR文本解码器解码量化嵌入之前,可以先探索码本数量SONAR嵌入自动编码BLEU分数的影响。

正如图9中所示, 随着编码本数量的增加,自动编码BLEU不断提高。

当使用全部64个码本时,自动编码BLEU分数约为连续SONAR内嵌时自动编码BLEU分数的70%。

模型分析

推理效率

作者直接比较了双塔扩散LCM和LLM的推理计算成本,也就是在不同prompt和输出总长度(以词组为单位)的情况下的计算成本。

具体而言,论文中的图13,作者分析了理论上大概念模型(LCM)和大语言模型的推理需要的每秒浮点运算次数(flops)。

如左图所示,只有在非常短的句子(小于等于10个token), LLM才有优势。

在上下文超过10000个token左右时,不论是Two-tower LCM(1.6B)还是Two-tower LCM(7B),token数几乎不再影响推理需要的计算量。

SONAR 空间的脆弱性

在潜在空间中建模时,主要依靠诱导几何(L2-距离)。

然而,任何潜在表示的同质欧几里得几何都不会完全符合底层文本语义。

嵌入空间中的微小扰动都可能导致解码后语义信息的急剧丢失,这就是明证。

这种性质被叫做嵌入为「脆弱性」。

因此,需要量化语义嵌入(即SONAR代码)的脆弱性,以便于了解LCM训练数据的质量以及这种脆弱性如何阻碍LCM的训练动态。

给定一个文本片段w及其SONAR代码x=encode(w),将w的脆弱性定义为

随机抽取了5000万个文本片段,并为每个样本生成了9 个不同噪音水平的扰动。且在实验中,对于外部余弦相似度(CosSim)指标,使用mGTE作为外部编码器。

具体的脆弱性得分结果在图14中。

图14中左图和右图分别描绘了BLUE和CosSIM得分随文本长度和噪声水平变化的曲线。

可以观察到,BLEU分数的下降速度比余弦相似度更快。

最重要的是,脆性得分对解码器的选择很敏感。具体而言,随着噪声量的增加,微调解码器的自动编码 BLEU 和余弦相似度得分的下降速度明显低于基本解码器。

还注意到,在平均扰动水平下,总体得分分布如图15所示,在SONAR样本中,脆弱性得分差距很大。

这种差异的原因可能是句子长度。与自动编码BLEU指标相比(该指标在长句子中仅下降1-2%),脆弱性对句子长度更为敏感,在两种相似性指标中都下降得更快。

这表明,使用最大句子长度超过250的SONAR和LCM模型会面临极大的挑战。另一方面,虽然短句的平均鲁棒性更高,但在错误的位置拆分长句可能会导致更短但更脆弱的子句。

不同任务的测评

表10列出了不同基线和LCM在摘要任务上的结果,分别包括CNN DailyMail 和 XSum数据集。

与经过专门调整的LLM(T5-3B)相比,LCM的Rouge-L(表中的R-L列)分数也具有竞争力。

而较低的OVL-3分数则表示,新模型倾向于生成更抽象的摘要,而不是提取性摘要。LCM产生的重复次数比LLM更少,更重要的是,其重复率更接近真实的重复率。

根据CoLA分类器得分,LCM生成的摘要总体上不太流畅。

不过,在该得分上,即使是人工生成摘要的得分也比LLM低。

在来源归属(SH-4)和语义覆盖(SH-5)上也有类似的现象。

这可能是由于基于模型的指标更偏向于LLM生成的内容。

表11列出长文档总结总结(LCFO.5%、LCFO.10%和LCFO.20%)的结果。

在预训练和微调数据中,LCM只看到了有限数量的长文档。

不过,它在这项任务中表现良好。

在5%和10%的条件下,它在Rouge-L指标上优于Mistral-7B-v0.3-IT和Gemma-7B-IT。

在5%和10%条件下的度量Rouge-L优于Mistral-7B-v0.3-IT和Gemma-7B-IT,在 20%条件下接近Gemma-7B-IT 。

还观察到,LCM在所有条件下都能获得较高的SH-5分数,也就是说,摘要可以归因于来源。

LCM的扩写摘要扩展是说在给定摘要的情况下,创建更长的文本,其目标并不是重新创建初始文档的事实信息,而是评估模型以有意义和流畅的方式扩展输入文本的能力。

当考虑到简明扼要的文件具有摘要类似的属性(即主要是从细节中抽象出来的独立文件)时, 摘要扩展任务可以被描述为生成一个更长的文档的行为,该文档保留了相应短文档中的基本要素以及连接这些要素的逻辑结构。

由于这是一项更加自由的生成任务,因此还需要考虑到连贯性要求(例如,生成的一个句子中包含的详细信息不应与另一个句子中包含的信息相矛盾)。

这里介绍的摘要扩展任务包括将来自CNN DailyMail和XSum的摘要作为输入,并生成一份长文档。

表12显示了CNN DailyMail和XSum的摘要扩展结果。

图中,加黑加粗的表示最佳的结果。

零样本(zero-shot)泛化能力使用XLSum语料库测试新模型的泛化能力。

XLSum语料库是涵盖45种语言的大规模多语言抽象新闻摘要基准。

文中将LCM的性能与支持八种语言的Llama-3.1-8B-IT进行了比较:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

作者在图 16 中报告了42种语言的Rouge-L分数。排除了SONAR目前不支持的三种语言:Pidgin、拉丁字母塞尔维亚语和西里尔字母乌兹别克语。

在英语方面,LCM大大优于Llama-3.1-8B-IT。

LCM可以很好地推广到许多其他语言,特别是像南普什图语、缅甸语、豪萨语或韦尔什语这样的低资源语言,它们的Rouge-L分数都大于20。

其他表现良好的低资源语言还有索马里语、伊博语或基隆迪语。

最后,LCM的越南语Rouge-L得分为30.4。

总之,这些结果凸显了LCM对其从未见过的语言的令人印象深刻的零样本(zero-shot)泛化性能。

总结

此外,文章也描述了显式规划、方法论、相关方法以及模型限制等。

文章讨论的模型和结果是朝着提高科学多样性迈出的一步,也是对当前大规模语言建模最佳实践的一种超越。

作者也承认,要达到当前最强的LLM的性能,还有很长的路要走。

0 阅读:33