非Transformer架构AI模型Liquid问世

汉唐天云商业说 2024-10-03 20:16:42

Liquid AI 是一家由 MIT CSAIL 衍生的初创公司,它推出了一系列名为 Liquid Foundation Models(LFMs)的新型 AI 模型。这些模型采用了非 Transformer 架构,基于动态系统、信号处理和数值线性代数的理论构建,旨在处理包括文本、视频、音频和信号在内的各种类型的序列数据。

Liquid Foundation Models: Our First Series of Generative AI Models

原理及技术方法: LFMs 的设计灵感来自于动态和自适应学习系统,它们使用计算单元,这些单元深深植根于动态系统理论、信号处理和数值线性代数。这种独特的混合允许 Liquid AI 在追求智能的过程中利用这些领域的数十年理论进展。CSAIL 的研究人员利用动态系统理论、信号处理和数值线性代数的原理,开发了一种新型的液态神经网络(Liquid Neural Network),这种网络能够动态地适应输入数据的变化,对于需要实时响应的复杂系统如自动驾驶汽车等具有潜在的应用价值.

动态系统理论:模型可能包含能够模拟动态系统行为的单元,使其能够适应输入数据的变化。信号处理:可能包含用于处理和分析信号(如音频或视频数据)的专门单元。数值线性代数:可能使用先进的数学技术来优化模型的计算效率。

LFMs are built on a unique architectural framework, deviating from traditional transformer models. The architecture is centered around adaptive linear operators, which modulate computation based on the input data. This approach allows Liquid AI to significantly optimize performance across various hardware platforms, including NVIDIA, AMD, Cerebras, and Apple hardware. The design space for LFMs involves a novel blend of token-mixing and channel-mixing structures that improve how the model processes data. This leads to superior generalization and reasoning capabilities, particularly in long-context tasks and multimodal applications.

Liquid AI Launches Liquid Foundation Models: A Game-Changer in Generative AI – Unite.AI

Liquid AI 表示,与 Transformer 架构模型相比 LFM 模型的 RAM 用量更少,特别是在处理大量输入内容场景时,由于 Transformer 架构模型处理长输入时需要保存键值(KV)缓存,且缓存会随着序列长度的增加而增大,导致输入越长,占用的 RAM 越多。

而 LFM 模型则能够避免上述问题,系列模型能够有效对外界输入的数据进行压缩,降低对硬件资源的需求,在相同硬件条件下,这三款模型相对业界竞品能够处理更长的序列。

参考 Liquid AI 首批发布的三款模型,其中 LFM-1.3B 专为资源受限的环境设计,而 LFM-3.1B 针对边缘计算进行了优化,LFM-40.3B 则是一款“专家混合模型(MoE)”,该版本主要适用于数学计算、交通信号处理等场景。

优势:

性能: LFMs 在各种规模上都实现了最先进的性能,同时保持了更小的内存占用和更高效的推理。内存效率: 与基于 Transformer 的模型相比,LFMs 在处理长输入时的内存占用更少。多模态数据处理: LFMs 能够处理包括视频、音频、文本、时间序列和信号在内的多种数据类型。推理效率: LFMs 能够在不显著影响内存使用的情况下,高效处理长达 32k 令牌的序列。

局限:

代码任务: LFMs 在零样本代码任务上的表现不佳。数值计算: 在进行精确数值计算方面存在局限。时效性信息: 不擅长处理时效性信息。优化技术: 人类偏好优化技术尚未广泛应用于这些模型。

应用: LFMs 适用于多种行业,如金融服务、生物技术和消费电子。它们可以用于建模、推理和决策支持系统。此外,它们还可以用于边缘计算设备,如移动应用、机器人和无人机。

技术方法: LFMs 使用了一种新的并行扫描基础线性状态空间架构,以及基于有理函数的最先进的时间序列状态空间模型。此外,它们还引入了用于时间序列的生成状态空间架构和用于视频的状态空间架构。

Liquid AI 还计划通过技术博客文章深入探讨每个模型的机制,并在 2024 年 10 月 23 日在 MIT 的 Kresge Auditorium 举行产品发布会。

给机器人装上「虫脑」?非Transformer液态神经网络终于来了!MIT CSAIL负责人创业成果 | 机器之心 (jiqizhixin.com)

———–测试一下

Liquid Labs

Sharing is caring!

0 阅读:3