VLA模型开始进入机器人量产阶段
HELIX是属于 “系统 1,系统 2”VLA 模型,现在左脑和右脑的配置成为机器人的核心发展方向:
系统 2(S2)基于互联网预训练的 VLM,7 - 9Hz 频率运行,用于场景和语言理解,实现广泛泛化;
系统 1(S1)是快速反应的视觉运动策略,200Hz 频率将 S2 的语义表示转换为精确连续机器人动作,二者解耦且端到端训练通信。
模型优势
速度与泛化:保持特定任务行为克隆策略速度的同时,零样本泛化至数千种新测试对象。
可扩展性:直接输出高维动作空间的连续控制,避免复杂动作标记化方案在高维人形控制的扩展难题。
架构简洁:采用标准架构,S2 用开源 VLM,S1 基于简单 Transformer 的视觉运动策略。
关注点分离:S1 和 S2 解耦,可分别迭代,不受统一观察空间或动作表示限制