为机器人赋予空间智能，UIUC团队构建多模态具身智能的3D推理系统

能够在三维场景中进行空间感知和推理决策是机器人和具身 AI 区别于二维图像智能的重要能力，也是现有人工智能模型的严重局限之一。

基于这个观察，美国伊利诺伊大学厄巴纳-香槟分校（UIUC，University of Illinois Urbana-Champaign）团队研究并证明了空间感知在三维多模态推理中的重要性，并结合大视觉语言模型提出了强化空间智能的新方法。

相关论文发表在 2024 年 IEEE 国际计算机视觉与模式识别会议（CVPR，Conference on Computer Vision and Pattern Recognition）上。

论文的第一作者满运泽，本硕博先后就读于浙江大学、美国卡内基梅隆大学和 UIUC。他曾在 Adobe 实习过，如今又在 NVIDIA 从事科研实习工作，目前主要研究多模态大模型和具身智能。

图丨满运泽（来源：满运泽）

他表示，本次工作在很大程度上基于对人类智能的观察。

具体来说：

他和团队发现相比于机器学习模型，人类在回答三维空间中的复杂感知、规划任务和推理任务的时候，会自然而然地从自身所处的情景出发，来做第一人称的理解和判断。

这种智能使得人们可以很轻易地理解“左右”“远近”“上下”等空间相对概念，并能在复杂的多物体多模态环境中工作。

他和同事把这种智能叫做情景感知。它是空间智能的其中一种，代表着一个具身智能体能够理解自身所处环境，并能依此进行空间推理的能力。

这也和美国斯坦福大学李飞飞教授所强调的 Spatial Intelligence 有着密切相关性。

研究中，该团队通过初步实验证明：现有的人工智能模型并不具备情景感知能力。

首先，在情景估计任务中，现有模型的表现仅仅比随机猜测高出一点点而已。

其次，他们还发现有无情景输入，对于情境相关的问答效果完全没有任何区别，这一点其实与人类直觉是完全相悖的。

而在本次研究伊始，他们注意到了 SQA3D 这个数据集，这是一个鲜少有人注意但却非常独特和重要的数据集。

此前通过使用这个数据集，人们一般用来研究 3D 问答效果。但是，很少有人将这个数据集用于研究情景估计和基于情景的问答效果。

而通过分析领域内的已有工作，并通过与人类智能对比，他们将研究方向定为情景感知。

随后，课题组开始针对现有模型的步骤进行分析和可视化，借此找出导致效果变差的成因。

随后发现问题主要出现在两方面：

其一，当采用端到端直接估计的架构时，会导致模型无法利用估计出来的情景，来辅助问答任务和推理任务。

其二，采用回归估计（Regression Estimation）的方法，会导致模型无法在巨大的三维空间中准确定位到某一位置和某一方向向量。

为此，该团队设计出一款名为 SIG3D 的模型，针对上述两方面问题进行优化，这不仅能让三维搜索空间变小，也能显著提升准确度。

同时，课题组尽可能多地寻找合适的数据集来验证猜想，并再次通过最终结果和中间结果的可视化，来验证所优化模块的效果。

最终，相关论文以《情境意识在三维视觉语言推理中的重要性》（Situational Awareness Matters in 3D Vision Language Reasoning）为题发在 CVPR 2024 上 [1]。

图丨相关论文（来源：CVPR）

对于相关论文审稿人一致认为：

首先，本次论文研究动机十分明确，并解决了帮助智能体理解三维环境这一问题，在方法上具有一定创新性。

其次，研究人员进行了充分的实验和广泛的消融研究，在两个问答任务和一个情景估计任务进行了评估。

并在所有三个任务上均展示出最优越的性能，尤其在情境估计任务上取得了显著提升。

最后，研究中对于鸟眼（BEV，Bird's-Eye Vie）俯视角和情境理解的探讨，为 3D 推理和具身 AI 等应用做出了一定贡献。

对于游戏、居家机器人、自动驾驶车辆、以及增强现实/虚拟现实等混合现实产品的智能体系统，本次成果将能带来一定的潜在帮助。

而拥有一个更好的情景感知能力，意味着模型将能拥有更好的 3D 空间理解能力。

它将能明白自己在空间中的位置和方向，因此会天然地拥有更强的避障能力、导航能力、推理能力、交流能力以及多模态问答，从而催生更安全、更智能的 AI。

（来源：CVPR）

另据满运泽介绍，这是他的第一篇正式向视觉语言多模态方向转型的论文。

“论文定题的初期曾经历一些阵痛。由于脱离了自己之前熟悉的领域，所以交流方式也要进行更新，还有无数的相关文献要等着阅读，因此精神压力一直比较大。”他说。

但是，研究途中满运泽逐渐体会到豁然开朗的感觉，也让他产生了很多关于视觉语言模型的其他想法。

他说：“从对这个方向产生兴趣、追随兴趣、摸黑探索、以及豁然开朗，很像《桃花源记》中的一句话‘山有小口，仿佛若有光（新的方向）。便舍船，从口入。初极狭，才通人（转型的阵痛）。复行数十步，豁然开朗’。”

而基于本次成果：

首先，他希望可以继续拓展模型的研究情景感知能力在 7B 模型、13B 模型、乃至 40B 模型中，是否仍会带来推理效果的提升。

其次，他打算研究场景从室内拓展到室外，在更空旷和更复杂的交互中验证模型。

最后，他还会研究视觉模型对于 3D 多模态推理的重要性，尤其是探究图像和视频中的 2D 基础模型的泛化能力，能否被拓展到 3D 模型中。而这个工作的相关论文，已经在 arXiv 预印本平台上发表。

图丨相关论文（来源：arXiv ）

满运泽的长期研究目标是：希望开发一个视觉感知优先的多模态信息系统，从而为具身 AI 和机器人构建一个能够准确表示周围世界的动态三维世界模型，并能在进行复杂推理和决策的同时，与人类和环境产生交互。

参考资料：

1.https://arxiv.org/pdf/2406.07544

排版：刘雅坤