这篇论文的标题是《CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction》,以下是对论文各部分的介绍:
摘要本研究提出了CANVAS(Commonsense-Aware NaVigAtion System),一个新颖的框架,它结合了视觉和语言指令,使机器人能够理解人类的常识并执行直观的导航任务。CANVAS利用模仿学习,让机器人从人类的导航行为中学习。研究者们还介绍了COMMAND,这是一个包含超过48小时和219公里导航数据的综合数据集,旨在训练能够在模拟环境中进行常识感知导航的系统。实验表明,CANVAS在处理嘈杂指令时的性能超过了ROS NavStack,并且在真实世界中的应用展现了令人印象深刻的Sim2Real迁移能力。
研究背景在现实世界中,机器人导航不仅仅是到达目的地那么简单,它需要在满足特定场景目标的同时优化移动路径。人类通常通过口头命令或粗略草图等形式给出高层次的指导,但这些指导往往缺乏精确性。为了让机器人能够根据这些抽象和不精确的指令进行导航,它们需要具备与人类共享的关于基本导航概念的常识。
主要贡献提出了CANVAS框架,允许人类通过多模态输入与机器人轻松通信。引入了COMMAND数据集,包含48小时驾驶数据,覆盖219公里,用于训练常识感知导航机器人。通过广泛的实验表明,与ROS NavStack相比,CANVAS在成功率、碰撞率、轨迹偏差距离和指令违规率方面均表现出色。研究方法CANVAS利用视觉-语言模型(VLMs)处理视觉和语言输入,生成递增的导航目标。通过模仿学习,机器人能够理解人类在嘈杂和不精确指令背后的意图。此外,研究者们提出了两个评估导航算法对常识遵循情况的指标:轨迹偏差距离(TDD)和指令违规率(IVR)。
实验结果CANVAS在所有环境下的表现均优于ROS NavStack,尤其是在果园环境中,当ROS NavStack的成功率为0%时,CANVAS达到了67%的成功率。此外,CANVAS在未见过的“画廊”环境中也显示出强大的导航能力,即使在模拟数据上训练,它在真实世界场景中的成功率也达到了69%。
结论CANVAS通过模仿学习,利用人类演示来训练,使得机器人能够理解人类指令背后的隐含意图,并做出符合人类期望的决策。实验结果表明,CANVAS在模拟环境和真实世界环境中均具有优越的导航性能,并且能够遵循常识约束。
一句话总结这篇论文介绍了CANVAS,这是一个通过模仿人类导航行为来学习并执行直观人类指令的常识感知导航系统,它在模拟和真实世界环境中均展现出高效且准确的导航能力。
论文链接https://arxiv.org/abs/2410.01273
项目链接https://worv-ai.github.io/canvas/