这篇论文提出了一种新的方法,名为MLLM As ReTriever (MART),它通过利用交互数据来微调多模态大语言模型(MLLM)检索器,从而增强具身智能体(embodied agents)的性能。这种方法基于偏好学习,使检索器能够充分考虑轨迹的有效性,并为未见任务优先考虑它们。此外,论文还介绍了一种轨迹抽象机制,利用MLLM的总结能力以更少的标记表示轨迹,同时保留关键信息,使智能体能够更好地理解轨迹中的关键点。实验结果表明,MART在各种环境中显著提高了任务成功率,与基线方法相比。
研究背景具身智能体在复杂环境中交互时,需要理解当前上下文和任务特定领域知识以有效执行任务。尽管多模态大型语言模型(MLLM)在处理文本和视觉数据方面展现出潜力,但这些模型通常缺乏在智能体操作的具体环境中的有效基础,限制了它们在具身任务中的性能。
主要贡献提出了MART,这是第一个将交互学习与检索器结合的方法,使用交互反馈来微调MLLM检索器,以评估轨迹的有效性。引入了轨迹抽象机制,利用MLLM的能力显著压缩轨迹,同时保留关键信息,使智能体能够在新情境中有效使用这些压缩知识。通过在不同环境中的实验验证了MART的有效性,展示了在未见任务上的显著性能提升。研究方法MART方法通过以下步骤实现:
使用专家轨迹作为MLLM智能体的提示,并让智能体与环境交互,收集不同参考轨迹的成功执行率。将交互反馈数据组织成偏好对,用于微调MLLM(在论文中使用的是LLaVA模型)。引入轨迹抽象机制,通过MLLM的总结能力来表示轨迹,减少了标记数量,同时保留了关键信息。实验结果在AI2-THOR和LEGENT环境中进行的实验表明,MART在未见场景中的任务成功率显著高于基线方法。在不同环境中,MART一致地超过了基线10%以上。
结论MART通过交互学习增强了具身智能体的性能,通过提供与任务相关的轨迹数据,利用基于交互的反馈来识别最有效的轨迹,并构建偏好对。此外,MART还引入了轨迹抽象机制,利用MLLM的总结能力来抽象轨迹,减少了表示它们的标记数量,同时保留了关键信息,使智能体能够更好地理解相关轨迹中的信息。实验结果表明,MART显著提高了在未见任务中的任务成功率。
一句话总结这篇论文介绍了MART,一种新的方法,通过交互学习和轨迹抽象来提高具身智能体在未见任务中的性能,显著提高了任务成功率。
论文链接https://arxiv.org/abs/2410.03450