四足机器人凭借其卓越的穿越崎岖地形能力和在复杂路面维持稳定的显著特性,结合先进传感器套件,已在工业环境中广泛部署,扮演着自主巡检的重要角色。然而,尽管它们展现出诸多优势,当前大多数四足机器人的运动能力仍局限于高度结构化的地形,面对人造环境中多样且普遍的基础设施挑战,显得力不从心。
以典型障碍梯子为例。作为工业基础设施中普遍存在的元素,其却成为了四足机器人难以逾越的屏障。这一局限性不仅阻碍了四足机器人深入检查那些可能存在危险的位置,从而迫使人类工作人员涉险作业,增加了安全风险,还直接影响了工业现场的整体作业效率与生产力提升。
据探索前沿科技边界,传递前沿科技成果的X-robot投稿,来自苏黎世联邦理工学院机器人系统实验室的研究人员前不久针对这一挑战进行深入研究,并通过巧妙地结合基于强化学习的控制策略与创新的互补钩式末端执行器,成功教会了四足机器人攀登梯子这一新技能。
研究人员不仅设计了这一方案,还全面评估了机器人在不同梯子倾斜角度、梯级几何形态以及梯级间距下的模拟稳健性,确保技术的可靠性。在硬件实验阶段,即便在未经特定训练的情况下,机器人也能够成功攀登角度从70°至90°的梯子,总体成功率高达90%。同时,在面对未建模的外部扰动时,机器人亦展现出稳定的攀爬性能,其攀爬速度达到了前所未有的高度,比当前最先进技术快了232倍。
那么,该研究团队具体是如何教会四足机器人爬梯子的呢?接下来,一起来和机器人大讲堂深入探索这一研究成果!
▍四足机器人爬梯,难度何在?
机器人爬梯技术,作为一个蕴含高度复杂性与挑战性的研究领域,长久以来一直是科研人员探索的热点。尽管该领域已取得一定的研究成果,但当前的研究大多聚焦于人形机器人,这类机器人爬梯速度缓慢,且其应用场景受到严格限制,通常只能在如完全垂直且无外界干扰的梯子这类特定结构化环境中运作。
例如,在某研究中,其具备灵巧双手及预设运动轨迹的人形机器人攀爬垂直梯子其垂直上升速度仅为26毫米/小时,且在面对扰动时缺乏鲁棒性。而在另一项研究中,即便研究者将运动规划器与柔顺控制器相结合,从而在一定程度上增强了机器人的抗干扰能力,但在实际操作中,机器人爬过五个梯级仍需耗时长达七分钟。
在四足机器人领域,尽管也有爬梯的尝试,但这些研究同样多局限于完全垂直的梯子,且爬梯速度同样不尽如人意,每爬升一个梯级都需要两分钟之久。四足机器人在适应各种工业地形时面临的困境,主要归咎于其缺乏完成此类复杂任务所需的适当形态或高效控制策略。
仍是以爬梯子为例,深入剖析四足机器人的爬梯难题,可以发现其背后的几个关键因素:四足动物的腿部设计,通常采用球形或扁平的脚部结构,这种设计严重阻碍了机器人在爬梯过程中产生稳定且可靠的锚定力。此外,爬梯的力学原理要求机器人能够全身协调,以稳定重心并在较大的倾斜角度下顺利向上移动,而这是当前的运动控制器在复杂、未建模或“嘈杂”的环境中难以可靠实现的。再者,梯子的总长、梯级间距、梯级类型、梯级半径以及倾斜角度等参数可能存在巨大的差异,这就要求控制器必须具备强大的鲁棒性和泛化能力。
针对机器人爬梯领域长期存在的这些挑战,研究团队成功开发出了一种用于精确跟踪位置命令的强化学习(RL)框架,这一框架极大地提升了机器人攀爬梯子的稳健性。
同时,研究团队还设计了一种钩状末端执行器,该执行器能够产生出安全、可靠攀爬所需的关键力量。在此基础上,研究团队对成功爬梯进行了跨越多种配置的广泛模拟测试,这些测试涵盖了梯子尺寸、梯级间距、梯子倾斜角度、梯子材料参数以及机器人动力学参数等多方面的变化。最终,成功展示了迄今为止速度最快、适用性最广的机器人爬梯硬件演示,该演示在不同梯子配置以及未建模的扰动条件下均展现出了卓越的性能。
▍控制策略的训练
四足动物在自然环境中具有出色的移动能力,且基于模型的非线性控制方法在稀疏地形中表现不俗,但这些方法易受建模不确定性、外部干扰和感知误差的困扰。相比之下,无模型的强化学习(RL)方法在实现模拟到现实的迁移、崎岖地形的稳健性以及解决稀疏地形问题上展现出巨大潜力。然而,在四足机器人快速、稳健且通用地爬梯方面,研究成果仍相对匮乏。
在本研究中,研究团队首先为配备挂钩末端执行器的机器人开发了一个教师策略,该策略在模拟环境中进行训练,能够获取无噪声的本体感受观测值、惯性测量单元(IMU)历史记录、机器人周围的高度扫描以及特权状态信息。随后,团队提炼出一个学生策略,该策略仅能获取有噪声的机载观测值。学生策略以50 Hz的频率输出关节位置目标,由真实机器人上以400 Hz频率运行的PD控制器进行跟踪。
在策略观测值方面,本体感受观测值包括指令目标位置、目标航向、基座框架中的重力方向等,同时还提供IMU测量的历史记录。在教师训练期间,还会输入机器人周围的高度扫描,以加速策略训练。特权状态信息则包括身体接触状态、脚部的接触力等。在学生训练期间,将有噪声的梯子状态作为观测值给出。
教师策略由四个具有ELU激活函数的多层感知器(MLP)组成,使用具有自适应约束阈值的IPO进行训练。训练地形包括崎岖地形和具有不同梯子的地形,训练课程是自适应的,随着代理达到早期目标,它们会进步到更困难的地形。代理在随机配置中生成,并被指令到达随机目标位置和航向。
学生策略在与教师相同的环境中进行训练,但仅能访问有噪声的本体感受观测值和梯子状态。学生策略通过复制教师的匹配网络权重进行预热启动,并使用行为损失和重建损失进行训练。特权教师-学生训练的一个关键优势是,教师可以相对较快地进行训练,而直接在学生观测值上进行训练则难以学习有效且稳健的策略。
所有模拟均在LeggedGym中进行,使用大量并行环境进行训练。教师训练15,000个回合,学生训练5,000个回合,在RTX 3090上训练总共需要约4.5天。使用挂钩末端执行器的训练比使用球足慢约30%,这是由于额外的碰撞体所致。
▍仿真结果/实验
通过在不同倾斜角、梯级半径和存在噪声及外部干扰的情况下,对配备挂钩末端执行器和传统球足设计的机器人在不同配置的梯子上的表现进行对比,研究团队就提出的策略和创新设计进行了评估。
他们随机选择了梯子的尺寸和梯级间距,共测试了50种不同配置,并对结果进行了平均。配备挂钩末端执行器的机器人在所有测试中的平均成功率高达96%,即便在添加噪声和外部干扰的情况下也能成功攀爬,表现出优异的稳健性。相比之下,传统球足设计的平均成功率仅为81%。
当梯级半径减小或倾斜角增加时,两种设计的性能都会受到影响,但挂钩末端执行器在提供更稳定性方面表现出明显优势。特别是在无噪声的情况下,挂钩和球足的成功率都超过了99%,但挂钩的设计使机器人能够在不确定性中更好地泛化,实现平稳且快速的攀爬。
为验证模拟训练策略的实际应用效果,研究团队直接将未经微调的策略部署在ANYmal D机器人上,并在各种倾斜角的梯子上进行了测试。实验设置包括使用运动捕捉系统估计梯子姿势和倾斜角,其他梯子状态则直接测量并作为输入。
测试结果显示,机器人在70度和80度倾斜角下均成功攀爬,90度时因未建模的碰撞问题导致部分失败。模拟与现实之间的数据表现出一致性,且机器人在攀爬过程中的关节位置和环境接触与模拟相似。机器人的平均攀爬速度为0.44米/秒,比现有最先进的四足机器人快了232倍。此外,研究团队还测试了策略对未建模扰动的稳健性,发现机器人能够从推梯级切换到用挂钩产生拉力来支撑自己,表现出持续的恢复和重试行为。
而与人类攀爬梯子的类比则显示,四足机器人攀爬梯子的动作与人类相似,后腿产生向上的推力,而前腿的挂钩主要保持稳定。这表明人形和四足机器人在功能形态和控制策略上可能存在统一的描述,并可能共享大部分相同的任务空间。
▍关于X-robot
X-robot是中关村机器人产业创新中心与机器人大讲堂联手打造的权威性信息发布品牌专栏,集前沿探索、产业研究、知识普及于一体,致力于积极推动新质生产力的生成与发展,助力我国乃至全球机器人行业的蓬勃繁荣。X-robot立足国际化视野,通过全方位、多角度的挖掘与追踪,生动展现机器人前沿技术与尖端成果,为学术界、产业界及公众提供一个洞见未来、共享科技的重要窗口。