虽然背后技术原理有所差异,但自主化能力再次成为全球人形机器人主流厂商炫技的核心。
在人形机器人上,自主化系统通常指具有一定程度的自主决策和执行任务的能力,这可能包括对环境的感知、分析信息、做出决策并执行相应的任务。人形机器人的自主系统能力取决于其模型和算法,可能涉及到机器学习、深度学习等技术,使系统能够从经验中学习和适应新的情境,增强对环境和任务的适应性,并自主完成某些动作。目前,全球厂商都在探索如何以一种更有效的方式实现自主化能力。
▍特斯拉人形机器人
前不久,特斯拉人形机器人Optimus亮相发布活动,并在现场跳舞、倒饮料和与与会者互动,展现出了很高的智能程度,被人们认为是自主人形系统的典型。但后来有媒体证实,在发布会现场展示的Optimus实际上是由特斯拉工程师远程控制的自动化系统。执行任务的程度依然取决于其编程和设计,或者一部分遥操作,缺乏对环境和任务的自主性和灵活适应性。
虽然英伟达公司机器人业务主管Rev Lebaredian认为即使是在远程操控的情况下,人形机器人完成高精确度交互,进行部分远程控制的同时,依然需要非常先进的人工智能技术,这样才能在人类将控制实时映射到机器人在现实世界中的行为,并让机器人与周围其他人进行互动时,具备更高的准确率和更低的延时,但自主系统与自动化系统的差异非常明显,即缺乏对陌生任务和状况的处理能力。
为了证明人形机器人自主性能力,不久后特斯拉发布1分半视频,视频中Optimus自主行走在工厂,手上能抱11kg重物,遇到同事们还会根据需求分享零食。这一次,特斯拉特意声明,以上均非远程操控。
同时Optimus工程师还揭露了背后基础原理:机器人使用2D摄像头,且云端存储了相关视觉特征,在神经网络的作用下无需GPS即可导航,可以直接从数据中近似复杂的映射,从而使它们能够推广到它们未明确训练的环境、任务和条件的变化。虽然视频是加速数倍后的效果,但是展示依然令人震撼。
▍波士顿动力
无独有偶,波士顿动力公司的人形机器人Atlas近期也展示了人形机器人自主化作业能力(Fully Autonomous)。该公司最近让 Atlas 在模拟工厂环境中“在供应集装箱和移动排序推车之间”移动发动机盖。波士顿动力公司在整个过程的视频中添加了“完全自主”水印,以强调机器人只接受极少的人为干预。
虽然有观点认为其这套基于点的规划器严重依赖于机器人及其环境的预定义模型,而且只能解决特定的、定义明确的任务,泛化能力也有限,因为无法在不重新校准模型的情况下适应看不见或不断变化的环境,如果环境发生变化(例如,新的障碍物、不同的地形),基于点的规划器可能需要重新调整甚至完全重新制定其模型,导致响应速度变慢,且容易出现局部最小值。
但这种方法其实更接近工业环境中的真正自动化需求,即在某个相对标准化的工位上,以一个任务或者方向为导向,机器人能够使用环境和任务变化,调整各种身体动作,调用各类工具完成任务。波士顿动力表示,与其他经常依赖预先编写的动作的机器人截然不同,得益于该机器人新的机器学习能力和升级的传感器,它只需要被告知“移动零件的箱子位置列表”即可完成任务,这就是自主化机器人的魅力。
Atlas的自主化实现方式从工程原理上来说同样并不复杂,就是感知系统,决策系统和执行系统的配合运转,也就是“眼”“脑”“手”协同。Atlas的感知系统是使用机器学习 (ML) 视觉模型来检测和定位环境,同时使用专门的抓取策略,所有动作在线自动生成,此后,机器人能够使用视觉、力和本体感受传感器的组合来检测并对环境变化(例如,移动固定装置)和动作故障(例如,无法插入盖子、绊倒、环境碰撞)做出反应。
这其中的难点在于,Atlas 必须分析获取的信息并给决策的决策系统,类似人的大脑,自己找出完成该任务的所有单个步骤,这包括机器人能找到每个箱子的位置,确定如何移动手臂、腿和其他身体部位以执行任务的所有步骤,然后将这些步骤串联,也就是任务逻辑链的构建。
同时,自主化机器人需要执行系统有解决随机性困难和意外的能力。由于Atlas 功能的核心是波士顿动力公司设计的一套先进传感器,这使得Atlas 只需要使用深度传感器观察周围环境,生成环境点云,从而就使其能够将工作场景形成一个较为标准化的环境。同时,Atlas 结合使用视觉、力和本体感受传感器,可以实时检测和响应环境变化,从而根据决策进行动作的执行系统,应对移动固定装置和错位的零件,实现实时适应性,做到完全自主地工作。
在移动和作业执行方式上,我们看到Atlas 机器人的突出特点之一是效率。这源于该机器人配备了强大的各类执行器,例如腿部执行器可以使其下蹲,腰部执行器使它能够腰部平稳旋转并以惊人的精度执行动作。在工厂车间这种快节奏的环境中,每一秒都至关重要,在这个视频中,波士顿动力公司尝试展示如何优化 Atlas 的动作以快速执行任务。
因为Atlas以一种人类很难做到的扭曲躯干、颈部、臀部和肩关节的怪异方式来工作,这种方式在工厂或许是相较人类移动而言一种聪明而有效的移动方式,有点类似工业机器人的作业方式,仅上半部分保持旋转,再去执行下半部分的移动。
这种动态能力意味着 Atlas能够实现低级控制,不仅遵循预设程序,其实还能处理环境中的意外变化,仅需利用算法来预测机器人的动态运动将如何随时间演变,然后约束部分执行机构,实时进行相应位姿调整,即可完成不同的动作。对于注重速度和准确性的行业来说,这种机构灵活性是一个更有吸引力的选择。
值得一提的是,在这个工作视频中,观众能听到背景中的嘈杂声音,从而证明这是真实的工厂环境,再加上发布机器人故障的花絮视频,让波士顿动力的视频比那些经过修饰的产品宣传视频更能够吸引注意力,因为这种方式也比模仿学习的迁移效果更为真实。
众所周知,波士顿动力公司过去主要将其突破性的人形机器人投入科学研究,但随着特斯拉、Figure、Agility等公司和许多其他公司都希望扩大人形机器人的大规模生产,款新 Atlas 其实也开始走向商业部署,而且进展非常迅猛。
作为最早采用自动化技术的行业之一,汽车行业为波士顿动力公司磨练 Atlas 机器人的技能提供了天然的试验场。波士顿动力公司与现代和丰田的合作关系使 Atlas能够很快进入汽车工厂,而波士顿动力公司最近与丰田研究所的合作可能会为 Atlas 带来更先进的机器学习能力,进一步扩大 Atlas 的自主操作能力,这加大了人们对于这类自主化机器人的期待。
▍宇树科技
近日,宇树科技也展示加入AI能力后优化机器人自主步态的视频。宇树采取基于端到端深度强化学习和仿真训练的技术路线,可快速升级迭代。机器人能够使用端到端模型,并基于视觉和深度传感器实时感知楼梯的几何结构,动态处理环境中的不确定因素,同能进行精确的步态规划和实时位姿调整。
业界猜测最新视频展示中,宇树已经采用了英伟达全新发布的HOVER,这个1.5M参数的神经网络控制器,能用于机器人的全身运动和操作协调,能实现超高仿真学习速度,在一块GPU卡上仅花费了大约50分钟的真实时间,神经网络无需微调即可零样本迁移到现实世界。
同时,HOVER简化了收集全身遥控操作数据的方式,以便于训练,且作为一个上游的视觉-语言-动作模型,只要提供运动指令,HOVER就能将其转换为高频的低级电机信号,使得人形机器人的步态更加优化,甚至让机器狗能做出各类诡异的动作,加快了宇树出视频的速度。
▍结语与未来
由于人形机器人旨在进入为人类建造的环境中运行,例如家庭、工厂、办公室和城市空间。高度自主化人形机器人将能够更自然地在这些环境中导航,凭借自主性,它们可以无缝地穿过门、爬楼梯或与为人类设计的物体互动,并执行广泛的任务。例如协助老年人护理、进行维修或运送货物,而无需人工干预,仅需一个目标。这意味着自主化机器人能够真正复制人类的多功能性,使机器人能够处理人类每天遇到的许多不可预测和多样化的场景,并在条件多变、不确定或不熟悉的非结构化环境中工作。
虽然目前不同自主化的机器人方案依然存在着各类瓶颈,目前的自主化人形机器人大多仍然还需要依靠高质量传感器、视觉和机器学习算法来评估周围环境、识别障碍物并即时做出决策,模仿人类的适应性,并且依靠大量的反复训练和模仿学习,才能借助强化学习不断提高在动态环境中的技能,但恰恰是这种自主化路径的实施,使得人类真正看到了机器人自主决策和学习可扩展性的价值,使人形机器人有望成为未来劳动力需求的高性价比解决方案。