8月12日凌晨,2024年巴黎奥运会闭幕,中国体育代表团收获40金27银24铜,圆满收官!其中最受关注的赛事之一,中国乒乓球队也以5金1银创造下了新的历史。
此时,大洋彼岸的美国公司谷歌旗下“深层思维”宣布,公司研发团队开发出一款乒乓球机器人,可在比赛中达到人类业余乒乓球选手的水平,标志着人工智能在体育运动领域的又一重大突破。
该公司研发团队在预印本网站arXiv上发文介绍,这是第一个在竞技乒乓球中达到业余人类水平表现的学习型Robot Agent机器人(智能体)。
研发团队找来了29 名不同技能水平的乒乓球选手与其进行比赛,包括初学者、中级、高级和高级以上。该机器人在与人类进行的29场比赛中,机器人赢得13场,胜率为45%。按技能水平细分,机器人输掉了所有与高级选手的比赛,但赢得了所有与初级选手的比赛以及55%与中级选手的比赛,这也意味着该机器人已经达到了人类的中级水平。
与棋盘上的“人机大战”AlphaGo不同,乒乓球有别于国际象棋、围棋等纯战略游戏。乒乓球对运动员体力、实时的决策能力、比赛时快速的眼手协调和高层次策略等要求都很高,需要人类运动员经过多年的训练才能达到高级水平。因此,乒乓球机器人也成为了检验机器人综合能力的又一重要标尺,但到目前为止还没有机器人与未见过的人类对手进行完整乒乓球比赛。
在这项研究中, 谷歌研究员采用了分层模块化策略架构,测试模型在物理环境中与未见过人类进行实际比赛。
该机器人智能体由一个LLC(低级技能库)和选择最有效技能的HLC(高级控制器)组成。每个LLC都专注于乒乓球的某个特定方面,例如正手上旋球、反手瞄准或正手发球。除了训练策略本身之外,还在线下和线上收集和存储有关每个低级技能的优势、劣势和局限性的信息。由此产生的技能描述符为机器人提供了有关其能力和缺点的重要信息。
HLC(高级控制器)负责制定战略决策,会实时跟踪比赛统计数据,根据当前比赛情况选择最佳技能(LLC)。比如,每次击球后,HLC会首先对当前的击球状态选择风格策略,以决定用哪个LLC回球。
该方法是收集了从人类与人类比赛数据中初始球状态数据,并在模拟环境中训练 LLC 和 HLC。然后将模拟训练生成的数据添加到真实世界数据集中,并重复这个过程,逐步完善训练任务分布。此外,在训练过程中,还对模拟环境中的观察噪声、延迟、球台和球拍阻力、摩擦等参数进行随机化,以模拟真实世界中的不确定性。
正如研究团队所说,这一机器人学习系统仍存在一些局限性,例如对快速球和低球的反应能力有限、旋转检测精度低、缺乏多球策略战术等。
不过,和该机器人比赛的选手们倒是给予了该机器人高度评价。他们绝大多数的回答都是“绝对愿意”再次与机器人一起玩。高级选手们虽然能很快发现机器人策略中的弱点,但他们仍然乐在其中。在赛后采访中,他们发现它有潜力成为比投球者更有活力的练习对象。
事实上,AI乒乓球机器人早已有所运用。2020年,中国乒乓球学院里就迎来了一名特殊的“国家队教练”——绰号“庞教练”,又称“庞伯特”的多球训练机器人,其也是世界上第一个手执球拍发球的机器人。
据悉,庞伯特有两条机械臂,一个用于抛球,一个用于击打, 还原了真人的发球动作,还能通过球拍快换模拟不同的打法风格。在训练中,一个机器人还可以同时负责三名球员,还会针对不同层次人群进行不同等级的训练。它的人工智能算法还能够分析乒乓球运动轨迹,捕捉运动员的姿态,然后给出反馈指令,优化球员打球姿势。同时,算法也会根据运动员的表现,对课程难易进行智能调节。训练的数据会同步至云端,可在各终端实时展现,方便教练和球员自己了解自我实力,为国球的教学、训练带来了诸多益处。
由此可见,乒乓球竞技机器人的研发并非是为了在球桌上战胜人类,更是提升人类水平的好助手,同时也能带动体育人工智能的发展,弥补体育教育师资不足等问题。
此外,这也是机器人技术向更广泛领域拓展的重要尝试。并且除了打乒乓球之外,这个项目开发的技术还可以帮助提升机器人的实际应用能力,助力于更广泛的机器人应用。不限于从制造业到医疗保健等各行各业的潜在应用。