Physical Intellience 的联创 Chelsea Finn 谈到强化学习用在机器人上的困境:「很多情况下,我们没办法确定奖励函数是什么。」
...别说机器人了,我感觉强化学习用在智驾上,奖励函数都不好定义。一直在变化的开放动态环境中,又要定义高层次战略「到达目的地」,又要定义低层次操作「在不违反交规的情况下融入交通、启停舒适、保持安全车距」...
而且所有这一切是连续实时的,几乎没有容错空间,进一步增加了计算挑战。
Physical Intellience 的联创 Chelsea Finn 谈到强化学习用在机器人上的困境:「很多情况下,我们没办法确定奖励函数是什么。」
...别说机器人了,我感觉强化学习用在智驾上,奖励函数都不好定义。一直在变化的开放动态环境中,又要定义高层次战略「到达目的地」,又要定义低层次操作「在不违反交规的情况下融入交通、启停舒适、保持安全车距」...
而且所有这一切是连续实时的,几乎没有容错空间,进一步增加了计算挑战。
作者最新文章
热门分类
汽车TOP
汽车最新文章