论文阅读
IROS 2022 论文 AMP:用判别器学习'是否像参考动作'的对抗信号,替代工程师手写的复杂奖励函数,让四足以自然步态学会运动。

作者引入了 AMP 技术,把奖励函数拆成了两部分:

这张图展示了 AMP 系统是如何像教学生一样训练机器狗的。我们可以把它分为三个部分来看:
Adversarial Motion Priors (AMP)
这是一种基于生成对抗网络 (GAN) 思想的技术 。它用一个判别器来替代人工设计的复杂物理约束奖励。它把“什么样的动作是自然的”这个问题,转化成了“让判别器认为是真的”这个问题
能量效率对比 (Cost of Transport, COT):
步态转换机制 (Gait Transitions):
真实世界的鲁棒性:
Written by
Comments