论文阅读
RSS 2021 论文 RMA:两阶段训练让四足机器人在线适应真实世界的不可预测物理(打滑、负载变化、电机磨损),实现毫秒级的快速运动自适应。
RMA = Rapid Motor Adaptation


Input:
核心组件与过程 (Process):

Inputs
核心组件与过程 (Process):
适应模块 (): 一个基于 1-D CNN(一维卷积神经网络)的模型,擅长处理时间序列数据。
监督学习 (Supervised Learning): 这是一个回归任务。
输出 (Output):
目的: 只要机器人感觉到“脚底打滑”或者“腿部沉重”(通过历史状态体现),适应模块就能推断出环境发生了变化,并生成对应的 ,从而能够在没有上帝视角的情况下复现专家的能力。

这是将模型应用到真实的 Unitree A1 机器人上。此时环境编码器 () 被丢弃,只保留策略 () 和适应模块 ( )。
| 阶段 | 核心公式/逻辑 | 关键点 |
|---|---|---|
| 阶段 1 | 利用特权信息 训练完美的 和策略。 | |
| 阶段 2 | Loss $= | |
| 部署 | 丢弃 和 ,用 实时生成的 来指导策略行走。 |
Written by
Comments