论文阅读
ICRA 2023 论文 DreamWaQ:用纯本体感知信号配合上下文估计的隐式世界模型,让四足在不依赖视觉的前提下应对突发干扰与未知地形。


核心目的:联合估计身体状态与环境特征
面对问题 (Problem): 传统的做法通常将“状态估计”(我跑多快?)和“环境识别”(地滑不滑?)分开处理。但论文认为这两者是高度耦合的(例如:地滑会导致跑不快),分开估计效率低且不准 。
目标与思路 (Goal): 构建一个 上下文辅助估计网络 (CENet)。它是一个共享编码器的多任务网络,利用 自动编码器 (Auto-encoder/VAE) 机制,联合学习 (Jointly Learn) 身体速度和环境潜变量 。
输入 (Input):
过程 (Process): CENet 包含一个共享编码器和两个分支:
输出 (Output):

核心目的:通过非对称信息差实现隐式地形想象
| 对比维度 | 非对称 Actor-Critic (DreamWaQ 采用) | 传统“老师-学生”架构 (RMA 类) |
|---|---|---|
| 核心逻辑 | 名师指路 (探索) | 照猫画虎 (模仿) |
| 训练流程 | 单阶段并发 (One-Stage) 策略和评价网络同时训练,效率高。 | 双阶段串行 (Two-Stage) 先练好老师,再让学生去模仿老师的行为。 |
| 信息来源 | Critic (评价者) 拥有特权信息,给 Actor (学生) 打分。 | Teacher (老师) 拥有特权信息,直接把动作演示给 Student (学生) 看。 |
| 学生能力 | 无上限 学生可能通过探索找到比老师更好的解法。 | 受限于老师 学生的表现很难超过老师 (Behavior Cloning bounds)。 |
| 感知方式 | 隐式想象 为了拿高分,被迫学会“脑补”地形特征。 | 显式回归/模仿 试图逼近老师的动作或环境参数。 |
Written by
Comments