世界は優しい
首页博客关于

Site

世界は優しい

世界很温柔,我们都在努力变得更好。

Navigation

  • 首页
  • 博客
  • 关于

Connect

  • GitHub
  • 作者

© 2026 ZZC. 本站内容以 CC BY-NC-SA 4.0 协议发布。

Built with Next.js · Tailwind CSS

Folders

课程介绍与评分Lec1: IntroductionLec2: Lexical AnalysisLec3: ParsingLec4: Abstract SyntaxLec5: Semantic AnalysisLec6: Activation RecordsLec7: Translate to Intermediate CodeLec8: Basic Blocks and TracesLec9: 指令选择Lec10: Liveness Analysis
Lec0: 课程介绍与成绩Lec1: IntroductionLec2: Operating-System StructuresLec3: ProcessesLec4: Threads(多线程编程)Lec5: CPU SchedulingLec6: 进程同步Lec7: DeadlocksLec8: Main MemoryLec9: Virtual MemoryLec10: File-System InterfaceLec11: File System ImplementationLec12: Mass-Storage System
Lec1: Basic Concepts in Reinforcement LearningLec2: Bellman EquationLec3: Bellman Optimality EquationLec4: Value Iteration & Policy IterationLec5: Monte Carlo Learning
首页
ManiGaussian 论文笔记ManiGaussian++ 论文笔记
AMP: 对抗动作先验替代复杂奖励函数DeepMimic: 从动作捕捉数据学习物理仿真角色技能DreamWaQ: 纯本体感知的四足鲁棒行走Imitating Animals: 从动物模仿到真实四足敏捷运动MoE-Loco: 多任务腿足运动的专家混合架构Multi-AMP: 多重对抗动作先验学习高级技能PIE: Proprioception with Imagination for ParkourRMA: Rapid Motor Adaptation for Legged Robots
论文阅读
Lec1: 五十音Lec2: 日语声调Lec3: 浊音和长音
Callout 语法速查
Hello World - 我的第一篇博客
Typora 语法兼容性测试
首页博客Paper-ReadingRobotsPIE: Proprioception with Imagination for Parkour

论文阅读

PIE: Proprioception with Imagination for Parkour

PIE 让低成本四足(如 Lite3)仅靠不可靠深度相机就能完成跨沟跳跃、高台攀爬等高难度跑酷动作,核心在于'想象式本体感知'弥补视觉退化时的环境建模。

2026 年 04 月 14 日/4 min read/ZZCZZC
#论文阅读#强化学习#四足机器人#机器人跑酷

核心挑战(研究目标)

PIE 旨在解决 低成本四足机器人(如 Deep Robotics Lite3)在仅配备不可靠深度相机的情况下,如何实现高难度的跑酷运动(如跳跃 3倍身长的沟壑、攀爬 3倍身高的台阶) 的问题。

现有的机器人跑酷方法存在以下痛点:

  • 感知不可靠: 跑酷需要极其精准的地形感知(特别是在边缘起跳时)。低成本深度相机存在延迟、噪声和视场限制,直接用它来显式重建地形往往不够可靠。
  • 训练复杂: 许多现有方法(如 RMA 的某些变体)采用“两阶段”训练(先练老师再练学生),流程繁琐且存在信息损失。
  • 性能受限: 为了防止因感知误差导致的摔倒,很多算法会限制机器人的运动能力,导致无法发挥其物理极限(比如不敢跳得太远)。

创新点

双层隐式-显式估计器 (Dual-Level Implicit-Explicit Estimator)

image-20251230141850223

  • 面临问题
    • 单一感知不可靠: 深度相机有延迟、噪声和盲区(如脚下),直接画地图(显式)容易出错 。
    • 盲走上限低: 仅靠本体感知(隐式)无法预判远处障碍(如深沟),无法提前蓄力 。
  • 目标
    • 双重理解: 同时获取环境的“显式几何形状”(地图)和“隐式物理特性”(未来预测)。
    • 鲁棒融合: 通过时序记忆和多模态融合,在视觉失效时能退回本体感知。
  • 输入
    • 时序深度图像 (dtH2d_t^{H_2}dtH2​​):最近 2 帧的深度图堆叠。
    • 时序本体感知 (otH1o_t^{H_1}otH1​​):最近 10 帧的关节/IMU数据。
  • 过程与方程
    • 特征融合: 使用 Transformer 融合视觉与触觉特征,再送入 GRU 生成包含记忆的状态编码 。
    • 双层估计机制:
      • 理解层: 同时重构 地形高度图 m^t\hat{m}_tm^t​(显式看见)和 下一时刻本体状态 o^t+1\hat{o}_{t+1}o^t+1​(隐式预测未来)。
      • 表达层: 同时输出 显式物理量(速度 v^t\hat{v}_tv^t​、足间隙 h^tf\hat{h}_t^fh^tf​)和 隐式潜变量(zt,ztmz_t, z_t^mzt​,ztm​)。
    • 损失方程:
      • L=DKL(q∣∣p)⏟VAE正则+MSE(o^t+1,ot+1)⏟隐式预测+MSE(m^t,mt)⏟显式地图+MSE(v^t,vt)+MSE(h^tf,htf)⏟显式物理量\mathcal{L} = \underbrace{D_{KL}(q||p)}_{\text{VAE正则}} + \underbrace{MSE(\hat{o}_{t+1}, o_{t+1})}_{\text{隐式预测}} + \underbrace{MSE(\hat{m}_t, m_t)}_{\text{显式地图}} + \underbrace{MSE(\hat{v}_t, v_t) + MSE(\hat{h}_t^f, h_t^f)}_{\text{显式物理量}}L=VAE正则DKL​(q∣∣p)​​+隐式预测MSE(o^t+1​,ot+1​)​​+显式地图MSE(m^t​,mt​)​​+显式物理量MSE(v^t​,vt​)+MSE(h^tf​,htf​)​​
  • 输出 (给 Actor)
    • v^t\hat{v}_tv^t​ (线速度)、h^tf\hat{h}_t^fh^tf​ (足间隙)、ztmz_t^mztm​ (地形编码)、ztz_tzt​ (环境潜变量) 。

单阶段非对称训练框架 (One-Stage Asymmetric Framework)

为将两阶段训练范式简化为单阶段,采用了非对称的 actor-critic 架构:

  • 面临问题
    • 两阶段低效: “先练老师、后练学生”的流程复杂,且学生模仿老师时存在信息损失,性能被老师锁死 。
    • 多技能整合难: 很难设计一个奖励函数能同时兼顾跑、跳、爬等多种动作 。
  • 目标
ZZC

Written by

ZZC
每天研究怎么摸鱼的神人

Comments

评论功能即将上线

On this page

  • 核心挑战(研究目标)
  • 创新点
  • 双层隐式-显式估计器 (Dual-Level Implicit-Explicit Estimator)
  • 单阶段非对称训练框架 (One-Stage Asymmetric Framework)