Blog

文章

共 53 篇笔记,用心写下的每一页

当前筛选：

论文阅读

记录大学期间读过的一些论文,涵盖机器人、强化学习、模仿学习、3D 视觉与世界模型等方向。

约 60 字1 min read

论文阅读2026-04-18

Imitating Animals: 从动物模仿到真实四足敏捷运动

RSS 2020 论文,DeepMimic 的真机续作:把动作捕捉先验从仿真特技搬到真实 Laikago 四足上,核心解决域差距与硬件磨损下的部署问题。

约 3,284 字17 min read

论文阅读2026-04-17

Multi-AMP: 多重对抗动作先验学习高级技能

AMP 的进阶版:用多个判别器分别建模不同风格(站立/行走/坐下等),让机器人按指令精确切换风格,并安全完成'坐下'这种传统 RL 难调参的高风险动作。

约 1,181 字7 min read

论文阅读2026-04-16

AMP: 对抗动作先验替代复杂奖励函数

IROS 2022 论文 AMP:用判别器学习'是否像参考动作'的对抗信号,替代工程师手写的复杂奖励函数,让四足以自然步态学会运动。

约 1,405 字8 min read

论文阅读2026-04-15

MoE-Loco: 多任务腿足运动的专家混合架构

MoE-Loco 用 Mixture of Experts 架构破解强化学习'多任务负迁移'的老问题,在 Actor-Critic 中引入门控专家,让单一策略同时精通行走、跑跳、攀爬等多种任务。

约 1,183 字7 min read

论文阅读2026-04-14

PIE: Proprioception with Imagination for Parkour

PIE 让低成本四足(如 Lite3)仅靠不可靠深度相机就能完成跨沟跳跃、高台攀爬等高难度跑酷动作,核心在于'想象式本体感知'弥补视觉退化时的环境建模。

约 751 字4 min read

论文阅读2026-04-13

RMA: Rapid Motor Adaptation for Legged Robots

RSS 2021 论文 RMA:两阶段训练让四足机器人在线适应真实世界的不可预测物理(打滑、负载变化、电机磨损),实现毫秒级的快速运动自适应。

约 1,124 字6 min read

论文阅读2026-04-12

DreamWaQ: 纯本体感知的四足鲁棒行走

ICRA 2023 论文 DreamWaQ:用纯本体感知信号配合上下文估计的隐式世界模型,让四足在不依赖视觉的前提下应对突发干扰与未知地形。

约 1,613 字8 min read

论文阅读2026-04-10

DeepMimic: 从动作捕捉数据学习物理仿真角色技能

SIGGRAPH 2018 论文 DeepMimic:把动作捕捉数据作为强约束奖励,结合 PPO + RSI + ET 训练物理仿真角色完成后空翻、回旋踢等高难度动作。

约 6,371 字33 min read

强化学习2026-02-12

Lec5: Monte Carlo Learning

从 Model-based 走向 Model-free:用蒙特卡洛采样估计动作价值,介绍 MC Basic、Exploring Starts 与 ε-Greedy 等同策略 MC 方法。

约 2,082 字10 min read

强化学习2026-02-05

Lec4: Value Iteration & Policy Iteration

求解 Bellman 最优方程的两条经典路径:Value Iteration 直接迭代 Bellman 算子,Policy Iteration 在策略评估与改进之间交替,并讨论二者的等价性与收敛性。

约 1,435 字7 min read

强化学习2026-01-29

Lec3: Bellman Optimality Equation

Bellman 最优方程及其压缩映射性质,Banach 不动点定理保证收敛唯一解,以及最优策略的存在性。

约 1,710 字8 min read

强化学习2026-01-22

Lec2: Bellman Equation

从回报的递推性出发推导 Bellman 方程:状态价值函数的定义、矩阵形式的封闭解,以及策略评估在 MDP 上的意义。

约 1,825 字8 min read

强化学习2026-01-15

Lec1: Basic Concepts in Reinforcement Learning

以方格世界为例,构建强化学习的基础数学框架:状态、动作、奖励、状态转移、策略、轨迹与回报,以及引入折扣率后的折扣回报,最终统一为马尔可夫决策过程(MDP)。

约 2,033 字10 min read

文章

Categories

Tags

论文阅读

Imitating Animals: 从动物模仿到真实四足敏捷运动

Multi-AMP: 多重对抗动作先验学习高级技能

AMP: 对抗动作先验替代复杂奖励函数

MoE-Loco: 多任务腿足运动的专家混合架构

PIE: Proprioception with Imagination for Parkour

RMA: Rapid Motor Adaptation for Legged Robots

DreamWaQ: 纯本体感知的四足鲁棒行走

DeepMimic: 从动作捕捉数据学习物理仿真角色技能

Lec5: Monte Carlo Learning

Lec4: Value Iteration & Policy Iteration

Lec3: Bellman Optimality Equation

Lec2: Bellman Equation

Lec1: Basic Concepts in Reinforcement Learning

文章

Categories

Tags

论文阅读

Imitating Animals: 从动物模仿到真实四足敏捷运动

Multi-AMP: 多重对抗动作先验学习高级技能

AMP: 对抗动作先验替代复杂奖励函数

MoE-Loco: 多任务腿足运动的专家混合架构

PIE: Proprioception with Imagination for Parkour

RMA: Rapid Motor Adaptation for Legged Robots

DreamWaQ: 纯本体感知的四足鲁棒行走

DeepMimic: 从动作捕捉数据学习物理仿真角色技能

Lec5: Monte Carlo Learning

Lec4: Value Iteration & Policy Iteration

Lec3: Bellman Optimality Equation

Lec2: Bellman Equation

Lec1: Basic Concepts in Reinforcement Learning