论文阅读
记录大学期间读过的一些论文,涵盖机器人、强化学习、模仿学习、3D 视觉与世界模型等方向。
共 47 篇笔记,用心写下的每一页
共 14 篇文章
记录大学期间读过的一些论文,涵盖机器人、强化学习、模仿学习、3D 视觉与世界模型等方向。
RSS 2020 论文,DeepMimic 的真机续作:把动作捕捉先验从仿真特技搬到真实 Laikago 四足上,核心解决域差距与硬件磨损下的部署问题。
AMP 的进阶版:用多个判别器分别建模不同风格(站立/行走/坐下等),让机器人按指令精确切换风格,并安全完成'坐下'这种传统 RL 难调参的高风险动作。
IROS 2022 论文 AMP:用判别器学习'是否像参考动作'的对抗信号,替代工程师手写的复杂奖励函数,让四足以自然步态学会运动。
MoE-Loco 用 Mixture of Experts 架构破解强化学习'多任务负迁移'的老问题,在 Actor-Critic 中引入门控专家,让单一策略同时精通行走、跑跳、攀爬等多种任务。
PIE 让低成本四足(如 Lite3)仅靠不可靠深度相机就能完成跨沟跳跃、高台攀爬等高难度跑酷动作,核心在于'想象式本体感知'弥补视觉退化时的环境建模。
RSS 2021 论文 RMA:两阶段训练让四足机器人在线适应真实世界的不可预测物理(打滑、负载变化、电机磨损),实现毫秒级的快速运动自适应。
ICRA 2023 论文 DreamWaQ:用纯本体感知信号配合上下文估计的隐式世界模型,让四足在不依赖视觉的前提下应对突发干扰与未知地形。
SIGGRAPH 2018 论文 DeepMimic:把动作捕捉数据作为强约束奖励,结合 PPO + RSI + ET 训练物理仿真角色完成后空翻、回旋踢等高难度动作。
从 Model-based 走向 Model-free:用蒙特卡洛采样估计动作价值,介绍 MC Basic、Exploring Starts 与 ε-Greedy 等同策略 MC 方法。
求解 Bellman 最优方程的两条经典路径:Value Iteration 直接迭代 Bellman 算子,Policy Iteration 在策略评估与改进之间交替,并讨论二者的等价性与收敛性。
Bellman 最优方程及其压缩映射性质,Banach 不动点定理保证收敛唯一解,以及最优策略的存在性。
从回报的递推性出发推导 Bellman 方程:状态价值函数的定义、矩阵形式的封闭解,以及策略评估在 MDP 上的意义。
以方格世界为例,构建强化学习的基础数学框架:状态、动作、奖励、状态转移、策略、轨迹与回报,以及引入折扣率后的折扣回报,最终统一为马尔可夫决策过程(MDP)。