世界は優しい
首页博客关于

Site

世界は優しい

世界很温柔,我们都在努力变得更好。

Navigation

  • 首页
  • 博客
  • 关于

Connect

  • GitHub
  • 作者

© 2026 ZZC. 本站内容以 CC BY-NC-SA 4.0 协议发布。

Built with Next.js · Tailwind CSS

Folders

课程介绍与评分Lec1: IntroductionLec2: Lexical AnalysisLec3: ParsingLec4: Abstract SyntaxLec5: Semantic AnalysisLec6: Activation RecordsLec7: Translate to Intermediate CodeLec8: Basic Blocks and TracesLec9: 指令选择Lec10: Liveness Analysis
Lec0: 课程介绍与成绩Lec1: IntroductionLec2: Operating-System StructuresLec3: ProcessesLec4: Threads(多线程编程)Lec5: CPU SchedulingLec6: 进程同步Lec7: DeadlocksLec8: Main MemoryLec9: Virtual MemoryLec10: File-System InterfaceLec11: File System ImplementationLec12: Mass-Storage System
Lec1: Basic Concepts in Reinforcement LearningLec2: Bellman EquationLec3: Bellman Optimality EquationLec4: Value Iteration & Policy IterationLec5: Monte Carlo Learning
首页
ManiGaussian 论文笔记ManiGaussian++ 论文笔记
AMP: 对抗动作先验替代复杂奖励函数DeepMimic: 从动作捕捉数据学习物理仿真角色技能DreamWaQ: 纯本体感知的四足鲁棒行走Imitating Animals: 从动物模仿到真实四足敏捷运动MoE-Loco: 多任务腿足运动的专家混合架构Multi-AMP: 多重对抗动作先验学习高级技能PIE: Proprioception with Imagination for ParkourRMA: Rapid Motor Adaptation for Legged Robots
论文阅读
Lec1: 五十音Lec2: 日语声调Lec3: 浊音和长音
Callout 语法速查
Hello World - 我的第一篇博客
Typora 语法兼容性测试
首页博客Paper-ReadingRobotsMoE-Loco: 多任务腿足运动的专家混合架构

论文阅读

MoE-Loco: 多任务腿足运动的专家混合架构

MoE-Loco 用 Mixture of Experts 架构破解强化学习'多任务负迁移'的老问题,在 Actor-Critic 中引入门控专家,让单一策略同时精通行走、跑跳、攀爬等多种任务。

2026 年 04 月 15 日/7 min read/ZZCZZC
#论文阅读#强化学习#四足机器人#专家混合

概览

这篇论文《MoE-Loco: Mixture of Experts for Multitask Locomotion》解决了一个强化学习领域的长期难题:多任务负迁移。通常一个神经网络如果同时学太多任务,各项任务表现都会下降。

MoE-Loco 通过引入 Mixture of Experts (MoE) 架构,实现了"博而精"。以下是其四个维度的详细创新点解析:

1. 架构创新:MoE 引入 Actor-Critic 框架

这是论文最底层的核心创新。传统的运动控制通常使用简单的多层感知机(MLP)作为策略网络,所有任务共享同一组参数,导致“有的任务想往左更新梯度,有的想往右”,互相打架。

  • 模块化动态路由: 作者在 Actor(策略网络)和 Critic(价值网络)中都引入了 MoE 层。

    • 门控网络 (Gating Network): 类似于一个“指挥官”,它根据当前的机器人状态 hth_tht​,动态计算出每个专家的权重 gig_igi​。

    • 专家网络 (Experts): 包含多个(本实验为 6 个)独立的小型神经网络,每个专家只负责处理特定的运动特征。

  • 一致性设计: Actor 和 Critic 共享同一个门控网络,确保了策略评估和动作生成在“理解当前任务”上的一致性。

2. 优化机理:量化并解决了“梯度冲突”

很多论文只说“多任务难训练”,但这篇论文从数学角度证明了 MoE 为什么有效。

  • 梯度冲突量化 (Gradient Conflict Alleviation): 作者定义了两个指标来衡量冲突:

    1. 余弦相似度 (Cosine Similarity): 衡量不同任务的梯度方向是否一致。

    2. 负梯度比率 (Negative gradient ratio): 衡量一个任务的更新是否损害了另一个任务。

  • 实验证明:

    • 在标准 MLP 策略中,四足任务(如爬行)和 双足任务(如直立行走)之间的梯度冲突非常严重(余弦相似度极低,甚至为负)。

    • 引入 MoE 后,梯度冲突显著降低。门控网络自动把冲突的任务“分流”给了不同的专家,实现了物理层面的解耦。

3. 能力突破:单策略统一“跨形态”步态

以往的论文(如 RMA)通常只解决“一种形态下的多种地形”(比如都是四足走路,只是路况不同)。MoE-Loco 实现了更高维度的统一:

  • 跨形态统一 (Cross-Morphology): 一个策略网络同时掌握了 四足步态 (Quadrupedal) 和 双足步态 (Bipedal)。

  • 全地形覆盖: 涵盖了 9 种高难度任务,包括跨栏 (Bar)、过坑 (Pit)、钻挡板 (Baffle)、爬楼梯 (Stair)、走斜坡 (Slope) 等。

  • 盲视条件 (Blind Locomotion): 依然沿用了 Sim-to-Real 的强鲁棒性设计,仅依靠本体感知(Proprioception)就能完成上述任务,无需视觉传感器。

4. 可解释性与技能涌现 (Interpretability & Composition)

这是论文中最具“极客精神”和启发性的部分。传统的端到端 RL 是个黑盒,你不知道网络内部发生了什么。但在 MoE-Loco 中,技能变得可解释、可操控。

  • 专家自动分工 (Expert Specialization):

    • 不需要人为给专家贴标签,它们在训练中自发形成了分工。

    • t-SNE 可视化显示,双足任务和四足任务激活了截然不同的专家簇;而相似的任务(如四足斜坡和四足过坑)则共享了相似的专家。

  • 零样本技能重组 (Zero-shot Skill Composition) - "带球"案例:

    • 发现: 研究者发现某个专家擅长“保持平衡”(身体抬高,不灵活),另一个专家擅长“跨步”(抬起前腿)。

    • 创造: 研究者手动修改门控权重,强制融合这两个专家。结果,机器人在完全没有训练过踢球的情况下,直接学会了一种“一边维持平衡行走,一边有节奏抬前腿踢球”的 Dribbling(带球) 步态 14141414。

    • 这是一个非常强有力的证据,证明 MoE 学到的不仅是动作,而是可复用的物理原语 (Physical Primitives)。

  • 快速适应新形态 (Adaptation): 当面对“三条腿走路”(模拟腿部损坏)的新任务时,MoE 架构允许冻结旧专家(保留已有能力),仅训练一个新专家来处理异常,从而极快地适应新形态。

总结

MoE-Loco 的核心创新不在于发明了 MoE(MoE 在 NLP 领域很常见),而在于成功地将 MoE 机制迁移到了对物理动力学要求极高的机器人控制领域,并证明了它能有效解决多任务 RL 中的梯度冲突问题,同时带来了意想不到的技能可解释性和组合性。

ZZC

Written by

ZZC
每天研究怎么摸鱼的神人

Comments

评论功能即将上线

On this page

  • 概览
  • 1. 架构创新:MoE 引入 Actor-Critic 框架
  • 2. 优化机理:量化并解决了“梯度冲突”
  • 3. 能力突破:单策略统一“跨形态”步态
  • 4. 可解释性与技能涌现 (Interpretability & Composition)
  • 总结