MoE-Loco: 多任务腿足运动的专家混合架构

概览

这篇论文《MoE-Loco: Mixture of Experts for Multitask Locomotion》解决了一个强化学习领域的长期难题:多任务负迁移。通常一个神经网络如果同时学太多任务,各项任务表现都会下降。

MoE-Loco 通过引入 Mixture of Experts (MoE) 架构,实现了"博而精"。以下是其四个维度的详细创新点解析:

这是论文最底层的核心创新。传统的运动控制通常使用简单的多层感知机（MLP）作为策略网络，所有任务共享同一组参数，导致“有的任务想往左更新梯度，有的想往右”，互相打架。

模块化动态路由：作者在 Actor（策略网络）和 Critic（价值网络）中都引入了 MoE 层。
- 门控网络 (Gating Network)：类似于一个“指挥官”，它根据当前的机器人状态 $h_t$ ，动态计算出每个专家的权重 $g_i$ 。
- 专家网络 (Experts)：包含多个（本实验为 6 个）独立的小型神经网络，每个专家只负责处理特定的运动特征。
一致性设计： Actor 和 Critic 共享同一个门控网络，确保了策略评估和动作生成在“理解当前任务”上的一致性。

很多论文只说“多任务难训练”，但这篇论文从数学角度证明了 MoE 为什么有效。

梯度冲突量化 (Gradient Conflict Alleviation)：作者定义了两个指标来衡量冲突：
1. 余弦相似度 (Cosine Similarity)：衡量不同任务的梯度方向是否一致。
2. 负梯度比率 (Negative gradient ratio)：衡量一个任务的更新是否损害了另一个任务。
实验证明：
- 在标准 MLP 策略中，四足任务（如爬行）和双足任务（如直立行走）之间的梯度冲突非常严重（余弦相似度极低，甚至为负）。
- 引入 MoE 后，梯度冲突显著降低。门控网络自动把冲突的任务“分流”给了不同的专家，实现了物理层面的解耦。

以往的论文（如 RMA）通常只解决“一种形态下的多种地形”（比如都是四足走路，只是路况不同）。MoE-Loco 实现了更高维度的统一：

跨形态统一 (Cross-Morphology)：一个策略网络同时掌握了四足步态 (Quadrupedal) 和双足步态 (Bipedal)。
全地形覆盖：涵盖了 9 种高难度任务，包括跨栏 (Bar)、过坑 (Pit)、钻挡板 (Baffle)、爬楼梯 (Stair)、走斜坡 (Slope) 等。
盲视条件 (Blind Locomotion)：依然沿用了 Sim-to-Real 的强鲁棒性设计，仅依靠本体感知（Proprioception）就能完成上述任务，无需视觉传感器。

这是论文中最具“极客精神”和启发性的部分。传统的端到端 RL 是个黑盒，你不知道网络内部发生了什么。但在 MoE-Loco 中，技能变得可解释、可操控。

专家自动分工 (Expert Specialization)：
- 不需要人为给专家贴标签，它们在训练中自发形成了分工。
- t-SNE 可视化显示，双足任务和四足任务激活了截然不同的专家簇；而相似的任务（如四足斜坡和四足过坑）则共享了相似的专家。
零样本技能重组 (Zero-shot Skill Composition) - "带球"案例：
- 发现：研究者发现某个专家擅长“保持平衡”（身体抬高，不灵活），另一个专家擅长“跨步”（抬起前腿）。
- 创造：研究者手动修改门控权重，强制融合这两个专家。结果，机器人在完全没有训练过踢球的情况下，直接学会了一种“一边维持平衡行走，一边有节奏抬前腿踢球”的 Dribbling（带球）步态 14141414。
- 这是一个非常强有力的证据，证明 MoE 学到的不仅是动作，而是可复用的物理原语 (Physical Primitives)。
快速适应新形态 (Adaptation)：当面对“三条腿走路”（模拟腿部损坏）的新任务时，MoE 架构允许冻结旧专家（保留已有能力），仅训练一个新专家来处理异常，从而极快地适应新形态。

MoE-Loco 的核心创新不在于发明了 MoE（MoE 在 NLP 领域很常见），而在于成功地将 MoE 机制迁移到了对物理动力学要求极高的机器人控制领域，并证明了它能有效解决多任务 RL 中的梯度冲突问题，同时带来了意想不到的技能可解释性和组合性。

MoE-Loco 通过引入 Mixture of Experts (MoE) 架构,实现了"博而精"。以下是其四个维度的详细创新点解析:

模块化动态路由：作者在 Actor（策略网络）和 Critic（价值网络）中都引入了 MoE 层。

一致性设计： Actor 和 Critic 共享同一个门控网络，确保了策略评估和动作生成在“理解当前任务”上的一致性。

很多论文只说“多任务难训练”，但这篇论文从数学角度证明了 MoE 为什么有效。

梯度冲突量化 (Gradient Conflict Alleviation)：作者定义了两个指标来衡量冲突：

实验证明：

以往的论文（如 RMA）通常只解决“一种形态下的多种地形”（比如都是四足走路，只是路况不同）。MoE-Loco 实现了更高维度的统一：

跨形态统一 (Cross-Morphology)：一个策略网络同时掌握了四足步态 (Quadrupedal) 和双足步态 (Bipedal)。

全地形覆盖：涵盖了 9 种高难度任务，包括跨栏 (Bar)、过坑 (Pit)、钻挡板 (Baffle)、爬楼梯 (Stair)、走斜坡 (Slope) 等。

盲视条件 (Blind Locomotion)：依然沿用了 Sim-to-Real 的强鲁棒性设计，仅依靠本体感知（Proprioception）就能完成上述任务，无需视觉传感器。

专家自动分工 (Expert Specialization)：

零样本技能重组 (Zero-shot Skill Composition) - "带球"案例：

发现：研究者发现某个专家擅长“保持平衡”（身体抬高，不灵活），另一个专家擅长“跨步”（抬起前腿）。
创造：研究者手动修改门控权重，强制融合这两个专家。结果，机器人在完全没有训练过踢球的情况下，直接学会了一种“一边维持平衡行走，一边有节奏抬前腿踢球”的 Dribbling（带球）步态 14141414。
这是一个非常强有力的证据，证明 MoE 学到的不仅是动作，而是可复用的物理原语 (Physical Primitives)。

快速适应新形态 (Adaptation)：当面对“三条腿走路”（模拟腿部损坏）的新任务时，MoE 架构允许冻结旧专家（保留已有能力），仅训练一个新专家来处理异常，从而极快地适应新形态。