世界は優しい
首页博客关于

Site

世界は優しい

世界很温柔,我们都在努力变得更好。

Navigation

  • 首页
  • 博客
  • 关于

Connect

  • GitHub
  • 作者

© 2026 ZZC. 本站内容以 CC BY-NC-SA 4.0 协议发布。

Built with Next.js · Tailwind CSS

Folders

课程介绍与评分Lec1: IntroductionLec2: Lexical AnalysisLec3: ParsingLec4: Abstract SyntaxLec5: Semantic AnalysisLec6: Activation RecordsLec7: Translate to Intermediate CodeLec8: Basic Blocks and TracesLec9: 指令选择Lec10: Liveness Analysis
Lec0: 课程介绍与成绩Lec1: IntroductionLec2: Operating-System StructuresLec3: ProcessesLec4: Threads(多线程编程)Lec5: CPU SchedulingLec6: 进程同步Lec7: DeadlocksLec8: Main MemoryLec9: Virtual MemoryLec10: File-System InterfaceLec11: File System ImplementationLec12: Mass-Storage System
Lec1: Basic Concepts in Reinforcement LearningLec2: Bellman EquationLec3: Bellman Optimality EquationLec4: Value Iteration & Policy IterationLec5: Monte Carlo Learning
首页
ManiGaussian 论文笔记ManiGaussian++ 论文笔记
AMP: 对抗动作先验替代复杂奖励函数DeepMimic: 从动作捕捉数据学习物理仿真角色技能DreamWaQ: 纯本体感知的四足鲁棒行走Imitating Animals: 从动物模仿到真实四足敏捷运动MoE-Loco: 多任务腿足运动的专家混合架构Multi-AMP: 多重对抗动作先验学习高级技能PIE: Proprioception with Imagination for ParkourRMA: Rapid Motor Adaptation for Legged Robots
论文阅读
Lec1: 五十音Lec2: 日语声调Lec3: 浊音和长音
Callout 语法速查
Hello World - 我的第一篇博客
Typora 语法兼容性测试
首页博客Paper-ReadingManigaussianManiGaussian++ 论文笔记

论文阅读

ManiGaussian++ 论文笔记

ManiGaussian 的双臂续作:分层高斯世界模型 + 领导者-跟随者范式,把任务导向的高斯泼溅推广到通用双臂操作。

2026 年 04 月 22 日/14 min read/ZZCZZC
#论文阅读#机器人#高斯泼溅#双臂操作

论文标题:ManiGaussian++: General Robotic Bimanual Manipulation with Hierarchical Gaussian World Model 作者:Tengbo Yu, Guanxing Lu, Zaijia Yang 等(清华大学、海南大学、南洋理工) 预印本:arXiv:2506.19842 (2025) 关键词:双臂操作、分层高斯世界模型、任务导向高斯泼溅、领导者-跟随者 代码:https://github.com/April-Yz/ManiGaussian_Bimanual


一、研究背景与动机

1.1 从单臂到双臂的根本差异

  • 任务:语言条件下的多任务 双臂 机器人操作(bimanual manipulation)。
  • 挑战核心:双臂系统不是两个单臂的拼接,它涉及 多体时空动力学 (multi-body spatiotemporal dynamics):
    • 一只臂必须 稳定 (stabilizing) 物体,另一只臂 执行 (acting) 任务(例如一手按住箱子、一手开盖);
    • 两臂可并行执行多步动作,需要协调;
    • 两臂之间、两臂与目标之间的相互作用比单臂复杂得多。

1.2 已有方法的不足

方法不足
PerAct² (2024)仅强化了策略网络(多模态 Transformer),但 视觉表示 仍是瓶颈,不能挖掘多体动力学
ManiGaussian (ECCV 2024)单臂场景下用未来场景重建编码场景动力学,但只编码"粗粒度场景动力学",无法区分两个手臂的不同角色
直接迁移 ManiGaussian 到双臂性能严重下降(从单臂的有效到双臂的混乱)

1.3 论文要解决的关键问题

  • 如何在视觉表示中区分两臂的角色(执行 vs. 稳定)?
  • 如何对两臂的相互作用进行建模,而不是把它们混为一谈?

二、核心思想

ManiGaussian++ 是 ManiGaussian 在双臂设定下的扩展,核心创新有两点:

2.1 任务导向高斯泼溅(Task-Oriented Gaussian Splatting)

  • 给每个高斯粒子加一个 实例级 logit li∈R3l_i \in \mathbb{R}^3li​∈R3,表示它属于哪个任务相关实例(执行臂 / 稳定臂 / 目标物);
  • 真值由 GroundedSAM(开放词汇检测器)从人类指令关键词自动生成;
  • 通过监督训练,使高斯场不仅恢复几何/外观,还携带 任务语义——哪只手在做什么。

2.2 分层高斯世界模型(Hierarchical Gaussian World Model)—— 领导者-跟随者架构

这是论文最核心的设计创新。

  • 关键直觉:双臂操作中,稳定臂通常先动作(先抓住或固定物体),随后执行臂动作(导致主要变化)。两者的动力学有 因果先后。
  • 如果一个统一的世界模型把 as,aa\mathbf{a}_s, \mathbf{a}_aas​,aa​ 平等对待,会把多体交互混淆。
  • 因此设计 两级形变模型:
    1. Leader(领导者) qs,ϕq_{s,\phi}qs,ϕ​:仅条件于稳定动作 as\mathbf{a}_sas​,预测中间高斯偏移 θr(t+1)\theta_r^{(t+1)}θr(t+1)​("如果稳定臂先动会怎样");
    2. Follower(跟随者) qa,ϕq_{a,\phi}qa,ϕ​:基于领导者的输出,进一步条件于执行动作 aa\mathbf{a}_aaa​,得到最终未来高斯场 θa(t+1)\theta_a^{(t+1)}θa(t+1)​("再加上执行臂的动作,物理后果是什么")。

一句话总结:把双臂动作的混合分解成"稳定先 → 执行后"的因果链条,让世界模型分两步预测,避免多体交互混淆。


三、方法详解

3.1 整体流程(Pipeline)

RGB-D × 6 cameras (256×256)
     │ voxelization
     ▼
体素表示
     │ 3D 稀疏卷积 f_φ
     ▼
增强视觉表示 v^(t) ─────────────────────────────┐
     │                                         │
     ▼ Gaussian regressor g_φ                   │
高斯参数 θ^(t) = (μ,c,r,s,σ, l)                  │
     │                                         │
     ├─► 渲染当前 ──► L_Recon (RGB MSE)         │
     │           ──► L_Task (instance CE)      │
     │                                         │
     ├─► Leader  q_{s,φ}(θ^(t), a_s, v) → θ_r^(t+1)  │ (stabilizing arm)
     │                                         │
     ├─► Follower q_{a,φ}(θ_r, a_a, a_s, v) → θ_a^(t+1) │ (acting arm)
     │                                         │
     └─► 渲染未来 ──► L_Pred (RGB MSE)          │
                                               ▼
                       PerceiverIO Multi-modal Transformer
                       + 语言指令 + proprioception
                                  │
                                  ▼
                         (a_left, a_right) ──► L_BC

3.2 任务导向高斯泼溅(Task-Oriented GS)

每个高斯参数:

θi(t)=(μi(t), ci(t), ri(t), si(t), σi(t), li(t))\theta_i^{(t)} = \big(\mu_i^{(t)},\ c_i^{(t)},\ r_i^{(t)},\ s_i^{(t)},\ \sigma_i^{(t)},\ l_i^{(t)}\big)θi(t)​=(μi(t)​, ci(t)​, ri(t)​, si(t)​, σi(t)​, li(t)​)
  • 新增的 li∈R3l_i \in \mathbb{R}^3li​∈R3 是 instance logit。三类标签:执行臂、稳定臂、目标物。
  • 渲染实例图(光栅化 + alpha-blend):
L(p)=∑i=1Nαi li∏j=1i−1(1−αj)L(\mathbf{p}) = \sum_{i=1}^{N} \alpha_i\, l_i \prod_{j=1}^{i-1} (1 - \alpha_j)L(p)=i=1∑N​αi​li​j=1∏i−1​(1−αj​)
  • 真值由 预训练 VLM (GroundedSAM) 在 2D 图上分割得到,自动获取,无需人工标注。

为什么需要任务标签? 因为后面的世界模型要分别处理两臂的运动——必须先在表示中知道"哪个高斯属于哪只臂/物体"。

3.3 分层高斯世界模型(核心创新)

多体高斯运动方程:

(μi(t+1), ri(t+1))=(μi(t)+Δμs(t)+Δμa(t),  ri(t)+Δrs(t)+Δra(t))\big(\mu_i^{(t+1)},\ r_i^{(t+1)}\big) = \big(\mu_i^{(t)} + \Delta\mu_s^{(t)} + \Delta\mu_a^{(t)},\; r_i^{(t)} + \Delta r_s^{(t)} + \Delta r_a^{(t)}\big)(μi(t+1)​, ri(t+1)​)=(μi(t)​+Δμs(t)​+Δμa(t)​,ri(t)​+Δrs(t)​+Δra(t)​)

形变 = 稳定臂引起的形变 + 执行臂引起的形变。

模块组成:

模块输入输出角色
表示网 fϕf_\phifϕ​体素 o(t)\mathbf{o}^{(t)}o(t)v(t)v^{(t)}v(t)编码视觉
高斯回归器 gϕg_\phigϕ​v(t)v^{(t)}v(t)θ(t)\theta^{(t)}θ(t)当前任务导向高斯场
Leader qs,ϕq_{s,\phi}qs,ϕ​θ(t), as(t), v(t)\theta^{(t)},\ \mathbf{a}_s^{(t)},\ v^{(t)}θ(t), as(t)​, v(t)θr(t+1)\theta_r^{(t+1)}θr(t+1)​预测稳定臂引起的中间形变
Follower qa,ϕq_{a,\phi}qa,ϕ​θr(t+1), as(t), aa(t), v(t)\theta_r^{(t+1)},\ \mathbf{a}_s^{(t)},\ \mathbf{a}_a^{(t)},\ v^{(t)}θr(t+1)​, as(t)​, aa(t)​, v(t)θa(t+1)\theta_a^{(t+1)}θa(t+1)​预测执行臂叠加后的最终形变
渲染器 R\mathcal{R}Rθ(t+1)\theta^{(t+1)}θ(t+1)C(t+1), L(t+1)C^{(t+1)},\ L^{(t+1)}C(t+1), L(t+1)输出未来 RGB + 实例图

整体地,这五步可以写成:

{v(t)=fϕ ⁣(o(t)),θ(t)=gϕ ⁣(v(t)),θr(t+1)=qs,ϕ ⁣(θ(t), as(t), v(t)),θa(t+1)=qa,ϕ ⁣(θr(t+1), as(t), aa(t), v(t)),C(t+1), L(t+1)=R ⁣(θ(t+1)).\begin{cases} v^{(t)} = f_\phi\!\big(\mathbf{o}^{(t)}\big), \\ \theta^{(t)} = g_\phi\!\big(v^{(t)}\big), \\ \theta_r^{(t+1)} = q_{s,\phi}\!\big(\theta^{(t)},\ \mathbf{a}_s^{(t)},\ v^{(t)}\big), \\ \theta_a^{(t+1)} = q_{a,\phi}\!\big(\theta_r^{(t+1)},\ \mathbf{a}_s^{(t)},\ \mathbf{a}_a^{(t)},\ v^{(t)}\big), \\ C^{(t+1)},\ L^{(t+1)} = \mathcal{R}\!\big(\theta^{(t+1)}\big). \end{cases}⎩⎨⎧​v(t)=fϕ​(o(t)),θ(t)=gϕ​(v(t)),θr(t+1)​=qs,ϕ​(θ(t), as(t)​, v(t)),θa(t+1)​=qa,ϕ​(θr(t+1)​, as(t)​, aa(t)​, v(t)),C(t+1), L(t+1)=R(θ(t+1)).​

刚体假设(同 ManiGaussian):固定 c,s,σ,lc, s, \sigma, lc,s,σ,l,仅按 SE(3)\mathrm{SE}(3)SE(3) 预测 μ,r\mu, rμ,r 的变化。

理论支撑:将多体运动建模为 Newton-Euler 方程下的 SE(3)\mathrm{SE}(3)SE(3) 变换;通过领导者-跟随者,把不可换的多智能体交互转化为有序的两阶段更新。

3.4 学习目标

L=LBC+λRecon LRecon+λTask LTask+λPred LPred\mathcal{L} = \mathcal{L}_{\text{BC}} + \lambda_{\text{Recon}}\,\mathcal{L}_{\text{Recon}} + \lambda_{\text{Task}}\,\mathcal{L}_{\text{Task}} + \lambda_{\text{Pred}}\,\mathcal{L}_{\text{Pred}}L=LBC​+λRecon​LRecon​+λTask​LTask​+λPred​LPred​
损失含义公式
LBC\mathcal{L}_{\text{BC}}LBC​(行为克隆,主目标)左右臂动作交叉熵之和LBC=CE(aleft,a^left)+CE(aright,a^right)\mathcal{L}_{\text{BC}} = CE(\mathbf{a}_{\text{left}}, \hat{\mathbf{a}}_{\text{left}}) + CE(\mathbf{a}_{\text{right}}, \hat{\mathbf{a}}_{\text{right}})LBC​=CE(aleft​,a^left​)+CE(aright​,a^right​)
LRecon\mathcal{L}_{\text{Recon}}LRecon​(当前重建)当前 RGB 多视角 MSELRecon=∑p∥C(t)(p)−C^(t)(p)∥22\mathcal{L}_{\text{Recon}} = \sum_{\mathbf{p}} \lVert C^{(t)}(\mathbf{p}) - \hat{C}^{(t)}(\mathbf{p}) \rVert_2^2LRecon​=∑p​∥C(t)(p)−C^(t)(p)∥22​
LTask\mathcal{L}_{\text{Task}}LTask​(任务实例分类,新增)渲染实例图与 VLM 真值的逐像素交叉熵LTask=−∑p∑lB^l(p)log⁡Bl(p)\mathcal{L}_{\text{Task}} = -\sum_{\mathbf{p}} \sum_l \hat{B}^l(\mathbf{p}) \log B^l(\mathbf{p})LTask​=−∑p​∑l​B^l(p)logBl(p)
LPred\mathcal{L}_{\text{Pred}}LPred​(未来场景预测)未来 RGB 多视角 MSELPred=∥C^(t+1)−C(t+1)∥22\mathcal{L}_{\text{Pred}} = \lVert \hat{C}^{(t+1)} - C^{(t+1)} \rVert_2^2LPred​=∥C^(t+1)−C(t+1)∥22​

四、实验关键结果

4.1 仿真主结果(RLBench² 10 个双臂任务,平均成功率 %)

方法平均成功率平均排名
PerAct²15.42.5
ManiGaussian (修改成双臂)18.82.2
ManiGaussian++ (Ours)35.61.1
  • 相对前作 ManiGaussian 提升 89.4%(18.8 → 35.6)。
  • 相对前 SOTA PerAct² 相对提升 131.17%。
  • 在所有 10 个任务上几乎包揽第一。

4.2 消融研究(Table II 中 3 个代表任务平均)

行高斯泼溅任务导向 GS分层 GWMsweep to dustpanhandover itempush boxAvg
1---01165.67
2Y--24122420.00 (+14.33)
3YY-32163226.67 (+6.67)
4YYY92204860.00 (+33.33)

关键发现:

  • 高斯泼溅本身贡献 +14.33pp(同单臂结果)。
  • 任务导向 GS(区分手臂角色)贡献 +6.67pp。
  • 分层高斯世界模型贡献最大 +33.33pp——证明显式建模多体交互动力学是关键。
  • 在 sweep to dustpan 任务上从 32 → 92,提升幅度极大,说明分层 GWM 对需要严格协作的任务效果显著。

4.3 真实机器人实验(9 任务,UR5e ×\times× 2 + Realsense)

  • 训练演示:30 个真人遥操作演示/任务(不到 100)。
  • 推理:仅用 1 个相机(多视角只用于训练时监督)。
方法9 个真实任务平均成功率
PerAct²31.11%
ManiGaussian45.56%
ManiGaussian++62.22%
  • 比 PerAct² 提升 100%,比 ManiGaussian 提升 36.6%。
  • 能完成 Play ping pong、Fold Clothes 等需要复杂协作的任务。
  • 对光照变化等干扰具备鲁棒性。

4.4 新视角合成(定性)

  • ManiGaussian++ 能在仅前视监督下,从新视角清晰还原 被遮挡的夹爪和按钮;
  • 可预测 sweep to dustpan 中 扫帚被夹爪推动后 的未来位置——证明已学习到多体交互动力学。

五、贡献总结(Why It Matters)

  1. 首次将分层世界模型引入双臂操作:通过 Leader-Follower 的因果分解,把不可换的多臂交互转化为可学习的两阶段预测。
  2. 任务导向高斯场(Task-Oriented GS):用 VLM (GroundedSAM) 自动获取实例标签,让 3DGS 不仅有外观/几何,还携带任务级身份。
  3. 从单臂到双臂的跨越:在双臂基准 RLBench² 上把 SOTA 从 ~15% 拉到 35.6%;在真机上达 62.22%,能处理乒乓、叠衣等复杂协作。
  4. 少演示 + 单相机部署:30 条演示训练,仅一个相机推理就能跑 9 个真实任务,工程价值高。

六、与 ManiGaussian 的对比

维度ManiGaussian (ECCV 2024)ManiGaussian++ (2025)
任务类别单臂多任务双臂多任务
高斯场几何 + 外观 + 语义特征 (从 SD 蒸馏)几何 + 外观 + 实例 logit (从 VLM 蒸馏)
世界模型单一形变预测器 pϕp_\phipϕ​领导者-跟随者两级 (qs,ϕ,qa,ϕq_{s,\phi}, q_{a,\phi}qs,ϕ​,qa,ϕ​)
形变方程μ+Δμ, r+Δr\mu + \Delta\mu,\ r + \Delta rμ+Δμ, r+Δrμ+Δμs+Δμa, r+Δrs+Δra\mu + \Delta\mu_s + \Delta\mu_a,\ r + \Delta r_s + \Delta r_aμ+Δμs​+Δμa​, r+Δrs​+Δra​
监督源RGB / Stable Diffusion 特征RGB / GroundedSAM 实例分割
损失LAct+LGeo+LSem+LDyna\mathcal{L}_{\text{Act}} + \mathcal{L}_{\text{Geo}} + \mathcal{L}_{\text{Sem}} + \mathcal{L}_{\text{Dyna}}LAct​+LGeo​+LSem​+LDyna​LBC+LRecon+LTask+LPred\mathcal{L}_{\text{BC}} + \mathcal{L}_{\text{Recon}} + \mathcal{L}_{\text{Task}} + \mathcal{L}_{\text{Pred}}LBC​+LRecon​+LTask​+LPred​
真机验证否(仅仿真)是(9 真实任务)

简言之:ManiGaussian++ 把"场景动力学"细化为"多体动力学",把"一个动作 → 一次预测"细化为"先稳后动 → 两次预测"。


七、局限与未来方向

论文承认的局限

  • 训练监督仍依赖 标定的多视角相机,部署成本较高(虽然推理时只需单视角)。
  • 依然采用 关键帧分类 而非连续控制,依赖底层运动规划器。

潜在改进方向

  • 去除标定多视角依赖:如何从单视角自监督,进一步降低部署门槛。
  • 更细粒度的角色分配:当前 3 类 logit(acting / stabilizing / target)较粗;可扩展到更复杂的多物体场景。
  • 多步因果展开:当前 Leader-Follower 仅展开一步;可递归用于长程想象规划(Dreamer 风格)。
  • 柔性物体:刚体假设对叠衣 / Fold Clothes 任务仍有限,需要可形变体的高斯建模。
  • 领导-跟随的角色自适应:当前需要预先指定哪只手是稳定、哪只是执行;未来可让模型自动判断。

八、关键启示

  1. 架构归纳偏置很重要:双臂任务的因果先后(稳定先于执行)是天然的归纳偏置,分层架构把它显式编码进了世界模型。
  2. VLM 作为标签生成器是低成本可扩展的:用 GroundedSAM 替代手工标注,使任务标签的获取近乎免费。
  3. 未来场景预测仍是最强的自监督:作为对动力学建模的强约束,比单纯的当前重建提供了更丰富的物理监督。
  4. 3DGS 在机器人领域的潜力远未饱和:从静态重建 → 动态预测 → 多体协作,每一步都带来显著性能提升。
ZZC

Written by

ZZC
每天研究怎么摸鱼的神人

Comments

评论功能即将上线

On this page

  • 一、研究背景与动机
  • 1.1 从单臂到双臂的根本差异
  • 1.2 已有方法的不足
  • 1.3 论文要解决的关键问题
  • 二、核心思想
  • 2.1 任务导向高斯泼溅(Task-Oriented Gaussian Splatting)
  • 2.2 分层高斯世界模型(Hierarchical Gaussian World Model)—— 领导者-跟随者架构
  • 三、方法详解
  • 3.1 整体流程(Pipeline)
  • 3.2 任务导向高斯泼溅(Task-Oriented GS)
  • 3.3 分层高斯世界模型(核心创新)
  • 3.4 学习目标
  • 四、实验关键结果
  • 4.1 仿真主结果(RLBench² 10 个双臂任务,平均成功率 %)
  • 4.2 消融研究(Table II 中 3 个代表任务平均)
  • 4.3 真实机器人实验(9 任务,UR5e $\times$ 2 + Realsense)
  • 4.4 新视角合成(定性)
  • 五、贡献总结(Why It Matters)
  • 六、与 ManiGaussian 的对比
  • 七、局限与未来方向
  • 论文承认的局限
  • 潜在改进方向
  • 八、关键启示