Question

Simulation 的方法會被視為 Learning from Demonstration(LfD)的一環嗎?

Answer

直接回答:取決於 Simulation 怎麼用

2510.10903 §7.1.1 把資料收集分成四類,Simulation 被放在第三類「Synthetic / Automatic Data Generation」,和「Human Teleoperation and Demonstration」並列——這代表論文把它視為 LfD 生態系的資料來源之一,而非 RL。

但「Simulation」本身是中性工具,是否算 LfD 取決於裡面跑的是示範還是獎勵訊號。


Simulation 用法光譜

1. 明確是 LfD:模擬器內遙操作

人類在模擬器(IsaacSim、MuJoCo)裡控制機器人收集示範。資料結構和真實遙操作完全一樣,只是場景在虛擬環境中。完全符合 LfD 定義。

2. 介於中間:Demo-Seeded 合成(MimicGen 系)

代表方法: MimicGen [1033]、DexMimicGen [1031]、SkillMimicGen [1030]、DemoGen [1032]

做法:先收集少量人類示範(seed demos),再用 TAMP 自動把示範重組、適配到不同物件位置和場景變體,產生大量「合成示範」。

  • 起點是人類 demo → 輸出也是示範格式
  • 中間過程是自動的(沒有人類即時參與)
  • 論文把它歸在 LfD 的延伸(C3 Synthetic Sub-Trajectory Generation)
  • 品質低於直接人工示範(RoboCasa365 觀察到「mixed-quality」問題,但仍帶來約 3× 資料效率提升)

3. 不算 LfD:純 RL 自主探索

代表方法: SERL、PPO in sim

機器人透過獎勵訊號自行試誤學習,完全沒有示範。論文將其分類在 §6.1.1 Learning Strategy,不在 §7.1 Data Collection 章節下,屬於獨立範疇。


論文的分類結論(§7.1.1 架構圖)

DATA Collection (§7.1)
├── C1: Human Teleoperation and Demonstration  ← 核心 LfD
├── C2: Human-in-the-Loop Enhancement         ← LfD 延伸
├── C3: Synthetic / Automatic Data Generation ← 廣義 LfD(含 MimicGen)
└── C4: Crowdsourcing-based Data Collection   ← 大規模 LfD

自主 RL(SERL 等)不在此分類中,歸在 §6.1.1。


實務判斷準則

若需要判斷某個 Simulation 方法是否算 LfD:

  1. 是否有人類(或人類示範)作為起點?→ 是 → 廣義 LfD
  2. 最終資料是否是(狀態, 動作)對的軌跡?→ 是 → 可用於 IL 訓練
  3. 學習過程是否只用 BC / IL loss,不用 reward?→ 是 → 算 LfD

三個都是「否」才是純 RL,不算 LfD。

Sources

Connections