Question
Simulation 的方法會被視為 Learning from Demonstration(LfD)的一環嗎?
Answer
直接回答:取決於 Simulation 怎麼用
2510.10903 §7.1.1 把資料收集分成四類,Simulation 被放在第三類「Synthetic / Automatic Data Generation」,和「Human Teleoperation and Demonstration」並列——這代表論文把它視為 LfD 生態系的資料來源之一,而非 RL。
但「Simulation」本身是中性工具,是否算 LfD 取決於裡面跑的是示範還是獎勵訊號。
Simulation 用法光譜
1. 明確是 LfD:模擬器內遙操作
人類在模擬器(IsaacSim、MuJoCo)裡控制機器人收集示範。資料結構和真實遙操作完全一樣,只是場景在虛擬環境中。完全符合 LfD 定義。
2. 介於中間:Demo-Seeded 合成(MimicGen 系)
代表方法: MimicGen [1033]、DexMimicGen [1031]、SkillMimicGen [1030]、DemoGen [1032]
做法:先收集少量人類示範(seed demos),再用 TAMP 自動把示範重組、適配到不同物件位置和場景變體,產生大量「合成示範」。
- 起點是人類 demo → 輸出也是示範格式
- 中間過程是自動的(沒有人類即時參與)
- 論文把它歸在 LfD 的延伸(C3 Synthetic Sub-Trajectory Generation)
- 品質低於直接人工示範(RoboCasa365 觀察到「mixed-quality」問題,但仍帶來約 3× 資料效率提升)
3. 不算 LfD:純 RL 自主探索
代表方法: SERL、PPO in sim
機器人透過獎勵訊號自行試誤學習,完全沒有示範。論文將其分類在 §6.1.1 Learning Strategy,不在 §7.1 Data Collection 章節下,屬於獨立範疇。
論文的分類結論(§7.1.1 架構圖)
DATA Collection (§7.1)
├── C1: Human Teleoperation and Demonstration ← 核心 LfD
├── C2: Human-in-the-Loop Enhancement ← LfD 延伸
├── C3: Synthetic / Automatic Data Generation ← 廣義 LfD(含 MimicGen)
└── C4: Crowdsourcing-based Data Collection ← 大規模 LfD
自主 RL(SERL 等)不在此分類中,歸在 §6.1.1。
實務判斷準則
若需要判斷某個 Simulation 方法是否算 LfD:
- 是否有人類(或人類示範)作為起點?→ 是 → 廣義 LfD
- 最終資料是否是(狀態, 動作)對的軌跡?→ 是 → 可用於 IL 訓練
- 學習過程是否只用 BC / IL loss,不用 reward?→ 是 → 算 LfD
三個都是「否」才是純 RL,不算 LfD。
Sources
- Clippings-datalab-output-2510.10903v1.pdf — §7.1.1 Data Collection 四類分類