Simulation 是否算 Learning from Demonstration（LfD）的一環？

Question

Simulation 的方法會被視為 Learning from Demonstration（LfD）的一環嗎？

Answer

直接回答：取決於 Simulation 怎麼用

2510.10903 §7.1.1 把資料收集分成四類，Simulation 被放在第三類「Synthetic / Automatic Data Generation」，和「Human Teleoperation and Demonstration」並列——這代表論文把它視為 LfD 生態系的資料來源之一，而非 RL。

但「Simulation」本身是中性工具，是否算 LfD 取決於裡面跑的是示範還是獎勵訊號。

Simulation 用法光譜

1. 明確是 LfD：模擬器內遙操作

人類在模擬器（IsaacSim、MuJoCo）裡控制機器人收集示範。資料結構和真實遙操作完全一樣，只是場景在虛擬環境中。完全符合 LfD 定義。

2. 介於中間：Demo-Seeded 合成（MimicGen 系）

代表方法： MimicGen [1033]、DexMimicGen [1031]、SkillMimicGen [1030]、DemoGen [1032]

做法：先收集少量人類示範（seed demos），再用 TAMP 自動把示範重組、適配到不同物件位置和場景變體，產生大量「合成示範」。

起點是人類 demo → 輸出也是示範格式
中間過程是自動的（沒有人類即時參與）
論文把它歸在 LfD 的延伸（C3 Synthetic Sub-Trajectory Generation）
品質低於直接人工示範（RoboCasa365 觀察到「mixed-quality」問題，但仍帶來約 3× 資料效率提升）

3. 不算 LfD：純 RL 自主探索

代表方法： SERL、PPO in sim

機器人透過獎勵訊號自行試誤學習，完全沒有示範。論文將其分類在 §6.1.1 Learning Strategy，不在 §7.1 Data Collection 章節下，屬於獨立範疇。

論文的分類結論（§7.1.1 架構圖）

DATA Collection (§7.1)
├── C1: Human Teleoperation and Demonstration  ← 核心 LfD
├── C2: Human-in-the-Loop Enhancement         ← LfD 延伸
├── C3: Synthetic / Automatic Data Generation ← 廣義 LfD（含 MimicGen）
└── C4: Crowdsourcing-based Data Collection   ← 大規模 LfD

自主 RL（SERL 等）不在此分類中，歸在 §6.1.1。

實務判斷準則

若需要判斷某個 Simulation 方法是否算 LfD：

是否有人類（或人類示範）作為起點？→ 是 → 廣義 LfD
最終資料是否是（狀態, 動作）對的軌跡？→ 是 → 可用於 IL 訓練
學習過程是否只用 BC / IL loss，不用 reward？→ 是 → 算 LfD

三個都是「否」才是純 RL，不算 LfD。

Sources

Clippings-datalab-output-2510.10903v1.pdf — §7.1.1 Data Collection 四類分類

Quartz 5

Explorer