Question

機器人操作中資料收集的方法有哪些?如何分類?他們對於模仿學習有什麼影響?

Answer

一、分類框架

根據 arXiv 2510.10903(§7.1)和 vault 中多篇論文,資料收集方法可從操作方式感測模態兩個維度分類。


二、按操作方式分類

1. 遙操作(Teleoperation)——目前主流

人類透過某種介面即時控制機器人,同時記錄機器人的觀測和動作。

硬體方式細分:

方式代表系統成本特點
領導臂/跟隨臂LeRobot SO-100 Leader/Follower€225×2最低成本,直觀,適合單臂簡單任務
VR 頭戴Meta Quest 3 + OPEN TEACH$500臨場感強,沉浸式,Quest 3 控制器有低毫米級精度
全身追蹤Open-TeleVision中等人形機器人需要,立體視覺回饋
外骨骼/手套DOGlove(<$600)低-中21-DoF 手指追蹤 + 觸覺回饋
力回饋系統Glovity中等腕部扭力回饋,適合接觸豐富任務

優點: 資料品質高(人類決策),直接記錄機器人狀態
缺點: 慢(ML6 實測 25-42 分鐘/任務),需要熟練操作員,品質差的示範比沒有更糟

2. 動作捕捉(Motion Capture)——次主流,加速中

人類自然執行動作,感測器記錄後**事後重定向(retargeting)**到機器人。

代表系統:

  • DexCap:EM 動捕手套 + 胸前 SLAM 相機,速度是遙操作的 3 倍,適合靈巧手任務
  • GI Labs 調研覆蓋 12 個系統,核心結論:無單一感測模態完美,需分層融合

優點: 速度快,動作更自然
缺點: 需要 retargeting(可能引入誤差),設備成本較高(EMF 手套 $3000-5000)

3. 人類影片作為示範(Human Video Demonstration)——新興

不需要機器人參與,直接用人類操作物件的影片訓練。

代表系統:

  • Human Policy(arXiv:2503.13441):用自中心(egocentric)人類示範訓練人形機器人,繞過昂貴的機器人資料收集
  • Open X-Embodiment(OXE):整合網路影片和機器人示範

優點: 資料量巨大(網路影片近乎無限),無需機器人硬體
缺點: 跨體態差距(人手 ≠ 機器人手),動作對齊困難

4. 模擬器合成資料(Simulation)

在 IsaacGym、MuJoCo、IsaacSim 等環境中生成大量資料,平行化訓練。

優點: 規模極大(GPU 加速,可平行生成百萬 episode)
缺點: Sim-to-Real 差距,精密操作(如觸覺、接觸動力學)在模擬中難以精確建模

5. 自主探索(Autonomous Exploration / RL)

機器人透過強化學習自行探索,無需人類示範。

代表:SERL(Sample-Efficient RL for Real World)

優點: 不需要人類示範,可發現人類想不到的解法
缺點: 樣本效率低,初始階段容易損壞硬體,稀疏獎勵難以設計


三、按感測模態分類(資料包含什麼資訊)

這影響策略能學到什麼行為,是資料收集中最被忽略的維度。

模態內容對模仿學習的影響
RGB 相機視覺觀測(1-3 個視角)最普遍,但對光線/角度變化敏感
深度(RGB-D)3D 結構信息增加空間理解,配合點雲處理
本體感知關節角度、速度、力矩低成本,對操作精度關鍵
觸覺感測接觸力、壓力分佈接觸豐富任務必須包含(GI Labs:+42pp 成功率)
語言指令自然語言任務描述VLA 訓練所需,支援指令泛化

關鍵洞察(來自 GI Labs): 感測模態選擇是基礎設施決策,不是資料品質問題。若你收集資料時沒有觸覺感測器,策略在訓練和推論時永遠無法感知接觸力——這是無法補救的數據缺失。


四、對模仿學習的影響

4.1 資料量 vs 資料品質

ML6 實際測試:

  • ACT 在 5 個位置任務:46k 幀(25 分鐘遙操作)→ 90% 成功率
  • 但品質差的示範比沒有更糟:同樣 46k 幀,如果操作員技術不好,成功率反而下降

結論:資料品質 > 資料量,熟練操作員和標準化收集流程是前提。

4.2 示範分佈決定策略能力邊界

行為克隆(BC)的核心問題是協變量偏移(covariate shift):訓練資料的狀態分佈和部署時遇到的狀態分佈不一致,導致策略在訓練分佈外失效。

ML6 的例子:ACT 訓練在固定相機角度,部署時相機稍微偏移 → 成功率降至接近 0

解法:

  • DAgger:迭代地在機器人實際訪問的狀態上收集更多示範
  • 互動式 IL(HITL):部署時人類即時糾正
  • 擴散策略:建模整個動作分佈而非單點預測,對分佈偏移更魯棒

4.3 資料收集方式決定可學習的行為上限

  • 遙操作可以學到精確的位置控制,但受限於操作員介面(VR 延遲、直覺性)
  • 動作捕捉更接近人類自然動作,但 retargeting 誤差可能引入噪聲
  • 沒有觸覺資料 → 策略無法學習依賴接觸力的精密操作

4.4 目前的規模化瓶頸

2510.10903(§7.1)明確指出:機器人學習尚未出現 scaling law。原因:

  1. 遙操作速度慢(人力密集)
  2. 合成資料(模擬)的 sim-to-real 差距尚未解決
  3. 缺乏統一資料格式(雖然 LeRobotDataset 在改善中)

社群的應對策略是資料飛輪:LeRobotDataset 16,000+ 資料集,SmolVLA 用 481 個資料集預訓練後成功率從 51.7% → 78.3%,驗證了社群共享資料的有效性。


五、選擇資料收集方法的決策框架

任務精度要求高?
├─ 是 → 需要觸覺感測器 → 遙操作(Glovity)或動作捕捉(DexCap)
└─ 否 → 視覺即可

機器人類型?
├─ 單臂(SO-100)→ 領導臂遙操作(最低成本)
├─ 靈巧手 → 動作捕捉(DexCap)或手套遙操作(DOGlove)
└─ 人形機器人 → VR 全身追蹤(OPEN TEACH / Open-TeleVision)

資料規模需求?
├─ 小規模(<100 episode)→ 遙操作 + 嚴格品質控制
├─ 中規模(100-1000)→ 考慮動作捕捉提速
└─ 大規模(>1000)→ 模擬器合成 + 少量真實資料 fine-tuning

Sources

Follow-up Questions

  • 在什麼條件下模擬合成資料可以有效取代真實示範?(sim-to-real 差距何時可接受)
  • 人類影片作為示範(Human Policy)在靈巧任務上的效果上限是什麼?
  • 資料品質的自動評估方法有哪些?(避免依賴人工審核)
  • DAgger 在多機器人場景下的可行性——為每種機器人維護獨立的互動學習迴路是否現實?

Connections