機器人操作資料收集方法有哪些？如何分類？對模仿學習的影響

Question

機器人操作中資料收集的方法有哪些？如何分類？他們對於模仿學習有什麼影響？

Answer

一、分類框架

根據 arXiv 2510.10903（§7.1）和 vault 中多篇論文，資料收集方法可從操作方式和感測模態兩個維度分類。

二、按操作方式分類

1. 遙操作（Teleoperation）——目前主流

人類透過某種介面即時控制機器人，同時記錄機器人的觀測和動作。

硬體方式細分：

方式	代表系統	成本	特點
領導臂/跟隨臂	LeRobot SO-100 Leader/Follower	€225×2	最低成本，直觀，適合單臂簡單任務
VR 頭戴	Meta Quest 3 + OPEN TEACH	$500	臨場感強，沉浸式，Quest 3 控制器有低毫米級精度
全身追蹤	Open-TeleVision	中等	人形機器人需要，立體視覺回饋
外骨骼/手套	DOGlove（<$600）	低-中	21-DoF 手指追蹤 + 觸覺回饋
力回饋系統	Glovity	中等	腕部扭力回饋，適合接觸豐富任務

優點： 資料品質高（人類決策），直接記錄機器人狀態
缺點： 慢（ML6 實測 25-42 分鐘/任務），需要熟練操作員，品質差的示範比沒有更糟

2. 動作捕捉（Motion Capture）——次主流，加速中

人類自然執行動作，感測器記錄後**事後重定向（retargeting）**到機器人。

代表系統：

DexCap：EM 動捕手套 + 胸前 SLAM 相機，速度是遙操作的 3 倍，適合靈巧手任務
GI Labs 調研覆蓋 12 個系統，核心結論：無單一感測模態完美，需分層融合

優點： 速度快，動作更自然
缺點： 需要 retargeting（可能引入誤差），設備成本較高（EMF 手套 $3000-5000）

3. 人類影片作為示範（Human Video Demonstration）——新興

不需要機器人參與，直接用人類操作物件的影片訓練。

代表系統：

Human Policy（arXiv:2503.13441）：用自中心（egocentric）人類示範訓練人形機器人，繞過昂貴的機器人資料收集
Open X-Embodiment（OXE）：整合網路影片和機器人示範

優點： 資料量巨大（網路影片近乎無限），無需機器人硬體
缺點： 跨體態差距（人手 ≠ 機器人手），動作對齊困難

4. 模擬器合成資料（Simulation）

在 IsaacGym、MuJoCo、IsaacSim 等環境中生成大量資料，平行化訓練。

優點： 規模極大（GPU 加速，可平行生成百萬 episode）
缺點： Sim-to-Real 差距，精密操作（如觸覺、接觸動力學）在模擬中難以精確建模

5. 自主探索（Autonomous Exploration / RL）

機器人透過強化學習自行探索，無需人類示範。

代表：SERL（Sample-Efficient RL for Real World）

優點： 不需要人類示範，可發現人類想不到的解法
缺點： 樣本效率低，初始階段容易損壞硬體，稀疏獎勵難以設計

三、按感測模態分類（資料包含什麼資訊）

這影響策略能學到什麼行為，是資料收集中最被忽略的維度。

模態	內容	對模仿學習的影響
RGB 相機	視覺觀測（1-3 個視角）	最普遍，但對光線/角度變化敏感
深度（RGB-D）	3D 結構信息	增加空間理解，配合點雲處理
本體感知	關節角度、速度、力矩	低成本，對操作精度關鍵
觸覺感測	接觸力、壓力分佈	接觸豐富任務必須包含（GI Labs：+42pp 成功率）
語言指令	自然語言任務描述	VLA 訓練所需，支援指令泛化

關鍵洞察（來自 GI Labs）： 感測模態選擇是基礎設施決策，不是資料品質問題。若你收集資料時沒有觸覺感測器，策略在訓練和推論時永遠無法感知接觸力——這是無法補救的數據缺失。

四、對模仿學習的影響

4.1 資料量 vs 資料品質

ML6 實際測試：

ACT 在 5 個位置任務：46k 幀（25 分鐘遙操作）→ 90% 成功率
但品質差的示範比沒有更糟：同樣 46k 幀，如果操作員技術不好，成功率反而下降

結論：資料品質 > 資料量，熟練操作員和標準化收集流程是前提。

4.2 示範分佈決定策略能力邊界

行為克隆（BC）的核心問題是協變量偏移（covariate shift）：訓練資料的狀態分佈和部署時遇到的狀態分佈不一致，導致策略在訓練分佈外失效。

ML6 的例子：ACT 訓練在固定相機角度，部署時相機稍微偏移 → 成功率降至接近 0。

解法：

DAgger：迭代地在機器人實際訪問的狀態上收集更多示範
互動式 IL（HITL）：部署時人類即時糾正
擴散策略：建模整個動作分佈而非單點預測，對分佈偏移更魯棒

4.3 資料收集方式決定可學習的行為上限

遙操作可以學到精確的位置控制，但受限於操作員介面（VR 延遲、直覺性）
動作捕捉更接近人類自然動作，但 retargeting 誤差可能引入噪聲
沒有觸覺資料 → 策略無法學習依賴接觸力的精密操作

4.4 目前的規模化瓶頸

2510.10903（§7.1）明確指出：機器人學習尚未出現 scaling law。原因：

遙操作速度慢（人力密集）
合成資料（模擬）的 sim-to-real 差距尚未解決
缺乏統一資料格式（雖然 LeRobotDataset 在改善中）

社群的應對策略是資料飛輪：LeRobotDataset 16,000+ 資料集，SmolVLA 用 481 個資料集預訓練後成功率從 51.7% → 78.3%，驗證了社群共享資料的有效性。

五、選擇資料收集方法的決策框架

任務精度要求高？
├─ 是 → 需要觸覺感測器 → 遙操作（Glovity）或動作捕捉（DexCap）
└─ 否 → 視覺即可

機器人類型？
├─ 單臂（SO-100）→ 領導臂遙操作（最低成本）
├─ 靈巧手 → 動作捕捉（DexCap）或手套遙操作（DOGlove）
└─ 人形機器人 → VR 全身追蹤（OPEN TEACH / Open-TeleVision）

資料規模需求？
├─ 小規模（<100 episode）→ 遙操作 + 嚴格品質控制
├─ 中規模（100-1000）→ 考慮動作捕捉提速
└─ 大規模（>1000）→ 模擬器合成 + 少量真實資料 fine-tuning

Sources

Clippings-datalab-output-2510.10903v1.pdf — 2510.10903 §7.1 資料收集與利用分類
robot-manipulation-unified-survey-2510-10903 — 深度報告中的資料瓶頸章節
Clippings-dexterous-manipulation-imitation-learning-survey — 遙操作是主流的原因分析
Clippings-interactive-imitation-learning-dexterous-manipulation — 協變量偏移和 DAgger/HITL 解法
Clippings-dexcap-scalable-and-portable-mocap-data-collection-system-for-dexterous-manipulation — DexCap：動作捕捉 3x 速度提升
Clippings-tracking-dexterous-hands-a-practitioners-guide-to-motion-capture-for-robot-learning — 感測模態分類和觸覺感測的必要性
Clippings-lerobot-imitation-learning-field-report-ml6 — 遙操作時間成本的實測數據和資料品質法則

Follow-up Questions

在什麼條件下模擬合成資料可以有效取代真實示範？（sim-to-real 差距何時可接受）
人類影片作為示範（Human Policy）在靈巧任務上的效果上限是什麼？
資料品質的自動評估方法有哪些？（避免依賴人工審核）
DAgger 在多機器人場景下的可行性——為每種機器人維護獨立的互動學習迴路是否現實？

Quartz 5

Explorer