模擬環境中人類操作資料收集方法
Research Question
在 Robotics、CV、HRI 三個領域中,研究者如何在模擬環境中實作收集人類操作資料,用於機器人模仿學習?各領域的側重點、工具和實作流程有何不同?
Knowledge Map
- Imitation Learning (IL) / Behavior Cloning (BC) — 模擬環境中收集的人類操作資料最終目的是訓練 IL 策略;理解 BC 的協變量偏移問題解釋了為何資料品質比資料量更重要
- Sim-to-Real Transfer — 模擬中收集的資料在真實環境部署時面臨物理差距;不同領域對此問題的容忍度和解法不同
- Teleoperation Retargeting — 人類動作(hand joints、body pose)映射到機器人控制指令是核心技術問題;不同自由度系統的難度差異很大
- XR/VR/AR 技術 — 頭戴顯示器(Quest 3、AVP)同時扮演輸入設備和視覺回饋工具的角色;理解 passthrough、追蹤精度、延遲特性是設備選擇的基礎
- 物理仿真引擎 — MuJoCo、IsaacSim、SAPIEN 各自的接觸動力學特性影響哪些任務可以在模擬中有效採集
- HDF5 / LeRobotDataset — 模擬中收集的資料需要標準格式才能跨平台使用;格式選擇影響下游訓練工具的兼容性
Sources Gathered
新收錄來源:
- Clippings-mimicgen-data-generation-scalable-robot-learning — MimicGen:少量人類 demo → 50K+ 合成示範
- Clippings-arcap-ar-robot-data-collection-system — ARCap:AR 即時回饋提升示範可行性 40%+
- Clippings-egomimic-scaling-imitation-learning-egocentric-video — EgoMimic:自中心人類影片作為等效示範資料
Vault 中已有的相關筆記:
- Clippings-anyteleop-vision-based-dexterous-teleoperation — AnyTeleop:支援模擬和真實世界的統一視覺遙操作
- Clippings-humanoid-teleop-with-full-body-tracking-using-the-meta-quest-3-and-isaacsim-simu — Quest 3 + IsaacSim 全身追蹤技術實作
- Clippings-open-teach-versatile-teleoperation-system — OPEN TEACH:VR 手勢示範跨體態收集
- Clippings-open-television-teleoperation-immersive-visual-feedback — Open-TeleVision:立體視覺回饋遙操作
- robocasa365-large-scale-simulation-generalist-robots — RoboCasa365:MimicGen 合成 1,615 小時合成資料
- Clippings-datalab-output-2510.10903v1.pdf — 2510.10903:§7.1 資料收集完整分類
Key Findings
-
模擬中人類操作資料收集的核心模式是「直接遙操作」:人類透過 SpaceMouse、VR 控制器或手勢追蹤即時控制模擬中的機器人,同步錄製觀測和動作。Isaac Lab Mimic 是目前最完整的開源實作,提供從遙操作到 BC 訓練的全流程工具。
-
Sim → 自動擴增是放大人類示範的主要策略:MimicGen 把~100 個人類示範放大成 50K+ 合成示範,靠物件中心片段的剛體變換和物理驗證。這是目前最具規模優勢的方法,但品質低於真實人工示範。
-
VR/AR 設備正在取代傳統鍵盤/SpaceMouse 成為模擬遙操作的主流介面:Quest 3($500)是性價比最高的選擇;Apple Vision Pro 精度更高但成本是 7 倍。兩者都需要 retargeting 中間層。
-
CV 領域的貢獻:把人類視頻升格為等效示範:EgoMimic(CMU 2024)顯示 1 小時自中心人類影片比 1 小時機器人示範更有價值;ARCap(Stanford 2024)用 AR 回饋使非專業用戶也能產生高品質機器人可執行示範。
-
HRI 領域的關注點不同:HRI 研究者更關心模擬中的互動資料(人如何感知和回應機器人),而非示範軌跡本身。VR 模擬環境允許在受控條件下研究人類對機器人行為的感知,並可即時暫停詢問參與者的主觀評分。
Open Questions
- ARCap 和 EgoMimic 的 AR/egocentric 方法是否可以整合進 MimicGen 流程,讓一次人類示範既產生高品質 seed demo 又自動擴增?
- Isaac Lab Mimic 的 50–70% 生成成功率瓶頸是否可以用更好的 motion planning(SkillGen)突破?
- 三個領域的模擬資料是否有可能在同一格式(LeRobotDataset)下統一,允許跨域訓練?
- HRI 場景中收集到的人類互動資料(頭部姿態、注意力、回應時間)能否作為機器人策略學習的額外監督信號?
Report
前言:為什麼在模擬中收集人類操作資料?
模擬環境作為人類操作資料的收集場所有三個根本優勢:可重置(失敗後立即回到初始狀態)、可平行化(多個實例同時進行)、安全(機器人不會損壞)。但它帶來一個根本矛盾:最終目的是在真實世界運行的策略,而訓練資料來自虛擬世界。這個矛盾是「sim-to-real gap」,三個領域的研究者用不同方式面對和解決它。
一、Robotics 領域:從遙操作到自動擴增的完整流程
1.1 直接模擬遙操作(最基礎方式)
Isaac Lab Mimic 是目前最完整的開源平台,提供從設備接入到 BC 訓練的全套工具。
支援的輸入設備(按精度排序):
| 設備 | 成本 | 自由度 | 適用任務 |
|---|---|---|---|
| 鍵盤 | $0 | 6-DoF(離散) | 快速測試、簡單任務 |
| SpaceMouse | $150 | 6-DoF(連續) | 桌面操作(最常用於研究) |
| Meta Quest 3(CloudXR) | $500 | 全手部追蹤 | 靈巧手操作 |
| Manus Gloves | $5,000+ | 手指精確追蹤 | 高精度靈巧任務 |
| Apple Vision Pro | $3,500 | 手部 + 眼動 | 最高精度,但貴 |
Isaac Lab Mimic 工作流程:
- 人類遙操作 → 收集 ~10–200 個示範(HDF5 格式)
- 手動或自動標注子任務邊界
- Isaac Lab Mimic 自動生成更多示範(50–70% 成功率)
- Robomimic BC 訓練(~30 分鐘/1,000 epoch)
- 策略評估(建議測試多個 checkpoint,性能波動大)
關鍵建議(來自 Isaac Lab 官方文件):
- 「保持示範短暫」:決策點越少,自動擴增成功率越高
- 「不要暫停」:平滑連續的動作比精準但有停頓的動作更有利於擴增
- 「直接路徑」:迂迴路線降低擴增成功率
AnyTeleop(2023):統一不同機器人和模擬器的遙操作框架,僅需一般攝像頭(不需手套),視覺手部追蹤直接驅動 SAPIEN、IsaacGym 等模擬器中的機器人。在 8/10 任務上超過專用硬件方案,且模擬中收集的資料訓練 IL 策略表現更好(軌跡更平滑、無碰撞)。
1.2 MimicGen:一次人類示範 → 千倍合成擴增
核心機制:
- 將每個示範分解為「物件中心片段」(每個片段是相對於某個物件的動作序列)
- 對每個片段做剛體 SE(3) 變換適配新的物件位置
- 用 IK + 插值重新連接片段
- 物理仿真執行並過濾失敗軌跡(自動品質控制)
數量關係:200 個人類示範 → 50,000+ 合成示範(250× 放大)
局限性:
- 假設剛體物件(布料、液體不支援)
- 長程任務(>5 子任務)成功率顯著下降
- 合成資料品質低於人工示範(但量可以補質)
2024 年擴展:
- DexMimicGen:支援人形機器人靈巧雙臂(22-DoF)
- SkillMimicGen + SkillGen:在 Isaac Lab Mimic 中整合,結合 GPU 加速運動規劃
- SoftMimicGen:可變形物體操作
1.3 Quest 3 + IsaacSim:低成本全身追蹤系統
來自 Vault 的筆記(ai/Clippings-humanoid-teleop...)記錄了一個$500 Quest 3 + ALVR + SteamVR + IsaacSim 的完整實作:
- 架構:Quest 3 → ALVR → SteamVR → OSC UDP → BodyOscReceiver → IsaacSim
- 捕捉 9 個身體關節 × 7-DoF = 63 個自由度
- WiFi 延遲 <50ms(足夠流暢遙操作)
- 需要 IsaacLab patch:官方穩定版不支援 Quest 3 身體追蹤,需要社群補丁
Isaac Lab 2.3(2025)已官方支援 Quest 3 和 Manus 手套,簡化了這個流程。
二、CV 領域:把人類視頻升格為等效示範
CV 領域的核心貢獻是解決「如何降低人類示範的收集成本」這個問題,方向是減少對真實機器人的依賴。
2.1 EgoMimic:自中心視頻 + 3D 手部追蹤
核心主張:人類和機器人數據都是「embodied demonstration data」,應該平等對待。
硬件:Meta Project Aria 眼鏡(研究設備,非消費品)
- 輕量,戴眼鏡自然執行任務
- 內建 3D 手部追蹤(SLAM + 深度)
- 不需要遙操作設備
資料收集流程:
- 研究者戴 Aria 眼鏡執行任務(完全自然,無機器人在場)
- 錄製:RGB-D 視頻 + 3D 手部關節位置
- 事後:相機外參標定,手部關節重定向到機器人末端執行器位姿
- 混合少量機器人示範共同訓練
關鍵發現:1 小時人類手部資料 > 1 小時機器人遙操作資料
意義:如果這個結論普遍成立,機器人學習社群應該把更多資源投入「提升人類資料收集基礎設施」而非「讓遙操作更快」。
2.2 ARCap:AR 即時回饋解決示範品質問題
問題定義:沒有回饋的情況下,即使有動機的用戶也會產生超出機器人關節限制或導致碰撞的示範,這些問題在收集時不可見,只在機器人重放時才發現。
解決方案:AR 穿透模式下疊加虛擬機器人,提供三層即時回饋:
- 視覺回饋:速度超限變黃色,碰撞變藍色
- 觸覺回饋:控制器震動(碰撞警告)
- 運動學視覺化:虛擬機器人臂即時顯示機器人實際能做到的動作
結果:replay 成功率 +40%,讓新手也能產生部署品質的示範。
硬件全部現成品(總成本約 $2,500):Quest 3 + Rokoko 手套 + RealSense 相機 + 筆電
三、HRI 領域:模擬中研究互動而非軌跡
HRI 使用模擬環境的目的與 Robotics/CV 有本質差異:不是收集示範軌跡,而是研究人類在與機器人互動時的感知、行為和偏好。
3.1 HRI 模擬研究的典型設計
受控實驗設計:
- 參與者在 VR 模擬環境中與機器人互動
- 機器人行為由研究者預先程式化(不一定是 AI 策略)
- 研究者記錄:頭部姿態、注視方向、反應時間、語言反饋
「時間凍結」技術:在互動中隨時暫停場景,在 VR 顯示器內直接向參與者詢問主觀評分(避免事後回憶偏差),收集人類對機器人性能的即時感知數據。
分散式收集:VR 模擬允許研究者、參與者、控制服務器在不同地點,大幅降低大規模用戶研究的成本。
3.2 HRI 資料的潛在機器人學習用途
HRI 研究收集的數據(人類注意力、偏好、修正信號)可以反饋給機器人策略學習:
- PLARE(2510.10903 §7.1.2):用 VLM 替代人類偏好標注,但原始形式可以是 HRI 用戶研究中收集的人類偏好對
- DAgger / HITL:人類在機器人執行時即時修正,是 HRI 和 IL 的交界點
- FABCO:用機器人動力學模型評估示範可行性後加權,可以整合 HRI 用戶研究中收集的「人類認為機器人應該如何做」的偏好
四、三個領域的比較總結
| 維度 | Robotics | CV | HRI |
|---|---|---|---|
| 主要目標 | 收集軌跡示範供 IL 訓練 | 降低示範收集成本 | 研究人類對機器人的感知與偏好 |
| 模擬的角色 | 安全收集場所 + 自動擴增引擎 | 標定/對齊工具(非主要) | 受控互動實驗環境 |
| 人類的角色 | 技術熟練的操作員 | 自然動作的執行者 | 研究參與者 |
| 資料格式 | HDF5 軌跡(觀測+動作) | 視頻 + 手部關節軌跡 | 行為日誌 + 主觀評分 |
| 主要工具 | Isaac Lab、MimicGen、AnyTeleop | Aria 眼鏡、ARCap | VR 平台(Unity、Unreal) |
| Sim-to-Real 策略 | Domain randomization + 少量真實 fine-tuning | 通過人類動作橋接(不依賴 sim physics) | 不適用(HRI 資料本身是真實人類行為) |
五、實作選擇決策框架
目標是訓練 IL 策略,預算有限? → Isaac Lab + SpaceMouse 或 Quest 3(低成本起點)
需要大量多樣化示範(>1,000 episodes)? → MimicGen / SkillMimicGen(從少量人類 demo 自動擴增)
沒有機器人可以用? → EgoMimic(Aria 眼鏡 + 自中心視頻)或 ARCap(AR 模擬虛擬機器人)
使用者是非專家,示範品質差? → ARCap(AR 即時回饋讓新手也能產生高品質示範)
研究人機互動而非策略學習? → VR 模擬平台 + 「時間凍結」問卷技術(HRI 範式)
需要靈巧手 / 全身人形機器人資料? → Quest 3 + Isaac Lab 2.3 官方支援(Manus 手套),或 DexMimicGen
中文版
研究問題
Robotics、CV、HRI 三個領域中,模擬環境中人類操作資料收集的實作方法、工具和側重點各有何不同?
知識地圖
- 模仿學習(IL)的資料需求決定收集目標
- Sim-to-Real 差距是所有模擬收集方法的共同挑戰
- Retargeting 是人類動作 → 機器人控制的關鍵技術橋梁
- XR/VR/AR 技術同時作為輸入設備和回饋介面
- 物理仿真引擎的接觸動力學決定哪些任務可有效模擬
關鍵發現
- 直接遙操作是基礎,Isaac Lab Mimic 提供最完整的開源全流程
- MimicGen 自動擴增讓 200 個人類 demo 變成 50,000+ 合成示範(250×)
- CV 領域發現人類自中心視頻比機器人示範更有學習效率(EgoMimic)
- AR 即時回饋(ARCap)使非專家也能產生高品質示範,+40% 可用率
- HRI 領域用模擬收集的是人類感知和偏好資料,而非軌跡示範
未解問題
- AR 回饋(ARCap)+ 自動擴增(MimicGen)能否整合成更有效的流程?
- 自中心影片收集(EgoMimic)能否擴展到接觸豐富的靈巧任務?
- HRI 中收集的人類偏好資料能否作為 RLHF-like 的機器人策略改進信號?
報告
詳見上方英文版 Report 章節(完整內容)。