模擬環境中人類操作資料收集方法

Research Question

在 Robotics、CV、HRI 三個領域中,研究者如何在模擬環境中實作收集人類操作資料,用於機器人模仿學習?各領域的側重點、工具和實作流程有何不同?

Knowledge Map

  • Imitation Learning (IL) / Behavior Cloning (BC) — 模擬環境中收集的人類操作資料最終目的是訓練 IL 策略;理解 BC 的協變量偏移問題解釋了為何資料品質比資料量更重要
  • Sim-to-Real Transfer — 模擬中收集的資料在真實環境部署時面臨物理差距;不同領域對此問題的容忍度和解法不同
  • Teleoperation Retargeting — 人類動作(hand joints、body pose)映射到機器人控制指令是核心技術問題;不同自由度系統的難度差異很大
  • XR/VR/AR 技術 — 頭戴顯示器(Quest 3、AVP)同時扮演輸入設備和視覺回饋工具的角色;理解 passthrough、追蹤精度、延遲特性是設備選擇的基礎
  • 物理仿真引擎 — MuJoCo、IsaacSim、SAPIEN 各自的接觸動力學特性影響哪些任務可以在模擬中有效採集
  • HDF5 / LeRobotDataset — 模擬中收集的資料需要標準格式才能跨平台使用;格式選擇影響下游訓練工具的兼容性

Sources Gathered

新收錄來源:

Vault 中已有的相關筆記:

Key Findings

  1. 模擬中人類操作資料收集的核心模式是「直接遙操作」:人類透過 SpaceMouse、VR 控制器或手勢追蹤即時控制模擬中的機器人,同步錄製觀測和動作。Isaac Lab Mimic 是目前最完整的開源實作,提供從遙操作到 BC 訓練的全流程工具。

  2. Sim → 自動擴增是放大人類示範的主要策略:MimicGen 把~100 個人類示範放大成 50K+ 合成示範,靠物件中心片段的剛體變換和物理驗證。這是目前最具規模優勢的方法,但品質低於真實人工示範。

  3. VR/AR 設備正在取代傳統鍵盤/SpaceMouse 成為模擬遙操作的主流介面:Quest 3($500)是性價比最高的選擇;Apple Vision Pro 精度更高但成本是 7 倍。兩者都需要 retargeting 中間層。

  4. CV 領域的貢獻:把人類視頻升格為等效示範:EgoMimic(CMU 2024)顯示 1 小時自中心人類影片比 1 小時機器人示範更有價值;ARCap(Stanford 2024)用 AR 回饋使非專業用戶也能產生高品質機器人可執行示範。

  5. HRI 領域的關注點不同:HRI 研究者更關心模擬中的互動資料(人如何感知和回應機器人),而非示範軌跡本身。VR 模擬環境允許在受控條件下研究人類對機器人行為的感知,並可即時暫停詢問參與者的主觀評分。

Open Questions

  • ARCap 和 EgoMimic 的 AR/egocentric 方法是否可以整合進 MimicGen 流程,讓一次人類示範既產生高品質 seed demo 又自動擴增?
  • Isaac Lab Mimic 的 50–70% 生成成功率瓶頸是否可以用更好的 motion planning(SkillGen)突破?
  • 三個領域的模擬資料是否有可能在同一格式(LeRobotDataset)下統一,允許跨域訓練?
  • HRI 場景中收集到的人類互動資料(頭部姿態、注意力、回應時間)能否作為機器人策略學習的額外監督信號?

Report

前言:為什麼在模擬中收集人類操作資料?

模擬環境作為人類操作資料的收集場所有三個根本優勢:可重置(失敗後立即回到初始狀態)、可平行化(多個實例同時進行)、安全(機器人不會損壞)。但它帶來一個根本矛盾:最終目的是在真實世界運行的策略,而訓練資料來自虛擬世界。這個矛盾是「sim-to-real gap」,三個領域的研究者用不同方式面對和解決它。


一、Robotics 領域:從遙操作到自動擴增的完整流程

1.1 直接模擬遙操作(最基礎方式)

Isaac Lab Mimic 是目前最完整的開源平台,提供從設備接入到 BC 訓練的全套工具。

支援的輸入設備(按精度排序):

設備成本自由度適用任務
鍵盤$06-DoF(離散)快速測試、簡單任務
SpaceMouse$1506-DoF(連續)桌面操作(最常用於研究)
Meta Quest 3(CloudXR)$500全手部追蹤靈巧手操作
Manus Gloves$5,000+手指精確追蹤高精度靈巧任務
Apple Vision Pro$3,500手部 + 眼動最高精度,但貴

Isaac Lab Mimic 工作流程:

  1. 人類遙操作 → 收集 ~10–200 個示範(HDF5 格式)
  2. 手動或自動標注子任務邊界
  3. Isaac Lab Mimic 自動生成更多示範(50–70% 成功率)
  4. Robomimic BC 訓練(~30 分鐘/1,000 epoch)
  5. 策略評估(建議測試多個 checkpoint,性能波動大)

關鍵建議(來自 Isaac Lab 官方文件):

  • 「保持示範短暫」:決策點越少,自動擴增成功率越高
  • 「不要暫停」:平滑連續的動作比精準但有停頓的動作更有利於擴增
  • 「直接路徑」:迂迴路線降低擴增成功率

AnyTeleop(2023):統一不同機器人和模擬器的遙操作框架,僅需一般攝像頭(不需手套),視覺手部追蹤直接驅動 SAPIEN、IsaacGym 等模擬器中的機器人。在 8/10 任務上超過專用硬件方案,且模擬中收集的資料訓練 IL 策略表現更好(軌跡更平滑、無碰撞)。

1.2 MimicGen:一次人類示範 → 千倍合成擴增

核心機制

  • 將每個示範分解為「物件中心片段」(每個片段是相對於某個物件的動作序列)
  • 對每個片段做剛體 SE(3) 變換適配新的物件位置
  • 用 IK + 插值重新連接片段
  • 物理仿真執行並過濾失敗軌跡(自動品質控制)

數量關係:200 個人類示範 → 50,000+ 合成示範(250× 放大)

局限性

  • 假設剛體物件(布料、液體不支援)
  • 長程任務(>5 子任務)成功率顯著下降
  • 合成資料品質低於人工示範(但量可以補質)

2024 年擴展

  • DexMimicGen:支援人形機器人靈巧雙臂(22-DoF)
  • SkillMimicGen + SkillGen:在 Isaac Lab Mimic 中整合,結合 GPU 加速運動規劃
  • SoftMimicGen:可變形物體操作

1.3 Quest 3 + IsaacSim:低成本全身追蹤系統

來自 Vault 的筆記(ai/Clippings-humanoid-teleop...)記錄了一個$500 Quest 3 + ALVR + SteamVR + IsaacSim 的完整實作:

  • 架構:Quest 3 → ALVR → SteamVR → OSC UDP → BodyOscReceiver → IsaacSim
  • 捕捉 9 個身體關節 × 7-DoF = 63 個自由度
  • WiFi 延遲 <50ms(足夠流暢遙操作)
  • 需要 IsaacLab patch:官方穩定版不支援 Quest 3 身體追蹤,需要社群補丁

Isaac Lab 2.3(2025)已官方支援 Quest 3 和 Manus 手套,簡化了這個流程。


二、CV 領域:把人類視頻升格為等效示範

CV 領域的核心貢獻是解決「如何降低人類示範的收集成本」這個問題,方向是減少對真實機器人的依賴。

2.1 EgoMimic:自中心視頻 + 3D 手部追蹤

核心主張:人類和機器人數據都是「embodied demonstration data」,應該平等對待。

硬件:Meta Project Aria 眼鏡(研究設備,非消費品)

  • 輕量,戴眼鏡自然執行任務
  • 內建 3D 手部追蹤(SLAM + 深度)
  • 不需要遙操作設備

資料收集流程

  1. 研究者戴 Aria 眼鏡執行任務(完全自然,無機器人在場)
  2. 錄製:RGB-D 視頻 + 3D 手部關節位置
  3. 事後:相機外參標定,手部關節重定向到機器人末端執行器位姿
  4. 混合少量機器人示範共同訓練

關鍵發現:1 小時人類手部資料 > 1 小時機器人遙操作資料

意義:如果這個結論普遍成立,機器人學習社群應該把更多資源投入「提升人類資料收集基礎設施」而非「讓遙操作更快」。

2.2 ARCap:AR 即時回饋解決示範品質問題

問題定義:沒有回饋的情況下,即使有動機的用戶也會產生超出機器人關節限制或導致碰撞的示範,這些問題在收集時不可見,只在機器人重放時才發現。

解決方案:AR 穿透模式下疊加虛擬機器人,提供三層即時回饋:

  1. 視覺回饋:速度超限變黃色,碰撞變藍色
  2. 觸覺回饋:控制器震動(碰撞警告)
  3. 運動學視覺化:虛擬機器人臂即時顯示機器人實際能做到的動作

結果:replay 成功率 +40%,讓新手也能產生部署品質的示範。

硬件全部現成品(總成本約 $2,500):Quest 3 + Rokoko 手套 + RealSense 相機 + 筆電


三、HRI 領域:模擬中研究互動而非軌跡

HRI 使用模擬環境的目的與 Robotics/CV 有本質差異:不是收集示範軌跡,而是研究人類在與機器人互動時的感知、行為和偏好

3.1 HRI 模擬研究的典型設計

受控實驗設計

  • 參與者在 VR 模擬環境中與機器人互動
  • 機器人行為由研究者預先程式化(不一定是 AI 策略)
  • 研究者記錄:頭部姿態、注視方向、反應時間、語言反饋

「時間凍結」技術:在互動中隨時暫停場景,在 VR 顯示器內直接向參與者詢問主觀評分(避免事後回憶偏差),收集人類對機器人性能的即時感知數據。

分散式收集:VR 模擬允許研究者、參與者、控制服務器在不同地點,大幅降低大規模用戶研究的成本。

3.2 HRI 資料的潛在機器人學習用途

HRI 研究收集的數據(人類注意力、偏好、修正信號)可以反饋給機器人策略學習:

  • PLARE(2510.10903 §7.1.2):用 VLM 替代人類偏好標注,但原始形式可以是 HRI 用戶研究中收集的人類偏好對
  • DAgger / HITL:人類在機器人執行時即時修正,是 HRI 和 IL 的交界點
  • FABCO:用機器人動力學模型評估示範可行性後加權,可以整合 HRI 用戶研究中收集的「人類認為機器人應該如何做」的偏好

四、三個領域的比較總結

維度RoboticsCVHRI
主要目標收集軌跡示範供 IL 訓練降低示範收集成本研究人類對機器人的感知與偏好
模擬的角色安全收集場所 + 自動擴增引擎標定/對齊工具(非主要)受控互動實驗環境
人類的角色技術熟練的操作員自然動作的執行者研究參與者
資料格式HDF5 軌跡(觀測+動作)視頻 + 手部關節軌跡行為日誌 + 主觀評分
主要工具Isaac Lab、MimicGen、AnyTeleopAria 眼鏡、ARCapVR 平台(Unity、Unreal)
Sim-to-Real 策略Domain randomization + 少量真實 fine-tuning通過人類動作橋接(不依賴 sim physics)不適用(HRI 資料本身是真實人類行為)

五、實作選擇決策框架

目標是訓練 IL 策略,預算有限? → Isaac Lab + SpaceMouse 或 Quest 3(低成本起點)

需要大量多樣化示範(>1,000 episodes)? → MimicGen / SkillMimicGen(從少量人類 demo 自動擴增)

沒有機器人可以用? → EgoMimic(Aria 眼鏡 + 自中心視頻)或 ARCap(AR 模擬虛擬機器人)

使用者是非專家,示範品質差? → ARCap(AR 即時回饋讓新手也能產生高品質示範)

研究人機互動而非策略學習? → VR 模擬平台 + 「時間凍結」問卷技術(HRI 範式)

需要靈巧手 / 全身人形機器人資料? → Quest 3 + Isaac Lab 2.3 官方支援(Manus 手套),或 DexMimicGen


中文版

研究問題

Robotics、CV、HRI 三個領域中,模擬環境中人類操作資料收集的實作方法、工具和側重點各有何不同?

知識地圖

  • 模仿學習(IL)的資料需求決定收集目標
  • Sim-to-Real 差距是所有模擬收集方法的共同挑戰
  • Retargeting 是人類動作 → 機器人控制的關鍵技術橋梁
  • XR/VR/AR 技術同時作為輸入設備和回饋介面
  • 物理仿真引擎的接觸動力學決定哪些任務可有效模擬

關鍵發現

  1. 直接遙操作是基礎,Isaac Lab Mimic 提供最完整的開源全流程
  2. MimicGen 自動擴增讓 200 個人類 demo 變成 50,000+ 合成示範(250×)
  3. CV 領域發現人類自中心視頻比機器人示範更有學習效率(EgoMimic)
  4. AR 即時回饋(ARCap)使非專家也能產生高品質示範,+40% 可用率
  5. HRI 領域用模擬收集的是人類感知和偏好資料,而非軌跡示範

未解問題

  • AR 回饋(ARCap)+ 自動擴增(MimicGen)能否整合成更有效的流程?
  • 自中心影片收集(EgoMimic)能否擴展到接觸豐富的靈巧任務?
  • HRI 中收集的人類偏好資料能否作為 RLHF-like 的機器人策略改進信號?

報告

詳見上方英文版 Report 章節(完整內容)。