模擬環境中人類操作資料收集方法

Research Question

在 Robotics、CV、HRI 三個領域中，研究者如何在模擬環境中實作收集人類操作資料，用於機器人模仿學習？各領域的側重點、工具和實作流程有何不同？

Knowledge Map

Imitation Learning (IL) / Behavior Cloning (BC) — 模擬環境中收集的人類操作資料最終目的是訓練 IL 策略；理解 BC 的協變量偏移問題解釋了為何資料品質比資料量更重要
Sim-to-Real Transfer — 模擬中收集的資料在真實環境部署時面臨物理差距；不同領域對此問題的容忍度和解法不同
Teleoperation Retargeting — 人類動作（hand joints、body pose）映射到機器人控制指令是核心技術問題；不同自由度系統的難度差異很大
XR/VR/AR 技術 — 頭戴顯示器（Quest 3、AVP）同時扮演輸入設備和視覺回饋工具的角色；理解 passthrough、追蹤精度、延遲特性是設備選擇的基礎
物理仿真引擎 — MuJoCo、IsaacSim、SAPIEN 各自的接觸動力學特性影響哪些任務可以在模擬中有效採集
HDF5 / LeRobotDataset — 模擬中收集的資料需要標準格式才能跨平台使用；格式選擇影響下游訓練工具的兼容性

Sources Gathered

新收錄來源：

Clippings-mimicgen-data-generation-scalable-robot-learning — MimicGen：少量人類 demo → 50K+ 合成示範
Clippings-arcap-ar-robot-data-collection-system — ARCap：AR 即時回饋提升示範可行性 40%+
Clippings-egomimic-scaling-imitation-learning-egocentric-video — EgoMimic：自中心人類影片作為等效示範資料

Vault 中已有的相關筆記：

Clippings-anyteleop-vision-based-dexterous-teleoperation — AnyTeleop：支援模擬和真實世界的統一視覺遙操作
Clippings-humanoid-teleop-with-full-body-tracking-using-the-meta-quest-3-and-isaacsim-simu — Quest 3 + IsaacSim 全身追蹤技術實作
Clippings-open-teach-versatile-teleoperation-system — OPEN TEACH：VR 手勢示範跨體態收集
Clippings-open-television-teleoperation-immersive-visual-feedback — Open-TeleVision：立體視覺回饋遙操作
robocasa365-large-scale-simulation-generalist-robots — RoboCasa365：MimicGen 合成 1,615 小時合成資料
Clippings-datalab-output-2510.10903v1.pdf — 2510.10903：§7.1 資料收集完整分類

Key Findings

模擬中人類操作資料收集的核心模式是「直接遙操作」：人類透過 SpaceMouse、VR 控制器或手勢追蹤即時控制模擬中的機器人，同步錄製觀測和動作。Isaac Lab Mimic 是目前最完整的開源實作，提供從遙操作到 BC 訓練的全流程工具。
Sim → 自動擴增是放大人類示範的主要策略：MimicGen 把~100 個人類示範放大成 50K+ 合成示範，靠物件中心片段的剛體變換和物理驗證。這是目前最具規模優勢的方法，但品質低於真實人工示範。
VR/AR 設備正在取代傳統鍵盤/SpaceMouse 成為模擬遙操作的主流介面：Quest 3（$500）是性價比最高的選擇；Apple Vision Pro 精度更高但成本是 7 倍。兩者都需要 retargeting 中間層。
CV 領域的貢獻：把人類視頻升格為等效示範：EgoMimic（CMU 2024）顯示 1 小時自中心人類影片比 1 小時機器人示範更有價值；ARCap（Stanford 2024）用 AR 回饋使非專業用戶也能產生高品質機器人可執行示範。
HRI 領域的關注點不同：HRI 研究者更關心模擬中的互動資料（人如何感知和回應機器人），而非示範軌跡本身。VR 模擬環境允許在受控條件下研究人類對機器人行為的感知，並可即時暫停詢問參與者的主觀評分。

Open Questions

ARCap 和 EgoMimic 的 AR/egocentric 方法是否可以整合進 MimicGen 流程，讓一次人類示範既產生高品質 seed demo 又自動擴增？
Isaac Lab Mimic 的 50–70% 生成成功率瓶頸是否可以用更好的 motion planning（SkillGen）突破？
三個領域的模擬資料是否有可能在同一格式（LeRobotDataset）下統一，允許跨域訓練？
HRI 場景中收集到的人類互動資料（頭部姿態、注意力、回應時間）能否作為機器人策略學習的額外監督信號？

Report

前言：為什麼在模擬中收集人類操作資料？

模擬環境作為人類操作資料的收集場所有三個根本優勢：可重置（失敗後立即回到初始狀態）、可平行化（多個實例同時進行）、安全（機器人不會損壞）。但它帶來一個根本矛盾：最終目的是在真實世界運行的策略，而訓練資料來自虛擬世界。這個矛盾是「sim-to-real gap」，三個領域的研究者用不同方式面對和解決它。

一、Robotics 領域：從遙操作到自動擴增的完整流程

1.1 直接模擬遙操作（最基礎方式）

Isaac Lab Mimic 是目前最完整的開源平台，提供從設備接入到 BC 訓練的全套工具。

支援的輸入設備（按精度排序）：

設備	成本	自由度	適用任務
鍵盤	$0	6-DoF（離散）	快速測試、簡單任務
SpaceMouse	$150	6-DoF（連續）	桌面操作（最常用於研究）
Meta Quest 3（CloudXR）	$500	全手部追蹤	靈巧手操作
Manus Gloves	$5,000+	手指精確追蹤	高精度靈巧任務
Apple Vision Pro	$3,500	手部 + 眼動	最高精度，但貴

Isaac Lab Mimic 工作流程：

人類遙操作 → 收集 ~10–200 個示範（HDF5 格式）
手動或自動標注子任務邊界
Isaac Lab Mimic 自動生成更多示範（50–70% 成功率）
Robomimic BC 訓練（~30 分鐘/1,000 epoch）
策略評估（建議測試多個 checkpoint，性能波動大）

關鍵建議（來自 Isaac Lab 官方文件）：

「保持示範短暫」：決策點越少，自動擴增成功率越高
「不要暫停」：平滑連續的動作比精準但有停頓的動作更有利於擴增
「直接路徑」：迂迴路線降低擴增成功率

AnyTeleop（2023）：統一不同機器人和模擬器的遙操作框架，僅需一般攝像頭（不需手套），視覺手部追蹤直接驅動 SAPIEN、IsaacGym 等模擬器中的機器人。在 8/10 任務上超過專用硬件方案，且模擬中收集的資料訓練 IL 策略表現更好（軌跡更平滑、無碰撞）。

1.2 MimicGen：一次人類示範 → 千倍合成擴增

核心機制：

將每個示範分解為「物件中心片段」（每個片段是相對於某個物件的動作序列）
對每個片段做剛體 SE(3) 變換適配新的物件位置
用 IK + 插值重新連接片段
物理仿真執行並過濾失敗軌跡（自動品質控制）

數量關係：200 個人類示範 → 50,000+ 合成示範（250× 放大）

局限性：

假設剛體物件（布料、液體不支援）
長程任務（>5 子任務）成功率顯著下降
合成資料品質低於人工示範（但量可以補質）

2024 年擴展：

DexMimicGen：支援人形機器人靈巧雙臂（22-DoF）
SkillMimicGen + SkillGen：在 Isaac Lab Mimic 中整合，結合 GPU 加速運動規劃
SoftMimicGen：可變形物體操作

1.3 Quest 3 + IsaacSim：低成本全身追蹤系統

來自 Vault 的筆記（ai/Clippings-humanoid-teleop...）記錄了一個$500 Quest 3 + ALVR + SteamVR + IsaacSim 的完整實作：

架構：Quest 3 → ALVR → SteamVR → OSC UDP → BodyOscReceiver → IsaacSim
捕捉 9 個身體關節 × 7-DoF = 63 個自由度
WiFi 延遲 <50ms（足夠流暢遙操作）
需要 IsaacLab patch：官方穩定版不支援 Quest 3 身體追蹤，需要社群補丁

Isaac Lab 2.3（2025）已官方支援 Quest 3 和 Manus 手套，簡化了這個流程。

二、CV 領域：把人類視頻升格為等效示範

CV 領域的核心貢獻是解決「如何降低人類示範的收集成本」這個問題，方向是減少對真實機器人的依賴。

2.1 EgoMimic：自中心視頻 + 3D 手部追蹤

核心主張：人類和機器人數據都是「embodied demonstration data」，應該平等對待。

硬件：Meta Project Aria 眼鏡（研究設備，非消費品）

輕量，戴眼鏡自然執行任務
內建 3D 手部追蹤（SLAM + 深度）
不需要遙操作設備

資料收集流程：

研究者戴 Aria 眼鏡執行任務（完全自然，無機器人在場）
錄製：RGB-D 視頻 + 3D 手部關節位置
事後：相機外參標定，手部關節重定向到機器人末端執行器位姿
混合少量機器人示範共同訓練

關鍵發現：1 小時人類手部資料 > 1 小時機器人遙操作資料

意義：如果這個結論普遍成立，機器人學習社群應該把更多資源投入「提升人類資料收集基礎設施」而非「讓遙操作更快」。

2.2 ARCap：AR 即時回饋解決示範品質問題

問題定義：沒有回饋的情況下，即使有動機的用戶也會產生超出機器人關節限制或導致碰撞的示範，這些問題在收集時不可見，只在機器人重放時才發現。

解決方案：AR 穿透模式下疊加虛擬機器人，提供三層即時回饋：

視覺回饋：速度超限變黃色，碰撞變藍色
觸覺回饋：控制器震動（碰撞警告）
運動學視覺化：虛擬機器人臂即時顯示機器人實際能做到的動作

結果：replay 成功率 +40%，讓新手也能產生部署品質的示範。

硬件全部現成品（總成本約 $2,500）：Quest 3 + Rokoko 手套 + RealSense 相機 + 筆電

三、HRI 領域：模擬中研究互動而非軌跡

HRI 使用模擬環境的目的與 Robotics/CV 有本質差異：不是收集示範軌跡，而是研究人類在與機器人互動時的感知、行為和偏好。

3.1 HRI 模擬研究的典型設計

受控實驗設計：

參與者在 VR 模擬環境中與機器人互動
機器人行為由研究者預先程式化（不一定是 AI 策略）
研究者記錄：頭部姿態、注視方向、反應時間、語言反饋

「時間凍結」技術：在互動中隨時暫停場景，在 VR 顯示器內直接向參與者詢問主觀評分（避免事後回憶偏差），收集人類對機器人性能的即時感知數據。

分散式收集：VR 模擬允許研究者、參與者、控制服務器在不同地點，大幅降低大規模用戶研究的成本。

3.2 HRI 資料的潛在機器人學習用途

HRI 研究收集的數據（人類注意力、偏好、修正信號）可以反饋給機器人策略學習：

PLARE（2510.10903 §7.1.2）：用 VLM 替代人類偏好標注，但原始形式可以是 HRI 用戶研究中收集的人類偏好對
DAgger / HITL：人類在機器人執行時即時修正，是 HRI 和 IL 的交界點
FABCO：用機器人動力學模型評估示範可行性後加權，可以整合 HRI 用戶研究中收集的「人類認為機器人應該如何做」的偏好

四、三個領域的比較總結

維度	Robotics	CV	HRI
主要目標	收集軌跡示範供 IL 訓練	降低示範收集成本	研究人類對機器人的感知與偏好
模擬的角色	安全收集場所 + 自動擴增引擎	標定/對齊工具（非主要）	受控互動實驗環境
人類的角色	技術熟練的操作員	自然動作的執行者	研究參與者
資料格式	HDF5 軌跡（觀測+動作）	視頻 + 手部關節軌跡	行為日誌 + 主觀評分
主要工具	Isaac Lab、MimicGen、AnyTeleop	Aria 眼鏡、ARCap	VR 平台（Unity、Unreal）
Sim-to-Real 策略	Domain randomization + 少量真實 fine-tuning	通過人類動作橋接（不依賴 sim physics）	不適用（HRI 資料本身是真實人類行為）

五、實作選擇決策框架

目標是訓練 IL 策略，預算有限？ → Isaac Lab + SpaceMouse 或 Quest 3（低成本起點）

需要大量多樣化示範（>1,000 episodes）？ → MimicGen / SkillMimicGen（從少量人類 demo 自動擴增）

沒有機器人可以用？ → EgoMimic（Aria 眼鏡 + 自中心視頻）或 ARCap（AR 模擬虛擬機器人）

使用者是非專家，示範品質差？ → ARCap（AR 即時回饋讓新手也能產生高品質示範）

研究人機互動而非策略學習？ → VR 模擬平台 + 「時間凍結」問卷技術（HRI 範式）

需要靈巧手 / 全身人形機器人資料？ → Quest 3 + Isaac Lab 2.3 官方支援（Manus 手套），或 DexMimicGen

中文版

研究問題

Robotics、CV、HRI 三個領域中，模擬環境中人類操作資料收集的實作方法、工具和側重點各有何不同？

知識地圖

模仿學習（IL）的資料需求決定收集目標
Sim-to-Real 差距是所有模擬收集方法的共同挑戰
Retargeting 是人類動作 → 機器人控制的關鍵技術橋梁
XR/VR/AR 技術同時作為輸入設備和回饋介面
物理仿真引擎的接觸動力學決定哪些任務可有效模擬

關鍵發現

直接遙操作是基礎，Isaac Lab Mimic 提供最完整的開源全流程
MimicGen 自動擴增讓 200 個人類 demo 變成 50,000+ 合成示範（250×）
CV 領域發現人類自中心視頻比機器人示範更有學習效率（EgoMimic）
AR 即時回饋（ARCap）使非專家也能產生高品質示範，+40% 可用率
HRI 領域用模擬收集的是人類感知和偏好資料，而非軌跡示範

未解問題

AR 回饋（ARCap）+ 自動擴增（MimicGen）能否整合成更有效的流程？
自中心影片收集（EgoMimic）能否擴展到接觸豐富的靈巧任務？
HRI 中收集的人類偏好資料能否作為 RLHF-like 的機器人策略改進信號？

報告

詳見上方英文版 Report 章節（完整內容）。

Quartz 5

Explorer

模擬環境中人類操作資料收集方法：跨 Robotics、CV、HRI 領域比較