核心洞察

七篇論文深度閱讀後,整理出 LfD 資料收集的三層框架,以及靈巧操作(dexterous manipulation)的多維度定義。本筆記記錄其中非顯而易見的對應關係和量化依據。


靈巧操作定義(多論文整合)

IL Survey 精確定義: “the ability of a robotic hand or multi-fingered end-effector to skillfully control, reorient, and manipulate objects through precise, coordinated finger movements and adaptive force modulation.”

五個核心維度:

  • 動作複雜性:超越 pick-and-place,含在手內重定向、工具使用
  • 接觸豐富性:精細力調節與順應性控制
  • 任務時程性:多步驟序列(UMI 洗碗 7 步)
  • 環境多樣性:跨場景/物件泛化
  • 動態適應性:即時應對意外接觸、可形變物件

方法層完整分類

標準四類(VDI/Ravichandar 框架)+ 三個補充:

  1. Kinesthetic teaching(動覺教學)
  2. Teleoperation(遠程操控)—— 含 leader-follower 子類型(ALOHA/GELLO)
  3. Natural demonstration(自然示範)—— UMI 定義此類的技術標準
  4. Passive observation(被動觀測)
  5. Simulation-based generation(模擬生成)—— 獨立類別,Embodied Survey 明確列出
  6. Data augmentation(資料增強)—— MimicGen/DiffGen,不是採集但決定訓練規模
  7. Exoskeleton/glove(外骨骼/手套)—— 可歸入 teleoperation,高 DoF 時需獨立考慮

技術支援層(超出感測器範疇的關鍵面向)

姿態追蹤: AprilTag+EKF(VDI,5Hz) vs ORB-SLAM3+IMU(UMI,6.1mm/3.5°精度)

動作表徵選擇(有量化結果):

  • 絕對軌跡:25% 成功率(UMI 杯子擺放)
  • Delta 動作:80%
  • 相對軌跡:100%(對校準誤差魯棒)

延遲補償: 移除後動態拋擲 87.5% → 57.5%(UMI)

資料品質篩選: 運動學可行性過濾(UMI)、力閾值觸發(VDI)


任務-方法-技術對應(文獻量化支撐)

任務類型最適方法關鍵技術文獻依據
精密裝配Teleoperation(縮放輸入)力感測、輸入縮放VDI P4/P9 訪談
接觸豐富Kinesthetic / Natural多軸力矩感測器VDI rolling task
動態快速動作Natural(UMI)IMU-SLAM、延遲補償UMI:teleop 0 筆有效示範
雙臂協調Teleoperation / NaturalInter-gripper 相對姿態UMI:移除後 70%→30%
長時程序列Natural(多場景)CLIP 預訓練 ViTUMI:ResNet-34 完全失敗 0%
多指靈巧Exoskeleton / glove20+ DoF 捕捉、觸覺回饋Embodied Survey
野外泛化Natural + 眾包魚眼鏡頭、大型視覺編碼器UMI:窄域 fine-tune → 0%
危險環境Teleoperation低延遲、haptic 回饋VDI P6/P7 訪談

各方法核心量化比較

採集效率(UMI 實測):

  • Natural(UMI 夾爪):231 demos/hr(杯子)
  • Teleoperation(SpaceMouse):35 demos/hr
  • Natural:動態拋擲 237/hr;Teleoperation:0/hr

認知負荷(VDI NASA-TLX,越低越好):

  • 遠程操控:44.44 | 動覺教學:28.43 | 自然示範:21.11

用戶偏好排名(VDI,9 位製造業專家):

  • 自然示範:1.56 | 動覺教學:1.89 | 遠程操控:2.56

重要缺口(多篇論文共同指出)

  1. 多指靈巧手示範資料嚴重稀缺(現有資料集以雙指夾爪為主)
  2. 觸覺感測尚未整合進主流示範系統(UMI/VDI 均無觸覺)
  3. 跨本體遷移:UR5→Franka 可行(90%),但真正跨形態遷移仍是開放問題
  4. POMDAR 等評估框架試圖填補缺乏標準化基準的空白

Connections