核心洞察

延伸 2026-04-19 的三層框架,補充兩個非顯而易見的討論結果:

  1. 操作任務可按複雜度分為五層,Lv.1-3 不屬靈巧操作
  2. 「靈巧操作」目前在文獻中沒有客觀量化門檻,這是一個真實的研究缺口

操作任務五層分類

層級代表任務所需技術支援文獻依據
Lv.1Push / Slide / KnockRGB + 關節狀態IL Survey baseline
Lv.2Pick-and-Place、Stack/SortRGB + 關節狀態DROID 76k 大多為此類
Lv.3開關門/抽屜/旋瓶蓋、倒液體深度相機 + 物件姿態
Lv.4精密裝配、Peg-in-Hole力感測(多軸力矩)VDI P4/P9 訪談
Lv.5接觸豐富、雙臂、多指、動態、長時程完整技術支援UMI、Embodied Survey

靈巧操作 = Lv.4 + Lv.5。Lv.1-3 位置控制即可完成,不需要力控或多指。


靈巧操作的功能性判斷標準(三選一)

文獻沒有統一的量化門檻,但以下三個功能性標準被多篇論文隱含使用:

  1. 在手內重定向:不重新抓取即可改變物件在手中的姿態
  2. 力控優先於位控:控制目標是力/力矩,而非純位置
  3. 三個以上獨立接觸點:同時施加不同方向的力

滿足任一條,大多數文獻會稱為靈巧操作。

為什麼 DoF 和接觸點數量化不可行

  • DoF 描述硬體能力上限,不反映任務難度(1 DoF 夾爪做 peg-in-hole 精度夠也被稱為靈巧)
  • 接觸點數隨任務動態變化,非硬體固有屬性(5 指手做 pick-place 只用 2 個接觸點)
  • POMDAR 是目前最嚴謹的嘗試——用任務成功率對比人類表現來量化靈巧度,但評估的是表現結果而非硬體規格,尚未成為主流標準

Motion Capture vs Teleoperation 的分類邊界

判斷關鍵:即時控制機器人 vs 記錄人類動作後離線重定向

歸入 Teleoperation:

  • SpaceMouse、leader-follower arm(ALOHA/GELLO)
  • VR 頭戴(Meta Quest + OPEN TEACH)— 機器人即時鏡像
  • 外骨骼/手套用於即時控制機器人

獨立分類(Motion Capture):

  • DexCap(EM 手套 + SLAM)— 人類自然操作,事後 retarget
  • 純動作捕捉系統記錄人體骨架後再重播

資料管線的根本差異:

  • Teleoperation 的品質瓶頸:介面延遲、操作員技術、自由度限制
  • Motion capture 的品質瓶頸:retargeting 誤差(人手 ≠ 機器手 DoF 差距)

Canvas 視覺化

對應 canvases/lfd-method-tech-task-map.canvas(2026-04-19 建立,2026-04-19 更新為 5 層架構)


Connections