核心洞察
延伸 2026-04-19 的三層框架,補充兩個非顯而易見的討論結果:
- 操作任務可按複雜度分為五層,Lv.1-3 不屬靈巧操作
- 「靈巧操作」目前在文獻中沒有客觀量化門檻,這是一個真實的研究缺口
操作任務五層分類
| 層級 | 代表任務 | 所需技術支援 | 文獻依據 |
|---|---|---|---|
| Lv.1 | Push / Slide / Knock | RGB + 關節狀態 | IL Survey baseline |
| Lv.2 | Pick-and-Place、Stack/Sort | RGB + 關節狀態 | DROID 76k 大多為此類 |
| Lv.3 | 開關門/抽屜/旋瓶蓋、倒液體 | 深度相機 + 物件姿態 | — |
| Lv.4 | 精密裝配、Peg-in-Hole | 力感測(多軸力矩) | VDI P4/P9 訪談 |
| Lv.5 | 接觸豐富、雙臂、多指、動態、長時程 | 完整技術支援 | UMI、Embodied Survey |
靈巧操作 = Lv.4 + Lv.5。Lv.1-3 位置控制即可完成,不需要力控或多指。
靈巧操作的功能性判斷標準(三選一)
文獻沒有統一的量化門檻,但以下三個功能性標準被多篇論文隱含使用:
- 在手內重定向:不重新抓取即可改變物件在手中的姿態
- 力控優先於位控:控制目標是力/力矩,而非純位置
- 三個以上獨立接觸點:同時施加不同方向的力
滿足任一條,大多數文獻會稱為靈巧操作。
為什麼 DoF 和接觸點數量化不可行
- DoF 描述硬體能力上限,不反映任務難度(1 DoF 夾爪做 peg-in-hole 精度夠也被稱為靈巧)
- 接觸點數隨任務動態變化,非硬體固有屬性(5 指手做 pick-place 只用 2 個接觸點)
- POMDAR 是目前最嚴謹的嘗試——用任務成功率對比人類表現來量化靈巧度,但評估的是表現結果而非硬體規格,尚未成為主流標準
Motion Capture vs Teleoperation 的分類邊界
判斷關鍵:即時控制機器人 vs 記錄人類動作後離線重定向
歸入 Teleoperation:
- SpaceMouse、leader-follower arm(ALOHA/GELLO)
- VR 頭戴(Meta Quest + OPEN TEACH)— 機器人即時鏡像
- 外骨骼/手套用於即時控制機器人
獨立分類(Motion Capture):
- DexCap(EM 手套 + SLAM)— 人類自然操作,事後 retarget
- 純動作捕捉系統記錄人體骨架後再重播
資料管線的根本差異:
- Teleoperation 的品質瓶頸:介面延遲、操作員技術、自由度限制
- Motion capture 的品質瓶頸:retargeting 誤差(人手 ≠ 機器手 DoF 差距)
Canvas 視覺化
對應 canvases/lfd-method-tech-task-map.canvas(2026-04-19 建立,2026-04-19 更新為 5 層架構)
Connections
- 2026-04-19-dexterous-manipulation-lfd-framework — 三層框架與量化數據
- 2026-04-05-robot-manipulation-data-collection-methods — 採集方法原始分類
- robot-manipulation-unified-survey-2510-10903 — Unified Survey 資料框架