LfD 操作任務五層分類與靈巧操作邊界問題

核心洞察

延伸 2026-04-19 的三層框架，補充兩個非顯而易見的討論結果：

操作任務可按複雜度分為五層，Lv.1-3 不屬靈巧操作
「靈巧操作」目前在文獻中沒有客觀量化門檻，這是一個真實的研究缺口

操作任務五層分類

層級	代表任務	所需技術支援	文獻依據
Lv.1	Push / Slide / Knock	RGB + 關節狀態	IL Survey baseline
Lv.2	Pick-and-Place、Stack/Sort	RGB + 關節狀態	DROID 76k 大多為此類
Lv.3	開關門/抽屜/旋瓶蓋、倒液體	深度相機 + 物件姿態	—
Lv.4	精密裝配、Peg-in-Hole	力感測（多軸力矩）	VDI P4/P9 訪談
Lv.5	接觸豐富、雙臂、多指、動態、長時程	完整技術支援	UMI、Embodied Survey

靈巧操作 = Lv.4 + Lv.5。Lv.1-3 位置控制即可完成，不需要力控或多指。

靈巧操作的功能性判斷標準（三選一）

文獻沒有統一的量化門檻，但以下三個功能性標準被多篇論文隱含使用：

在手內重定向：不重新抓取即可改變物件在手中的姿態
力控優先於位控：控制目標是力/力矩，而非純位置
三個以上獨立接觸點：同時施加不同方向的力

滿足任一條，大多數文獻會稱為靈巧操作。

為什麼 DoF 和接觸點數量化不可行

DoF 描述硬體能力上限，不反映任務難度（1 DoF 夾爪做 peg-in-hole 精度夠也被稱為靈巧）
接觸點數隨任務動態變化，非硬體固有屬性（5 指手做 pick-place 只用 2 個接觸點）
POMDAR 是目前最嚴謹的嘗試——用任務成功率對比人類表現來量化靈巧度，但評估的是表現結果而非硬體規格，尚未成為主流標準

Motion Capture vs Teleoperation 的分類邊界

判斷關鍵：即時控制機器人 vs 記錄人類動作後離線重定向

歸入 Teleoperation：

SpaceMouse、leader-follower arm（ALOHA/GELLO）
VR 頭戴（Meta Quest + OPEN TEACH）— 機器人即時鏡像
外骨骼/手套用於即時控制機器人

獨立分類（Motion Capture）：

DexCap（EM 手套 + SLAM）— 人類自然操作，事後 retarget
純動作捕捉系統記錄人體骨架後再重播

資料管線的根本差異：

Teleoperation 的品質瓶頸：介面延遲、操作員技術、自由度限制
Motion capture 的品質瓶頸：retargeting 誤差（人手 ≠ 機器手 DoF 差距）

Canvas 視覺化

對應 canvases/lfd-method-tech-task-map.canvas（2026-04-19 建立，2026-04-19 更新為 5 層架構）

Connections

2026-04-19-dexterous-manipulation-lfd-framework — 三層框架與量化數據
2026-04-05-robot-manipulation-data-collection-methods — 採集方法原始分類
robot-manipulation-unified-survey-2510-10903 — Unified Survey 資料框架