Robot Learning 概念地圖：VLA、Diffusion Policy 架構關係與六/七軸手臂比較

Context

Discord 對話中整理了機器人學習的幾個核心概念，釐清了 VLA、VLM、Diffusion Policy、Transformer 的層次關係，以及六軸與七軸機械手臂的工程取捨。

Diffusion Policy 是 VLA 的 Action Head：VLM（PaLI-X、LLaMA 等）負責理解語言和場景（「腦」），Diffusion Policy 負責生成連續動作軌跡（「手」）。π₀ 是最清楚展示此架構的代表：VLM 輸出的語意向量 condition 在擴散去噪過程上，聯合訓練。
Autoregressive vs Diffusion 的根本差異：Autoregressive VLA（如 OpenVLA）需要離散化動作 token，損失精度且難以表達多模態動作分佈；Diffusion-based 直接生成連續動作 chunk，對「同一任務有多種合理做法」的場景表現更好。
七軸的核心優勢是 Self-Motion：七軸機械臂可在末端位置不變的情況下重新排列手臂構型（肘關節繞肩腕連線旋轉），可繞障礙物、避 Kinematic Singularity。六軸 Inverse Kinematics 有解析解，七軸需要優化演算法選最佳構型——這是計算複雜度上升的根本原因。
Franka Panda 是七軸在研究界的代名詞：7-DOF 冗餘特性使它成為 Dexterous Manipulation 和 LfD 研究的標準平台。
Sim-to-Real 學習路線：MIT RialTo（Real-to-Sim-to-Real）用手機掃描建 Digital Twin 訓練，代表 sim-to-real gap 縮小的方向是「提高模擬的 scene fidelity」而非僅靠 domain randomization。