Context

Discord 對話中整理了機器人學習的幾個核心概念,釐清了 VLA、VLM、Diffusion Policy、Transformer 的層次關係,以及六軸與七軸機械手臂的工程取捨。

Key Insights

  • Diffusion Policy 是 VLA 的 Action Head:VLM(PaLI-X、LLaMA 等)負責理解語言和場景(「腦」),Diffusion Policy 負責生成連續動作軌跡(「手」)。π₀ 是最清楚展示此架構的代表:VLM 輸出的語意向量 condition 在擴散去噪過程上,聯合訓練。

  • Autoregressive vs Diffusion 的根本差異:Autoregressive VLA(如 OpenVLA)需要離散化動作 token,損失精度且難以表達多模態動作分佈;Diffusion-based 直接生成連續動作 chunk,對「同一任務有多種合理做法」的場景表現更好。

  • 七軸的核心優勢是 Self-Motion:七軸機械臂可在末端位置不變的情況下重新排列手臂構型(肘關節繞肩腕連線旋轉),可繞障礙物、避 Kinematic Singularity。六軸 Inverse Kinematics 有解析解,七軸需要優化演算法選最佳構型——這是計算複雜度上升的根本原因。

  • Franka Panda 是七軸在研究界的代名詞:7-DOF 冗餘特性使它成為 Dexterous Manipulation 和 LfD 研究的標準平台。

  • Sim-to-Real 學習路線:MIT RialTo(Real-to-Sim-to-Real)用手機掃描建 Digital Twin 訓練,代表 sim-to-real gap 縮小的方向是「提高模擬的 scene fidelity」而非僅靠 domain randomization。

Connections