Summary

A detailed recap of the first San Francisco Robotics World Model Reading Club (March 28, 2026), authored by Junfan Zhu. The thread synthesizes the paradigm shift from policy learning (VLA: observation → action) to world model learning (WAM: latent world → future trajectories → actions). The central bottleneck identified is the absence of a unified latent interface that aligns perception, geometry, physics, and action — and the field’s current fragmentation across these dimensions.

機器人世界模型閱讀俱樂部第一期舊金山場的詳細回顧。核心論點:機器人學正從學習策略轉向學習世界模型,但目前缺乏統一的潛在介面來對齊感知、幾何、物理與動作。主要瓶頸不是模型規模,而是表示、資料與物理模擬的根本性缺口。

Key Points

  • VLA → WAM 範式轉移:VLA 是 observation → action 的直接映射;WAM(World Action Model)是 latent world → future trajectories → controllable actions,強調可控模擬而非反應式策略。NVIDIA Gr00t N2 是目前最強的端到端範例
  • 顯式 3D 作為骨幹:像素表示高度冗餘、不具幾何感知,新方向是點雲/網格 + 物件中心子物件表示 + 幾何感知選擇性追蹤(接觸點、可操作性、關節部件)
  • D4RT 統一潛在空間:動態 4D 重建與追蹤系統,透過統一前饋 Transformer 架構將深度、時空對應、相機參數聯合推斷,達到 300× 加速,可用於實時機器人應用
  • Sim2Real 的物理差距:主要障礙不是視覺,而是物理——不連續接觸動力學、可形變物體高自由度、非可微摩擦。「仿真就緒」資料缺乏統一定義
  • FastWAM 推理優化:訓練時保留視訊協同訓練,測試時跳過未來預測(rollout)。「控制只需要選擇可行軌跡,不需要完整建模未來分佈」,大幅降低延遲而不損性能
  • 資料瓶頸:機器人界沒有類似網路的資料飛輪,存在「十萬年資料缺口」;跨體現學習需要對齊座標系、動作空間、運動學約束
  • 核心結論:瓶頸不在模型規模,而在統一表示、資料飛輪、推理與控制的不匹配、未解決的物理問題以及碎片化的體現

Insights

「現實無法像網路一樣被爬取,必須被感知、互動與模擬。」這句話精確描述了機器人學習與 LLM scaling 的根本差異——LLM 的訓練資料已存在於網路,機器人的訓練資料必須被主動產生。

FastWAM 的設計哲學值得關注:推理 ≠ 控制。WAM 在訓練時需要世界模型,但在控制時只需要從已學到的潛在空間中採樣可行軌跡。這個「訓練時的任務與推理時的任務可以不同」的原則,與 speculative decoding 等技術背後的邏輯類似。

凸分解(convex decomposition)作為幾何重建到物理模擬的橋樑是一個低調但重要的工程洞見:它把開放世界的 3D 形狀分解為凸體聯合,讓碰撞代理變得高效,加速模擬器中的碰撞檢測約 5 倍。

Connections

Raw Excerpt

“Reality cannot be scraped like the internet. It must be sensed, interacted with, and simulated.”