Context

Discord 帶讀 LeWM(arXiv:2603.19312)論文,從新手角度逐步拆解 JEPA 架構、Representation Collapse 問題、SIGReg 數學邏輯及其物理意義。

Key Insights

  • Representation Collapse 是 JEPA 的根本問題,不是 bug:Encoder 把所有輸入壓成同一個向量,預測誤差 = 0,但毫無意義。原始 JEPA 用 EMA 老師網路繞過這個問題,屬於 heuristic 而非保證。

  • SIGReg 的物理意義:讓向量空間成為均勻可導航的地圖。強迫高斯分佈不只是防崩塌,更確保類似狀態有適當距離、Predictor 的預測梯度有意義——這是 MPC 能有效搜尋動作的前提。

  • 端對端(end-to-end)的重要性被低估:DINO-WM 用預訓練特徵規避崩塌,但高維輸出(12,288 維 vs LeWM 的 192 維)讓規劃速度差 48 倍,且特徵未必適合具體任務。

  • Token 空間 vs Latent 空間的動作輸出:主流 VLA(RT-2、OpenVLA)透過語言 token 輸出動作數字,本質上是把連續空間塞進離散空間。LeWM/UniVLA 路線直接在 latent space 規劃,繞過離散化損耗,對精度要求高的操作任務更有潛力。

  • 物理直覺的自然浮現:LeWM 在沒有任何物理法則監督的情況下,自然學到「物體不應瞬間傳送」的直覺——這是從純預測任務中 emergent 出來的,支持 latent prediction 作為通用物理理解框架的論點。

  • SIGReg 效果有邊界:Two-Room 導航任務(低維度、簡單狀態空間)反而表現差——高斯約束在低 intrinsic dimensionality 環境是過度約束。這提示 SIGReg 更適合高維複雜操作任務。


PointWorld vs LeWM:兩種世界模型哲學的對比(2026-04-05 補充)

Context: 截取並分析 PointWorld (arXiv:2601.03782) 後,與 LeWM 做系統比較。

JEPA 不限於 2D 影像:JEPA 是通用架構原則(在 latent 空間預測,不在 pixel 空間重建)。LeWM 以 2D RGB 為輸入只是實作選擇,並非定義限制。JEPA 可套用在文字、語音、3D 點雲等任意模態。

兩種世界模型的分野

  • PointWorld:幾何優先(geometry-first)。用 3D 點流同時表示場景狀態與動作,在度量 3D 空間做預測。可解釋、跨本體泛化自然。賭的是「3D 幾何的歸納偏置足以通吃物理任務」。代價:資料需求大(2M 軌跡,1B 參數),部署需要 RGB-D 與準確的 end-effector tracking。

  • LeWM:表示優先(representation-first)。在抽象 latent 空間預測,幾何不可解釋,但統計性質有理論保證(SIGReg)。賭的是「正確正則化的 latent prediction 能自然浮現因果結構」。優勢:極輕量(15M 參數,單 GPU),規劃速度快 48 倍。

互補而非競爭:PointWorld 解決「real-world 泛化與 zero-shot 部署」,LeWM 解決「訓練穩定性與低資源可行性」。未來組合方向:3D 點雲 + JEPA-style latent prediction + SIGReg,可能同時獲得幾何可解釋性與訓練理論保證。

Connections