LeWM：JEPA 崩塌問題與 SIGReg 的物理直覺

Context

Discord 帶讀 LeWM（arXiv:2603.19312）論文，從新手角度逐步拆解 JEPA 架構、Representation Collapse 問題、SIGReg 數學邏輯及其物理意義。

Representation Collapse 是 JEPA 的根本問題，不是 bug：Encoder 把所有輸入壓成同一個向量，預測誤差 = 0，但毫無意義。原始 JEPA 用 EMA 老師網路繞過這個問題，屬於 heuristic 而非保證。
SIGReg 的物理意義：讓向量空間成為均勻可導航的地圖。強迫高斯分佈不只是防崩塌，更確保類似狀態有適當距離、Predictor 的預測梯度有意義——這是 MPC 能有效搜尋動作的前提。
端對端（end-to-end）的重要性被低估：DINO-WM 用預訓練特徵規避崩塌，但高維輸出（12,288 維 vs LeWM 的 192 維）讓規劃速度差 48 倍，且特徵未必適合具體任務。
Token 空間 vs Latent 空間的動作輸出：主流 VLA（RT-2、OpenVLA）透過語言 token 輸出動作數字，本質上是把連續空間塞進離散空間。LeWM/UniVLA 路線直接在 latent space 規劃，繞過離散化損耗，對精度要求高的操作任務更有潛力。
物理直覺的自然浮現：LeWM 在沒有任何物理法則監督的情況下，自然學到「物體不應瞬間傳送」的直覺——這是從純預測任務中 emergent 出來的，支持 latent prediction 作為通用物理理解框架的論點。
SIGReg 效果有邊界：Two-Room 導航任務（低維度、簡單狀態空間）反而表現差——高斯約束在低 intrinsic dimensionality 環境是過度約束。這提示 SIGReg 更適合高維複雜操作任務。

Context: 截取並分析 PointWorld (arXiv:2601.03782) 後，與 LeWM 做系統比較。

JEPA 不限於 2D 影像：JEPA 是通用架構原則（在 latent 空間預測，不在 pixel 空間重建）。LeWM 以 2D RGB 為輸入只是實作選擇，並非定義限制。JEPA 可套用在文字、語音、3D 點雲等任意模態。

兩種世界模型的分野：

PointWorld：幾何優先（geometry-first）。用 3D 點流同時表示場景狀態與動作，在度量 3D 空間做預測。可解釋、跨本體泛化自然。賭的是「3D 幾何的歸納偏置足以通吃物理任務」。代價：資料需求大（2M 軌跡，1B 參數），部署需要 RGB-D 與準確的 end-effector tracking。
LeWM：表示優先（representation-first）。在抽象 latent 空間預測，幾何不可解釋，但統計性質有理論保證（SIGReg）。賭的是「正確正則化的 latent prediction 能自然浮現因果結構」。優勢：極輕量（15M 參數，單 GPU），規劃速度快 48 倍。

互補而非競爭：PointWorld 解決「real-world 泛化與 zero-shot 部署」，LeWM 解決「訓練穩定性與低資源可行性」。未來組合方向：3D 點雲 + JEPA-style latent prediction + SIGReg，可能同時獲得幾何可解釋性與訓練理論保證。