Context
Discord 深度導讀 ParticleFormer(arxiv:2506.23126),從 GNN 的局限出發,拆解 Transformer 替代方案、CD+HD 混合損失設計邏輯,以及系統感知-預測-控制整合,最後與 PointWorld、4D Video Generation 做三方定位比較。
Key Insights
- GNN 的根本問題是圖拓撲超參數:TopK 鄰居數量需針對不同材質手調,無法在剛體、可變形、顆粒材質之間通用;Transformer 讓互動結構從資料中隱式學習,消除這個限制
- Chamfer Distance 只量平均、Hausdorff Distance 只量最壞:兩者互補——CD 對整體形狀敏感,HD 對邊緣和接觸點的極端偏差敏感;混合損失同時要求局部精度與全域形狀保持
- 感知是系統最脆弱的點:GroundingDINO + SAM 分割失敗會讓整個動力學預測崩潰,論文對這層的魯棒性討論不足
- MPPI 的本質是「用世界模型替代真實試錯」:對 N 條隨機動作序列做模型 rollout,選加權最佳動作;世界模型的價值在於讓虛擬規劃取代昂貴的真實機器人試驗
- 三種世界模型路線的根本張力:ParticleFormer(物理精度優先,per-scene 訓練)vs PointWorld(泛化廣度優先,in-the-wild scale)vs 4D Video Generation(視角泛化優先,生成後提取動作);目前沒有一條路同時解決三個維度