ParticleFormer：GNN vs Transformer 粒子動力學、混合損失與世界模型定位

Context

Discord 深度導讀 ParticleFormer（arxiv:2506.23126），從 GNN 的局限出發，拆解 Transformer 替代方案、CD+HD 混合損失設計邏輯，以及系統感知-預測-控制整合，最後與 PointWorld、4D Video Generation 做三方定位比較。

Key Insights

GNN 的根本問題是圖拓撲超參數：TopK 鄰居數量需針對不同材質手調，無法在剛體、可變形、顆粒材質之間通用；Transformer 讓互動結構從資料中隱式學習，消除這個限制
Chamfer Distance 只量平均、Hausdorff Distance 只量最壞：兩者互補——CD 對整體形狀敏感，HD 對邊緣和接觸點的極端偏差敏感；混合損失同時要求局部精度與全域形狀保持
感知是系統最脆弱的點：GroundingDINO + SAM 分割失敗會讓整個動力學預測崩潰，論文對這層的魯棒性討論不足
MPPI 的本質是「用世界模型替代真實試錯」：對 N 條隨機動作序列做模型 rollout，選加權最佳動作；世界模型的價值在於讓虛擬規劃取代昂貴的真實機器人試驗
三種世界模型路線的根本張力：ParticleFormer（物理精度優先，per-scene 訓練）vs PointWorld（泛化廣度優先，in-the-wild scale）vs 4D Video Generation（視角泛化優先，生成後提取動作）；目前沒有一條路同時解決三個維度

Quartz 5

Explorer

ParticleFormer：GNN vs Transformer 粒子動力學、混合損失與世界模型定位

Context

Key Insights

Connections

Graph View

Table of Contents