本文由 AI 分析生成
建立時間: 2026-03-29 來源: https://hommi-robot.github.io/
Summary
HoMMI (Whole-Body Mobile Manipulation Interface) is a data collection and policy learning framework from Stanford + Toyota Research Institute that learns whole-body mobile manipulation directly from robot-free human demonstrations. By augmenting UMI grippers with egocentric sensing (wrist + head cameras), the system captures global navigation context without teleoperation equipment. A cross-embodiment policy design—including embodiment-agnostic 3D visual representation, relaxed head action (look-at point instead of 6-DoF pose), and a whole-body controller—bridges the human-to-robot gap.
HoMMI 讓機器人直接從人類示範(不需遙操作設備)學習全身行動操作。關鍵在於三層跨身體性(cross-embodiment)設計:3D 視覺表示、放鬆的頭部動作表示(look-at point)、以及考慮機器人物理限制的全身控制器。
Key Points
- Robot-free data collection:操作員手持 UMI gripper(加頭戴式相機)在野外採集示範,不需要機器人硬體在場,大幅降低資料收集門檻與成本
- Embodiment gap 的三個層面:視覺gap(人與機器人視角不同、手臂外觀不同)、運動學gap(機器人頭比人低、頸部只有2-DoF)— HoMMI 分別針對每個 gap 設計解法
- 3D 視覺表示:以 DINO-ViT 為 backbone,用 3D 點作位置編碼(而非 3D backbone),讓相同的視覺表示在人類和機器人視角間可遷移,並遮罩掉身體特定的手臂/軀幹觀測
- Relaxed head action:將機器人凝視表示為 3D look-at point 而非 6-DoF 頭部姿態,避免過度約束機器人模仿人類頭部運動
- 關鍵實驗發現:僅有手腕相機無法搜尋物體或協調雙臂;僅有頭部 RGB 相機無法完成精確抓取;主動頸部控制(active perception)是長時域任務的必要條件
Insights
「Robot-free data collection」是 2024-2026 年 manipulation 研究的核心主題,HoMMI、UMI、DexWild 等都在試圖打破「需要機器人才能採集機器人資料」的循環。HoMMI 的貢獻是將這個概念延伸到需要全身協調(移動底座 + 雙臂 + 主動頭部)的任務。
放鬆動作表示(relaxed head action)的思路很有啟發性:不要求機器人完全複製人類動作,只要求它達到相同的功能效果(看向正確的地方)。這種「功能對齊而非形態對齊」的設計哲學可以推廣到其他跨身體性問題。
Connections
- Clippings-dexwild-dexterous-human-interactions-for-in-the-wild-robot-policies — 同樣主打 in-the-wild 人類示範的 dexterous manipulation 框架
- Clippings-open-teach-versatile-teleoperation-system — 遙操作替代方案,與 HoMMI 的 robot-free 路線形成對比
- Clippings-cross-embodiment-robot-manipulation-skill-transfer-using-latent-space-alignment — 跨身體性遷移的另一種方法
- mobile-manipulation
- imitation-learning
- embodiment-gap
Raw Excerpt
“We learn whole-body mobile manipulation capabilities directly from human demonstrations, without ANY teleoperation data.”