本文由 AI 分析生成
建立時間: 2026-04-12 來源: https://arxiv.org/abs/2603.03243
Summary
HoMMI proposes a data collection and policy learning framework for whole-body mobile manipulation using robot-free human demonstrations. It extends the UMI (Universal Manipulation Interface) approach with egocentric sensing to capture global context for mobile manipulation, and bridges the human-to-robot embodiment gap via a cross-embodiment hand-eye policy with embodiment-agnostic visual representations and a whole-body controller.
HoMMI 提出以無機器人人類示範收集資料,並設計跨形體的手眼策略來橋接人類與機器人之間的觀測與動作空間差距,讓機器人能夠執行需要雙臂協調、全身運動和主動感知的長時程移動操作任務。
Prerequisites
- UMI (Universal Manipulation Interface) — HoMMI 擴充自 UMI 框架,需理解其「以人類示範直接學習操作策略」的基本設計
- Whole-body control (WBC) — 論文核心之一是設計一個協調整個機器人身體的控制器,需了解 WBC 如何在物理約束下協調多自由度運動
- Egocentric sensing — 以自身視角(第一人稱)擷取感測資料,對理解全域上下文的建構方式至關重要
- Cross-embodiment policy transfer — 人類與機器人的觀測/動作空間差異顯著,需了解 embodiment gap 的挑戰及解法
Core Idea
HoMMI 的核心洞見是:移動操作(mobile manipulation)相比固定底座操作,需要全域情境感知(知道自己在環境中的位置),而標準的 UMI 介面缺乏這個能力。作者在 UMI 介面加入 egocentric sensing,但這引入了更大的人機具身差距。為此,論文設計了三項橋接機制:(1) embodiment-agnostic 視覺表徵讓策略不依賴人類或機器人特定的外觀;(2) relaxed head action representation 放寬對頭部動作的精確對齊需求;(3) 全身控制器將手眼軌跡轉化為受機器人物理約束的協調全身運動。三者合力使模型能從人類示範泛化到機器人執行。
Results
論文結果以專案頁面呈現(影片),未在 arXiv 摘要中列出定量 benchmark 數字。
- 成功完成需要雙臂協調、全身運動、導航、主動感知的長時程任務
- 比較基線:naive egocentric sensing 整合(無 embodiment gap 橋接)
Limitations
- 作者未明示:arXiv 摘要未列出具體限制,需參閱完整論文
- 推測限制:egocentric sensing 的全域定位依賴視覺,可能在特徵稀疏或重複的環境中失效
- 推測限制:資料收集仍需人類穿戴特定裝備(UMI 介面),雖然 robot-free 但非完全無約束
Reproducibility
- Code: 未在摘要中提及,需參閱論文頁面
- Datasets: 人類示範資料,使用 UMI 介面 + egocentric sensing 收集
- Compute: 未知
Insights
HoMMI 延續了 UMI 系列「降低機器人資料收集門檻」的路線,但把範疇擴展到移動平台。這代表 LfD 社群對「全身協調」和「場景級感知」的關注正在上升,而不僅僅是局部的手臂操作。
Cross-embodiment 問題在 VLA/LfD 領域愈來愈核心:如何讓人類示範可遷移到不同形態的機器人,是目前的主要研究瓶頸之一。
Connections
Raw Excerpt
We augment UMI interfaces with egocentric sensing to capture the global context required for mobile manipulation, enabling portable, robot-free, and scalable data collection. However, naively incorporating egocentric sensing introduces a larger human-to-robot embodiment gap in both observation and action spaces, making policy transfer difficult.