大規模遙操作機器人資料集:DROID 及同類資料集比較

Research Question

與 DROID 類似的遙操作機器人資料集有哪些?各自的設計哲學、規模、硬體、任務覆蓋有何不同?對模仿學習和 VLA 預訓練有何影響?

Knowledge Map

  • 模仿學習(IL) — 這些資料集的主要下游用途;需理解行為克隆(BC)和動作分塊(ACT)才能判斷資料格式的重要性
  • VLA 預訓練 — Open-X、DROID、AgiBot World 都是 VLA 大規模預訓練語料;理解 VLA 架構有助於評估資料多樣性需求
  • Sim-to-Real 遷移 — 部分資料集(RoboMIND)提供數字孿生;理解模擬與真實的差距有助於判斷合成資料的補充價值
  • 遙操作硬體 — VR 控制器(Oculus Quest)、SpaceMouse、外骨骼各有不同的資料品質特性;影響示範的自然性
  • 機器人平台差異 — Franka Panda(7-DoF 精密)vs. WidowX(6-DoF 低成本)vs. 人形機器人;影響任務複雜度上限

Sources Gathered

新 clippings:

Vault 中既有筆記:

Key Findings

  1. 設計哲學分為三派: 場景多樣化(DROID:564 場景)、任務多樣化(RoboMIND:479 任務)、規模主義(AgiBot World:1M+ 軌跡)。BridgeData V2 是三者的奠基性前驅,以低成本硬體驗證了「可複現、可擴展」的路線。

  2. 遙操作介面趨勢: VR 手持控制器(Oculus Quest 2)已成為 2024-2025 年主流,取代傳統 SpaceMouse/外骨骼。原因是降低操作者學習曲線,並支援 6-DoF 連續控制,使非機器人專業人員也能高效採集。

  3. 多機體是 2025 年的主要差異化方向: RoboMIND 在統一協議下跨 4 個平台收集;AgiBot World 使用人形機器人。對比 DROID/BridgeData V2 的單一機器人策略,這反映了市場對「一個策略控制所有機器人」的需求。

  4. 數量級跳躍的含義不同: AgiBot World(1M)比 DROID(76k)大 13 倍,但場景數更少(106 vs. 564)。規模與多樣性是對立的設計取捨,而非同一維度的進步。

  5. 語言標注是後來居上的需求: 早期資料集(BridgeData V2)主要用 goal image 條件化;2024 年後 DROID 和 RoboMIND 均加入自然語言標注,反映 VLA 模型對語言對齊資料的需求。

Open Questions

  • Open-X Embodiment 是否仍是 VLA 預訓練的最佳基底,還是 AgiBot World 的規模已足夠取代?
  • DROID 的「in-the-wild」場景多樣性是否真的帶來比 BridgeData V2 更強的泛化,還是僅在特定評估指標上?
  • 人形機器人資料(RoboMIND Tien Kung、AgiBot World)對標準 6-DoF 機械臂策略是否有遷移價值?
  • 失敗示範(RoboMIND 5k 筆)在實際訓練中的收益有多大?目前缺乏系統性比較。

Report

背景:為什麼需要大規模遙操作資料集

機器人操作策略的泛化能力受限於訓練資料的覆蓋範圍。與 NLP 資料可從互聯網抓取不同,機器人互動資料必須通過物理硬體採集。遙操作(人類通過介面即時控制機器人)是目前品質最高的資料收集方式,因為它直接捕捉人類解決問題的策略,而非腳本化行為。

DROID(2024)的發布是這一領域的里程碑:首次在 13 個機構間分散式協作,產出真正「in-the-wild」的多樣化資料集,而不是複數個獨立的實驗室資料集的聚合。


各資料集深度比較

BridgeData V2(CoRL 2023)— 可複現路線的奠基者

UC Berkeley 發布的 BridgeData V2 是現代大規模遙操作資料集的先行者。使用低成本 WidowX 250 6-DoF 機械臂(~$3k),以 VR 控制器收集 60k 軌跡,覆蓋 24 個環境、13 種技能。

設計邏輯: 讓任何研究者都能用相同硬體在自己的廚房或辦公室採集資料,然後貢獻到同一個資料集。這個「民主化」策略讓 BridgeData V2 成為 Open X-Embodiment 的核心貢獻者之一。

局限: WidowX 的 6-DoF 限制了任務複雜度;24 個環境雖然多樣,但全是廚房/桌面場景,缺乏 DROID 那種跨建築物的真實多樣性。


DROID(RSS 2024)— 場景多樣性的極致

DROID 是「in-the-wild 資料集」概念的最充分實踐:13 個機構、50 名收集者、18 台 Franka Panda 機器人,在 52 棟建築物的 564 個不同場景中採集 76k 軌跡(350 小時)。

遙操作介面: Oculus Quest 2 VR 控制器是 DROID 的關鍵設計選擇。VR 頭戴裝置的 6-DoF 追蹤讓收集者可以直覺地控制機器人末端執行器姿態,同時看到第一視角畫面,大幅降低了操作者的訓練需求。

三相機設置: 兩個可調 ZED2 廣角相機 + 一個 ZED Mini 腕部相機,提供深度資訊和標定。這個多視角設計成為後續資料集的參考標準。

與 BridgeData V2 的核心差異: DROID 使用更高端的 Franka Panda(更高精度、7-DoF),但也帶來更高的硬體成本和維護複雜度。場景多樣性(564)是 BridgeData(24 環境)的 23 倍,但任務數量(86)相對有限。


RH20T(NeurIPS 2023 Workshop)— 力覺感測的先驅

RH20T(已在 vault 中)是同期另一個重要資料集,包含 110k+ 軌跡、147 個任務,最大特色是 6-DoF 力矩感測器資料。這在其他遙操作資料集中是罕見的,對需要接觸力反饋的任務(裝配、插拔)有獨特價值。


RoboMIND(RSS 2025)— 多機體統一協議的代表

RoboMIND 的核心創新是在統一收集協議下跨 4 個機器人平台採集資料:Franka Panda、UR-5e、AgileX 雙臂、天工人形機器人。107k 軌跡、479 個任務是任務多樣性最高的資料集之一。

失敗示範資料庫: 5,000 筆標注失敗軌跡(含失敗原因分類)是目前公開資料集中獨有的,對訓練安全感知策略和從負樣本學習具有重要價值。

數字孿生: 配套 Isaac Sim 環境可以直接在模擬中重現真實收集場景,降低了 sim-to-real 研究的門檻。


AgiBot World(IROS 2025 Finalist)— 規模主義的極致

AgiBot World 以 1M+ 軌跡(2,976 小時)實現了量級跳躍。使用人形機器人,配合多階段人工驗證流水線確保品質。配套的 GO-1 策略(潛在動作表示)比 Open-X 預訓練的策略高 30%,複雜任務成功率超過 60%。

分級釋出策略: Alpha 子集(92k,精選高品質)和 Beta 完整版(1M+)的分層設計平衡了研究者的算力需求和完整性。


選擇資料集的決策框架

研究目標推薦資料集理由
真實環境泛化DROID564 場景最多樣
跨任務遷移RoboMIND479 任務最豐富
VLA 大規模預訓練AgiBot World1M+ 規模最大
低成本複現研究BridgeData V2WidowX 門檻最低
接觸力/裝配任務RH20T唯一含力矩感測
失敗學習/安全訓練RoboMIND5k 標注失敗示範
多機體泛化RoboMIND / Open-X跨平台覆蓋

趨勢總結

2023-2025 年大規模遙操作資料集的演化軌跡是:

2023: BridgeData V2、RH20T — 單機器人、單機構 or 少數機構,驗證大規模 IL 的可行性

2024: DROID — 跨機構分散式收集,in-the-wild 場景多樣性,VR 遙操作成為標配

2025: RoboMIND(多機體 + 失敗示範)、AgiBot World(量級突破 + 人形機器人)

下一步的競爭維度可能是:雙臂操作資料、觸覺感測整合、可連續更新的開放式資料飛輪(類似 LAION 的眾包模式)。


中文版

研究問題

與 DROID 類似的遙操作機器人資料集有哪些?各自設計哲學、規模、硬體如何?

知識地圖

  • 模仿學習(IL) — 資料集的主要下游用途
  • VLA 預訓練 — 決定資料集多樣性需求的架構因素
  • 遙操作硬體 — VR 控制器、SpaceMouse、外骨骼各有特性
  • 機器人平台 — Franka、WidowX、人形機器人的能力差異

關鍵發現

  1. 三派設計哲學:場景多樣化(DROID)、任務多樣化(RoboMIND)、規模主義(AgiBot World)
  2. VR 手持控制器(Oculus Quest 2)已成 2024-2025 年主流遙操作介面
  3. 多機體是 2025 年的主要差異化方向(RoboMIND 跨 4 平台,AgiBot 用人形機器人)
  4. 規模與多樣性是對立取捨,非同一維度
  5. 語言標注已成必要條件,但多為後期補標

未解問題

  • AgiBot World 的 1M 規模是否已足夠取代 Open-X 作為 VLA 預訓練基底?
  • 失敗示範資料(RoboMIND)在實際訓練中的定量收益為何?
  • 人形機器人資料對標準機械臂策略是否有遷移價值?

報告

(見上方英文 Report 各節,已含完整繁體中文論述)