大規模遙操作機器人資料集：DROID 及同類資料集比較

Research Question

與 DROID 類似的遙操作機器人資料集有哪些？各自的設計哲學、規模、硬體、任務覆蓋有何不同？對模仿學習和 VLA 預訓練有何影響？

Knowledge Map

模仿學習（IL） — 這些資料集的主要下游用途；需理解行為克隆（BC）和動作分塊（ACT）才能判斷資料格式的重要性
VLA 預訓練 — Open-X、DROID、AgiBot World 都是 VLA 大規模預訓練語料；理解 VLA 架構有助於評估資料多樣性需求
Sim-to-Real 遷移 — 部分資料集（RoboMIND）提供數字孿生；理解模擬與真實的差距有助於判斷合成資料的補充價值
遙操作硬體 — VR 控制器（Oculus Quest）、SpaceMouse、外骨骼各有不同的資料品質特性；影響示範的自然性
機器人平台差異 — Franka Panda（7-DoF 精密）vs. WidowX（6-DoF 低成本）vs. 人形機器人；影響任務複雜度上限

Sources Gathered

新 clippings：

Clippings-droid-large-scale-in-the-wild-robot-manipulation-dataset — DROID 本體，RSS 2024
Clippings-bridgedata-v2-dataset-robot-learning-at-scale — BridgeData V2，CoRL 2023
Clippings-robomind-multi-embodiment-manipulation-dataset — RoboMIND，RSS 2025
Clippings-agibot-world-colosseo-large-scale-manipulation-platform — AgiBot World，IROS 2025

Vault 中既有筆記：

Clippings-rh20t-acomprehensive-robotic-dataset-for-learning-diverse-skills-in-one-shot — RH20T，NeurIPS 2023 workshop
robotic-teleoperation-manipulation — 遙操作技術綜合分析
2026-04-05-robot-manipulation-data-collection-methods — 資料收集方法分類框架

Key Findings

設計哲學分為三派： 場景多樣化（DROID：564 場景）、任務多樣化（RoboMIND：479 任務）、規模主義（AgiBot World：1M+ 軌跡）。BridgeData V2 是三者的奠基性前驅，以低成本硬體驗證了「可複現、可擴展」的路線。
遙操作介面趨勢： VR 手持控制器（Oculus Quest 2）已成為 2024-2025 年主流，取代傳統 SpaceMouse/外骨骼。原因是降低操作者學習曲線，並支援 6-DoF 連續控制，使非機器人專業人員也能高效採集。
多機體是 2025 年的主要差異化方向： RoboMIND 在統一協議下跨 4 個平台收集；AgiBot World 使用人形機器人。對比 DROID/BridgeData V2 的單一機器人策略，這反映了市場對「一個策略控制所有機器人」的需求。
數量級跳躍的含義不同： AgiBot World（1M）比 DROID（76k）大 13 倍，但場景數更少（106 vs. 564）。規模與多樣性是對立的設計取捨，而非同一維度的進步。
語言標注是後來居上的需求： 早期資料集（BridgeData V2）主要用 goal image 條件化；2024 年後 DROID 和 RoboMIND 均加入自然語言標注，反映 VLA 模型對語言對齊資料的需求。

Open Questions

Open-X Embodiment 是否仍是 VLA 預訓練的最佳基底，還是 AgiBot World 的規模已足夠取代？
DROID 的「in-the-wild」場景多樣性是否真的帶來比 BridgeData V2 更強的泛化，還是僅在特定評估指標上？
人形機器人資料（RoboMIND Tien Kung、AgiBot World）對標準 6-DoF 機械臂策略是否有遷移價值？
失敗示範（RoboMIND 5k 筆）在實際訓練中的收益有多大？目前缺乏系統性比較。

Report

背景：為什麼需要大規模遙操作資料集

機器人操作策略的泛化能力受限於訓練資料的覆蓋範圍。與 NLP 資料可從互聯網抓取不同，機器人互動資料必須通過物理硬體採集。遙操作（人類通過介面即時控制機器人）是目前品質最高的資料收集方式，因為它直接捕捉人類解決問題的策略，而非腳本化行為。

DROID（2024）的發布是這一領域的里程碑：首次在 13 個機構間分散式協作，產出真正「in-the-wild」的多樣化資料集，而不是複數個獨立的實驗室資料集的聚合。

各資料集深度比較

BridgeData V2（CoRL 2023）— 可複現路線的奠基者

UC Berkeley 發布的 BridgeData V2 是現代大規模遙操作資料集的先行者。使用低成本 WidowX 250 6-DoF 機械臂（~$3k），以 VR 控制器收集 60k 軌跡，覆蓋 24 個環境、13 種技能。

設計邏輯： 讓任何研究者都能用相同硬體在自己的廚房或辦公室採集資料，然後貢獻到同一個資料集。這個「民主化」策略讓 BridgeData V2 成為 Open X-Embodiment 的核心貢獻者之一。

局限： WidowX 的 6-DoF 限制了任務複雜度；24 個環境雖然多樣，但全是廚房/桌面場景，缺乏 DROID 那種跨建築物的真實多樣性。

DROID（RSS 2024）— 場景多樣性的極致

DROID 是「in-the-wild 資料集」概念的最充分實踐：13 個機構、50 名收集者、18 台 Franka Panda 機器人，在 52 棟建築物的 564 個不同場景中採集 76k 軌跡（350 小時）。

遙操作介面： Oculus Quest 2 VR 控制器是 DROID 的關鍵設計選擇。VR 頭戴裝置的 6-DoF 追蹤讓收集者可以直覺地控制機器人末端執行器姿態，同時看到第一視角畫面，大幅降低了操作者的訓練需求。

三相機設置： 兩個可調 ZED2 廣角相機 + 一個 ZED Mini 腕部相機，提供深度資訊和標定。這個多視角設計成為後續資料集的參考標準。

與 BridgeData V2 的核心差異： DROID 使用更高端的 Franka Panda（更高精度、7-DoF），但也帶來更高的硬體成本和維護複雜度。場景多樣性（564）是 BridgeData（24 環境）的 23 倍，但任務數量（86）相對有限。

RH20T（NeurIPS 2023 Workshop）— 力覺感測的先驅

RH20T（已在 vault 中）是同期另一個重要資料集，包含 110k+ 軌跡、147 個任務，最大特色是 6-DoF 力矩感測器資料。這在其他遙操作資料集中是罕見的，對需要接觸力反饋的任務（裝配、插拔）有獨特價值。

RoboMIND（RSS 2025）— 多機體統一協議的代表

RoboMIND 的核心創新是在統一收集協議下跨 4 個機器人平台採集資料：Franka Panda、UR-5e、AgileX 雙臂、天工人形機器人。107k 軌跡、479 個任務是任務多樣性最高的資料集之一。

失敗示範資料庫： 5,000 筆標注失敗軌跡（含失敗原因分類）是目前公開資料集中獨有的，對訓練安全感知策略和從負樣本學習具有重要價值。

數字孿生： 配套 Isaac Sim 環境可以直接在模擬中重現真實收集場景，降低了 sim-to-real 研究的門檻。

AgiBot World（IROS 2025 Finalist）— 規模主義的極致

AgiBot World 以 1M+ 軌跡（2,976 小時）實現了量級跳躍。使用人形機器人，配合多階段人工驗證流水線確保品質。配套的 GO-1 策略（潛在動作表示）比 Open-X 預訓練的策略高 30%，複雜任務成功率超過 60%。

分級釋出策略： Alpha 子集（92k，精選高品質）和 Beta 完整版（1M+）的分層設計平衡了研究者的算力需求和完整性。

選擇資料集的決策框架

研究目標	推薦資料集	理由
真實環境泛化	DROID	564 場景最多樣
跨任務遷移	RoboMIND	479 任務最豐富
VLA 大規模預訓練	AgiBot World	1M+ 規模最大
低成本複現研究	BridgeData V2	WidowX 門檻最低
接觸力/裝配任務	RH20T	唯一含力矩感測
失敗學習/安全訓練	RoboMIND	5k 標注失敗示範
多機體泛化	RoboMIND / Open-X	跨平台覆蓋

趨勢總結

2023-2025 年大規模遙操作資料集的演化軌跡是：

2023： BridgeData V2、RH20T — 單機器人、單機構 or 少數機構，驗證大規模 IL 的可行性

2024： DROID — 跨機構分散式收集，in-the-wild 場景多樣性，VR 遙操作成為標配

2025： RoboMIND（多機體 + 失敗示範）、AgiBot World（量級突破 + 人形機器人）

下一步的競爭維度可能是：雙臂操作資料、觸覺感測整合、可連續更新的開放式資料飛輪（類似 LAION 的眾包模式）。

中文版

研究問題

與 DROID 類似的遙操作機器人資料集有哪些？各自設計哲學、規模、硬體如何？

知識地圖

模仿學習（IL） — 資料集的主要下游用途
VLA 預訓練 — 決定資料集多樣性需求的架構因素
遙操作硬體 — VR 控制器、SpaceMouse、外骨骼各有特性
機器人平台 — Franka、WidowX、人形機器人的能力差異

關鍵發現

三派設計哲學：場景多樣化（DROID）、任務多樣化（RoboMIND）、規模主義（AgiBot World）
VR 手持控制器（Oculus Quest 2）已成 2024-2025 年主流遙操作介面
多機體是 2025 年的主要差異化方向（RoboMIND 跨 4 平台，AgiBot 用人形機器人）
規模與多樣性是對立取捨，非同一維度
語言標注已成必要條件，但多為後期補標

未解問題

AgiBot World 的 1M 規模是否已足夠取代 Open-X 作為 VLA 預訓練基底？
失敗示範資料（RoboMIND）在實際訓練中的定量收益為何？
人形機器人資料對標準機械臂策略是否有遷移價值？

報告

（見上方英文 Report 各節，已含完整繁體中文論述）

Quartz 5

Explorer

大規模遙操作機器人資料集：DROID 及同類資料集比較

大規模遙操作機器人資料集：DROID 及同類資料集比較

Research Question

Knowledge Map

Sources Gathered

Key Findings

Open Questions

Report

背景：為什麼需要大規模遙操作資料集

各資料集深度比較

BridgeData V2（CoRL 2023）— 可複現路線的奠基者

DROID（RSS 2024）— 場景多樣性的極致

RH20T（NeurIPS 2023 Workshop）— 力覺感測的先驅

RoboMIND（RSS 2025）— 多機體統一協議的代表

AgiBot World（IROS 2025 Finalist）— 規模主義的極致

選擇資料集的決策框架

趨勢總結

中文版

研究問題

知識地圖

關鍵發現

未解問題

報告

Graph View

Table of Contents

Backlinks