本文由 AI 分析生成
建立時間: 2026-05-14
Summary
EN: DROID (RSS 2024, arXiv:2403.12945) is the canonical large-scale in-the-wild teleoperation dataset for robot manipulation. Collected across 13 institutions globally (North America, Asia, Europe), it contains 76k trajectories / 350 hours across 564 scenes and 86 tasks, all on Franka Panda 7-DoF arms teleoperated via Oculus Quest 2 VR controllers. Three synchronized RGB cameras (2x ZED2 + 1x ZED Mini wrist) provide rich visual observations with depth and calibration. The key differentiator from prior datasets (BridgeData V2, RoboSet) is the massive diversity of collection environments — real-world scenes across homes, offices, and kitchens worldwide rather than a single lab. 95% of episodes received 3 natural language annotations (added Dec 2024). Full dataset, policy code, and hardware setup guide are open-source.
ZH (繁體中文): DROID(RSS 2024,arXiv:2403.12945)是機器人操作領域最具代表性的大規模 in-the-wild 遙操作資料集。由 13 個機構跨北美、亞洲、歐洲協作收集,包含 76,000 筆示範(350 小時),橫跨 564 個場景、86 個任務,全部使用 Franka Panda 7-DoF 機械臂搭配 Oculus Quest 2 VR 控制器進行遙操作。三個同步 RGB 相機(2x ZED2 廣角 + 1x ZED Mini 腕部)提供深度及標定資訊。與 BridgeData V2、RoboSet 最大的差異在於場景多樣性——資料來自真實家庭、辦公室、廚房,而非單一實驗室。2024 年 12 月更新,95% 的成功示範加入了 3 條自然語言標注。資料集、策略程式碼與硬體配置指南均已開源。
Key Insights
- Insight 1 — VR 遙操作成為主流:Oculus Quest 2 的 6-DoF 連續控制讓收集者無需機器人專業知識即可高效採集;這一設計已被多個後繼資料集(RoboMIND、HoMMI)採用。
- Insight 2 — 環境多樣性 vs. 任務多樣性:DROID 以場景多樣性(564 場景)見長,但任務數(86)少於 RH20T(147)和 RoboMIND(479)。設計哲學是「讓相同任務在不同環境中出現」以提升泛化。
- Insight 3 — 硬體標準化的代價:全部使用 Franka Panda 確保跨機構資料可比較,但限制了跨機器人泛化能力(相較於 Open-X Embodiment 的多機器人設計)。
- Insight 4 — 後處理語言標注:語言標注在 2024 年 12 月後補,而非收集時同步;這一設計決策影響標注與實際動作的對齊品質。
Connections
- bridgedata-v2-dataset-robot-learning-at-scale — 前驅資料集,同樣是 VR 遙操作 + Widowx,但規模小、場景少
- robomind-multi-embodiment-manipulation-dataset — 後繼,在多機器人平台上擴展,任務數多 5 倍
- rh20t-acomprehensive-robotic-dataset-for-learning-diverse-skills-in-one-shot — 同期,加入 6-DoF 力矩感測
- robotic-teleoperation-manipulation — Vault 遙操作技術綜合分析