US 專利地圖：3D/4D 重建 × 機器人操作與安全

Context

Discord 討論中對「3D/4D 生成方法 × 機器人操作 × 安全評估」這個研究方向做了系統性的美國專利搜尋，目的是確認現有技術佈局與空白地帶，為專利申請策略提供依據。

已有對應美國專利的方向

機器人安全（HRI 碰撞）

US12420422 — Situation-aware Safety Assessment of Robot-Human Activities：視覺感測 → 碰撞機率 × 嚴重程度 → risk score → 動作控制，是目前「視覺評估人機碰撞安全」最直接的授證案
US11872702B2 — Robot Interaction with Human Co-workers（Dexai，2024）：3D 模型幾何重疊 + 神經網路預測碰撞

AI 生成安全約束

US20250042032A1（2025 申請中）：LLM prompt + 環境文字描述 → 安全約束 → 修改控制信號；輸入端是文字，不是視覺圖像
US20240253224A1 / US20240359319A1（Sanctuary AI，2024）：LLM 驅動機器人系統，IPC 標記安全裝置分類

仿真驅動控制

US11938638B2 — Simulation Driven Robotic Control（Google/GDM，2024）：3D 點雲模擬環境 → 候選動作評估 → 執行真實機器人；目前最接近「pre-execution rollout」概念的授證案

Transformer + 視覺語言 → 動作

US20240189994A1 — Real-world Robot Control Using Transformer NNs（Google，2024）：對應 RT 系列，NPL 引用 Attention is all you need、EfficientNet
US20240078429A1 — Control Policies for Robotic Agents（Google，2024）：learned predictive model + MPC

Diffusion Policy

US20250312914A1 — Transformer Diffusion for Robotic Task Learning（2025）
US20250353169A1 — Semi-supervised Learning of Robot Control Policies（2025）：NPL 只引用 RT-1 / RT-2，沒有引用 Diffusion Policy 原始論文

3D 重建基礎技術

US12145617B2 — 3D Surface Reconstruction with Point Cloud Densification Using AI（NVIDIA）

確認的空白地帶

3DGS / NeRF 直接接機器人操作規劃 — 完全空白
Video generation 做 pre-execution 模擬 — 完全空白（V-Dreamer、Cosmos Policy、GPC 均只有學術論文）
Point cloud generation 做操作規劃 — 幾乎空白（US11938638B2 用的是靜態點雲，不是生成式）
VLM 視覺評估機器人動作安全性（看圖評分）— 空白；US20250042032A1 最接近但輸入是文字
3D/4D 幾何世界模型 × 預執行安全評分 整合管線 — 空白

重要方法論發現

機器人 ML 領域的專利普遍不引用學術論文，claims 以廣泛技術概念描述為主，沒有標準 NPL 引用格式。這與生醫／化學領域差異很大。因此「從學術論文引用反查專利」的方法在這個領域效果有限，需改用 IPC 分類號 + 大公司 assignee 過濾。

IPC 分類號參考

技術方向	主要 IPC
Video / 影像生成	G06T 13/xx
3D 模型 / 點雲	G06T 17/xx
深度學習生成模型	G06N 3/045
機器人程式控制	B25J 9/16
機器人模擬	B25J 9/1697
機器人安全裝置	B25J 19/06
ML 模擬	G06F 30/27

搜尋策略：IPC:B25J9/1697 AND IPC:G06N3/045 可找深度學習 + 機器人模擬的申請

視覺 + LLM/VLM 評分相關專利

機器人領域（已授證）

US10766136 / US10766137（Amazon，2017 申請，2020 授證） 目前「視覺評估機器人任務成功度」最直接的授證案。CNN 分析機器人操作影片 → 輸出任務成功程度數值分數 → 轉成 reward function 接 RL 訓練。評估的是真實執行影片，輸入是純視覺（CNN），沒有語言推理。

非機器人領域（已授證）

US12411879（SRI International，2024） LVLM 評估自身生成回應的三個維度（helpfulness / honesty / harmlessness），輸出數值分數 + 文字 critique。用於 RLHF 訓練，不是機器人任務評估。

US20250005293A1（Google，2023 申請，2025 公開） VLM 處理圖像生成「環境狀態資料」（物件、空間關係、物理屬性），接 LLM 生成對話回應。「state」是環境描述，不是任務完成度或安全評估。

Claim 策略：VLM vs. 功能性語言

在申請 claims 時，直接寫「VLM」會窄化保護範圍，讓競爭對手用換名詞繞過。建議分層：

Independent claim（寫廣）：用功能性語言，例如「a multimodal machine learning model configured to process visual observations and generate structured evaluation outputs」

Dependent claim（寫窄）：「wherein the multimodal machine learning model is a vision-language model (VLM)」「wherein the evaluation output comprises a numerical safety score and a natural language explanation」

前案分析：「a model trained on visual and linguistic data to assess task state from image input」

依危險程度排列：

高危（最需要區分）

US20250005293A1（Google）：VLM → 生成環境狀態描述 → LLM 對話。「state」是環境描述而非任務可行性，區分點在評估目標的性質不同
US10766136（Amazon）：視覺 → 任務成功評分 → reward。用 CNN 而非 visual+linguistic 聯合模型，缺少語言推理能力

中危（範圍較窄）

US20240253211A1 / US20240359319A1（Sanctuary AI）：LLM + 視覺 → 機器人控制，重心是動作生成而非評估
US20210086353A1：自然語言 + 視覺 → 機器人動作，核心是控制不是狀態評估

繞開策略（加入以下任一限定可顯著區分）：

評估目標：判斷動作的可行性 / 安全性，而非描述環境內容
輸出形式：結構化評分 + 語言解釋 + 可驅動後續控制的信號
時序性：執行前的預評估（pre-execution），而非執行後的 reward
輸入形式：3D 點雲或 4D 視訊，而非 2D 圖像

關鍵空白：3D 輸入 × 模擬軌跡 × 視覺評分

「3D 場景輸入 → 模擬器跑軌跡 → 用視覺特徵評分」三要素組合目前無對應美國專利：

專利	3D 輸入	模擬器軌跡	視覺特徵評分
US11938638B2（Google）	✓	✓	✗ state matching
US20240025035A1（Intrinsic）	✗	✓	✗ 物理 threshold
US10766136（Amazon）	✗	✗	✓ 但評真實執行
目標組合	✓	✓	✓

US20240025035A1（Intrinsic Innovation / Google，2022，2024 公開）：多保真度模擬器跑機器人軌跡，評估用物理成功率閾值（pass/fail），不是視覺特徵推理。

各案的 claim 區分點：

對 US11938638B2：評估是視覺語意推理，不是狀態偏差比對
對 US20240025035A1：評估從模擬畫面視覺特徵推理，不是物理成功率
對 US10766136：評估的是模擬預演軌跡，不是真實執行結果

Quartz 5

Explorer