LLM ガイドによる UAV ミッション計画: 推論から実行までのフロンティア

UAV インテリジェントシリーズ · 第 X+1 章 スポットライト: ミッションプランナーとしての LLM、シンボリックプランニング統合、リアルタイム推論アーキテクチャ

1. LLM が UAV ミッション計画に適しているのはなぜですか?

UAV ミッション計画の課題は、オープンワールドの不確実性にあります。

传统规划（基于模型）：
输入：精确目标状态 + 精确环境模型
输出：最优动作序列
局限：模型不准就崩溃，无法处理语言目标

LLM 规划（基于知识）：
输入：自然语言指令 + 视觉观测 + 世界知识
输出：可执行动作序列
优势：泛化性强、零样本理解新任务

LLM の利点:

世界の知識: 事前トレーニングには豊富な身体知識が含まれています (「水は流れる」、「車は人より速い」)
ゼロショット推論: タスクごとに個別にトレーニングする必要はありません
複数ステップの計画: 複雑なタスクをサブ目標チェーンに分解します (思考の連鎖)

2. タスク計画における LLM のパラダイム

2.1 パラダイム 1: プランナーとしての LLM (アクションを直接出力)

代表作：

ReAct (推論 + 行動)

中心的なアイデア: LLM は「推論」と「アクション」を交互に実行します。
各ステップ: obs → think → action → next_obs
適用対象: 観察可能なステータスと明確な環境フィードバックのあるシナリオ
UAV への適応: 高速アクション→obs ループが必要

SayCan (PaLM-SayCan、2022)

LLM の「機能の説明」と物理的な「実現可能性」を組み合わせる
ロボットは「何ができるか」を言い、LLM が「何をすべきか」を決定します。
啓発: UAV は、自身のステータス (出力、飛行制限) に基づいて実行不可能なアクションをフィルタリングできます。

2.2 パラダイム 2: LLM + PDDL シンボルプランニング

PDDL (計画ドメイン定義言語) は、タスクを離散記号問題としてモデル化する古典的なロボットタスク計画言語です。

核となるアイデア:

VLM 感知 → PDDL problem 生成 → 经典规划器 → UAV 动作序列

利点:

計画結果の説明と検証が可能
タスクの完了を保証するための数学的証明
安全性が重要なシナリオ (都市部空域での飛行) に適しています

挑戦:

PDDL モデリング自体がボトルネック (ドメインの専門家が必要)
UAV の連続ダイナミクスは、PDDL の離散的な仮定と完全には互換性がありません。
ソリューションのアイデア: PDDL は高レベルのタスク分解を処理し、MPC は低レベルのトラジェクトリ実行を処理します

---### 2.3 パラダイム 3: LLM + RAG (検索拡張生成)

GenerativeMPC (arXiv、2026)

論文: GenerativeMPC: 両手モバイル操作のための仮想インピーダンスを備えた VLM-RAG ガイド付き全身 MPC 著者: マルセリーノフリオフェルナンド他 出典: arXiv、2026 年 4 月

核となるアイデア:

VLM 感知当前场景 → 检索相关操作知识库 → RAG 生成操作建议 → MPC 执行

主要なテクノロジー:

知識の検索: 運用知識ベース (ロボット制御経験データを含む) から現在のシナリオに最も関連する例を検索します。
仮想インピーダンス: 剛体衝突を回避するためのコンプライアンス制御パラメータを生成します。
RAG フィルタリング: LLM 出力が物理的に実行可能であることを確認します。

UAV への適応:

建築基準法の検索（高さ制限、飛行禁止区域）
過去のミッション経験の取得（同様の気象条件下での飛行パラメータ）
安全プロトコルの取得（最小障害物回避距離、緊急手順）

3. リアルタイム推論アーキテクチャ

3.1 デュアルプロセスアーキテクチャ (arXiv、2026)

論文: リアルタイム VLM ベースの屋内ナビゲーションのためのデュアルプロセスアーキテクチャ 著者: イ・ジュニ、シン・ヒョンスン、コ・ジョンギル 出典: arXiv:2601.19401、2026 年 1 月

コアデザイン:

┌─────────────────────────────────────────────┐
│           System Architecture               │
│                                             │
│  Process 1 (Slow): VLM Reasoning Thread     │
│  ┌─────────────────────────────────────┐   │
│  │ VLM: "What should I do next?"       │   │
│  │ Frequency: ~0.2-1 Hz                 │   │
│  │ Output: Navigation goal / decision  │   │
│  └─────────────────────────────────────┘   │
│              ↓ goal                        │
│  Process 2 (Fast): Control Execution Thread│
│  ┌─────────────────────────────────────┐   │
│  │ MPC: Track trajectory to goal        │   │
│  │ Frequency: ~100 Hz                   │   │
│  │ Output: Motor control signals        │   │
│  └─────────────────────────────────────┘   │
└─────────────────────────────────────────────┘

設計原則:

クイックプロセス (MPC): ミリ秒レベルの応答、リアルタイムの障害物回避処理
遅いプロセス (VLM): 第 2 レベルの推論、高レベルの決定の処理
デカップリングクリティカル: VLM はクリティカルパス上になく、制御周波数に影響を与えません。

3.2 階層的な計画フレームワーク

**高レベル (LLM/VLM、第 2 レベル): **

任务理解 → 子目标分解 → 全局路径规划 → 授权低层执行

**中間層 (微分可能な最適化、100ms レベル): **

RRT*/MPC → 局部路径重规划 → 平滑轨迹生成
```**低層 (PID/MPC、ミリ秒レベル): **

姿态控制 → 电机分配 → 执行


---

## 4. 主要なアルゴリズムの深さ

### 4.1 VoxPoser: LLM 合成 3D 値マップ

**論文:** *VoxPoser: 言語モデルを使用したロボット操作のための構成可能な 3D 値マップ*
**著者:** Wenlong Huang、Chen Wang、Ruohan Zhang、Yunzhu Li、Jiajun Wu、Li Fei-Fei
**出典:** arXiv:2307.05973、2023 年 7 月

**主な貢献:**
- LLM 出力 **3D 空間ヒート マップ** (構成可能な 3D 値マップ)
- ヒートマップで「どこに行くべきか」と「何を避けるべきか」をエンコード
- 軌道最適化のための報酬関数として直接使用されます。

**UAV の拡張機能:**
- VLM 出力 3D 占有ヒート マップ
- ヒート マップ駆動の MPC コスト関数
- VoxPoser for UAV = 「言語による 3D 空間アフォーダンス」

**注:** VoxPoser は arXiv で公開されました。これまでのところ、明確な会議出版物の記録は見つかっていない。

---

### 4.2 CoNVO (条件付きニューラル値最適化)

LLM 計画と値の反復を組み合わせます。
- LLM は **事前設定** (どのアクションがより合理的であるか) を提供します
- 値の反復により **最適性が保証**
- 純粋な LLM 計画よりも堅牢で、純粋な計画よりも柔軟です

---

## 5. 世界モデル支援計画

### 5.1 なぜワールドモデルなのか?

LLM の知識は静的ですが、UAV 環境は動的です。
- 風が変わる
- 障害物が移動します
- GNSS 信号はドリフトする可能性があります

ワールド モデルにより、UAV は **未来を予測**できます:

当前状态 + 动作 → 世界模型 → 预测未来状态序列 LLM 在预测的未来状态序列上做规划（Plan over imagined futures）


### 5.2 論文代表者**ドリーマー シリーズ** (ダニエル・ハフナー、ユルグ・ヴィドマーなど)
- RSSM動的モデルに基づく
- 想像した未来に対して強化学習を行う
- ロボット（ロボットアーム、無人車両）で検証済み

**VMP (ビデオ モーション プランニング)**
- 動作計画にビデオ生成モデルを使用する
- 将来のフレームを生成 → 動きベクトルを抽出 → UAV を制御

---

## 6. セキュリティと認証

### 6.1 セキュリティが重要な理由

UAV が都市内を飛行する場合、不適切な意思決定により **人的被害**が発生する可能性があります。 LLM の確率的な出力と、航空の安全に必要な決定的な保証の間には、根本的な矛盾があります。

### 6.2 セキュリティフレームワーク

**CBF（コントロールバリア機能）：**
- ASMA が UAV VLN に CBF を導入
- 危険な状態に決して到達できないようにする

**正式な検証：**
- ステートマシン検証に TLA+ / NuSMV を使用
- LLM 計画結果はモデル検証後に実行されます

**シールド:**
- 最下層プロテクター (シールド): LLM 出力を監視し、危険なアクションを遮断します。
- 上位レベルの LLM: タスクの完了に重点を置き、セキュリティの詳細は考慮しない
- **自動運転風の「ガーディアンエンジェル」アーキテクチャ**

---

## 7. フロンティアのホットスポットと今後の方向性

### 7.1 エンドツーエンド VLA (ビジョン-言語-アクション)

**最新のトレンド:** 「センシング→計画→制御」の階層設計を省略し、VLM から直接**アクショントークン**を出力します。

代表作：
- **RT-2** (Google Robotics): VLM の出力アクションを直接微調整します
- **π₀** (身体知能): 人型ロボット用の VLA
- **UAV バージョン** (新興): 同様のアイデアをドローンに適用

**挑戦:**
- 行動空間の連続性 vs 言語の離散性
・セキュリティ検証の難しさ（エンドツーエンドのブラックボックス）
- データ不足（大規模なロボット遠隔操作データが必要）

### 7.2 マルチマシンの協調 LLM 計画

**SysNav (arXiv、2026 年 3 月)****論文:** *SysNav: マルチレベルの体系的な連携により、実世界のクロスエンティティ オブジェクト ナビゲーションが可能*
**著者:** Haokun Zhu 他。
**出典:** arXiv:2603.xxxxx、2026 年 3 月

**主な貢献:**
- 異なるロボットプラットフォームにわたるマルチエージェントの協調ナビゲーション
- LLM は高レベルの調整を行います (誰がどのエリアに行くか)
- 分散型知覚融合 (各エージェントがビジョンを共有)

### 7.3 身体知能 × UAV

- **操作の基礎モデル** → **飛行の基礎モデル**
- 将来的には専用の「UAV Brain」事前トレーニングモデルが登場する可能性があります
- LLaVA に似ていますが、3D 空間推論 + 飛行力学に特化しています

---

## 8. まとめと提案

|寸法 |現在のベスト |今後の方向性 |
|------|--------|----------|
|計画パラダイム |デュアルプロセスアーキテクチャ (リアルタイム実現可能) |エンドツーエンド VLA (長期目標) |
|世界の知識 | RAG (信頼性はあるが遅い) |ワールド モデル (高速ですがトレーニングが必要です) |
|セキュリティ | CBF + シールド |正式な検証（完全保証） |
|エッジ展開 | 4 ビット LLaVA (かろうじてリアルタイム) |特殊用途チップ (NPU/TPU) |

**あなたへのアドバイス:**
1. **結果への最速ルート**: デュアルプロセス アーキテクチャ + LLaVA-7B + UAV プラットフォーム
2. **イノベーションの余地が最も大きい**: VLM + セキュリティ検証フレームワーク (現在、これを実行している人はほとんどいません)
3. **長期レイアウト**: 独自の UAV 制御データを収集し、専用の VLA モデルをトレーニングします

---

## 📚 参考資料1. リーら。 *リアルタイム VLM ベースの屋内ナビゲーションのためのデュアルプロセス アーキテクチャ*。 arXiv:2601.19401、2026。
2. フェルナンドら。 *GenerativeMPC: 仮想インピーダンスを備えた VLM-RAG ガイド付き全身 MPC*。 arXiv、2026 年。
3. 黄ら。 *VoxPoser: 言語モデルを使用したロボット操作のための構成可能な 3D 値マップ*。 arXiv:2307.05973、2023。
4. ブロハンら。 *RT-2: 視覚-言語-行動モデルはウェブの知識をロボット制御に転送します*。 arXiv、2023 年。
5. 朱ら。 *SysNav: マルチレベルの体系的な連携により、現実世界のクロスエンティティ オブジェクト ナビゲーション* が可能になります。 arXiv、2026 年。
6. アンら。 *私が言うようにではなく、できる限りのことをする: ロボットのアフォーダンスにおけるグラウンディング言語*。 arXiv、2022 年。