UAV ナビゲーション用の視覚言語モデル: 視覚言語ナビゲーションの基礎と最前線

LogisticsVLN、OmniVLN、ASMA などの最新論文を網羅した、VLM+UAV ナビゲーションの基本パラダイム、コア アーキテクチャ、代表的な作品の概要

UAV ナビゲーションのための視覚言語モデル: 視覚言語ナビゲーションの基礎と最前線

UAV インテリジェント シリーズ · パート X 焦点: VLM+UAV の基本パラダイム、コア アーキテクチャ、および代表的な作品


1. 背景: 口頭命令から自律飛行まで

従来の UAV の経路計画は、正確な数学的目的関数 (最短経路、最小エネルギー消費など) に依存していますが、現実世界のミッション指示は、多くの場合、自然言語のあいまいな記述です。

これらの指示を数学的最適化目標に直接変換することはできませんが、VLM (Vision-Language Model) によって理解して推論することができます。ビジョン言語ナビゲーション (VLN) は、この問題を解決するための中核的な研究方向であり、ロボット (UAV) が自然言語の指示に従って 3 次元物理空間内を移動できるようにします。


2. タスク定義: VLN の中核問題

VLN タスクは次のように形式化できます。

自然言語命令 と開始視覚観察 が与えられた場合、エージェントに一連のアクション を実行させ、最終的に命令で記述された目標位置に到達させます。

主な課題は次のとおりです。

  1. 意味的根拠: 言語における空間関係 (「左」、「後ろ」、「上」) を物理空間にマッピングする
  2. 長期的な推論: 指示には、多くの場合、複雑な複数ステップのタスクが記述されています。
  3. ゼロサンプル一般化: 目に見えない建物、環境、物体
  4. 三次元特性: UAV は地上ロボットとは異なり、完全な 3D 移動機能を備えています。

##3 代表作

3.1 LogisticsVLN: ターミナル配布用の UAV VLN (arXiv、2025)論文: LogisticsVLN: エージェント型 UAV に基づく低高度ターミナル配送のための視覚言語ナビゲーション

著者: Xinyuan Zhang、Yonglin Tian、Fei Lin、Yue Liu、Jing Ma、Kornélia Sára Szatmáry、Fei-Yue Wang 出典: arXiv:2505.03460、2025 年 5 月

主な貢献:

メソッドのフレームワーク:

用户指令:"送包裹到红色大门旁边"

VLM 语义解析(物体检测 + 空间关系)

拓扑地图匹配(检测到的地标 vs 先验地图)

路径规划(全局粗规划 + 局部视觉重规划)

MPC 控制器执行

重要な洞察: これは現在、実際の UAV 配信シナリオに最も近い VLN の作業であり、GPT-4V レベルのビジュアル言語モデルと物理制御層をエンドツーエンドで統合しています。


3.2 OmniVLN: オープングラウンドのクロスプラットフォームのエンドサイド VLN (arXiv、2026)

論文: OmniVLN: 空と地上のプラットフォームにわたる視覚言語ナビゲーションのための全方向性 3D 認識とトークン効率の高い LLM 推論 著者: Zhongyuang Liu、Min He、Shaonan Yu 他。 出典: arXiv、2026 年 3 月

主な貢献:

  1. 3D トークン圧縮: 3D 空間情報をコンパクトなトークンにエンコードして、LLM 入力トークンの数を削減します。
  2. 動的な視野管理: ナビゲーションのニーズに応じて関心領域を適応的に調整します。
  3. 軽量 VLM バックボーン: Qwen-VL または LLaVA アーキテクチャに基づくクライアント側バージョン

3.3 ASMA: セキュリティ境界を意識した UAV VLN (arXiv、2024)

論文: ASMA: シーンを認識したコントロール バリア機能を介した視覚言語ドローン ナビゲーションのための適応型安全マージン アルゴリズム 出典: arXiv、2024 年 9 月

主な貢献:

重要な理由: VLN の取り組みのほとんどはナビゲーションの精度に焦点を当てており、安全性は無視されています。 ASMA はこのギャップを埋めます。UAV は「指示を理解できない」ことと「壁にぶつかる」ことの間で安全性のトレードオフを行う可能性があります。


3.4 UAV の視覚と言語によるナビゲーション: 概要 (arXiv、2026)

論文: UAV のための視覚と言語のナビゲーション: 進歩、課題、および研究ロードマップ 著者: Hanxuan Chen、Jie Zheng、Siqi Yang 他。 出典: arXiv:2604.xxxxx、2026 年 4 月

対象範囲の概要:

---## 4. 技術的なアーキテクチャの分解

4.1 知覚層 (知覚)

カメラ構成:

タイプ利点デメリット
前向きRGB成熟した、安い視野が狭く、情報が限られている
全方位カメラ360°の認識解像度が低く、歪みが大きい
深度カメラ濃密な深さ屋外での障害、限られた範囲
マルチカメラステレオ三角測量複雑な校正

知覚モジュールの責任:

  1. オブジェクト検出 + セマンティックセグメンテーション (Grounding DINO、YOLO-World)
  2. 空間関係抽出(左右、上下、相対距離)
  3. シーングラフの構築 (オブジェクト + リレーションシップ + トポロジー)

4.2 レイヤーを理解する

VLM 選択の比較:

モデルパラメータボリュームビジョン機能エッジ展開代表作
GPT-4V~1.8T非常に強い学術研究
GPT-4o~200B非常に強いクラウドAPI
LLaVA-1.67B/13B/34B強い✅ (ONNX)ローカル展開
クウェン VL7B/72B強い中国のシーン
コグVLM17B強い⚠️バランスの取れたソリューション

4.3 計画層 (計画)

既存の計画パラダイム:

  1. プランナーとしての LLM: LLM にアクション シーケンス (ReAct、Reflexion) を直接出力させます。 「」 命令 → LLM 推論 → アクションシーケンス → 実行 「」
  2. PDDL シンボリック プランニング: LLM が PDDL ドメイン記述を生成し、従来のプランナーによって解決されます。 ・代表者:ユニプラン
  3. 学習可能な計画: エンドツーエンドの模倣学習/強化学習
    • 利点: 動的な環境に適応します。
    • 短所: 一般化が不十分

4.4 制御層(コントロール)

UAV 制御機能:- リアルタイムの軌道追跡が必要 (>100Hz 制御周波数)


5. 主要な課題

5.1 Sim2Real のギャップ

5.2 推論遅延とリアルタイム制御

VLM推論遅延該当するシナリオ
GPT-4o1-3秒クラウドオフライン計画
LLaVA-7B0.5~1秒エッジ遅延計画
LLaVA-3B0.2~0.5秒エッジリアルタイム

解決策の方向性:

5.3 三次元空間推論

言語における空間関係(「木の後ろ」、「橋の下」)は、三次元空間への単純な投影ではありません。

研究のフロンティア:


6. データセットの概要|データセット |プラットフォーム |スケール |特長 |

|------|------|------|------| | RxR |地面 | 126K コマンド |多言語の専門家による注釈 | | VLN-CE |地面 | 61K の軌道 |マターポート3D | |アイ・トッド |無人航空機 | ~20K コマンド |航空遠近法、航空写真 | | UAV-VLN |無人航空機 | ~10,000 |都市の峡谷のシーン | | D3DROU |無人航空機 | ~5K |動的障害物、実際の飛行 |


7. 今後の研究の方向性

  1. マルチモーダルフュージョン: RGB + 深度 + イベントカメラ + LiDAR
  2. 小規模サンプル適応: 特定の都市環境に適応するための LoRA / QLoRA 微調整
  3. 複数の UAV コラボレーション VLN: 複数の UAV が協力して同じコマンドを理解します。
  4. 世界モデル支援: 世界モデルを統合して将来の状態を予測する
  5. セキュリティ検証: VLN 決定のセキュリティを検証するための正式な方法

📚 参考資料1. 張ら。 LogisticsVLN: エージェント型 UAV に基づく低高度ターミナル配送用の視覚言語ナビゲーション。 arXiv:2505.03460、2025。

  1. リュウら。 OmniVLN: 空と地上のプラットフォームにわたる視覚言語ナビゲーションのための全方向性 3D 認識とトークン効率の高い LLM 推論。 arXiv、2026 年。
  2. チェンら。 UAV の視覚と言語によるナビゲーション: 進歩、課題、研究ロードマップ。 arXiv、2026 年。 4.アズマ。 シーン認識コントロールバリア機能を介した視覚言語ドローンナビゲーションのための適応型安全マージンアルゴリズム。 arXiv、2024 年。
  3. ブルーキスら。 位置訪問予測による継続的な制御アクションへのナビゲーション命令のマッピング。 CoRL、2018年。
  4. レイショードリら。 次のゼロショット オブジェクト中心の命令: 基礎モデルと従来のナビゲーションの統合。 arXiv、2024 年。