都市低空 UAV ルート計画: セマンティック マッピングと機能エリア分割
方向 4: セマンティック マッピング + リボン認識 拡張章・技術ブログ シリーズ パート 4
1. 背景: 幾何学的マップから意味論的マップへ
従来の UAV 経路計画は、占有グリッド (Occupancy Grid)、オクツリー (Octree)、またはボクセル マップ (Voxel Map) といった純粋な幾何学的環境表現に依存しています。これらの表現は「その空間が飛行可能かどうか」をコード化しているだけで、「どこに飛ぶのか」「なぜ飛べないのか」を理解することはできません。
セマンティック マップは、幾何学的表現に基づいた シーン理解 機能を導入します。つまり、建物の種類 (住宅/商業/工業)、道路の勾配、群衆密度、機能エリアの境界などのセマンティック情報を識別します。この機能は、低高度の都市計画にとって重要です。ビジネス街の広場を横切る UAV は、学校の校庭を横切るのとはまったく異なるレベルのリスクがありますが、純粋な幾何学的なマップでは、両方が同等の自由空間として扱われます。
さらに、機能ゾーニングは、都市の低高度空域を、真高度 120 メートル制御、飛行禁止区域、制限区域、管理区域などのさまざまな規制レベルのエリアに分割します。セマンティック認識により、UAV は、事前に注釈が付けられた静的な飛行禁止区域マップのみに依存するのではなく、これらの規制規則を積極的に理解し、遵守することができます。
2. セマンティック マッピングの基本: 知覚 → 理解
2.1 セマンティック セグメンテーション: ピクセルからシーンの理解まで
セマンティック セグメンテーションは、セマンティック マッピングの中核となる知覚基盤です。画像
このうち、
都市シーン向けの主流のセマンティック セグメンテーション アーキテクチャには次のものがあります。- DeepLabv3+ (Chen et al.、CVPR 2018): Atrous Convolution を使用して、解像度を失うことなく受容野を拡大し、都市の建物や道路などの大規模な構造物を効果的にキャプチャします。
- MaskFormer (Cheng et al., CVPR 2022): セマンティック セグメンテーションをマスク分類問題として統合し、任意の数のセマンティック カテゴリをサポートし、固定の
を事前に設定する必要がありません。 - Segment Anything Model (SAM) (Kirillov et al.、ICCV 2023): Meta によって提案されたユニバーサル セグメンテーション基本モデル。ポイント/ボックス/テキスト プロンプトのゼロショット セグメンテーションをサポートし、都市シーンのオープン ボキャブラリー セマンティック マッピングの新しいパラダイムを提供します。
2.2 インスタンスのセグメンテーションとターゲットの検出
セマンティック セグメンテーションに加えて、インスタンス セグメンテーションにより、同様のオブジェクトのさまざまな個人がさらに区別され、「歩行者グループ」内の各歩行者が独立したインスタンスに分離され、意図の予測と衝突回避に対するきめ細かなサポートが提供されます。
| メソッド | 核となるアイデア | 推理速度 | 代表作 |
|---|---|---|---|
| 2 段階 | 最初にボックスを検出し、次にマスクをセグメント化します。 ~10 FPS | マスク R-CNN (ICCV 2017) | |
| ワンステージ | マスクとカテゴリを共同で予測する | ~25 FPS | ヨラクト (ICCV 2019) |
| トランスベース | DETR スタイルの検出 + マスク | ~15 FPS | マスク 2 フォーマー (CVPR 2022) |
| 基礎モデル | SAM + 検出器 | ~20 FPS | SEEM (CVPR 2024) |
YOLO シリーズ (Ultralytics YOLOv8、2023) は、UAV のリアルタイム セマンティック認識で広く使用されています。Jetson Orin では 50+ FPS の検出フレーム レートに達し、遅延は
2.3 深さの推定: 2D → 3D ジオメトリセマンティック マッピングでは、2D セマンティック ラベルを 3D 空間に持ち上げる必要があります。 単眼深度推定 は、RGB 画像から高密度深度マップへの変換機能を提供します。
主な方法には次のようなものがあります。
- MiDaS (Ranftl et al.、NeurIPS 2020): マルチデータセット トレーニング (教師あり + 教師なし深度の混合) を使用し、ゼロサンプル汎化で優れたパフォーマンスを発揮し、現在、単眼の深度推定に最も広く使用されている基本モデルです。
- Depth-Anything (Yang et al.、arxiv 2024): MiDaS に基づく大規模な注釈不要の画像拡張機能を活用して、都市シーンでより高い奥行き精度を実現
- DPT (Ranftl et al.、ICCV 2021): ViT に基づくトランスフォーマー アーキテクチャ、高解像度の深度マップを直接出力
カメラの固有パラメーター
3. 都市機能地域の区分と低空域の分類
3.1 都市機能地域における飛行制約の違い
都市空間は使用の性質に応じてさまざまな機能エリアに分割されており、各エリアでの UAV 飛行に対する制限の程度は大きく異なります。|機能エリア |典型的なシナリオ |飛行上の制約 |主なリスク | |----------|-----------|----------|-----------| | 住宅地 |住宅地 |高さ制限(30m未満)、時間帯制限 |プライバシー侵害、騒音苦情 | | ビジネス地区 | CBD、ショッピングモール |目視可能な範囲内で飛行 |密集した人混み、信号干渉 | | 工業地帯 |工場、倉庫 |飛行禁止区域の可能性 |電磁干渉、大型車両 | | 学校/病院 |小中学校、病院 |厳格な飛行禁止または承認システム |セキュリティに注意 | | 交通ハブ |駅や空港の近く |全面飛行禁止 |航空安全 | | 公園/緑地 |都市公園 |比較的緩和 (承認が必要) |群衆の集まり |
3.2 低高度空域分類システム
中国民用航空局が発行した「無人航空機飛行管理に関する暫定規定」(2024年発効)では、実高120メートルの垂直管制枠組みを確立している。
- 実際の高度 120m 未満: 軽量 UAV (
) は自由に飛行でき、実名登録が必要です。超小型 UAV ( ) は飛行資格制限の対象ではありません - 真の高さ 120m ~ 300m: 制御に含まれており、飛行空域アプリケーションが必要です
- 孤立した飛行のための融合空域: 特定のエリアでは、UAV と有人航空機の融合運用が可能です
セマンティック マッピングでは、UAV が位置する機能領域に基づいて飛行可能な高さと領域の境界を自動的に決定できるように、これらの規制上の制約を計画システムにエンコードする必要があります。
3.3 機能領域の意味分類のためのデータソース
都市機能エリアの分割は、複数のソースの地理情報に依存しています。
- OSM (OpenStreetMap): 道路、建物、水域などの基本的な地物分類を提供するオープンソースの地理データであり、機能エリア推論のための重要な事前情報源です。
- POI (POI) データ: Amap/Baidu 地図 API は都市の POI データを提供し、POI の密度と種類から地域の機能を推測できます (たとえば、学校周辺の POI は主に教育施設です)
- リモート センシング画像: Sentinel-2/Gaofen-2 衛星画像はマクロな土地利用分類情報を提供します
- 都市計画データ: 法的効力を持つ都市マスタープランの土地利用レイヤー(管理計画)
マルチソース統合フレームワーク:$$ \mathcal{F}{\text{zone}}(\mathbf{x}) = \alpha \cdot f{\text{osm}}(\mathbf{x}) + \beta \cdot f_{\text{poi}}(\mathbf{x}) + \gamma \cdot f_{\text{remote}}(\mathbf{x}) + \delta \cdot f_{\text{計画}}(\mathbf{x})
\hat{\mathbf{a}}t^{(i)} = \arg\max{\mathbf{a} \in \mathcal{A}} P(\mathbf{a} | \mathbf{b}_{1:t}^{(i)}, \mathcal{E})
ここで、
紛争解決戦略には次のものが含まれます。
- ルールベースの割り当て: 独立したタイムスロット (タイムスロット) またはスペースコリドーを異なる UAV に割り当てます。
- 分散型ネゴシエーション: UAV は通信を通じて軌道予測を交換し、衝突のない経路を計画するために協力します。
- 集中スケジューリング: 地上管制局は複数の UAV 軌道を統合された方法で計画します。
4.3 不確実性を認識した計画
意味分類には本質的に不確実性があり、建物のファサードにあるガラスのカーテンウォールが空として誤分類される可能性があり、植生が建物として誤分類される可能性があります。 不確実性を意識した計画 認識されている不確実性を意思決定に組み込みます。
検出エラーに対する安全マージンを確保するのに十分な信頼度を持って、自由領域でのみ軌道を計画してください。この考え方は、不確実なセットの最悪の場合の安全性を確保するというロバスト最適化に沿ったものです。
5. セマンティックを意識した計画: コスト関数の設計
5.1 意味的に強化されたコスト マップ
従来の計画では幾何コストマップが使用され、各グリッド セル
セマンティックコスト
R(\mathcal{T}) = \int_0^T \left( \alpha \cdot \rho_{\text{人}}(\mathbf{p}(t)) + \beta \cdot I_{\text{空港}}(\mathbf{p}(t)) + \gamma \cdot I_{\text{sensitive}}(\mathbf{p}(t)) \right) dt
実際の実装では、
7.2 セマンティック SLAM のファクター グラフの最適化
セマンティック マッピングとポジショニングの共同最適化は、ファクター グラフを通じて実現されます。
このうち、
セマンティック SLAM の主な課題は、セマンティック観察の曖昧さにあります。同じタイプのセマンティック ラベルが完全に異なる幾何学的形状に対応する可能性があり (たとえば、異なるスタイルの建物には「建物」というラベルが付けられます)、ファクター グラフに適切な緩和を導入する必要があります。
8. 将来の傾向と未解決の問題
8.1 大規模な言語モデル + 意味認識
GPT-4V などの視覚言語モデル (VLM) は、セマンティック マッピングに オープンな語彙認識 機能をもたらします。これは、あらかじめ定義された一連の閉じたセマンティック カテゴリに限定されなくなり、自然言語で記述された任意のセマンティック概念を理解できるようになります。
アプリケーション シナリオ: ユーザーが「学校エリアを避けてください」と言うと、VLM は画像から学校の特徴 (遊び場、旗掲揚台、学校の標識) を識別できます。ユーザーが「コーヒーショップのある道路の上を飛んで」と言うと、VLM は目的の道路を見つけることができます。これにより、セマンティック マッピングが「受動的なクエリ」から「能動的な理解」にアップグレードされます。
8.2 プライバシー保護とデータの非感作セマンティック マッピングには都市環境の多数の画像が含まれるため、プライバシーの問題 (建物内の可視性、人間の活動の記録) が生じます。技術的な対応戦略には次のものが含まれます。
- エッジサイド処理: セマンティック セグメンテーションは UAV 搭載コンピューティング ユニットで完了し、元の画像は地上局に送信されません。
- プライバシーを考慮したレンダリング: 顔を含む領域を自動的にコーディングまたは削除します
- フェデレーテッド セマンティック マッピング: 複数の UAV はセマンティック マップの更新を共有しますが、生の画像は共有しません
9. まとめ
セマンティック マッピングは、都市低空 UAV 計画を 幾何学的認識から 認知的理解に高めます。セマンティックセグメンテーション、深度推定、機能領域分割を通じて、UAV は単に「ここに障害物があるかどうか」を知るだけでなく、「どこを飛んでいるのか」、「なぜここが敏感なのか」、「どのように回避すべきか」を理解することができます。
主な研究の方向性には、オープンボキャブラリーの意味論的認識 (大規模モデルの強化)、不確実性を認識した計画 (認識エラーへの対処)、STMP/LAANC コンプライアンスの統合 (規制主導の意味論的制約) が含まれます。都市の低高度経済のための規制枠組みが改善し続けるにつれて、セマンティック認識機能が都市の UAV 計画システムの標準コンポーネントになるでしょう。
参考文献
-
Cheng, B.、Misra, I.、Schwing, A.G.、他(2022年)。セマンティックおよびインスタンスのセグメンテーション用の MaskFormer。 CVPR。 https://doi.org/10.1109/CVPR52688.2022.00227
-
キリロフ、A.、ミントゥン、E.、ラヴィ、N.、マオ、H.、ローランド、C.、グスタフソン、L.、… & ギルシック、R. (2023)。何でもセグメント化します。 ICCV。
-
Ranftl, R.、Lasinger, K.、Hafner, D.、Schindler, K.、および Koltun, V. (2020)。堅牢な単眼深度推定に向けて: ゼロショットクロスデータセット転送のためのデータセットの混合。 IEEE TPAMI。 https://doi.org/10.1109/TPAMI.2020.3019967- Ranftl、R.、Bochkovskiy、A.、および Koltun、V. (2021)。高密度予測のためのビジョントランスフォーマー。 ICCV。 https://doi.org/10.1109/ICCV48922.2021.01017
-
Alahi, A.、Goel, K.、Ramanathan, V.、Robicquet, A.、Fei-Fei, L.、Savarese, S. (2016)。 Social LSTM: 混雑した空間における人間の軌跡予測。 CVPR。 https://doi.org/10.1109/CVPR.2016.99
-
Salzmann, T.、Ivanovic, B.、Chakravarty, P.、および Pavone, M. (2020)。 Trajectron++: 異種データを使用した動的に実行可能な軌道予測。 ECCV。 https://doi.org/10.1007/978-3-030-46732-6_43
-
Zhou、H.、Ren、D.、Wu、J.、他。 (2023年)。例: UAV ナビゲーション用のバッファー縮小を使用した環境グラフベースの計画。 イロス。
-
Liu, Y.、Chen, J.、Wang, X. 他(2023年)。あらゆる深さ: 大規模なラベルなしデータの力を解き放ちます。 arxiv:2401.10891。
※この記事は、都市低空ドローンルート計画に関するシリーズ記事の第4章の拡張章です。 *