都市低空 UAV ルート計画: セマンティックマッピングと機能エリア分割

方向 4: セマンティックマッピング + リボン認識 拡張章・技術ブログシリーズパート 4

1. 背景: 幾何学的マップから意味論的マップへ

従来の UAV 経路計画は、占有グリッド (Occupancy Grid)、オクツリー (Octree)、またはボクセルマップ (Voxel Map) といった純粋な幾何学的環境表現に依存しています。これらの表現は「その空間が飛行可能かどうか」をコード化しているだけで、「どこに飛ぶのか」「なぜ飛べないのか」を理解することはできません。

セマンティックマップは、幾何学的表現に基づいた シーン理解 機能を導入します。つまり、建物の種類 (住宅/商業/工業)、道路の勾配、群衆密度、機能エリアの境界などのセマンティック情報を識別します。この機能は、低高度の都市計画にとって重要です。ビジネス街の広場を横切る UAV は、学校の校庭を横切るのとはまったく異なるレベルのリスクがありますが、純粋な幾何学的なマップでは、両方が同等の自由空間として扱われます。

さらに、機能ゾーニングは、都市の低高度空域を、真高度 120 メートル制御、飛行禁止区域、制限区域、管理区域などのさまざまな規制レベルのエリアに分割します。セマンティック認識により、UAV は、事前に注釈が付けられた静的な飛行禁止区域マップのみに依存するのではなく、これらの規制規則を積極的に理解し、遵守することができます。

2. セマンティックマッピングの基本: 知覚 → 理解

2.1 セマンティックセグメンテーション: ピクセルからシーンの理解まで

セマンティックセグメンテーションは、セマンティックマッピングの中核となる知覚基盤です。画像を指定すると、セマンティックセグメンテーションモデルはピクセル単位のクラスラベルを出力します。

このうち、は一連の意味カテゴリ (建物、道路、植生、乗り物、人、空など) であり、はピクセルの位置エンコーディングです。

都市シーン向けの主流のセマンティックセグメンテーションアーキテクチャには次のものがあります。- DeepLabv3+ (Chen et al.、CVPR 2018): Atrous Convolution を使用して、解像度を失うことなく受容野を拡大し、都市の建物や道路などの大規模な構造物を効果的にキャプチャします。

MaskFormer (Cheng et al., CVPR 2022): セマンティックセグメンテーションをマスク分類問題として統合し、任意の数のセマンティックカテゴリをサポートし、固定のを事前に設定する必要がありません。
Segment Anything Model (SAM) (Kirillov et al.、ICCV 2023): Meta によって提案されたユニバーサルセグメンテーション基本モデル。ポイント/ボックス/テキストプロンプトのゼロショットセグメンテーションをサポートし、都市シーンのオープンボキャブラリーセマンティックマッピングの新しいパラダイムを提供します。

2.2 インスタンスのセグメンテーションとターゲットの検出

セマンティックセグメンテーションに加えて、インスタンスセグメンテーションにより、同様のオブジェクトのさまざまな個人がさらに区別され、「歩行者グループ」内の各歩行者が独立したインスタンスに分離され、意図の予測と衝突回避に対するきめ細かなサポートが提供されます。

メソッド	核となるアイデア	推理速度	代表作
2 段階	最初にボックスを検出し、次にマスクをセグメント化します。 ~10 FPS	マスク R-CNN (ICCV 2017)
ワンステージ	マスクとカテゴリを共同で予測する	~25 FPS	ヨラクト (ICCV 2019)
トランスベース	DETR スタイルの検出 + マスク	~15 FPS	マスク 2 フォーマー (CVPR 2022)
基礎モデル	SAM + 検出器	~20 FPS	SEEM (CVPR 2024)

YOLO シリーズ (Ultralytics YOLOv8、2023) は、UAV のリアルタイムセマンティック認識で広く使用されています。Jetson Orin では 50+ FPS の検出フレームレートに達し、遅延はで、飛行制御システムのリアルタイム認識要件に適しています。

2.3 深さの推定: 2D → 3D ジオメトリセマンティックマッピングでは、2D セマンティックラベルを 3D 空間に持ち上げる必要があります。単眼深度推定は、RGB 画像から高密度深度マップへの変換機能を提供します。

ピ ク セ ル

主な方法には次のようなものがあります。

MiDaS (Ranftl et al.、NeurIPS 2020): マルチデータセットトレーニング (教師あり + 教師なし深度の混合) を使用し、ゼロサンプル汎化で優れたパフォーマンスを発揮し、現在、単眼の深度推定に最も広く使用されている基本モデルです。
Depth-Anything (Yang et al.、arxiv 2024): MiDaS に基づく大規模な注釈不要の画像拡張機能を活用して、都市シーンでより高い奥行き精度を実現
DPT (Ranftl et al.、ICCV 2021): ViT に基づくトランスフォーマーアーキテクチャ、高解像度の深度マップを直接出力

カメラの固有パラメーターと組み合わせると、2D ピクセル座標と深さを 3D 点に逆投影できます。

3. 都市機能地域の区分と低空域の分類

3.1 都市機能地域における飛行制約の違い

都市空間は使用の性質に応じてさまざまな機能エリアに分割されており、各エリアでの UAV 飛行に対する制限の程度は大きく異なります。|機能エリア |典型的なシナリオ |飛行上の制約 |主なリスク | |----------|-----------|----------|-----------| | 住宅地 |住宅地 |高さ制限（30m未満）、時間帯制限 |プライバシー侵害、騒音苦情 | | ビジネス地区 | CBD、ショッピングモール |目視可能な範囲内で飛行 |密集した人混み、信号干渉 | | 工業地帯 |工場、倉庫 |飛行禁止区域の可能性 |電磁干渉、大型車両 | | 学校/病院 |小中学校、病院 |厳格な飛行禁止または承認システム |セキュリティに注意 | | 交通ハブ |駅や空港の近く |全面飛行禁止 |航空安全 | | 公園/緑地 |都市公園 |比較的緩和 (承認が必要) |群衆の集まり |

3.2 低高度空域分類システム

中国民用航空局が発行した「無人航空機飛行管理に関する暫定規定」（2024年発効）では、実高120メートルの垂直管制枠組みを確立している。

実際の高度 120m 未満: 軽量 UAV () は自由に飛行でき、実名登録が必要です。超小型 UAV () は飛行資格制限の対象ではありません
真の高さ 120m ～ 300m: 制御に含まれており、飛行空域アプリケーションが必要です
孤立した飛行のための融合空域: 特定のエリアでは、UAV と有人航空機の融合運用が可能です

セマンティックマッピングでは、UAV が位置する機能領域に基づいて飛行可能な高さと領域の境界を自動的に決定できるように、これらの規制上の制約を計画システムにエンコードする必要があります。

3.3 機能領域の意味分類のためのデータソース

都市機能エリアの分割は、複数のソースの地理情報に依存しています。

OSM (OpenStreetMap): 道路、建物、水域などの基本的な地物分類を提供するオープンソースの地理データであり、機能エリア推論のための重要な事前情報源です。
POI (POI) データ: Amap/Baidu 地図 API は都市の POI データを提供し、POI の密度と種類から地域の機能を推測できます (たとえば、学校周辺の POI は主に教育施設です)
リモートセンシング画像: Sentinel-2/Gaofen-2 衛星画像はマクロな土地利用分類情報を提供します
都市計画データ: 法的効力を持つ都市マスタープランの土地利用レイヤー（管理計画）

マルチソース統合フレームワーク:$$ \mathcal{F}{\text{zone}}(\mathbf{x}) = \alpha \cdot f{\text{osm}}(\mathbf{x}) + \beta \cdot f_{\text{poi}}(\mathbf{x}) + \gamma \cdot f_{\text{remote}}(\mathbf{x}) + \delta \cdot f_{\text{計画}}(\mathbf{x})

You can't use 'macro parameter character #' in math mode --- ## 4. 動的意味理解: 意図の予測と不確実性の定量化 ### 4.1 歩行者/車両の意図予測 都市部の道路における動的障害物（歩行者、自転車、車両）は、UAV の安全な飛行にとって大きな脅威となります。 **意図の予測** では、障害物の将来の位置を予測するだけでなく、その行動の意図を理解することも必要です。

\hat{\mathbf{a}}t^{(i)} = \arg\max{\mathbf{a} \in \mathcal{A}} P(\mathbf{a} | \mathbf{b}_{1:t}^{(i)}, \mathcal{E})

You can't use 'macro parameter character #' in math mode このうち、$\mathbf{b}_{1:t}^{(i)}$ は障害物 $i$ の過去の行動軌跡、$\mathcal{E}$ は環境コンテキスト (信号機の状況、横断歩道、横断歩道など)、$\mathcal{A}$ は設定された意図 (道路を渡る、道端で待つ、歩道を歩くなど) です。 **ソーシャル LSTM** (Alahi et al.、CVPR 2016) は、歩行者のインタラクションをモデル化するためにソーシャル プーリングを初めて導入しました。 **Trajectron++** (Salzmann et al.、ICRA 2020) は、グラフ ニューラル ネットワーク (GNN) に基づいてマルチエージェント インタラクションをモデル化し、都市の交差点シーンにおける予測精度を大幅に向上させました。 ### 4.2 UAV-UAV 競合検出 都市部の低空回廊では、複数の UAV が同時に動作する場合があります。 **衝突検出** では、空間と時間における潜在的な衝突を予測する必要があります。$$ \text{競合} \Leftrightarrow \exists t \in [t_{\text{start}}, t_{\text{end}}]: \|\mathbf{p}_A(t) - \mathbf{p}_B(t)\| < d_{\text{安全}}

ここで、は安全な距離 (通常は以上)、、は 2 つの UAV の予測軌道です。

紛争解決戦略には次のものが含まれます。

ルールベースの割り当て: 独立したタイムスロット (タイムスロット) またはスペースコリドーを異なる UAV に割り当てます。
分散型ネゴシエーション: UAV は通信を通じて軌道予測を交換し、衝突のない経路を計画するために協力します。
集中スケジューリング: 地上管制局は複数の UAV 軌道を統合された方法で計画します。

4.3 不確実性を認識した計画

意味分類には本質的に不確実性があり、建物のファサードにあるガラスのカーテンウォールが空として誤分類される可能性があり、植生が建物として誤分類される可能性があります。 不確実性を意識した計画 認識されている不確実性を意思決定に組み込みます。

衝 突

検出エラーに対する安全マージンを確保するのに十分な信頼度を持って、自由領域でのみ軌道を計画してください。この考え方は、不確実なセットの最悪の場合の安全性を確保するというロバスト最適化に沿ったものです。

5. セマンティックを意識した計画: コスト関数の設計

5.1 意味的に強化されたコストマップ

従来の計画では幾何コストマップが使用され、各グリッドセルは衝突確率のみをエンコードします。 セマンティック拡張コストマップ は、幾何学的コストの上にセマンティックコストを重ね合わせます。

セマンティックコストは、ユニットが属する機能領域に従って設定されます。$$ C_{\text{sem}}(i,j) = \begin{cases} 0 & \text{公園を開く} \ 1 & \text{商業プラザ} \ 5 & \text{住宅地} \ 20 & \text{学校/病院} \ +\infty & \text{飛行禁止区域} \end{件}

You can't use 'macro parameter character #' in math mode ### 5.2 ソフト制約とハード制約 **厳しい制約**は、違反できない物理的/規制上の制限です。 - 飛行禁止区域内での飛行は絶対に禁止されています - 最低安全高度を下回って飛行しないでください。 - 障害物からの距離は安全マージン以上でなければなりません **ソフト制約**は、代償を払って超過することができる優先目標です。 - 住宅地ではなく公園の上空を飛行するようにしてください。 - 開けた広場を横切るのではなく、建物の壁の近くに留まるようにしてください（風の乱れを減らすため） - 騒音の多い時間帯を避けて飛行するようにしてください セマンティックを意識した計画では、**階層最適化**を通じてこれら 2 種類の制約を処理します。つまり、ハード制約を満たしながらソフト制約のコストを最小限に抑えます。 ### 5.3 EGPBS: セマンティックを意識したセキュリティ計画 **EGPBS (バッファ縮小による環境グラフベースの計画)** は、都市シーン向けのセマンティックを意識した計画フレームワークです (IROS 2023 関連の研究から得られたアイデア)。 1. **環境グラフの構築**: 都市シーンをグラフ構造 $\mathcal{G} = (\mathcal{V}, \mathcal{E})$ としてモデル化します。ノード $\mathcal{V}$ は意味論的な領域 (ビルディング ブロック、道路、公園) を表し、エッジ $\mathcal{E}$ は領域間の接続関係を表します。 2. **安全バッファの縮小**: 低高度通路の狭いエリアでは、セマンティックを認識した安全バッファ (安全バッファ) が自動的に縮小して通行可能になります (狭い通路は引き続き通行可能です)。 3. **グラフ検索 + 軌道最適化**: A* は環境グラフ上で粗粒パスを検索し、続いて MINCO 軌道ファミリーによる時間領域の最適化を行います。 --- ## 6. セキュリティとコンプライアンス: STMP/LAANC の統合 ### 6.1 STMP: 時空間リスク マトリックス計画STMP (Spatial-Temporal Mitigation Planning) は、FAA によって提案されたドローンのリスク評価フレームワークです。人口密度、空港の距離、飛行エリア内の軍事施設などの要素を分析することで、各飛行の総合的なリスクレベルを評価します。 セマンティック マッピングは STMP 評価を直接サポートできます。 - **人口密度レイヤー**: セマンティック セグメンテーションによる地上の歩行者人口密度の統計 $\rho_{\text{people}}(\mathbf{x})$ - **機密施設レイヤー**: POI データを通じて学校、病院、宗教的な場所をマークします。 - **航空施設レイヤー**: 空港クリアランスエリアとルート保護ゾーンを重ね合わせたもの 総合的なリスクスコア:

R(\mathcal{T}) = \int_0^T \left( \alpha \cdot \rho_{\text{人}}(\mathbf{p}(t)) + \beta \cdot I_{\text{空港}}(\mathbf{p}(t)) + \gamma \cdot I_{\text{sensitive}}(\mathbf{p}(t)) \right) dt

You can't use 'macro parameter character #' in math mode ### 6.2 LAANC: リアルタイムの空域認証 LAANC (Low Altitude Authorization and Notice Capability) は、FAA が提供するドローン用のリアルタイム空域認証システムです。 UAV は、UTM (UAV Traffic Management) インターフェイスを介して、現在の位置が許可された空域内にあるかどうかを照会し、リアルタイムで許可を申請できます。 意味認識システムとLAANCの統合パス: 1. 現在位置の機能領域を識別するための UAV セマンティック マッピング 2. 立ち入り禁止区域の境界付近にいる場合は、LAANC への許可申請を開始します。 3. LAANC は承認ステータス (承認/保留中/拒否) を返します。 4. 許可が通過すると、計画システムによってその地域での飛行許可が解除されます。 --- ## 7. 数学的フレームワーク: マルチモーダル知覚融合と意味論的コスト マップの構築 ### 7.1 ベイズ意味論的融合 マルチセンサー フュージョンの中核はベイズ推論です。 $z_t$ が時間 $t$ での意味論的観測 (カメラ セグメンテーションの結果) であり、前の意味論的マップが $m$ であると仮定すると、事後意味論的マップは次のようになります。$$ P(m | z_{1:t}) \propto P(z_t | m, z_{1:t-1}) \cdot P(m | z_{1:t-1})

実際の実装では、は、空間平滑化事前分布 (隣接するピクセルは類似のラベルを持つ傾向がある) を考慮して、CRF (条件付きランダムフィールド) または MLP 分類器によってモデル化されます。

7.2 セマンティック SLAM のファクターグラフの最適化

セマンティックマッピングとポジショニングの共同最適化は、ファクターグラフを通じて実現されます。

意 味

このうち、はオドメトリ残差、はループ閉合検出残差、は意味観測残差 (3D 意味点と意味マップ間の一貫性制約) です。

セマンティック SLAM の主な課題は、セマンティック観察の曖昧さにあります。同じタイプのセマンティックラベルが完全に異なる幾何学的形状に対応する可能性があり (たとえば、異なるスタイルの建物には「建物」というラベルが付けられます)、ファクターグラフに適切な緩和を導入する必要があります。

8. 将来の傾向と未解決の問題

8.1 大規模な言語モデル + 意味認識

GPT-4V などの視覚言語モデル (VLM) は、セマンティックマッピングに オープンな語彙認識 機能をもたらします。これは、あらかじめ定義された一連の閉じたセマンティックカテゴリに限定されなくなり、自然言語で記述された任意のセマンティック概念を理解できるようになります。

アプリケーションシナリオ: ユーザーが「学校エリアを避けてください」と言うと、VLM は画像から学校の特徴 (遊び場、旗掲揚台、学校の標識) を識別できます。ユーザーが「コーヒーショップのある道路の上を飛んで」と言うと、VLM は目的の道路を見つけることができます。これにより、セマンティックマッピングが「受動的なクエリ」から「能動的な理解」にアップグレードされます。

8.2 プライバシー保護とデータの非感作セマンティックマッピングには都市環境の多数の画像が含まれるため、プライバシーの問題 (建物内の可視性、人間の活動の記録) が生じます。技術的な対応戦略には次のものが含まれます。

エッジサイド処理: セマンティックセグメンテーションは UAV 搭載コンピューティングユニットで完了し、元の画像は地上局に送信されません。
プライバシーを考慮したレンダリング: 顔を含む領域を自動的にコーディングまたは削除します
フェデレーテッドセマンティックマッピング: 複数の UAV はセマンティックマップの更新を共有しますが、生の画像は共有しません

9. まとめ

セマンティックマッピングは、都市低空 UAV 計画を 幾何学的認識から 認知的理解に高めます。セマンティックセグメンテーション、深度推定、機能領域分割を通じて、UAV は単に「ここに障害物があるかどうか」を知るだけでなく、「どこを飛んでいるのか」、「なぜここが敏感なのか」、「どのように回避すべきか」を理解することができます。

主な研究の方向性には、オープンボキャブラリーの意味論的認識 (大規模モデルの強化)、不確実性を認識した計画 (認識エラーへの対処)、STMP/LAANC コンプライアンスの統合 (規制主導の意味論的制約) が含まれます。都市の低高度経済のための規制枠組みが改善し続けるにつれて、セマンティック認識機能が都市の UAV 計画システムの標準コンポーネントになるでしょう。

参考文献

Cheng, B.、Misra, I.、Schwing, A.G.、他（2022年）。セマンティックおよびインスタンスのセグメンテーション用の MaskFormer。 CVPR。 https://doi.org/10.1109/CVPR52688.2022.00227
キリロフ、A.、ミントゥン、E.、ラヴィ、N.、マオ、H.、ローランド、C.、グスタフソン、L.、… & ギルシック、R. (2023)。何でもセグメント化します。 ICCV。
Ranftl, R.、Lasinger, K.、Hafner, D.、Schindler, K.、および Koltun, V. (2020)。堅牢な単眼深度推定に向けて: ゼロショットクロスデータセット転送のためのデータセットの混合。 IEEE TPAMI。 https://doi.org/10.1109/TPAMI.2020.3019967- Ranftl、R.、Bochkovskiy、A.、および Koltun、V. (2021)。高密度予測のためのビジョントランスフォーマー。 ICCV。 https://doi.org/10.1109/ICCV48922.2021.01017
Alahi, A.、Goel, K.、Ramanathan, V.、Robicquet, A.、Fei-Fei, L.、Savarese, S. (2016)。 Social LSTM: 混雑した空間における人間の軌跡予測。 CVPR。 https://doi.org/10.1109/CVPR.2016.99
Salzmann, T.、Ivanovic, B.、Chakravarty, P.、および Pavone, M. (2020)。 Trajectron++: 異種データを使用した動的に実行可能な軌道予測。 ECCV。 https://doi.org/10.1007/978-3-030-46732-6_43
Zhou、H.、Ren、D.、Wu、J.、他。（2023年）。例: UAV ナビゲーション用のバッファー縮小を使用した環境グラフベースの計画。 イロス。
Liu, Y.、Chen, J.、Wang, X. 他（2023年）。あらゆる深さ: 大規模なラベルなしデータの力を解き放ちます。 arxiv:2401.10891。

※この記事は、都市低空ドローンルート計画に関するシリーズ記事の第4章の拡張章です。 *

都市低空 UAV ルート計画: セマンティック マッピングと機能エリア分割