交通信号制御の再考: 固定タイミングから適応型インテリジェンスへ

信号機はどこにでもあります。私たちは一日に何十回も、通常は何も考えずに信号機に遭遇します。しかし、午前 2 時に誰もいない赤信号の前に座っていたり、ある交差点から次の交差点まで完璧に流れる「青の波」に遭遇したことがあるなら、交通信号が最適化されている (またはされていない) ことの影響をすでに感じているはずです。

SUMO や CARLA などの交通シミュレーションツールに何年も取り組み、信号制御の強化学習に関する研究を詳しく調べた結果、私はこの問題が都市モビリティにおける最も興味深く未解明な課題の 1 つであると考えるようになりました。これが、私たちが現在どこにいるのか、そしてどこへ向かうのかについての私の正直な感想です。

従来のアプローチ: 固定時間および作動制御

現在でもほとんどの信号機は、次の 2 つのパラダイムのいずれかで動作しています。固定時間制御 は、通常は過去の交通量から導出される、事前にプログラムされたスケジュールに従って青段階を割り当てます。これらのスケジュールは、更新される場合でも年に 1 回更新されることがよくあります。予測可能で操作が簡単であるという意味では堅牢ですが、基本的には現在ではなく過去に反応します。

作動制御 により、交差点にループ検知器またはビデオカメラが追加されます。車両が検出されると、信号によって緑色のフェーズが延長されます。これは固定時間よりは優れていますが、基本的にローカルであることに変わりはありません。上流または下流で何が起こっているかを意識することなく、各交差点が個別に最適化されます。

どちらのアプローチも、核となる制限を共有しています。ネットワークではなく交差点を最適化します。 1 つの交差点を通過する青信号によってキューが作成され、そのキューがあふれ出て他の 3 つをブロックする可能性があります。トラフィックはシステムであり、独立したノードの集合ではありません。## ネットワーク全体の問題: 調整がすべてを変える理由

典型的な朝のラッシュアワー中に何が起こるかを考えてみましょう。住宅地から幹線道路に車両が流入します。これらの幹線信号が調整されていないと、結果として、進行性帯域障害と呼ばれる現象が発生します。これは、グリーンウェーブとは正反対です。ストップアンドゴーの交通は、需要が高いからではなく、信号のタイミングが悪いために発生します。

これは、SCOOT (スプリットサイクルオフセット最適化技術) と SCATS (シドニー協調適応交通システム) が功績を残した場所です。 1980 年代に開発されたこれらのシステムは、リアルタイムの検出データを使用して、交差点ネットワーク全体のサイクル長、分割、オフセットを調整します。これらは本当に効果的です。SCOOT を実行している都市では、遅延が 10 ～ 20% 削減されたと報告しています。しかし、ここに落とし穴があります。SCOOT と SCATS は依然として 交通流モデル、つまり車両の移動方法の巨視的またはメゾスコピックな近似に基づいています。これらのモデルは、従来のトラフィック用に調整されました。彼らは次のことに苦労しています。

過飽和状態 (需要が容量を超えた場合)
再発しない渋滞 (事件、工事、イベント)
混合交通 (人間が運転する車両が自動運転車両と車線を共有する)
長距離依存関係 (上流の 3 つの交差点がボトルネック)

モデルベースのアプローチは頭打ちになっています。さらに前進するには、モデルのコンフォートゾーンの外に出る必要があります。

強化学習: 別の種類のオプティマイザーここで私自身の研究経験がより広い視野と交差します。都市高速道路のランプメーター用の SUMO-Python 協調シミュレーションプラットフォームに取り組んでいたとき、私は次のような疑問を持ち始めました。エージェントは、明示的なモデルなしで純粋に経験から交通信号の制御を学習できるでしょうか?

交通信号制御のための 強化学習 (RL) の背後にある考え方は洗練されています。

エージェントは交通信号制御装置です
州は現在の交通状況です。列の長さ、待ち時間、車両の位置、場合によっては車両からインフラへの (V2I) データも含まれます。
アクションは、切り替える信号フェーズです。
報酬は、総遅延の最小化、スループットの最大化、キューオーバーフローのペナルティのメトリクスの組み合わせです。エージェントは、トラフィックフローの基礎となるダイナミクスを知る必要はありません。 AlphaGo が、各ステップで「最良の一手」が何であるかを知らされずに碁を打つことを学習したのと同じように、環境との相互作用から制御ポリシーを直接学習します。

何が難しいのか

すべてが順風満帆というわけではありません。交通信号 RL は、いくつかの実際的な課題に直面しています。

サンプルの効率 何百万ものセルフプレイエピソードが実現可能なゲームとは異なり、現実世界の展開では、最初にエージェントがシミュレーションで学習する必要があります。忠実なシミュレーションを構築することは簡単ではありません。車線変更の動作、ドライバーの攻撃性、歩行者の予測不能性などすべてをモデル化する必要があります。

マルチエージェントの調整 単一の交差点は 1 つのことです。しかし、それぞれに独自の RL エージェントを持つ 50 の交差点のネットワークでは、マルチエージェント RL 問題が発生します。エージェントは個別に最適化するだけでなく、調整する必要があります。各エージェントのアクションは、隣接するエージェントの観察に影響を与えます。安全性と解釈可能性 交通規制は安全性が非常に重要です。学習エージェントに実際の交差点で自由に実験させることはできません。ベースラインは安全である必要があり、学習には制約が必要です。たとえば、保守的なポリシーの更新、人間参加型のフォールバック、安全シールドなどです。

一般化。 朝のラッシュアワーのデータに基づいてトレーニングされた RL エージェントは、正午または休日の週末に見事に失敗する可能性があります。流通のシフトは深刻な問題だ。

有望な方向性

課題はありますが、この先の展開に本当に興奮しています。私が特に有望だと思ういくつかの方向性:空間認識のためのグラフニューラルネットワーク。 各交差点に独自のキュー長のフラットベクトルを供給するのではなく、GNN を使用すると、エージェントはネットワークトポロジを介して通信でき、隣接する交差点で何が起こっているかに関する情報を共有できます。これが、ボッシュ中国での私のインターンシップ業務での軌道生成への取り組み方であり、このアプローチは自然に信号制御に移行します。

物理学に基づいたハイブリッド RL。 第一原理トラフィックモデル (ストアアンドフォワードやセル伝送モデルなど) と RL を組み合わせると、両方の長所を利用できます。モデルは構造と安全性の制約を提供し、RL はきめ細かい最適化を処理します。これは、高速道路のランプメーターに関する私の SCI 論文、つまりチャネライゼーションモデリングを使用した SUMO シミュレーションに裏付けられた Q 学習です。V2I および CAV 対応制御。 コネクテッド自動運転車 (CAV) が市場に浸透するにつれて、フィードバックループは劇的に変化します。スパースループ検出器から交通状態を推測する代わりに、信号はネットワーク内のすべての車両からリアルタイムの位置および速度データを受信できます。これは単なる漸進的な改善ではなく、観察可能で制御可能なものを根本的に変えます。

私たちが築いてきたものと残るもの

SUMO-CARLA 融合プラットフォームから RL ベースのランプメーターリングペーパーに至るまで、私自身の仕事の中で、可能性とギャップの両方を直接見てきました。シミュレーションプラットフォームは急速に成熟しています。 SUMO の TraCI インターフェイスを使用すると、すべてを Python でスクリプト化できます。 CARLA は、知覚ベースの制御に必要なセンサーの忠実度を追加します。ツールがボトルネックになることはなくなりました。

私の見解では、未解決のままであるものは次のとおりです。1. ベンチマーク環境 — ML の ImageNet や GLUE など、一貫した指標を持つ標準化されたトラフィックネットワークベンチマークが必要です。文献には、実際の展開には反映されない、単一交差点のおもちゃの問題がたくさんあります。

公平性と公平性 — ほとんどの RL 信号コントローラーは平均遅延を最適化します。しかし、主要な交通の流れに役立つ信号は、軽度の進入で歩行者、自転車、または車両に体系的にペナルティを課す可能性があります。公平性制約のある多目的 RL は十分に研究されていません。
シミュレーションから現実への移行。 これはラストマイルの問題です。 SUMO で機能するポリシーは、シミュレーションと現実のギャップにより、現実世界では失敗することがよくあります。ドメインのランダム化、システム識別、および堅牢な RL はすべてソリューションの一部です。4. 一般に受け入れられています。 動作を非決定的に変更する適応信号は、ドライバーを混乱させる可能性があります。制御理論と並行してヒューマンファクターの研究スレッドも必要です。

最後に

信号制御は、一見単純そうに見えて奥が深い問題の一つです。それは制御の問題、ネットワークの問題、公平性の問題、そしてますます機械学習の問題になります。 19 世紀の計時装置が今でも世界のほとんどの交差点で稼働しているという事実は、その信頼性と、より良くすることがいかに難しいかを証明しています。

私は楽観的です。安価なセンサー、V2X 通信、より優れたシミュレーション、よりスマートな RL アルゴリズムの融合により、都市のモビリティを最も基本的なレベルで、一度に 1 つずつ青信号で再考する真の機会が生まれています。

---※信号制御や交通系RL、SUMO/CARLAシミュレーションなどをお考えの方はお気軽にご相談ください。いつでも喜んでアイデアを交換します。*