JP7668951B2

JP7668951B2 - 感知によって発見可能な不確実な環境で動作するマシンの制御

Info

Publication number: JP7668951B2
Application number: JP2024500699A
Authority: JP
Inventors: ディ・カイラノ，ステファノ; ボンザニニ，アンジェロ・ドメニコ; メスバフ，アリ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-04-05
Filing date: 2021-12-15
Publication date: 2025-04-25
Anticipated expiration: 2041-12-15
Also published as: EP4320605A1; CN117480528A; US20220317694A1; JP2024511234A; WO2022215300A1; US11886196B2

Description

本発明は、完全には知られていないが感知動作によって発見可能である環境において動作するマシンのための制御戦略に関する。マシンの例は自律型または半自律型の車両および自律型ロボットを含む。

自動車両、無人ドローン、自動地上車両、倉庫内移動ロボット等の自律型マシンが動作することが多い環境は、時間が経つにつれて変化するので、ほんの概略的にしか知られていない。マシンは、１つ以上の割当てられた制御目標を達成しなければならず、これは、障害物と衝突するかまたは環境内に具体的に印付けされたエリアから離れる等の、環境内のマシンの動作に起因する可能性のある安全でない事象を回避しながら達成されなければならない。しかしながら、環境に関する情報は、マシン自体のセンサまたは通信ネットワークを介してマシンに接続された環境内のセンサを用いた感知により取得することができ、これにより環境の知識を増やす。

例えば、自律型車両の１つの目的は、他の車両と衝突することなく、適切な車線区分線内の走行を維持することによって道路上に留まったままでそのターゲット目的地に到達することである。他の車両および道路標示の位置は事前には知られていないが、様々な物体がセンサおよび見通し線の範囲内にある限り、レーダ、ソナー、ライダー等のセンサから取得することができる。これらのセンサは、車両の内部にあっても外部にあってもよい。例えば、センサは、車両上または路側ユニット（road-side unit：ＲＳＵ）に配置することができる。

別の例では、倉庫ロボットは、人の作業者を危険に晒すことを回避するために割当てられた廊下内の走行を維持しつつ、かつ、倉庫内の他のロボットおよび材料との衝突を回避しつつ、特定の部品を作業台に搬送する。作業者および材料が倉庫内を移動すると、それらの位置は未知の方法で変化するが、これは、様々な物体がセンサの範囲および見通し線内にある限り、ライダおよびソナー等のロボットに搭載されたセンサから取得することができるか、または、ロボットがセンサの通信範囲内にある限り、環境に配置されたセンサからロボットに中継することもできる。

環境内の特定の物体について取得される情報の量は、そのような物体が受ける感知の量に左右される。すなわち、センサを用いて物体を観察すればするほど、当該物体に関してより多くの情報が取得され、すなわち、物体の状態に関してより多くの知識が得られる。従って、その知識を増やすために環境内の物体に関する情報を取得することは動的プロセスである。

他方で、センサを介して取得される環境に関する情報の量は、マシンがどのように操作されるかに左右されることが多い。例えば、ある物体が当該物体を観察するためのセンサの範囲内にある場合にのみ、かつ、マシン上に配置されたセンサと物体との間に自由な見通し線がある場合に、当該物体を適切に発見および観察することができる。従って、物体がより長くセンサの範囲内および見通し線内に留まるようにマシンを操作する場合、物体に関して取得される情報量はより多くなり、物体状態の知識はより正確になるだろう。また、範囲を小さくしながら情報量を増やすことができるので、障害物のより近くでマシンを制御すれば、より多くの情報が取得される。しかしながら、障害物の実際の位置に関する十分な知識が入手可能になる前に障害物の想定位置に近づきすぎると、いくつかのリスクが生じる可能性がある。

マシンの動きが入手可能な知識のみに基づいて決定される場合、部分的に未知の環境によって引起こされる安全でない事象を回避する必要があるので、マシンの動きが過度に慎重になり、最も良く知っている経路上に留まる可能性があり、結果として、性能が低下する可能性、例えば、目標に到達するまでの時間が長くなったり、使用エネルギーが増えたりする可能性がある。他方で、環境に関して最も多くの情報を取得するようにマシンの動きが決定される場合、マシンの動きは、制御目標を達成するのに必要な動きから著しく逸脱する可能性があり、結果として、全体的な性能が低下する可能性、例えば、目標に到達しない可能性、大幅に遅れて目標に到達する可能性がある。

従って、不確実であるが感知によって発見可能である環境によって引起こされる安全でない事象を回避しつつマシンの最適な動作を決定する制御方法が必要とされている。感知の情報取得能力は、マシンがどのように操作されるかに依存するものであり、このため、情報の取得により、マシンによるその目標の達成が妨げられることはなく、または、その目標達成の性能が低下することはない。

いくつかの実施形態は、感知により発見された部分的に未知の環境で動作するマシンを制御するためのコントローラについて検討する。制御目的は、マシンが、動作要件およびその環境との相互作用に関する当該マシンの安全性を確保しつつ特定の状態への到達または所与の基準信号の追跡等の所与の目標または制御目的を達成することである。

そのようなマシンの例として自律型車両、ならびに航空宇宙車両および可動式ロボットまたはマニピュレータロボットが含まれるが、これらは、動きおよびダイナミクスのモデルが利用可能なマシンであるが、完全には知られていない環境で動作しているマシンである。例えば、環境の不確実性は、位置および動きが事前には知られていないがカメラ、ライダ、またはレーダ等のセンサを用いて発見することができる他の車または物体等の他のエージェントの存在に起因する可能性がある。安全性は、車両またはロボットの動きが速度、加速度および力に対する制限等の動作仕様を満たすように当該車両またはロボットを制御することによって保証される。環境との安全な相互作用は、車両またはロボットが他のエージェント、例えば他の車または他のロボットと衝突せず、車両またはロボットが留まるのに適切なエリア、例えば、道路上の適切な車線または予め定義された作業空間に留まるように、当該車両またはロボットを制御することによって保証される。他のエージェントおよび場合によっては動きの範囲についての知識が完全ではないので、安全な相互作用を保証することは完全に確実ではあり得ないが、センサからより多くの情報を取得してそれらについての知識を増やすことによって、より確実なものにすることができる。

上述の定義および例に従って動作するマシンの場合、制御によって発行されるコマンドは、環境において入手可能な知識の量に依存する。例えば、制御は、未検出のリスクを回避するために、知識が得られていないエリアを回避することを必要とする可能性がある。他方で、感知はまた、制御がそのコマンドを通じてマシンをどのように操作するかに依存する。例えば、マシンがあるエリアにどれだけ近接しているかによって、そのようなエリアがどれだけ十分に感知されるかが決まる。別の例として、コントローラは、特定のエリア上で感知されたデータに対して行われる処理の量をリアルタイムで決定する場合もあり、これにより、センサから抽出される情報の量を増減させることができる。このため、感知と制御との間には循環的な相互依存性がある。

しかしながら、コントローラの全体的な目標は、マシンのための特定の制御目的を達成することである。従って、感知目的は、マシンの動作に影響を及ぼすものの、それ自体ではマシンの動作を動機付けるものではないため、制御目的に対して二次的なものである。

そのために、いくつかの実施形態は、制御が主要な目的であるとともに感知が二次的な目的である、相互依存的であるが不均衡な制御および感知のアプリケーションを開示する。相互依存性を達成するために、実施形態は、例えば単一の単位多変数最適化の一部として、マシンの状態軌道と、マシンの周囲の環境の状態について必要な知識の量とを共同で決定する。それらの重要性を不均衡にするために、いくつかの実施形態は、状態軌道および環境の状態の知識の量に対して多変数制約付き最適化を用い、この場合、環境の知識は、マシン状態および制御コマンドについての許容可能な値を決定する制約に対して作用する。このように、環境の知識は制御目的に対して副次的なものとなる。なぜなら、制約に対して作用する知識の量は独立した最適化目的を有しておらず、マシン状態および制御コマンドについての許容可能な値を制限することによって作用するからである。

従って、様々な実施形態は、マシンの動作を制限する適切な制約によって環境の知識を決定する一方で、制御目的を性能目的として決定する。そのような制約は、決定論的成分および不確実性成分から構成される。決定論的成分は、環境の現在の知識に基づいた制約を表わす。不確実性成分は、環境の現在の知識がどれくらい信頼できるかという制約ベースで、追加の安全マージンをどれだけ残さなければならないかを表わす。従って、不確実性成分の影響によりこれらの制約がより厳密になればなるほど、環境に関する現在入手可能な知識の信頼性がより低下することとなる。

結果として、コントローラは、目標に到達するのにより高い性能を有するようにマシンを操作する制御を可能にするより適切な知識が得られるエリアにおいて、感知を改善するようにマシンを動作させ得るが、目標を達成する性能が低下する場合に環境の知識を改善するようにマシン動作を修正することはないだろう。

いくつかの実施形態は、確率的制約を受ける予測制御としてコントローラを設計し、この場合、このような確率的制約における不確実性は、環境の推定についての予測信頼性である。環境の推定についての信頼性は、動的方程式またはマシン学習モデルに基づいて構築することができる推定器のモデルを用いて計算される。確率的制約は、環境の知識における不確実性を考慮しつつ、環境によって課されるマシン動作に対する制限を考慮に入れる一方で、予測コントローラのコスト関数は目標の達成を考慮に入れるものである。付加的または代替的には、いくつかの実施形態は、環境の特定の部分についての知識を改善するという二次的な目的を含むとともに、コスト関数を適切に設計することによって依然として目標を達成するものである。

従って、一実施形態は、マシンの動作を制御するためのコントローラを開示する。当該コントローラは、少なくとも１つのプロセッサと、命令が格納されたメモリとを備え、当該命令は、当該少なくとも１つのプロセッサによって実行されると、当該コントローラに、当該マシンの状態と当該センサの動作を制御する感知命令とに基づいて環境を感知する少なくとも１つのセンサの測定値から当該マシンの周囲の当該環境の知識を取得することと、当該環境についての取得された知識を処理し、当該環境の状態および当該環境の状態の不確実性を推定することと、当該環境の状態および当該環境の状態の当該不確実性によって表わされる周囲の環境の所望の知識に基づいて定義される状態および制御入力の許容可能な値に対する制約を受ける制御入力のシーケンスに状態軌道を関連付ける当該マシンのダイナミクスのモデルの多変数制約付き最適化を解くことによって、当該マシンの当該状態軌道および当該環境の所望の知識を定義する、当該マシンに対する制御入力のシーケンスを共同で決定することと、当該マシンの状態を変更するように当該制御入力のシーケンスに基づいて当該マシンを制御することと、当該環境の当該所望の知識に基づいて当該感知命令を更新し、当該更新された感知命令を当該センサに提示することとを実行させる。

感知によって発見される環境において動作するマシンを制御するためのコントローラを含む、本開示で考慮される一般的なアーキテクチャを示す概略図である。いくつかの実施形態によって用いられる共同的な多変数最適化を示す概略図である。いくつかの実施形態に従った、不均衡多変数制約付き最適化によって用いられる制約を示す概略図である。いくつかの実施形態に従った、不均衡多変数制約付き最適化によって最適化されるコスト関数の原理を示す概略図である。共同的であるが不均衡な最適化を達成するためにいくつかの実施形態によって実行される多変数制約付き最適化のための方法を示すブロック図である。いくつかの実施形態に従った、感知によって発見される環境において動作する車両を制御するための例示的なコントローラを示す概略図である。感知によって発見される環境において動作するマシンを制御するためのコントローラの計算プラットフォームを示す、本開示のいくつかの実施形態に従ったブロック図である。コントローラが車両を現在の車線に留まるように、または車線を左に変更するように操作し、現在の車線に留まることが好ましいように見える場合の、本開示のいくつかの実施形態に従ったコントローラの動作の結果を示す概略図である。コントローラが車両を現在の車線に留まるように、または車線を左に変更するように操作し、現在の車線に留まることが好ましいように見える場合の、本開示のいくつかの実施形態に従ったコントローラの動作の結果を示す概略図である。制約が環境の不確実性によって拡大され、コントローラがそのような不確実性を減らすための如何なるアクションも取らない場合に、衝突回避によって課される制約を回避しつつコントローラが車両をターゲット位置に到達させるように操作する際の、本開示のいくつかの実施形態に従ったコントローラの動作の結果を示す概略図である。いくつかの実施形態に従った、制約によりその所望の挙動が制限される時に、制約が環境の不確実性によって拡大され、コントローラがそのような不確実性を減らすためのアクションを取る場合に、衝突回避によって課される制約を回避しつつコントローラが車両をターゲット位置に到達させるように操作する際の、当該実施形態に従ったコントローラの動作の結果を示す概略図である。制約が環境の不確実性によって拡大された場合であって、本開示の実施形態によって制限が課されることなく車両性能および不確実性低減の共同のコスト関数を最適化することに基づいてコントローラがそのような不確実性を減らすためのアクションを取る場合に、衝突回避によって課される制約を回避しつつコントローラが車両をターゲット位置に到達させるように操作する際の、いくつかの実施形態に従ったコントローラの動作の結果を示す概略図である。いくつかの実施形態に従った、感知によって発見される環境において動作するマシンを制御するためのコントローラを示すブロック図である。いくつかの実施形態に従った制御ユニットの反復動作を示すフロー図である。制御ユニットによって施行されるマシンの動作に対する制約によって環境およびその不確実性の影響が考慮されている、いくつかの実施形態に従ってマシンを制御するために制御ユニットによって用いられる予測モデルの構成を示すフロー図である。制御ユニットによって施行されるマシンの動作に対する制約によって環境およびその不確実性の影響が考慮されている、いくつかの実施形態に従ってマシンを制御するために制御ユニットによって用いられるコスト関数の構成を示すフロー図である。いくつかの実施形態に従った、環境状態に関する不確実性に基づいて、組合わされたマシン状態空間および環境状態空間の許容可能な領域を小さくする、不確実性依存の緊密な相互作用制約の効果を示す概略図である。いくつかの実施形態に従った、不確実性依存の緊密な相互作用制約を構築するための動作を示すフロー図である。

図１Ａは、いくつかの実施形態に従った制御アーキテクチャの概略図である。マシン１０１は、コントローラ１０２によって制御されて、動作に影響を及ぼすとともに感知によって発見可能である環境１０３において動作している。コントローラ１０２によって発行されるコマンドに応答したマシン１０１の挙動は既知であると仮定される。マシンが動作する環境は完全には知られていないが、それに関する情報は、マシン上に配置されるかまたはマシンに遠隔接続されるセンサ１０４から取得することができる。コントローラ１０２は、センサ１０４から得られる環境１０３に関するデータに対する情報抽出１１１を含み、その情報を制御ユニット１１２内のマシン１０１に関する既知の情報と共に用いて、マシン１０１の動作要件および環境１０３との相互作用に関する安全性を確保しつつ制御目的を達成するためのマシン用コマンドを計算する。

従って、不確実であるが感知によって発見可能である環境によって引起こされる安全でない事象を回避しつつマシンの最適な動作を決定する方法およびマシンが必要とされており、この場合、感知の情報取得能力は、さらに、情報の取得がマシンの目標達成の妨げまたは目標達成時の性能の低下をもたらすことがないようにマシンが如何に操作されるかに左右される。

いくつかの実施形態は、感知目的が、制御目的に影響を及ぼすもののそれ自体ではマシンの動作を動機付けるものではないので、当該制御目的に対して二次的なものであるという認識に基づく。そのために、いくつかの実施形態は、制御が主要な目的であるとともに感知が二次的な目的である、相互依存的であるが不均衡な制御および感知のアプリケーションを開示する。

そのために、制御ユニット１１２は、制御入力と環境の所望の知識とについての共同的であるが不均衡な最適化を実行する。図１Ｂ、図１Ｃおよび１Ｄは、制御ユニット１１２によって実行される共同的であるが不均衡な最適化についての様々な原理と、様々な実施形態によって採用されるいくつかの実現例とを例示する概略図を示す。図１Ｂ～図１Ｄは、限定としてではなく明確にするために提供される。

図１Ｂは、いくつかの実施形態によって用いられる共同的な多変数最適化の概略図を示す。相互依存性を実現するために、実施形態は、マシンの状態軌道とマシンの周囲の環境の状態について必要とされる知識の量とを共同で、すなわち単一の単位多変数最適化の一部として、決定する。従って、いくつかの実施形態は、逐次最適化１１０および均衡な多変数最適化１１５を不均衡な多変数最適化１１７に置換える。

それらの重要性の不均衡を実現するために、いくつかの実施形態は、状態軌道および環境の状態についての知識の量に関して多変数制約付き最適化を用いるが、この場合、環境の知識は制約に作用する。このように、環境の知識は制御目的に副次的なものとなる。なぜなら、制約に作用する知識の量が独立した最適化目的を有しておらず、マシンのために選択される制御コマンドを制限するだけであるからである。

図１Ｃは、いくつかの実施形態に従った不均衡な多変数制約付き最適化によって用いられる制約の概略図を示す。いくつかの実施形態の目的は、マシンの状態軌道を最適化するのに必要な知識が不十分である場合にのみ感知命令を更新する、制御コマンドおよび所要の知識のこのような多変数制約付き最適化を提供することである。そのために、付加的または代替的には、取得された知識に制約を課すために、取得されるであろう知識に基づいてマシンの許容可能な状態に制約を課す必要があることが認識された。これらの許容可能な状態は、制御されたマシンの状態軌道の最適化の空間を管理し、これにより、取得された知識が不足しているために最適な軌道に到達できない場合にのみ、当該取得された知識を増やす必要性を生じさせる。このように、いくつかの実施形態は、相互作用制約１２０の構造を有する制約を定義することを目的とする。

いくつかの実施形態では、環境は、環境の状態または環境状態として本明細書で言及されるその状態によって定義される。環境の状態は、制御されたマシンに対する影響の観点から、環境に関する全ての関連データを収集する。環境の状態は、複数の状態変数、例えば、制御されたマシンの周囲のエリアにおける占有グリッド、周囲環境における点および／または物体の動き、制御されたマシンが動作可能な空間の境界、環境内の物体とのマシンの許容される分離および相対速度、等を含み得る。環境の状態は、関連知識、入手可能な知識または取得された知識を取込む。取得された知識は、状態および制御入力の許容可能な値に対する制約に明確に変換することができる。しかしながら、多変数制約付き最適化の目的のために、環境についての入手可能な知識の量だけでなくこの知識の不足にも基づいて制約を定義する必要もある。何が未知であるかに基づいて制約を定義することは困難である。

いくつかの実施形態は、状態および制御入力の許容可能な値に対する制約が２つの部分を含み得るという認識に基づく。第１の部分は、環境の現在の知識によって正に定義することができる。第２の部分は、正確な知識の不足を定義するので負の性質を有する。いくつかの実施形態は、第２の部分の負の性質を第１の部分に基づいて正の制限に変換することができるという認識に基づく。すなわち、未知のものを記述する第２の部分を有するのではなく、第２の部分は第１の部分の不確実性として正に定義することができる。このように、環境についての既知の知識および環境に関する未知の知識によって定義される制約を有するのではなく、いくつかの実施形態は、環境の知識によって定義される制約１２０と、環境の知識によって定義されたものに関する不確実性とを決定した。このような変換は、制約導出に適した方法で未知の知識を表わすことを可能にする。

従って、いくつかの実施形態では、制約１２０は、環境の状態および環境の状態の不確実性を用いて確率的に定義される。例えば、既知の（すなわち取得された）知識が、制御されたマシンの許容可能な状態値の領域、または同等に、許容不可能な状態値の領域を定義するために用いられる場合、知識の不足による不確実性は、許容可能な値の領域を小さくすること、および／または許容不可能な値の領域を広げることによって、正に表わすことができる。このように、確率的制約１２０は知識の不確実性を反映することができる。

この理解を用いて、いくつかの実施形態は、制約１２０および表現１２５を組合わせて確率的制約または機会制約１２７にする。制約１２７は様々な実装例を有し得る。例えば、制約１２７は、マシンの状態、環境の状態、および制御入力の相互作用の関数を、環境の状態の不確実性のメトリックの単調増加関数の負数によって制限するように実装することができる。

図１Ｄは、いくつかの実施形態に従った不均衡多変数制約付き最適化によって最適化されるコスト関数の原理の概略図を示す。いくつかの実施形態は、マシン１０１の動作の原理が、ステージコスト１３３および終端コスト１３４を含むコスト関数１３０によって取込み可能であり、各々が、制御目的に対するマシンの状態の性能に比例する項と、環境の知識の量に比例する項とを含むという認識に基づく。いくつかの実施形態は、以前の制御目標に関連していなかったために情報が取得されていなかった以前に回避されたエリアでマシンが動作することが必要となる可能性があるので、環境の知識の量に比例する項をコスト関数内のステージコストおよび終端コストに含めることが、将来、制御の目的を変更する際に役立ち得るという認識に基づく。

しかしながら、いくつかの実施形態は、不均衡制御を達成するために、コスト関数１３０が環境の状態に依存すべきではないという認識に基づく。そのために、いくつかの実施形態は、例えば、それらの重みをゼロに等しくすることによってコスト関数からステージコストおよび終端コストを除去するか、または、１つのシナリオもしくは２つのシナリオの組合わせにおいて取得された知識を改善することを可能にする特別な制約１３５を課すものである。第１のシナリオでは、コントローラは、制御目的を達成する性能に直接的な利益をもたらさない限り、環境の知識を改善する如何なるための労力も払わない。第２のシナリオでは、コントローラは、制御目的の達成を妨げない限り、環境の知識をさらに改善させ得る。

例えば、いくつかの実施形態では、多変数制約付き最適化は、予測ホライズンに沿って得られる最適化された制御入力によって制御されるマシンの動作のステージコスト１３３と、予測ホライズンの終わりにおける終端条件に関連付けられた終端コスト１３４とを含むコスト関数１３０を最適化する。ステージコストおよび終端コストは各々、制御目的に応じたマシンの動作の性能に関する性能項と、環境の状態の不確実性に関する環境項とを含む。これらの項同士の間の均衡化は、各項を乗算する非負の重みによって得られる。例えば、均衡化を実行するために、コントローラは、制御目的の成就について予想される進行をチェックし、制御目的の成就が保証できない場合にはステージコストおよび終端コストの項の重みをゼロにするよう選択し、それ以外の場合、制御目的を満たすことを可能にするステージコストおよび終端コストの重みを選択することができる。いくつかの実装例では、今回の時間ステップについてのステージコストの制御項および終端コストの制御項を前回の時間ステップについての終端コストの制御項以下に維持したままで、今回時間ステップについてのステージコストの環境項および終端コストの環境項を前回の時間ステップでの終端コストについての環境項よりも小さくすることができれば、制御目的の成就が保証される。

図２は、共同的であるが不均衡な最適化を達成するためにコントローラ１０２のいくつかの実施形態によって実行される多変数制約付き最適化のための方法のブロック図を示す。コントローラ１０２は、マシンの状態に基づいてマシンの周囲の環境を感知するとともに、センサの動作を制御する命令を感知する少なくとも１つのセンサから測定値２１５を取得し（２１０）、当該測定値を処理して（２２０）、環境の知識を取得し（２２５）、環境の状態および環境の状態の不確実性を推定する（２２７）ように構成される。

次に、コントローラは、環境の状態および環境の状態の不確実性によって表わされる周囲環境の所望の知識２３７に基づいて定義される状態および制御入力の許容可能な値に対する制約を受ける制御入力のシーケンスと状態軌道を関連付けるマシンのダイナミクスのモデルの多変数制約付き最適化を解くことによって、マシンの状態軌道および環境の所望の知識２３７を定義するマシンへの制御入力のシーケンス２３５を共同で決定する（２３０）ように構成される。コントローラ１０２は、多変数制約付き最適化問題の解を用いて、制御入力２３５のシーケンスに基づいてマシンを制御し（２４０）、マシンの状態を変更し、環境の所望の知識２３７に基づいて感知命令を更新し（２５０）、更新された感知命令をセンサに提示する。

例示的な構造構成要素
図３Ａは、本開示のいくつかの実施形態の原理を採用するコントローラ３１２を含む車両３１１の概略図である。本明細書で用いる場合、車両３１１は、乗用車、バスまたはローバー等の任意のタイプの車輪付き車両であり得る。また、車両３１１は自律型または半自律型であり得る。例えば、いくつかの実施形態は車両３１１の動きを制御する。動きの例には、車両３１１の操舵機構３１３によって制御される車両の横運動が含まれる。操舵機構３１３はコントローラ３１２によって制御される。

車両はまた、車両３１１のコントローラ３１２または他の構成要素によって制御可能なエンジン３１６を含み得る。車両３１１はまた、非限定的な例として、その現在の運動量および内部状態を感知するための１つ以上のセンサ３１５を含み得る。センサ３１５の例として、全地球測位装置（global positioning machine：ＧＰＳ）、加速度計、慣性計測装置、ジャイロスコープ、軸回転センサ、トルクセンサ、たわみセンサ、圧力センサ、流量センサ等が含まれる。車両は、入力インターフェイス３１８を介して無線通信チャネルを通じてコントローラ３１２の通信能力を可能にするトランシーバ３１７を備え得る。車両は周囲環境を感知するための１つ以上のセンサ３１４ａ、３１４ｂを含む。センサ３１４ａ、３１４ｂの例として距離レンジファインダ、レーダ、ライダ、およびカメラがあり得る。代替的に、または同時に、周囲環境に関するセンサデータは、車両に対して遠隔に配置されたセンサ用のトランシーバ３１７を介して受信することができる。車両は、車両が動作するエリア内の道路に関するデータを格納する地図データベースマシンを備え得るか、または、トランシーバ３１７を介して遠隔に格納された地図データにアクセスし得る。

この例では、車両３１１は制御されたマシン１０１であり、センサ３１４ａ、３１４ｂとトランシーバ３１７から情報を受信する任意の遠隔センサとはセンサ１０４であり、コントローラ３１２はコントローラ１０２であり、道路および他の車両は環境１０３である。

図３Ｂは、いくつかの実施形態に従ったコントローラ１０２の計算プラットフォームのブロック図である。例えば、図３Ｂは、一実施形態に従ったコントローラ３１２のブロック図を示す。コントローラ１０２は、メモリ３０２、例えば、非一時的なコンピュータ可読媒体、に接続されたハードウェアプロセッサ３０１を含む。いくつかの実装例では、メモリ３０２は、マシン１０１に関するデータを格納するための第１のセクション３２１と、マシンの制御を計算するための制御ユニット１１２のプログラムを格納するための第２のセクション３２２と、環境１０３に関するデータを格納するための第３のセクション３２３と、センサ１０４からのデータから環境に関するデータ１１１を抽出するためのプログラムを格納するための第４のセクション３２４とを含む。

例えば、メモリ３０２の第１のセクション３２１は、最大加速度および最大速度等のマシン挙動についてのパラメータ、ならびにマシンのモデルおよびマシンに関する目標を格納することができる。車両３１１に対するコマンドを計算するためにプロセッサ３０１によって実行可能なプログラムをメモリ３０２の第２のセクション３２２上に具現化することができる。

さらに図３Ｂを参照すると、メモリ３０２の第３のセクション３２３は、環境に関するデータ、例えば、許可された動作空間および他のエージェントの存在、許可された相互作用、ならびに、更新された情報および環境内の要素のために入手可能な情報の履歴量等を含む。メモリ３０２の第４のセクション３２４には、車両３１１内のセンサ３１４ａ、３１４ｂおよびトランシーバ３１７を介して通信する遠隔センサから得られた情報を処理するためにプロセッサ３０１によって実行可能なプログラムを具現化することができる。

プロセッサ３０１は、計算を実行することができる任意の計算デバイスであり得るとともに、同じタイプまたは異なるタイプの１つまたは多数の物理的デバイスを含み得る。プロセッサ３０１は、複数の計算デバイス、例えばマイクロプロセッサ、を含み得る可能性がある。同様に、メモリ３０２は、データを格納できる任意の論理メモリおよび／または非一時的なコンピュータ可読記憶媒体であり得るとともに、同じタイプまたは異なるタイプの１つ以上の物理データ格納手段を含み得る。プロセッサ３０１によって実行される計算は、メモリの第２のセクション３２２および第４のセクション３２４に格納されたプログラムによって命令されるとともに、メモリの第１のセクション３２１および第３のセクション３２３に格納されたマシンデータと、センサ３１５、３１４ａ、３１４ｂおよびトランシーバ３１７から得られるデータとを用いる。プロセッサ３０１の計算により、結果として、マシン１０１の状態を変更するコマンド３０４が得られる。

例示的な制御目的
いくつかの実施形態は、マシン１０１が、未知であるが感知により取得される情報を通じて発見される環境で動作する場合、それ自体が、適用されるコマンドに関連しているという認識に基づく。例えば、図４Ａ、図４Ｂは、車両３１１が現在の車線４１１に留まるかまたは左車線４１２に変更するかを決定しなければならない場合のシナリオを示す。コントローラが図４Ａの軌道４１３を選択する場合、先行車両４１６が存在しているので、センサ視野４１４、４１５は、現在の車線上においてさらに前方にある車両４１７についての情報を捕捉することができるが、左車線上において前方にある車両４１８についての情報は捕捉できない。車両が図４Ｂの軌道４２３を選択する場合、先行車両４１６が存在しているので、センサ視野４１４、４１５は、現在の車線上においてさらに前方にある車両４１７に関する情報を捕捉することはできないが、左車線上において前方にある車両４１８に関する情報を捕捉することができる。従って、軌道４１３は、現在の車線上の他の車両に関するより多くの情報を取得することを可能にし、軌道４２３は、左車線上の車両に関するより多くの情報を取得することを可能にする。しかしながら、制御コマンドは環境についての入手可能な知識にも依存する。従って、車線を変更することが所望される場合、左車線上において前方にある車両４１８に関する知識が不足していれば、そのような車線上の車両の位置が不確実であるので、車両を左車線４１２に変更するための軌道をコントローラが安全に計画することができなくなる可能性がある。従って、制御コマンドは環境に関する入手可能な知識に影響を及ぼし、環境に関する知識の入手可能性は制御コマンドに影響を及ぼす。

従って、目標の達成および環境の知識の取得が可能となるように制御コマンドを選択する必要があり得る。しかしながら、これら２つの目的は競合し合う可能性がある。図５Ａは、車両３１１が目標位置５１１に到達しなければならず、２つの障害物５１２、５１３が存在するシナリオを示す。車両３１１は、障害物５１２、５１３と衝突することなく目標位置５１１に到達する制御目的を有する。障害物の位置は正確には分かっていないので、センサからの情報を用いずに、車両がエリア５１４、５１５を避け得るように、衝突を回避するための追加の安全マージンを取っておく必要があるかもしれない。この結果、安全マージン５１４により、必要以上に障害物５１２から遠く離れたままの軌道５１６が計画されることとなる。しかしながら、障害物位置に関する追加の知識の感知を用いることができるので、安全マージン５１４、５１５のサイズを小さくすることができる。

例えば、軌道５２６を計画するための図５Ｂでは、範囲５２７を有するセンサは、障害物５１４に関するより多くの情報を取得することができ、結果として、回避されるべき安全マージンエリア５２４がより小さくなる。このようにして、目標までの軌道はより直線になる。しかしながら、環境に関する知識を取得する目標が目標位置に到達する目標と等しく取扱われる場合、制御コマンドは、安全マージン５１５を５３５にまで小さくするように障害物５１３をセンサ範囲５２７内に導くために、直線から目標位置５１１へと逸れていく図５Ｃの軌道５３６を生成する可能性がある。しかしながら、これでは目標を達成する際の性能が改善されず、逆に性能が損なわれ、結果として軌道の直線性が低下してしまう。実際には、マシンは、目標５１１の達成さえも妨げられる可能性があり、目標に近いが目標ではない中間位置５３８で停止してしまう可能性もあるが、そこから障害物５１３に関する情報を取得し続けることができる。

従って、いくつかの実施形態は、相互依存的であるが不均衡な制御および知識取得を用いる。この場合、環境に関する知識の取得が制御目標を達成することに等しいとは見なされないが、むしろ環境に関する知識の取得とこれにより環境に関する不確実性の低減とがマシン目標の達成に対して副次的なものであり、これが主にそのような目標をより適切に達成するために実行されると見なされる。本開示では、環境に関する知識の量は、マシンの動作を制限する制約に含まれており、より多くの知識はより小さい安全マージン、すなわち、より許容可能な制約に対応する。従って、マシンに関してより多くの知識を取得することにより、制約の安全マージンが小さくなり、マシンが目標に到達するためにより許容可能な軌道を有することが可能となる。しかしながら、軌道５２６を計画するためにマージン５１４を５２４にまで小さくする等のために、マージンを小さくすることで目標までのより適切な軌道が提供される場合にのみ、軌道は、環境に関するより多くの情報を取得するように計画される。代わりに、軌道５２６を計画するためにマージン５１５を５３５にまで小さくする等のために、知識を増やした後にマージンを減らしても目標までの適切な軌道が提供されない場合、軌道は、環境に関するより多くの情報を取得しようと試みることはない。

いくつかの実施形態は、コントローラが、環境またはその部分に関してセンサによって取得される知識の量を変更する感知命令をセンサに提供し得るという認識に基づく。例えば、環境の特定のエリアの知識は、マシンの状態を変更することなく、センサの焦点を関心エリアに合わせることによって取得することができる。しかしながら、センサの焦点をどこに合わせるかを決定してもマシンの状態は変化しない。結果として、いくつかの実施形態は、マシンの状態の変化に影響を及ぼさないが環境またはその部分に関して取得された知識の量にのみ影響を及ぼす制御入力を定義し、それらを制御コマンドの最適化に含める。

従って、いくつかの実装例では、制御入力によって定義されるコマンドのセットは、環境から取得される知識の量を変更する一方でマシンの状態に影響を及ぼさない感知命令に関連するコマンドを含む。

このように、環境の状態の不確実性は、取得された環境の知識の逆数であり、状態および制御入力の許容可能な値に課される制約は、相互作用することが許可された変数の相互作用制約を含み、当該変数は、マシンの状態、環境の状態、および制御入力を含み、このため、多変数制約付き最適化は、環境の状態の不確実性がある状態で相互作用制約を満たすように提示される。

予測子（１１ａ）および（１１ｂ）における不確実性はマシンの状態およびコマンドに依存するので、マシンの状態軌道を決定するコマンドと、マシンの周囲の環境の状態について必要とされる知識の量とは相互依存的である。

いくつかの実施形態は、制御入力の状態の許容可能な値に対する制約が、環境の状態の現在の知識およびそのような知識に対する不確実性という２つの部分として区分できる場合、そのような表現は、環境の現在の知識または取得された知識を表わす平均および環境の知識の不確実性を表わす分散を伴う確率的制約によって有利に取込むことができるという認識に基づく。そのような確率的表現は、反復多変数制約付き最適化における様々な確率的技術の使用を可能にする。従って、制御ユニットは、予測された環境の状態およびその不確実性から相互作用制約（９）を構築する（６１３）。

例えば、環境の状態は第１のモーメントであり、環境の不確実性は、環境の状態の推定値の確率分布の第２のモーメントであり、このため、第２のモーメントの単調増加関数は相互作用制約を満たすための信頼度を定義する。

不確実性依存の緊密な相互作用制約（１２）は予測された不確実性に依存するので、マシンの周囲の環境の状態について取得された知識とマシンの状態軌道を決定するコマンドとは相互依存的である。

予測子（１１ａ）および（１１ｂ）における不確実性はマシン状態およびコマンドに依存するので、マシンの状態軌道を決定するコマンドとマシンの周囲の環境の状態について必要な知識の量とは相互依存的である。

このように、環境の状態およびその不確実性に対する制約を表わす確率的性質は以下の考慮事項を含む。第１に、制約は、第１の部分および第２の部分を含み、第１の部分は、周囲環境について取得された知識から決定された状態の許容不可能な値を定義し、第２の部分は、第１の部分に関連する知識における不確実性に基づいて状態の追加の許容不可能な値を定義し、このため、第１の部分および第２の部分をともに含む制約は確率的制約として多変数制約付き最適化に課されることとなる。

第２に、２つの部分から構成されるように制約をフレーミングすることにより、追加の許容不可能な状態値をパスすることが状態軌道を最適化するために有益であり得るかどうかをコントローラが評価することが可能となる。例えば、取得された知識によって定義される第１の部分は、変更されない可能性のある許容不可能な値を確実に指定する。例えば、この制約に違反すると、結果として、付近の車両との衝突、歩行者との衝突、または車両が走行する道路の側面への衝突が起こる可能性がある。しかしながら、状態の追加の許容不可能な値は、潜在的に入手可能であり得るとともに、より多くの情報または知識が取得される場合には再計算され得る。そのために、コントローラは、追加の許容不可能な状態値に関する知識によって追加の許容不可能な状態値を潜在的に小さくして状態軌道を改善させ得る場合、当該知識をより多く取得することを決定し得る。

第３に、制御入力の状態の許容可能な値に対する制約を、環境の状態の現在の知識およびそのような知識に対する不確実性という２つの部分として区分することができる場合、そのような表現は、環境の現在の知識を表わす平均および環境の知識の不確実性を表わす分散を伴う確率的制約によって有利に捕捉することができる。そのような確率的表現は、反復的な多変数制約付き最適化における様々な確率的技術の使用を可能にする。

例えば、環境の状態が第１のモーメントであり、環境の不確実性が環境の状態の推定値の確率分布の第２のモーメントである場合、第２のモーメントの単調増加関数が相互作用制約を満たすための信頼度を定義するようにする。この文脈においては、環境の状態の推定値の確率分布の第２のモーメントの単調増加関数は、環境の状態に対する相互作用制約の感度と、環境の状態の確率分布および相互作用制約を満たすための所望の信頼度から計算される係数とに基づく。

図９Ｂは、制約（９）が満たされる領域を補完するものである許容不可能な領域を構築するステップ９５１と、第１の追加の許容不可能な領域９１１を構築するステップ９５２と、第２の追加の許容不可能な領域９２１を構築するステップ９５２と、最後に、すべての許容不可能な領域９０１、９１１、９２１を補完するものである不確実性依存の緊密な相互作用制約（１２）を構築するステップ９５３とによって、不確実性依存の緊密な相互作用制約を構築するステップを示す。

従って、いくつかの実施形態は、環境の知識に基づいて、マシン状態の状態と環境の状態との値の組合わせによって記述される空間内の許容可能な領域を決定し、環境の状態の不確実性および環境の状態に対する制約の感度に基づいて低減係数を決定する。次に、実施形態は、環境の状態の不確実性の分布の形状と、制約を満たすための所望の信頼度とに基づいて低減係数を修正し、修正された低減係数に基づいて、マシン状態の状態と環境の状態との値の組合わせによって記述される空間内の許容可能な領域を小さくし、許容可能な領域を、制御されているマシンの状態および制御入力に関する制約に変換する。

このように、環境の状態に対応する状態および制御入力の許容可能な値は、環境の状態に対する相互作用制約の感度に基づいて低減される。付加的または代替的には、環境の状態に対応する状態および制御入力の許容可能な値の範囲は、環境の状態の不確実性の単調増加関数に基づいて低減される。

例示的な最適化技術
いくつかの実施形態は、取得された知識が２つのシナリオのうちの１つまたは２つのシナリオの組合わせにおいて改善され得るという認識に基づく。第１のシナリオでは、コントローラは、制御目的を達成する性能に直接的な利益をもたらさない限り、環境の知識を改善するための如何なる努力も行わない。第２のシナリオでは、コントローラは、制御目的の達成を妨げない限り、依然として環境の知識を改善し得る。

いくつかの実施形態は、制御目的に対するマシンの状態の性能に比例する項と、環境の知識の量に比例する項とを各々が含むステージコストおよび終端コストを含めることによって、上記２つのシナリオを均衡化させることができ、この均衡化は各項を乗算する非負の重みによって得られるという認識に基づく。いくつかの実施形態は、以前の制御目的に関連していなかったために情報が取得されていなかった以前に回避されたエリアでマシンを動作させることが必要となる可能性があるので、環境の知識の量に比例する項をコスト関数におけるステージコストおよび終端コストに含めることは将来において制御目的が変更される場合に役立ち得るという認識に基づく。

このように、コスト関数は、予測ホライズンに沿って得られる制御決定のシーケンスによって予測ホライズンに沿って被るコストを計算するステージコストと、予測ホライズンの終わりにおける終端条件に関連付けられたコストを計算する終端コストとを含む。この場合、ステージコストおよび終端コストの各々は、制御目的に対するマシンの状態の性能に関連する１つの項と、環境の知識の量に比例する項とを含み、これらの項間の均衡化は各項を乗算する非負の重みによって得られる。

従って、いくつかの実施形態では、コスト関数は、予測ホライズンに沿って行われる制御決定のシーケンスによって予測ホライズンに沿って被るコストを計算するステージコストと、予測ホライズンの終わりにおける終端条件に関連付けられたコストを計算する終端コストとを含む。ここで、ステージコストおよび終端コストの各々は、制御目的に対するマシンの状態の性能に関連する１つの項と、環境の知識の量に比例する項とを含み、これらの項間の均衡化は、各項を乗算する非負の重みによって得られる。

一実施形態は、可能な限り信頼性が高い場合に第２のシナリオを選択する。そのために、当該実施形態は、第２のシナリオに従って制御目的に向かって進行することを保証することが不可能であるかまたは少なくとも保証する可能性が低い場合にのみ第１のシナリオを選択する。従って、この実施形態では、コントローラは、制御目標に向かう予想される進行の条件の成就についてチェックし、条件が満たされることが保証できない場合には状態および終端コストの環境項の重みをゼロになるように選択し、そうでない場合、条件を満たすように状態および終端コストの不確実性の重みを選択する。予想される進行の条件は、過去の終端コストの環境における不確実性に関連する項よりも小さく１に等しいホライズンの場合には、環境内の不確実性に関連する終端コストの次の項と環境内の不確実性に関連するステージコストの項との比較に基づいている。

従って、いくつかの実施形態の図６に従うと、制御ユニットは、図８のステップに従ってコスト関数を構築する（６１４）。制御ユニットは、マシン目標から、当該マシン目標に対応する制御目的状態、制御目的コマンド、および環境不確実性目的を構築する（８０１）。例えば、環境不確実性目的は、マシン状態およびコマンドがマシン目標を達成するものに固定される場合、環境状態の分布の第２のモーメントのための均衡を決定するリアプノフ（Lyapunov）方程式を解くことによって計算することができる。

次いで、制御ユニットは次のサイクルまで待機する（６１８）。

本発明の上述の実施形態は、多数の方法のうちのいずれかで実装することができる。たとえば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組合せを用いて実装され得る。ソフトウェアで実装される場合、ソフトウェアコードは、単一のコンピュータで提供されるかまたは複数のコンピュータ間で分散されるかにかかわらず、任意の好適なプロセッサまたはプロセッサの集合上で実行することができる。このようなプロセッサは、集積回路構成要素中の１つ以上のプロセッサとともに集積回路として実装され得る。しかし、プロセッサは、任意の好適なフォーマットの回路を用いて実装されてもよい。

また、本明細書で概説される様々な方法またはプロセスは、様々なオペレーティングシステムまたはプラットフォームのいずれか１つを採用する１つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化され得る。加えて、このようなソフトウェアは、いくつかの好適なプログラミング言語および／またはプログラミングもしくはスクリプトツールのうちのいずれかを用いて書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能なマシン言語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能は、様々な実施形態において所望されるとおりに組合わされてもよく、または分散させてもよい。

また、当該実施形態は方法として具現化されてもよく、その例が上記にて提供されてきた。方法の一部として実行される動作は、任意の好適な方法で順序付けられてもよい。従って、例示した順序とは異なる順序で動作が実行される実施形態が構成されてもよく、これは、例示的な実施形態では連続的な動作として示されているが、いくつかの動作を同時に実行することを含み得る。

本発明を好ましい実施形態の例として説明してきたが、本発明の精神および範囲内で様々な他の適応および修正を行うことができることを理解されたい。従って、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内に収まるすべてのそのような変形および修正を網羅することである。

Claims

マシンの動作を制御するためのコントローラであって、少なくとも１つのプロセッサと、命令が格納されたメモリとを備え、前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記コントローラに、
前記マシンの周囲の環境を感知する少なくとも１つのセンサの測定値から、前記マシンの状態と前記センサの動作を制御する感知命令とに基づいて、前記環境内の物体の情報を示す前記環境の知識を取得することと、
前記環境についての取得された知識を処理し、前記環境の状態および前記環境の状態の不確実性を推定することと、
前記マシンのダイナミクスのモデルの多変数制約付き最適化を解くことによって、前記マシンの軌道を定義する前記マシンに対する制御入力のシーケンスと、前記環境の所望の知識とを共同で決定することとを実行させ、
前記マシンのダイナミクスのモデルは、前記マシンの状態および制御入力の許容可能な値に対する制約を受ける前記制御入力のシーケンスと、前記軌道とを関連付けており、
前記マシンの状態および前記制御入力は、前記環境の状態および前記環境の状態の前記不確実性によって表わされる周囲の環境の所望の知識に基づいて定義されており、
さらに、前記命令は前記コントローラに、
前記マシンの状態を変更するように前記制御入力のシーケンスに基づいて前記マシンを制御することと、
前記環境の前記所望の知識に基づいて前記感知命令を更新し、前記更新された感知命令を前記センサに提示することとを実行させ、
前記多変数制約付き最適化は、予測ホライズンに沿って得られる最適化された制御入力によって制御される前記マシンの動作のステージコストと、前記予測ホライズンの終わりにおける終端条件に関連付けられた終端コストとを含むコスト関数を最適化し、前記ステージコストおよび前記終端コストの各々は、制御目的に従った前記マシンの前記動作の性能に関する性能項と、前記環境の状態の前記不確実性に関する環境項とを含み、これらの項間の均衡化は、各項を乗算する非負の重みによって得られ、
現在の時間ステップについての前記ステージコストの前記環境項および前記終端コストの前記環境項が、前の時間ステップでの前記終端コストについての前記環境項未満であり、かつ、現在の時間ステップについての前記ステージコストの前記性能項および前記終端コストの前記性能項が、前記前の時間ステップについての前記終端コストの前記性能項以下である場合に、前記制御目的の成就が保証される、コントローラ。
前記環境の状態は、前記状態の許容不可能な値を定義し、前記環境の状態の前記不確実性は、前記状態の追加の許容不可能な値を定義し、これにより、前記制約によって定義される前記許容可能な値は、前記状態の前記許容不可能な値および前記追加の許容不可能な値を除外する、請求項１に記載のコントローラ。
前記制御入力によって定義されるコマンドのセットは、前記環境の前記取得された知識を変更する一方で前記マシンの状態に影響を及ぼさない前記感知命令に関連するコマンドを含む、請求項１に記載のコントローラ。
前記コントローラは、前記環境の状態のダイナミクスのモデルに基づいて、前記環境の状態および前記環境の状態の前記不確実性を再帰的に推定するように構成される、請求項１に記載のコントローラ。
前記コントローラは、前記マシンの前記動作のデータからトレーニングされた動的関数に基づいて、前記環境の状態および前記環境の状態の前記不確実性を再帰的に推定するように構成される、請求項１に記載のコントローラ。
前記環境の状態の前記不確実性は、前記環境の前記取得された知識の逆数であり、前記状態および前記制御入力の前記許容可能な値に課される制約は、相互作用関数に従って相互作用することが許可された変数の相互作用制約を含み、前記変数は、前記マシンの状態、前記環境の状態、および前記制御入力を含み、これにより、前記多変数制約付き最適化は、前記環境の状態の前記不確実性がある状態で前記相互作用制約を満たすように提示される、請求項１に記載のコントローラ。
前記環境の状態の前記不確実性のメトリックの単調増加関数は、前記相互作用制約を満たすための信頼度を判定する前記環境の状態の確率分布に基づいている、請求項６に記載のコントローラ。
前記単調増加関数は、前記環境の状態に対する前記相互作用制約の感度と、前記相互作用制約を満たすための所望の信頼度とに基づいて決定される、請求項７に記載のコントローラ。
前記状態および前記制御入力の前記許容可能な値は、前記環境の状態に対する前記相互作用制約の前記感度に基づいて低減される、請求項８に記載のコントローラ。
前記状態および前記制御入力の前記許容可能な値を決定するために、前記コントローラは、
前記環境の取得された知識に基づいて、前記マシンの状態および前記環境の状態の値の組合わせによって記述される空間内の許容可能な領域を判定し、
前記環境の状態の前記不確実性と前記環境の状態に対する前記相互作用制約の前記感度とに基づいて低減係数を決定し、
前記環境の状態の前記不確実性の前記確率分布と、前記相互作用制約を満たすための前記所望の信頼度とに基づいて、前記低減係数を修正し、
前記修正された低減係数に基づいて前記許容可能な領域を低減し、
前記許容可能な領域を、制御される前記マシンの状態および前記制御入力に対する前記制約に変換するように構成される、請求項８に記載のコントローラ。
前記許容可能な値は、前記環境の状態の前記不確実性の前記単調増加関数に基づいて低減される、請求項９に記載のコントローラ。
前記コントローラは、前記制御目的の成就についての予想される進行をチェックし、前記制御目的の成就が保証できない場合、前記ステージコストおよび前記終端コストの前記項の重みをゼロにするように選択し、そうでない場合、前記制御目的を満たすことを可能にする前記ステージコストおよび前記終端コストの重みを選択する、請求項１に記載のコントローラ。
前記コントローラは、制御サイクルのシーケンスにわたって前記マシンを反復的に制御し、制御サイクルを実行するために、前記コントローラは、
マシン状態の状態を受信し、前記状態のダイナミクスのマシン予測子を決定し、
前記環境の取得された知識を受信し、前記環境のダイナミクスの環境予測子を決定し、
相互作用することが許可された変数の相互作用制約を決定するように構成され、前記変数は、前記マシンの状態、前記環境の状態、および前記制御入力を含み、前記コントローラはさらに、
マシン目標を受信し、制御目的を構築し、予測ホライズンにわたって前記制御目的に到達するためのコスト関数を構築し、前記予測ホライズンの終わりにおける終端制約を決定し、
前記環境の状態の前記不確実性がある状態で前記相互作用制約を受けるコスト関数を最適化して、前記予測ホライズンにわたる時間ステップのシーケンスに関する最適化解のシーケンスを生成し、
前記最適化解のシーケンスの第１の要素を、前記マシンの１つまたは複数のアクチュエータおよび前記センサの１つまたは複数のアクチュエータに提示するように構成される、請求項１に記載のコントローラ。
前記マシンは自律型車両または自律型ロボットである、請求項１に記載のコントローラ。
マシンの動作を制御するための制御方法であって、前記方法は、前記方法を実施する格納された命令と連携してプロセッサを用い、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
前記マシンの周囲の環境を感知する少なくとも１つのセンサから、前記マシンの状態と前記センサの動作を制御する感知命令とに基づいて、測定値を取得するステップと、
前記測定値を処理して、前記環境内の物体の情報を示す前記環境の知識を取得し、前記環境の状態および前記環境の状態の不確実性を推定するステップと、
前記マシンのダイナミクスのモデルの多変数制約付き最適化を解くことによって、前記マシンの軌道を定義する前記マシンに対する制御入力のシーケンスと、前記環境の所望の知識とを共同で決定するステップとを含み、
前記マシンのダイナミクスのモデルは、前記マシンの状態および制御入力の許容可能な値に対する制約を受ける前記制御入力のシーケンスと、前記軌道とを関連付けており、
前記マシンの状態および前記制御入力は、前記環境の状態および前記環境の状態の前記不確実性によって表わされる周囲の環境の所望の知識に基づいて定義されており、
前記ステップは、さらに、
前記マシンの状態を変更するように前記制御入力のシーケンスに基づいて前記マシンを制御するステップと、
前記環境の前記所望の知識に基づいて前記感知命令を更新し、前記更新された感知命令を前記センサに提示するステップとを含み、
前記多変数制約付き最適化は、予測ホライズンに沿って得られる最適化された制御入力によって制御される前記マシンの動作のステージコストと、前記予測ホライズンの終わりにおける終端条件に関連付けられた終端コストとを含むコスト関数を最適化し、前記ステージコストおよび前記終端コストの各々は、制御目的に従った前記マシンの前記動作の性能に関する性能項と、前記環境の状態の前記不確実性に関する環境項とを含み、これらの項間の均衡化は、各項を乗算する非負の重みによって得られ、
現在の時間ステップについての前記ステージコストの前記環境項および前記終端コストの前記環境項が、前の時間ステップでの前記終端コストについての前記環境項未満であり、かつ、現在の時間ステップについての前記ステージコストの前記性能項および前記終端コストの前記性能項が、前記前の時間ステップについての前記終端コストの前記性能項以下である場合に、前記制御目的の成就が保証される、制御方法。
方法を実行するためのプロセッサによって実行可能なプログラムが具現化された非一時的なコンピュータ可読記憶媒体であって、前記方法は、
マシンの周囲の環境を感知する少なくとも１つのセンサから、前記マシンの状態と前記センサの動作を制御する感知命令とに基づいて測定値を取得するステップと、
前記測定値を処理して、前記環境内の物体の情報を示す前記環境の知識を取得し、前記環境の状態および前記環境の状態の不確実性を推定するステップと、
前記マシンのダイナミクスのモデルの多変数制約付き最適化を解くことによって、前記マシンの軌道を定義する前記マシンに対する制御入力のシーケンスと、前記環境の所望の知識とを共同で決定するステップとを含み、
前記マシンのダイナミクスのモデルは、前記マシンの状態および制御入力の許容可能な値に対する制約を受ける前記制御入力のシーケンスと、前記軌道とを関連付けており、
前記マシンの状態および前記制御入力は、前記環境の状態および前記環境の状態の前記不確実性によって表わされる周囲の環境の所望の知識に基づいて定義されており、
前記方法は、さらに、
前記マシンの状態を変更するように前記制御入力のシーケンスに基づいて前記マシンを制御するステップと、
前記環境の前記所望の知識に基づいて前記感知命令を更新し、前記更新された感知命令を前記センサに提示するステップとを含み、
前記多変数制約付き最適化は、予測ホライズンに沿って得られる最適化された制御入力によって制御される前記マシンの動作のステージコストと、前記予測ホライズンの終わりにおける終端条件に関連付けられた終端コストとを含むコスト関数を最適化し、前記ステージコストおよび前記終端コストの各々は、制御目的に従った前記マシンの前記動作の性能に関する性能項と、前記環境の状態の前記不確実性に関する環境項とを含み、これらの項間の均衡化は、各項を乗算する非負の重みによって得られ、
現在の時間ステップについての前記ステージコストの前記環境項および前記終端コストの前記環境項が、前の時間ステップでの前記終端コストについての前記環境項未満であり、かつ、現在の時間ステップについての前記ステージコストの前記性能項および前記終端コストの前記性能項が、前記前の時間ステップについての前記終端コストの前記性能項以下である場合に、前記制御目的の成就が保証される、非一時的なコンピュータ可読記憶媒体。