JP2023504220A

JP2023504220A - 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法

Info

Publication number: JP2023504220A
Application number: JP2022558825A
Authority: JP
Inventors: ジャー，デベシュ; コラリク，パトリック; ラフナサン，アルビンド; ベノスマン，モウハシン; ロメレス，ディエゴ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-12-12
Filing date: 2020-12-04
Publication date: 2023-02-01
Anticipated expiration: 2040-12-04
Also published as: CN114761966A; JP7367233B2; EP3924884A1; EP3924884B1; US20210178600A1; WO2021117845A1

Abstract

軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコントローラが提供される。このコントローラは、初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、システムの確率的予測モデルを学習させることと、関連する平均予測値および不確実度を推定することと、学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、システムのローカル偏差セットを決定することと、最大偏差を有するシステム状態を決定することと、ロバスト性制約の勾配を決定することと、システム軌道を取得すると共にローカルポリシーを安定化するように、非線形プログラミングを用いてロバスト性ポリシー最適化問題を提供および解決することと、解決された最適化問題に従って制御データを更新することと、インターフェイスを介して、更新された制御データを出力することとを実行する。

Description

本発明は、一般的に、軌道中心強化学習を行うためのローカルポリシーおよび制御軌道を共に最適化するためのシステムおよび方法に関する。

強化学習（ＲＬ）は、逐次的な意思決定問題を処理する学習フレームワークである。この場合、「エージェント」または意思決定部は、（未知の）環境と対話することによって、長期報酬を最適化するためのポリシーを学習する。各ステップにおいて、ＲＬエージェントは、自身の動作の性能に関する評価的なフィードバック（報酬またはコストとも呼ばれる）を取得することによって、次の動作の性能を改善（最大化または最小化）することができる。

一般的に、任意の非線形システムのグローバル学習および最適化は、計算上およびアルゴリズム上の両方で極めて困難であり得る。しかしながら、多くのシステムが実行する必要がある多くのタスクが軌道中心であるため、ローカル学習および最適化は、非常にデータ効率的であり得る。コントローラの時変性質によって、非線形システムの軌道中心制御が困難であり得る。不正確なモデルまたは観測値もしくは作動上のノイズに起因して、実際のシステムが動作中に予定の軌道から逸脱することは、非常に一般的である。機械学習方法は、制御軌道を学習し、制御軌道の進化の不確実度を予測することを可能にする。制御の観点から、学習済み不確実度モデルを用いて、制御軌道を安定化することができるローカル状態依存ポリシーを設計することが望ましい。殆どの技術は、システムモデルに存在する不確実度の情報を使用して、所望の制御軌道を安定化することができない。

また、軌道および対応する安定化ポリシーを共に設計することが望ましい。このことは、当然ながら、制御軌道の最適性と安定化との間のトレードオフを引き起こすであろう。このような設定では、ポリシー最適化アルゴリズムは、直感的に、制御がより困難であり得る状態空間の領域を回避するため、モデルの不確実度を活用して、ロバスト且つ最適な軌道中心コントローラを設計することができる。現在の技術の多くは、２つのステップ（すなわち、軌道の設計およびコントローラの合成）を別々に実行するため、モデルの不確実度情報を利用することができない。

上記の事実および課題を考慮して、広範囲のタスクに亘って物理システムのロバスト性能を得るために、これらの物理システムの不確実な統計モデルを使用することができ且つこれらのモデルの構造を活用することができるより良いポリシー最適化方法が必要である。

最近の研究は、様々なドメイン、例えばコンピュータゲームにおいて、これらのアルゴリズムの顕著な成功をもたらした。軌道中心ＲＬの目標は、システムの初期状態からタスクを首尾よく実行し、システムを所望の最終状態に案内することができるポリシーを最適化することである。軌道中心方法は、ローカル予測モデルを学習し、これらのモデルを用いてシステムのローカル近傍のポリシーを最適化するため、より速く学習することができるという利点を有する。

強化学習アルゴリズムを２つのカテゴリ、すなわち、モデルに基づく方法およびモデル無し方法に大きく分けることができる。モデルに基づく強化学習（ＭＢＲＬ）技術は、一般的に、システムのためにタスクに依存しない予測モデルを学習するため、データ効率的であると考えられる。次いで、学習済みモデルを用いて、確率的制御手法に従って、システムのポリシーを合成する。しかしながら、これらの方法は、一般的に訓練が非常に困難であるため、低性能のポリシーをもたらす。これらのクラスのアルゴリズムによって得られた低性能にはいくつかの理由がある。１つの重要な課題は、学習プロセス中に収集されたデータに存在するノイズによって、学習プロセス中に推定されたシステムの予測モデルが本質的に確率的であることである。その結果、間違ったモデルは、最適化アルゴリズムを、システムが不安定である状態空間の部分に動かしていく可能性があり、学習プロセスは、逸脱する可能性がある。ＭＢＲＬの別の課題は、推定モデルが状態空間の異なる領域において異なるレベルの不確実度を有し得るため、後続のポリシー最適化ステップは、最適な性能を得るために学習済み統計モデルの構造を活用すべきである。しかしながら、ポリシー最適化技術の殆どは、ポリシー最適化中にこの情報を無視するまたは組み込むことができない。

ＭＢＲＬは、学習中に推定された予測モデルが、タスクに依存せず、複数のタスクに使用できるため、複数のタスクの学習の観点からより効率的であるという利点を有する。したがって、ＭＢＲＬは、学習済みモデルを再使用して、異なるタスクのポリシーを計算することができる。その結果、ＭＢＲＬは、ポリシーを最適化するために多くのデータを収集することが非常に高価であり得る多くの物理システムのためのポリシーを効率的に学習することができる。

本発明のいくつかの実施形態によれば、ポリシーの最適化は、物理システムの不確実な統計モデルを用いて、これらのモデルの構造を活用して広範囲のタスクに亘ってこれらの物理システムのロバスト性能を得ることによって、実行される。また、いくつかの実施形態は、計算アルゴリズムおよび関連する学習アルゴリズムの両方を効果的に実行することによって、任意の非線形システムを処理することができるコントローラおよび方法を提供する。多くのシステムが実行する必要がある多くのタスクが軌道中心であるため、本発明のいくつかの実施形態は、非常にデータ効率の良いローカル学習および最適化を提供することができ、コンピュータ（コンピュータ性能）の向上をもたらす。

本開示のいくつかの実施形態は、システムを制御するための制御ポリシーを最適化するためのコンピュータ実装学習方法が提供されるという認識に基づく。このようなシステムのいくつかの例は、ＨＶＡＣシステム、工場自動化システム、ロボットシステム、および高性能誘導モータなどの機械システムを含むシステムであり得る。この場合、方法は、タスク特有のポリシーによって作動されるシステムの状態を受信することと、制御ポリシーを、タスク（例えば、システムの既知の部分モデルおよびタスク）を実行するための初期推測として初期化することと、現在の制御ポリシーを用いて、現在の状態、動作、および次の状態のタプルを含み得るデータを収集することと、システムの統計的予測モデルを推定することと、任意の状態－制御対における予測および予測に関連する不確実度を推定することと、システムを安定させる必要がある公称システム状態の周りのローカルセットを推定することと、ローカル安定化ポリシーのパラメータを最適化するために使用され得るロバスト性制約の勾配を計算することと、システムの動力学の勾配を計算することと、ロバスト性制約の勾配を用いて、軌道およびローカル安定化ポリシーのコストを最小化するように非線形最適化プログラムを解決することによって、軌道中心制御ポリシーを決定することとを含む。

いくつかの実施形態は、学習中に推定された統計モデルの不確実度の存在下でシステムの軌道中心タスクを実行するための方法およびシステムを提供する。軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコントローラは、センサによって測定されたシステム状態、制御データおよび状態変化のタプルを含むデータを受信するように構成されたインターフェイスと、プロセッサ実行可能プログラムを記憶するためのメモリとを備え、プロセッサ実行可能プログラムは、インターフェイスを介して受信したシステムのスク命令に応答して、所望の期間中の公称状態および制御軌道（開ループ軌道）を時間ステップの関数として生成するための確率的予測学習モデルと、機械学習方法アルゴリズムおよび初期ランダム制御ポリシーを含む制御ポリシーと、公称軌道に沿った偏差を調節するためのローカルポリシーとを含み、少なくとも１つのプロセッサを備えることができる。少なくとも１つのプロセッサは、初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、システムの確率的予測モデルを学習させることと、確率的予測モデルに関連する平均予測値および不確実度を推定することと、フィードフォワード制御および安定化時不変フィードバック制御と共に公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、システムのローカル偏差セットを決定することと、システムのローカル偏差セット内の公称システム状態から、最大偏差を有するシステム状態を決定することと、最大偏差を有するシステム状態におけるロバスト性制約の一次導関数を計算することによって、ロバスト性制約の勾配を決定することと、状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、最適なシステム状態軌道、フィードフォワード制御入力およびシステム状態を公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、非線形プログラミングを用いてロバストポリシー最適化を提供および解決することと、解決された最適化問題に従って制御データを更新することと、インターフェイスを介して、更新された制御データを出力することとを実行するように構成されている。

また、本発明の別の実施形態は、制御ポリシーを最適化することによってシステムを制御するためのコンピュータ実装方法（制御システム）を提供することができる。このコンピュータ実装方法は、軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためために提供される。この方法は、初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、システムの確率的予測モデルを学習させることと、確率的予測モデルに関連する平均予測値および不確実度を推定することと、フィードフォワード制御および安定化時不変フィードバック制御と共に公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、システムのローカル偏差セットを決定することと、システムのローカル偏差セット内の公称システム状態から、最大偏差を有するシステム状態を決定することと、最大偏差を有するシステム状態におけるロバスト性制約の一次導関数を計算することによって、ロバスト性制約の勾配を決定することと、状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、最適なシステム状態軌道、フィードフォワード制御入力およびシステム状態を公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、非線形プログラミングを用いてロバストポリシー最適化を提供および解決することと、解決された最適化問題に従って制御データを更新することと、インターフェイスを介して、更新された制御データを出力することとを含む。

システムは、センサを介してシステムのタスク命令および状態を受信するように構成されたインターフェイスと、初期化器、ポリシー収集器、推定器、エージェントおよびポリシー更新プログラム、システムの確率的予測モデルを推定するためのプログラム、ロバスト性制約およびその勾配を計算するためのプログラム、最適軌道および安定化ポリシーを得るように非線形最適化問題を解決するためのプログラムをを含むコンピュータ実行可能プログラムを記憶するためのメモリと、メモリに接続されたプロセッサとを備えることができる。このプロセッサは、制御ポリシーを、タスク（例えば、システムの既知の部分モデルおよびタスク）を実行するための初期推測として初期化することと、現在の制御ポリシーを用いて、現在の状態、動作、および次の状態のタプルを含み得るデータを収集することと、システムの統計的予測モデルを推定することと、任意の状態－制御対における予測および予測に関連する不確実度を推定することと、システムを安定させる必要がある公称システム状態の周りのローカルセットを推定することと、ローカル安定化ポリシーのパラメータを最適化するために使用され得るロバスト性制約の勾配を計算することと、システムの動力学の勾配を計算することと、ロバスト性制約の勾配を用いて、軌道およびローカル安定化ポリシーのコストを最小化するように非線形最適化プログラムを解決することによって、軌道中心制御ポリシーを決定することとを実行するように構成されている。

以下、添付図面を参照して本開示の実施形態をさらに説明する。図面は、必ずしも縮尺通りではなく、一般的に本開示の実施形態の原理を説明するために強調されることがある。

本発明の実施形態に従って、準ニュートン信頼領域ポリシーの最適化に基づいて機械システム（装置、例えば、ロボット）を制御するための制御システム（コントローラ）を示す図である。本発明の実施形態に従って、コントローラ（制御システム）を使用するデータ処理フローを示す図である。本開示の実施形態に従って、強化学習の一般概念を示す図である。本発明の実施形態に従って、提案されたロバスト軌道中心コントローラの最適化に基づくシステムの一例を示す図である。本開示の実施形態に従って、モデルに基づく強化学習の概念を示す図である。本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて推定された確率的入出力関係を示す図である。本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて推定された確率的入出力関係を示す図である。本開示の実施形態に従って、確率過程を使用するシステムの動力学の進化の概念を示す図である。本開示の実施形態に従って、軌道中心コントローラの設計中に安定化ポリシーを使用した制御軌道の安定化の概念を示す図である。本開示の実施形態に従って、軌道中心コントローラを解決するために使用された非線形最適化プログラムの解法に含まれる異なるステップを示すフローチャートである。本開示の実施形態に従って、軌道中心コントローラ合成用のロバスト性制約の勾配を推定するための異なるステップを示すフローチャートである。本開示の実施形態に従って、設計されたコントローラの安定挙動の一例を示す図である。本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。本開示の実施形態に従って、システムに導入された様々なレベルの外乱下で被制御システムの統計的挙動の一例を示す図である。ボールアンドビームシステム(ball-and-beam system)の一例を示す図である。本開示の実施形態に従って、開ループコントローラを使用するボールアンドビームシステムの性能と提案された軌道中心コントローラを使用するボールアンドビームシステムの性能との比較の一例を示す図である。

以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用可能性、または構成を限定することを意図していない。むしろ、以下の例示的な実施形態の説明は、１つ以上の例示的な実施形態を実施するための実施可能な説明を当業者に提供する。添付の特許請求の範囲に記載されるように、開示された主題の精神および範囲から逸脱することなく、要素の機能および配置に対して行われ得る様々な変更が考えられる。

具体的な詳細事項は、以下の記載において、実施形態の十分な理解のために与えられる。しかしながら、これらの具体的な詳細事項がなくても実施形態を実行できることを、当業者は理解できる。例えば、開示された主題におけるシステム、プロセス、および他の要素は、実施形態を不必要な詳細で不明瞭にしないために、ブロック図の形態で構成要素として示される場合もある。他の例では、実施形態を不明瞭にしないために、周知のプロセス、構造、および技術は、不必要な詳細事項を伴わずに示されることがある。さらに、様々な図面における同様の参照番号および名称は、同様の要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明される場合がある。フローチャートは動作を逐次プロセスとして説明することができるが、動作の多くは並列にまたは同時に実行することができる。さらに、動作の順序は入れ替え可能である。プロセスは、その動作が完了したときに終了されてもよいが、論じられていないかまたは図に含まれていない追加のステップを有する場合がある。さらに、具体的に記載されている何らかのプロセスにおける全ての動作が全ての実施形態に起こり得る訳ではない。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数または主関数に関数を戻すことに対応し得る。

さらに、開示された主題の実施形態は、少なくとも部分的に手動または自動のいずれかで実現することができる。手動または自動による実現は、機械、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせの使用を通して行われてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを実行するプログラムコードまたはコードセグメントは、機械可読媒体に格納されてもよい。プロセッサは、必要なタスクを実行することができる。

図１Ａは、本発明のいくつかの実施形態に従って、制御システム（コントローラ）１００を示すブロック図である。システム１００は、キーボード１１１およびポインティング装置／媒体１１２に接続可能な入力／出力（Ｉ／Ｏ）インターフェイス１１０を有するヒューマンマシンインターフェイス（ＨＭＩ）と、３Ｄセンサ１１６と、プロセッサ１２０と、メモリ１４０およびプロセッサ１２０を用いて実行されるアルゴリズムを記憶するための記憶装置１３０と、ローカルエリアネットワークおよびインターネットネットワーク（図示せず）を含むネットワーク１９０に接続可能なネットワークインターフェイスコントローラ（ＮＩＣ）１５０と、ディスプレイデバイス１６５が接続されたディスプレイインターフェイス１６０と、撮像装置１７５と接続可能な撮像インターフェイス１７０とを含むことができる。ＮＩＣは、命令および状態測定データを受信するためにワイヤレス通信を実行するトランシーバ（図示せず）を含んでもよい。Ｉ／Ｏインターフェイス１１０を有するＨＭＩは、アナログ／デジタルコンバータおよびデジタル／アナログコンバータを含んでもよい。また、Ｉ／Ｏインターフェイス１１０を有するＨＭＩは、複数の３Ｄポイントクラウドを構築することを可能にするように、無線インターネット接続または無線ローカルエリアネットワークを介して、他の３Ｄポイントクラウドディスプレイシステムまたは他のコンピュータと通信することができる無線通信インターフェイスを含んでもよい。システム１００は、電源（図示せず）を含むことができる。電源は、Ｉ／Ｏインターフェイス１１０を介して、外部電源（図示せず）から充電可能なバッテリであってもよい。用途に応じて、電源は、システム１００の外部に配置されてもよい。

システム１００は、ＮＩＣ１５０に接続されたネットワーク１９０を介して、音声データを含む電子テキスト／イメージ文書１９５を受信することができる。記憶装置１３０は、プログラムコードデータとして記憶装置１３０に記憶されているモデル不確実度推定器、ロバスト制約勾配評価器、および非線形最適化プログラムソルバを含むアルゴリズムモジュール１３１と、ロボット制御アルゴリズム１３２とを含む。モデル学習、ロバスト制約勾配推定器および非線形プログラム最適化器１３１のアルゴリズムは、コンピュータ可読記録媒体（図示せず）に記憶されてもよい。これによって、プロセッサ１２０は、これらのアルゴリズムを媒体からロードすることによって、モデル１３１、１３２およびマルチモーダルエンコーダ／デコーダ２００のアルゴリズムを実行することができる。また、ポインティング装置／媒体１１２は、コンピュータ可読記録媒体に記憶されたプログラムを読み出して実行するモジュールを含んでもよい。

図１Ｂは、本発明の実施形態に従って、コントローラ（制御システム）１００を使用するデータ処理フローを示す図である。本開示のいくつかの実施形態は、機械１０３のコントローラ１００が特定の命令またはタスク１０１を達成するように設計され得るという認識に基づく。コントローラ１００は、制御信号を機械１０３に送信するためのコンピュータソフトウェアであり、機械１０３は、制御信号を実行するものであり、機械の状態は、観測器１６４によって観測される。本開示のいくつかの実施形態は、モデルに基づく強化学習アルゴリズム１０５を用いて、機械から取得された動作データ１０４を使用してコントローラ１００の最適なポリシーを学習することができるという認識に基づく。特定のタスクまたは命令の場合、コントローラは、機械の現在の状態に基づいて制御信号を決定する初期ポリシーで初期化される。観測器は、機械の状態を観測することができる。その後、この制御信号が機械上で実行され、機械の状態変化が観測される。現在の状態、制御信号および次の状態を含むタプルは、命令またはタスクを実行するための新しいポリシーを計算するために学習アルゴリズムによって使用されるデータである。このプロセスは、ポリシーが安定したポリシー（すなわち、より多くのデータを収集しても変化しないもの）に収束するまで繰り返される。

図２は、本発明の実施形態に従って、提案された軌道中心ＲＬのロバスト最適化に基づく制御システムの一例を示す図である。以下では、制御システムを、ロボットシステム２００に適用された例として説明するが、本発明の制御システムおよびコンピュータ実装方法は、ロボットシステムに限定されない。本発明のいくつかのシステムまたはコンピュータ実装方法は、ＨＶＡＣシステム、工場自動化システム、ロボットシステム、および高性能誘導モータなどの機械システムを含むシステムに導入されてもよい。

図２のロボットシステム２００は、状態測定値を取得するためのセンサを装備したロボットマニピュレータと、データを記憶し、マニピュレータアームを制御するためのコンピュータ実装システムとを含んでもよい。マニピュレータアームは、いくつかの剛性リンク２１７、２１５、２１３およびジョイント２１８、２１６、２１４を含むことができる。マニピュレータアームは、ロボット制御システムを使用して制御され、ロボット制御システムは、外部からシステムに供給される命令またはタスクを受信する。一例として、命令またはタスクは、マニピュレータを使用して物体２１２を把持すること、またはグリッパ２１２によって保持された物体２１１を使用して組立作業を実行することであってもよい。ロボット制御システムは、制御信号２７０をマニピュレータに送信する。制御信号２７０は、マニピュレータのジョイント２１８、２１６、２１４にそれぞれ適用されるトルク、およびグリッパ２１２を開閉するためのトルクであってもよい。ロボットシステムの状態は、センサを用いて測定される。これらのセンサは、ロボット２１８、２１６、２１４のジョイントに配置されたエンコーダと、ロボットの環境を観察することができるカメラ２１０と、グリッパ２１２の上下鍔に取り付けることができるいくつかの触覚センサ２１９とを含むことができる。センサからの状態測定値は、データ入力／出力ユニット２２０に送信され、データ入力／出力ユニット２２０は、センサから受信したデータを記憶する。本開示のいくつかの実施形態は、所望のタスクを行うために、初期制御ポリシーを用いてロボット制御システムを初期化する。制御ポリシーのいくつかのエピソードは、ロボットシステムに実装され、センサからの状態測定データは、データ入力／出力システム２２０に収集される。次いで、このデータは、ロボットシステムの現在のポリシーを更新するためのコンピュータプログラム２３０を含むソフトウェアによって使用される。当該ポリシーを更新するためのこのプログラムは、ガウス過程であり得るモデル更新システム２４０を含む。次いで、２４０によって更新されたモデルは、ロバスト軌道中心ポリシー最適化器であり得るコントローラ更新システム２５０に送信され、コントローラ更新システム２５０は、更新されたポリシーをロボット制御システム２６０に送信する。このプロセスは、ロボットの最適な制御ポリシーを得るまで繰り返される。

図３は、本開示の実施形態に従って、強化学習の一般概念を示す図である。強化学習（ＲＬ）は、逐次的な意思決定問題を処理する学習フレームワークである。この場合、「エージェント」２３０または意思決定部は、（未知の）環境３１０と対話することによって、長期報酬（またはコスト）を最適化するためのポリシーを学習する。各ステップにおいて、ＲＬエージェントは、環境の観測値と共に、自身の動作の性能に関する評価的なフィードバック（報酬またはコストとも呼ばれる）３５０を取得することによって、次の動作の性能を改善（最大化または最小化）することができる。システムのポリシーは、システムの現在の状態を入力として受け取り、出力として動作を生成する関数として定義される。最適ポリシーは、システムの全ての状態に対して最適出力を生成するポリシーである。最適性は、所定のタスクの予期報酬（またはコスト）に対して測定される。

強化学習アルゴリズムは、２つのカテゴリ、すなわち、モデルに基づくアルゴリズムおよびモデル無しアルゴリズムに大きく分けられる。名前で示唆するように、モデル無しＲＬアルゴリズムは、ポリシーを学習するためにシステムの状態変化確率を使用しない。これらの種類のアルゴリズムにおいて、システムのポリシーは、関数近似器としてパラメータ化される。次いで、ポリシーパラメータは、所望のタスクを実行するための予期報酬を最大化することによって直接最適化される、またはタスクに関連する価値関数を推定することによって最適化される。これらのアルゴリズムは、一般的に、非常にサンプル非効率的である。すなわち、これらのアルゴリズムは、システムのポリシーを最適化するために、非常に多くの訓練データを必要とする。また、これらのシステムを使用する学習は、最適化を実行することによって特定のタスクの予期報酬を最大化するため、タスクに依存する。

異なる種類のＲＬアルゴリズムの中で、ＭＢＲＬアルゴリズムは、よりデータ効率的であると考えられる。モデルに基づくＲＬアルゴリズムにおいて、初期の（場合によってはランダムな）制御ポリシーを用いて、システムから状態変化データを収集する。次いで、この状態変化データを用いて、このシステムの順方向予測モデルを学習する。重要なことは、予測モデルの学習は、タスクに依存しないため、報酬構造から独立していることである。システムの順方向動力学を良好に推定すると、システムの動力学モデルを使用して、所望のタスクを実行することができるコントローラを合成する。制御軌道または状態依存完全ポリシーを使用して、タスクを実行することができる。制御軌道は、既知の初期状態から所望の状態を達成することによってタスクを実行するように、システム上で実行され得る一連の制御入力である。なお、このようなコントローラは、状態に依存するものではなく、むしろ時間でインデックスされたものである。状態依存完全ポリシーは、システムの初期状態に依存しないため、システムの初期状態から所望のタスクを実行するために使用されてもよい。

本発明のいくつかの実施形態の目的は、収集された状態変化データを用いて、システムの統計モデルを推定することである。ガウス過程または確率的ニューラルネットワークを含むいくつかの機械学習方法は、このステップに使用されてもよい。ガウス過程は、平均関数および共分散関数によって完全に特定される確率過程である。

図５Ａおよび５Ｂは、本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて、推定された確率的入出力関係を示す図である。

本発明のいくつかの実施形態は、任意の非線形システムに対して、システムの完全な状態依存ポリシーを合成することが、計算上および数値上非常に困難なタスクであるという認識に基づく。このことは、システムのグローバルモデルを信頼できるように推定する必要があり、困難な課題である。他方、ローカル制御軌道を計算することは、より容易であるが、初期条件に非常に影響されやすく、時間でインデックスされているため、性能が低下する可能性がある。また、不正確または不確実なモデルを使用する場合、性能が低下する可能性がある。したがって、軌道中心コントローラを用いて良好な性能を達成するために、本発明は、有界不確実度が存在しても高性能を保証することができる安定化コントローラを使用することを提案する。

本開示のいくつかの実施形態は、上記の制約付き軌道最適化問題が非線形最適化プログラム（またはＮＬＰ）であるという認識に基づく。したがって、いくつかの実施形態の目的は、内部点法を用いて非線形軌道最適化プログラムを解決することである。

ＭＢＲＬ技術は、サンプル効率であるため、物理システムの最適なコントローラを学習するための非常に魅力的な選択肢である。本発明のいくつかの実施形態は、ＭＢＲＬアルゴリズムの性能がモデルの誤差に極めて影響されやすいという認識に基づいている。システムの予測モデル中の誤差は、非常に迅速に混合され、コントローラを、モデルが非常に不確実であり、したがって、制御が非常に困難である領域に動かすことができる。これによって、学習プロセスの全体が分岐され、失敗になる。

本発明のいくつかの実施形態は、軌道をローカル的に安定化するように最適化されるポリシーと共に軌道を解決する場合、システムの状態空間の不確実領域を回避するように最適化器を制約することができるという認識に基づく。このような共同最適化は、容易に安定化され且つ最適である軌道を見つけるように、最適化を強制的に動作させる。したがって、学習プロセス中に推定された不確実なモデルの存在下で、最適性とロバスト性との間のトレードオフを達成することができ、ＭＢＲＬアルゴリズムのより良好な安定した学習をもたらす。

本発明のいくつかの実施形態は、多くの軌道安定化技術が時変のコントローラを計算するという認識に基づく。従って、被制御システムのリアルタイム制御がより困難になる。一般的に、ＲＬアルゴリズムは、実装がより容易であるため、状態依存ポリシーを出力として計算する。主な理由は、システムが非線形であるため、システム状態の小さな摂動であってもシステム動力学が変化することである。時間依存追跡コントローラは、状態に依存しないため、予期軌道に摂動がある場合にうまく機能しない。したがって、本発明は、公称軌道の周りのローカル軌道を安定化するための時不変フィードバックポリシーを計算することを提案する。

本開示のいくつかの実施形態は、システムの確率モデルを用いて、実行中にシステムが公称軌道から逸脱し得るシステム状態のセットを推定することができるという認識に基づく。この不確実度セットの推定は、実行中にシステムを安定化する必要がある状態のセットを与えることができる。安定化コントローラの目標は、セット内の全ての状態を元の公称軌道にプッシュすることである。これが真である限り、システムは、元の公称軌道に追従することができ、したがって、所望のタスクを行う際に所望の最適な性能を達成することができる。

図６Ａは、本開示の実施形態に従って、確率過程を使用したシステムの動力学の進化の概念を示す図であり、図６Ｂは、軌道中心コントローラ設計中に安定化ポリシーを使用した制御軌道の安定化の概念を示す図である。

本発明のいくつかの実施形態は、機械学習方法によって推定された不確実度領域６３０を用いて、軌道６５０と共に安定化ポリシーを計算する。安定化ポリシーの機能は、システムを、軌道によって決められた公称システム状態に近づけることである。

本開示のいくつかの実施形態は、ロバスト性制約（ハード制約またはソフト制約のいずれか）を用いて非線形軌道最適化を解決するために、ロバスト性制約の勾配を計算する必要があるという認識に基づく。しかしながら、制約内の最大関数が微分不可能であるため、ロバスト性制約は、微分不可能である。しかしながら、ダンキン定理を用いて、ロバスト性項の一次勾配を得ることができる。この勾配は、軌道最適化問題の解決にとって重要である。したがって、特定の実施形態の目的は、ダンスキン定理を用いてロバスト性制約の勾配を推定することである。

ダンキン定理に従って、まず、最大関数の引数を計算し、次いでその点における最大関数の勾配を評価することによって、ロバスト性制約の勾配を得ることができる。

図１２は、ビーム１１２０上で移動することができるボール１１５０を含むボールアンドビームシステムを示す。ボールの初期位置１１１０は、固定される。タスクは、ボールを所望の位置に移動させ、ボールをその位置に保持することである。ビームの傾度は、エンコーダ１１３０およびエンコーダシャフト１１４０によって測定される。図１３は、開ループコントローラに比べて、提案された軌道中心コントローラの典型的な挙動の例を示す。図１３は、提案されたコントローラの平均定常誤差１２１０がゼロであることを示す。しかしながら、開ループコントローラは、非ゼロ定常誤差１２２０で不十分に機能する。

上述した本開示の実施形態は、多くの方法で実現されてもよい。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実現されてもよい。ソフトウェアで実現される場合、ソフトウェアコードは、単一のコンピュータに設けられたまたは複数のコンピュータに分散されたことにも拘らず、任意の適切なプロセッサまたは一群のプロセッサで実行されてもよい。このようなプロセッサは、集積回路として実装されてもよい。１つの集積回路要素は、１つ以上のプロセッサを含むことができる。しかしながら、プロセッサは、任意の適切な回路で実装されてもよい。

また、本明細書において概説した様々な方法または工程は、様々なオペレーティングシステムまたはプラットフォームのいずれか１つを採用する１つ以上のプロセッサ上で実行可能なソフトウェアとしてコーディングされてもよい。さらに、このようなソフトウェアは、いくつかの的背うなプログラミング言語および／またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能な機械言語コードもしくは中間コードとしてコンパイルされてもよい。通常、プログラムモジュールの機能は、所望に応じて様々な実施形態に組み合わせられてもよく、分散させられてもよい。

また、本開示の実施形態は、一例として提供された方法として具現化されてもよい。本方法の一部として実行される動作は、任意の適切な方法で順序付けられてもよい。したがって、例示的な実施形態において順次に実行される動作とは異なる順序で動作を実行すること、いくつかの動作を同時に実行することを含み得る実施形態を構築することができる。さらに、請求項において請求項要素を修飾するための順序用語、例えば第１、第２などの使用は、別の請求項要素に対する１つの請求項要素の優先順位、前後順位もしくは順序、または方法の動作を実行する時間順序を意味しておらず、単に請求項要素を区別するためのラベルとして使用され、（順序用語を使用することによって）特定の名前を有する１つの請求項要素と同じ名前を有する別の要素とを区別させる。

いくつかの好ましい実施形態を参照して本開示を説明したが、理解すべきことは、本開示の精神および範囲内で、様々な他の改造および修正を行うことができることである。したがって、添付の特許請求の範囲は、本開示の真の精神および範囲内にある全ての変形および修正を網羅する。

本発明の実施形態に従って、準ニュートン信頼領域ポリシーの最適化に基づいて機械システム（装置、例えば、ロボット）を制御するための制御システム（コントローラ）を示す図である。本発明の実施形態に従って、コントローラ（制御システム）を使用するデータ処理フローを示す図である。本開示の実施形態に従って、提案されたロバスト軌道中心コントローラの最適化に基づくシステムの一例を示す図である。本発明の実施形態に従って、強化学習の一般概念を示す図である。本開示の実施形態に従って、モデルに基づく強化学習の概念を示す図である。本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて推定された確率的入出力関係を示す図である。本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて推定された確率的入出力関係を示す図である。本開示の実施形態に従って、確率過程を使用するシステムの動力学の進化の概念を示す図である。本開示の実施形態に従って、軌道中心コントローラの設計中に安定化ポリシーを使用した制御軌道の安定化の概念を示す図である。本開示の実施形態に従って、軌道中心コントローラを解決するために使用された非線形最適化プログラムの解法に含まれる異なるステップを示すフローチャートである。本開示の実施形態に従って、軌道中心コントローラ合成用のロバスト性制約の勾配を推定するための異なるステップを示すフローチャートである。本開示の実施形態に従って、設計されたコントローラの安定挙動の一例を示す図である。本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。本開示の実施形態に従って、システムに導入された様々なレベルの外乱下で被制御システムの統計的挙動の一例を示す図である。ボールアンドビームシステム(ball-and-beam system)の一例を示す図である。本開示の実施形態に従って、開ループコントローラを使用するボールアンドビームシステムの性能と提案された軌道中心コントローラを使用するボールアンドビームシステムの性能との比較の一例を示す図である。

図２のロボットシステム２００は、状態測定値を取得するためのセンサを装備したロボットマニピュレータと、データを記憶し、マニピュレータアームを制御するためのコンピュータ実装システムとを含んでもよい。マニピュレータアームは、いくつかの剛性リンク２１７、２１５、２１３およびジョイント３１８、２１６、２１４を含むことができる。マニピュレータアームは、ロボット制御システムを使用して制御され、ロボット制御システムは、外部からシステムに供給される命令またはタスクを受信する。一例として、命令またはタスクは、マニピュレータを使用して物体２１２を把持すること、またはグリッパ２１２によって保持された物体２１１を使用して組立作業を実行することであってもよい。ロボット制御システムは、制御信号２７０をマニピュレータに送信する。制御信号２７０は、マニピュレータのジョイント３１８、２１６、２１４にそれぞれ適用されるトルク、およびグリッパ２１２を開閉するためのトルクであってもよい。ロボットシステムの状態は、センサを用いて測定される。これらのセンサは、ジョイント３１８、２１６、２１４のジョイントに配置されたエンコーダと、ロボットの環境を観察することができるカメラ２１０と、グリッパ２１２の上下鍔に取り付けることができるいくつかの触覚センサ２１９とを含むことができる。センサからの状態測定値は、データ入力／出力ユニット２２０に送信され、データ入力／出力ユニット２２０は、センサから受信したデータを記憶する。本開示のいくつかの実施形態は、所望のタスクを行うために、初期制御ポリシーを用いてロボット制御システムを初期化する。制御ポリシーのいくつかのエピソードは、ロボットシステムに実装され、センサからの状態測定データは、データ入力／出力ユニット２２０に収集される。次いで、このデータは、ロボットシステムの現在のポリシーを更新するためのコンピュータプログラム２３０を含むソフトウェアによって使用される。当該ポリシーを更新するためのこのプログラムは、ガウス過程であり得るモデル更新システム２４０を含む。次いで、２４０によって更新されたモデルは、ロバスト軌道中心ポリシー最適化器であり得るコントローラ更新システム２５０に送信され、コントローラ更新システム２５０は、更新されたポリシーをロボット制御システム２６０に送信する。このプロセスは、ロボットの最適な制御ポリシーを得るまで繰り返される。

図３は、本開示の実施形態に従って、強化学習の一般概念を示す図である。強化学習（ＲＬ）は、逐次的な意思決定問題を処理する学習フレームワークである。この場合、「エージェント」３３０または意思決定部は、（未知の）環境３１０と対話することによって、長期報酬（またはコスト）を最適化するためのポリシーを学習する。各ステップにおいて、ＲＬエージェントは、環境の観測値と共に、自身の動作の性能に関する評価的なフィードバック（報酬またはコストとも呼ばれる）３５０を取得することによって、次の動作の性能を改善（最大化または最小化）することができる。システムのポリシーは、システムの現在の状態を入力として受け取り、出力として動作を生成する関数として定義される。最適ポリシーは、システムの全ての状態に対して最適出力を生成するポリシーである。最適性は、所定のタスクの予期報酬（またはコスト）に対して測定される。

Claims

軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコントローラであって、
センサによって測定されたシステム状態、制御データおよび状態変化のタプルを含むデータを受信するように構成されたインターフェイスと、
プロセッサ実行可能プログラムを記憶するためのメモリとを備え、前記プロセッサ実行可能プログラムは、前記インターフェイスを介して受信した前記システムのタスク命令に応答して、所望の期間中の公称状態および制御軌道を時間ステップの関数として生成するための確率的予測学習モデルと、機械学習方法アルゴリズムおよび初期ランダム制御ポリシーを含む制御ポリシーと、公称軌道に沿って偏差を調節するためのローカルポリシーとを含み、
少なくとも１つのプロセッサを備え、
前記少なくとも１つのプロセッサは、
前記初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、前記システムの前記確率的予測モデルを学習させることと、
前記確率的予測モデルに関連する平均予測値および不確実度を推定することと、
フィードフォワード制御および安定化時不変フィードバック制御と共に前記公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、
前記学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、前記システムのローカル偏差セットを決定することと、
前記システムの前記ローカル偏差セット内の前記公称システム状態から、最大偏差を有するシステム状態を決定することと、
最大偏差を有する前記システム状態における前記ロバスト性制約の一次導関数を計算することによって、前記ロバスト性制約の勾配を決定することと、
状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、前記最適なシステム状態軌道、前記フィードフォワード制御入力、および前記システム状態を前記公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、
非線形プログラミングを用いてロバストポリシー最適化を解決することと、
前記解決された最適化問題に従って前記制御データを更新することと、
前記インターフェイスを介して、前記更新された制御データを出力することとを実行するように構成されている、コントローラ。
前記システムは、離散時間型動力学システムである、請求項１に記載のコントローラ。
軌道中心制御ポリシーが、時間依存フィードフォワード制御と、前記時間依存フィードフォワード制御を安定化するためのローカル時不変フィードバック制御とによって合成される、請求項１に記載のコントローラ。
前記離散時間型動力学システムの軌道中心制御ポリシーの合成は、非線形制約を有する非線形最適化プログラムとして定式化される、請求項３に記載のコントローラ。
前記非線形制約は、前記ローカル時不変フィードバックポリシーのシステム動力学および安定化制約である、請求項４に記載のコントローラ。
前記時不変ローカルポリシーは、前記ロバスト性制約を満たすように構成され、
前記ロバスト性制約は、現在の時間ステップにおいて最大偏差状態にある前記システムの現在の状態を、次の時間ステップにおいて前記軌道の周りの誤差許容値にプッシュする、請求項１に記載のコントローラ。
前記公称軌道に沿った不確実度ローカルセットは、前記システムのフォワード動力学モデルを学習させるために使用された確率関数近似器によって得られる、請求項１に記載のコントローラ。
既知セット内の公称軌道に沿った全ての状態における前記システムの前記最大偏差状態は、最適化問題を解決することによって得られる、請求項１に記載のコントローラ。
追加の前記ロバスト性制約を有する前記定式化された非線形プログラムは、前記最大偏差状態における前記ロバスト性制約の前記勾配を使用して、前記追加の時定数フィードバックコントローラと共に前記フィードフォワード制御を得るように解決される、請求項１に記載のコントローラ。
前記センサの少なくとも１つは、前記インターフェイスを介して無線通信を行う、請求項１に記載のコントローラ。
前記センサのうちの少なくとも１つは、深度画像を含む動画を提供する３次元（３Ｄ）カメラである、請求項１に記載のコントローラ。
前記センサは、前記システムおよび所定の周辺位置に配置される、請求項１に記載のコントローラ。
前記所定の周辺位置の少なくとも１つは、前記３Ｄカメラが前記システムの移動範囲を撮影する視野角によって決定される、請求項１２に記載のコントローラ。
前記軌道中心コントローラ合成問題は、非線形プログラムである、請求項１に記載のコントローラ。
前記ローカルポリシーは、時不変フィードバックポリシーまたはローカル安定化コントローラである、請求項１に記載のコントローラ。
前記制御軌道は、開ループ軌道である、請求項１に記載のコントローラ。
軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコンピュータ実装方法であって、
初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、前記システムの確率的予測モデルを学習させることと、
前記確率的予測モデルに関連する平均予測値および不確実度を推定することと、
フィードフォワード制御および安定化時不変フィードバック制御と共に公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、
前記学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、前記システムのローカル偏差セットを決定することと、
前記システムの前記ローカル偏差セット内の前記公称システム状態から、最大偏差を有するシステム状態を決定することと、
最大偏差を有する前記システム状態における前記ロバスト性制約の一次導関数を計算することによって、前記ロバスト性制約の勾配を決定することと、
状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、前記最適なシステム状態軌道、前記フィードフォワード制御入力および前記システム状態を前記公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、
非線形プログラミングを用いてロバストポリシー最適化を提供および解決することと、
前記解決された最適化問題に従って前記制御データを更新することと、
前記インターフェイスを介して、前記更新された制御データを出力することとを含む、方法。
前記システムは、離散時間型動力学システムである、請求項１７に記載の方法。
軌道中心制御ポリシーが、時間依存フィードフォワード制御と、前記時間依存フィードフォワード制御を安定化するためのローカル時不変フィードバック制御とによって合成される、請求項１７に記載の方法。
前記離散時間型動力学システムの前記軌道中心制御ポリシーの合成は、非線形制約を有する非線形最適化プログラムとして定式化される、請求項３に記載の方法。