[go: up one dir, main page]

JP2023504220A - 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法 - Google Patents

軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法 Download PDF

Info

Publication number
JP2023504220A
JP2023504220A JP2022558825A JP2022558825A JP2023504220A JP 2023504220 A JP2023504220 A JP 2023504220A JP 2022558825 A JP2022558825 A JP 2022558825A JP 2022558825 A JP2022558825 A JP 2022558825A JP 2023504220 A JP2023504220 A JP 2023504220A
Authority
JP
Japan
Prior art keywords
trajectory
control
policy
controller
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022558825A
Other languages
English (en)
Other versions
JP7367233B2 (ja
Inventor
ジャー,デベシュ
コラリク,パトリック
ラフナサン,アルビンド
ベノスマン,モウハシン
ロメレス,ディエゴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2023504220A publication Critical patent/JP2023504220A/ja
Application granted granted Critical
Publication of JP7367233B2 publication Critical patent/JP7367233B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコントローラが提供される。このコントローラは、初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、システムの確率的予測モデルを学習させることと、関連する平均予測値および不確実度を推定することと、学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、システムのローカル偏差セットを決定することと、最大偏差を有するシステム状態を決定することと、ロバスト性制約の勾配を決定することと、システム軌道を取得すると共にローカルポリシーを安定化するように、非線形プログラミングを用いてロバスト性ポリシー最適化問題を提供および解決することと、解決された最適化問題に従って制御データを更新することと、インターフェイスを介して、更新された制御データを出力することとを実行する。

Description

本発明は、一般的に、軌道中心強化学習を行うためのローカルポリシーおよび制御軌道を共に最適化するためのシステムおよび方法に関する。
強化学習(RL)は、逐次的な意思決定問題を処理する学習フレームワークである。この場合、「エージェント」または意思決定部は、(未知の)環境と対話することによって、長期報酬を最適化するためのポリシーを学習する。各ステップにおいて、RLエージェントは、自身の動作の性能に関する評価的なフィードバック(報酬またはコストとも呼ばれる)を取得することによって、次の動作の性能を改善(最大化または最小化)することができる。
一般的に、任意の非線形システムのグローバル学習および最適化は、計算上およびアルゴリズム上の両方で極めて困難であり得る。しかしながら、多くのシステムが実行する必要がある多くのタスクが軌道中心であるため、ローカル学習および最適化は、非常にデータ効率的であり得る。コントローラの時変性質によって、非線形システムの軌道中心制御が困難であり得る。不正確なモデルまたは観測値もしくは作動上のノイズに起因して、実際のシステムが動作中に予定の軌道から逸脱することは、非常に一般的である。機械学習方法は、制御軌道を学習し、制御軌道の進化の不確実度を予測することを可能にする。制御の観点から、学習済み不確実度モデルを用いて、制御軌道を安定化することができるローカル状態依存ポリシーを設計することが望ましい。殆どの技術は、システムモデルに存在する不確実度の情報を使用して、所望の制御軌道を安定化することができない。
また、軌道および対応する安定化ポリシーを共に設計することが望ましい。このことは、当然ながら、制御軌道の最適性と安定化との間のトレードオフを引き起こすであろう。このような設定では、ポリシー最適化アルゴリズムは、直感的に、制御がより困難であり得る状態空間の領域を回避するため、モデルの不確実度を活用して、ロバスト且つ最適な軌道中心コントローラを設計することができる。現在の技術の多くは、2つのステップ(すなわち、軌道の設計およびコントローラの合成)を別々に実行するため、モデルの不確実度情報を利用することができない。
上記の事実および課題を考慮して、広範囲のタスクに亘って物理システムのロバスト性能を得るために、これらの物理システムの不確実な統計モデルを使用することができ且つこれらのモデルの構造を活用することができるより良いポリシー最適化方法が必要である。
最近の研究は、様々なドメイン、例えばコンピュータゲームにおいて、これらのアルゴリズムの顕著な成功をもたらした。軌道中心RLの目標は、システムの初期状態からタスクを首尾よく実行し、システムを所望の最終状態に案内することができるポリシーを最適化することである。軌道中心方法は、ローカル予測モデルを学習し、これらのモデルを用いてシステムのローカル近傍のポリシーを最適化するため、より速く学習することができるという利点を有する。
強化学習アルゴリズムを2つのカテゴリ、すなわち、モデルに基づく方法およびモデル無し方法に大きく分けることができる。モデルに基づく強化学習(MBRL)技術は、一般的に、システムのためにタスクに依存しない予測モデルを学習するため、データ効率的であると考えられる。次いで、学習済みモデルを用いて、確率的制御手法に従って、システムのポリシーを合成する。しかしながら、これらの方法は、一般的に訓練が非常に困難であるため、低性能のポリシーをもたらす。これらのクラスのアルゴリズムによって得られた低性能にはいくつかの理由がある。1つの重要な課題は、学習プロセス中に収集されたデータに存在するノイズによって、学習プロセス中に推定されたシステムの予測モデルが本質的に確率的であることである。その結果、間違ったモデルは、最適化アルゴリズムを、システムが不安定である状態空間の部分に動かしていく可能性があり、学習プロセスは、逸脱する可能性がある。MBRLの別の課題は、推定モデルが状態空間の異なる領域において異なるレベルの不確実度を有し得るため、後続のポリシー最適化ステップは、最適な性能を得るために学習済み統計モデルの構造を活用すべきである。しかしながら、ポリシー最適化技術の殆どは、ポリシー最適化中にこの情報を無視するまたは組み込むことができない。
MBRLは、学習中に推定された予測モデルが、タスクに依存せず、複数のタスクに使用できるため、複数のタスクの学習の観点からより効率的であるという利点を有する。したがって、MBRLは、学習済みモデルを再使用して、異なるタスクのポリシーを計算することができる。その結果、MBRLは、ポリシーを最適化するために多くのデータを収集することが非常に高価であり得る多くの物理システムのためのポリシーを効率的に学習することができる。
本発明のいくつかの実施形態によれば、ポリシーの最適化は、物理システムの不確実な統計モデルを用いて、これらのモデルの構造を活用して広範囲のタスクに亘ってこれらの物理システムのロバスト性能を得ることによって、実行される。また、いくつかの実施形態は、計算アルゴリズムおよび関連する学習アルゴリズムの両方を効果的に実行することによって、任意の非線形システムを処理することができるコントローラおよび方法を提供する。多くのシステムが実行する必要がある多くのタスクが軌道中心であるため、本発明のいくつかの実施形態は、非常にデータ効率の良いローカル学習および最適化を提供することができ、コンピュータ(コンピュータ性能)の向上をもたらす。
本開示のいくつかの実施形態は、システムを制御するための制御ポリシーを最適化するためのコンピュータ実装学習方法が提供されるという認識に基づく。このようなシステムのいくつかの例は、HVACシステム、工場自動化システム、ロボットシステム、および高性能誘導モータなどの機械システムを含むシステムであり得る。この場合、方法は、タスク特有のポリシーによって作動されるシステムの状態を受信することと、制御ポリシーを、タスク(例えば、システムの既知の部分モデルおよびタスク)を実行するための初期推測として初期化することと、現在の制御ポリシーを用いて、現在の状態、動作、および次の状態のタプルを含み得るデータを収集することと、システムの統計的予測モデルを推定することと、任意の状態-制御対における予測および予測に関連する不確実度を推定することと、システムを安定させる必要がある公称システム状態の周りのローカルセットを推定することと、ローカル安定化ポリシーのパラメータを最適化するために使用され得るロバスト性制約の勾配を計算することと、システムの動力学の勾配を計算することと、ロバスト性制約の勾配を用いて、軌道およびローカル安定化ポリシーのコストを最小化するように非線形最適化プログラムを解決することによって、軌道中心制御ポリシーを決定することとを含む。
いくつかの実施形態は、学習中に推定された統計モデルの不確実度の存在下でシステムの軌道中心タスクを実行するための方法およびシステムを提供する。軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコントローラは、センサによって測定されたシステム状態、制御データおよび状態変化のタプルを含むデータを受信するように構成されたインターフェイスと、プロセッサ実行可能プログラムを記憶するためのメモリとを備え、プロセッサ実行可能プログラムは、インターフェイスを介して受信したシステムのスク命令に応答して、所望の期間中の公称状態および制御軌道(開ループ軌道)を時間ステップの関数として生成するための確率的予測学習モデルと、機械学習方法アルゴリズムおよび初期ランダム制御ポリシーを含む制御ポリシーと、公称軌道に沿った偏差を調節するためのローカルポリシーとを含み、少なくとも1つのプロセッサを備えることができる。少なくとも1つのプロセッサは、初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、システムの確率的予測モデルを学習させることと、確率的予測モデルに関連する平均予測値および不確実度を推定することと、フィードフォワード制御および安定化時不変フィードバック制御と共に公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、システムのローカル偏差セットを決定することと、システムのローカル偏差セット内の公称システム状態から、最大偏差を有するシステム状態を決定することと、最大偏差を有するシステム状態におけるロバスト性制約の一次導関数を計算することによって、ロバスト性制約の勾配を決定することと、状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、最適なシステム状態軌道、フィードフォワード制御入力およびシステム状態を公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、非線形プログラミングを用いてロバストポリシー最適化を提供および解決することと、解決された最適化問題に従って制御データを更新することと、インターフェイスを介して、更新された制御データを出力することとを実行するように構成されている。
また、本発明の別の実施形態は、制御ポリシーを最適化することによってシステムを制御するためのコンピュータ実装方法(制御システム)を提供することができる。このコンピュータ実装方法は、軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためために提供される。この方法は、初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、システムの確率的予測モデルを学習させることと、確率的予測モデルに関連する平均予測値および不確実度を推定することと、フィードフォワード制御および安定化時不変フィードバック制御と共に公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、システムのローカル偏差セットを決定することと、システムのローカル偏差セット内の公称システム状態から、最大偏差を有するシステム状態を決定することと、最大偏差を有するシステム状態におけるロバスト性制約の一次導関数を計算することによって、ロバスト性制約の勾配を決定することと、状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、最適なシステム状態軌道、フィードフォワード制御入力およびシステム状態を公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、非線形プログラミングを用いてロバストポリシー最適化を提供および解決することと、解決された最適化問題に従って制御データを更新することと、インターフェイスを介して、更新された制御データを出力することとを含む。
システムは、センサを介してシステムのタスク命令および状態を受信するように構成されたインターフェイスと、初期化器、ポリシー収集器、推定器、エージェントおよびポリシー更新プログラム、システムの確率的予測モデルを推定するためのプログラム、ロバスト性制約およびその勾配を計算するためのプログラム、最適軌道および安定化ポリシーを得るように非線形最適化問題を解決するためのプログラムをを含むコンピュータ実行可能プログラムを記憶するためのメモリと、メモリに接続されたプロセッサとを備えることができる。このプロセッサは、制御ポリシーを、タスク(例えば、システムの既知の部分モデルおよびタスク)を実行するための初期推測として初期化することと、現在の制御ポリシーを用いて、現在の状態、動作、および次の状態のタプルを含み得るデータを収集することと、システムの統計的予測モデルを推定することと、任意の状態-制御対における予測および予測に関連する不確実度を推定することと、システムを安定させる必要がある公称システム状態の周りのローカルセットを推定することと、ローカル安定化ポリシーのパラメータを最適化するために使用され得るロバスト性制約の勾配を計算することと、システムの動力学の勾配を計算することと、ロバスト性制約の勾配を用いて、軌道およびローカル安定化ポリシーのコストを最小化するように非線形最適化プログラムを解決することによって、軌道中心制御ポリシーを決定することとを実行するように構成されている。
以下、添付図面を参照して本開示の実施形態をさらに説明する。図面は、必ずしも縮尺通りではなく、一般的に本開示の実施形態の原理を説明するために強調されることがある。
本発明の実施形態に従って、準ニュートン信頼領域ポリシーの最適化に基づいて機械システム(装置、例えば、ロボット)を制御するための制御システム(コントローラ)を示す図である。 本発明の実施形態に従って、コントローラ(制御システム)を使用するデータ処理フローを示す図である。 本開示の実施形態に従って、強化学習の一般概念を示す図である。 本発明の実施形態に従って、提案されたロバスト軌道中心コントローラの最適化に基づくシステムの一例を示す図である。 本開示の実施形態に従って、モデルに基づく強化学習の概念を示す図である。 本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて推定された確率的入出力関係を示す図である。 本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて推定された確率的入出力関係を示す図である。 本開示の実施形態に従って、確率過程を使用するシステムの動力学の進化の概念を示す図である。 本開示の実施形態に従って、軌道中心コントローラの設計中に安定化ポリシーを使用した制御軌道の安定化の概念を示す図である。 本開示の実施形態に従って、軌道中心コントローラを解決するために使用された非線形最適化プログラムの解法に含まれる異なるステップを示すフローチャートである。 本開示の実施形態に従って、軌道中心コントローラ合成用のロバスト性制約の勾配を推定するための異なるステップを示すフローチャートである。 本開示の実施形態に従って、設計されたコントローラの安定挙動の一例を示す図である。 本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。 本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。 本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。 本開示の実施形態に従って、システムに導入された様々なレベルの外乱下で被制御システムの統計的挙動の一例を示す図である。 ボールアンドビームシステム(ball-and-beam system)の一例を示す図である。 本開示の実施形態に従って、開ループコントローラを使用するボールアンドビームシステムの性能と提案された軌道中心コントローラを使用するボールアンドビームシステムの性能との比較の一例を示す図である。
以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用可能性、または構成を限定することを意図していない。むしろ、以下の例示的な実施形態の説明は、1つ以上の例示的な実施形態を実施するための実施可能な説明を当業者に提供する。添付の特許請求の範囲に記載されるように、開示された主題の精神および範囲から逸脱することなく、要素の機能および配置に対して行われ得る様々な変更が考えられる。
具体的な詳細事項は、以下の記載において、実施形態の十分な理解のために与えられる。しかしながら、これらの具体的な詳細事項がなくても実施形態を実行できることを、当業者は理解できる。例えば、開示された主題におけるシステム、プロセス、および他の要素は、実施形態を不必要な詳細で不明瞭にしないために、ブロック図の形態で構成要素として示される場合もある。他の例では、実施形態を不明瞭にしないために、周知のプロセス、構造、および技術は、不必要な詳細事項を伴わずに示されることがある。さらに、様々な図面における同様の参照番号および名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明される場合がある。フローチャートは動作を逐次プロセスとして説明することができるが、動作の多くは並列にまたは同時に実行することができる。さらに、動作の順序は入れ替え可能である。プロセスは、その動作が完了したときに終了されてもよいが、論じられていないかまたは図に含まれていない追加のステップを有する場合がある。さらに、具体的に記載されている何らかのプロセスにおける全ての動作が全ての実施形態に起こり得る訳ではない。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数または主関数に関数を戻すことに対応し得る。
さらに、開示された主題の実施形態は、少なくとも部分的に手動または自動のいずれかで実現することができる。手動または自動による実現は、機械、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせの使用を通して行われてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを実行するプログラムコードまたはコードセグメントは、機械可読媒体に格納されてもよい。プロセッサは、必要なタスクを実行することができる。
図1Aは、本発明のいくつかの実施形態に従って、制御システム(コントローラ)100を示すブロック図である。システム100は、キーボード111およびポインティング装置/媒体112に接続可能な入力/出力(I/O)インターフェイス110を有するヒューマンマシンインターフェイス(HMI)と、3Dセンサ116と、プロセッサ120と、メモリ140およびプロセッサ120を用いて実行されるアルゴリズムを記憶するための記憶装置130と、ローカルエリアネットワークおよびインターネットネットワーク(図示せず)を含むネットワーク190に接続可能なネットワークインターフェイスコントローラ(NIC)150と、ディスプレイデバイス165が接続されたディスプレイインターフェイス160と、撮像装置175と接続可能な撮像インターフェイス170とを含むことができる。NICは、命令および状態測定データを受信するためにワイヤレス通信を実行するトランシーバ(図示せず)を含んでもよい。I/Oインターフェイス110を有するHMIは、アナログ/デジタルコンバータおよびデジタル/アナログコンバータを含んでもよい。また、I/Oインターフェイス110を有するHMIは、複数の3Dポイントクラウドを構築することを可能にするように、無線インターネット接続または無線ローカルエリアネットワークを介して、他の3Dポイントクラウドディスプレイシステムまたは他のコンピュータと通信することができる無線通信インターフェイスを含んでもよい。システム100は、電源(図示せず)を含むことができる。電源は、I/Oインターフェイス110を介して、外部電源(図示せず)から充電可能なバッテリであってもよい。用途に応じて、電源は、システム100の外部に配置されてもよい。
システム100は、NIC150に接続されたネットワーク190を介して、音声データを含む電子テキスト/イメージ文書195を受信することができる。記憶装置130は、プログラムコードデータとして記憶装置130に記憶されているモデル不確実度推定器、ロバスト制約勾配評価器、および非線形最適化プログラムソルバを含むアルゴリズムモジュール131と、ロボット制御アルゴリズム132とを含む。モデル学習、ロバスト制約勾配推定器および非線形プログラム最適化器131のアルゴリズムは、コンピュータ可読記録媒体(図示せず)に記憶されてもよい。これによって、プロセッサ120は、これらのアルゴリズムを媒体からロードすることによって、モデル131、132およびマルチモーダルエンコーダ/デコーダ200のアルゴリズムを実行することができる。また、ポインティング装置/媒体112は、コンピュータ可読記録媒体に記憶されたプログラムを読み出して実行するモジュールを含んでもよい。
図1Bは、本発明の実施形態に従って、コントローラ(制御システム)100を使用するデータ処理フローを示す図である。本開示のいくつかの実施形態は、機械103のコントローラ100が特定の命令またはタスク101を達成するように設計され得るという認識に基づく。コントローラ100は、制御信号を機械103に送信するためのコンピュータソフトウェアであり、機械103は、制御信号を実行するものであり、機械の状態は、観測器164によって観測される。本開示のいくつかの実施形態は、モデルに基づく強化学習アルゴリズム105を用いて、機械から取得された動作データ104を使用してコントローラ100の最適なポリシーを学習することができるという認識に基づく。特定のタスクまたは命令の場合、コントローラは、機械の現在の状態に基づいて制御信号を決定する初期ポリシーで初期化される。観測器は、機械の状態を観測することができる。その後、この制御信号が機械上で実行され、機械の状態変化が観測される。現在の状態、制御信号および次の状態を含むタプルは、命令またはタスクを実行するための新しいポリシーを計算するために学習アルゴリズムによって使用されるデータである。このプロセスは、ポリシーが安定したポリシー(すなわち、より多くのデータを収集しても変化しないもの)に収束するまで繰り返される。
図2は、本発明の実施形態に従って、提案された軌道中心RLのロバスト最適化に基づく制御システムの一例を示す図である。以下では、制御システムを、ロボットシステム200に適用された例として説明するが、本発明の制御システムおよびコンピュータ実装方法は、ロボットシステムに限定されない。本発明のいくつかのシステムまたはコンピュータ実装方法は、HVACシステム、工場自動化システム、ロボットシステム、および高性能誘導モータなどの機械システムを含むシステムに導入されてもよい。
図2のロボットシステム200は、状態測定値を取得するためのセンサを装備したロボットマニピュレータと、データを記憶し、マニピュレータアームを制御するためのコンピュータ実装システムとを含んでもよい。マニピュレータアームは、いくつかの剛性リンク217、215、213およびジョイント218、216、214を含むことができる。マニピュレータアームは、ロボット制御システムを使用して制御され、ロボット制御システムは、外部からシステムに供給される命令またはタスクを受信する。一例として、命令またはタスクは、マニピュレータを使用して物体212を把持すること、またはグリッパ212によって保持された物体211を使用して組立作業を実行することであってもよい。ロボット制御システムは、制御信号270をマニピュレータに送信する。制御信号270は、マニピュレータのジョイント218、216、214にそれぞれ適用されるトルク、およびグリッパ212を開閉するためのトルクであってもよい。ロボットシステムの状態は、センサを用いて測定される。これらのセンサは、ロボット218、216、214のジョイントに配置されたエンコーダと、ロボットの環境を観察することができるカメラ210と、グリッパ212の上下鍔に取り付けることができるいくつかの触覚センサ219とを含むことができる。センサからの状態測定値は、データ入力/出力ユニット220に送信され、データ入力/出力ユニット220は、センサから受信したデータを記憶する。本開示のいくつかの実施形態は、所望のタスクを行うために、初期制御ポリシーを用いてロボット制御システムを初期化する。制御ポリシーのいくつかのエピソードは、ロボットシステムに実装され、センサからの状態測定データは、データ入力/出力システム220に収集される。次いで、このデータは、ロボットシステムの現在のポリシーを更新するためのコンピュータプログラム230を含むソフトウェアによって使用される。当該ポリシーを更新するためのこのプログラムは、ガウス過程であり得るモデル更新システム240を含む。次いで、240によって更新されたモデルは、ロバスト軌道中心ポリシー最適化器であり得るコントローラ更新システム250に送信され、コントローラ更新システム250は、更新されたポリシーをロボット制御システム260に送信する。このプロセスは、ロボットの最適な制御ポリシーを得るまで繰り返される。
図3は、本開示の実施形態に従って、強化学習の一般概念を示す図である。強化学習(RL)は、逐次的な意思決定問題を処理する学習フレームワークである。この場合、「エージェント」230または意思決定部は、(未知の)環境310と対話することによって、長期報酬(またはコスト)を最適化するためのポリシーを学習する。各ステップにおいて、RLエージェントは、環境の観測値と共に、自身の動作の性能に関する評価的なフィードバック(報酬またはコストとも呼ばれる)350を取得することによって、次の動作の性能を改善(最大化または最小化)することができる。システムのポリシーは、システムの現在の状態を入力として受け取り、出力として動作を生成する関数として定義される。最適ポリシーは、システムの全ての状態に対して最適出力を生成するポリシーである。最適性は、所定のタスクの予期報酬(またはコスト)に対して測定される。
強化学習アルゴリズムは、2つのカテゴリ、すなわち、モデルに基づくアルゴリズムおよびモデル無しアルゴリズムに大きく分けられる。名前で示唆するように、モデル無しRLアルゴリズムは、ポリシーを学習するためにシステムの状態変化確率を使用しない。これらの種類のアルゴリズムにおいて、システムのポリシーは、関数近似器としてパラメータ化される。次いで、ポリシーパラメータは、所望のタスクを実行するための予期報酬を最大化することによって直接最適化される、またはタスクに関連する価値関数を推定することによって最適化される。これらのアルゴリズムは、一般的に、非常にサンプル非効率的である。すなわち、これらのアルゴリズムは、システムのポリシーを最適化するために、非常に多くの訓練データを必要とする。また、これらのシステムを使用する学習は、最適化を実行することによって特定のタスクの予期報酬を最大化するため、タスクに依存する。
異なる種類のRLアルゴリズムの中で、MBRLアルゴリズムは、よりデータ効率的であると考えられる。モデルに基づくRLアルゴリズムにおいて、初期の(場合によってはランダムな)制御ポリシーを用いて、システムから状態変化データを収集する。次いで、この状態変化データを用いて、このシステムの順方向予測モデルを学習する。重要なことは、予測モデルの学習は、タスクに依存しないため、報酬構造から独立していることである。システムの順方向動力学を良好に推定すると、システムの動力学モデルを使用して、所望のタスクを実行することができるコントローラを合成する。制御軌道または状態依存完全ポリシーを使用して、タスクを実行することができる。制御軌道は、既知の初期状態から所望の状態を達成することによってタスクを実行するように、システム上で実行され得る一連の制御入力である。なお、このようなコントローラは、状態に依存するものではなく、むしろ時間でインデックスされたものである。状態依存完全ポリシーは、システムの初期状態に依存しないため、システムの初期状態から所望のタスクを実行するために使用されてもよい。
Figure 2023504220000002
本発明のいくつかの実施形態の目的は、収集された状態変化データを用いて、システムの統計モデルを推定することである。ガウス過程または確率的ニューラルネットワークを含むいくつかの機械学習方法は、このステップに使用されてもよい。ガウス過程は、平均関数および共分散関数によって完全に特定される確率過程である。
図5Aおよび5Bは、本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて、推定された確率的入出力関係を示す図である。
Figure 2023504220000003
Figure 2023504220000004
本発明のいくつかの実施形態は、任意の非線形システムに対して、システムの完全な状態依存ポリシーを合成することが、計算上および数値上非常に困難なタスクであるという認識に基づく。このことは、システムのグローバルモデルを信頼できるように推定する必要があり、困難な課題である。他方、ローカル制御軌道を計算することは、より容易であるが、初期条件に非常に影響されやすく、時間でインデックスされているため、性能が低下する可能性がある。また、不正確または不確実なモデルを使用する場合、性能が低下する可能性がある。したがって、軌道中心コントローラを用いて良好な性能を達成するために、本発明は、有界不確実度が存在しても高性能を保証することができる安定化コントローラを使用することを提案する。
Figure 2023504220000005
Figure 2023504220000006
Figure 2023504220000007
本開示のいくつかの実施形態は、上記の制約付き軌道最適化問題が非線形最適化プログラム(またはNLP)であるという認識に基づく。したがって、いくつかの実施形態の目的は、内部点法を用いて非線形軌道最適化プログラムを解決することである。
Figure 2023504220000008
MBRL技術は、サンプル効率であるため、物理システムの最適なコントローラを学習するための非常に魅力的な選択肢である。本発明のいくつかの実施形態は、MBRLアルゴリズムの性能がモデルの誤差に極めて影響されやすいという認識に基づいている。システムの予測モデル中の誤差は、非常に迅速に混合され、コントローラを、モデルが非常に不確実であり、したがって、制御が非常に困難である領域に動かすことができる。これによって、学習プロセスの全体が分岐され、失敗になる。
本発明のいくつかの実施形態は、軌道をローカル的に安定化するように最適化されるポリシーと共に軌道を解決する場合、システムの状態空間の不確実領域を回避するように最適化器を制約することができるという認識に基づく。このような共同最適化は、容易に安定化され且つ最適である軌道を見つけるように、最適化を強制的に動作させる。したがって、学習プロセス中に推定された不確実なモデルの存在下で、最適性とロバスト性との間のトレードオフを達成することができ、MBRLアルゴリズムのより良好な安定した学習をもたらす。
本発明のいくつかの実施形態は、多くの軌道安定化技術が時変のコントローラを計算するという認識に基づく。従って、被制御システムのリアルタイム制御がより困難になる。一般的に、RLアルゴリズムは、実装がより容易であるため、状態依存ポリシーを出力として計算する。主な理由は、システムが非線形であるため、システム状態の小さな摂動であってもシステム動力学が変化することである。時間依存追跡コントローラは、状態に依存しないため、予期軌道に摂動がある場合にうまく機能しない。したがって、本発明は、公称軌道の周りのローカル軌道を安定化するための時不変フィードバックポリシーを計算することを提案する。
Figure 2023504220000009
Figure 2023504220000010
Figure 2023504220000011
本開示のいくつかの実施形態は、システムの確率モデルを用いて、実行中にシステムが公称軌道から逸脱し得るシステム状態のセットを推定することができるという認識に基づく。この不確実度セットの推定は、実行中にシステムを安定化する必要がある状態のセットを与えることができる。安定化コントローラの目標は、セット内の全ての状態を元の公称軌道にプッシュすることである。これが真である限り、システムは、元の公称軌道に追従することができ、したがって、所望のタスクを行う際に所望の最適な性能を達成することができる。
Figure 2023504220000012
Figure 2023504220000013
Figure 2023504220000014
図6Aは、本開示の実施形態に従って、確率過程を使用したシステムの動力学の進化の概念を示す図であり、図6Bは、軌道中心コントローラ設計中に安定化ポリシーを使用した制御軌道の安定化の概念を示す図である。
本発明のいくつかの実施形態は、機械学習方法によって推定された不確実度領域630を用いて、軌道650と共に安定化ポリシーを計算する。安定化ポリシーの機能は、システムを、軌道によって決められた公称システム状態に近づけることである。
Figure 2023504220000015
Figure 2023504220000016
Figure 2023504220000017
Figure 2023504220000018
Figure 2023504220000019
Figure 2023504220000020
Figure 2023504220000021
本開示のいくつかの実施形態は、ロバスト性制約(ハード制約またはソフト制約のいずれか)を用いて非線形軌道最適化を解決するために、ロバスト性制約の勾配を計算する必要があるという認識に基づく。しかしながら、制約内の最大関数が微分不可能であるため、ロバスト性制約は、微分不可能である。しかしながら、ダンキン定理を用いて、ロバスト性項の一次勾配を得ることができる。この勾配は、軌道最適化問題の解決にとって重要である。したがって、特定の実施形態の目的は、ダンスキン定理を用いてロバスト性制約の勾配を推定することである。
Figure 2023504220000022
Figure 2023504220000023
Figure 2023504220000024
ダンキン定理に従って、まず、最大関数の引数を計算し、次いでその点における最大関数の勾配を評価することによって、ロバスト性制約の勾配を得ることができる。
Figure 2023504220000025
Figure 2023504220000026
Figure 2023504220000027
Figure 2023504220000028
Figure 2023504220000029
Figure 2023504220000030
Figure 2023504220000031
Figure 2023504220000032
Figure 2023504220000033
Figure 2023504220000034
Figure 2023504220000035
Figure 2023504220000036
図12は、ビーム1120上で移動することができるボール1150を含むボールアンドビームシステムを示す。ボールの初期位置1110は、固定される。タスクは、ボールを所望の位置に移動させ、ボールをその位置に保持することである。ビームの傾度は、エンコーダ1130およびエンコーダシャフト1140によって測定される。図13は、開ループコントローラに比べて、提案された軌道中心コントローラの典型的な挙動の例を示す。図13は、提案されたコントローラの平均定常誤差1210がゼロであることを示す。しかしながら、開ループコントローラは、非ゼロ定常誤差1220で不十分に機能する。
上述した本開示の実施形態は、多くの方法で実現されてもよい。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実現されてもよい。ソフトウェアで実現される場合、ソフトウェアコードは、単一のコンピュータに設けられたまたは複数のコンピュータに分散されたことにも拘らず、任意の適切なプロセッサまたは一群のプロセッサで実行されてもよい。このようなプロセッサは、集積回路として実装されてもよい。1つの集積回路要素は、1つ以上のプロセッサを含むことができる。しかしながら、プロセッサは、任意の適切な回路で実装されてもよい。
また、本明細書において概説した様々な方法または工程は、様々なオペレーティングシステムまたはプラットフォームのいずれか1つを採用する1つ以上のプロセッサ上で実行可能なソフトウェアとしてコーディングされてもよい。さらに、このようなソフトウェアは、いくつかの的背うなプログラミング言語および/またはプログラミングツールもしくはスクリプトツールのいずれかを用いて書かれてもよく、フレームワークまたは仮想マシン上で実行される実行可能な機械言語コードもしくは中間コードとしてコンパイルされてもよい。通常、プログラムモジュールの機能は、所望に応じて様々な実施形態に組み合わせられてもよく、分散させられてもよい。
また、本開示の実施形態は、一例として提供された方法として具現化されてもよい。本方法の一部として実行される動作は、任意の適切な方法で順序付けられてもよい。したがって、例示的な実施形態において順次に実行される動作とは異なる順序で動作を実行すること、いくつかの動作を同時に実行することを含み得る実施形態を構築することができる。さらに、請求項において請求項要素を修飾するための順序用語、例えば第1、第2などの使用は、別の請求項要素に対する1つの請求項要素の優先順位、前後順位もしくは順序、または方法の動作を実行する時間順序を意味しておらず、単に請求項要素を区別するためのラベルとして使用され、(順序用語を使用することによって)特定の名前を有する1つの請求項要素と同じ名前を有する別の要素とを区別させる。
いくつかの好ましい実施形態を参照して本開示を説明したが、理解すべきことは、本開示の精神および範囲内で、様々な他の改造および修正を行うことができることである。したがって、添付の特許請求の範囲は、本開示の真の精神および範囲内にある全ての変形および修正を網羅する。
本発明の実施形態に従って、準ニュートン信頼領域ポリシーの最適化に基づいて機械システム(装置、例えば、ロボット)を制御するための制御システム(コントローラ)を示す図である。 本発明の実施形態に従って、コントローラ(制御システム)を使用するデータ処理フローを示す図である。 本開示の実施形態に従って、提案されたロバスト軌道中心コントローラの最 適化に基づくシステムの一例を示す図である。 本発明の実施形態に従って、強化学習の一般概念を示す図である。 本開示の実施形態に従って、モデルに基づく強化学習の概念を示す図である。 本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて推定された確率的入出力関係を示す図である。 本開示の実施形態に従って、ガウス過程および信頼区間を用いて推定され得る不確実度セットを用いて推定された確率的入出力関係を示す図である。 本開示の実施形態に従って、確率過程を使用するシステムの動力学の進化の概念を示す図である。 本開示の実施形態に従って、軌道中心コントローラの設計中に安定化ポリシーを使用した制御軌道の安定化の概念を示す図である。 本開示の実施形態に従って、軌道中心コントローラを解決するために使用された非線形最適化プログラムの解法に含まれる異なるステップを示すフローチャートである。 本開示の実施形態に従って、軌道中心コントローラ合成用のロバスト性制約の勾配を推定するための異なるステップを示すフローチャートである。 本開示の実施形態に従って、設計されたコントローラの安定挙動の一例を示す図である。 本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。 本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。 本開示の実施形態に従って、最適化プロセス中に得られた制御軌道および安定化ポリシーの一例を示す図である。 本開示の実施形態に従って、システムに導入された様々なレベルの外乱下で被制御システムの統計的挙動の一例を示す図である。 ボールアンドビームシステム(ball-and-beam system)の一例を示す図である。 本開示の実施形態に従って、開ループコントローラを使用するボールアンドビームシステムの性能と提案された軌道中心コントローラを使用するボールアンドビームシステムの性能との比較の一例を示す図である。
図2のロボットシステム200は、状態測定値を取得するためのセンサを装備したロボットマニピュレータと、データを記憶し、マニピュレータアームを制御するためのコンピュータ実装システムとを含んでもよい。マニピュレータアームは、いくつかの剛性リンク217、215、213およびジョイント318、216、214を含むことができる。マニピュレータアームは、ロボット制御システムを使用して制御され、ロボット制御システムは、外部からシステムに供給される命令またはタスクを受信する。一例として、命令またはタスクは、マニピュレータを使用して物体212を把持すること、またはグリッパ212によって保持された物体211を使用して組立作業を実行することであってもよい。ロボット制御システムは、制御信号270をマニピュレータに送信する。制御信号270は、マニピュレータのジョイント318、216、214にそれぞれ適用されるトルク、およびグリッパ212を開閉するためのトルクであってもよい。ロボットシステムの状態は、センサを用いて測定される。これらのセンサは、ジョイント318、216、214のジョイントに配置されたエンコーダと、ロボットの環境を観察することができるカメラ210と、グリッパ212の上下鍔に取り付けることができるいくつかの触覚センサ219とを含むことができる。センサからの状態測定値は、データ入力/出力ユニット220に送信され、データ入力/出力ユニット220は、センサから受信したデータを記憶する。本開示のいくつかの実施形態は、所望のタスクを行うために、初期制御ポリシーを用いてロボット制御システムを初期化する。制御ポリシーのいくつかのエピソードは、ロボットシステムに実装され、センサからの状態測定データは、データ入力/出力ユニット220に収集される。次いで、このデータは、ロボットシステムの現在のポリシーを更新するためのコンピュータプログラム230を含むソフトウェアによって使用される。当該ポリシーを更新するためのこのプログラムは、ガウス過程であり得るモデル更新システム240を含む。次いで、240によって更新されたモデルは、ロバスト軌道中心ポリシー最適化器であり得るコントローラ更新システム250に送信され、コントローラ更新システム250は、更新されたポリシーをロボット制御システム260に送信する。このプロセスは、ロボットの最適な制御ポリシーを得るまで繰り返される。
図3は、本開示の実施形態に従って、強化学習の一般概念を示す図である。強化学習(RL)は、逐次的な意思決定問題を処理する学習フレームワークである。この場合、「エージェント」330または意思決定部は、(未知の)環境310と対話することによって、長期報酬(またはコスト)を最適化するためのポリシーを学習する。各ステップにおいて、RLエージェントは、環境の観測値と共に、自身の動作の性能に関する評価的なフィードバック(報酬またはコストとも呼ばれる)350を取得することによって、次の動作の性能を改善(最大化または最小化)することができる。システムのポリシーは、システムの現在の状態を入力として受け取り、出力として動作を生成する関数として定義される。最適ポリシーは、システムの全ての状態に対して最適出力を生成するポリシーである。最適性は、所定のタスクの予期報酬(またはコスト)に対して測定される。
Figure 2023504220000055
Figure 2023504220000056

Claims (20)

  1. 軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコントローラであって、
    センサによって測定されたシステム状態、制御データおよび状態変化のタプルを含むデータを受信するように構成されたインターフェイスと、
    プロセッサ実行可能プログラムを記憶するためのメモリとを備え、前記プロセッサ実行可能プログラムは、前記インターフェイスを介して受信した前記システムのタスク命令に応答して、所望の期間中の公称状態および制御軌道を時間ステップの関数として生成するための確率的予測学習モデルと、機械学習方法アルゴリズムおよび初期ランダム制御ポリシーを含む制御ポリシーと、公称軌道に沿って偏差を調節するためのローカルポリシーとを含み、
    少なくとも1つのプロセッサを備え、
    前記少なくとも1つのプロセッサは、
    前記初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、前記システムの前記確率的予測モデルを学習させることと、
    前記確率的予測モデルに関連する平均予測値および不確実度を推定することと、
    フィードフォワード制御および安定化時不変フィードバック制御と共に前記公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、
    前記学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、前記システムのローカル偏差セットを決定することと、
    前記システムの前記ローカル偏差セット内の前記公称システム状態から、最大偏差を有するシステム状態を決定することと、
    最大偏差を有する前記システム状態における前記ロバスト性制約の一次導関数を計算することによって、前記ロバスト性制約の勾配を決定することと、
    状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、前記最適なシステム状態軌道、前記フィードフォワード制御入力、および前記システム状態を前記公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、
    非線形プログラミングを用いてロバストポリシー最適化を解決することと、
    前記解決された最適化問題に従って前記制御データを更新することと、
    前記インターフェイスを介して、前記更新された制御データを出力することとを実行するように構成されている、コントローラ。
  2. 前記システムは、離散時間型動力学システムである、請求項1に記載のコントローラ。
  3. 軌道中心制御ポリシーが、時間依存フィードフォワード制御と、前記時間依存フィードフォワード制御を安定化するためのローカル時不変フィードバック制御とによって合成される、請求項1に記載のコントローラ。
  4. 前記離散時間型動力学システムの軌道中心制御ポリシーの合成は、非線形制約を有する非線形最適化プログラムとして定式化される、請求項3に記載のコントローラ。
  5. 前記非線形制約は、前記ローカル時不変フィードバックポリシーのシステム動力学および安定化制約である、請求項4に記載のコントローラ。
  6. 前記時不変ローカルポリシーは、前記ロバスト性制約を満たすように構成され、
    前記ロバスト性制約は、現在の時間ステップにおいて最大偏差状態にある前記システムの現在の状態を、次の時間ステップにおいて前記軌道の周りの誤差許容値にプッシュする、請求項1に記載のコントローラ。
  7. 前記公称軌道に沿った不確実度ローカルセットは、前記システムのフォワード動力学モデルを学習させるために使用された確率関数近似器によって得られる、請求項1に記載のコントローラ。
  8. 既知セット内の公称軌道に沿った全ての状態における前記システムの前記最大偏差状態は、最適化問題を解決することによって得られる、請求項1に記載のコントローラ。
  9. 追加の前記ロバスト性制約を有する前記定式化された非線形プログラムは、前記最大偏差状態における前記ロバスト性制約の前記勾配を使用して、前記追加の時定数フィードバックコントローラと共に前記フィードフォワード制御を得るように解決される、請求項1に記載のコントローラ。
  10. 前記センサの少なくとも1つは、前記インターフェイスを介して無線通信を行う、請求項1に記載のコントローラ。
  11. 前記センサのうちの少なくとも1つは、深度画像を含む動画を提供する3次元(3D)カメラである、請求項1に記載のコントローラ。
  12. 前記センサは、前記システムおよび所定の周辺位置に配置される、請求項1に記載のコントローラ。
  13. 前記所定の周辺位置の少なくとも1つは、前記3Dカメラが前記システムの移動範囲を撮影する視野角によって決定される、請求項12に記載のコントローラ。
  14. 前記軌道中心コントローラ合成問題は、非線形プログラムである、請求項1に記載のコントローラ。
  15. 前記ローカルポリシーは、時不変フィードバックポリシーまたはローカル安定化コントローラである、請求項1に記載のコントローラ。
  16. 前記制御軌道は、開ループ軌道である、請求項1に記載のコントローラ。
  17. 軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコンピュータ実装方法であって、
    初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、前記システムの確率的予測モデルを学習させることと、
    前記確率的予測モデルに関連する平均予測値および不確実度を推定することと、
    フィードフォワード制御および安定化時不変フィードバック制御と共に公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、
    前記学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、前記システムのローカル偏差セットを決定することと、
    前記システムの前記ローカル偏差セット内の前記公称システム状態から、最大偏差を有するシステム状態を決定することと、
    最大偏差を有する前記システム状態における前記ロバスト性制約の一次導関数を計算することによって、前記ロバスト性制約の勾配を決定することと、
    状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、前記最適なシステム状態軌道、前記フィードフォワード制御入力および前記システム状態を前記公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、
    非線形プログラミングを用いてロバストポリシー最適化を提供および解決することと、
    前記解決された最適化問題に従って前記制御データを更新することと、
    前記インターフェイスを介して、前記更新された制御データを出力することとを含む、方法。
  18. 前記システムは、離散時間型動力学システムである、請求項17に記載の方法。
  19. 軌道中心制御ポリシーが、時間依存フィードフォワード制御と、前記時間依存フィードフォワード制御を安定化するためのローカル時不変フィードバック制御とによって合成される、請求項17に記載の方法。
  20. 前記離散時間型動力学システムの前記軌道中心制御ポリシーの合成は、非線形制約を有する非線形最適化プログラムとして定式化される、請求項3に記載の方法。
JP2022558825A 2019-12-12 2020-12-04 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法 Active JP7367233B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/712,329 US20210178600A1 (en) 2019-12-12 2019-12-12 System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning
US16/712,329 2019-12-12
PCT/JP2020/046194 WO2021117845A1 (en) 2019-12-12 2020-12-04 System and method for robust optimization for trajectory-centric model-based reinforcement learning

Publications (2)

Publication Number Publication Date
JP2023504220A true JP2023504220A (ja) 2023-02-01
JP7367233B2 JP7367233B2 (ja) 2023-10-23

Family

ID=74141789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022558825A Active JP7367233B2 (ja) 2019-12-12 2020-12-04 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法

Country Status (5)

Country Link
US (1) US20210178600A1 (ja)
EP (1) EP3924884B1 (ja)
JP (1) JP7367233B2 (ja)
CN (1) CN114761966A (ja)
WO (1) WO2021117845A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12198476B2 (en) * 2019-11-06 2025-01-14 Ohio State Innovation Foundation Systems and methods for vehicle dynamics and powertrain control using multiple horizon optimization
US20210233168A1 (en) * 2020-01-29 2021-07-29 Jpmorgan Chase Bank, N.A. Method and system for processing orders on an electronic trading platform
SE544261C2 (en) 2020-06-16 2022-03-15 IntuiCell AB A computer-implemented or hardware-implemented method of entity identification, a computer program product and an apparatus for entity identification
US12265924B1 (en) * 2020-06-22 2025-04-01 Amazon Technologies, Inc. Robust multi-agent reinforcement learning
US11640162B2 (en) * 2020-10-19 2023-05-02 Mitsubishi Electric Research Laboratories, Inc. Apparatus and method for controlling a system having uncertainties in its dynamics
EP4060567A1 (en) * 2021-03-16 2022-09-21 Robert Bosch GmbH Device and method to improve learning of a policy for robots
JP7685885B2 (ja) * 2021-06-22 2025-05-30 株式会社日立製作所 モデル推論装置、方法およびプログラム
CN113927596B (zh) * 2021-10-07 2023-08-01 西北工业大学 一种基于宽度神经学习的时变输出约束机器人遥操作有限时间控制方法
CN113900377B (zh) * 2021-10-19 2023-10-20 国网江苏省电力有限公司盐城供电分公司 双转子气动系统点对点迭代学习最小能量控制方法
CN115994436B (zh) * 2021-10-20 2024-07-23 北京三快在线科技有限公司 一种无人设备数据处理的方法及装置
CN114035611B (zh) * 2021-11-25 2024-04-12 哈尔滨工业大学 可重复使用高超声速飞行器上升段轨迹优化与制导方法
US12124230B2 (en) * 2021-12-10 2024-10-22 Mitsubishi Electric Research Laboratories, Inc. System and method for polytopic policy optimization for robust feedback control during learning
CN114237184A (zh) * 2021-12-20 2022-03-25 杭州电子科技大学 一种工业过程的优化学习控制性能提升方法
KR20240158261A (ko) * 2022-03-02 2024-11-04 인투이셀 에이비 제1 시스템의 시간적 역학 표현을 제공하는 방법, 미들웨어 시스템, 컨트롤러 시스템, 컴퓨터 프로그램 제품 및 비일시적 컴퓨터 판독 가능 저장 매체
CN114952860B (zh) * 2022-06-22 2024-11-26 中山大学 基于离散时间神经动力学的移动机器人重复运动控制方法及系统
CN115890668B (zh) * 2022-11-18 2024-11-01 上海电力大学 一种机器人关节模组分散式优化学习控制方法及系统
US20240211746A1 (en) * 2022-12-22 2024-06-27 International Business Machines Corporation Realistic safety verification for deep reinforcement learning
CN116050800A (zh) * 2023-02-20 2023-05-02 长沙理工大学 多阶段实时辅助服务市场中分布式能源鲁棒自动调度方法
EP4428774B1 (en) * 2023-03-10 2025-10-01 Abb Schweiz Ag Method for robust controlling a water distribution network
US12343875B2 (en) * 2023-03-22 2025-07-01 Mitsubishi Electric Research Laboratories, Inc. System and method for controlling an operation of a manipulation system
CN117086865B (zh) * 2023-08-02 2025-10-31 广东工业大学 基于输入受限的机械臂跟踪控制方法、系统、设备及介质
CN116968029A (zh) * 2023-08-11 2023-10-31 深圳信息职业技术学院 具有指定性能约束的多单臂机械手系统的控制方法及系统
CN117325169B (zh) * 2023-10-24 2024-08-23 成都大学 一种带初态学习的下肢康复机器人控制方法
CN117260736B (zh) * 2023-11-02 2024-04-02 北京长木谷医疗科技股份有限公司 一种机械臂动力学自适应控制方法、装置及电子设备
CN119442857B (zh) * 2024-10-18 2025-08-12 星辰空间(重庆)航空航天装备智能制造有限公司 基于人工智能的火箭轨迹优化与实时调整系统
CN119717512B (zh) * 2024-12-11 2025-09-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于不确定性量化的探测器动力下降鲁棒最优制导方法
CN119861568B (zh) * 2025-01-09 2025-11-25 湖南大学 一种asv-auv混合集群鲁棒模型预测协同控制方法及系统
CN120871645A (zh) * 2025-09-29 2025-10-31 南京理工大学 基于瓦瑟斯坦距离的多智能体系统双层q学习控制方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008197848A (ja) * 2007-02-09 2008-08-28 Kakei Gakuen ファジィ制御装置、レーン走行支援装置、および操舵補助装置
JP2019185529A (ja) * 2018-04-13 2019-10-24 ファナック株式会社 機械学習装置、制御装置、及び機械学習方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4200827A (en) * 1977-06-29 1980-04-29 International Business Machines Corporation Positioning system employing feedforward and feedback control
US8145329B2 (en) * 2009-06-02 2012-03-27 Honeywell International Inc. Method and system for combining feedback and feedforward in model predictive control
JP5930753B2 (ja) * 2012-02-13 2016-06-08 キヤノン株式会社 ロボット装置の制御方法及びロボット装置
CN110119844B (zh) * 2019-05-08 2021-02-12 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN110083160B (zh) * 2019-05-16 2022-04-19 哈尔滨工业大学(深圳) 一种基于深度学习的机器人轨迹规划方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008197848A (ja) * 2007-02-09 2008-08-28 Kakei Gakuen ファジィ制御装置、レーン走行支援装置、および操舵補助装置
JP2019185529A (ja) * 2018-04-13 2019-10-24 ファナック株式会社 機械学習装置、制御装置、及び機械学習方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOC, O ET AL.: ""Optimizing the Execution of Dynamic Robot Movements With Learning Control"", IEEE TRANSACTIONS ON ROBOTICS [ONLINE], vol. 35, no. 4, JPN6023019038, May 2019 (2019-05-01), pages 909 - 924, XP011739099, ISSN: 0005059841, DOI: 10.1109/TRO.2019.2906558 *
KOLARIC, P ET AL.: ""Local Policy Optimization forTrajectory-Centric Reinforcement Learning"", ARXIV.ORG [ONLINE], JPN6023019037, 2020, pages 1 - 7, ISSN: 0005059842 *

Also Published As

Publication number Publication date
CN114761966A (zh) 2022-07-15
JP7367233B2 (ja) 2023-10-23
EP3924884A1 (en) 2021-12-22
EP3924884B1 (en) 2023-08-30
US20210178600A1 (en) 2021-06-17
WO2021117845A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
JP7367233B2 (ja) 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法
Carron et al. Data-driven model predictive control for trajectory tracking with a robotic arm
Belkhale et al. Model-based meta-reinforcement learning for flight with suspended payloads
JP7301034B2 (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
US20200086480A1 (en) System and method for controlling actuators of an articulated robot
US11759947B2 (en) Method for controlling a robot device and robot device controller
KR102239186B1 (ko) 인공지능 기반 로봇 매니퓰레이터의 자동 제어 시스템 및 방법
US11281208B2 (en) Efficient teleoperation of mobile robots via online adaptation
US12038727B2 (en) System for performing a task according to a reference trajectory
US20220146997A1 (en) Device and method for training a control strategy with the aid of reinforcement learning
CN119115953A (zh) 一种基于深度强化学习的遥操作空间机械臂轨迹规划方法
JP2019185742A (ja) 制御装置及び制御方法
CN114137950A (zh) 对机器人设备进行社会感知模型预测控制的方法和设备
US12124230B2 (en) System and method for polytopic policy optimization for robust feedback control during learning
JP2025520219A (ja) デバイスの動作を制御するためのシステムおよび方法
JP3868358B2 (ja) 物理系の制御方法および装置ならびに物理系の制御のためのコンピュータプログラム
CN119758719B (zh) 基于混合状态估计的强化学习四足机器人倒立摆稳定方法
Siddique et al. Adaptive Event-triggered Reinforcement Learning Control for Complex Nonlinear Systems
CN118493381A (zh) 基于持续策略重振的离线到在线可泛化强化学习方法和装置
JP2024001878A (ja) 制御ルールを実装するための機械学習モデルをトレーニングするための方法
US20250326116A1 (en) System and Method for Controlling Robotic Manipulator with Self-Attention Having Hierarchically Conditioned Output
US20250269521A1 (en) Device and Method for Natural Language Controlled Industrial Assembly Robotics
CN119567261B (zh) 机器人任务执行方法、装置、机器人及主动视角选择系统
Mitrovic Stochastic optimal control with learned dynamics models
CN120941407A (zh) 基于深度强化学习的机器人的速度规划方法、系统及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231011

R150 Certificate of patent or registration of utility model

Ref document number: 7367233

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150