JP7749145B2

JP7749145B2 - 学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法

Info

Publication number: JP7749145B2
Application number: JP2024550931A
Authority: JP
Inventors: ジャー，デベシュ; チャクラバルティ，アンクシュ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-12-10
Filing date: 2022-09-09
Publication date: 2025-10-03
Anticipated expiration: 2042-09-09
Also published as: EP4302245A1; US12124230B2; US20230185254A1; JP2024541746A; WO2023105879A1; CN118355336A

Description

本発明は、概してシステム制御に関し、より特定的には、学習中の部分的に既知の力学を有するシステムのロバストな最適化およびフィードバック制御のための方法および装置に関する。

機械学習および人工知能の分野は過去１０年間に画期的に向上したが、物理システムまたはロボットシステムに関しては、これらの技術の応用は限られている。たとえば、ほとんどのロボットシステムは、複雑なプロセスを制御するために、古典的なモデルベースのアプローチを依然として使用している。これは、ロバスト性の欠如またはサンプル効率の悪さなど、ほとんどの既存の学習アプローチを特徴付けるいくつかの望ましくない特徴に起因し得る。物理力学を正確に表現する（学習）モデルは稀であるため、物理システムの制御のための学習中のロバスト性を保証することは重要である。

強化学習（reinforcement learning：ＲＣ）は、逐次的な意思決定問題を扱う学習フレームワークであり、「エージェント」または意思決定者が、典型的に未知の環境と相互作用することによって、長期的な報酬を最適化するポリシーを学習する。各反復または時間ステップにおいて、ＲＬエージェントは、その行動の長期的なパフォーマンスに関する評価フィードバック（報酬またはコストと呼ばれる）を取得して、その後の動作のパフォーマンスを向上させることができる。

モデルフリー強化学習（ＲＬ）法は、複雑な力学モデルを必要とせずに制御ポリシーを構築できることから、広く普及している。しかしながら、モデルフリーＲＬアルゴリズムの大半は、重要なシステム特性、たとえば外乱に対するロバスト性または漸近安定性でさえ、組み込むことができない。逆に、モデルベースのＲＬ（mode-based RL：ＭＢＲＬ）は、このような所望の特性を組み込むことができるが、基礎となる力学モデルに大きく依存しており、モデルの不一致が大きいと性能が低下し、時には壊滅的な失敗に至ることさえある。この問題は、真の力学を知ることが非常に困難な多くの異なるシナリオに非常に関連している。これは、ロボットが実行中に新しいオブジェクトと相互作用することが想定され、そのため相互作用の事前モデルを持つことができない多くのロボットシステムに当てはまる。

ＭＢＲＬ技術のポリシー最適化段階では、最適化法は学習されたモデルに不確実性を組み込むことを可能にし、部分的に既知のシステムを制御するために、結果として得られるコントローラのロバスト性を保証する必要がある。これは、一般的に実現が困難である。これは、システム力学に存在する不確実性の知識および表現と、ポリシー最適化ステップにおける不確実性の利用とを必要とする問題である。しかしながら、これはロボット工学、自律走行などの分野における学習コントローラへの多くの異なる応用に必要である。

学習ベースのコントローラ設計のための技術のほとんどは、学習中にシステムが所望のシステム状態に収束することを原則として保証できないため、システムに実装した場合のパフォーマンスの低さに苦労している。非線形システムの安定化コントローラの設計における先行研究では、非線形システムの収束と安定性とを保証するために、コントローラの吸引ベイスン（または領域）の概念が使用されてきた。たとえば、 Tedrake, Russ, et al. 「LQR-trees: Feedback motion planning via sums-of-squares verification.」The International Journal of Robotics Research 29.8 (2010): 1038-1052 を参照。非線形コントローラの吸引領域を計算することは、学習されたモデルの不確実性が原因で、学習段階では実行不可能である可能性がある。しかしながら、ロボットの状態空間全体をカバーするような吸引領域を設計する必要はないかもしれない。既知の吸引領域を有する終端コントローラを設計すれば十分な場合もある。その場合、制御問題は、システムを終端コントローラのアトラクタベイスン（attractor basin）までロバストに移動させるタスクに分割することができ、終端コントローラは、システムの状態を所望の終端状態に調整することができる。

これを理解した上で、コントローラ設計時にシステム力学の不確実性を取り込み、システムを初期状態から終端コントローラのアトラクタベイスンまで確実に移動させることができるコントローラを設計可能であることが重要である。しかしながら、コントローラ設計中に不確実性を組み込むには、コントローラの計算に適した方法で不確実性を推定し、表現しなければならない。

力学系が常に所望の終端状態に収束することを保証するために、システムがシステムの終端ベイスンに到達すると、所望の終端状態へのシステムの調整を保証する終端コントローラを設計する必要がある。一般に、非線形システムのコントローラについてアトラクタベイスンを推定することは、計算的にもアルゴリズム的にも非常に難しい問題である。しかしながら、コントローラのアトラクタベイスンを効率的に推定することで、所望の振る舞いを安定させ、素早く学習することができる。

したがって、モデル学習中の不確実性の適切な表現を利用し、学習中に所望の性能を得るためにシステムをロバストに制御するコントローラを設計することが可能な、ロバストなポリシー最適化技術およびコントローラ設計技術が必要とされている。

いくつかの実施形態の目的は、学習中に、部分的に既知の力学を有するシステムの制御ポリシーのデータ駆動ロバスト最適化のためのシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、部分的に既知のシステムについて不確実性のポリトピック表現を学習することが可能なシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、局所安定性が保証されたポリトピック不確実性表現を使用してロバスト最適化を実行して、ロバストポリトピックコントローラを計算することが可能なシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、基礎となるシステムの終端コントローラの吸引領域を学習可能なシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、終端コントローラとポリトピックコントローラとの吸引領域などにおいて、終端コントローラを用いて基礎となる力学系を制御するシステムおよび方法を提供することである。

本開示のいくつかの実施形態では、残差（真の力学のモデル化されていない成分）システムが存在する可能性が高いポリトープを学習することによって、モデルの不一致に取り組むことが可能な、新規なロバストポリシー最適化メカニズムを提供する。ベイズ回帰に基づくこの残差力学のポリトピック過剰近似によって、扱いやすい半正定値計画（semidefinite program：ＳＤＰ）を解くことによるロバストポリシーの構築が可能になる。

本開示のいくつかの実施形態によれば、データから直接学習されるベイズポリトープ（Bayesian polytope）を用いてモデルの不確実性を表現することにより、モデルベースの強化学習用のロバストなポリシーを学習するための、新規なコンピュータに実装される方法が提供される。この方法のアルゴリズムは、入力制約と状態制約とを満たす。さらに、新規な方法は、学習されたベイズポリトープの仮定の下で、局所安定性を保証したポリトープコントローラに整理される。本開示では、ロバストポリトピックコントローラの設計例として、終端コントローラのキャッチベイスンを推定することによって、より優れたデータ効率と保証された安定性とがもたらされることについて説明する。

このようなスローポリシー（throw policy）はシステムの出力データから学習され、その役割は、指定された目標状態に向けてシステム力学を伝播させることである。目標状態では、キャッチポリシー（catch policy）を採用し、教師あり学習を活用して、どのような状態も目標状態に安定可能になることが（高確率で）保証される、対応するキャプチャベイスンを推定する。したがって、スローポリシーが状態をこのキャプチャベイスン内に導くと、キャッチポリシーはシステムを目標態に進める。我々のアプローチの大きな利点は、状態制約および入力制約も組み込めることである。提案されたアルゴリズムを、倒立振子および劣駆動アクロボットシステムで実証する。

いくつかの実施形態は、システムの力学モデルの不正確さが、力学系のコントローラを設計するために使用される力学系の予測における複合誤差につながるという認識に基づいている。不正確な力学モデルで力学系の所望の挙動を実現するために、一般に、不正確さを定量化し、次に、動作中にこれらの不正確さを補償できるようにするために、コントローラ設計において不正確さの推定を使用する必要がある。

本開示のいくつかの実施形態は、ほとんどの物理モデルについて、予測モデルが専門知識を使用して利用可能であるか、または物理エンジンを使用して作成可能であるという認識に基づいている。これらのモデルは一般に不正確であり、実システムからの物理的観測と正確に一致しない。しかしながら、これらのモデルは、実システムを制御するための初期コントローラを計算するために使用することができる。いくつかの実施形態は、このようなコントローラは、実システムでは性能が劣るが、実システムからデータを収集するために使用可能であるという認識に基づいている。このデータは、実システムの予測モデルを改善するために使用することができる。

本開示のいくつかの実施形態は、コントローラを用いて実システムから収集されたデータを使用して、実システムとシステムのモデルとの間の観測値の差を計算可能であるという認識に基づいている。実システムとシステムの既知のモデルとの差は、機械学習モデルを使用して、収集されたデータから学習することができる。本開示のいくつかの実施形態は、機械学習モデルの不確実性を、同じものについて異なる表現を使用して異なる方法で定量化することが可能であるという認識に基づいている。

本開示のいくつかの実施形態は、不確実性について線形表現またはポリトピック表現を使用することにより、既知の不確実性を有する力学モデルのロバストなフィードバックコントローラを設計するために、半正定値計画（Semi-Definite Programming：ＳＤＰ）からツールを使用することができるという認識に基づいている。このようなロバストコントローラは、モデルの不確実性に対する局所的なロバスト性を保証しつつ設計することができる。本開示のいくつかの実施形態は、線形ベイズ最適化とベイズ回帰法による予測についての所定の信頼区間とを使用して、学習済みモデルにおける不確実性についてのポリトピック表現を得ることができるという認識に基づいている。

本開示のいくつかの実施形態は、システムが到達できない状態空間の部分において、システムの力学モデルを修正することができない場合があるという認識に基づいている。計算された制御軌道を実装すると、観測された状態と計算された公称軌道との間の誤差は、軌道のホライズンと共に増大する。その結果、システムは所望の終端状態近傍に到達することはない。いくつかの実施形態はこの認識に基づくものであり、それゆえ、システムが終端コントローラのアトラクタベイスンに入ると、システム状態を所望のシステム状態へ、そして終端状態へと調整する終端コントローラを設計する。

本開示のいくつかの実施形態は、力学系が調整可能であり、システムの所望の終端状態に留まることを保証するために、ほとんどの力学系は安定した終端コントローラを必要とするという認識に基づいている。しかしながら、終端コントローラとは別に、終端コントローラが安定であることが保証される終端コントローラのアトラクタベイスンを推定する必要がある。本開示のいくつかの実施形態は、システムの終端状態におけるモデルが既知であるかどうかに応じて、力学系の終端コントローラが、モデルフリーまたはモデルベースの方法を使用して設計され得るという認識に基づいている。終端状態におけるモデルが既知でない場合、終端コントローラは、比例・積分・微分（proportional, integral and derivative：ＰＩＤ）コントローラのようなモデルフリーアプローチを使用して計算することもできる。

本開示のいくつかの実施形態は、終端状態の近傍から状態をサンプリングし、サンプリングされた状態が所望の終端状態に調整され得るかどうかを予測する分類器を訓練することによって、終端コントローラのアトラクタベイスンが推定され得るという認識に基づいている。このような学習プロセスは、最初に終端状態の近傍の状態をサンプリングし、次に、所望の終端状態へのシステムの定常状態の収束挙動を観察することによって、設計することができる。初期状態からデータと収束ラベルとを収集した後、任意の初期状態からの収束を予測するように分類器を訓練して、終端コントローラのアトラクタベイスンの推定値を提供することができる。

本開示のいくつかの実施形態は、最終的なコントローラ設計が、ロバストなＳＤＰベースのコントローラを用いてシステム状態をコントローラのアトラクタベイスンに進め、その後、学習された分類器によって予測された終端コントローラを使用するという認識に基づいている。

本発明のいくつかの実施形態によれば、システムの力学を学習することによって、システムを制御するポリシーを生成するためのコントローラが提供される。コントローラは、システム上に配置されたセンサから測定データを取得するインターフェイスコントローラと、少なくとも１つのプロセッサと、少なくとも１つのプロセッサによって実行されると、コントローラにステップを実行させるモデル学習モジュールおよびポリシー学習モジュールを含み、コンピュータ実装命令を格納するメモリとを備え得る。ステップは、システムの力学の既知の部分と、システムの力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、システムの状態に関する公称ポリシーとノイズ項とに基づいて、システムのセンサを使用してシステムの力学を測定することによって、状態を収集するステップと、システムのデータを収集することによって、システムの状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、データは、システム状態の集合と、適用される制御入力と、システム状態の変化とを含み、制御入力の各々は、公称ポリシーと追加のノイズ項とによって計算され、ステップはさらに、線形確率回帰モデルを使用してシステムの力学の未知の部分を近似するためにシステムの収集されたデータを使用して、ポリトピックシステムを学習するステップと、終端状態の近傍の初期状態をサンプリングし、教師あり学習により終端コントローラのアトラクタベイスンを推定することによって、アトラクタベイスンを推定するステップと、システムを、初期状態から終端コントローラのアトラクタベイスンに進めるために、推定されたポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む。

さらに、いくつかの実施形態によれば、システムの力学を学習することによって、システムを制御するポリシーを生成するための、コンピュータに実装される方法が提供される。コンピュータに実装される方法に基づいて実行されるステップは、システム上に配置されたセンサから測定データを取得するステップと、システムの力学の既知の部分と、システムの力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、システムの状態に関する公称ポリシーとノイズ項とに基づいて、システムのセンサを使用してシステムの力学を測定することによって、状態を収集するステップと、システムのデータを収集することによって、システムの状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、データは、システム状態の集合と、適用される制御入力と、システム状態の変化とを含み、制御入力の各々は、公称ポリシーと追加のノイズ項とによって計算され、方法はさらに、線形確率回帰モデルを使用してシステムの力学の未知の部分を近似するためにシステムの収集されたデータを使用して、ポリトピックシステムを学習するステップと、終端状態の近傍の初期状態をサンプリングし、教師あり学習により終端コントローラのアトラクタベイスンを推定することによって、アトラクタベイスンを推定するステップと、システムを、初期状態から終端コントローラのアトラクタベイスンに進めるために、推定されたポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む。

本開示の実施形態は、添付の図面を参照してさらに説明される。図示された図面は、必ずしも縮尺通りではなく、一般に、本開示の実施形態の原理を説明することに重点が置かれている。

本開示のいくつかの実施形態に係る、提案されたポリシー最適化方法の例を示す図である。本開示のいくつかの実施形態に係る、システムの状態空間におけるシステム力学の既知の部分および未知の部分とデータ収集プロセスとを示す図である。本開示のいくつかの実施形態に係る、制御方法を使用したスローキャッチコントローラの計算に関与するステップのシーケンスを示す図である。本開示のいくつかの実施形態に係る、実システムおよび既知のシステムのシステム軌道を示す図である。システム力学の未知の部分に起因する、システムの設計された軌道と観測された軌道との差を示す図である。本開示のいくつかの実施形態に係る、実システムおよびシミュレートされたシステムを使用して収集されたデータから学習されたベイズシステムを示す図である。本開示のいくつかの実施形態に係る、制御されたシステムの下でシステム状態をサンプリングし、分類器モデルをサンプリングされたデータに適合させることによって、所与のコントローラについてシステムの吸引領域を学習することに関与するステップのシーケンスを示す図である。本開示のいくつかの実施形態に係る、システムの終端コントローラの吸引領域を示す図である。本開示のいくつかの実施形態に係る、スローキャッチ（Throw-Catch）コントローラの計算時のシステムの動作を示す図である。本開示のいくつかの実施形態に係る、システムが終端コントローラのアトラクタベイスンに入ると終端コントローラが実装される、システム上の計算されたロバスト制御の実装を示す図である。本開示のいくつかの実施形態に係る、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを示す、フィードバック学習システムを示す概略図である。本開示のいくつかの実施形態に係る、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを含むコントローラを示すブロック図である。本開示のいくつかの実施形態に係る、初期状態から所望の軌道を追跡するマニピュレータの例を示す、ロボットシステムの例を示す図である。本開示のいくつかの実施形態に係る、１つのワークを操作するロボットシステムのマニピュレータを示す図である。本発明のいくつかの実施形態に係る、異なるワークを操作するロボットシステムのマニピュレータを示す図である。

本発明の様々な実施形態について、図を参照して以下で説明する。図は縮尺通りに描かれておらず、同様の構造または機能を有する要素は、図全体を通して同様の参照数字で表されていることに留意されたい。また、図は、本発明の特定の実施形態の説明を容易にすることのみを意図していることに留意されたい。これらは、本発明の網羅的な説明であることを意図したものでもなければ、本発明の範囲を限定することを意図したものでもない。くわえて、本発明の特定の実施形態と併せて説明する態様は、必ずしもその実施形態に限定されるものではなく、本発明の他の任意の実施形態において実施することができる。

本開示のいくつかの実施形態によれば、不確実性を有する機械学習モデルのロバスト最適化は、物理システムにおけるロバストコントローラの学習および設計にとって重要である。機械学習および人工知能が過去１０年間に多大な進歩を遂げたにもかかわらず、学習に基づく制御の進歩は、ロボット工学および古典的な制御システムにはほとんど及んでいない。強化学習は、物理学からモデルを作成することが困難な物理システムについて、高性能コントローラを学習するための強力なパラダイムを提供する。このようなタスクは、ロボットがその環境を操作するために摩擦相互作用を行う必要がある場合、またはロボットが感覚的な観察に基づいて環境の変化に反応する必要がある場合に、ロボット操作では一般的である。このようなタスクのモデル作成は、数学的モデルがない、または既知のモデルのパラメータが不確実である、といった理由で困難である。

本開示のいくつかの実施形態によれば、モデルフリー強化学習アルゴリズムのほとんどは、古典的なモデルベースの制御アプローチが提供し得る安定性および漸近収束の望ましい理論的保証に欠けている。一方、モデルベースの強化学習アプローチの性能は、制御に利用可能なモデルの精度によって決まる。高精度の予測モデルを学習することは難しい場合があるが、最近の機械学習モデルでは、予測モデルの不確実性の学習が可能である。これらの不確実性は、作動ノイズ、観測誤差、または基礎となるシステムの既知の物理学における誤差に起因する、システムの発展において観測されるノイズを捕捉する。これらの不確実性は、適切に設計されたオプティマイザによって使用されて、ロバストなコントローラを、システム状態を所望の軌道に近づくように調整して、最終的に所望の終端状態に収束させるように設計することができる。しかしながら、学習されたモデルに関連する不確実性を使用するために、不確実性を適切に表現し、それをオプティマイザが使用できるようにする必要がある。このように、部分的に既知のシステムにおけるロバストコントローラの設計には、不確実性の推定、不確実性の表現、および最適化中の不確実性制約の充足の３つの重要なステップがある。

本開示のいくつかの実施形態では、未知のシステムに関するコントローラ学習問題を２つの部分に分割する。図１Ａは、本開示のいくつかの実施形態に係る、提案されたポリシー最適化方法１００の例を示す図である。この場合、実システムの力学は、実システムから収集されたデータを使用して、既知の力学と学習されたベイズポリトープとによって記述される。システムは、システムの終端コントローラの吸引領域に到達すると終端コントローラを用いて動作し、その外側になるとスローコントローラを使用する。コントローラの第１の部分は、システム状態を終端コントローラの既知の終端領域まで進める。この部分は、スローコントローラ１３０として知られている。システムは常に固定された初期状態から開始し、所望の終端状態（または目標状態）に調整されなければならないことに留意されたい。コントローラの第２の部分１４０は、システムが終端コントローラのアトラクタベイスンに入ると起動される終端コントローラである。完全な学習プロセスは、スローキャッチポリトピックポリシー最適化（Throw-Catch Polytopic Policy Optimization：ＴＣＰＰＯ）と表記される。１１０のシステムの軌道１１４の例は、初期状態１１１から開始する、システムが終端領域１１３に到達するために通過する状態１１２のシーケンスである。本開示のいくつかの実施形態は、ロバストコントローラの設計に使用することが可能なシステム力学のポリトピック表現１２２を学習する。本開示のいくつかの実施形態では、システムを終端領域１１３に進めるためのロバストポリトピックコントローラ１３０を学習する。本開示のいくつかの実施形態では、所望の終端状態へのシステム状態の収束を確実にするために終端コントローラ１４０を学習する。

本明細書に開示されるいくつかの例示的な実施形態は、力学系の未知の力学を学習する問題に関する。図１Ｂは、本開示のいくつかの実形態に係る、システムの状態空間におけるシステム力学１８０の既知の部分および未知の部分とデータ収集プロセス１６１とを説明する図である。この場合、システムの発展１８０は、既知の部分１６０と未知の部分１７０とから構成される。力学１７０の未知の部分は、複雑なシステムにおけるモデル化されていない現象、システムのいくつかのサブモジュールの変化、または力学モデルのパラメータの不確実性に起因する場合がある。真の力学と既知の力学との間の残差の学習は、現在の状態とシステムへの制御入力とが与えられた場合に残差を予測する機械学習モジュールを使用して実現することができる。

本開示のいくつかの実施形態では、部分的に既知の力学を有するシステムのコントローラを学習する方法を実装する。図２は、システム状態、目標状態、および既知のシステムモデル１６０からなるデータを収集するためにコンピュータに実装される方法（またはプログラムモジュール）２００であり得る制御方法２００を使用して、スローキャッチコントローラを計算することに関与する一連のステップについて説明する図である。このコンピュータに実装される方法２００では、実システムからデータを収集する（２１３）ために、既知のシステムを使用して初期探索ポリシーを受け付ける（２１２）。この収集されたデータを用いて、システム力学（システムの力学）の未知の部分のベイズモデルを学習する（２１４）。この学習されたモデルを用いて、半正定値計画を使用して、システムを終端コントローラの終端領域に進めるためのロバストポリシーを計算す（２１５）。本開示の特定の実施形態では、終端コントローラを設計し（２１６）、サンプリングと機械学習法とを使用して、そのアトラクタベイスンを推定する（２１７）。

本発明に開示されるいくつかの実施形態は、学習された残差システム力学の予測における不確実性を推定する問題に関する。学習された残差力学の不確実性を推定することにより、真のシステム力学と既知のシステム力学との間の最悪の残差力学を考慮することによって、ロバストなコントローラを設計（生成）することができる。学習された残差力学に関連する不確実性は、残差を入力変数の確率的関数としてモデル化することによって推定可能である。そして、確率的機械学習モデルは、残差力学の予測における不確実性を表現するために使用することができる。

図４は、システム力学の未知の部分に起因する、システム４００の設計された軌道と観測された軌道との差を説明する図であり、図５は、本開示のいくつかの実施形態に係る、実システムとシミュレートされたシステムとを用いて収集されたデータから学習されたベイズシステム５００を説明する図である。

システム４００は、システムを終端セット４１３に進めるためのロバストポリトピックポリシーを生成／計算するために、システム力学のこの学習されたポリトピック表現を使用する。力学の未知の部分と、機械学習モデルから得られる推定値の不完全性とを考慮すると、ロバストでないコントローラは、システム４００を、初期状態４１０から終端状態４１２の所望の終端セット４１３まで進めることができない。不確実性を考慮しないコントローラは逸脱して、終端領域に到達不可能な軌道４１４をもたらす。

力学系の状態を所望の終端状態に調整するために、本開示のいくつかの実施形態では、システム状態の終端状態への収束を保証することが可能な終端コントローラを設計する。コントローラのこのような部分は、キャッチコントローラと呼ばれる。しかしながら、どのような調整コントローラも、その吸引領域内でしか収束を保証することができない。一般的な非線形システムについての吸引領域の推定は、数値的にもアルゴリズム的にも困難である。本開示で説明するロバストコントローラを実装するために、終端コントローラの吸引領域を推定する必要がある。この認識に基づいて、本開示のいくつかの実施形態では、終端コントローラの吸引領域７００を推定する。コントローラの吸引領域（またはアトラクタベイスン）７００は、任意の軌道７２０を経由してコントローラを適用すると、終端状態７１０まで進めることができる力学系の状態のセットである。このセット内の任意の状態にコントローラが作用すると、このセット内のシステム状態は、常に状態ｘ_T７１０に収束する。

図６は、本開示のいくつかの実施形態に係る、制御されたシステムの下でシステム状態をサンプリングし、サンプリングされたデータに分類器モデルを適合させることによって、所与のコントローラのシステムの吸引領域を学習することに関与するステップのシーケンス（コンピュータに実装される方法）６００を説明する図である。さらに、図７は、本開示のいくつかの実施形態に係る、システムの終端コントローラ７００の吸引領域を説明する図である。

図８は、本開示のいくつかの実施形態に係るスローキャッチコントローラの計算時にシステムで使用されるポリシー８００の動作を説明する図である。

本開示のいくつかの実施形態では、モデルの不一致があるシステムのスローキャッチポリシーを実装するための、コンピュータに実装される方法を提供する。本実施形態は、動作中にシステム状態を受け付ける（８１０）。訓練された分類器モデルは、現在の状態が終端（キャッチ）コントローラの吸引領域内にあるかどうかを判断することができる（８２０）。状態が終端領域内にある場合（８４０）、終端コントローラはシステムにおいて実装される。そうでなければ、ロバストポリトピックコントローラ（またはスローコントローラ）が実装される（８３０）。式（１０）が示唆するように、システムの最終的な制御ポリシーは、状態空間の異なる部分で異なるコントローラを使用するハイブリッド制御ポリシーであることに留意されたい。

図９は、本開示のいくつかの実施形態に係る、システムが終端コントローラのアトラクタベイスンに入ると終端コントローラが実装される、システム上での計算されたロバスト制御９００の実装を示す図である。

システム挙動は、計算されたロバスト制御９００において見ることができ、設計された公称軌道は、初期状態９１０からの９１１である。システム力学の未知の部分に起因して、観測されたシステム軌道９１２は設計された軌道から散逸する。しかしながら、ロバストポリトピックコントローラによって、システムは終端コントローラ９３０のアトラクタベイスンに進められる。システムは、軌道９１３を経由して終端コントローラを用いて終端状態９２０に進められる。

図１０Ａは、本開示のいくつかの実施形態に係る、フィードバック学習システムの概略図であり、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを示す図である。

この場合、フィードバック学習システムは、モータコントローラ１０００の設計および制御に使用される。このシステムは、コントローラ１０２０に提供されるコマンド（所望の目標である）１０１０を受け付ける。このコントローラは、公称ポリシーを使用して調査データ１０３１を収集する。このデータは、新しいコントローラを計算するために、ＴＣＰＰＯ学習法１０４０によって使用される。そして、これは、マシンを制御するための制御則を更新するコントローラ１０２０に送り返される。このプロセスは収束するまで繰り返される。

図１０Ｂは、本開示のいくつかの実施形態に係る、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを含むコントローラ（ロボット制御システム）５０を表すブロック図である。ロボット制御システム５０は、ロボットのアクチュエータシステム１２０３を制御するように構成されている。場合によっては、コントローラ５０に含まれるロボットコントローラ１００Ｂは、ロボットの動作を制御するためのアクチュエータコントローラ１５０Ｂに接続するように構成されたハードウェアであり得る。モデル学習モジュール１３００Ｂおよびポリシー学習モジュール１４００Ｂを含むロボットコントローラ１００Ｂは、アクチュエータコントローラ１５０Ｂおよびロボットと、ロボットの動作を測定するセンサ１２０１とに接続され、センサ１２０１は、ロボットの個々のアクチュエータの状態を検出するようにロボットに配置されている。さらに、ロボットコントローラ１００Ｂは、ロボットの動作の測定データに基づいてポリシーパラメータを生成し、ロボットコントローラ１００Ｂは、ポリシーパラメータをロボットのアクチュエータコントローラ１５０Ｂに提供して、アクチュエータコントローラのポリシーユニット１５１Ｂを更新する。

ハードウェア回路であり得るロボットコントローラ１００Ｂは、インターフェイスコントローラ１１０Ｂと、プロセッサ１２０と、メモリユニット１３０Ｂとを含み得る。プロセッサ１２０は、１つまたは複数のプロセッサユニットであってもよく、メモリユニット１３０Ｂは、メモリデバイス、データ記憶デバイスなどであってもよい。インターフェイスコントローラ１１０Ｂは、インターフェイス回路であってよく、ロボットのセンサ１２０１および動作コントローラ１５０Ｂと信号／データ通信を行うためのアナログ／デジタル（analogue/digital：Ａ／Ｄ）コンバータおよびデジタル／アナログ（digital/analogue：Ｄ／Ａ）コンバータを含み得る。さらに、インターフェイスコントローラ１１０Ｂは、Ａ／ＤコンバータまたはＤ／Ａコンバータによって使用されるデータを格納するためのメモリを含み得る。センサ１２０１は、ロボットの統計値を測定するために、ロボット（ロボットアーム（複数可））の関節またはピッキングオブジェクト機構（指など）に配置されている。ロボットはアクチュエータコントローラ（装置／回路）１５０Ｂを含み、アクチュエータコントローラ（装置／回路）１５０Ｂは、関節またはハンドリングフィンガの数に応じて、ロボットアーム、ハンドリング機構、またはアームとハンドリング機構との組み合わせ１２０３－１，１２０３－２，１２０３－３，１２０３－＃ｎを制御するロボットシステム１２０３を制御するための操作パラメータを生成するポリシーユニット１５１Ｂを含む。たとえば、センサ１２０１は、ロボットの動作状態を測定するための加速度センサ、位置決めセンサ、トルクセンサ、角度センサ、全地球測位システム（global positioning system：ＧＰＳ）装置、カメラ、深度カメラ、距離カメラ、レンジスキャナ等を含み得る。

また、インターフェイスコントローラ１１０Ｂは、ロボットに搭載されたロボットの動作の状態を測定／取得するセンサ１２０１に接続されている。場合によっては、アクチュエータが電気モータである場合、アクチュエータコントローラ１５０Ｂは、ロボットアームの角度またはハンドリング機構によるオブジェクトのハンドリングを駆動する個々の電気モータを制御してもよい。場合によっては、アクチュエータコントローラ１５０Ｂは、ポリシー学習モジュール１４００Ｂから生成されたポリシーパラメータに応答して、ロボットの動作を滑らかに加速または安全に減速するために、アームに配置された個々のモータの回転を制御してもよい。さらに、オブジェクトハンドリング機構の設計に応じて、アクチュエータコントローラ１５０Ｂは、ポリシー学習モジュール１４００Ｂから生成されたポリシーパラメータに応答して、アクチュエータの長さを制御してもよい。

メモリユニット１３０Ｂは、モデル学習モジュール１３００Ｂとポリシー学習モジュール１４００Ｂとを含む、コンピュータによって実行可能なプログラムモジュールを格納することができる。プロセッサ１２０は、プログラムモジュール１３００Ｂおよび１４００Ｂのステップを実行するように構成されている。この場合、ステップは、モデル学習モジュール１３００Ｂを用いて、ロボットの操作状態（動作状態）とセンサ１２０１からの測定状態とに基づいてオフライン学習状態を生成するオフラインモデリングを含み得る。ステップはさらに、ポリシーパラメータを生成するために、オフライン状態をポリシー学習モジュール１４００Ｂに提供することと、ポリシーパラメータに基づいてアクチュエータシステム１２０３を動作させるために、ロボットの動作コントローラ１５０Ｂのポリシー１５１Ｂを更新することとを実行する。

たとえば、測定データは、マニピュレータアームの関節の角度位置、ロボットのエンドエフェクタの姿勢、またはマニピュレータアームによって操作されるオブジェクトの姿勢で構成することができる。システムの力学は、ロボットの個々の関節にトルクを加えることによって得られる関節の角度位置の変化の関係によって定義することができる。また、マニピュレータによるオブジェクトへの力の印加によるオブジェクトの姿勢の変化の関係によって定義することもできる。システムの状態は、ロボットによって操作されているオブジェクトを付加することができる関節角度位置と速度とによって表すことができる。システムの状態は、エンコーダを使用して、またはロボットの環境内のオブジェクトを追跡するように設計可能な視覚システム（カメラ、深度カメラ、レンジスキャナなど）を使用して、測定することができる。制御入力のセットは、関節またはエンドエフェクタの位置を動かすために個々の関節でモータによって加えられるトルクである。終端コントローラのアトラクタベイスンは、終端コントローラによって調整可能な終端状態近傍のシステム状態のセットによって定義することができる。オブジェクトを操作するロボットマニピュレータの場合、終端状態はオブジェクトの所望の姿勢である。終端コントローラは、オブジェクトの状態が所望の状態に収束することを保証する古典的な制御方法を用いて計算することができる。終端コントローラのアトラクタベイスンは、終端コントローラが収束を保証できる終端状態近傍の状態のセットである。

図１１は、本開示のいくつかの実施形態に係る、初期状態から所望の軌道を追跡するマニピュレータを示す、ロボットシステム１１００の例を示す図である。図１２Ａおよび図１２Ｂは、本発明のいくつかの実施形態に係る、１つのワーク１２１０および異なるワーク１２２０を操作するロボットシステム１１００のマニピュレータを示す図である。提案されたコントローラ５０は、追加の未知の負荷１１０１を有するロボットシステム１１００のマニピュレータアームの動きを制御するように構成されている。マニピュレータコントローラ５０は、所望の軌道１１２０に従うように荷重を制御するために、センサのセンサフィードバックに基づいて制御コマンドを送信する。しかしながら、設計された軌道１１２０と比較した場合、未知の負荷に起因して、観測された軌道１１３０には若干の誤差がある。この問題は、ロボットが異なる未知のオブジェクト１２１０および１２２０を正確に移動できるように、マニピュレータコントローラ５０においてＴＣＰＰＯコントローラを使用することによって解決される。

Claims

システムの力学を学習することによって、前記システムを制御するポリシーを生成するためのコントローラであって、前記コントローラは、
前記システム上に配置されたセンサからシステム状態を取得するインターフェイスコントローラと、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサにステップを実行させるモデル学習モジュールおよびポリシー学習モジュールを含むコンピュータ実装命令を格納するメモリとを備え、前記ステップは、
前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、前記メモリに提供するステップと、
前記システムの前記力学の既知の部分を表す公称ポリシーと前記公称ポリシーに追加されたノイズ項とに基づいて、現在の前記システム状態を使用して、次の時刻における前記システム状態を算出するステップと、
前記システムのデータを収集することによって、前記システム状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、前記システム状態の集合と、適用される制御入力と、前記システム状態の変化とを含み、適用される前記制御入力の各々は、前記公称ポリシーと前記ノイズ項とによって計算され、前記ステップはさらに、
前記システムの収集された前記データを使用して、前記システムを初期状態から終端コントローラのアトラクタベイスンに進めるためのポリトピックポリシーを生成するために、前記非線形システムモデルを書き換えてポリトピックシステムにするためのポリトピック表現を学習するステップと、
終端状態の近傍の前記システム状態をサンプリングし、教師あり学習により前記システムの前記終端コントローラの前記アトラクタベイスンを推定するステップと、
前記システムを前記初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、前記ポリトピックポリシーを生成するステップとを含む、コントローラ。
前記システムを前記終端コントローラの前記アトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項１に記載のコントローラ。
前記コントローラはさらに、前記システムと前記システムの前記力学の前記既知のシステムモデルとの間の残差力学を学習する、請求項１に記載のコントローラ。
前記コントローラはさらに、前記システムと前記既知のシステムモデルとの間の所与の制御軌道についての状態軌道の差として、残差力学に関するデータを収集する、請求項１に記載のコントローラ。
前記コントローラはさらに、ベイズ最適化を使用する残差力学の確率的機械学習モデルを使用する、請求項１に記載のコントローラ。
前記コントローラはさらに、前記ポリトピックシステムと半正定値計画とを使用して、ロバストポリシーを構築する、請求項１に記載のコントローラ。
前記システムの前記終端状態における前記終端コントローラは、前記システムを所望の終端状態に進めるために生成される、請求項１に記載のコントローラ。
前記コントローラはさらに、機械学習ベースの分類技術を使用して、前記終端コントローラの前記アトラクタベイスンを推定する、請求項１に記載のコントローラ。
システムの力学を学習することによって、前記システムを制御するポリシーを生成するための、コンピュータに実装される方法であって、
前記システム上に配置されたセンサからシステム状態を取得するステップと、
前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、
前記システムの前記力学の既知の部分を表す公称ポリシーと前記公称ポリシーに追加されたノイズ項とに基づいて、現在の前記システム状態を使用して、次の時刻における前記システム状態を算出するステップと、
前記システムのデータを収集することによって、前記システム状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、前記システム状態の集合と、適用される制御入力と、前記システム状態の変化とを含み、前記制御入力の各々は、前記公称ポリシーと前記ノイズ項とによって計算され、前記方法はさらに、
前記システムの収集された前記データを使用して、前記システムを初期状態から終端コントローラのアトラクタベイスンに進めるためのポリトピックポリシーを生成するために、前記非線形システムモデルを書き換えてポリトピックシステムにするためのポリトピック表現を学習するステップと、
終端状態の近傍の前記システム状態をサンプリングし、教師あり学習により前記システムの前記終端コントローラの前記アトラクタベイスンを推定するステップと、
前記システムを前記初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、前記ポリトピックポリシーを生成するステップとを含む、方法。
前記システムを前記終端コントローラの前記アトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項９に記載のコンピュータに実装される方法。