[go: up one dir, main page]

JP7749145B2 - 学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法 - Google Patents

学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法

Info

Publication number
JP7749145B2
JP7749145B2 JP2024550931A JP2024550931A JP7749145B2 JP 7749145 B2 JP7749145 B2 JP 7749145B2 JP 2024550931 A JP2024550931 A JP 2024550931A JP 2024550931 A JP2024550931 A JP 2024550931A JP 7749145 B2 JP7749145 B2 JP 7749145B2
Authority
JP
Japan
Prior art keywords
controller
policy
state
dynamics
polytopic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024550931A
Other languages
English (en)
Other versions
JP2024541746A (ja
Inventor
ジャー,デベシュ
チャクラバルティ,アンクシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2024541746A publication Critical patent/JP2024541746A/ja
Application granted granted Critical
Publication of JP7749145B2 publication Critical patent/JP7749145B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、概してシステム制御に関し、より特定的には、学習中の部分的に既知の力学を有するシステムのロバストな最適化およびフィードバック制御のための方法および装置に関する。
機械学習および人工知能の分野は過去10年間に画期的に向上したが、物理システムまたはロボットシステムに関しては、これらの技術の応用は限られている。たとえば、ほとんどのロボットシステムは、複雑なプロセスを制御するために、古典的なモデルベースのアプローチを依然として使用している。これは、ロバスト性の欠如またはサンプル効率の悪さなど、ほとんどの既存の学習アプローチを特徴付けるいくつかの望ましくない特徴に起因し得る。物理力学を正確に表現する(学習)モデルは稀であるため、物理システムの制御のための学習中のロバスト性を保証することは重要である。
強化学習(reinforcement learning:RC)は、逐次的な意思決定問題を扱う学習フレームワークであり、「エージェント」または意思決定者が、典型的に未知の環境と相互作用することによって、長期的な報酬を最適化するポリシーを学習する。各反復または時間ステップにおいて、RLエージェントは、その行動の長期的なパフォーマンスに関する評価フィードバック(報酬またはコストと呼ばれる)を取得して、その後の動作のパフォーマンスを向上させることができる。
モデルフリー強化学習(RL)法は、複雑な力学モデルを必要とせずに制御ポリシーを構築できることから、広く普及している。しかしながら、モデルフリーRLアルゴリズムの大半は、重要なシステム特性、たとえば外乱に対するロバスト性または漸近安定性でさえ、組み込むことができない。逆に、モデルベースのRL(mode-based RL:MBRL)は、このような所望の特性を組み込むことができるが、基礎となる力学モデルに大きく依存しており、モデルの不一致が大きいと性能が低下し、時には壊滅的な失敗に至ることさえある。この問題は、真の力学を知ることが非常に困難な多くの異なるシナリオに非常に関連している。これは、ロボットが実行中に新しいオブジェクトと相互作用することが想定され、そのため相互作用の事前モデルを持つことができない多くのロボットシステムに当てはまる。
MBRL技術のポリシー最適化段階では、最適化法は学習されたモデルに不確実性を組み込むことを可能にし、部分的に既知のシステムを制御するために、結果として得られるコントローラのロバスト性を保証する必要がある。これは、一般的に実現が困難である。これは、システム力学に存在する不確実性の知識および表現と、ポリシー最適化ステップにおける不確実性の利用とを必要とする問題である。しかしながら、これはロボット工学、自律走行などの分野における学習コントローラへの多くの異なる応用に必要である。
学習ベースのコントローラ設計のための技術のほとんどは、学習中にシステムが所望のシステム状態に収束することを原則として保証できないため、システムに実装した場合のパフォーマンスの低さに苦労している。非線形システムの安定化コントローラの設計における先行研究では、非線形システムの収束と安定性とを保証するために、コントローラの吸引ベイスン(または領域)の概念が使用されてきた。たとえば、 Tedrake, Russ, et al. 「LQR-trees: Feedback motion planning via sums-of-squares verification.」The International Journal of Robotics Research 29.8 (2010): 1038-1052 を参照。非線形コントローラの吸引領域を計算することは、学習されたモデルの不確実性が原因で、学習段階では実行不可能である可能性がある。しかしながら、ロボットの状態空間全体をカバーするような吸引領域を設計する必要はないかもしれない。既知の吸引領域を有する終端コントローラを設計すれば十分な場合もある。その場合、制御問題は、システムを終端コントローラのアトラクタベイスン(attractor basin)までロバストに移動させるタスクに分割することができ、終端コントローラは、システムの状態を所望の終端状態に調整することができる。
これを理解した上で、コントローラ設計時にシステム力学の不確実性を取り込み、システムを初期状態から終端コントローラのアトラクタベイスンまで確実に移動させることができるコントローラを設計可能であることが重要である。しかしながら、コントローラ設計中に不確実性を組み込むには、コントローラの計算に適した方法で不確実性を推定し、表現しなければならない。
力学系が常に所望の終端状態に収束することを保証するために、システムがシステムの終端ベイスンに到達すると、所望の終端状態へのシステムの調整を保証する終端コントローラを設計する必要がある。一般に、非線形システムのコントローラについてアトラクタベイスンを推定することは、計算的にもアルゴリズム的にも非常に難しい問題である。しかしながら、コントローラのアトラクタベイスンを効率的に推定することで、所望の振る舞いを安定させ、素早く学習することができる。
したがって、モデル学習中の不確実性の適切な表現を利用し、学習中に所望の性能を得るためにシステムをロバストに制御するコントローラを設計することが可能な、ロバストなポリシー最適化技術およびコントローラ設計技術が必要とされている。
いくつかの実施形態の目的は、学習中に、部分的に既知の力学を有するシステムの制御ポリシーのデータ駆動ロバスト最適化のためのシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、部分的に既知のシステムについて不確実性のポリトピック表現を学習することが可能なシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、局所安定性が保証されたポリトピック不確実性表現を使用してロバスト最適化を実行して、ロバストポリトピックコントローラを計算することが可能なシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、基礎となるシステムの終端コントローラの吸引領域を学習可能なシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の目的は、終端コントローラとポリトピックコントローラとの吸引領域などにおいて、終端コントローラを用いて基礎となる力学系を制御するシステムおよび方法を提供することである。
本開示のいくつかの実施形態では、残差(真の力学のモデル化されていない成分)システムが存在する可能性が高いポリトープを学習することによって、モデルの不一致に取り組むことが可能な、新規なロバストポリシー最適化メカニズムを提供する。ベイズ回帰に基づくこの残差力学のポリトピック過剰近似によって、扱いやすい半正定値計画(semidefinite program:SDP)を解くことによるロバストポリシーの構築が可能になる。
本開示のいくつかの実施形態によれば、データから直接学習されるベイズポリトープ(Bayesian polytope)を用いてモデルの不確実性を表現することにより、モデルベースの強化学習用のロバストなポリシーを学習するための、新規なコンピュータに実装される方法が提供される。この方法のアルゴリズムは、入力制約と状態制約とを満たす。さらに、新規な方法は、学習されたベイズポリトープの仮定の下で、局所安定性を保証したポリトープコントローラに整理される。本開示では、ロバストポリトピックコントローラの設計例として、終端コントローラのキャッチベイスンを推定することによって、より優れたデータ効率と保証された安定性とがもたらされることについて説明する。
このようなスローポリシー(throw policy)はシステムの出力データから学習され、その役割は、指定された目標状態に向けてシステム力学を伝播させることである。目標状態では、キャッチポリシー(catch policy)を採用し、教師あり学習を活用して、どのような状態も目標状態に安定可能になることが(高確率で)保証される、対応するキャプチャベイスンを推定する。したがって、スローポリシーが状態をこのキャプチャベイスン内に導くと、キャッチポリシーはシステムを目標態に進める。我々のアプローチの大きな利点は、状態制約および入力制約も組み込めることである。提案されたアルゴリズムを、倒立振子および劣駆動アクロボットシステムで実証する。
いくつかの実施形態は、システムの力学モデルの不正確さが、力学系のコントローラを設計するために使用される力学系の予測における複合誤差につながるという認識に基づいている。不正確な力学モデルで力学系の所望の挙動を実現するために、一般に、不正確さを定量化し、次に、動作中にこれらの不正確さを補償できるようにするために、コントローラ設計において不正確さの推定を使用する必要がある。
本開示のいくつかの実施形態は、ほとんどの物理モデルについて、予測モデルが専門知識を使用して利用可能であるか、または物理エンジンを使用して作成可能であるという認識に基づいている。これらのモデルは一般に不正確であり、実システムからの物理的観測と正確に一致しない。しかしながら、これらのモデルは、実システムを制御するための初期コントローラを計算するために使用することができる。いくつかの実施形態は、このようなコントローラは、実システムでは性能が劣るが、実システムからデータを収集するために使用可能であるという認識に基づいている。このデータは、実システムの予測モデルを改善するために使用することができる。
本開示のいくつかの実施形態は、コントローラを用いて実システムから収集されたデータを使用して、実システムとシステムのモデルとの間の観測値の差を計算可能であるという認識に基づいている。実システムとシステムの既知のモデルとの差は、機械学習モデルを使用して、収集されたデータから学習することができる。本開示のいくつかの実施形態は、機械学習モデルの不確実性を、同じものについて異なる表現を使用して異なる方法で定量化することが可能であるという認識に基づいている。
本開示のいくつかの実施形態は、不確実性について線形表現またはポリトピック表現を使用することにより、既知の不確実性を有する力学モデルのロバストなフィードバックコントローラを設計するために、半正定値計画(Semi-Definite Programming:SDP)からツールを使用することができるという認識に基づいている。このようなロバストコントローラは、モデルの不確実性に対する局所的なロバスト性を保証しつつ設計することができる。本開示のいくつかの実施形態は、線形ベイズ最適化とベイズ回帰法による予測についての所定の信頼区間とを使用して、学習済みモデルにおける不確実性についてのポリトピック表現を得ることができるという認識に基づいている。
本開示のいくつかの実施形態は、システムが到達できない状態空間の部分において、システムの力学モデルを修正することができない場合があるという認識に基づいている。計算された制御軌道を実装すると、観測された状態と計算された公称軌道との間の誤差は、軌道のホライズンと共に増大する。その結果、システムは所望の終端状態近傍に到達することはない。いくつかの実施形態はこの認識に基づくものであり、それゆえ、システムが終端コントローラのアトラクタベイスンに入ると、システム状態を所望のシステム状態へ、そして終端状態へと調整する終端コントローラを設計する。
本開示のいくつかの実施形態は、力学系が調整可能であり、システムの所望の終端状態に留まることを保証するために、ほとんどの力学系は安定した終端コントローラを必要とするという認識に基づいている。しかしながら、終端コントローラとは別に、終端コントローラが安定であることが保証される終端コントローラのアトラクタベイスンを推定する必要がある。本開示のいくつかの実施形態は、システムの終端状態におけるモデルが既知であるかどうかに応じて、力学系の終端コントローラが、モデルフリーまたはモデルベースの方法を使用して設計され得るという認識に基づいている。終端状態におけるモデルが既知でない場合、終端コントローラは、比例・積分・微分(proportional, integral and derivative:PID)コントローラのようなモデルフリーアプローチを使用して計算することもできる。
本開示のいくつかの実施形態は、終端状態の近傍から状態をサンプリングし、サンプリングされた状態が所望の終端状態に調整され得るかどうかを予測する分類器を訓練することによって、終端コントローラのアトラクタベイスンが推定され得るという認識に基づいている。このような学習プロセスは、最初に終端状態の近傍の状態をサンプリングし、次に、所望の終端状態へのシステムの定常状態の収束挙動を観察することによって、設計することができる。初期状態からデータと収束ラベルとを収集した後、任意の初期状態からの収束を予測するように分類器を訓練して、終端コントローラのアトラクタベイスンの推定値を提供することができる。
本開示のいくつかの実施形態は、最終的なコントローラ設計が、ロバストなSDPベースのコントローラを用いてシステム状態をコントローラのアトラクタベイスンに進め、その後、学習された分類器によって予測された終端コントローラを使用するという認識に基づいている。
本発明のいくつかの実施形態によれば、システムの力学を学習することによって、システムを制御するポリシーを生成するためのコントローラが提供される。コントローラは、システム上に配置されたセンサから測定データを取得するインターフェイスコントローラと、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによって実行されると、コントローラにステップを実行させるモデル学習モジュールおよびポリシー学習モジュールを含み、コンピュータ実装命令を格納するメモリとを備え得る。ステップは、システムの力学の既知の部分と、システムの力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、システムの状態に関する公称ポリシーとノイズ項とに基づいて、システムのセンサを使用してシステムの力学を測定することによって、状態を収集するステップと、システムのデータを収集することによって、システムの状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、データは、システム状態の集合と、適用される制御入力と、システム状態の変化とを含み、制御入力の各々は、公称ポリシーと追加のノイズ項とによって計算され、ステップはさらに、線形確率回帰モデルを使用してシステムの力学の未知の部分を近似するためにシステムの収集されたデータを使用して、ポリトピックシステムを学習するステップと、終端状態の近傍の初期状態をサンプリングし、教師あり学習により終端コントローラのアトラクタベイスンを推定することによって、アトラクタベイスンを推定するステップと、システムを、初期状態から終端コントローラのアトラクタベイスンに進めるために、推定されたポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む。
さらに、いくつかの実施形態によれば、システムの力学を学習することによって、システムを制御するポリシーを生成するための、コンピュータに実装される方法が提供される。コンピュータに実装される方法に基づいて実行されるステップは、システム上に配置されたセンサから測定データを取得するステップと、システムの力学の既知の部分と、システムの力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、システムの状態に関する公称ポリシーとノイズ項とに基づいて、システムのセンサを使用してシステムの力学を測定することによって、状態を収集するステップと、システムのデータを収集することによって、システムの状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、データは、システム状態の集合と、適用される制御入力と、システム状態の変化とを含み、制御入力の各々は、公称ポリシーと追加のノイズ項とによって計算され、方法はさらに、線形確率回帰モデルを使用してシステムの力学の未知の部分を近似するためにシステムの収集されたデータを使用して、ポリトピックシステムを学習するステップと、終端状態の近傍の初期状態をサンプリングし、教師あり学習により終端コントローラのアトラクタベイスンを推定することによって、アトラクタベイスンを推定するステップと、システムを、初期状態から終端コントローラのアトラクタベイスンに進めるために、推定されたポリトピックシステムを使用してポリトピックポリシーを生成するステップとを含む。
本開示の実施形態は、添付の図面を参照してさらに説明される。図示された図面は、必ずしも縮尺通りではなく、一般に、本開示の実施形態の原理を説明することに重点が置かれている。
本開示のいくつかの実施形態に係る、提案されたポリシー最適化方法の例を示す図である。 本開示のいくつかの実施形態に係る、システムの状態空間におけるシステム力学の既知の部分および未知の部分とデータ収集プロセスとを示す図である。 本開示のいくつかの実施形態に係る、制御方法を使用したスローキャッチコントローラの計算に関与するステップのシーケンスを示す図である。 本開示のいくつかの実施形態に係る、実システムおよび既知のシステムのシステム軌道を示す図である。 システム力学の未知の部分に起因する、システムの設計された軌道と観測された軌道との差を示す図である。 本開示のいくつかの実施形態に係る、実システムおよびシミュレートされたシステムを使用して収集されたデータから学習されたベイズシステムを示す図である。 本開示のいくつかの実施形態に係る、制御されたシステムの下でシステム状態をサンプリングし、分類器モデルをサンプリングされたデータに適合させることによって、所与のコントローラについてシステムの吸引領域を学習することに関与するステップのシーケンスを示す図である。 本開示のいくつかの実施形態に係る、システムの終端コントローラの吸引領域を示す図である。 本開示のいくつかの実施形態に係る、スローキャッチ(Throw-Catch)コントローラの計算時のシステムの動作を示す図である。 本開示のいくつかの実施形態に係る、システムが終端コントローラのアトラクタベイスンに入ると終端コントローラが実装される、システム上の計算されたロバスト制御の実装を示す図である。 本開示のいくつかの実施形態に係る、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを示す、フィードバック学習システムを示す概略図である。 本開示のいくつかの実施形態に係る、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを含むコントローラを示すブロック図である。 本開示のいくつかの実施形態に係る、初期状態から所望の軌道を追跡するマニピュレータの例を示す、ロボットシステムの例を示す図である。 本開示のいくつかの実施形態に係る、1つのワークを操作するロボットシステムのマニピュレータを示す図である。 本発明のいくつかの実施形態に係る、異なるワークを操作するロボットシステムのマニピュレータを示す図である。
本発明の様々な実施形態について、図を参照して以下で説明する。図は縮尺通りに描かれておらず、同様の構造または機能を有する要素は、図全体を通して同様の参照数字で表されていることに留意されたい。また、図は、本発明の特定の実施形態の説明を容易にすることのみを意図していることに留意されたい。これらは、本発明の網羅的な説明であることを意図したものでもなければ、本発明の範囲を限定することを意図したものでもない。くわえて、本発明の特定の実施形態と併せて説明する態様は、必ずしもその実施形態に限定されるものではなく、本発明の他の任意の実施形態において実施することができる。
本開示のいくつかの実施形態によれば、不確実性を有する機械学習モデルのロバスト最適化は、物理システムにおけるロバストコントローラの学習および設計にとって重要である。機械学習および人工知能が過去10年間に多大な進歩を遂げたにもかかわらず、学習に基づく制御の進歩は、ロボット工学および古典的な制御システムにはほとんど及んでいない。強化学習は、物理学からモデルを作成することが困難な物理システムについて、高性能コントローラを学習するための強力なパラダイムを提供する。このようなタスクは、ロボットがその環境を操作するために摩擦相互作用を行う必要がある場合、またはロボットが感覚的な観察に基づいて環境の変化に反応する必要がある場合に、ロボット操作では一般的である。このようなタスクのモデル作成は、数学的モデルがない、または既知のモデルのパラメータが不確実である、といった理由で困難である。
本開示のいくつかの実施形態によれば、モデルフリー強化学習アルゴリズムのほとんどは、古典的なモデルベースの制御アプローチが提供し得る安定性および漸近収束の望ましい理論的保証に欠けている。一方、モデルベースの強化学習アプローチの性能は、制御に利用可能なモデルの精度によって決まる。高精度の予測モデルを学習することは難しい場合があるが、最近の機械学習モデルでは、予測モデルの不確実性の学習が可能である。これらの不確実性は、作動ノイズ、観測誤差、または基礎となるシステムの既知の物理学における誤差に起因する、システムの発展において観測されるノイズを捕捉する。これらの不確実性は、適切に設計されたオプティマイザによって使用されて、ロバストなコントローラを、システム状態を所望の軌道に近づくように調整して、最終的に所望の終端状態に収束させるように設計することができる。しかしながら、学習されたモデルに関連する不確実性を使用するために、不確実性を適切に表現し、それをオプティマイザが使用できるようにする必要がある。このように、部分的に既知のシステムにおけるロバストコントローラの設計には、不確実性の推定、不確実性の表現、および最適化中の不確実性制約の充足の3つの重要なステップがある。
本開示のいくつかの実施形態では、未知のシステムに関するコントローラ学習問題を2つの部分に分割する。図1Aは、本開示のいくつかの実施形態に係る、提案されたポリシー最適化方法100の例を示す図である。この場合、実システムの力学は、実システムから収集されたデータを使用して、既知の力学と学習されたベイズポリトープとによって記述される。システムは、システムの終端コントローラの吸引領域に到達すると終端コントローラを用いて動作し、その外側になるとスローコントローラを使用する。コントローラの第1の部分は、システム状態を終端コントローラの既知の終端領域まで進める。この部分は、スローコントローラ130として知られている。システムは常に固定された初期状態から開始し、所望の終端状態(または目標状態)に調整されなければならないことに留意されたい。コントローラの第2の部分140は、システムが終端コントローラのアトラクタベイスンに入ると起動される終端コントローラである。完全な学習プロセスは、スローキャッチポリトピックポリシー最適化(Throw-Catch Polytopic Policy Optimization:TCPPO)と表記される。110のシステムの軌道114の例は、初期状態111から開始する、システムが終端領域113に到達するために通過する状態112のシーケンスである。本開示のいくつかの実施形態は、ロバストコントローラの設計に使用することが可能なシステム力学のポリトピック表現122を学習する。本開示のいくつかの実施形態では、システムを終端領域113に進めるためのロバストポリトピックコントローラ130を学習する。本開示のいくつかの実施形態では、所望の終端状態へのシステム状態の収束を確実にするために終端コントローラ140を学習する。
本明細書に開示されるいくつかの例示的な実施形態は、力学系の未知の力学を学習する問題に関する。図1Bは、本開示のいくつかの実形態に係る、システムの状態空間におけるシステム力学180の既知の部分および未知の部分とデータ収集プロセス161とを説明する図である。この場合、システムの発展180は、既知の部分160と未知の部分170とから構成される。力学170の未知の部分は、複雑なシステムにおけるモデル化されていない現象、システムのいくつかのサブモジュールの変化、または力学モデルのパラメータの不確実性に起因する場合がある。真の力学と既知の力学との間の残差の学習は、現在の状態とシステムへの制御入力とが与えられた場合に残差を予測する機械学習モジュールを使用して実現することができる。
本開示のいくつかの実施形態では、部分的に既知の力学を有するシステムのコントローラを学習する方法を実装する。図2は、システム状態、目標状態、および既知のシステムモデル160からなるデータを収集するためにコンピュータに実装される方法(またはプログラムモジュール)200であり得る制御方法200を使用して、スローキャッチコントローラを計算することに関与する一連のステップについて説明する図である。このコンピュータに実装される方法200では、実システムからデータを収集する(213)ために、既知のシステムを使用して初期探索ポリシーを受け付ける(212)。この収集されたデータを用いて、システム力学(システムの力学)の未知の部分のベイズモデルを学習する(214)。この学習されたモデルを用いて、半正定値計画を使用して、システムを終端コントローラの終端領域に進めるためのロバストポリシーを計算す(215)。本開示の特定の実施形態では、終端コントローラを設計し(216)、サンプリングと機械学習法とを使用して、そのアトラクタベイスンを推定する(217)。
本発明に開示されるいくつかの実施形態は、学習された残差システム力学の予測における不確実性を推定する問題に関する。学習された残差力学の不確実性を推定することにより、真のシステム力学と既知のシステム力学との間の最悪の残差力学を考慮することによって、ロバストなコントローラを設計(生成)することができる。学習された残差力学に関連する不確実性は、残差を入力変数の確率的関数としてモデル化することによって推定可能である。そして、確率的機械学習モデルは、残差力学の予測における不確実性を表現するために使用することができる。
図4は、システム力学の未知の部分に起因する、システム400の設計された軌道と観測された軌道との差を説明する図であり、図5は、本開示のいくつかの実施形態に係る、実システムとシミュレートされたシステムとを用いて収集されたデータから学習されたベイズシステム500を説明する図である。
システム400は、システムを終端セット413に進めるためのロバストポリトピックポリシーを生成/計算するために、システム力学のこの学習されたポリトピック表現を使用する。力学の未知の部分と、機械学習モデルから得られる推定値の不完全性とを考慮すると、ロバストでないコントローラは、システム400を、初期状態410から終端状態412の所望の終端セット413まで進めることができない。不確実性を考慮しないコントローラは逸脱して、終端領域に到達不可能な軌道414をもたらす。
力学系の状態を所望の終端状態に調整するために、本開示のいくつかの実施形態では、システム状態の終端状態への収束を保証することが可能な終端コントローラを設計する。コントローラのこのような部分は、キャッチコントローラと呼ばれる。しかしながら、どのような調整コントローラも、その吸引領域内でしか収束を保証することができない。一般的な非線形システムについての吸引領域の推定は、数値的にもアルゴリズム的にも困難である。本開示で説明するロバストコントローラを実装するために、終端コントローラの吸引領域を推定する必要がある。この認識に基づいて、本開示のいくつかの実施形態では、終端コントローラの吸引領域700を推定する。コントローラの吸引領域(またはアトラクタベイスン)700は、任意の軌道720を経由してコントローラを適用すると、終端状態710まで進めることができる力学系の状態のセットである。このセット内の任意の状態にコントローラが作用すると、このセット内のシステム状態は、常に状態xT710に収束する。
図6は、本開示のいくつかの実施形態に係る、制御されたシステムの下でシステム状態をサンプリングし、サンプリングされたデータに分類器モデルを適合させることによって、所与のコントローラのシステムの吸引領域を学習することに関与するステップのシーケンス(コンピュータに実装される方法)600を説明する図である。さらに、図7は、本開示のいくつかの実施形態に係る、システムの終端コントローラ700の吸引領域を説明する図である。
図8は、本開示のいくつかの実施形態に係るスローキャッチコントローラの計算時にシステムで使用されるポリシー800の動作を説明する図である。
本開示のいくつかの実施形態では、モデルの不一致があるシステムのスローキャッチポリシーを実装するための、コンピュータに実装される方法を提供する。本実施形態は、動作中にシステム状態を受け付ける(810)。訓練された分類器モデルは、現在の状態が終端(キャッチ)コントローラの吸引領域内にあるかどうかを判断することができる(820)。状態が終端領域内にある場合(840)、終端コントローラはシステムにおいて実装される。そうでなければ、ロバストポリトピックコントローラ(またはスローコントローラ)が実装される(830)。式(10)が示唆するように、システムの最終的な制御ポリシーは、状態空間の異なる部分で異なるコントローラを使用するハイブリッド制御ポリシーであることに留意されたい。
図9は、本開示のいくつかの実施形態に係る、システムが終端コントローラのアトラクタベイスンに入ると終端コントローラが実装される、システム上での計算されたロバスト制御900の実装を示す図である。
システム挙動は、計算されたロバスト制御900において見ることができ、設計された公称軌道は、初期状態910からの911である。システム力学の未知の部分に起因して、観測されたシステム軌道912は設計された軌道から散逸する。しかしながら、ロバストポリトピックコントローラによって、システムは終端コントローラ930のアトラクタベイスンに進められる。システムは、軌道913を経由して終端コントローラを用いて終端状態920に進められる。
図10Aは、本開示のいくつかの実施形態に係る、フィードバック学習システムの概略図であり、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを示す図である。
この場合、フィードバック学習システムは、モータコントローラ1000の設計および制御に使用される。このシステムは、コントローラ1020に提供されるコマンド(所望の目標である)1010を受け付ける。このコントローラは、公称ポリシーを使用して調査データ1031を収集する。このデータは、新しいコントローラを計算するために、TCPPO学習法1040によって使用される。そして、これは、マシンを制御するための制御則を更新するコントローラ1020に送り返される。このプロセスは収束するまで繰り返される。
図10Bは、本開示のいくつかの実施形態に係る、データ収集およびより多くのデータを用いたコントローラの学習の異なるモジュールを含むコントローラ(ロボット制御システム)50を表すブロック図である。ロボット制御システム50は、ロボットのアクチュエータシステム1203を制御するように構成されている。場合によっては、コントローラ50に含まれるロボットコントローラ100Bは、ロボットの動作を制御するためのアクチュエータコントローラ150Bに接続するように構成されたハードウェアであり得る。モデル学習モジュール1300Bおよびポリシー学習モジュール1400Bを含むロボットコントローラ100Bは、アクチュエータコントローラ150Bおよびロボットと、ロボットの動作を測定するセンサ1201とに接続され、センサ1201は、ロボットの個々のアクチュエータの状態を検出するようにロボットに配置されている。さらに、ロボットコントローラ100Bは、ロボットの動作の測定データに基づいてポリシーパラメータを生成し、ロボットコントローラ100Bは、ポリシーパラメータをロボットのアクチュエータコントローラ150Bに提供して、アクチュエータコントローラのポリシーユニット151Bを更新する。
ハードウェア回路であり得るロボットコントローラ100Bは、インターフェイスコントローラ110Bと、プロセッサ120と、メモリユニット130Bとを含み得る。プロセッサ120は、1つまたは複数のプロセッサユニットであってもよく、メモリユニット130Bは、メモリデバイス、データ記憶デバイスなどであってもよい。インターフェイスコントローラ110Bは、インターフェイス回路であってよく、ロボットのセンサ1201および動作コントローラ150Bと信号/データ通信を行うためのアナログ/デジタル(analogue/digital:A/D)コンバータおよびデジタル/アナログ(digital/analogue:D/A)コンバータを含み得る。さらに、インターフェイスコントローラ110Bは、A/DコンバータまたはD/Aコンバータによって使用されるデータを格納するためのメモリを含み得る。センサ1201は、ロボットの統計値を測定するために、ロボット(ロボットアーム(複数可))の関節またはピッキングオブジェクト機構(指など)に配置されている。ロボットはアクチュエータコントローラ(装置/回路)150Bを含み、アクチュエータコントローラ(装置/回路)150Bは、関節またはハンドリングフィンガの数に応じて、ロボットアーム、ハンドリング機構、またはアームとハンドリング機構との組み合わせ1203-1,1203-2,1203-3,1203-#nを制御するロボットシステム1203を制御するための操作パラメータを生成するポリシーユニット151Bを含む。たとえば、センサ1201は、ロボットの動作状態を測定するための加速度センサ、位置決めセンサ、トルクセンサ、角度センサ、全地球測位システム(global positioning system:GPS)装置、カメラ、深度カメラ、距離カメラ、レンジスキャナ等を含み得る。
また、インターフェイスコントローラ110Bは、ロボットに搭載されたロボットの動作の状態を測定/取得するセンサ1201に接続されている。場合によっては、アクチュエータが電気モータである場合、アクチュエータコントローラ150Bは、ロボットアームの角度またはハンドリング機構によるオブジェクトのハンドリングを駆動する個々の電気モータを制御してもよい。場合によっては、アクチュエータコントローラ150Bは、ポリシー学習モジュール1400Bから生成されたポリシーパラメータに応答して、ロボットの動作を滑らかに加速または安全に減速するために、アームに配置された個々のモータの回転を制御してもよい。さらに、オブジェクトハンドリング機構の設計に応じて、アクチュエータコントローラ150Bは、ポリシー学習モジュール1400Bから生成されたポリシーパラメータに応答して、アクチュエータの長さを制御してもよい。
メモリユニット130Bは、モデル学習モジュール1300Bとポリシー学習モジュール1400Bとを含む、コンピュータによって実行可能なプログラムモジュールを格納することができる。プロセッサ120は、プログラムモジュール1300Bおよび1400Bのステップを実行するように構成されている。この場合、ステップは、モデル学習モジュール1300Bを用いて、ロボットの操作状態(動作状態)とセンサ1201からの測定状態とに基づいてオフライン学習状態を生成するオフラインモデリングを含み得る。ステップはさらに、ポリシーパラメータを生成するために、オフライン状態をポリシー学習モジュール1400Bに提供することと、ポリシーパラメータに基づいてアクチュエータシステム1203を動作させるために、ロボットの動作コントローラ150Bのポリシー151Bを更新することとを実行する。
たとえば、測定データは、マニピュレータアームの関節の角度位置、ロボットのエンドエフェクタの姿勢、またはマニピュレータアームによって操作されるオブジェクトの姿勢で構成することができる。システムの力学は、ロボットの個々の関節にトルクを加えることによって得られる関節の角度位置の変化の関係によって定義することができる。また、マニピュレータによるオブジェクトへの力の印加によるオブジェクトの姿勢の変化の関係によって定義することもできる。システムの状態は、ロボットによって操作されているオブジェクトを付加することができる関節角度位置と速度とによって表すことができる。システムの状態は、エンコーダを使用して、またはロボットの環境内のオブジェクトを追跡するように設計可能な視覚システム(カメラ、深度カメラ、レンジスキャナなど)を使用して、測定することができる。制御入力のセットは、関節またはエンドエフェクタの位置を動かすために個々の関節でモータによって加えられるトルクである。終端コントローラのアトラクタベイスンは、終端コントローラによって調整可能な終端状態近傍のシステム状態のセットによって定義することができる。オブジェクトを操作するロボットマニピュレータの場合、終端状態はオブジェクトの所望の姿勢である。終端コントローラは、オブジェクトの状態が所望の状態に収束することを保証する古典的な制御方法を用いて計算することができる。終端コントローラのアトラクタベイスンは、終端コントローラが収束を保証できる終端状態近傍の状態のセットである。
図11は、本開示のいくつかの実施形態に係る、初期状態から所望の軌道を追跡するマニピュレータを示す、ロボットシステム1100の例を示す図である。図12Aおよび図12Bは、本発明のいくつかの実施形態に係る、1つのワーク1210および異なるワーク1220を操作するロボットシステム1100のマニピュレータを示す図である。提案されたコントローラ50は、追加の未知の負荷1101を有するロボットシステム1100のマニピュレータアームの動きを制御するように構成されている。マニピュレータコントローラ50は、所望の軌道1120に従うように荷重を制御するために、センサのセンサフィードバックに基づいて制御コマンドを送信する。しかしながら、設計された軌道1120と比較した場合、未知の負荷に起因して、観測された軌道1130には若干の誤差がある。この問題は、ロボットが異なる未知のオブジェクト1210および1220を正確に移動できるように、マニピュレータコントローラ50においてTCPPOコントローラを使用することによって解決される。

Claims (10)

  1. システムの力学を学習することによって、前記システムを制御するポリシーを生成するためのコントローラであって、前記コントローラは、
    前記システム上に配置されたセンサからシステム状態を取得するインターフェイスコントローラと、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにステップを実行させるモデル学習モジュールおよびポリシー学習モジュールを含むコンピュータ実装命令を格納するメモリとを備え、前記ステップは、
    前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、前記メモリに提供するステップと、
    前記システムの前記力学の既知の部分を表す公称ポリシーと前記公称ポリシーに追加されたノイズ項とに基づいて、現在の前記システム状態を使用して、次の時刻における前記システム状態を算出するステップと、
    前記システムのデータを収集することによって、前記システム状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、前記システム状態の集合と、適用される制御入力と、前記システム状態の変化とを含み、適用される前記制御入力の各々は、前記公称ポリシーと前記ノイズ項とによって計算され、前記ステップはさらに、
    記システムの収集された前記データを使用して、前記システムを初期状態から終端コントローラのアトラクタベイスンに進めるためのポリトピックポリシーを生成するために、前記非線形システムモデルを書き換えてポリトピックシステムにするためのポリトピック表現を学習するステップと、
    終端状態の近傍の前記システム状態をサンプリングし、教師あり学習により前記システムの前記終端コントローラの前記アトラクタベイスンを推定するステップと、
    前記システムを前記初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、前記ポリトピックポリシーを生成するステップとを含む、コントローラ。
  2. 前記システムを前記終端コントローラの前記アトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項1に記載のコントローラ。
  3. 前記コントローラはさらに、前記システムと前記システムの前記力学の前記既知のシステムモデルとの間の残差力学を学習する、請求項1に記載のコントローラ。
  4. 前記コントローラはさらに、前記システムと前記既知のシステムモデルとの間の所与の制御軌道についての状態軌道の差として、残差力学に関するデータを収集する、請求項1に記載のコントローラ。
  5. 前記コントローラはさらに、ベイズ最適化を使用する残差力学の確率的機械学習モデルを使用する、請求項1に記載のコントローラ。
  6. 前記コントローラはさらに、前記ポリトピックシステムと半正定値計画とを使用して、ロバストポリシー構築する、請求項1に記載のコントローラ。
  7. 前記システムの前記終端状態における前記終端コントローラは、前記システムを所望の終端状態に進めるために生成される、請求項1に記載のコントローラ。
  8. 前記コントローラはさらに、機械学習ベースの分類技術を使用して、前記終端コントローラの前記アトラクタベイスンを推定する、請求項1に記載のコントローラ。
  9. システムの力学を学習することによって、前記システムを制御するポリシーを生成するための、コンピュータに実装される方法であって、
    前記システム上に配置されたセンサからシステム状態を取得するステップと、
    前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、
    前記システムの前記力学の既知の部分を表す公称ポリシーと前記公称ポリシーに追加されたノイズ項とに基づいて、現在の前記システム状態を使用して、次の時刻における前記システム状態を算出するステップと、
    前記システムのデータを収集することによって、前記システム状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、前記システム状態の集合と、適用される制御入力と、前記システム状態の変化とを含み、前記制御入力の各々は、前記公称ポリシーと前記ノイズ項とによって計算され、前記方法はさらに、
    記システムの収集された前記データを使用して、前記システムを初期状態から終端コントローラのアトラクタベイスンに進めるためのポリトピックポリシーを生成するために、前記非線形システムモデルを書き換えてポリトピックシステムにするためのポリトピック表現を学習するステップと、
    終端状態の近傍の前記システム状態をサンプリングし、教師あり学習により前記システムの前記終端コントローラの前記アトラクタベイスンを推定するステップと、
    前記システムを前記初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、前記ポリトピックポリシーを生成するステップとを含む、方法。
  10. 前記システムを前記終端コントローラの前記アトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項に記載のコンピュータに実装される方法。
JP2024550931A 2021-12-10 2022-09-09 学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法 Active JP7749145B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/643,604 2021-12-10
US17/643,604 US12124230B2 (en) 2021-12-10 2021-12-10 System and method for polytopic policy optimization for robust feedback control during learning
PCT/JP2022/034658 WO2023105879A1 (en) 2021-12-10 2022-09-09 System and method for polytopic policy optimization for robust feedback control during learning

Publications (2)

Publication Number Publication Date
JP2024541746A JP2024541746A (ja) 2024-11-11
JP7749145B2 true JP7749145B2 (ja) 2025-10-03

Family

ID=83692648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024550931A Active JP7749145B2 (ja) 2021-12-10 2022-09-09 学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法

Country Status (5)

Country Link
US (1) US12124230B2 (ja)
EP (1) EP4302245A1 (ja)
JP (1) JP7749145B2 (ja)
CN (1) CN118355336A (ja)
WO (1) WO2023105879A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118348894B (zh) * 2024-06-06 2024-08-13 浙江吉利控股集团有限公司 多面体控制器的控制方法、多面体控制器、车机和车辆
CN119669952B (zh) * 2024-11-12 2025-10-24 北京科技大学 一种基于强化学习的Sim2Real模型构建方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013222388A (ja) 2012-04-18 2013-10-28 Nippon Telegr & Teleph Corp <Ntt> グラフ生成装置、方法、及びプログラム
US20160246277A1 (en) 2015-02-23 2016-08-25 Mitsubishi Electric Research Laboratories, Inc. Model Predictive Control with Uncertainties
US20210178600A1 (en) 2019-12-12 2021-06-17 Mitsubishi Electric Research Laboratories, Inc. System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning
JP2021152898A (ja) 2020-03-24 2021-09-30 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh ニューラルネットワークと、改善された安定性とを有するコントローラ

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5402334A (en) * 1992-05-11 1995-03-28 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for pseudoperiodic drive

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013222388A (ja) 2012-04-18 2013-10-28 Nippon Telegr & Teleph Corp <Ntt> グラフ生成装置、方法、及びプログラム
US20160246277A1 (en) 2015-02-23 2016-08-25 Mitsubishi Electric Research Laboratories, Inc. Model Predictive Control with Uncertainties
US20210178600A1 (en) 2019-12-12 2021-06-17 Mitsubishi Electric Research Laboratories, Inc. System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning
JP2021152898A (ja) 2020-03-24 2021-09-30 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh ニューラルネットワークと、改善された安定性とを有するコントローラ

Also Published As

Publication number Publication date
EP4302245A1 (en) 2024-01-10
US12124230B2 (en) 2024-10-22
US20230185254A1 (en) 2023-06-15
JP2024541746A (ja) 2024-11-11
WO2023105879A1 (en) 2023-06-15
CN118355336A (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
JP7367233B2 (ja) 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法
Mahler et al. Learning accurate kinematic control of cable-driven surgical robots using data cleaning and gaussian process regression
JP7301034B2 (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
KR102421676B1 (ko) 다관절 로봇의 액추에이터들을 제어하기 위한 시스템 및 방법
US11759947B2 (en) Method for controlling a robot device and robot device controller
US20240173854A1 (en) System and methods for pixel based model predictive control
JP7699660B2 (ja) 部分的に測定可能なシステムをモデル化および制御するための方法ならびにシステム
JP7749145B2 (ja) 学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法
CN114450131A (zh) 机器人系统的无导数模型学习系统及设计
CN112638596A (zh) 自主学习型机器人装置以及自主学习型机器人装置的动作生成方法
CN119115953A (zh) 一种基于深度强化学习的遥操作空间机械臂轨迹规划方法
US20220146997A1 (en) Device and method for training a control strategy with the aid of reinforcement learning
Widmann et al. Human motion prediction in human-robot handovers based on dynamic movement primitives
CN114137950A (zh) 对机器人设备进行社会感知模型预测控制的方法和设备
Medina et al. Risk-sensitive interaction control in uncertain manipulation tasks
JP7738779B2 (ja) 機会制約付き最適化を用いたロバストなロボット操作のためのシステムおよび方法
US20230095351A1 (en) Offline meta reinforcement learning for online adaptation for robotic control tasks
Schperberg et al. Real-to-sim: Predicting residual errors of robotic systems with sparse data using a learning-based unscented kalman filter
Alberto et al. Computed torque control with variable gains through Gaussian process regression
Gams et al. Learning of parametric coupling terms for robot-environment interaction
JP2025520219A (ja) デバイスの動作を制御するためのシステムおよび方法
Kasaei et al. SoftManiSim: A Fast Simulation Framework for Multi-Segment Continuum Manipulators Tailored for Robot Learning
Schperberg et al. Real-to-sim: Deep learning with auto-tuning to predict residual errors using sparse data
Baldauf et al. Iterative learning-based model predictive control for mobile robots in space applications
Laursen et al. Adapting parameterized motions using iterative learning and online collision detection

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250922

R150 Certificate of patent or registration of utility model

Ref document number: 7749145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150