JP7693110B2

JP7693110B2 - フィードバックコントローラを較正するためのシステム、方法、およびコンピュータ読取可能記憶媒体

Info

Publication number: JP7693110B2
Application number: JP2024524508A
Authority: JP
Inventors: メナー，マルセル; バーントープ，カール; ディ・カイラノ，ステファノ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-08-02
Filing date: 2022-05-19
Publication date: 2025-06-16
Anticipated expiration: 2042-05-19
Also published as: CN117716302A; EP4381353A1; JP2024524771A; US20230038215A1; US11977374B2

Description

本開示は、概して制御システムに関し、より具体的にはフィードバックコントローラを較正するためのシステム、方法、およびコンピュータ読取可能記憶媒体に関する。

現在、構造化されていない不確実な環境で動作することができるさまざまな動的マシンが存在する。実際、これらの動的マシンは、構造化されていない不確実な環境で動作するために、本質的にはより複雑である。動的マシンは、本質的に複雑であり、ますます構造化されていないまたは不確実な環境で動作するので、動的マシンの設計および較正プロセスを自動化する必要性が、より重要になる。特に、自動運転車両またはロボット等の多くの動的マシンの制御は、大抵は矛盾しているさまざまな仕様を含み、それ故に、手作業での較正の手間をかなり必要とする。さらに、較正は通常生産段階で行われ、動的マシンの動作条件はその寿命を通して変化するので、多くの場合、動的マシンに関連付けられたコントローラを後の段階で調整することは難しい。

コントローラの較正を自動化しコントローラを動的マシンの動作および動作条件に適合させることを可能にすることを目的とする、いくつかの現在利用可能な方法がある。しかしながら、これらの利用可能な方法は、人間の専門家から学習すること、またはトライアル・アンド・エラーサーチを通じた反復学習タスクに着目する。したがって、これらの利用可能な方法は、反復学習に適合する用途にしか適さない場合がある。例として、これらの利用可能な方法は、物体を操作するためのロボットにおいて使用することができる。しかしながら、これらの利用可能な方法は、自動運転等の本質的により連続的な制御用途において、コントローラの較正を提供しない。さらに、トライアル・アンド・エラーサーチは、多くの場合、安全を最重視するマシンには適合しない。また、人間のデモンストレータを置くという要件は、自動化の量を制限する。

したがって、効率的かつ実現可能なやり方でコントローラを自動的に較正することができるシステムが必要とされている。

いくつかの実施形態の目的は、リアルタイムでコントローラを反復的に較正し、較正されたコントローラを使用してマシンの動作を制御することである。マシンの例は、車両（たとえば自動運転車両）、ロボットアセンブリ、モータ、エレベータのドア、ＨＶＡＣ（暖房、換気、および空調（Heating, Ventilating, and Air-Conditioning））システムなどを含み得る。マシンの動作の例は、特定の軌道に従って車両を動作させること、特定のパラメータに従ってＨＶＡＣシステムを動作させること、特定のタスクに従ってロボットアームを動作させること、およびエレベータのドアを開閉することを含み得るが、これらに限定される訳ではない。コントローラの例は、ＰＩＤ（比例・積分・微分（Proportional Integral Derivative））コントローラ、最適コントローラ、ニューラルネットワークコントローラなどを含み得る。以下、「コントローラ」および「フィードバックコントローラ」は、同じ意味を持つものとして区別なく使用される場合がある。

フィードバックコントローラを較正するために、いくつかの実施形態はカルマンフィルタを使用する。しかしながら、カルマンフィルタは、一般的に、マシンの状態を定める状態変数を推定する際に使用され、マシンの状態は、位置、速度などのような物理量である可能性がある。このため、いくつかの実施形態の目的は、マシンの状態変数とは対照的な、マシンを制御するためのフィードバックコントローラの制御パラメータを推定するために、カルマンフィルタを変換または適合させることである。状態変数は制御されているマシンの状態を定めるが、制御パラメータは制御コマンドを計算するために使用される。制御パラメータの例は、ＰＩＤコントローラにおけるゲイン等の、フィードバックコントローラのゲイン、および／またはロボットアームの質量のような、マシンの物理的構造のパラメータ、または車両のタイヤと道路との間の摩擦である。特に、制御パラメータは、アクチュエータを制御するための電圧の値のような、フィードバックコントローラによって実行される制御法則または制御ポリシーへの入力と出力とを定める制御の変数と混同されてはならない。言い換えると、入力制御変数は、制御パラメータによって定められる制御法則に基づいて、出力制御変数にマッピングされる。マッピングは、分析的であってもよく、または最適化問題に対する解に基づいていてもよい。

多くの制御用途において、制御パラメータは、事前にわかっており、固定されている、すなわち制御中は一定のままである。たとえば、ロボットアームの質量は、測定することができ、またはロボットの仕様からわかっており、タイヤの摩擦は制限または選択することができ、コントローラのゲインは研究室で調整することができる。しかしながら、制御パラメータを事前に固定することは、いくつかの用途では最適でない可能性があり、むしろ不確実性を有する制御パラメータでマシンを制御する必要があるであろういくつかの他の用途では、非実用的となる可能性さえある。

いくつかの実施形態は、カルマンフィルタによって提供される状態変数を追跡する原理を、制御パラメータを追跡するために拡張または適合させることができる、という認識に基づいている。実際、制御はマシンではなくプロセスであるが、制御を、制御パラメータによって定められる仮想状態を有する仮想マシンのように扱い得ることが認識される。この直感的な知識によると、カルマンフィルタは、予測段階中にカルマンフィルタによって使用される予測モデルが、測定モデルに従ってマシンの状態の測定値を説明することができる制御パラメータを予測できる場合、制御パラメータを反復的に追跡することができる。

特に、予測モデルおよび測定モデルはカルマンフィルタの設計者によって提供されるので、この柔軟性は、異なる種類の制御目的に対してカルマンフィルタを適合させることを可能にする。たとえば、いくつかの実施形態において、予測モデルは、制御パラメータがプロセスノイズの分散内において変化しないであろうと予測する定数またはアイデンティモデルである。実際、そのような予測は、固定された制御パラメータを用いる多くの制御用途に共通する。それに加えてまたはその代わりに、いくつかの実施形態は、少なくともいくつかのパラメータを、他のパラメータとの予め定められた関係に基づいて予測することができる、予測モデルを定める。たとえば、いくつかの実施形態は、車両の現在の速度に基づいてタイヤ摩擦の変化を予測することができる。カルマンフィルタのこの構成において、プロセスノイズは、制御パラメータが時間とともにどれだけ速く変化するかを制御する。

いずれにせよ、そのような予測モデルは、制御パラメータを追跡するための主な労力を測定モデルに向け、制御目的に基づいて測定モデルの更新を変化させるための柔軟性を追加する。特に、そのような柔軟性は、異なるマシンを制御するために測定モデルを変化させることを可能にするが、同じマシンの制御中の異なる時点または異なる状態において測定モデルを変化させることも可能にする。

そのため、さまざまな実施形態において、測定モデルは、閉ループマシンの動作を制御する性能をオンラインで評価する性能目標を使用し、次にこれを使用して、性能目標に関して測定された閉ループマシンの動作を改善するように制御パラメータを適合させる。特に、性能目標は、非常に柔軟な構造を有し、最適コントローラの目的とは異なり得る。このことは、最適な制御コスト関数がそのリアルタイム用途に起因して制限される構造を有するので、有益であり、たとえば、コスト関数は、多くの場合、数値最適化に適するよう微分可能かつ凸状である必要がある。加えて、性能目標は、同一の最適な制御目的に従って制御の異なる時間において変化し得る。さらに、最適制御目的または他の制御パラメータは、異なる時点で、または同一の性能目標に従ってマシンの状態の関数として変化し得る。

このように、カルマンフィルタの利点は、制御パラメータの再帰的推定に拡大される。これらの利点は、カルマンフィルタが、（ｉ）マシン動作中にパラメータをオンラインで適合させること、（ｉｉ）フィルタベースの設計に起因するノイズに対してロバストであること、（ｉｉｉ）閉ループ動作の安全性の保証を維持すること、（ｉｖ）計算が効率的であること、（ｖ）再帰的な実現が原因でデータ記憶の低減を必要とすること、および（ｖｉ）実現が容易であることを含み、それゆえに、これを産業用途にとって魅力のあるものにする。

いくつかの実施形態は、多くの用途において、いくつかの制御パラメータは互いに依存しつつまとめて調整される必要がある、という認識に基づいている。たとえば、ＰＩＤコントローラのゲインは、所望の性能を得て安全な動作を保証するためにまとめて調整される必要があり、最適制御のためのコスト関数の重みは、それらが、複数の、場合によっては矛盾する目的との間のトレードオフを定めるので、まとめて調整される必要があり、Ｈ_∞コントローラまたは動的出力フィードバックコントローラに使用されるフィルタ係数は、性能および安定性要件を保証するためにまとめて調整される必要がある。

一般的に、相互依存パラメータを較正することは、この相互依存性が、考慮すべき別の変数を追加するので、より一層困難な問題である。それ故に、較正する複数の相互依存パラメータを持つことは、較正の複雑さを増す可能性がある。しかしながら、いくつかの実施形態は、較正された制御パラメータのそのような相互依存性は、異なるパラメータの更新に対して異なる重みをかけるカルマンゲインを調整することにより、統計的に自然に調整することができる、という認識に基づいている。

いくつかの実施形態は、フィードバックコントローラで使用される制御パラメータがマシンの状態に依存する、という認識に基づいている。いくつかの実施形態は、マシンの状態の関数である基底関数の線形結合を使用してこの状態依存に対処する。実際、カルマンフィルタは、基底関数の係数を調整するように実現することができ、これらはその後制御パラメータを生成するために使用される。それに加えてまたはその代わりに、いくつかの実施形態は、基底関数と組み合わせて状態依存領域を使用する。各領域において、制御パラメータは、基底関数の線形結合として計算される。カルマンフィルタは、各領域における基底関数の係数と、制御パラメータを計算するためにどの基底関数のセットが使用されるかを決定する領域との両方を調整することができる。

異なる実施形態において、制御されているマシンは、線形または非線形力学、および、異なる範囲を有する制御パラメータの異なる不確実性を有する。いくつかの実施形態は、カルマンフィルタの異なるタイプの実装形態および／またはプロセスおよび／または測定ノイズについての異なる分散を選択することにより、これらの差異に対処する。

たとえば、一実施形態は、カルマンゲインを計算するために拡張カルマンフィルタ（ＥＫＦ：extended Kalman filter）を使用する。ＥＫＦは、制御パラメータに対する性能目標の勾配を数値的に計算する。（ｉ）マシンの状態に対する性能目標の勾配、および（ｉｉ）制御パラメータに対する動的マシンの状態の勾配という、２つの勾配を使用して、勾配を計算するので、ＥＫＦは、性能目標がマシンの状態に対して区別可能である場合の問題に対して有用である。マシンの状態に対する性能目標の勾配は、設計者によって計算される。制御パラメータに対するマシンの状態の勾配は、フィードバックコントローラの構造およびマシンの力学を定めるモデルを使用して計算される。

それに加えてまたはその代わりに、一実施形態は、アンセンテッドカルマンフィルタ（ＵＫＦ：unscented Kalman filter）を使用してカルマンゲインを計算する。ＵＫＦは、性能目標の関数評価を用いて、制御パラメータに対する性能目標の勾配を推定する。この場合、ＵＫＦは、制御パラメータの実現であるシグマ点を計算することができる。そうすると、勾配は、制御パラメータの同時確率分布と組み合わせて、すべてのシグマ点に対する性能目標の評価を使用して推定される。ＵＫＦは、関数評価を使用して勾配を推定するので、微分可能および微分不可能な性能目標に対して有用である。

いくつかの実施形態は、フィードバックコントローラの制御パラメータのオンライン反復更新は、制御の品質を改善し得るものの、追加の課題を伴う、という理解に基づいている。たとえば、マシンの動作中の制御パラメータのオンライン更新は、制御の不連続性を導入する場合がある。しかしながら、いくつかの実施形態は、そのような不連続性は、マシンの動作に対する制約を満たすように制御コマンドを実施することによって対処することができる、という認識に基づいている。これらの制約は、確立された制御理論的特性を満たすように制御パラメータを確認することによって確立することができる。

それに加えてまたはその代わりに、いくつかの実施形態は、制御パラメータのオンライン更新がマシンの動作を不安定にする場合がある、という認識に基づいている。たとえば、制御法則または制御ポリシーが、制御パラメータによる微分方程式（ＯＤＥ）で表される場合、制御パラメータの変更によりＯＤＥの平衡の安定性が損なわれる場合がある。異なる実施形態のカルマンフィルタによって場合によっては導入されるこの新たな問題に対処するために、いくつかの実施形態は、安全確認、たとえばカルマンフィルタによって生成される制御パラメータの値を用いた制御ポリシーに対する安定性確認を実行する。さらに、制御ポリシーにおける制御パラメータは、安定性確認が満たされた場合にのみ更新されてもよい。

たとえば、安定確認は、更新された制御パラメータを伴う制御ポリシーのためのリアプノフ関数が存在する場合に満たされる。リアプノフ関数の存在は、多数のやり方で確認することができる。たとえば、いくつかの実施形態は、リアプノフ関数を発見することおよび／またはその存在を証明することを目的とした最適化問題を解く。それに加えてまたはその代わりに、一実施形態は、更新された制御パラメータが、状態および入力の履歴全体に対する性能目標に関して、状態のコストの減少をもたらすか否かを確認する。それに加えてまたはその代わりに、別の実施形態は、更新された制御パラメータが、その原点へのマシンの近接性を保存するか否かを確認する。原点への近接性は、更新されたパラメータを伴う制御ポリシーの予測区間の終点に関連付けられたコストが、たとえば、ターミナルコストを定める正の定値行列の最大固有値対最小固有値の比によって境界付けられるという認識により、保存される。

加えて、いくつかの実施形態は、カルマンフィルタによって生成された制御パラメータが安全確認を満たさない場合、フィードバックコントローラの制御パラメータをカルマンフィルタの出力で更新すべきではないが、カルマンフィルタ自体は再始動されるべきではなく、カルマンフィルタの制御パラメータがフィードバックコントローラの制御パラメータと異なっていても、新たに生成された制御パラメータを用いてその反復を継続すべきである、という認識に基づいている。後続の反復のうちのいくつかの反復の間にカルマンフィルタの制御パラメータが安全確認を満たす場合、カルマンフィルタの安全な制御パラメータはフィードバックコントローラの古い制御パラメータを更新する。このようにして、実施形態は、制御パラメータのオンライン更新の存在下での制御の安定性を保証する。

したがって、一実施形態は、タスクを実行するためにマシンの動作を制御するためのシステムを開示する。システムは、制御入力のシーケンスをマシンにサブミットし対応する測定値のシーケンスを含むフィードバック信号を受信するように構成されたトランシーバを備え、各測定値は、対応する制御入力によって引き起こされるマシンの状態を示す。システムはさらに、各制御ステップにおいて、制御ポリシーを適用することにより、マシンの現在の状態の現在の測定値を含むフィードバック信号に基づいてマシンを制御するための現在の制御入力を決定するように構成された、フィードバックコントローラを備え、フィードバックコントローラは、制御ポリシーを適用することにより、現在の測定値を、フィードバックコントローラの制御パラメータのセット内の制御パラメータの現在の値に基づいて、現在の制御入力に変換する。さらに、システムはカルマンフィルタを備え、カルマンフィルタは、プロセスノイズの影響を受ける制御パラメータの値を予測するための予測モデルと、測定ノイズの影響を受ける測定値のシーケンスに基づいて制御パラメータの予測された値を更新するための測定モデルとを用いて、制御パラメータによって定められるフィードバックコントローラの状態を反復的に更新することにより、性能目標に従って測定値のシーケンスを説明する制御パラメータの現在の値を生成するように構成される。

したがって、別の実施形態は、タスクを実行するためにマシンの動作を制御するための方法を開示する。この方法は、制御入力のシーケンスをマシンにサブミットするステップと、対応する測定値のシーケンスを含むフィードバック信号を受信するステップとを含み、各測定値は、対応する制御入力によって引き起こされるマシンの状態を示し、方法はさらに、各制御ステップにおいて、制御ポリシーを適用することにより、マシンの現在の状態の現在の測定値を含むフィードバック信号に基づいてマシンを制御するための現在の制御入力を決定するステップを含み、制御ポリシーを適用することにより、現在の測定値を、フィードバックコントローラの制御パラメータのセット内の制御パラメータの現在の値に基づいて、現在の制御入力に変換し、方法はさらに、プロセスノイズの影響を受ける制御パラメータの値を予測する予測モデルと、測定ノイズの影響を受ける測定値のシーケンスに基づいて制御パラメータの予測された値を更新する測定モデルとを用いて、制御パラメータによって定められるフィードバックコントローラの状態を反復的に更新することにより、性能目標に従って測定値のシーケンスを説明する制御パラメータの現在の値を生成するステップを含む。

したがって、さらにもう１つの実施形態は、タスクを実行するためにマシンの動作を制御する方法を実行するためにプロセッサが実行可能なプログラムが実装された、非一時的なコンピュータ読取可能記憶媒体を開示する。この方法は、制御入力のシーケンスをマシンにサブミットするステップと、対応する測定値のシーケンスを含むフィードバック信号を受信するステップとを含み、各測定値は、対応する制御入力によって引き起こされるマシンの状態を示し、方法はさらに、各制御ステップにおいて、制御ポリシーを適用することにより、マシンの現在の状態の現在の測定値を含むフィードバック信号に基づいてマシンを制御するための現在の制御入力を決定するステップを含み、制御ポリシーを適用することにより、現在の測定値を、フィードバックコントローラの制御パラメータのセット内の制御パラメータの現在の値に基づいて、現在の制御入力に変換し、方法はさらに、プロセスノイズの影響を受ける制御パラメータの値を予測する予測モデルと、測定ノイズの影響を受ける測定値のシーケンスに基づいて制御パラメータの予測された値を更新する測定モデルとを用いて、制御パラメータによって定められるフィードバックコントローラの状態を反復的に更新することにより、性能目標に従って測定値のシーケンスを説明する制御パラメータの現在の値を生成するステップを含む。

本開示のいくつかの実施形態に係る、カルマンフィルタの原理の概要を示す図である。本開示のいくつかの実施形態に係る、動的マシンの動作を制御するための制御システムのブロック図を示す。本開示のいくつかの実施形態に係る、制御パラメータを生成するためのカルマンフィルタを示す図である。本開示のいくつかの実施形態に係る、１つの特定の制御パラメータを表すガウス分布を示す図である。本開示のいくつかの実施形態に係る、異なる分散を伴うガウス分布を示す図である。本開示のいくつかの実施形態に係る、ある時間にわたるマシンの状態の発展を示す図である。本開示のいくつかの実施形態に係る、制御パラメータの予測値を更新するための概略図を示す。本開示のいくつかの実施形態に係る、複数の相互依存制御パラメータを較正するためのカルマンフィルタのブロック図を示す。本開示のいくつかの実施形態に係る、カルマンフィルタによって実行される方法を示す図である。本開示のいくつかの他の実施形態に係る、カルマンフィルタによって実行される方法を示す図である。本開示のいくつかの実施形態に係る、状態依存制御パラメータを較正するための方法を示す図である。本開示のいくつかの実施形態に係る、マシンの動作を制御するためのシステムのブロック図を示す。本開示のいくつかの実施形態に係る、安全確認モジュールによって実行される安全確認方法を示す図である。本開示のいくつかの他の実施形態に係る、マシンの状態の発展を示す図である。本開示のいくつかの実施形態に係る、カルマンフィルタによって使用される性能目標のリストを示す図である。本開示のいくつかの実施形態に係る、システム内で使用されるフィードバックコントローラのリストを示す図である。本開示のいくつかの実施形態に係る、マシンを制御するためのフィードバックコントローラを示すブロック図を示す。本開示のいくつかの実施形態に係る、電動機を制御するためのシステムの概略図を示す。本開示のいくつかの実施形態に係る、車両を制御するためのシステムの概略図を示す。

以下の記載では、説明のために、本開示が十分に理解されるよう多数の具体的な詳細事項を述べる。しかしながら、本開示はこれらの具体的な詳細事項なしで実施し得ることが当業者には明らかであろう。その他の場合では、本開示を不明瞭にするのを回避することだけのために装置および方法をブロック図の形式で示す。

本明細書および請求項で使用される、「たとえば（for example）」、「例として（for instance）」、および「～のような（such as）」という用語、ならびに「備える（comprising）」、「有する（having）」、「含む（including）」、およびこれらの動詞の他の形態は、１つ以上の構成要素またはその他のアイテムの列挙とともに使用される場合、その列挙がさらに他の構成要素またはアイテムを除外するとみなされてはならないことを意味する、オープンエンドと解釈されねばならない。「～に基づく」という用語は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される文体および術語は、具体的に限定と定義されていない限り、説明のためのものであって限定とみなされてはならないことが理解されるはずである。本明細書で使用されるいかなる見出しも、便宜的なものにすぎず、法的または限定効果を持つものではない。

図１は、本開示のいくつかの実施形態に係る、カルマンフィルタの原理の概要を示す。カルマンフィルタ１００は、統計的ノイズおよび他の不正確さを含む、ある期間にわたって観察された一連の測定値を使用して、未知変数の推定値を生成するプロセス（または方法）である。実際、未知変数のこれらの生成された推定値は、単一の測定値を使用して生成された未知変数の推定値よりも正確となり得る。カルマンフィルタ１００は、未知変数にわたる同時確率分布を推定することによって未知変数の推定値を生成する。

具体例としてのシナリオにおいて、カルマンフィルタ１００によって使用される一連の測定値は、動的マシンの状態変数に関連付けられる測定値１０２とすることができる。したがって、この具体例としてのシナリオにおいて、カルマンフィルタ１００は、動的マシンの状態推定１０４を生成する際に使用されてもよい。本明細書で使用される、状態変数は、動的マシンの「状態」を数学的に記述する変数であってもよい。動的マシンの状態は、動的マシンに影響を与えるいかなる外力もない場合のその将来の挙動（たとえば運動）を決定するのに十分に、動的マシンを記述する。例として、状態推定値１０４は、速度、位置、および／またはその他のような物理量の推定値とすることができる。実際、これらの状態推定値１０４は、ナビゲーションガイダンス、ならびに車両、特に航空機、宇宙船、および動的に位置決めされる船舶の制御等の用途において必要とされる。

カルマンフィルタ１００は、予測ステップと更新ステップとを含む２ステッププロセスである。予測ステップにおいて、カルマンフィルタ１００は、予測モデルを使用して、現在の状態を、プロセスノイズによって支配されるそれらの不確実性とともに予測する。例として、予測モデルは、現在の状態を予測しつつ、状態における不確実性を低減するためのプロセスノイズ（たとえば仮定１０８）の影響を予測モデルが受けるように、人為的に設計されてもよい。実際、予測された現在の状態は、現在の状態にわたる同時確率分布によって表されてもよい。いくつかの実施形態の例において、予測モデルは、動的マシンのモデル１０６を使用して現在の状態を予測してもよい。本明細書で使用される、動的マシンのモデル１０６は、動的マシンの状態を（ｉ）動的マシンの以前の状態および（ｉｉ）動的マシンへの制御入力に関連付ける数式であってもよい。モデル１０６の例は以下の通りである。

更新ステップにおいて、次の測定の結果（必然的にランダムノイズを含むある程度の誤差で損なわれる）が観察されると、予測された状態は、測定ノイズの影響を受ける測定モデルに従って更新される。測定ノイズは測定における誤差を制御することができる。また、測定ノイズは仮定１０８に含まれ得る。測定モデルは、測定モデルが予測を測定値と整合させることを目的とするように、設計されてもよい。たとえば、測定モデルは、重み付き平均を使用して現在の状態にわたる同時確率分布を更新してもよく、確実性がより高い推定値にはより多くの重みが与えられる。

カルマンフィルタ１００の出力は、ノイズ（たとえばプロセスノイズおよび測定ノイズ）についての仮定１０８および動的マシンのモデル１０６を考慮して状態の受信された測定値１０２の尤度を最大化する状態推定値１０４であってもよい。例として、ノイズについての仮定１０８は、状態および測定値の不正確さを低減することを目的とする数学的ノイズモデルを含み得る。カルマンフィルタ１００は、現在の測定値ならびに以前に計算された状態およびその不確実性行列のみを使用して、リアルタイムで実行することができる、再帰的プロセスであり、追加の過去の情報は不要である。

いくつかの実施形態は、動的マシンの状態を推定するためにカルマンフィルタ１００によって提供される原理を、仮想マシンの仮想状態を推定するために拡張または適合させることができる、という認識に基づいている。言い換えると、動的マシンの状態を推定するカルマンフィルタ１００を、仮想マシンの仮想状態を推定するカルマンフィルタ１１０に拡張することができる。特に、予測モデルおよび測定モデルはカルマンフィルタ１００の設計者によって提供されるので、この柔軟性は、カルマンフィルタ１００をカルマンフィルタ１１０に適合させるまたは拡張することを可能にする。

多くの制御用途において、コントローラの状態を定める制御パラメータは、事前にわかっている可能性があり、固定されている、すなわち動的マシンの制御中は一定のままである。制御パラメータの例は、ＰＩＤコントローラにおけるゲイン等の、コントローラのゲイン、および／またはロボットアームの質量のような、動的マシンの物理的構造のパラメータ、または、車両のタイヤと道路との間の摩擦を含む。たとえば、ロボットアームの質量は、測定することができ、またはロボットの仕様から知ることができ、タイヤの摩擦は制限または選択することができ、コントローラのゲインは研究室で調整することができる。しかしながら、制御パラメータを事前に固定することは、いくつかの用途では最適ではない可能性があり、むしろ不確実性を有する制御パラメータで動的マシンを制御する必要があるであろういくつかの他の用途では、非実用的となる可能性さえある。

そのため、いくつかの実施形態の目的は、コントローラの状態を定める制御パラメータ１１２を推定するカルマンフィルタ１１０に、カルマン１００を拡張するまたは適合させることである。これらの実施形態において、仮想状態は、制御パラメータによって定められる状態であり、仮想マシンはコントローラである。カルマンフィルタ１００をカルマンフィルタ１１０に拡張するために、予測ステップにおいて、プロセスノイズの影響を受ける予測モデルを、制御パラメータ１１２の遷移モデル１１６を使用して制御パラメータを予測するように適合させてもよい。カルマンフィルタ１１０におけるプロセスノイズは、状態における不正確さを制御するのではなく、制御パラメータがある時間にわたってどれだけ速く変化するかを制御することができる。このようにして仮定１１８を設計することができる。さらに、遷移モデル１１６は人為的に設計されてもよい。

更新ステップにおいて、測定ノイズの影響を受ける測定モデルを、性能目標１１４に基づいて動的マシンの制御における予測された制御パラメータの性能を評価するように、適合させてもよい。さらに、測定モデルを、評価に基づいて予測された制御パラメータを更新するように、適合させてもよい。特に、性能目標１１４は、非常に柔軟な構造を有し、コントローラの目標とは異なり得る。

それにより、カルマンフィルタ１１０は、性能目標１１４からの誤差の存在下で制御パラメータがどれだけ速く変化するかについての仮定１１８に基づいて、制御パラメータ１１２を推定することができる。実際、カルマンフィルタ１１０の出力は、（ｉ）仮定１１８および（ｉｉ）遷移モデル１１６を考慮して、受信した性能目標１１４の尤度を最大にする制御パラメータ推定値１１２である。例として、カルマンフィルタ１１０の原理を使用する制御システムは、図２Ａの詳細な説明でにおいて説明される通りである。

図２Ａは、本開示のいくつかの実施形態に係る、動的マシン２０２の動作を制御するための制御システム２００のブロック図を示す。いくつかの実施形態は、制御システム２００の目的が、工学プロセスにおいて動的マシン２０２を制御することである、という認識に基づいている。このため、制御システム２００は、動的マシン２０２に動作可能に結合することができる。以下、「制御システム」および「システム」は、同じ意味を持つものとして区別なく使用される場合がある。以下、「動的マシン」および「マシン」は、同じ意味を持つものとして区別なく使用される場合がある。マシン２０２の例は、車両（たとえば自動運転車両）、ロボットアセンブリ、モータ、エレベータのドア、ＨＶＡＣ（暖房、換気、および空調）システムなどを含み得る。たとえば、車両は、自動運転車、航空機、宇宙船、動的に位置決めされる船舶などの可能性がある。マシン２０２の動作の例は、特定の軌道に従って車両を動作させること、特定のパラメータに従ってＨＶＡＣシステムを動作させること、特定のタスクに従ってロボットアームを動作させること、およびエレベータドアを開閉することを含み得るが、これらに限定される訳ではない。

システム２００は、少なくとも１つのプロセッサ２０４と、トランシーバ２０６と、バス２０８とを含み得る。加えて、システム２００は、メモリを含み得る。メモリは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読出専用メモリ）、ハードディスク、またはそれらの任意の組み合わせ等の記憶媒体として実現されてもよい。例として、メモリは、少なくとも１つのプロセッサ２０４が実行可能な命令を格納することができる。少なくとも１つのプロセッサ２０４は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成として実現されてもよい。少なくとも１つのプロセッサ２０４は、バス２０８を介してメモリおよび／またはトランシーバ２０６に動作可能に接続されてもよい。ある実施形態に従うと、少なくとも１つのプロセッサ２０４は、フィードバックコントローラ２１０および／またはカルマンフィルタ２１２として構成されてもよい。したがって、フィードバックコントローラ２１０およびカルマンフィルタ２１２は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成内で実現されてもよい。代わりに、フィードバックコントローラ２１０は、システム２００の外部で実現されてもよく、システム２００と通信してもよい。この構成において、システム２００は、フィードバックコントローラ２１０に動作可能に結合されてもよく、フィードバックコントローラは、マシン２０２に結合されてもよい。たとえば、フィードバック制御部２１０は、ＰＩＤ（比例・積分・微分）コントローラ、最適コントローラ、ニューラルネットワークコントローラなどであってもよい。

ある実施形態に従うと、フィードバックコントローラ２１０は、マシン２０２を制御するための制御入力のシーケンスを決定するように構成されてもよい。たとえば、制御入力は、場合によっては、電圧、圧力、力、トルクなどのような物理量に関連付けられてもよい。実施形態の例において、フィードバックコントローラ２１０は、制御入力のシーケンスが、たとえば基準を追跡するという特定のタスクを実行するために、マシン２０２の状態を変化させるように、制御入力のシーケンスを決定してもよい。制御入力のシーケンスが決定されると、トランシーバ２０６は、制御入力のシーケンスを入力信号２１４としてサブミットするように、構成されてもよい。その結果、マシン２０２の状態は、特定のタスクを実行するために入力信号２１４に従って変更されてもよい。例として、トランシーバ２０６は、ＲＦ（無線周波数）トランシーバなどであってもよい。

さらに、マシン２０２の状態は、マシン２０２に設置された１つ以上のセンサを使用して測定することができる。１つ以上のセンサは、フィードバック信号２１６をトランシーバ２０６に送信することができる。トランシーバ２０６はフィードバック信号２１６を受信することができる。実施形態の例において、フィードバック信号２１６は、制御入力のシーケンスのそれぞれに対応する測定値のシーケンスを含み得る。例として、測定値のシーケンスは、制御入力のシーケンスに従いマシン２０２によって出力される状態の測定値であってもよい。したがって、測定値のシーケンス内の各測定値は、対応する制御入力によって引き起こされるマシン２０２の状態を示し得る。測定のシーケンス内の各測定値は、場合によっては、電流、流量、速度、位置および／またはその他等の物理量に関連付けられ得る。このようにして、システム２００は、制御入力のシーケンスを反復的にサブミットし、フィードバック信号を受信することができる。実施形態の例において、現在の反復における制御入力のシーケンスを決定するために、システム２００は、マシン２０２の現在の状態を示す測定値のシーケンスを含むフィードバック信号２１６を使用する。

現在の反復における制御入力のシーケンスを決定するために、フィードバックコントローラ２１０は、各制御ステップにおいて、マシンの現在の状態の現在の測定値を含むフィードバック信号２１６に基づいてマシン２０２を制御するための現在の制御入力を決定するように構成されてもよい。ある実施形態に従うと、現在の制御入力を決定するために、フィードバックコントローラ２１０は制御ポリシーを適用するように構成されてもよい。本明細書で使用される、制御ポリシーは、マシン２０２の状態のすべての状態または状態のサブセットを制御入力にマッピングする数式のセットであってもよい。このマッピングは、分析的であってもよく、または最適化問題に対する解に基づいていてもよい。制御ポリシーの適用に応じて、現在の状態の現在の測定値が、フィードバックコントローラ２１０の制御パラメータのセット内の制御パラメータの現在の値に基づいて、現在の制御入力に変換されてもよい。本明細書で使用される、制御パラメータは、（ｉ）フィードバックコントローラ２１０のゲインおよび／または（ｉｉ）マシン２０２の物理的構造のパラメータであってもよい。たとえば、フィードバックコントローラ２１０がＰＩＤコントローラに対応する場合、制御パラメータのセットは、ＰＩＤコントローラの、比例ゲイン、積分ゲイン、および微分ゲインを含む。たとえば、マシン２０２の物理的構造のパラメータは、ロボットアームの質量、または車両のタイヤと道路との摩擦を含み得る。特に、制御パラメータは、制御ポリシーの出力である制御入力と混同されてはならない。ある実施形態に従うと、制御パラメータの現在の値はカルマンフィルタ２１２によって生成されてもよい。例として、制御パラメータを生成するカルマンフィルタ２１２は、図２Ｂの詳細な説明において説明される通りである。

図２Ｂは、本開示のいくつかの実施形態に係る、制御パラメータを生成するためのカルマンフィルタ２１２を示す。図２Ｂは図２Ａとの関連で説明される。ある実施形態に従うと、カルマンフィルタ２１２は、フィードバックコントローラ２１０の状態を反復的に更新するように構成されてもよい。ある実施形態に従うと、フィードバックコントローラ２１０の状態は、制御パラメータによって定められる。このため、カルマンフィルタ２１２の目的は、制御パラメータを反復的に生成することである。実施形態の例において、カルマンフィルタ２１２は、予測モデル２１８と測定モデル２２０とを用いて制御パラメータを反復的に生成してもよい。例として、予測モデル２１８および測定モデル２２０は人為的に設計されてもよい。

現在の反復において（たとえば時間ステップｋにおいて）制御パラメータを生成するために、予測モデル２１８は、制御パラメータの事前知識２１８ａを使用して制御パラメータの値を予測するように構成されてもよい。例として、制御パラメータの事前知識２１８ａは、前の反復（たとえば時間ステップｋ－１において）で生成されてもよい。制御パラメータの事前知識２１８ａは、前の反復における制御パラメータにわたる同時確率分布（またはガウス分布）であってもよい。前の反復における制御パラメータにわたる同時確率分布は、前の反復において計算された、平均θ_{ｋ－１｜ｋ－１}、および分散（または共分散）Ｐ_{ｋ－１｜ｋ－１}によって定めることができる。例として、前の反復における同時確率分布は、過去の反復において（たとえば時間ステップｋ－２において）生成された同時確率分布および／またはフィードバックコントローラ２１０のモデル（たとえば遷移モデル１１６）に基づいて生成されてもよい。

ある実施形態に従うと、現在の反復において予測される制御パラメータの値は、同時確率分布２１８ｂ（またはガウス分布２１８ｂ）であってもよい。例として、予測モデル２１８の出力は、予測モデル２１８が複数の制御パラメータを予測するように構成されている場合、同時確率分布２１８ｂであってもよい。代わりに、予測モデル２１８の出力は、予測モデル２１８が単一の制御パラメータを予測するように構成されている場合、ガウス分布２１８ｂであってもよい。例として、同時確率分布２１８ａは、現在の反復において計算される、平均θ_{ｋ｜ｋ－１}、および分散（または共分散）Ｐ_{ｋ｜ｋ－１}によって定められてもよい。たとえば、単一の制御パラメータを予測しながら、予測モデル２１８によって出力されるガウス分布は、図２Ｃに示される通りである。

図２Ｃは、本開示のいくつかの実施形態に係る、１つの特定の制御パラメータを表すガウス分布２２４を示す。図２Ｃは図２Ｂとの関連で説明される。ガウス分布２２４は、予測モデル２１８によって予測されてもよい。例として、ガウス分布２２４はガウス分布２１８ｂに対応し得る。ガウス分布２２４は、平均２２８（たとえば平均θ_{ｋ｜ｋ－１}）および分散２２６（たとえば分散Ｐ_{ｋ｜ｋ－１}）によって定められてもよく、平均２２８はガウス分布２２４の中心位置を定め、分散２２６はガウス分布２２４の広がり（または幅）の測定値を定める。

再び図２Ｂを参照して、ある実施形態に従うと、予測モデル２１８はプロセスノイズの影響を受ける場合がある。本明細書で使用される、プロセスノイズは、制御パラメータが時間とともにどれだけ速く変化するかを定める仮定（たとえば仮定１１８）であってもよい。プロセスノイズは、プロセスノイズによって定められる分散内で制御パラメータが時間とともにどれだけ速く変化するかを制御することができる。プロセスノイズは人為的に設計されてもよい。たとえば、予測モデル２１８がプロセスノイズの影響を受ける場合、予測モデル２１８は、１つの特定の制御パラメータに対して複数のガウス分布を出力してもよく、複数のガウス分布は、プロセスノイズの分散内で定められる異なる分散を有し得る。例として、１つの特定の制御パラメータについて予測モデル２１８によって出力される複数のガウス分布は、図２Ｄに示される通りである。

図２Ｄは、本開示のいくつかの実施形態に係る、異なる分散を有するガウス分布２３０、２３２、および２３４を示す。図２Ｄは図２Ｂとの関連で説明される。ガウス分布２３０、２３２、および２３４は、予測モデル２１８によって予測されてもよい。これらのガウス分布２３０、２３２、および２３４の各々は、互いに異なる分散を有し得るが、ガウス分布２３０、２３２、および２３４の平均２３６は一定である可能性がある。（ｉ）小さな分散と、（ｉｉ）他のガウス分布の中で最も高い確率を有する平均２３６を有するガウス分布とは、制御パラメータの正しい予測となり得る。例として、ガウス分布２３０は制御パラメータの正しい予測を表すことができる。

再び図２Ｂを参照すると、このようにして、プロセスノイズの影響を受ける予測モデル２１８は、同時確率分布２１８ｂ（またはガウス分布２１８ｂ）として出力される制御パラメータの値を予測するように構成されてもよい。同時確率分布２１８ｂが現在の反復において予測モデル２１８によって出力されると、測定モデル２２０は、測定のシーケンス２２０ａに基づいて、制御パラメータの現在の値を生成するための制御パラメータの予測値を更新するように構成されてもよい。実施形態の例において、測定値のシーケンス２２０ａは、トランシーバ２０６が受信する測定値のシーケンスであってもよい。例として、測定モデル２２０によって使用される測定値のシーケンス２２０ａは、図２Ｅに示される通りである。

図２Ｅは、本開示のいくつかの実施形態に係る、マシン２０２の状態の経時的な発展２３８を示す。図２Ｅは図２Ａおよび図２Ｂとの関連で説明される。例として、マシン２０２の状態の発展２３８は、マシン２０２に設置された１つ以上のセンサから取得されてもよい。例として、現在時刻がｔ_０である場合、測定モデル２２０は、Ｎ個の状態測定値２４０を使用して、制御パラメータの予測値を更新してもよい。Ｎ個の状態測定値２４０は、測定値のシーケンス２２０ａに対応し得る。Ｎ個の状態測定値２４０は、過去の時間ｔ_－Ｎに関連付けられる測定値ｘ_ｔ－Ｎから始まり、現在時刻ｔ_０に関連付けられる測定値ｘ_ｔ０で終わる、測定値を含み得る。ここで、図２Ｅでは、１つの状態のみについてＮ個の状態測定値２４０を用いた測定モデル２２０について検討する。しかしながら、マシン２０２が２つ以上の状態に関連付けられる場合、測定モデル２２０は、同じ時間フレーム内のすべての状態のＮ個の測定値を使用してもよい。

再び図２Ｂを参照して、いくつかの実施形態は、１つ以上のセンサから得られた測定値のシーケンス２２０ａが、センサの欠陥、他のノイズ（たとえばランダムノイズ）などが原因で、正確ではないことがある、という認識に基づいている。このため、測定モデル２２０が測定ノイズの影響を受けるようにしてもよい。本明細書で使用される、測定ノイズは、センサの欠陥、他のノイズなどによって引き起こされる測定２２０ａの不正確さを低減するために使用できる、ノイズモデルである。例として、測定ノイズは人為的に設計することができる。

実施形態の例において、測定ノイズの影響を受ける測定モデル２２０は、測定値のシーケンス２２０ａに基づいて制御パラメータの予測値を更新するように構成されてもよい。予測値を更新するために、測定モデル２２０は、測定値のシーケンス２２０ａとマシン２０２のモデル（たとえば、モデル１０６）との間のモデル不整合を計算するように構成されてもよい。さらに、測定モデル２２０は、予測された制御値、マシン２０２のモデル、および計算されたモデル不整合を使用して、マシン２０２の発展（たとえば、状態の測定）をシミュレートするように構成されてもよい。たとえば、シミュレートされた発展（すなわち、状態の測定）は、測定のシーケンス２２０ａと同様であってもよい。さらに、測定モデル２２０は、性能目標２２０ｂに従って、マシン２０２のシミュレートされた発展を評価して、制御パラメータの現在値を生成するように構成されてもよい。制御パラメータの現在値は、測定のシーケンス２２０ａと同様である可能性があるシミュレートされた発展の評価に基づいて生成されるので、制御パラメータの現在値は、測定のシーケンス２２０ａを説明することができる。たとえば、制御パラメータの予測値を更新する測定モデル２２０を図２Ｆにグラフで示す。

図２Ｆは、本開示のいくつかの実施形態に係る、制御パラメータの予測値を更新するための概略図２４２を示す。図２Ｆは図２Ｂとの関連で説明される。概略図２４２は、予測されたガウス分布２４４と、制御パラメータ２４６（または制御パラメータの値）と、更新されたガウス分布２４８とを含む。例として、予測ガウス分布２４４は、平均θ_{ｋ｜ｋ－１}および分散Ｐ_{ｋ｜ｋ－１}によって定められるガウス分布２１８ｂであってもよい。例として、制御パラメータ２４６は、性能目標２２０ｂに関して特定の軌道を実現するためにマシン２０２を制御するのに使用することができる制御パラメータであってもよい。さらに、制御パラメータ２４６は、予測ガウス分布２４４に由来してもよく、その場合、測定値は、予測ガウス分布２４４とのゼロ確率に近い。このため、測定モデル２２０は、予測ガウス分布２４４が更新ガウス分布２４８に近づくように、予測ガウス分布２４４を更新してもよい。言い換えると、測定モデル２２０は、予測されたガウス分布２４４に関連付けられる平均および分散を、更新されたガウス分布２４８に対応する平均（たとえば平均θ_ｋ｜ｋ）および分散（たとえば分散Ｐ_ｋ｜ｋ）、更新されたガウスに対応する分散）に更新することができる。

再び図２Ｂを参照すると、このようにして、測定モデル２２０は、測定値のシーケンス２２０ａに基づいて制御パラメータの予測値を更新して、制御パラメータの現在値を性能目標２２０ｂに従って生成してもよい。実施形態の例において、性能目標２２０ｂは、制御入力を決定するために使用されるフィードバックコントローラ２１０の制御ポリシーとは異なり得る。このことは、制御ポリシーがそのリアルタイムの適用が原因で制限される構造を有するので、有益であり、たとえば、コスト関数は、多くの場合、コスト関数が数値最適化に適したものとなり得るように、微分可能かつ凸状である必要がある。しかしながら、性能目標２２０ｂは、同一の制御ポリシーに従って制御の異なる時間において変化する可能性がある。

ある実施形態に従うと、測定モデル２２０は、生成された制御パラメータの現在の値を、同時確率分布２２０ｄ（またはガウス分布２２０ｄ）として出力してもよく、これらは、量２２０ｃを、たとえば平均θ_ｋ｜ｋおよび分散Ｐ_ｋ｜ｋ－を定める。カルマンフィルタ２１２は、次の反復２２２において（たとえば時間ステップｋ＋１において）制御パラメータを生成するための手順を繰り返してもよい。

このようにして、カルマンフィルタ２１２は、フィードバックコントローラ２１０の状態を反復的に更新するために使用することができる制御パラメータを反復的に生成してもよい。フィードバックコントローラ２１０の更新された状態は、次に、マシン２０２の動作を制御するための制御入力を決定するために使用されてもよい。カルマンフィルタ２１２は、データ履歴全体を使用して制御パラメータを再計算するのではなく、制御パラメータの同時確率分布（たとえば事前知識２１８ａ）を使用して制御パラメータを反復的に生成するので、カルマンフィルタ２１２は、マシン２０２の動作を制御するための制御パラメータを効率的に生成することができる。さらに、システム２００はデータ履歴全体ではなく制御パラメータの事前知識のみを格納すればよいので、システム２００のメモリに格納すべきデータも減じることができる。したがってシステム２００のメモリ要件を減じることができる。

いくつかの実施形態は、制御パラメータのうちの１つ以上の制御パラメータが同じ制御パラメータのうちの別の（他の）制御パラメータに依存する場合、カルマンフィルタ２１２は制御パラメータをまとめて較正しなければならない、という認識に基づいている。たとえば、ＰＩＤコントローラにおいて、ＰＩＤコントローラのゲインは相互依存しているので、ゲインはまとめて較正されなければならない。

一般的に、これらの相互依存制御パラメータを較正することは、相互依存性が較正中に追加の変数を追加することがあるので、困難な場合がある。そのような状況において、カルマンフィルタ２１２は、図３の詳細な説明で述べるように構成されてもよい。

図３は、本開示のいくつかの実施形態に係る、複数の相互依存制御パラメータを較正するためのカルマンフィルタ２１２のブロック図を示す。図３は図２Ｂとの関連で説明される。ある実施形態に従うと、制御パラメータが複数の相互依存制御パラメータに対応するとき、カルマンフィルタ２１２は、制御パラメータを較正するためにカルマンゲイン３００を調整するように構成されてもよい。例として、制御パラメータに含まれる１つ以上の制御パラメータが、同じ制御パラメータのうちの他の制御パラメータに依存する場合、制御パラメータを、多重相互依存制御パラメータと呼ぶことができる。本明細書で使用される、「カルマンゲイン３００を調整する」ことは、制御パラメータに異なる重みをかけることを示し得る。多重相互依存制御パラメータを較正するために、カルマンフィルタ２１２は、カルマンゲイン３００を、他の制御パラメータに依存する１つ以上の制御パラメータに対して他の制御パラメータよりも多くの重みをかけるように、調整してもよい。さらに、カルマンフィルタ２１２は、較正された相互依存制御パラメータ３０２を出力するために、測定モデル２２０を使用して制御パラメータを同時に更新するように構成されてもよい。例として、カルマンフィルタ２１２は、図４Ａおよび／または図４Ｂの詳細な説明で述べるようにカルマンゲイン３００を計算することができる。

さらに、カルマンフィルタ２１２は、平均θ_ｋおよび分散Ｐ_ｋ｜ｋによって定められる更新された同時確率分布を、マシンを制御するための制御パラメータとして出力することができる。

図５は、本開示のいくつかの実施形態に係る、状態依存制御パラメータを較正するための方法５００を示す。図５は図２Ａおよび図２Ｂに関連して説明される。いくつかの実施形態は、フィードバックコントローラ２１２の制御パラメータのセットが、マシン２０２の状態に依存する少なくともいくつかの制御パラメータを含み得る、という認識に基づいている。たとえば、車両のタイヤの摩擦は車両の速度に依存し得る。以下、「マシンの状態に依存する少なくともいくつかの制御パラメータ」および「状態依存制御パラメータ」は、同じ意味を持つものとして区別なく使用される場合がある。制御パラメータのセットが状態依存制御パラメータを含む場合、これらの状態依存制御パラメータはマシンの状態に対して連続的に変化し得るので、制御パラメータの較正は困難になる可能性がある。これらの実施形態において、カルマンフィルタ２１２は、状態依存制御パラメータを較正するための方法５００を実行することができる。

ステップ５０４において、カルマンフィルタ２１２は、マシン２０２の状態との代数関係に基づいて、プロセスノイズによって定められる分散内の状態依存制御パラメータを予測することができる。例として、カルマンフィルタ２１２の予測モデル２１８は、マシン２０２の状態との代数関係に基づいてプロセスノイズによって定められる分散内の状態依存制御パラメータを予測モデル２１８が予測するように、設計（または記述）されてもよい。たとえば、状態依存制御パラメータの代数関係が、状態依存制御パラメータと基底関数との線形結合に対応するとき、予測モデル２１８は、基底関数が２つ以上の状態依存領域によって定められるか否かを確認するように構成されてもよい。基底関数が２つ以上の状態依存領域によって定められない場合、予測モデル２１８は基底関数の係数を予測するように構成されてもよい。

図６Ａは、本開示のいくつかの他の実施形態に係る、マシン２０２の動作を制御するためのシステム２００のブロック図を示す。図６Ａは図２Ａおよび図２Ｂとの関連で説明される。いくつかの実施形態は、制御パラメータのオンライン更新がマシン２０２の動作を不安定にする場合がある、という認識に基づいている。たとえば、制御法則または制御ポリシーが制御パラメータの微分方程式（たとえば常微分方程式（Ordinary differential equation）（ＯＤＥ））で表される場合、制御パラメータの変更（更新）によって微分方程式の平衡の安定性が損なわれる場合がある。このため、システム２００は安全確認モジュール６００をさらに含み得る。例として、安全確認モジュール６００は、少なくとも１つのプロセッサ２０４内で実現されてもよい。代わりに、安全確認モジュール６００は、少なくとも１つのプロセッサ２０４が実行することができる、メモリに格納されたソフトウェアモジュールであってもよい。ある実施形態に従うと、安全確認ジュール６００は、マシン２０２の安全な動作を保証するためにカルマンフィルタ２１２によって生成された制御パラメータの値を使用して安全確認方法を実行するように構成されてもよい。例として、安全確認モジュール６００によって実行される安全確認方法は、図６Ｂの詳細な説明において説明される通りである。

図６Ｂは、本開示のいくつかの実施形態に係る、安全確認モジュール６００によって実行される安全確認方法を示す。図６Ｂは図６Ａとの関連で説明される。ステップ６０２において、安全確認モジュール６００は、カルマンフィルタ２１２によって生成された制御パラメータの値（たとえば現在の値）を取得することができる。

ステップ６０４において、安全確認モジュール６００は、カルマンフィルタ２１２によって生成された制御パラメータの値が制御ポリシーに従って安全確認を満たすか否かを確認することができる。言い換えると、安全確認モジュール６００は、カルマンフィルタ２１２によって生成された制御パラメータで更新された制御ポリシーに従ってマシン２０２がフィードバックコントローラ２１０によって制御される場合、カルマンフィルタ２１２による制御パラメータの値がマシン２０２の安定した制御を提供するか否かを確認することができる。カルマンフィルタ２１２によって生成された制御パラメータが安全確認を満たすか否かを確認するために、安全確認モジュール６００は、前の状態、測定のシーケンス（たとえば測定のシーケンス２２０ａ）、および／またはマシン２０２のモデル（たとえばモデル１０６）を使用することができる。

たとえば、カルマンフィルタ２１２によって生成された制御パラメータで更新された制御ポリシーについてリアプノフ関数が存在する場合、安全確認は満たされる。いくつかの実施形態において、リアプノフ関数の存在は、リアプノフ関数を発見することを目的とした最適化問題を解くことによって証明することができる。一実施形態において、カルマンフィルタ２１２によって生成された制御パラメータで更新されたフィードバックコントローラ２１０を用いてマシン２０２を制御する間に、状態の履歴全体および測定値のシーケンスについての性能目標に関してマシン２０２の状態の減少するコストが実現される場合、安全確認は満たされる。別の実施形態において、カルマンフィルタ２１２によって生成された制御パラメータで更新されたフィードバックコントローラ２１０を用いてマシン２０２を制御している間に、原点へのマシン２０２の状態の近接性（または有界性）が実現される場合、安全確認は満たされる。さらにもう１つの実施形態において、マシン２０２の状態の減少するコストと、原点へのマシン２０２の状態の近接性との組み合わせが実現される場合、安全確認は満たされる。したがって、安全確認は、マシン２０２の状態の減少するコストおよびマシン２０２の状態の近接性のうちの、１つまたは組み合わせを含み得る。例として、安全確認を実行する安全確認モジュール６００は、図６Ｃの詳細な説明において説明される通りである。

再び図６Ｂを参照して、カルマンフィルタ２１２によって生成された制御パラメータの値が安全確認を満たさない場合、安全確認モジュール６００は、ステップ６０８において、フィードバックコントローラ２１０の制御パラメータを保持してもよい。言い換えると、安全確認が失敗した場合、安全確認モジュール６００は、フィードバックコントローラ２１０の制御パラメータを、カルマンフィルタ２１２によって生成された制御パラメータで更新しなくてもよい。さらに、カルマンフィルタ２１２は、安全確認が満たされるまで、制御パラメータの新たな値を反復的に生成するように構成されてもよい。特に、カルマンフィルタ２１２によって生成された制御パラメータが安全確認を満たさない場合であっても、カルマンフィルタ２１２は再始動されるべきではない。

カルマンフィルタ２１２によって生成された制御パラメータの値が安全確認を満たす場合、安全確認モジュール６００は、ステップ６０６において、フィードバックコントローラ２１０の制御パラメータを、カルマンフィルタ２１２によって生成された制御パラメータで更新することができる。このようにして、安全確認モジュール６００は、フィードバックコントローラ２１０の制御パラメータのオンライン更新中に、制御の安定性を保証することができる。

再び図６Ａを参照して、フィードバックコントローラ２１０の制御パラメータが更新されると、フィードバックコントローラ２１０は、カルマンフィルタ２１２によって生成された制御パラメータで更新された制御ポリシーを適用することにより、マシン２０２の動作を制御するための制御入力を決定するように構成されてもよい。

いくつかの実施形態は、フィードバックコントローラ２１０の制御パラメータのオンライン更新は、制御の品質を改善し得るものの、追加の課題を伴う、という理解に基づいている。たとえば、マシン２０２の動作中の制御パラメータのオンライン更新は、制御の不連続性を導入する場合がある。いくつかの実施形態は、制御の不連続性を処理して、マシン２０２の動作に対する制約を満たすように制御コマンドを実施することができる、という認識に基づいている。このために、フィードバックコントローラ２１０は、マシン２０２の動作に対する制約を満たす制御コマンドを使用して制御入力（たとえば現在の制御入力）を決定するように構成されてもよい。言い換えると、フィードバックコントローラ２１０は、マシン２０２の動作に対する制約の影響を受ける制御入力を決定することにより、制御の不連続性を処理するように構成されてもよい。例として、制御コマンドは、制御パラメータ（たとえば現在の制御パラメータ）が制御理論特性を満たすときに、マシン２０２の動作に対する制約を満たす。たとえば、制御理論特性は、設計者によって指定されてもよい。

それに加えてまたはその代わりに、性能目標２００ｂは、（状態または制御入力ではなく）特定の制御パラメータについてのコスト関数を含み得るものであり、たとえば、ｙ_ｋ＝θ_ｎｏｍ、ｈ（θ_ｋ）＝θ_ｋであり、θ_ｎｏｍは、いずれかまたはすべての制御パラメータの公称値を定める。

いくつかの実施形態において、測定モデル２２０は、マシンの状態およびマシンを取り囲む環境の状態のうちの１つまたは組み合わせに基づいて、性能目標のリストの中から１つを選択するように構成されてもよい。たとえば、マシンの状態および／またはマシンを制御するために使用される制御パラメータに応じて、測定モデル２２０は、性能目標のリストから、性能目標のリストの中の他のコスト関数と比較して制御の性能を著しく低下させるコスト関数を特定することができる。さらに、測定モデル２２０は、特定されたコスト関数を性能目標２２０ａとして選択することができる。例として、コスト関数７００が性能目標のリストの中の他のコスト関数と比較して制御の性能を著しく低下させる場合、測定モデル２２０はコスト関数７００を性能目標２００ａとして選択することができる。さらに、測定モデル２２０は、制御パラメータを生成しながらコスト関数７００を最適化（たとえば最小化）することによって制御パラメータを更新することができる。

いくつかの実施形態は、制御パラメータがマシンの状態に依存しない場合、制御パラメータの不確実性についての境界を予め決定することができる、という認識に基づいている。以下、「制御パラメータはマシンの状態に依存しない」および「状態非依存制御パラメータ」は、同じ意味を持つものとして区別なく使用される場合がある。これらの実施形態において、カルマンフィルタ２１２は、境界に基づいて、性能目標、測定ノイズ、またはプロセスノイズのうちの１つまたは組み合わせを選択することができる。さらに、いくつかの可能な状態依存制御パラメータおよび状態非依存制御パラメータは、図８Ａに示される通りである。

Ｈ_∞コントローラ８１２の場合、カルマンフィルタ２１２は、性能とロバストネスとの間のトレードオフを決定するために使用される、前置補償器および後置補償器のフィルタ係数を推定することができる。たとえば、Ｈ∞コントローラ８１２は図８Ｂに示される。

ここで、Ｈ_∞コントローラ８１２は、マシン２０２の周波数応答の最大の大きさを最小にすることによって計算されてもよい。

図９は、本開示のいくつかの実施形態に係る、電動機９００を制御するためのシステム２００の概略図を示す。この例において、システム２００のフィードバックコントローラは、電動機９００を制御するＰＩＤコントローラであってもよい。システム２００は、電動機９００に設置されたセンサ９０２から、位置または速度信号９０４（たとえばフィードバック信号２１６）を受信することができる。さらに、システム２００は、所望の位置または速度信号９０６（たとえば制御コマンド）を受信して、誤差信号９０８を計算することができる。さらに、システム２００は、比例ゲインｋ_Ｐ、積分ゲインｋ_I、および微分ゲインｋ_Ｄを較正することができる。さらに、システム２００は、誤差信号９０８を使用し、制御ポリシーを適用することにより、制御入力９１０を決定することができる。例として、制御ポリシーは、３つの成分の和、たとえば、誤差に較正された比例ゲインｋ_Ｐを乗算することによって得られる比例成分９１２ａと、誤差を積分し積分した誤差に較正された積分ゲインｋ_Ｉを乗算することによって得られる積分成分９１２ｂと、時間に対する誤差の微分を求めこの微分に較正された微分ゲインｋ_Ｄを乗算することによって得られる微分成分９１２ｃとの和であってもよい。さらに、システム２００は、電動機９００を制御するために、決定された制御入力９１０を電動機にサブミットすることができる。

図１０は、本開示のいくつかの実施形態に係る、車両１０００を制御するためのシステム２００の概略図を示す。この例において、システム２００は、車両１０００がレーン１００２の中央に留まるように車両１０００を制御することができる。システム２００は、センサ１００４から位置および／または速度信号を受信することができる。システム２００はさらに、制御ポリシーに関連付けられる１つ以上の制御パラメータを較正することができる。たとえば、制御パラメータは車両１０００のタイヤと道路との摩擦であってもよい。さらに、システム２００は、較正された１つ以上の制御パラメータで更新された制御ポリシーを適用することによって制御入力を決定することができる。例として、システム２００は、制御入力が車両１０００をレーン１００２の中央に留まらせるように、制御入力を決定することができる。たとえば、決定される制御入力は、レーン１００２の中央に収束する車両軌道１００８で車両１０００が進むようにするステアリング角度１００６であってもよい。

上記説明は、具体例としての実施形態のみを提供し、本開示の範囲、適用可能性、または構成を限定することは意図していない。むしろ、具体例としての実施形態の上記説明は、具体例としての１つ以上の実施形態を実現すること可能にする説明を当業者に提供する。意図されているのは、添付の請求項に記載されている、開示された主題の精神および範囲から逸脱することなく、要素の機能および構成に対して行われ得る各種変更である。

具体的な詳細事項が、上記説明において、実施形態の十分な理解を得るために提供されている。しかしながら、これらの具体的な詳細事項がなくても実施形態を実行し得ることを当業者は理解する。たとえば、開示されている主題におけるシステム、プロセス、および他の要素は、実施形態を不必要な詳細事項で不明瞭にしないようにするために、ブロック図の形態で構成要素として示される場合がある。他の例において、実施形態を不明瞭にしないようにするために、周知のプロセス、構造、および技術が、不必要な詳細事項なしで示される場合がある。さらに、各種図面における同様の参照番号および名称は同様の要素を示す。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明される場合がある。フローチャートは動作を逐次プロセスとして説明する場合があるが、動作の多くは並列にまたは同時に実行することができる。さらに、動作の順序は入れ替え可能である。プロセスは、その動作が完了したときに終了されてもよいが、論じられていないまたは図に含まれていない他のステップを有し得る。さらに、具体的に記載されている何らかのプロセスにおけるすべての動作がすべての実施形態に起こり得る訳ではない。プロセスは、方法、関数、プロシージャ、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数または主関数に当該関数を戻すことに対応し得る。

さらに、開示された主題の実施形態は、少なくとも部分的に、手作業または自動のいずれかで実現されてもよい。手作業または自動による実現は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせの使用を通して行われてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、マシン読取可能媒体に格納されてもよい。プロセッサが必要なタスクを実行してもよい。

本明細書で概要を述べた各種方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのうちのいずれか１つを採用した１つ以上のプロセッサ上で実行可能なソフトウェアとして符号化されてもよい。加えて、そのようなソフトウェアは、複数の好適なプログラミング言語および／またはプログラミングもしくはスクリプトツールのうちのいずれかを用いて記述されてもよく、また、フレームワークもしくは仮想マシン上で実行される、実行可能な機械言語コードまたは中間コードとしてコンパイルされてもよい。典型的に、プログラムモジュールの機能は、各種実施形態における要望に応じて組み合わせても分散させてもよい。

本開示の実施形態は、方法として実現されてもよく、その一例が提供されている。この方法の一部として実行される動作の順序は任意の適切なやり方で決定されてもよい。したがって、実施形態は、例示されている順序と異なる順序で動作が実行されるように構成されてもよく、これは、いくつかの動作を、例示されている実施形態では一連の動作として示されていても、同時に実行することを含み得る。本開示をいくつかの好ましい実施形態を参照しながら説明してきたが、その他のさまざまな適合化および修正を本開示の精神および範囲の中で行い得ることが理解されるはずである。したがって、本開示の真の精神および範囲に含まれるそのような変形および修正のすべてをカバーすることが添付の請求項の態様である。

Claims

タスクを実行するためにマシンの動作を制御するためのシステムであって、前記システムは、
制御入力のシーケンスを前記マシンにサブミットし対応する測定値のシーケンスを含むフィードバック信号を受信するように構成されたトランシーバを備え、各測定値は、対応する前記制御入力によって引き起こされる前記マシンの状態を示し、前記システムはさらに、
各制御ステップにおいて、制御ポリシーを適用することにより、前記マシンの現在の状態の現在の測定値を含む前記フィードバック信号に基づいて前記マシンを制御するための現在の制御入力を決定するように構成された、フィードバックコントローラを備え、前記フィードバックコントローラは、前記制御ポリシーを適用することにより、前記現在の測定値を、前記フィードバックコントローラの制御パラメータのセット内の制御パラメータの現在の値に基づいて、前記現在の制御入力に変換し、前記システムはさらに、
カルマンフィルタを備え、前記カルマンフィルタは、プロセスノイズの影響を受ける前記制御パラメータの値を予測するための予測モデルと、測定ノイズの影響を受ける前記測定値のシーケンスに基づいて前記制御パラメータの予測された値を更新するための測定モデルとを用いて、前記制御パラメータによって定められる前記フィードバックコントローラの状態を反復的に更新することにより、性能目標に従って前記測定値のシーケンスに関連付けられる前記制御パラメータの前記現在の値を生成するように構成され、
前記予測モデルは、前記制御パラメータの予測分散が前記プロセスノイズによって定められる分散が一定であるとして構成されたアイデンティティ行列である、システム。
前記カルマンフィルタはさらに、複数の相互依存制御パラメータを較正するためにカルマンゲインを調整するように構成される、請求項１に記載のシステム。
前記予測モデルは、前記マシンの状態との代数関係に基づいて前記プロセスノイズによって定められる分散内の少なくともいくつかの制御パラメータを予測するように構成される、請求項１に記載のシステム。
前記制御パラメータを更新するための前記性能目標は、前記フィードバックコントローラの前記制御ポリシーとは異なる、請求項１に記載のシステム。
前記性能目標は、前記マシンの基準状態からの前記マシンの状態の偏差を定めるコスト関数を含み、前記測定モデルは前記コスト関数を最適化することによって前記制御パラメータを更新するように構成される、請求項１に記載のシステム。
前記測定モデルはさらに、前記マシンの状態および前記マシンを取り囲む環境の状態のうちの１つまたは組み合わせに基づいて、異なる性能目標の中から１つを選択するように構成される、請求項１に記載のシステム。
前記性能目標は、（ｉ）基準状態からの前記状態の偏差を定めるコスト関数、（ｉｉ）最適動作領域を超える前記状態についてのコスト関数、（ｉｉｉ）基準状態が特定の値だけオーバーシュートされた場合のコスト関数、（ｉｖ）前記状態の振動についてのコスト関数、および（ｖ）前記状態が時間ステップ間で変化する場合のコスト関数、のうちの１つまたは組み合わせを含む、請求項１に記載のシステム。
前記制御パラメータは、（ｉ）前記フィードバックコントローラの１つまたは複数のゲイン、（ｉｉ）前記マシンの１つまたは複数の構造パラメータ、（ｉｉｉ）前記フィードバックコントローラによって使用される１つまたは複数のフィルタの１つまたは複数の係数、または（ｉｖ）ニューラルネットワークコントローラの１つまたは複数の重み、のうちの１つまたは組み合わせを含む、請求項１に記載のシステム。
前記制御パラメータを生成するために、前記カルマンフィルタは、１つまたは複数の状態依存領域における基底関数の係数を更新するように構成される、請求項１に記載のシステム。
前記制御パラメータを生成するために、前記カルマンフィルタは、複数の状態依存領域における基底関数の係数を、前記複数の状態依存領域を分離する境界とともに更新するように構成される、請求項１に記載のシステム。
前記カルマンフィルタは、前記性能目標の勾配を計算することによってカルマンゲインを計算するように構成された拡張カルマンフィルタ（ＥＫＦ）である、請求項１に記載のシステム。
前記カルマンフィルタは、前記性能目標に関して前記制御パラメータを評価することによってカルマンゲインを計算するように構成されたアンセンテッドカルマンフィルタ（ＵＫＦ）である、請求項１に記載のシステム。
前記制御パラメータのうちの少なくとも１つの不確実性の境界が予め決定されており、前記カルマンフィルタはさらに、前記不確実性の境界に基づいて、前記プロセスノイズ、前記測定ノイズ、または前記性能目標のうちの１つまたは組み合わせを選択するように構成される、請求項１に記載のシステム。
前記フィードバックコントローラは、前記マシンの動作に対する制約の影響を受ける前記現在の制御入力を決定しそれによって前記制御の不連続性を処理するように構成される、請求項１に記載のシステム。
安全確認モジュールをさらに備え、前記安全確認モジュールは、
前記カルマンフィルタによって生成された前記制御パラメータの値が前記制御ポリシーに従って安全確認を満たすか否かに関連付けられた確認を実行し、
前記安全確認が満たされた場合、前記カルマンフィルタによって生成された前記制御パラメータを用いて前記フィードバックコントローラの前記制御パラメータを更新するように、構成される、請求項１に記載のシステム。
前記カルマンフィルタによって生成された前記制御パラメータの値が前記安全確認を満たさない場合、前記カルマンフィルタはさらに、前記安全確認が満たされるまで前記制御パラメータの新たな値を反復的に生成するように構成される、請求項１５に記載のシステム。
前記安全確認は、原点への前記状態の有界性および前記状態の減少するコストのうちの１つまたは組み合わせを含む、請求項１５に記載のシステム。
タスクを実行するためにマシンの動作を制御するための方法であって、前記方法は、
制御入力のシーケンスを前記マシンにサブミットするステップと、
対応する測定値のシーケンスを含むフィードバック信号を受信するステップとを含み、各測定値は、対応する前記制御入力によって引き起こされる前記マシンの状態を示し、前記方法はさらに、
各制御ステップにおいて、制御ポリシーを適用することにより、前記マシンの現在の状態の現在の測定値を含む前記フィードバック信号に基づいて前記マシンを制御するための現在の制御入力を決定するステップを含み、前記制御ポリシーを適用することにより、前記現在の測定値を、フィードバックコントローラの制御パラメータのセット内の制御パラメータの現在の値に基づいて、前記現在の制御入力に変換し、前記方法はさらに、
プロセスノイズの影響を受ける前記制御パラメータの値を予測する予測モデルと、測定ノイズの影響を受ける前記測定値のシーケンスに基づいて前記制御パラメータの予測された値を更新する測定モデルとを用いて、前記制御パラメータによって定められる前記フィードバックコントローラの状態を反復的に更新することにより、性能目標に従って前記測定値のシーケンスを説明する前記制御パラメータの前記現在の値を生成するステップを含み、
前記予測モデルは、前記制御パラメータの予測分散が前記プロセスノイズによって定められる分散が一定であるとして構成されたアイデンティティ行列である、方法。
タスクを実行するためにマシンの動作を制御する方法を実行するためにプロセッサが実行可能なプログラムが実装された、非一時的なコンピュータ読取可能記憶媒体であって、前記方法は、
制御入力のシーケンスを前記マシンにサブミットするステップと、
対応する測定値のシーケンスを含むフィードバック信号を受信するステップとを含み、各測定値は、対応する前記制御入力によって引き起こされる前記マシンの状態を示し、前記方法はさらに、
各制御ステップにおいて、制御ポリシーを適用することにより、前記マシンの現在の状態の現在の測定値を含む前記フィードバック信号に基づいて前記マシンを制御するための現在の制御入力を決定するステップを含み、前記制御ポリシーを適用することにより、前記現在の測定値を、フィードバックコントローラの制御パラメータのセット内の制御パラメータの現在の値に基づいて、前記現在の制御入力に変換し、前記方法はさらに、
プロセスノイズの影響を受ける前記制御パラメータの値を予測する予測モデルと、測定ノイズの影響を受ける前記測定値のシーケンスに基づいて前記制御パラメータの予測された値を更新する測定モデルとを用いて、前記制御パラメータによって定められる前記フィードバックコントローラの状態を反復的に更新することにより、性能目標に従って前記測定値のシーケンスを説明する前記制御パラメータの前記現在の値を生成するステップを含み、
前記予測モデルは、前記制御パラメータの予測分散が前記プロセスノイズによって定められる分散が一定であるとして構成されたアイデンティティ行列である、非一時的なコンピュータ読取可能記憶媒体。