WO2025163857A1

WO2025163857A1 - 情報処理装置、情報処理方法、プログラム

Info

Publication number: WO2025163857A1
Application number: PCT/JP2024/003301
Authority: WO
Inventors: 大地平野; 凛高野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2025-08-07
Anticipated expiration: 2026-08-01

Abstract

本開示の情報処理装置（１００）は、制御入力に応じた制御対象の状態を出力する制御対象のダイナミクスを近似したダイナミクスモデルと、ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得する取得部（１２１）と、不確かさモデルを用いて制御対象に対する制御入力のサンプルを生成する生成部（１２２）と、ダイナミクスモデルを用いてサンプルから最適制御入力を計算する計算部（１２３）と、を備える。

Description

情報処理装置、情報処理方法、プログラム

　本開示は、情報処理装置、情報処理方法、プログラムに関する。

　ロボットなどの制御対象の最適制御を行う場合に、機械学習によって得られた制御対象の近似ダイナミクスモデルを用いる手法が提案されている。例えば、特許文献１には、ニューラルネットワークによって近似したダイナミクスモデルを用い、サンプリングベースの最適制御を行う技術が開示されている。

特開２０１８－１２４９８２号公報

　しかしながら、特許文献１において、学習したダイナミクスモデルは実際のダイナミクスモデルに対して誤差を持つことがありうるため、かかるダイナミクスモデルを用いて最適制御入力の計算を行った場合に、実行時の誤差が大きくなってしまうおそれがある。その結果、制御対象のダイナミクスモデルを用いた制御精度が低下するおそれがある、という問題が生じる。

　このため、本開示の目的は、上述した課題である、制御対象のダイナミクスモデルを用いた制御を行う場合において、制御精度が低下するおそれがある、という問題を解決することにある。

　本開示の一形態である情報処理装置は、
　制御入力に応じた制御対象の状態を出力する当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得する取得部と、
　前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成する生成部と、
　前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する計算部と、
を備えた、
という構成をとる。
　また、本開示の一形態である情報処理方法は、
　制御入力に応じた制御対象の状態を出力する当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得し、
　前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成し、
　前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する、
という構成をとる。
　また、本開示の一形態であるプログラムは、
　制御入力に応じた制御対象の状態を出力する当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得し、
　前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成し、
　前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する、
処理をコンピュータに実行させる、
という構成をとる。

　本開示は、以上のように構成されることにより、制御対象のダイナミクスモデルを用いた制御を行う場合における制御精度の向上を図ることができる。

本開示にかかる制御システムの全体構成を示すブロック図である。本開示にかかる学習装置のハードウェア構成を示すブロック図である。本開示にかかる制御装置のハードウェア構成を示すブロック図である。本開示にかかる学習装置の構成を示すブロック図である。本開示にかかる制御装置の構成を示すブロック図である。本開示にかかる制御装置による処理の様子を示す図である。本開示にかかる制御装置による処理の様子を示す図である。本開示にかかる学習装置の処理動作を示すフローチャートである。本開示にかかる制御装置の処理動作を示すフローチャートである。本開示にかかる情報処理装置のハードウェア構成を示すブロック図である。本開示にかかる情報処理装置の構成を示すブロック図である。

　＜第１の実施形態＞
　本開示の第１の実施形態について、図面を参照して説明する。なお、図面はいずれの実施形態においても関連しうる。

　［制御対象］
　本開示にかかる制御システムは、例えば、制御対象であるロボットアームを用いて操作対象となる物体を所望の位置に押すなどして移動する場合に用いることができる。この場合、制御対象は、ロボットアーム及び物体となる。そして、制御対象のロボットアームに対する制御入力は、例えば、ロボットアームの手先位置とすることができ、制御対象の状態は、例えば、ロボットアームの手先の位置・速度とすることができる。なお、制御対象の状態は、ロボットアームの手先によって操作される物体の位置・速度であってもよい。なお、本実施形態では、制御システムによる制御対象をロボットアームとして説明するが、制御対象はロボットアームであることに限定されず、いかなるものであってもよい。

　［システム構成］
　図１は、本実施形態に係る制御システムの構成の例を示す図である。図１に示すように、制御システム５は、学習装置１と、記憶装置２と、制御装置３と、制御対象４と、を備える。学習装置１は、通信網を介し、又は、無線若しくは有線による直接通信により、記憶装置２とデータ通信を行う。また、制御装置３は、記憶装置２及び制御対象４と、通信網を介し、又は、無線若しくは有線による直接通信により、データ通信を行う。

　制御対象４は、制御装置３から与えられる制御入力に基づき、制御目標に関する動作を行う。また、制御対象４は、制御対象４の状態を表す状態信号を制御装置３に供給する。ここで、制御対象４は、例えば、上述したように自律行動するロボットアームといった最適制御の対象となるロボットである。そして、制御対象の状態を表す状態信号は、例えば、ロボットの位置姿勢を検出する種々のセンサの出力信号である。本実施形態では、特に、制御対象４であるロボットアームの手先の位置を状態信号とすることとする。但し、制御対象４は、上述したロボットアームによって操作される物体を含んでいてもよく、この場合、状態信号としては、制御対象４によって操作される物体の位置・速度などの検出信号であってもよい。例えば、状態信号としては、ロボットアームに装備されたカメラによる物体の撮影画像から検出される物体の位置などの検出信号であってもよい。

　制御装置３は、制御対象４の現在の状態を入力として受け取り、制御目標に基づいて制御入力を計算し、計算した制御入力を制御対象４に対して出力する。ここで、制御入力の計算は、記憶装置２に記憶されている近似ダイナミクスモデル、および、不確かさのモデルを用いて、サンプリングベースの最適制御手法によって行われる。ここで、サンプリングベースの最適制御手法として、例えば、Ｍｏｄｅｌ　Ｐｒｅｄｉｃｔｉｖｅ　Ｐａｔｈ　Ｉｎｔｅｇｒａｌ制御や、Ｃｒｏｓｓ－Ｅｎｔｒｏｐｙ　Ｍｅｔｈｏｄに基づいた制御手法などを用いることができる。

　学習装置１は、制御対象４のダイナミクスモデルを、事前に与えられた学習用データから、例えば、ニューラルネットワークを用いた機械学習によって近似ダイナミクスモデルを学習する。また、学習装置１は、上述の学習した近似ダイナミクスモデルの不確かさモデルを学習する。そして、学習装置１は、学習したダイナミクスモデル、および、不確かさモデルを、記憶装置２に登録する。

　上述した近似ダイナミクスモデルは、制御対象の現在時刻の状態、および、制御入力、を入力として受け取り、次の時刻の制御対象の状態を出力する機械学習モデルである。また、学習データは、上述の近似ダイナミクスモデルを学習に用いるために、制御対象あるいは制御対象のシミュレータなどを用いて収集された、制御対象の状態と制御入力、及び、その後の制御対象の状態、のデータである。

　また、上述した不確かさモデルは、近似ダイナミクスモデルの誤差や、制御対象のダイナミクスの確率的な不確実性などを機械学習によって学習したものである。また、不確かさモデルは、例えば、ベイジアンニューラルネットワークモデル、アンサンブルモデルなどを用いて近似ダイナミクスと同一のモデルによって学習されてもよい。

　記憶装置２は、学習装置１が学習したダイナミクスモデル、および、不確かさモデルを記憶する。なお、記憶装置２は、学習装置１又は制御装置３に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、学習装置１及び制御装置３とデータ通信を行うサーバ装置などであってもよい。また、記憶装置２は、複数の記憶装置から構成され、上述した各記憶部を分散して保有してもよい。

　なお、図１に示す制御システム５の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、制御装置３と制御対象４とは、一体に構成されていてもよい。他の例では、学習装置１と記憶装置２と制御装置３のうち少なくともいずれか２つは一体に構成されていてもよい。

　［ハードウェア構成］
　次に、上述した学習装置１及び制御装置３のハードウェア構成の一例を説明する。図２は、学習装置１のハードウェア構成の例を示す図である。学習装置１は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インタフェース１３とを含む。プロセッサ１１、メモリ１２及びインタフェース１３は、データバス１０を介して接続されている。

　プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、学習装置１の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ１１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＴＰＵ（Ｔｅｎｓｏｒ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサである。プロセッサ１１が、複数のプロセッサから構成されていてもよい。プロセッサ１１は、コンピュータの例に該当する。

　メモリ１２は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ１２には、学習装置１が実行する処理を実行するためのプログラムが記憶される。なお、メモリ１２が記憶する情報の一部は、学習装置１と通信可能な１又は複数の外部記憶装置（例えば記憶装置２）により記憶されてもよく、学習装置１に対して着脱自在な記憶媒体により記憶されていてもよい。

　インタフェース１３は、学習装置１と他の装置とを電気的に接続するためのインタフェースである。これらのインタフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイヤレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。例えば、インタフェース１３は、タッチパネル、ボタン、キーボード、音声入力装置などのユーザの入力（外部入力）を受け付ける入力装置、ディスプレイ、プロジェクタ等の表示装置、スピーカなどの音出力装置等とのインタフェース動作を行ってもよい。

　なお、学習装置１のハードウェア構成は、図２に示す構成に限定されない。例えば、学習装置１が、表示装置、入力装置又は音出力装置の少なくともいずれかを内蔵してもよい。また、学習装置１が、記憶装置２を含んで構成されていてもよい。

　図３は、制御装置３のハードウェア構成の例を示す図である。制御装置３は、ハードウェアとして、プロセッサ３１と、メモリ３２と、インタフェース３３とを含む。プロセッサ３１、メモリ３２及びインタフェース３３は、データバス３０を介して接続されている。

　プロセッサ３１は、メモリ３２に記憶されているプログラムを実行することにより、制御装置３の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ３１は、例えば、ＣＰＵ、ＧＰＵ、ＴＰＵなどのプロセッサである。プロセッサ３１が、複数のプロセッサから構成されていてもよい。

　メモリ３２は、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ３２には、制御装置３が実行する処理を実行するためのプログラムが記憶される。なお、メモリ３２が記憶する情報の一部は、制御装置３と通信可能な１又は複数の外部記憶装置（例えば記憶装置２）により記憶されてもよく、制御装置３に対して着脱自在な記憶媒体により記憶されていてもよい。

　インタフェース３３は、制御装置３と他の装置とを電気的に接続するためのインタフェースである。これらのインタフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイヤレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。

　なお、制御装置３のハードウェア構成は、図３に示す構成に限定されない。例えば、制御装置３が、表示装置、入力装置又は音出力装置の少なくともいずれかを内蔵してもよい。また、制御装置３が、記憶装置２を含んで構成されていてもよい。

　［学習装置の構成］
　次に、上述した学習装置１の詳細な構成について説明する。図４は、近似ダイナミクスモデル・不確かさモデルの学習を行う学習装置１の構成の例を示す図である。学習装置１は、学習データの入力を受け、近似ダイナミクスモデル及び不確かさモデルの学習を行う機能を有する。そして、かかる機能を実現するための構成として、学習装置１は、ダイナミクスモデル学習部１４と、不確かさモデル学習部１５と、を備える。なお、ダイナミクスモデル学習部１４と、不確かさモデル学習部１５との機能は、装備されたプロセッサ１１がメモリ１２に記憶されたプログラムを実行することで実現される。

　本実施の形態では、学習データは、時刻tの制御対象４の状態をx_t、時刻tに制御対象に与えられた制御入力をu_tと表したとき、現在時刻tの状態x_tと制御入力u_t、および次時刻t+1の状態x_(t+1)の組の集合{x_t,u_t,x_(t+1)}によって与えられる。このデータは、状態と制御入力の系列x_{0:T} ,u_({0:T-1})によって与えられてもよい。ここで、x_({0:T})のように表記した場合、時刻0から時刻Tまでの状態xの系列を表すものとする。

　ダイナミクスモデル学習部１４は、上述したような学習データの入力を受け、以下の数１式に示されるような近似ダイナミクスモデルFを学習する。

　近似ダイナミクスモデルFを学習する際のモデルは、いろいろなモデルとすることができる。例えば、モデルとしてニューラルネットワークを用いるようにしてもよいが、これらに限定されない。

　不確かさモデル学習部１５は、学習データの入力を受け、ダイナミクスモデルの不確かさを表すモデルを学習する。本実施形態においては、不確かさモデルとして、生成モデルによって学習した学習データ{x_t,u_t}の確率分布p(x_t,u_t)、あるいはそれに類するものを用いる。学習データの分布を学習したダイナミクスモデルの不確かさモデルとして用いるのは、学習データの密度が高い領域において、学習したダイナミクスモデルの精度が高くなることが予想されるためである。

　ここで、学習データの確率分布の学習を行う際の生成モデルは、いろいろなモデルとすることができる。例えば、モデルとしてFlow-Basedモデル、Energy-Basedモデルを用いることができるが、これらに限定されない。

　上述したように学習装置１で学習されたダイナミクスモデル及び不確かさモデルは、記憶装置２に記憶される。但し、近似ダイナミクスモデルや不確かさモデルは、必ずしも学習装置１で学習されることに限定されず、予め記憶装置２に記憶されていてもよい。また、近似ダイナミクスモデルや不確かさモデルは、必ずしも学習により生成されることに限定されず、学習によらない方法で生成されてもよい。例えば、ダイナミクスモデルや不確かさモデルは、制御対象４であるロボットの設計データや動作解析データ、シミュレーションデータなどから生成されてもよく、いかなる方法で生成されてもよい。

　［制御装置の構成］
　次に、上述した制御装置３の詳細な構成について説明する。図５は、制御入力の計算を行う制御装置３の構成の例を示す図である。制御装置３は、制御対象４から与えられる現在状態、及び、記憶装置２から読み込んだ近似ダイナミクスモデル、不確かさモデルの情報を用いて、サンプリングベースの手法によって制御入力の計算を行う。このとき、上述したロボットアームを用いて物体を押す制御システムの例においては、制御入力は、ロボットアームの手先位置であり、制御入力列は、ロボットアームの手先位置の時系列、すなわち手先軌道となる。また、制御対象の状態は、ロボットアームの手先の位置・速度つまりロボットアームによって操作される物体の位置・速度となる。

　制御装置３は、図５に示すように、初期制御入力列生成部３４と、状態・制御入力列サンプル生成部３５と、評価コスト計算部３８と、制御入力列更新部３９と、を備える。また、状態・制御入力列サンプル生成部３５は、制御入力サンプル生成部３６と、状態遷移計算部３７と、を備える。制御装置３は、後述するように、各部３５～３８による処理を繰り返し行うことによって、制御入力列u_(0:T_h-1)の更新を行い、最適な制御入力列の計算を行う。なお、初期制御入力列生成部３４と、状態・制御入力列サンプル生成部３５と、制御入力サンプル生成部３６と、状態遷移計算部３７と、評価コスト計算部３８と、制御入力列更新部３９との機能は、装備されたプロセッサ３１がメモリ３２に記憶されたプログラムを実行することで実現される。

　初期制御入力列生成部３４は、制御入力列の最適化計算を行う際の初期解として、制御入力の時系列を出力する。これは例えば零ベクトルで与えられてもよいし、別途事前に学習あるいは設計された制御入力のポリシーを用いてもよい。

　状態・制御入力列サンプル生成部３５は、制御対象の状態と、現在の最適化ステップの制御入力列と、学習装置１によって学習された不確かさモデル及び近似ダイナミクスモデルとを用いて、異なる制御入力列サンプル、およびそれぞれの制御入力列サンプルから算出した状態列サンプルを計算する。サンプルは、制御入力サンプル生成部３６および状態遷移計算部３７による処理を、時系列の長さ分繰り返し実行することによって生成される。

　制御入力サンプル生成部３６では、ある時刻の状態と、ノミナル入力と、不確かさモデルと、を用いてサンプルの生成を行う。ここで、ある時刻の状態は、制御対象４から与えられる初期状態x_0、あるいは状態遷移計算部３７によって与えられる前時刻の状態、および入力サンプルから計算されて与えられる状態、のいずれかである。ノミナル入力は、初期制御入力列生成部３４から与えられる制御入力列の初期解、あるいは制御入力列更新部３９から与えられる最適化計算によって更新された制御入力列、のいずれかを意味するものとする。

　そして、制御入力サンプル生成部３６によるサンプルの生成は、例えば、図６に示すように、ノミナル入力を平均とした正規分布を尤度分布、不確かさモデルから得られる現在時刻の状態を条件とした制御入力の分布を事前分布、としてみなし、これらから得られる事後分布から、適切な回数のサンプリングを行うことによって行うことができる。例えば、事後分布は、尤度分布と事前分布とを合成したり結合することで得ることができる。

　より具体的には、例えば、まず、現在時刻の状態がx_t、現在時刻のノミナル入力がu_tで与えられ、不確かさモデルが学習データの確率分布p(x_t,u_t)によって与えられているとする。この場合、平均をノミナル入力u_t、分散を事前に与えられたパラメータΣとした下記数２式に示す正規分布を尤度分布とし、学習データの分布p(x_t,u_t)から得られる現在時刻の状態を条件とした制御入力の確率分布p(u_t|x_t)を事前分布としたときに、例えば、マルコフ連鎖モンテカルロ法によって事後分布からのサンプリングを行うことができる。

　また、サンプルの生成方法として、例えばN個のサンプルを生成するとき、図７に示すように、上記のノミナル入力を平均とした正規分布からM（>N）個のサンプルを取得し、不確かさモデルから得られる各サンプルの不確かさがより小さいものをN個選択し、残りのサンプルを棄却することもできる。

　状態遷移計算部３７は、制御入力サンプル生成部３６によって生成されたある時刻の入力サンプルu_t^k、および対応した時刻の状態サンプルx_t^kから、学習装置１によって学習された近似ダイナミクスを用いて次時刻の状態サンプルx_(t+1)^kを計算する。ここで、入力サンプルをN個生成するとき、k∈Nであるとする。入力サンプル、および次時刻の状態サンプルについては、サンプリング終了時まで保持する。さらに次時刻のサンプル生成が必要な場合、計算した次時刻の状態を制御入力サンプル生成部３６に出力する。時系列分のサンプル生成が終了した場合、保持していた入力・状態を、数３式に示すサンプル系列として評価コスト計算部３８に対して出力する。

　評価コスト計算部３８は、各状態列・制御入力列サンプルから、制御目標に基づいた評価コストS^kを算出する。また、計算した評価コストを、制御入力列サンプルとともに制御入力列更新部３９に出力する。

　制御入力列更新部３９は、ノミナル入力列と制御入力列サンプル、および各サンプルに対応した評価コストをもとに、更新したノミナル入力列を計算する。ここで、ノミナル入力列は、初期制御入力列生成部３４から与えられた系列、あるいは制御入力列更新部３９で前回更新したノミナル入力列のいずれかである。制御入力列更新部３９は、最適化終了の判定を行い、終了時には制御対象４に対して制御入力、あるいは制御入力の一部を出力する。最適化を継続する場合、制御入力列更新部３９は制御入力サンプル生成部３６に対して更新したノミナル入力列を出力する。最適化の終了判定は、例えば評価コストの収束判定、ノミナル入力列の更新回数に関する閾値、あるいはその両方などによって行うことができる。

　より具体的には、ノミナル入力列の更新は以下のように行われる。各サンプルのコストの最小値を数４式とし、各サンプルのノミナル入力列との差分を数５式としたとき、更新されたノミナル入力列u_(0:T_h-1)^newは、数６式のように与えられる。

　［動作］
　次に、上述した制御システムの動作、特に、学習装置１と制御装置３の動作の一例を説明する。図８は、本実施形態における学習装置１の動作を示すフローチャートである。

（ステップS101）学習装置１は、学習データの入力を受ける。
（ステップS102）ダイナミクスモデル学習部１４、および不確かさモデル学習部１５は、それぞれ近似ダイナミクスモデル、不確かさモデルの学習を行う。各モデルの学習は、並列処理を行ってもよいし、任意の順番で行ってもよい。
（ステップS103）学習装置１は、記憶装置２に対し、学習結果である近似ダイナミクスモデル、不確かさモデルの出力を行う。

　なお、近似ダイナミクスモデルや不確かさモデルは、必ずしも学習装置１で学習されることに限定されず、予め記憶装置２に記憶されていてもよい。また、近似ダイナミクスモデルや不確かさモデルは、必ずしも学習により生成されることに限定されず、学習によらない方法で生成されてもよい。

　次に、制御装置３の動作の一例を説明する。図９は、第一実施形態における制御装置３の動作を示すフローチャートである。

（ステップS301）まず、制御装置３は、制御対象４から現在の状態の入力を受ける。
（ステップS302）初期制御入力列生成部３４によって制御入力列の初期解を生成する。
（ステップS303）制御装置３は、状態列および制御入力列のサンプリング処理を行うループL31を開始する。ループL31では、ループの繰り返しによって時系列方向に関するサンプリングの計算を行うため、ループの繰り返し回数を時刻tによって表す。

（ステップS304）制御入力サンプル生成部３６によって、現在ステップtの状態サンプルx_t^k、およびノミナル入力u_t^から制御入力のサンプルu_t^kを計算する。初期ステップの場合、サンプルの生成は制御装置３から入力を受けた現在状態x_tをもとに、N個のサンプルが計算される。サンプルの生成は、ノミナル入力から得られた正規分布を事前分布、学習装置１によって学習された学習データ分布から得られる入力の条件付き分布を尤度分布とした際の事後分布から、マルコフ連鎖モンテカルロ法などによってサンプリングされる。

（ステップS305）状態遷移計算部３７によって、現在ステップtの状態サンプルx_t^k、および制御入力サンプルu_t^kから次のステップt+1の状態サンプルx_(t+1)^kを計算する。この計算は学習装置１によって学習された近似ダイナミクスモデルによって行われる。
（ステップS306）制御装置３は、ループL31の終端処理を行う。具体的には、制御装置３は繰り返し回数tを参照し、サンプリングの計算が終端時間まで終了したかを判定する。サンプリングの処理が終了していないと判定した場合、次の時刻に対して引き続きサンプリング処理を行う。この場合、処理がステップS304に戻る。一方、サンプリングの処理が終了したと判定した場合、制御装置３は、ループL31を終了する。この場合、処理がステップS307へ進む。

（ステップS307）評価コスト計算部３８は、生成されたN個のサンプル系列に対し、それぞれの評価コストを計算する。
（ステップS308）制御入力更新部３９は、各サンプルおよびそれぞれの評価コストをもとに、ノミナル入力列の更新を行う。
（ステップS309）制御装置３は、制御入力列の最適化の終了判定を行う。
（ステップS310）最適化が継続される場合（ステップS310：YES）、処理がステップS303へ進む。一方、最適化を終了する場合（ステップS310：NO）、処理がステップS311へ進む。
（ステップS311）制御装置３は、制御対象４に対し、最適化計算結果の制御入力列、あるいはその一部を出力する。

　以上のように、学習装置１において近似ダイナミクスモデルおよびその不確かさのモデルを学習することで、サンプリングベースの最適化手法を行う際に、ダイナミクスモデルの不確かさを考慮したサンプリングを行うことができる。その結果、学習したダイナミクスモデルについてより確からしい領域を用いて最適制御を行うことができ、制御実行時の精度の向上を図ることができる。また、不確かさモデルとして学習データの分布を扱うことで、上述したような事後分布を考えることが可能になり、分布からのサンプリングを行うことができる。

　［第２の実施形態］
　次に、本開示の第２の実施形態を説明する。本実施形態では、上述した実施形態１とは、不確かさモデルが異なる。本実施形態では、学習装置１が不確かさモデルを学習する際、ダイナミクスモデルの出力の分散に相当する量として得られるように、不確かさモデルの学習を行ってもよい。このとき、不確かさモデルは、ダイナミクスモデルの出力の分散が大きいほど、不確かさが大きいことを表すこととなる。具体的には、例えばアンサンブルモデルやベイジアンニューラルネットを用いたダイナミクスモデルの学習を行うことで、不確かさモデルを得ることができる。なお、第二実施形態における制御システム５や制御装置３の構成は、第一実施形態の場合と同様である。

　そして、第二実施形態において、制御入力サンプル生成部３６における制御入力のサンプリングは、例えばN個のサンプルを生成することを考えたとき、図７に示すような、前記のノミナル入力を平均とした正規分布からM（>N）個のサンプルを取得し、不確かさモデルから得られる各サンプルの不確かさがより小さいものをN個選択し、残りのサンプルを棄却する方法などで生成することができる。

　＜第３の実施形態＞
　次に、本開示の第３の実施形態を、図面を参照して説明する。本実施形態では、上述した実施形態で説明した制御装置３の構成の概略を示している。なお、図面はいずれの実施形態においても関連しうる。

　本実施形態における情報処理装置１００は、一般的な情報処理装置にて構成されており、一例として、以下のようなハードウェア構成を装備している。
　・ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１０１（演算装置）
　・ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１０２（記憶装置）
　・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１０３（記憶装置）
　・ＲＡＭ１０３にロードされるプログラム群１０４
　・プログラム群１０４を格納する記憶装置１０５
　・情報処理装置外部の記憶媒体１１０の読み書きを行うドライブ装置１０６
　・情報処理装置外部の通信ネットワーク１１１と接続する通信インタフェース１０７
　・データの入出力を行う入出力インタフェース１０８
　・各構成要素を接続するバス１０９

　なお、図１０は、情報処理装置１００である情報処理装置のハードウェア構成の一例を示しており、情報処理装置のハードウェア構成は上述した場合に限定されない。例えば、情報処理装置は、ドライブ装置１０６を有さないなど、上述した構成の一部から構成されてもよい。また、情報処理装置は、上述したＣＰＵの代わりに、ＧＰＵ（Ｇｒａｐｈｉｃ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＭＰＵ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＵ（Ｆｌｏａｔｉｎｇ　ｐｏｉｎｔ　ｎｕｍｂｅｒ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＰＰＵ（Ｐｈｙｓｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＴＰＵ（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。

　そして、情報処理装置１００は、プログラム群１０４をＣＰＵ１０１が取得して当該ＣＰＵ１０１が実行することで、図１１に示す取得部１２１と生成部１２２と計算部１２３とを構築して装備することができる。なお、プログラム群１０４は、例えば、予め記憶装置１０５やＲＯＭ１０２に格納されており、必要に応じてＣＰＵ１０１がＲＡＭ１０３にロードして実行する。また、プログラム群１０４は、通信ネットワーク１１１を介してＣＰＵ１０１に供給されてもよいし、予め記憶媒体１１０に格納されており、ドライブ装置１０６が該プログラムを読み出してＣＰＵ１０１に供給してもよい。但し、上述した取得部１２１と生成部１２２と計算部１２３とは、かかる手段を実現させるための専用の電子回路で構築されるものであってもよい。

　上記取得部１２１は、制御入力に応じた制御対象の状態を出力するよう学習された当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得する。上記生成部１２２は、前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成する。上記計算部１２３は、前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する。

　本開示は、以上のように構成されることにより、ダイナミクスモデルの不確かさを考慮した制御入力のサンプルを生成することができ、かかるサンプルからダイナミクスモデルを用いて最適制御入力を計算することができる。その結果、ダイナミクスモデルについてより確からしい領域を用いて最適制御を行うことができ、制御実行時の精度の向上を図ることができる。

　なお、上述した取得部１２１と生成部１２２と計算部１２３との機能のうちの少なくとも一以上の機能は、ネットワーク上のいかなる場所に設置され接続された情報処理装置で実行されてもよく、つまり、いわゆるクラウドコンピューティングで実行されてもよい。

　また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　以上、上記実施形態等を参照して本開示を説明したが、本開示は、上述した実施形態に限定されるものではない。本開示の構成や詳細には、本開示の範囲内で当業者が理解しうる様々な変更をすることができる。そして、上述した各実施形態は、適宜他の実施形態と組み合わせることができる。

　＜付記＞
　上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本開示における情報処理装置、情報処理方法、プログラムの構成の概略を説明する。但し、本開示は、以下の構成に限定されない。
（付記１）
　制御入力に応じた制御対象の状態を出力する当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得する取得部と、
　前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成する生成部と、
　前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する計算部と、
を備えた情報処理装置。
（付記２）
　付記１に記載の情報処理装置であって、
　前記取得部は、前記ダイナミクスモデルの学習に用いられた学習データに基づく前記不確かさモデルを取得する、
情報処理装置。
（付記３）
　付記２に記載の情報処理装置であって、
　前記取得部は、前記学習データの確率分布に基づく前記不確かさモデルを取得する、
情報処理装置。
（付記４）
　付記３に記載の情報処理装置であって、
　前記生成部は、予め設定された制御入力に基づく分布と前記学習データの確率分布とを用いて前記サンプルを生成する、
情報処理装置。
（付記５）
　付記３に記載の情報処理装置であって、
　前記生成部は、予め設定された制御入力を平均とした正規分布と前記学習データの確率分布とを用いて前記サンプルを生成する、
情報処理装置。
（付記６）
　付記５に記載の情報処理装置であって、
　前記生成部は、予め設定された制御入力を平均とした正規分布から制御入力の候補サンプルを生成し、当該候補サンプルから前記学習データの確率分布を用いて前記サンプルを生成する、
情報処理装置。
（付記７）
　付記６に記載の情報処理装置であって、
　前記生成部は、前記候補サンプルから、前記学習データの確率分布を用いて前記ダイナミクスモデルの不確かさがより小さい前記サンプルを生成する、
情報処理装置。
（付記８）
　付記１に記載の情報処理装置であって、
　前記取得部は、前記ダイナミクスモデルの出力の分散に基づく前記不確かさモデルを取得する、
情報処理装置。
（付記９）
　制御入力に応じた制御対象の状態を出力する当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得し、
　前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成し、
　前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する、
情報処理方法。
（付記１０）
　付記９に記載の情報処理方法であって、
　前記ダイナミクスモデルの学習に用いられた学習データに基づく前記不確かさモデルを取得する、
情報処理方法。
（付記１１）
　付記１０に記載の情報処理方法であって、
　前記学習データの確率分布に基づく前記不確かさモデルを取得する、
情報処理方法。
（付記１２）
　付記１１に記載の情報処理方法であって、
　予め設定された制御入力に基づく分布と前記学習データの確率分布とを用いて前記サンプルを生成する、
情報処理方法。
（付記１３）
　付記１２に記載の情報処理方法であって、
　予め設定された制御入力を平均とした正規分布と前記学習データの確率分布とを用いて前記サンプルを生成する、
情報処理方法。
（付記１４）
　付記１２に記載の情報処理方法であって、
　予め設定された制御入力を平均とした正規分布から制御入力の候補サンプルを生成し、当該候補サンプルから前記学習データの確率分布を用いて前記サンプルを生成する、
情報処理方法。
（付記１５）
　付記１４に記載の情報処理方法であって、
　前記候補サンプルから、前記学習データの確率分布を用いて前記ダイナミクスモデルの不確かさがより小さい前記サンプルを生成する、
情報処理方法。
（付記１６）
　付記９に記載の情報処理方法であって、
　前記ダイナミクスモデルの出力の分散に基づく前記不確かさモデルを取得する、
情報処理方法。
（付記１７）
　制御入力に応じた制御対象の状態を出力する当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得し、
　前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成し、
　前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する、
処理をコンピュータに実行させるプログラムを記憶したコンピュータにて読み取り可能な記憶媒体。

１　学習装置
１１　プロセッサ
１２　メモリ
１３　インタフェース
１４　ダイナミクスモデル学習部
１５　不確かさモデル学習部
２　記憶装置
３　制御装置
３１　プロセッサ
３２　メモリ
３３　インタフェース
３４　初期制御入力列生成部
３５　状態・制御入力列サンプル生成部
３６　制御入力サンプル生成部
３７　状態遷移計算部
３８　評価コスト計算部
３９　制御入力列更新部
４　制御対象
５　制御システム
１００　情報処理装置
１０１　ＣＰＵ
１０２　ＲＯＭ
１０３　ＲＡＭ
１０４　プログラム群
１０５　記憶装置
１０６　ドライブ装置
１０７　通信インタフェース
１０８　入出力インタフェース
１０９　バス
１１０　記憶媒体
１１１　通信ネットワーク
１２１　取得部
１２２　生成部
１２３　計算部

Claims

　制御入力に応じた制御対象の状態を出力する当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得する取得部と、
　前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成する生成部と、
　前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する計算部と、
を備えた情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記取得部は、前記ダイナミクスモデルの学習に用いられた学習データに基づく前記不確かさモデルを取得する、
情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記取得部は、前記学習データの確率分布に基づく前記不確かさモデルを取得する、
情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記生成部は、予め設定された制御入力に基づく分布と前記学習データの確率分布とを用いて前記サンプルを生成する、
情報処理装置。
　請求項３に記載の情報処理装置であって、
　前記生成部は、予め設定された制御入力を平均とした正規分布と前記学習データの確率分布とを用いて前記サンプルを生成する、
情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記生成部は、予め設定された制御入力を平均とした正規分布から制御入力の候補サンプルを生成し、当該候補サンプルから前記学習データの確率分布を用いて前記サンプルを生成する、
情報処理装置。
　請求項６に記載の情報処理装置であって、
　前記生成部は、前記候補サンプルから、前記学習データの確率分布を用いて前記ダイナミクスモデルの不確かさがより小さい前記サンプルを生成する、
情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記取得部は、前記ダイナミクスモデルの出力の分散に基づく前記不確かさモデルを取得する、
情報処理装置。
　制御入力に応じた制御対象の状態を出力する当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得し、
　前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成し、
　前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する、
情報処理方法。
　請求項９に記載の情報処理方法であって、
　前記ダイナミクスモデルの学習に用いられた学習データに基づく前記不確かさモデルを取得する、
情報処理方法。
　請求項１０に記載の情報処理方法であって、
　前記学習データの確率分布に基づく前記不確かさモデルを取得する、
情報処理方法。
　請求項１１に記載の情報処理方法であって、
　予め設定された制御入力に基づく分布と前記学習データの確率分布とを用いて前記サンプルを生成する、
情報処理方法。
　請求項１２に記載の情報処理方法であって、
　予め設定された制御入力を平均とした正規分布と前記学習データの確率分布とを用いて前記サンプルを生成する、
情報処理方法。
　請求項１２に記載の情報処理方法であって、
　予め設定された制御入力を平均とした正規分布から制御入力の候補サンプルを生成し、当該候補サンプルから前記学習データの確率分布を用いて前記サンプルを生成する、
情報処理方法。
　請求項１４に記載の情報処理方法であって、
　前記候補サンプルから、前記学習データの確率分布を用いて前記ダイナミクスモデルの不確かさがより小さい前記サンプルを生成する、
情報処理方法。
　請求項９に記載の情報処理方法であって、
　前記ダイナミクスモデルの出力の分散に基づく前記不確かさモデルを取得する、
情報処理方法。
　制御入力に応じた制御対象の状態を出力する当該制御対象のダイナミクスを近似したダイナミクスモデルと、前記ダイナミクスモデルの不確かさを表す不確かさモデルと、を取得し、
　前記不確かさモデルを用いて、前記制御対象に対する制御入力のサンプルを生成し、
　前記ダイナミクスモデルを用いて、前記サンプルから最適制御入力を計算する、
処理をコンピュータに実行させるプログラムを記憶したコンピュータにて読み取り可能な記憶媒体。