WO2022003824A1

WO2022003824A1 - 学習装置、学習方法および記録媒体

Info

Publication number: WO2022003824A1
Application number: PCT/JP2020/025663
Authority: WO
Inventors: 拓磨天田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2022-01-06
Anticipated expiration: 2022-12-30
Also published as: JP7548308B2; US20230252284A1; JPWO2022003824A1

Abstract

学習装置が、教師有り学習データに対するニューラルネットワークモデルの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルを求める不正解予測算出部と、２つの前記ニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数を含む目的関数の値をより小さくするように、前記ニューラルネットワークモデルの学習を行う更新部と、を含む。

Description

学習装置、学習方法および記録媒体

　本発明は学習装置、学習方法および記録媒体に関する。

　敵対的サンプル（Adversarial Example）に対する対策として、非特許文献１に記載の技術では、複数のモデルが同様に騙されることを防ぐために、複数のモデルが多様な分類結果を出力し易くなるように学習を行う。

Tianyu Pang、外４名、"Improving Adversarial Robustness via Promoting Ensemble Diversity"、arXiv:1901.08846、２０１９年、https://arxiv.org/abs/1901.08846

　複数のモデルが多様な分類結果を出力し易くなるように学習を行う際の計算量が少ないことが好ましい。
　例えば、上記の非特許文献１では、モデル（ニューラルネットワーク）の出力の多様性を得るために用いる関数の計算量のオーダーが、Ｏ（Ｌｍ^２＋ｍ^３）となる。このオーダーよりも小さいオーダーで、モデルの出力の多様性を得るために用いる関数の計算を行えることが好ましい。

　本発明の目的の一例は、上記の問題を解決することができる学習装置、学習方法および記録媒体を提供することである。

　本発明の第１の態様によれば、学習装置は、教師有り学習データに対するニューラルネットワークモデルの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルを求める不正解予測算出部と、２つの前記ニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数を含む目的関数の値をより小さくするように、前記ニューラルネットワークモデルの学習を行う更新部と、を含む。

　本発明の第２の態様によれば、学習方法は、教師有り学習データに対するニューラルネットワークモデルの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルを求めることと、２つの前記ニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数を含む目的関数の値をより小さくするように、前記ニューラルネットワークモデルの学習を行うことと、を含む。

　本発明の第３の態様によれば、記録媒体は、コンピュータに、教師有り学習データに対するニューラルネットワークモデルの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルを求めることと、２つの前記ニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数を含む目的関数の値をより小さくするように、前記ニューラルネットワークモデルの学習を行うことと、を実行させるためのプログラムを記録する記録媒体である。

　上記した学習装置、学習方法および記録媒体によれば、複数のモデルが多様な分類結果を出力し易くなるように学習を行う際の計算量が比較的少なくて済む。

実施形態にかかる学習装置の構成の一例を表す概略ブロック図である。実施形態にかかる多様性算出装置の構成の一例を表す概略ブロック図である。実施形態にかかる学習装置が行う処理の一例を表すフローチャートである。実施形態にかかる学習装置の構成のもう１つの例を示す概略ブロック図である。実施形態にかかる学習方法における処理手順の一例を示すフローチャートである。少なくとも１つの実施形態に係る情報処理装置の構成の一例を示す図である。

　以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

＜実施形態における構成の説明＞
　図１は実施形態にかかる学習装置の構成の一例を表す概略ブロック図である。
　図1に示す構成で、学習装置１０は、入出力部１１と、予測部１２と多重予測損失算出部１３と多様性算出装置１００と目的関数算出部１４と更新部１５とを含む。

　学習装置１０は、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの学習を行う。ここで、ｎは、学習装置１０による学習対象のニューラルネットワークモデルの個数を示す正の整数である。ニューラルネットワークモデルｆ_１、…、ｆ_ｎの組み合わせをニューラルネットワークモデル集合とも称する。

　学習装置１０は、ニューラルネットワークモデル集合としての出力に多様性を持たせるように、ニューラルネットワークモデルの学習を行う。これにより、ニューラルネットワークモデル集合が、敵対的サンプル（Adversarial Example）に対してロバスト（Robust）に構築されることが期待される。

　ここでいう敵対的サンプルは、人間が認識できない程度の微小なノイズが加えられたサンプル（クラス分類対象データ）である。例えば、敵対的サンプル画像の場合、肉眼では加工に気付かないか、あるいは気付くことが困難である。
　また、ここでいうロバストは、敵対的サンプルに対して間違いにくいこと、すなわち、敵対的サンプルの元のサンプルである正常サンプルに対する正解クラス以外のクラスへの分類が生じづらいことである。

　例えば、学習装置１０の学習によるニューラルネットワークモデル集合が分類結果のクラスを複数出力し、それら複数のクラスのうち正解クラスを出力するニューラルネットワークモデルが最も多い場合、ニューラルネットワークモデルの出力の多数決をとることで、正解を得られる。その際、ニューラルネットワークモデル集後の出力が多様になることで、ニューラルネットワークモデルｆ_１、…、ｆ_ｎが一様に騙される可能性を軽減できる。

　また、学習装置１０の学習によるニューラルネットワークモデル集合が分類結果のクラスを複数出力することで、仮に正解クラスを特定できない場合でも、入力データが敵対的サンプルである可能性があることを示すことができる。

　入出力部１１は、学習装置１０の外部との間でデータの入出力を行う。
　例えば、入出力部１１は、ニューラルネットワークモデルｆ_１、…、ｆ_ｎと、各ニューラルネットワークモデルのパラメータθ_１、…、θ_ｎの初期値と、訓練データＸと、正解ラベルＹと、ハイパーパラメータαおよびβの値との入力を受け付ける。

　ニューラルネットワークモデルｆ_ｉ（ｉは、１≦ｉ≦ｎの整数）が複数のパラメータを含んでいてもよく、パラメータθ_ｉが、複数のパラメータのベクトルとして構成されていてもよい。また、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの各々で構成およびパラメータの個数が異なっていてもよく、パラメータθ_１、…、θ_ｎの各々で要素数が異なっていてもよい。

　また、入出力部１１は、学習による更新済みのパラメータθ_１、…、θ_ｎの値を出力する。学習による更新済みのパラメータθ_１、…、θ_ｎの値を、パラメータ値θ’_１、…、θ’_ｎとも表記する。
　あるいは、学習装置１０が、パラメータ値θ’_１、…、θ’_ｎの出力に加えて、あるいは代えて、ニューラルネットワークモデルｆ_１、…、ｆ_ｎと、パラメータ値θ’_１、…、θ’_ｎとを用いて分類器として機能し、データの入力を受けてクラス分類結果を出力するようにしてもよい。

　入出力部１１がデータの入出力を行う方法は、特定の方法に限定されない。例えば、入出力部１１が、通信装置を含んで構成されるなど通信機能を有し、他の装置とデータの送受信を行うようにしてもよい。あるいは、入出力部１１が、キーボードおよびマウス等の入力デバイスを含んで構成され、データの受信に加えて、あるいは代えて、ユーザ操作によるデータの入力を受け付けるようにしてもよい。また、入出力部１１が、液晶パネルまたはＬＥＤ（Light Emitting Diode）パネル等の表示画面を含んで構成され、データの送信に加えて、あるいは代えて、データを表示するようにしてもよい。

　予測部１２はニューラルネットワークモデルｆ_１、…、ｆ_ｎと訓練データＸとに基づいて、各ニューラルネットワークモデルの予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）を算出し、出力する。
　ここでいう予測確率ベクトルは、ニューラルネットワークモデルの出力であり、各クラスの予測確率を示す。すなわち、ニューラルネットワークモデルｆ_ｉ（ｉは、１≦ｉ≦ｎの整数）は、データの入力に対して、クラス毎に、そのデータに紐付けられる分類対象がそのクラスに属する確率を出力する。予測部１２は、パラメータθ_ｉのもとでの訓練データＸの入力に対するニューラルネットワークモデルｆ_ｉの出力を算出し、予測確率ベクトルｆ_ｉ（Ｘ，θ_ｉ）として出力する。

　多重予測損失算出部１３は、予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）と正解ラベルＹとに基づいて、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの予測結果と正解ラベルとの誤差の大きさを示す指標値を算出し、出力する。ニューラルネットワークモデルｆ_１、…、ｆ_ｎの予測結果と正解ラベルとの誤差の大きさを示す指標値を計算する関数を、多重予測損失関数ＥＣＥと称する。多重予測損失関数ＥＣＥの値を多重予測損失と称する。

　例えば、ｆ_ｉの予測損失をｌ_ｉとし、多重予測損失関数ＥＣＥはｌ_ｉの平均値としてもよい。ｌ_ｉには交差エントロピーを用いるようにしてもよい。この場合、多重予測損失算出部１３は、式（１）で示される多重予測損失関数ＥＣＥを用いて多重予測損失を算出する。

　「１_Ｙ」は、Ｙ番目の要素が１で他の要素が０であるワンホットベクトル（One-Hot Vector）を示す。「－ｌｏｇ（１_Ｙｆ_ｉ（Ｘ，θ_ｉ））」は、ニューラルネットワークモデルｆ_ｉにおける交差エントロピーによる予測損失を示し、－ｌｏｇ（ｐ_ｉ（Ｙ））と表される。ここで、ｐ_ｉ（Ｙ）は、ニューラルネットワークモデルｆ_ｉが正解ラベルＹ（正解のクラス）について出力する予測確率である。
　ただし、多重予測損失関数ＥＣＥは式（１）に示すものに限定されない。ニューラルネットワークモデルの出力が正解に近いほど誤差が小さくなるいろいろな関数を、多重予測損失関数ＥＣＥとして用いることができる。
　学習装置１０が、多重予測損失関数ＥＣＥの値が小さくなるようにニューラルネットワークモデルｆ_１、…、ｆ_ｎの学習を行うことで、ニューラルネットワークモデルｆ_１、…、ｆ_ｎによるクラス分類の精度が高くなる。

　多様性算出装置１００は、予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）と、正解ラベルＹとに基づいて、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの出力の多様性の指標値を算出する。ニューラルネットワークモデルｆ_１、…、ｆ_ｎの出力の多様性の指標値を計算する関数を、多様性関数ＥＤと称する。多様性関数ＥＤとして、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの出力の多様性が大きいほど値が小さくなる関数を用いる。すなわち、同じ訓練データＸに対して、予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）のばらつきが大きいほど、多様性関数ＥＤの値が小さくなる。

　学習により多様性関数ＥＤの値を小さくすることで予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）を多様的にし、敵対的サンプルの入力に対してニューラルネットワークモデルｆ_１、…、ｆ_ｎがロバストになる効果がある。
　図１の例のように、多様性算出装置１００が学習装置１０の一部として構成されていてもよい。あるいは、多様性算出装置１００が学習装置１０とは別の装置として構成されていてもよい。

　目的関数算出部１４は多重予測損失算出部１３が算出する多重予測損失関数ＥＣＥの値と多様性算出装置１００からの出力であるＥＤとハイパーパラメータαおよびβの値に基づいて目的関数の値を算出する。目的関数は例えばｌｏｓｓ＝αＥＣＥ―βＥＤとすることができる。

　更新部１５は、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの学習を行う。具体的には、更新部１５は、目的関数算出部１４が算出する目的関数の値に基づいて、ニューラルネットワークの出力と正解ラベルとの差が小さくなるよう、且つニューラルネットワークモデル間の類似度が小さくなるように、ニューラルネットワークモデルのパラメータθ_１、…、θ_ｎの値を更新する。

　例えば、更新部１５が、目的関数のニューラルネットワークの各パラメータによる微分係数を用いて、勾配法に基づいて目的関数の値を小さくするパラメータθ_１、…、θ_ｎの値を算出するようにしてもよい。ただし、更新部１５が用いる学習方法は特定の方法に限定されない。更新部１５がニューラルネットワークモデルｆ_１、…、ｆ_ｎの学習を行う方法として、目的関数の値を小さくするいろいろな方法を用いることができる。

　図２は多様性算出装置１００の構成の一例を表す概略ブロック図である。図２に示す構成で、多様性算出装置１００は、不正解予測算出部１０１と、正規化部１０２と、角度算出部１０３とを含む。
　多様性算出装置１００は、予測部１２から予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）と、正解ラベルＹを入力として受け付ける。

　ここで、クラスに１からｎまでの番号が紐付けられており、この番号を用いてクラス１、…、クラスｎと称するものとする。また、予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）の各々では、ベクトルの要素として、クラス１の予測確率からクラスｎの予測確率までが順に並んでいるものとする。Ｙは、正解のクラスの番号を示すものする。
　ただし、クラスの識別方法、正解クラスの提示方法、および、予測確率ベクトルの構成は、特定のもの限定されない。

　不正解予測算出部１０１は、各ｆ_ｉ（Ｘ，θ_ｉ）の正解ラベルに対応する要素、すなわちＹ番目の要素を除いた不正解クラス予測確率ベクトルｆ_１ ^Ｙ（Ｘ，θ_１）、…、ｆ_ｎ ^Ｙ（Ｘ，θ_ｎ）を算出し出力する。
　正規化部１０２は不正解クラス予測確率ベクトルｆ_１ ^Ｙ（Ｘ，θ_１）、…、ｆ_ｎ ^Ｙ（Ｘ，θ_ｎ）を正規化し出力する。多様性算出装置１００が不正解クラス予測確率ベクトルｆ_１ ^Ｙ（Ｘ，θ_１）、…、ｆ_ｎ ^Ｙ（Ｘ，θ_ｎ）に基づいて多様性関数ＥＤの値（多様性の指標値）を算出する際に、ベクトルの大きさの影響を除外するためである。

　正規化部１０２が行う正規化として、ベクトルに対するいろいろな正規化を用いることができる。例えば、正規化部１０２がＬ２正規化を行うようにしてもよいが、これに限定されない。あるいは、多様性算出装置１００が正規化部１０２を備えていなくてもよい。すなわち、正規化部１０２による不正解クラス予測確率ベクトルｆ_１ ^Ｙ（Ｘ，θ_１）、…、ｆ_ｎ ^Ｙ（Ｘ，θ_ｎ）の正規化は必須ではない。
　正規化部１０２が不正解クラス予測確率ベクトルｆ_１ ^Ｙ（Ｘ，θ_１）、…、ｆ_ｎ ^Ｙ（Ｘ，θ_ｎ）をＬ２正規化する場合は、式（２）のように計算する。

　角度算出部１０３は多様性関数ＥＤの値を算出し出力する。例えば、正規化部１０２がＬ２正規化する場合、多様性関数ＥＤとして式（３）に示される関数を用いることができる。

　式（３）の「・」は、ベクトルの内積を示す。
　角度算出部１０３は、式（３）に基づいて、ニューラルネットワークモデルｆ_１、…、ｆ_ｎにおける２つの不正解クラス予測確率ベクトルの全ての組み合わせについての、不正解クラス予測確率ベクトルのコサイン類似度の総和を、多様性の指標値として算出する。不正解クラス予測確率ベクトルのばらつきが大きいほどコサイン類似度が小さくなり、多様性の指標値（多様性関数ＥＤの値）が小さくなる。
　あるいは、角度算出部１０３が、式（４）のように、正規化された不正解クラス予測確率ベクトルの内積の総和に代えて、内積の平均を算出するようにしてもよい。

　式（３）または式（４）の例のように、多様性関数ＥＤとして、２つのニューラルネットワークモデルｆ_ｉとｆ_ｊと（ｉ、ｊは、１≦ｉ＜ｊ≦ｎを満たす正の整数）の不正解クラス予測確率ベクトルｆ_ｉ ^Ｙ（Ｘ，θ_ｉ）とｆ_ｊ ^Ｙ（Ｘ，θ_ｊ）とのなす角度が大きいほど値が小さくなる関数を用いるようにしてもよい。

　また、式（３）、（４）は何れも、学習対象の全てのニューラルネットワークモデルｆ_１、…、ｆ_ｎのうちの２つのニューラルネットワークモデルｆ_ｉとｆ_ｊとの全ての組み合わせについて、不正解クラス予測確率ベクトルｆ_ｉ ^Ｙ（Ｘ，θ_ｉ）とｆ_ｊ ^Ｙ（Ｘ，θ_ｊ）とのなす角度の大きさの評価値の演算を含む多様性関数ＥＤの例に該当する。

　ただし、多様性関数ＥＤとして、学習対象の全てのニューラルネットワークモデルのうちの２つのニューラルネットワークモデルの一部の組み合わせのみについて、不正解クラス予測確率ベクトルのなす角度の大きさの評価値の演算を含む関数を用いるようにしてもよい。
　例えば、角度算出部１０３が、式（５）の例のように、識別番号で隣同士のニューラルネットワークモデルの不正解クラス予測確率ベクトルのなす角度の大きさの評価値の演算を含む多様性関数ＥＤの値を計算するようにしてもよい。

　多様性関数ＥＤに用いる、角度の大きさの評価値の演算はコサイン類似度に限定されず、角度が大きいほど値が小さくなるいろいろな関数とすることができる。

＜学習装置の動作の説明＞
　図３は、学習装置１０が行う処理の一例を表すフローチャートである。
　まず、入出力部１１は、ｎ個のニューラルネットワークモデルｆ_１、…、ｆ_ｎ、パラメータθ_１、…、θ_ｎの値、訓練データＸ、正解ラベルＹ、ハイパーパラメータαおよびβの値を取得する（ステップＳ１０）。

　次に、予測部１２は、各ニューラルネットワークモデルの予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）を算出する（ステップＳ２０）。
　次に、多重予測損失算出部１３は、予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）と正解との誤差を算出し、モデル間の平均値を算出することで、多重予測損失関数ＥＣＥの値を算出する（ステップＳ３１）。

　次に、多様性算出装置１００は、予測確率ベクトルｆ_１（Ｘ，θ_１）、…、ｆ_ｎ（Ｘ，θ_ｎ）と正解ラベルＹとに基づいて、不正解クラス予測確率ベクトルｆ_１ ^Ｙ（Ｘ，θ_１）、…、ｆ_ｎ ^Ｙ（Ｘ，θ_ｎ）を算出し、これらのベクトルがなす角度に基づくスコアを多様性の数値（多様性関数ＥＤ）として算出する（ステップＳ３２）。

　次に、目的関数算出部１４は多重予測損失関数ＥＣＥと、多様性関数ＥＤと、ハイパーパラメータαおよびβの値とに基づいて目的関数ｌｏｓｓを算出する（ステップＳ４）。
　最後に、更新部１５は目的関数ｌｏｓｓをネットワークパラメータθ_１、…、θ_ｎで微分したときの微分係数の値に従ってネットワークパラメータθ_１、…、θ_ｎを更新する（ステップＳ５）。すなわち、更新部１５は、更新後のネットワークパラメータθ’_１、…、θ’_ｎを算出する。

　ステップＳ４の後、学習装置１０は、図３の処理を終了する。
　学習装置１０は、図３の処理を繰り返し行う。例えば、学習装置１０が、図３の処理を所定回数繰り返すようにしてもよい。あるいは、学習装置１０が、目的関数の減少率の大きさが所定の大きさ以下に収束するまで繰り返すようにしてもよい。

　以上のように、不正解予測算出部１０１は、訓練データＸに対するニューラルネットワークモデルｆ_１、…、ｆ_ｎの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルｆ_１ ^Ｙ（Ｘ，θ_１）、…、ｆ_ｎ ^Ｙ（Ｘ，θ_ｎ）を求める。更新部１５は、２つのニューラルネットワークモデルの不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数ＥＤを含む目的関数ｌｏｓｓの値をより小さくするように、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの学習を行う。

　更新部１５が、目的関数ｌｏｓｓの値を小さくするように、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの学習を行うことで、目的関数ｌｏｓｓに含まれる損失関数の値が小さくなり、ニューラルネットワークモデルｆ_１、…、ｆ_ｎによる分類精度が高くなると期待される。

　また、更新部１５が、目的関数ｌｏｓｓの値を小さくするように、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの学習を行うことで、目的関数ｌｏｓｓに含まれる多様性関数の値が小さくなり、ニューラルネットワークモデルｆ_１、…、ｆ_ｎの出力（ニューラルネットワーク集合の出力）の多様性が得られると期待される。ニューラルネットワークモデルｆ_１、…、ｆ_ｎの出力が多様になることで、敵対的サンプルに対してロバストになることが期待される。

　かつ、更新部１５が、多様性関数として、２つのニューラルネットワークモデルの間において不正解クラス予測確率ベクトルがなす角度の評価値に基づく関数を用いる点で、学習における計算量が比較的少なくて済むと期待される。
　例えば、ニューラルネットワークモデルの個数をｍ個とし、出力ベクトルのクラスの個数（クラス数）をＬ個として、上記の非特許文献１では、ニューラルネットワークモデルの出力の多様性を得るために用いる関数の計算量がＯ（Ｌｍ^２＋ｍ^３）のオーダーとなるのに対し、学習装置１０によれば、Ｏ（Ｌｍ^２）で済む。

　また、多様性関数は、学習対象の全てのニューラルネットワークモデルｆ_１、…、ｆ_ｎのうちの２つのニューラルネットワークモデルの全ての組み合わせについて、クラス予測確率ベクトルのなす角度の大きさの評価値の演算を含む。
　これにより、学習装置１０では、ニューラルネットワークモデルの出力の多様性をより高精度に評価することができ、ニューラルネットワークモデルの出力の多様性を得やすいと期待される。

　また、多様性関数は、２つの不正解クラス予測確率ベクトルのなす角度の大きさの評価値の演算として、それら２つの不正解クラス予測確率ベクトルのコサイン類似度の演算を含む。
　これにより、学習装置１０では、２つの不正解クラス予測確率ベクトルのなす角度の大きさの評価の際に、２つの不正解クラス予測確率ベクトルそれぞれの大きさの影響を除外することができる。この点で、学習装置１０では、ニューラルネットワークモデルの出力の多様性をより高精度に評価することができ、ニューラルネットワークモデルの出力の多様性を得やすいと期待される。

　また、多様性関数は、２つのニューラルネットワークモデルの不正解クラス予測確率ベクトルのコサイン類似度の、学習対象の全てのニューラルネットワークモデルのうちの２つのニューラルネットワークモデルの全ての組み合わせについての平均を算出する演算を含む。
　このように、学習装置１０が、多様性関数の計算でコサイン類似度の平均を求めることで、多様性関数の値大きさがニューラルネットワークモデルの個数に応じて増減することを回避でき、目的関数における多様性関数の影響の度合いが変化することを回避できる。

　図５は、実施形態にかかる学習装置の構成のもう１つの例を示す概略ブロック図である。
　図５に示す構成で、学習装置５００は、不正解予測算出部と５０１と、更新部５０２とを備える。
　かかる構成で、不正解予測算出部５０１は、教師有り学習データに対するニューラルネットワークモデルの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルを求める。更新部５０２は、２つのニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数を含む目的関数の値をより小さくするように、ニューラルネットワークモデルの学習を行う。

　更新部５０２が、目的関数の値を小さくするように、ニューラルネットワークモデルの学習を行うことで、目的関数に含まれる多様性関数の値が小さくなり、ニューラルネットワークモデルの出力の多様性が得られると期待される。ニューラルネットワークモデルの出力が多様になることで、敵対的サンプルに対してロバストになることが期待される。

　かつ、更新部５０２が、多様性関数として、２つのニューラルネットワークモデルの間において不正解クラス予測確率ベクトルがなす角度の評価値に基づく関数を用いる点で、学習における計算量が比較的少なくて済むと期待される。
　例えば、ニューラルネットワークモデルの個数をｍ個とし、出力ベクトルのクラスの個数（クラス数）をＬ個として、上記の非特許文献１では、ニューラルネットワークモデルの出力の多様性を得るために用いる関数の計算量がＯ（Ｌｍ^２＋ｍ^３）のオーダーとなるのに対し、学習装置５００によれば、Ｏ（Ｌｍ^２）で済む。

　図６は実施形態にかかる学習方法における処理手順の一例を示すフローチャートである。図６に示す処理で、教師有り学習データに対するニューラルネットワークモデルの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルを求める（ステップＳ５０１）。そして、２つの前記ニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数を含む目的関数の値をより小さくするように、前記ニューラルネットワークモデルの学習を行う（ステップＳ５０２）。

　目的関数の値を小さくするように、ニューラルネットワークモデルの学習を行うことで、目的関数に含まれる多様性関数の値が小さくなり、ニューラルネットワークモデルの出力の多様性が得られると期待される。ニューラルネットワークモデルの出力が多様になることで、敵対的サンプルに対してロバストになることが期待される。

　かつ、多様性関数として、２つのニューラルネットワークモデルの間において不正解クラス予測確率ベクトルがなす角度の評価値に基づく関数を用いる点で、学習における計算量が比較的少なくて済むと期待される。
　例えば、ニューラルネットワークモデルの個数をｍ個とし、出力ベクトルのクラスの個数（クラス数）をＬ個として、上記の非特許文献１では、ニューラルネットワークモデルの出力の多様性を得るために用いる関数の計算量がＯ（Ｌｍ^２＋ｍ^３）のオーダーとなるのに対し、図６に示す処理によれば、Ｏ（Ｌｍ^２）で済む。

＜ハードウェアの構成について＞
　図７は、少なくとも１つの実施形態に係る情報処理装置３００の構成の一例を示す図である。図７に示す構成で、情報処理装置３００は、ＣＰＵ（Central Processing Unit）３０１と、ＲＯＭ（Read Only Memory）３０２と、ＲＡＭ（Random Access Memory）３０３と、ＲＡＭ３０３にロードされるプログラム群３０４と、プログラム群３０４を格納する記憶装置３０５と、情報処理装置３００外部の記録媒体３１０の読み書きを行うドライブ装置３０６と、情報処理装置３００外部の通信ネットワーク３１１と接続する通信インタフェース３０７と、データの入出力を行う入出力インタフェース３０８と、各構成要素を接続するパス３０９とを含む。

　上述した学習装置１０の一部又は全部、あるいは、学習装置５００の一部または全部を、例えば図７で示すような情報処理装置３００がプログラムを実行することで実現するようにしてもよい。その場合、上述した各処理部の機能を実現するプログラム群３０４をＣＰＵ３０１が取得して実行することで実現することができる。学習装置１０または学習装置５００が有する各部の機能を実現するプログラム群３０４は、例えば、予め記憶装置３０５やＲＯＭ３０２に格納されており、必要に応じてＣＰＵ３０１がＲＡＭ３０３にロードして実行する。なお、プログラム群３０４は通信ネットワーク３１１を介してＣＰＵ３０１に供給されてもよいし、予め、記録媒体３１０に格納されており、ドライブ装置３０６が該プログラムを読みだしてＣＰＵ３０１に供給してもよい。
　なお、図７は情報処理装置３００の構成の一例を示しており、情報処理装置３００の構成は上述した場合に例示されない。例えば、情報処理装置３００は、ドライブ装置３０６を有さないなど、上述した構成の一部から構成されても構わない。

　学習装置１０が情報処理装置３００に実装される場合、予測部１２、多重予測損失算出部１３、目的関数算出部１４、更新部１５、不正解予測算出部１０１、正規化部１０２、および、角度算出部１０３の動作は、プログラムの形式で例えば記憶装置３０５またはＲＯＭ３０２に記憶されている。ＣＰＵ３０１は、プログラムを記憶装置３０５またはＲＯＭ３０２から読み出してＲＡＭ３０３に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ３０１は、プログラムに従って、記憶領域をＲＡＭ３０３に確保する。入出力部１１が他の装置と通信を行う場合、通信インタフェース３０７がＣＰＵ３０１の制御に従って通信を実行する。入出力部１１がユーザ操作によるデータの入力など、データの入力を受け付ける場合、入出力インタフェース３０８が、データの入力の受付を実行する。例えば、入出力インタフェース３０８が、キーボードおよびマウスなどの入力デバイスを含んで構成され、ユーザ操作を受け付けるようにしてもよい。入出力部１１が、データを表示するなどデータを出力する場合、入出力インタフェース３０８が、データの出力を実行する。例えば、入出力インタフェース３０８が、液晶パネルまたはＬＥＤパネル等の表示画面を含んで構成され、データを表示するようにしてもよい。

　学習装置５００が情報処理装置３００に実装される場合、不正解予測算出部５０１および更新部５０２の動作は、プログラムの形式で例えば記憶装置３０５またはＲＯＭ３０２に記憶されている。ＣＰＵ３０１は、プログラムを記憶装置３０５またはＲＯＭ３０２から読み出してＲＡＭ３０３に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ３０１は、プログラムに従って、記憶領域をＲＡＭ３０３に確保する。学習装置５００が他の装置と通信を行う場合、通信インタフェース３０７がＣＰＵ３０１の制御に従って通信を実行する。学習装置５００がユーザ操作によるデータの入力など、データの入力を受け付ける場合、入出力インタフェース３０８が、データの入力の受付を実行する。例えば、入出力インタフェース３０８が、キーボードおよびマウスなどの入力デバイスを含んで構成され、ユーザ操作を受け付けるようにしてもよい。学習装置５００が、データを表示するなどデータを出力する場合、入出力インタフェース３０８が、データの出力を実行する。例えば、入出力インタフェース３０８が、液晶パネルまたはＬＥＤパネル等の表示画面を含んで構成され、データを表示するようにしてもよい。

　上記のように、学習装置１０、および、学習装置５００が行う処理の全部または一部を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明の実施形態は、学習装置、学習方法および記録媒体に適用してもよい。

　１０　　　学習装置
　１１　　　入出力部
　１２　　　予測部
　１３　　　多重予測損失算出部
　１４　　　目的関数算出部
　１５　　　更新部
　１００　　多様性算出装置
　１０１　　不正解予測算出部
　１０２　　正規化部
　１０３　　角度算出部
　２０１　　内積総和算出部

Claims

　教師有り学習データに対するニューラルネットワークモデルの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルを求める不正解予測算出部と、
　２つの前記ニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数を含む目的関数の値をより小さくするように、前記ニューラルネットワークモデルの学習を行う更新部と、
　を含む学習装置。
　前記多様性関数は、学習対象の全ての前記ニューラルネットワークモデルのうちの２つの前記ニューラルネットワークモデルの全ての組み合わせについて、前記不正解クラス予測確率ベクトルのなす角度の大きさの評価値の演算を含む、
　請求項１に記載の学習装置。
　前記多様性関数は、２つの前記不正解クラス予測確率ベクトルのなす角度の大きさの評価値の演算として、それら２つの不正解クラス予測確率ベクトルのコサイン類似度の演算を含む、
　請求項１または請求項２に記載の学習装置。
　前記多様性関数は、２つの前記ニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのコサイン類似度の、学習対象の全ての前記ニューラルネットワークモデルのうちの２つの前記ニューラルネットワークモデルの全ての組み合わせについての平均を算出する演算を含む、
　請求項１に記載の学習装置。
　教師有り学習データに対するニューラルネットワークモデルの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルを求めることと、
　２つの前記ニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数を含む目的関数の値をより小さくするように、前記ニューラルネットワークモデルの学習を行うことと、
　を含む学習方法。
　コンピュータに、
　教師有り学習データに対するニューラルネットワークモデルの予測確率ベクトルから正解クラスの要素を除いた不正解クラス予測確率ベクトルを求めることと、
　２つの前記ニューラルネットワークモデルの前記不正解クラス予測確率ベクトルのなす角度が大きいほど値が小さくなる多様性関数を含む目的関数の値をより小さくするように、前記ニューラルネットワークモデルの学習を行うことと、
　を実行させるためのプログラムを記録する記録媒体。