JP7563495B2

JP7563495B2 - 学習装置、学習方法、及び、プログラム

Info

Publication number: JP7563495B2
Application number: JP2022577920A
Authority: JP
Inventors: 学中野; 裕一中谷; 遊哉石井; 哲夫井下
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2024-10-08
Anticipated expiration: 2041-01-28
Also published as: WO2022162839A1; JPWO2022162839A1

Description

本発明は、蒸留を利用したニューラルネットワークの学習方法に関する。

機械学習においては、層の深いニューラルネットワークを組むことで高精度な学習モデルを構成することができる。このような学習モデルはディープラーニングや深層学習と呼ばれ、数百万から数億個ものニューラルネットからなる。ディープラーニングにおいては、学習モデルが複雑で層が深いほど、つまり、ニューラルネットの個数が多いほど高精度になることが知られている。一方で、モデルの肥大化はより多くの計算機のメモリを要するため、巨大なモデルの性能を維持したまま、より小さいモデルを構築する方法が提案されている。

非特許文献１及び特許文献１には、学習済みの巨大なモデル（以下、「教師モデル」と呼ぶ。）を小規模なモデル（以下、「生徒モデル」と呼ぶ。）で模倣するＫｎｏｗｌｅｄｇｅＤｉｓｔｉｌｌａｔｉｏｎ（以下、「蒸留」と呼ぶ。）という学習方法が記載されている。この方法は、教師モデルの学習時に利用したデータを教師モデルと生徒モデルへの入力とし、教師モデルが出力する予測ラベルと学習データで与えられる真のラベルとの加重平均に近づくように生徒モデルの学習を行う。非特許文献１に記載された学習方法は、加重平均ラベルを用いるため、生徒モデルの学習の際に教師モデルの学習に用いたのと同一のデータが必要である。しかしながら、ディープラーニングには多量の学習データが必要なため、記憶媒体の容量制限や、データに含まれるプライバシー情報の保護や、データの著作権などの観点から、学習データそのものを残しておくことが困難なことがある。

非特許文献２には、教師モデルの学習時に利用したデータを用いずに、教師モデルにとって未知のデータ、つまり入力データに対応付けられた真のラベルが不明なデータを用いる蒸留学習が記載されている。この学習方法は、未知データに対する教師モデルの予測ラベルに近づくように生徒モデルの学習を行う。

特開２０１９－０４６３８０号公報

Ｈｉｎｔｏｎｅｔａｌ．，"ＤｉｓｔｉｌｌｉｎｇｔｈｅＫｎｏｗｌｅｄｇｅｉｎａＮｅｕｒａｌＮｅｔｗｏｒｋ"，ＮＩＰＳ２０１４ｗｏｒｋｓｈｏｐＫｕｌｋａｍｉｅｔａｌ．，"Ｋｎｏｗｌｅｄｇｅｄｉｓｔｉｌｌａｔｉｏｎｕｓｉｎｇｕｎｌａｂｅｌｅｄｍｉｓｍａｔｃｈｅｄｉｍａｇｅｓ"，ａｒＸｉｖ：１７０３．０７１３１．

非特許文献２に記載の学習方法では、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を用いて生成した画像を用いて、教師モデルから生徒モデルへの蒸留学習を行う。しかし、ＧＡＮを用いて生成する画像がターゲットドメインの画像とかけ離れていると、生徒モデルの性能向上が期待できない。

本発明の１つの目的は、未知データを用いて高性能な生徒モデルを生成する蒸留学習を実現することにある。

本発明の一つの観点では、学習装置は、
学習済みの複数の教師モデルと、
入力された疑似正解ラベルに基づいて生成データを生成するデータ生成手段であって、前記生成データが入力された前記複数の教師モデルの各々が、前記疑似正解ラベルに近しい教師予測ラベルを出力するようなデータを前記生成データとして生成するデータ生成手段と、
前記生成データを入力とし、前記複数の教師モデルを用いて生徒モデルの蒸留学習を行う学習手段と、を備える。

本発明の他の観点では、学習方法は、
コンピュータにより実行される学習方法であって、
学習済みの複数の教師モデルを取得し、
入力された疑似正解ラベルに基づいて生成データを生成し、
前記生成データを入力とし、前記複数の教師モデルを用いて生徒モデルの蒸留学習を行い、
前記生成データは、当該生成データが入力された前記複数の教師モデルの各々が、前記疑似正解ラベルに近しい教師予測ラベルを出力するようなデータである。

本発明のさらに他の観点では、プログラムは、
学習済みの複数の教師モデルを取得し、
入力された疑似正解ラベルに基づいて生成データを生成し、
前記生成データを入力とし、前記複数の教師モデルを用いて生徒モデルの蒸留学習を行う処理であって、
前記生成データは、当該生成データが入力された前記複数の教師モデルの各々が、前記疑似正解ラベルに近しい教師予測ラベルを出力するようなデータである処理をコンピュータに実行させる。

本発明によれば、未知データを用いて高性能な生徒モデルを生成する蒸留学習を実現することができる。

第１実施形態に係る学習装置のハードウェア構成を示す。学習処理の全体の流れを示すフローチャートである。教師モデルの識別境界の例を説明する図である。教師モデルの学習方法を模式的に示す。データ生成部の学習を行う際の学習装置の機能構成を示す。ラベル分布決定部の構成例を示す。生徒モデルの学習を行う際の学習装置の機能構成を示す。生徒モデルの学習処理のフローチャートである。第２実施形態に係る学習装置の機能構成を示す。第２実施形態による学習処理のフローチャートである。

以下、図面を参照して、本発明の好適な実施形態について説明する。
＜第１実施形態＞
［基本概念］
一般的に、蒸留の手法を用いて生徒モデルの学習（以下、「蒸留学習」とも呼ぶ。）を行う場合、教師モデルの学習に使用した学習データを用いて生徒モデルを学習する。また、教師モデルの学習に使用した学習データが入手できない場合、ＧＡＮなどを用いて生成した画像を用いて生徒モデルを学習する。しかし、ＧＡＮを用いて生成する画像がターゲットドメインの画像とかけ離れていると、蒸留学習による生徒モデルの性能向上が期待できない。そこで、本実施形態では、ＧＡＮが生成する画像を、教師モデルの学習を行ったドメイン、即ちターゲットドメインに近づけることにより、蒸留学習による生徒モデルの性能を向上させる。

［ハードウェア構成］
図１は、第１実施形態に係る学習装置のハードウェア構成を示すブロック図である。図示のように、学習装置１０は、インタフェース（Ｉ／Ｆ）１２と、プロセッサ１３と、メモリ１４と、記録媒体１５と、データベース（ＤＢ）１６と、を備える。

インタフェース１２は、外部装置との間でデータの入出力を行う。具体的に、インタフェース１２は、学習装置１０が使用する学習データや未知データを外部装置から取得する。

プロセッサ１３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、学習装置１００の全体を制御する。なお、プロセッサ１３は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）であってもよい。プロセッサ１３は後述する学習処理を実行する。

メモリ１４は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１４は、学習装置１０が使用するニューラルネットワークのモデル、具体的には教師モデル、生徒モデルなどを記憶する。また、メモリ１４は、プロセッサ１３による各種の処理の実行中に作業メモリとしても使用される。

記録媒体１５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習装置１０に対して着脱可能に構成される。記録媒体１５は、プロセッサ１３が実行する各種のプログラムを記録している。学習装置１０が各種の処理を実行する際には、記録媒体１５に記録されているプログラムがメモリ１４にロードされ、プロセッサ１３により実行される。データベース１６は、インタフェース１２を介して入力されたデータを記憶する。

［学習処理の概要］
次に、学習装置１０による学習処理の概要について説明する。図２は、学習処理の全体の流れを示すフローチャートである。学習処理は、大別して教師モデルの学習（ステップＳ１０）と、データ生成部の学習（ステップＳ２０）と、生徒モデルの学習（ステップＳ３０）とにより構成される。

教師モデルの学習は、複数の現場（ドメイン）で得られたデータを用いて、複数の教師モデルを学習するものである。これにより、学習済みの複数の教師モデルが得られる。データ生成部の学習は、学習済みの複数の教師モデルを用いて、生徒モデルの学習に使用するデータを生成するデータ生成部を学習するものである。なお、データ生成部は、ＧＡＮを用いて画像を生成する。そして、生徒モデルの学習は、学習済みの複数の教師モデルと、学習済みのデータ生成部とを用いて、蒸留により生徒モデルを学習するものである。以下、順に詳しく説明する。

［教師モデルの学習］
まず、教師モデルの学習について説明する。
（基本概念）
教師モデルの学習では、個々の現場（ターゲットドメイン）において、その現場で得られた画像を用いて教師モデルを学習する。即ち、個々のターゲットドメイン毎に教師モデルの学習を行い、複数のターゲットドメインに対応する複数の教師モデルを学習する。ここで、各々の教師モデルは、次の２つの目的を同時に満たすように学習される。

目的Ａ：ターゲットドメインの画像に対して性能が高くなるようにする。これは、通常の学習と同様である。
目的Ｂ：ターゲットドメイン以外の画像に対しては、各教師モデルの出力分布がなるべく異なるようにする。即ち、各教師モデルは、ターゲットドメイン以外の画像に対する出力の不一致度を故意に高くするように学習される。

上記の目的Ａ、Ｂを同時に満たす教師モデルの例を説明する。図３は、特徴量の分布図の一例を示す。この例では、あるターゲットドメインにおいて、クラスＸとクラスＹの分類が行われるとする。分布図上のエリア１に属する特徴量はクラスＸに分類され、エリア２に属する特徴量はクラスＹに分類されるものとする。

ここで、上記の目的Ａ、Ｂを同時に満たす教師モデル１、２の識別境界をそれぞれＦ１、Ｆ２で示す。まず、識別境界Ｆ１、Ｆ２は、共にエリア１とエリア２を異なる領域に分割しているので、クラスＸとクラスＹを正しく分類できる。よって、教師モデル１、２は共に上記の目的Ａを満たす。さらに、識別境界Ｆ１、Ｆ２は、エリア１及びエリア２以外の領域（白色の領域）のうちの大半を異なるクラスに分類している。よって、教師モデル１、２は上記の目的Ｂを満たす。即ち、識別境界Ｆ１、Ｆ２は、ターゲットドメインのクラスＸ、クラスＹを正しく分類し、かつ、それ以外のほとんどの領域を異なるクラスに分類している。よって、教師モデル１、２は、上記の目的Ａ、Ｂを同時に満たしている。

なお、仮に教師モデル１、２に加えて別の教師モデル３を生成する場合、その識別境界Ｆ３は、例えば図３に示すように識別境界Ｆ１、Ｆ２と同様にエリア１、２を別の領域に分割し、かつ、エリア１、２以外の領域を識別境界Ｆ１、Ｆ２とは異なる２つの領域に分割するものとなる。このように学習された複数の教師モデルは、後述のデータ生成部の学習、及び、生徒モデルの学習において使用される。

（教師モデルの学習方法）
図４は、教師モデルの学習方法を模式的に示す。この例では、Ｎ個の教師モデル２０－１～２０－Ｎを学習するものとする。各教師モデル２０－１～２０－Ｎは、ニューラルネットワークを用いたモデルである。なお、以下の説明においては、個々の教師モデル２０－１～２０－Ｎを区別しない場合には、単に「教師モデル２０」と表記することがある。また、以下の図面においては、学習の対象となる要素をグレーで示すものとする。

まず、図４（Ａ）に示すように、各教師モデル２０－１～２０－Ｎに学習データが入力される。この学習データは、ターゲットドメインの学習データであり、正解ラベルが用意されている。即ち、この学習データは、ターゲットドメインで得られた画像と、その画像に対する正解ラベルとを含む。各教師モデル２０－１～２０－Ｎは、入力された画像に対する予測ラベル１～Ｎをそれぞれ出力する。

学習装置１０は、教師モデル２０－１が出力した予測ラベル１と、学習データとして用意された正解ラベルとの誤差が最小となるように、教師モデル２０－１を学習する。また、学習装置１０は、他の教師モデル２０－２～２０－Ｎについても同様の処理を行い、各教師モデル２０－２～２０－Ｎを学習する。これにより、各教師モデル２０－１～２０－Ｎは、ターゲットドメインの画像データに対して正しい予測を行うように学習される。こうして、上記の目的Ａが満足される。

次に、図４（Ｂ）に示すように、各教師モデル２０－１～２０－Ｎに対して未知データが入力される。未知データは、教師モデルにとって未知のデータ、即ち、教師モデルの学習に用いられていないデータである。具体的に、未知データは、ターゲットドメインの画像以外の画像であり、正解ラベルは用意されていない。各教師モデル２０－１～２０－Ｎは、入力された未知データに対してそれぞれ予測ラベル１～Ｎを出力する。学習装置１０は、予測ラベル１と他の予測ラベル２～Ｎとの不一致度が最大となるように教師モデル２０－１を学習する。また、学習装置１０は、他の教師モデル２０－２～２０－Ｎについても同様の処理を行い、各教師モデル２０－２～２０－Ｎを学習する。これにより、各教師モデル２０－１～２０－Ｎは、ターゲットドメイン以外のドメイン（以下、「非ターゲットドメイン」とも呼ぶ。）の画像である未知データに対しては、予測ラベルの不一致度が高くなるように、即ち、なるべく異なる予測ラベルを出力するように学習される。これにより、上記の目的Ｂが満足される。

なお、上記の未知データを用いた学習を行う方法としては、例えば下記文献に記載の手法を用いることができる。
"Maximum Classifier Discrepancy for Unsupervised Domain Adaptation"，Kuniaki Saito, Kohei Watanabe, Yoshitaka Ushiku, Tatsuya Harada; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 3723-3732

また、上記の手法以外でも、各教師モデルが出力する予測ラベルの不一致度を示す損失関数を定義し、その損失関数を通常の学習データを用いて学習を行う際の損失関数に加えて学習を行えばよい。

なお、上記の説明では、ターゲットドメインの学習データを用いた学習により目的Ａを満足し、次に、非ターゲットドメインの未知データを用いた学習により目的Ｂを満足するように、２種類の学習を分けて順に行っている。その代わりに、学習データと未知データを混ぜて各教師モデル２０に入力し、各教師モデル２０が目的Ａと目的Ｂを同時に満足するように学習を行ってもよい。

［データ生成部の学習］
次に、データ生成部の学習について説明する。
（基本概念）
データ生成部は、ＧＡＮを用いて画像を生成する。ここで、本実施形態では、データ生成部が生成した画像がターゲットドメインの画像に近くなるようにＧＡＮを学習する。具体的には、ＧＡＮの学習において、損失関数としてコンシステンシーロス（ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ）を加える。即ち、ＧＡＮが生成した画像を複数の教師モデルに入力したとき、複数の教師モデルの出力分布が一致するほど小さくなるようなロスを加える。上記の教師モデルの学習により、各教師モデルは、ターゲットドメインの画像に対しては一致度の高い予測ラベルを出力し、非ターゲットドメインの画像に対しては一致度の低い予測ラベルを出力するように学習されている。よって、ある画像を各教師モデルに入力したときに各教師モデルが出力した予測ラベルの一致度が高い場合（コンシステンシーロスが小さい場合）、その画像はターゲットドメインの画像に近いと考えられる。逆に、ある画像を各教師モデルに入力したときに各教師モデルが出力した予測ラベルの一致度が低い場合（コンシステンシーロスが大きい場合）、その画像はターゲットドメインの画像に近くないと考えられる。

そこで、学習装置１０は、ＧＡＮが生成した画像を各教師モデルに入力し、各教師モデルが出力する予測ラベルに基づいてコンシステンシーロスを算出する。そして、学習装置１０は、コンシステンシーロスが小さくなるような画像を生成するようにＧＡＮを学習する。これにより、ＧＡＮはターゲットドメインの画像に近い画像を出力できるように学習される。

（機能構成）
図５は、データ生成部の学習を行う際の学習装置１０の機能構成を示す。学習装置１０は、乱数発生器３１と、データ生成部３２と、教師モデル２０－１～２０－Ｎと、ラベル誤差最小化部３３と、ラベル分布決定部３４とを備える。ここでは、グレーで示すデータ生成部３２が学習の対象となる。また、教師モデル２０－１～２０－Ｎは、上述した方向により学習済みのものである。

乱数発生器３１は、乱数ベクトルを生成し、データ生成部３２へ出力する。乱数ベクトルを用いることにより、データ生成部３２は様々なバリエーションの画像を生成可能となる。データ生成部３２は、ＧＡＮにより構成される。データ生成部３２には、未知データが入力される。未知データは、前述のように、非ターゲットドメインの画像データである。未知データは、ＧＡＮに自然画像らしさを学習させるためのものであり、例えばImage Netのような一般的な画像データセットから得た画像を用いることができる。未知データとして、画像データセットの画像を使用することにより、データ生成部３２は自然画像らしい画像を生成可能となる。なお、ＧＡＮに自然画像らしさを学習させるという意味では、未知データは、補助データ又は代理データなどと捉えることもできる。

また、データ生成部３２には、疑似正解ラベルＤ３が入力される。疑似正解ラベルＤ３は、データ生成部３２が生成する画像のクラスを指定するデータであり、例えばクラス番号などとすることができる。データ生成部３２は、入力された乱数ベクトルと、疑似正解ラベルＤ３とに基づいて、疑似正解ラベルＤ３が示すクラスの画像Ｄ１を生成し、教師モデル２０－１～２０－Ｎへ出力する。

データ生成部（ＧＡＮ）３２は、生成器（Generator）と、識別器（Discriminator）とを備える。基本的な動作として、生成器は、乱数ベクトルと疑似正解ラベルＤ３を入力とし、画像Ｄ１を生成する。識別器には、画像Ｄ１又は未知データが入力される。識別器は、生成器が生成する画像Ｄ１と未知データとを区別することを目標に学習され、生成器は識別器が区別できない画像Ｄ１を生成することを目標に学習される。なお、本実施形態では、上記の学習に加えて、後述するようにラベル誤差最小化部３３を用いて生成器の学習が行われる。

教師モデル２０－１～２０－Ｎは、それぞれ画像Ｄ１に対して予測を行い、予測ラベルＤ２をラベル誤差最小化部３３及びラベル分布決定部３４へ出力する。以下、教師モデル２０が出力する予測ラベルを「教師予測ラベル」と呼ぶ。ラベル分布決定部３４は、教師モデル２０－１～２０－Ｎから入力される教師予測ラベルＤ２に基づいてラベルの分布を算出し、算出された分布が均等となるように疑似正解ラベルＤ３を決定してデータ生成部３２へ出力する。例えば、教師モデル２０が１０クラスの分類を行う場合、各教師モデル２０－１～２０－Ｎは１０クラスの分類結果を教師予測ラベルＤ２として出力する。ラベル分布決定部３４は、教師モデル２０－１～２０－Ｎが出力した教師予測ラベルＤ２を集計し、その分布が均等となるように、次にデータ生成部３２が生成すべき画像のクラスを示す疑似正解ラベルＤ３を生成してデータ生成部３２へ出力する。これにより、データ生成部３２は、教師モデル２０－１～２０－Ｎが出力する教師予測ラベルＤ２の分布が均等となるように画像を生成するようになる。

また、ラベル分布決定部３４は、疑似正解ラベルＤ３をラベル誤差最小化部３３へ出力する。ラベル誤差最小化部３３は、各教師モデル２０－１～２０－Ｎから入力された教師予測ラベルＤ２と、疑似正解ラベルＤ３を用いて、データ生成部３２の学習を行う。具体的には、ラベル誤差最小化部３３は、各教師モデル２０－１～２０－Ｎが出力した教師予測ラベルＤ２と疑似正解ラベルＤ３との誤差を算出し、その総和が最小となるようにデータ生成部３２を構成するニューラルネットワークのパラメータを最適化する。

これに加えて、ラベル誤差最小化部３３は、前述のコンシステンシーロスに基づいてデータ生成部３２の学習を行う。具体的には、ラベル誤差最小化部３３は、各教師モデル２０－１～２０－Ｎが出力した教師予測ラベルＤ２に基づいてコンシステンシーロスを算出する。コンシステンシーロスは、複数の教師モデル２０が出力した教師予測ラベルＤ２の分布が一致するほど小さくなる損失である。よって、ラベル誤差最小化部３３は、コンシステンシーロスが小さくなるように、即ち、教師モデル２０－１～２０－Ｎが出力した教師予測ラベルＤ２の分布が近づくように、データ生成部３２の生成器を学習する。これにより、データ生成部３２は、生成した画像を入力したときに各教師モデル２０－１～２０－Ｎが出力する教師予測ラベルＤ２の分布が一致するような画像、即ち、ターゲットドメインの画像に近い画像を生成するように学習される。

図６は、ラベル分布決定部３４の構成例を示す。ラベル分布決定部３４は、累積確率密度算出部３５と、重み算出部３６と、乗算器３７とを備える。各教師モデル２０－１～２０－Ｎから出力された教師予測ラベルＤ２は、累積確率密度算出部３５と、乗算器３７とに入力される。累積確率密度算出部３５は、各教師予測ラベルＤ２から各クラスの累積確率分布を計算し、累積確率密度を求めて重み算出部３６に入力する。重み算出部３６は、各クラスの累積確率密度が均等になるように、各クラスに対する重みを計算する。例えば、重み算出部３６は累積確率密度の逆数を重みとしてもよいし、一部のクラスへの重みをユーザが任意に決定してもよい。そして、乗算器３７は、教師予測ラベルＤ２に重みを乗算し、個々の未知データに対する疑似正解ラベルＤ３を決定する。

［生徒モデルの学習］
次に、生徒モデルの学習について説明する。
（機能構成）
図７は、生徒モデルの学習を行う際の学習装置１０の機能構成を示す。学習装置１０は、乱数発生器３１と、データ生成部３２と、教師モデル２０－１～２０－Ｎと、ラベル分布決定部３４と、生徒モデル４０と、蒸留学習部４１とを備える。ここでは、生徒モデル４０が学習の対象となる。なお、各教師モデル２０－１～２０－Ｎ及びデータ生成部３２は、前述の学習方法により学習済みである。また、乱数発生器３１、ラベル分布決定部３４は、図５に示すデータ生成部の学習時のものと同様である。

ラベル分布決定部３４から疑似正解ラベルＤ３が入力されると、データ生成部３２は、疑似正解ラベルＤ３と、乱数発生器３１からの乱数ベクトルとを用いて画像Ｄ１を生成し、教師モデル２０－１～２０－Ｎ、及び、生徒モデル４０へ出力する。生徒モデル４０は、教師モデルと同様にニューラルネットワークを用いて構成される。

各教師モデル２０－１～２０－Ｎは、画像Ｄ１に対する教師予測ラベルＤ２を蒸留学習部４１へ出力する。また、生徒モデル４０は、画像Ｄ１に対する予測ラベル（以下、「生徒予測ラベル」とも呼ぶ。）Ｄ５を蒸留学習部４１へ出力する。蒸留学習部４１は、生徒モデル４０が教師モデル２０に近づくように生徒モデル４０を学習する。具体的には、蒸留学習部４１は、生徒予測ラベルＤ５と、各教師予測ラベルＤ２及び疑似正解ラベルＤ３との誤差の総和が最小となるように、生徒モデル４０を構成するニューラルネットワークのパラメータを最適化する。こうして、蒸留による生徒モデルの学習が行われる。

先に述べたように、データ生成部３２は未知データに基づいてターゲットドメインの画像に近い画像Ｄ１を生成できるように学習されている。よって、教師モデルの学習データが入手できない場合でも、生徒モデル４０は、未知データから生成されたターゲットドメインの画像に近い画像Ｄ１を用いて蒸留学習されるので、各教師モデル２０の性能を適切に受け継ぐことができる。

上記の構成において、データ生成部３２はデータ生成手段の一例であり、画像Ｄ１は生成データの一例である。また、蒸留学習部４１は学習手段の一例であり、ラベル分布決定部３４はラベル分布決定手段の一例である。

（生徒モデルの学習処理）
図８は、図７に示す学習装置１０による生徒モデルの学習処理のフローチャートである。この処理は、図１に示すプロセッサ１３が、予め用意されたプログラムを実行することにより実現される。

まず、ラベル分布決定部３４が疑似正解ラベルＤ３を生成し、データ生成部３２へ出力する（ステップＳ３１）。データ生成部３２は、乱数ベクトルを用いて、入力された疑似正解ラベルＤ３が示すクラスの画像Ｄ１を生成し、教師モデル２０及び生徒モデル４０へ出力する（ステップＳ３２）。次に、各教師モデル２０及び生徒モデル４０は、画像Ｄ１に対する予測を行い、教師予測ラベルＤ２及び生徒予測ラベルＤ５を蒸留学習部４１へ出力する（ステップＳ３３）。

次に、蒸留学習部４１は、生徒予測ラベルＤ５と、各教師予測ラベルＤ２及び疑似正解ラベルＤ３との誤差が最小となるように生徒モデルを学習する（ステップＳ３４）。ステップＳ３１～Ｓ３４の処理は、所定の終了条件が具備されるまで繰り返し実行され、所定の終了条件が具備されると（ステップＳ３５：Ｙｅｓ）、処理は終了する。

以上のように、生徒モデルの学習処理においては、学習済みのデータ生成部３２が生成するターゲットドメインの画像に近い画像を用いて蒸留学習を行うので、未知データを用いる場合でも、教師モデルの性能を適切に受け継いだ生徒モデルを得ることができる。

［第２実施形態］
次に、本発明の第２実施形態について説明する。図９は、第２実施形態に係る学習装置５０の機能構成を示す。なお、学習装置５０のハードウェア構成は、図１に示すものと同様である。

学習装置５０は、教師モデルが学習していない未知データを用いて蒸留学習を行うものであり、図示のように、複数の教師モデル５１と、データ生成手段５２と、学習手段５３と、生徒モデル５４とを備える。複数の教師モデルは学習済みであり、生徒モデル５４が学習の対象である。データ生成手段５２は、入力された疑似正解ラベルに基づいて生成データを生成する。具体的に、データ生成手段５２は、生成データが入力された複数の教師モデルの各々が、疑似正解ラベルに近しい教師予測ラベルを出力するようなデータを、生成データとして生成する。学習手段５３は、生成データを入力とし、複数の教師モデル５１を用いて生徒モデル５４の蒸留学習を行う。こうして、未知データを用いて、蒸留学習を行うことができる。

図１０は、第２実施形態による学習処理のフローチャートである。まず、学習済みの複数の教師モデルが取得される（ステップＳ５１）。次に、入力された疑似正解ラベルに基づいて生成データが生成される（ステップＳ５２）。ここで、生成データは、当該生成データが入力された複数の教師モデルの各々が、疑似正解ラベルに近しい教師予測ラベルを出力するようなデータである。そして、生成データを入力とし、複数の教師モデルを用いて生徒モデルの蒸留学習が行われる（ステップＳ５３）。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
学習済みの複数の教師モデルと、
入力された疑似正解ラベルに基づいて生成データを生成するデータ生成手段であって、前記生成データが入力された前記複数の教師モデルの各々が、前記疑似正解ラベルに近しい教師予測ラベルを出力するようなデータを前記生成データとして生成するデータ生成手段と、
前記生成データを入力とし、前記複数の教師モデルを用いて生徒モデルの蒸留学習を行う学習手段と、
を備える学習装置。

（付記２）
前記学習手段は、前記生成データを前記複数の教師モデル及び生徒モデルに入力し、前記複数の教師モデルが出力する教師予測ラベルを正解ラベルとして用いて、前記生徒モデルの学習を行う付記１に記載の学習装置。

（付記３）
前記複数の教師モデルは、既知の入力データに対して各々が出力する教師予測ラベルが正解ラベルと近しくなり、未知の入力データに対して各々が出力する教師予測ラベルの不一致度を最大化するように学習済みである付記１又は２に記載の学習装置。

（付記４）
前記既知の入力データは前記教師モデルの学習に用いたデータであり、前記未知の入力データは前記教師モデルの学習に用いられていないデータである付記３に記載の学習装置。

（付記５）
前記既知の入力データはターゲットドメインのデータであり、前記未知の入力データは前記ターゲットドメインのデータ以外のデータである付記３又は４記載の学習装置。

（付記６）
前記データ生成手段は、前記生成データを前記複数の教師モデルに入力した場合に、前記複数の教師モデルの各々が出力する教師予測ラベルの分布が一致するほど小さくなる損失関数を最小化するように学習済みである付記１乃至５のいずれか一項に記載の学習装置。

（付記７）
前記学習手段は、前記生徒モデルが出力する生徒予測ラベルと前記複数の教師モデルが出力する教師予測ラベルとの誤差と、前記生徒予測ラベルと前記疑似正解ラベルとの誤差の和を最小化するように前記生徒モデルを学習する付記１乃至６のいずれか一項に記載の学習装置。

（付記８）
前記複数の教師モデルが出力する教師予測ラベルが各クラスに均等に分布するように前記疑似正解ラベルの値を調整するラベル分布決定手段を備える付記１乃至７のいずれか一項に記載の学習装置。

（付記９）
学習済みの複数の教師モデルを取得し、
入力された疑似正解ラベルに基づいて生成データを生成し、
前記生成データを入力とし、前記複数の教師モデルを用いて生徒モデルの蒸留学習を行い、
前記生成データは、当該生成データが入力された前記複数の教師モデルの各々が、前記疑似正解ラベルに近しい教師予測ラベルを出力するようなデータである学習方法。

（付記１０）
学習済みの複数の教師モデルを取得し、
入力された疑似正解ラベルに基づいて生成データを生成し、
前記生成データを入力とし、前記複数の教師モデルを用いて生徒モデルの蒸留学習を行う処理であって、
前記生成データは、当該生成データが入力された前記複数の教師モデルの各々が、前記疑似正解ラベルに近しい教師予測ラベルを出力するようなデータである処理をコンピュータに実行させるプログラムを記録した記録媒体。

以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１０学習装置
２０教師モデル
３１乱数発生器
３２データ生成部
３３ラベル誤差最小化部
３４ラベル分布決定部
４０生徒モデル
４１蒸留学習部

Claims

学習済みの複数の教師モデルと、
入力された疑似正解ラベルに基づいて生成データを生成するデータ生成手段であって、
前記生成データが入力された前記複数の教師モデルの各々が、前記疑似正解ラベルに近しい教師予測ラベルを出力するようなデータを前記生成データとして生成するデータ生成手段と、
前記生成データを入力とし、前記複数の教師モデルを用いて生徒モデルの蒸留学習を行う学習手段と、
を備える学習装置。
前記学習手段は、前記生成データを前記複数の教師モデル及び生徒モデルに入力し、前記複数の教師モデルが出力する教師予測ラベルを正解ラベルとして用いて、前記生徒モデルの学習を行う請求項１に記載の学習装置。
前記複数の教師モデルは、既知の入力データに対して各々が出力する教師予測ラベルが正解ラベルと近しくなり、未知の入力データに対して各々が出力する教師予測ラベルの不一致度を最大化するように学習済みである請求項１又は２に記載の学習装置。
前記既知の入力データは前記教師モデルの学習に用いたデータであり、前記未知の入力データは前記教師モデルの学習に用いられていないデータである請求項３に記載の学習装置。
前記既知の入力データはターゲットドメインのデータであり、前記未知の入力データは前記ターゲットドメインのデータ以外のデータである請求項３又は４記載の学習装置。
前記データ生成手段は、前記生成データを前記複数の教師モデルに入力した場合に、前記複数の教師モデルの各々が出力する教師予測ラベルの分布が一致するほど小さくなる損失関数を最小化するように学習済みである請求項１乃至５のいずれか一項に記載の学習装置。
前記学習手段は、前記生徒モデルが出力する生徒予測ラベルと前記複数の教師モデルが出力する教師予測ラベルとの誤差と、前記生徒予測ラベルと前記疑似正解ラベルとの誤差の和を最小化するように前記生徒モデルを学習する請求項１乃至６のいずれか一項に記載の学習装置。
前記複数の教師モデルが出力する教師予測ラベルが各クラスに均等に分布するように前記疑似正解ラベルの値を調整するラベル分布決定手段を備える請求項１乃至７のいずれか一項に記載の学習装置。
コンピュータにより実行される学習方法であって、
学習済みの複数の教師モデルを取得し、
入力された疑似正解ラベルに基づいて生成データを生成し、
前記生成データを入力とし、前記複数の教師モデルを用いて生徒モデルの蒸留学習を行い、
前記生成データは、当該生成データが入力された前記複数の教師モデルの各々が、前記疑似正解ラベルに近しい教師予測ラベルを出力するようなデータである学習方法。
学習済みの複数の教師モデルを取得し、
入力された疑似正解ラベルに基づいて生成データを生成し、
前記生成データを入力とし、前記複数の教師モデルを用いて生徒モデルの蒸留学習を行う処理であって、
前記生成データは、当該生成データが入力された前記複数の教師モデルの各々が、前記疑似正解ラベルに近しい教師予測ラベルを出力するようなデータである処理をコンピュータに実行させるプログラム。