WO2022009254A1

WO2022009254A1 - データ拡張装置、学習装置、データ拡張方法、及び、記録媒体

Info

Publication number: WO2022009254A1
Application number: PCT/JP2020/026348
Authority: WO
Inventors: 重哲並木; 尚司谷内田; 剛志柴田; 利憲細井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2022-01-13
Anticipated expiration: 2023-01-06
Also published as: US20230252765A1; JPWO2022009254A1; JP7472981B2

Abstract

データ拡張装置において、データ取得手段は、ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から所定のクラスの１つのターゲットドメインデータを取得する。推定手段は、２つのソースドメインデータを用いて、ソースドメインのデータ分布を示す多様体の構造を推定する。データ生成手段は、１つのターゲットドメインデータと、多様体の構造とを用いて、ターゲットドメインの新たなデータを生成する。

Description

データ拡張装置、学習装置、データ拡張方法、及び、記録媒体

　本発明は、機械学習に用いる教師データの拡張に関する。

　画像認識などに用いる機械学習のモデルを学習する際、十分な数の教師データが得られない場合、データ拡張により教師データを増量することが行われる。特許文献１、２は、データ拡張方法の例を記載している。また、特許文献３は、認識の対象となる特定のクラスの学習データが他のクラスと比べて少ない場合に、そのクラスの学習データを複製する手法を記載している。

特開２０１９－０２８８７６号公報特開２０１８－１０６２１６号公報特開２０１３－１６１２９８号公報

　一般的に、画像データのデータ拡張では、画像の色相やコントラストを摂動させるなどして、クラスラベルが変わってしまわない限定的な範囲で元の画像データを変形させてデータ数を増やす。ここで、画像認識などの対象が３次元物体である場合には、カメラの角度を変動させるなど、対象物の見た目をよりダイナミックに変形することが好ましいが、画像の色相やコントラストなどを摂動させる手法では、そのようなダイナミックな変形を模擬することが難しい。そのため、拡張したデータを用いてモデルの学習を行っても、画像認識の性能を向上させる効果が限定的となってしまう。

　また、画像認識などの対象となる複数のクラスのうち、一部のクラスのデータ数が他のクラスに比べて少ない場合には、そのクラスについてデータ拡張が必要となる。

　本発明の１つの目的は、データ数が少ないクラスの教師データを増量してモデルの学習を行い、モデルの認識性能を向上させることを可能とするデータ拡張装置を提供することにある。

　本発明の一つの観点では、データ拡張装置は、
　ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から前記所定のクラスの１つのターゲットドメインデータを取得するデータ取得手段と、
　前記２つのソースドメインデータを用いて、前記ソースドメインのデータ分布を示す多様体の構造を推定する推定手段と、
　前記１つのターゲットドメインデータと、前記多様体の構造とを用いて、前記ターゲットドメインの新たなデータを生成するデータ生成手段と、を備える。

　本発明の他の観点では、データ拡張方法は、
　ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から前記所定のクラスの１つのターゲットドメインデータを取得し、
　前記２つのソースドメインデータを用いて、前記ソースドメインのデータ分布を示す多様体の構造を推定し、
　前記１つのターゲットドメインデータと、前記多様体の構造とを用いて、前記ターゲットドメインの新たなデータを生成する。

　本発明のさらに他の観点では、記録媒体は、
　ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から前記所定のクラスの１つのターゲットドメインデータを取得し、
　前記２つのソースドメインデータを用いて、前記ソースドメインのデータ分布を示す多様体の構造を推定し、
　前記１つのターゲットドメインデータと、前記多様体の構造とを用いて、前記ターゲットドメインの新たなデータを生成する処理をコンピュータに実行させるプログラムを記録する。

　本発明によれば、データ数が少ないクラスの教師データを増量してモデルの学習を行い、モデルの認識性能を向上させることが可能となる。

ドメイン適応の手法を模式的に示す図である。第１実施形態のデータ拡張方法を模式的に示す。第１実施形態のデータ拡張装置の全体構成を示す。データ拡張装置のハードウェア構成を示すブロック図である。データ拡張装置の機能構成を示すブロック図である。第１実施形態によるデータ拡張処理のフローチャートである。第２実施形態に係る学習装置の機能構成を示すブロック図である。データ拡張部の構成を示すブロック図である。第２実施形態による学習処理のフローチャートである。第３実施形態に係る学習装置の機能構成を示すブロック図である。第３実施形態による学習処理のフローチャートである。第４実施形態に係るデータ拡張装置の機能構成を示すブロック図である。第４実施形態によるデータ拡張処理のフローチャートである。

　以下、図面を参照して、本発明の好適な実施形態について説明する。
　＜第１実施形態＞
　まず、第１実施形態のデータ拡張装置について説明する。
　［基本原理］
　ある領域において機械学習モデルの学習に使用する教師データが不足する場合にモデルの性能を向上させる手法としてドメイン適応が用いられる。ドメイン適応とは、豊富なデータが得られるソースドメインのデータを利用して、データが不足しているターゲットドメインにおけるモデルを学習する手法である。詳しくは、ドメイン適応では、ターゲットドメインとソースドメインの特徴量データ分布をなるべく一致させるように近づけることにより、ソースドメインのデータやラベル情報を利用して、ターゲットドメインで使用するモデルを学習する。これにより、ターゲットドメインの教師データ数が十分でない場合でも、ターゲットドメインで使用するモデルの性能を向上させることができる。

　しかし、ターゲットドメインのデータ数にクラス間のインバランスがあると、単純にドメイン適応を用いても、性能の向上は限定的となる。即ち、ターゲットドメインにおける複数のクラスのうち、一部のクラスのデータ数が他のクラスと比較して極端に少ない場合、ドメイン適応により生成するターゲットドメインの特徴量データ分布をソースドメインの特徴量データ分布に近づけることができず、モデルの性能を十分に向上させることは難しい。なお、以下の説明では、データ数にクラス間のインバランスがある場合、データ数が不足しているクラスを「マイナークラス」と呼び、データ数が不足していないクラス、即ち、マイナークラス以外のクラスを「メジャークラス」と呼ぶ。

　一例として、車両の画像から車種を認識するモデルを考える。この場合、認識の対象となるクラスラベルは車種である。いま、既存の車種Ａ～Ｃに加えて、新たな車種Ｘが登場したとする。

　図１（Ａ）は、ターゲットドメインにクラス間のインバランスがある場合に、単純にドメイン適応を行う例を模式的に示す。特徴量空間は、特徴量のデータ分布を示す空間である。図１（Ａ）において、ソースドメインはＣＧ（Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ）画像のドメインであり、車種Ａ～Ｃについて、カメラの角度などが異なる多数のＣＧ画像Ｐｃが用意されている。また、新たな車種Ｘについても同様に多数のＣＧ画像Ｐｃを用意することができる。よって、ＣＧ画像により構成されるソースドメインでは、各クラスのＣＧ画像Ｐｃの特徴量を特徴量空間に配置すると、図１（Ａ）の右側に示すような特徴量データ分布が得られる。

　これに対し、ターゲットドメインを実写画像のドメインであるとすると、既存の車種Ａ～Ｃについては既に多数の実写画像Ｐｒが存在しているが、新たな車種Ｘについては実写画像Ｐｒは非常に少ない。よって、単純なドメイン適応を行っても、図１（Ａ）の左側に示すように、ターゲットドメインの特徴量空間では、新たな車種Ｘについて実写画像Ｐｒが少ないため、ソースドメインにおける特徴量データ分布を模擬することができない。このため、単純にドメイン適応を適用しても、認識性能の向上は限定的となる。

　図１（Ｂ）は、本実施形態のドメイン適応により、ソースドメインデータからターゲットドメインデータを生成する例を模式的に示す。この場合、ソースドメインの特徴量空間は図１（Ａ）と同様であり、ＣＧ画像Ｐｃの特徴量データ分布を示す。ここで、ソースドメインの特徴量データ分布には、例えば３次元物体の角度変動などの多様な変動が反映されている。そこで、新たな車種Ｘについて、ソースドメインの特徴量データ分布を模擬してターゲットドメインの特徴量データ分布を生成する。言い換えると、ソースドメインの特徴量データ分布を、ターゲットドメインに転写する。具体的には、ソースドメインの特徴量データ分布に基づいて、図１（Ｂ）の左側に示すように車種Ｘの実写画像Ｐｒから新たな画像Ｐ１～Ｐ３を生成する。これにより、ソースドメインの特徴量データ分布をターゲットドメインに転写することができる。

　図２は、第１実施形態のデータ拡張方法を模式的に示す。図２の右側に示すように、ソースドメインの特徴量空間においては、マイナークラスである車種Ｘについても十分なデータ数が存在している。そこで、データ拡張装置は、ソースドメインにおける車種Ｘのデータ群から、任意の２つのデータ（サンプルデータ）Ｓ１、Ｓ２をランダムにピックアップする。次に、データ拡張装置は、ピックアップした２つのデータＳ１、Ｓ２の差分ベクトルＤを計算する。

　次に、データ拡張装置は、ターゲットドメインにおける車種Ｘのデータ群の中から、１つのデータＴ１をランダムにピックアップする。そして、データ拡張装置は、ピックアップしたデータＴ１に差分ベクトルＤを足し合わせて、ターゲットドメインにおける車種Ｘの新たなデータＴ２を作成する。こうして、ターゲットドメインに新たなデータを追加することができる。

　なお、上記の例では、データ拡張装置は、ソースドメインの２つのデータＳ１、Ｓ２の差分ベクトルを用いてターゲットドメインに新たなデータＴ２を作成しているが、差分ベクトル以外に、ユークリッド距離やマハラノビス距離など、特徴量空間において規定される距離を用いてもよい。

　ソースドメインにおいてランダムにピックアップした２つのサンプルデータ間の距離の分布は、ソースドメインの多様体の構造を反映しており、ドメイン適応と合わせることにより、ソースドメインの多様体の構造をターゲットドメインに転写していると考えられる。よって、上記のデータ拡張手法により、ソースドメインの特徴量データ分布をターゲットドメインの特徴量データ分布に転写して、ターゲットドメインにおけるデータを増量することが可能となる。

　［データ拡張装置］
　次に、第１実施形態のデータ拡張装置について説明する。
　（全体構成）
　図３は、第１実施形態のデータ拡張装置の全体構成を示す。データ拡張装置１０は、ソースドメインデータベース（以下、「データベース」を「ＤＢ」と記す。）２と、ターゲットドメインＤＢ３とに接続される。ソースドメインＤＢ２は、ソースドメインの教師データであるソースドメインデータ群を記憶している。ターゲットドメインＤＢ３は、ターゲットドメインの教師データであるターゲットドメインデータ群を記憶している。なお、教師データは、画像認識などを行う機械学習モデルの学習に使用されるデータであり、学習用画像データと、その学習用画像データに対する正解ラベル（教師ラベル）とを含む。

　データ拡張装置１０は、ターゲットドメインのマイナークラスの教師データを作成する。具体的に、データ拡張装置１０は、ソースドメインＤＢ２からソースドメインデータを取得するとともに、ターゲットドメインＤＢ３からターゲットドメインデータを取得する。そして、データ拡張装置１０は、ソースドメインデータとターゲットドメインデータを用いて新たなターゲットドメインデータを作成し、ターゲットドメインＤＢ３に保存する。これにより、マイナークラスのターゲットドメインデータが増量される。

　（ハードウェア構成）
　図４は、データ拡張装置１０のハードウェア構成を示すブロック図である。図示のように、データ拡張装置１０は、インタフェース（以下、「ＩＦ」と記す。）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５とを備える。

　ＩＦ１１は、外部装置との間でデータの入出力を行う。具体的に、ソースドメインＤＢ２及びターゲットドメインＤＢ３に記憶されているデータは、ＩＦ１１を介してデータ拡張装置１０に入力される。また、データ拡張装置１０が生成した新たなデータは、ＩＦ１１を介してターゲットドメインＤＢ３に保存される。

　プロセッサ１２は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、データ拡張装置１０の全体を制御する。具体的に、プロセッサ１２は、後述するデータ拡張処理を実行する。

　メモリ１３は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、データ拡張装置１０に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。データ拡張装置１０が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。

　データベース１５は、ＩＦ１１を通じてソースドメインＤＢ２やターゲットドメインＤＢ３から入力されたデータを一時的に記憶する。なお、データ拡張装置１０は、使用者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。

　（機能構成）
　図５は、データ拡張装置１０の機能構成を示すブロック図である。図示のように、データ拡張装置１０は、ソースドメインデータ取得部２１と、ターゲットドメインデータ取得部２２と、サンプル間距離演算部２３と、データ生成部２４とを備える。

　ソースドメインデータ取得部２１は、ソースドメインＤＢ２から、データ拡張の対象となるマイナークラスについて、任意の２つのサンプルデータをランダムに取得し、サンプル間距離演算部２３へ出力する。サンプル間距離演算部２３は、特徴量空間における２つのサンプルデータの距離（以下、「サンプル間距離」とも呼ぶ。）を演算し、データ生成部２４へ出力する。なお、前述のように、サンプル間距離としては、差分ベクトル、又は、ユークリッド距離やマハラノビス距離などの距離を用いることができる。

　ターゲットドメインデータ取得部２２は、ターゲットドメインＤＢ３から、上記のマイナークラスの任意の１つのサンプルデータをランダムに取得し、データ生成部２４に出力する。データ生成部２４は、ターゲットドメインデータ取得部２２から入力された、ターゲットドメインの１つのサンプルデータと、サンプル間距離演算部２３から入力されたサンプル間距離とを用いて、ターゲットドメインの新たなデータを生成し、ターゲットドメインＤＢ３に出力する。具体的には、図２に示したように、データ生成部２４は、ターゲットドメインの１つのサンプルデータＴ１と、差分ベクトルＤなどのサンプル間距離とに基づいて、ターゲットドメインにおける新たなデータＴ２を生成する。こうして、ソースドメインのデータと、ターゲットドメインのデータとを用いて、ターゲットドメインの新たなデータが生成される。

　なお、上記の例では、ターゲットドメインデータ取得部２２は、ターゲットドメインにおける特定のマイナークラスの任意の１つのサンプルデータを取得しているが、その代わりに、ターゲットドメインにおけるそのマイナークラスの複数のデータのうちの代表データを取得してもよい。この場合、代表データとは、そのマイナークラスの複数のデータの平均値、中央値、重心などに相当するデータとすることができる。言い換えると、ターゲットドメインデータ取得部２２は、そのマイナークラスの複数のデータにより構成される特徴量データ分布から大きく外れていないデータを１つのサンプルデータとして取得する。これにより、ソースドメインの多様体の構造をターゲットドメインに適切に転写することが可能となる。

　上記の構成において、ソースドメインデータ取得部２１及びターゲットドメインデータ取得部２２はデータ取得手段の一例であり、サンプル間距離演算部２３は推定手段の一例であり、データ生成部２４はデータ生成手段の一例である。

　（データ拡張処理）
　図６は、第１実施形態によるデータ拡張処理のフローチャートである。この処理は、図４に示すプロセッサ１２が予め用意されたプログラムを実行し、図５に示す各要素として動作することにより実現される。

　まず、ソースドメインデータ取得部２１は、ソースドメインＤＢ２から任意の２つのサンプルデータを取得する（ステップＳ１１）。次に、サンプル間距離演算部２３は、２つのサンプルデータのサンプル間距離を計算する（ステップＳ１２）。次に、ターゲットドメインデータ取得部２２は、ターゲットドメインＤＢ３から、１つのサンプルデータを取得する（ステップＳ１３）。なお、この１つのサンプルデータは、前述のように、任意の１つのデータとしてもよく、データ拡張の対象となるマイナークラスの複数のデータの代表データとしてもよい。

　次に、データ生成部２４は、ステップＳ１２で計算されたサンプル間距離と、ステップＳ１３で取得されたターゲットドメインの１つのサンプルデータとを用いて、ターゲットドメインの新たなデータを生成する（ステップＳ１４）。そして、処理は終了する。なお、データ拡張装置１０は、上記のデータ拡張処理を必要な数のデータが得られるまで繰り返し行う。

　以上説明したように、第１実施形態のデータ拡張装置１０によれば、データ数が不足しているマイナークラスについて、ソースドメインの多様体の構造をターゲットドメインに転写することにより、ターゲットドメインのデータを増量することができる。よって、ターゲットドメインデータ数にクラス間のインバランスがある場合でも、適切にデータ拡張が可能となる。

　＜第２実施形態＞
　第２実施形態は、第１実施形態に係るデータ拡張装置を画像認識モデルの学習装置に適用したものである。即ち、学習装置は、マイナークラスの教師データを増量しつつ、画像認識モデルの学習を行う。

　［機能構成］
　図７は、第２実施形態に係る学習装置の機能構成を示すブロック図である。なお、第２実施形態に係る学習装置のハードウェア構成は、基本的に図４に示す第１実施形態のものと同様である。図示のように、学習装置１００は、ターゲットドメインデータ取得部１１１と、マイナークラスデータ抽出部１１２と、メジャークラスデータ抽出部１１３と、データ拡張部１１４と、特徴抽出部１１５と、特徴識別部１１６と、ソースドメインデータ取得部１２１と、マイナークラスデータ抽出部１２２と、メジャークラスデータ抽出部１２３と、特徴抽出部１２５と、ドメイン適応部１２６とを備える。この構成において、データ拡張部１１４は、第１実施形態と同様の手法で、マイナークラスについて、ターゲットドメインデータとソースドメインデータを用いてデータ拡張を行う。

　ターゲットドメインデータ取得部１１１は、ターゲットドメインＤＢ３からターゲットドメインデータを取得し、マイナークラスデータ抽出部１１２及びメジャークラスデータ抽出部１１３へ出力する。マイナークラスデータ抽出部１１２は、ターゲットドメインデータから、所定のマイナークラスのターゲットドメインデータＤｔを抽出し、データ拡張部１１４へ出力する。メジャークラスデータ抽出部１１３は、ターゲットドメインデータからメジャークラスデータ、即ち、マイナークラス以外のクラスのデータを抽出し、特徴抽出部１１５へ出力する。

　一方、ソースドメインデータ取得部１２１は、ソースドメインＤＢ２からソースドメインデータを取得し、マイナークラスデータ抽出部１２２及びメジャークラスデータ抽出部１２３へ出力する。マイナークラスデータ抽出部１２２は、ソースドメインデータから所定のマイナークラスのソースドメインデータＤｓを抽出し、データ拡張部１１４及び特徴抽出部１２５へ出力する。なお、所定のマイナークラスが複数ある場合、マイナークラスデータ抽出部１１２とマイナークラスデータ抽出部１２２は同一のマイナークラスのデータを抽出する。

　データ拡張部１１４は、マイナークラスについてデータ拡張を行う。図８は、データ拡張部１１４の構成を示すブロック図である。データ拡張部１１４は、距離演算部１３１と、データ生成部１３２とを備える。距離演算部１３１には、マイナークラスデータ抽出部１２２がランダムに抽出した、ソースドメインデータＤｓの２つのデータサンプルが入力される。距離演算部１３１は、入力された２つのデータサンプルの距離を計算し、データ生成部１３２へ出力する。ここでの距離は、前述のように、差分ベクトル、又は、ユークリッド距離その他の距離とすることができる。

　データ生成部１３２には、マイナークラスデータ抽出部１１２からターゲットドメインデータＤｔの１つのデータサンプルが入力される。データ生成部１３２は、ターゲットドメインデータＤｔの１つのデータサンプルと、距離演算部１３１が計算した距離とを用いて、図２に模式的に示した手法で新たなターゲットドメインデータＤｎを生成し、特徴抽出部１１５へ出力する。こうして、マイナークラスについてターゲットドメインデータを増量し、教師データとして学習に使用することができる。この教師データでは、新たなターゲットドメインデータＤｎが学習用画像データとなり、上述の所定のマイナークラスのクラスラベルが正解ラベルとなる。

　特徴抽出部１１５は、データ拡張部１１４から入力されたマイナークラスのターゲットドメインデータと、メジャークラスデータ抽出部１１３から入力されたメジャークラスのターゲットドメインデータのそれぞれについて特徴抽出を行い、抽出した特徴量を特徴識別部１１６及びドメイン適応部１２６へ出力する。特徴抽出部１１５は、例えばＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）などのニューラルネットワークにより構成される。特徴識別部１１６は、各ターゲットドメインデータについて、抽出された特徴量に基づいてクラス識別を行い、識別結果をそのデータに対応する正解ラベルと比較して誤差を算出する。そして、特徴識別部１１６は、算出された誤差を最小化するように、特徴抽出部１１５を構成するニューラルネットワークのパラメータを更新する。

　一方、特徴抽出部１２５は、マイナークラスデータ抽出部１２２から入力されたマイナークラスのソースドメインデータと、メジャークラスデータ抽出部１２３から入力されたメジャークラスのソースドメインデータのそれぞれについて特徴抽出を行い、抽出した特徴量をドメイン適応部１２６へ出力する。特徴抽出部１２５は、特徴抽出部１１５と同一構成のニューラルネットワークにより構成され、特徴抽出部１１５と同一のパラメータが設定される。即ち、特徴抽出部１１５と特徴抽出部１２５は同一のパラメータを共有する。

　ドメイン適応部１２６は、特徴抽出部１１５及び１２５から入力された各ドメインデータの特徴量に基づき、２つのドメイン由来のデータの特徴量データ分布の距離を近づけるように、特徴抽出部１２５を構成するニューラルネットワークのパラメータを最適化する。最適化されたパラメータは特徴抽出部１１５と共有される。従って、特徴抽出部１１５及び１２５のパラメータは、特徴識別部１１６によるクラス分類が正しく行われ、かつ、２つのドメインのデータの特徴量データ分布が近づくように最適化される。そして、所定の学習終了条件が満たされたときに学習装置１００による学習が終了し、そのときの特徴抽出部１１５のパラメータが学習済みの画像認識モデルのパラメータとして得られる。

　以上のように、第２実施形態の学習装置１００では、ターゲットドメインのデータ数が不足しているマイナークラスについて、ソースドメインデータとターゲットドメインデータとを用いて新たなデータを生成して画像認識モデルの学習を行うことができる。例えば、前述の例では、新しい車種の実写画像が不足している場合に、その車種について必要な数のＣＧ画像を用意し、少数の実写画像と、ＣＧ画像とを用いて実写画像の不足を補いつつ画像認識モデルを学習することができる。これにより、新しい車種の実写画像の入手が難しい状況においても、実用上要求される精度で車種を認識できるように画像認識モデルを学習することが可能となる。

　なお、図７に示されるように、第２実施形態の学習装置１００では、データ拡張部１１４は特徴抽出部１１５の前段に配置されており、画像データの段階で新たなデータを生成している。よって、後述する第３実施形態のように、画像データから特徴量を抽出した後の段階、即ち、特徴量データの段階でデータ拡張を行う場合と比較して、演算の負荷を小さくすることができる。

　上記の構成において、データ拡張部１１４はデータ拡張装置の一例であり、特徴識別部１１６は識別手段の一例であり、特徴識別部１１６及びドメイン適応部１２６は学習手段の一例である。

　［学習処理］
　図９は、第２実施形態による学習処理のフローチャートである。この処理は、図４に示すプロセッサ１２が、予め用意されたプログラムを実行し、図７に示す各要素として動作することにより実現される。

　まず、ターゲットドメインデータ取得部１１１はターゲットドメインＤＢ３からターゲットドメインデータを取得する。マイナークラスデータ抽出部１１２はターゲットドメインデータからマイナークラスデータを抽出し、メジャークラスデータ抽出部１１３はターゲットドメインデータからメジャークラスデータを抽出する（ステップＳ２１）。

　また、ソースドメインデータ取得部１２１はソースドメインＤＢ２からソースドメインデータを取得する。マイナークラスデータ抽出部１２２はソースドメインデータからマイナークラスデータを抽出し、メジャークラスデータ抽出部１２３はソースドメインデータからメジャークラスデータを抽出する（ステップＳ２２）。

　次に、データ拡張部１１４は、マイナークラスのターゲットドメインデータＤｔと、マイナークラスのソースドメインデータＤｓとを用いて、新たなターゲットドメインデータＤｎを生成する（ステップＳ２３）。

　次に、特徴抽出部１１５は、ターゲットドメインのメジャークラスデータ、及び、データ拡張部１１４により生成された新たなデータから特徴抽出を行う（ステップＳ２４）。また、特徴抽出部１２５は、ソースドメインのマイナークラスデータ及びメジャークラスデータから特徴抽出を行う（ステップＳ２５）。

　次に、特徴識別部１１６は、特徴抽出部１１５が抽出した特徴量を用いて画像データのクラス分類を行い、分類結果を用いて特徴抽出部１１５を構成するニューラルネットワークのパラメータを最適化する（ステップＳ２６）。具体的には、特徴識別部１１６は、クラス分類結果と、正解ラベルとの誤差に基づいて特徴抽出部１１５を構成するニューラルネットワークのパラメータを更新する。

　また、ドメイン適応部１２６は、特徴抽出部１１５及び１２５が抽出した特徴量を用いて、２つのドメイン由来の画像データの特徴量データ分布が近似するように、特徴抽出部１２５を構成するニューラルネットワークのパラメータを最適化する（ステップＳ２７）。具体的には、ドメイン適応部１２６は、ソースドメインデータとターゲットドメインデータの特徴量データ分布の距離を最小化するように特徴抽出部１２５を構成するニューラルネットワークのパラメータを更新する。

　学習装置１００は、上記の処理を所定の学習終了条件が具備されるまで行う。学習が終了した時点で特徴抽出部１１５、１２５に設定されているパラメータにより、学習済みの画像認識モデルが構成される。

　［変形例１］
　上記の実施形態では、データ生成部１３２は、１つのターゲットドメインデータＤｔと、距離演算部１３１が出力した距離を用いて新たなターゲットドメインデータＤｎを生成している。この際、データ生成部１３２は、距離演算部１３１が出力した距離に対して、所定の重みを掛けて新たなターゲットドメインデータＤｎを生成してもよい。例えば、重みの値を０～１の範囲とし、データ生成部１３２は学習装置１００による学習の初期段階では重みの値を小さめに設定してモデルの学習を行う。その後、データ生成部１３２は、特徴識別部１１６が算出するクラス分類の誤差や、ドメイン適応部１２６が判定する２つのドメイン由来の特徴量データ分布の距離を参照し、それらが収束方向であれば重みの値を徐々に増加させ、収束方向でなければ重みの値を減少するようにして、拡張するデータの特徴量データ分布を調整してもよい。

　＜第３実施形態＞
　上記の第２実施形態では、学習装置１００はデータ拡張を画像データの段階で行っている。これに対し、以下の第３実施形態では、学習装置はデータ拡張を特徴量データの段階で行う。

　［機能構成］
　図１０は、第３実施形態に係る学習装置の機能構成を示すブロック図である。なお、第３実施形態に係る学習装置のハードウェア構成は、基本的に図４に示す第１実施形態のものと同様である。図示のように、学習装置２００は、ターゲットドメインデータ取得部２１１と、マイナークラスデータ抽出部２１２と、メジャークラスデータ抽出部２１３と、データ拡張部２１４と、特徴抽出部２１５と、特徴識別部２１６と、ソースドメインデータ取得部２２１と、マイナークラスデータ抽出部２２２と、メジャークラスデータ抽出部２２３と、特徴抽出部２２５と、ドメイン適応部２２６とを備える。

　図７と比較すると理解されるように、第３実施形態では、特徴抽出部２１５がマイナークラスデータ抽出部２１２及びメジャークラスデータ抽出部２１３の前段に位置しており、特徴抽出部２２５がマイナークラスデータ抽出部２２２及びメジャークラスデータ抽出部２２３の前段に位置している。これにより、データ拡張部２１４は、特徴抽出部２１５、２２５により抽出された特徴量データを用いてデータ拡張を行うことになる。この点以外は、第３実施形態の学習装置２００の処理は、基本的に第２実施形態と同様である。

　具体的に、特徴抽出部２１５は、ターゲットドメインデータ取得部２１１が取得したターゲットドメインデータから特徴量を抽出し、マイナークラスデータ抽出部２１２及びメジャークラスデータ抽出部２１３へ出力する。マイナークラスデータ抽出部２１２は、ターゲットドメインデータからマイナークラスデータを抽出し、データ拡張部２１４へ出力する。メジャークラスデータ抽出部２１３は、ターゲットドメインデータからメジャークラスデータを抽出し、特徴識別部２１６及びドメイン適応部２２６へ出力する。

　特徴抽出部２２５は、ソースドメインデータ取得部２２１が取得したソースドメインデータから特徴量を抽出し、マイナークラスデータ抽出部２２２及びメジャークラスデータ抽出部２２３へ出力する。マイナークラスデータ抽出部２２２は、ソースドメインデータからマイナークラスデータＤｓを抽出し、データ拡張部２１４及びドメイン適応部２２６へ出力する。メジャークラスデータ抽出部２２３は、ソースドメインデータからメジャークラスデータを抽出し、ドメイン適応部２２６へ出力する。

　データ拡張部２１４は、特徴量データとしてのターゲットドメインデータＤｔの１つのデータサンプルと、特徴量データとしてのソースドメインデータＤｓの２つのデータサンプルとを用いて、データ拡張を行う。データ拡張部２１４の構成は、図８に示す第２実施形態のデータ拡張部１１４と同様である。但し、第３実施形態では、距離演算部１３１は、特徴量としてのソースドメインデータＤｓの２つのデータサンプル間の距離を演算し、データ生成部１３２はその距離を用いて新たなターゲットドメインデータＤｎを生成する。データ拡張部２１４は、生成した新たなターゲットドメインデータＤｎを特徴識別部２１６へ出力する。

　特徴識別部２１６は、データ拡張部２１４により生成されたマイナークラスのターゲットドメインデータＤｎ、及び、メジャークラスデータ抽出部２１３が抽出したメジャークラスのターゲットドメインデータのそれぞれについてクラス識別を行い、識別結果をそのデータに対応する正解ラベルと比較して誤差を算出する。そして、特徴識別部２１６は、算出された誤差が小さくなるように、特徴抽出部２１５のパラメータを更新する。

　一方、ドメイン適応部２２６は、データ拡張部２１４又はメジャークラスデータ抽出部２１３から入力されたターゲットドメインデータと、マイナークラスデータ抽出部２２２又はメジャークラスデータ抽出部２２３から入力されたソースドメインデータの特徴量データ分布の距離を近づけるように特徴抽出部２２５のパラメータを最適化する。最適化されたパラメータは特徴抽出部２１５と共有される。従って、特徴抽出部２１５及び２２５のパラメータは、特徴識別部２１６によるクラス分類が正しく行われ、かつ、２つのドメインのデータの特徴量データ分布が近づくように最適化される。そして、所定の基準が満たされたときに学習装置２００による学習が終了し、そのときの特徴抽出部２１５、２２５のパラメータが学習済みの画像認識モデルのパラメータとして得られる。

　以上のように、第３実施形態の学習装置２００によっても、ターゲットドメインのデータ数が不足しているマイナークラスについて、ソースドメインデータとターゲットドメインデータとを用いて新たなデータを生成して画像認識モデルの学習を行うことができる。

　上記の構成において、データ拡張部２１４はデータ拡張装置の一例であり、特徴識別部２１６は識別手段の一例であり、特徴識別部２１６及びドメイン適応部２２６は学習手段の一例である。

　［学習処理］
　図１１は、第３実施形態による学習処理のフローチャートである。この処理は、図４に示すプロセッサ１２が、予め用意されたプログラムを実行し、図１０に示す各要素として動作することにより実現される。

　まず、ターゲットドメインデータ取得部２１１はターゲットドメインＤＢ３からターゲットドメインデータを取得する（ステップＳ３１）。また、ソースドメインデータ取得部２２１はソースドメインＤＢ２からソースドメインデータを取得する（ステップＳ３２）。

　次に、特徴抽出部２１５は、ターゲットドメインデータから特徴抽出を行い、特徴量データとしてのターゲットドメインデータをマイナークラスデータ抽出部２１２及びメジャークラスデータ抽出部２１３へ出力する（ステップＳ３３）。また、特徴抽出部２２５は、ソースドメインデータから特徴抽出を行い、特徴量データとしてのソースドメインデータをマイナークラスデータ抽出部２２２及びメジャークラスデータ抽出部２２３へ出力する（ステップＳ３４）。

　次に、データ拡張部２１４は、マイナークラスのターゲットドメインデータＤｔと、マイナークラスのソースドメインデータＤｓとを用いて、新たなターゲットドメインデータＤｎを生成する（ステップＳ３５）。この際、データ拡張部２１４は、特徴量データであるターゲットドメインデータ及びソースドメインデータを用いて、特徴量データとしての新たなターゲットドメインデータＤｎを生成する。

　次に、特徴識別部２１６は、データ拡張部２１４が生成した新たなターゲットドメインデータＤｎ及びメジャークラスデータ抽出部２１３から出力される特徴量データとしてのターゲットドメインデータを用いて、画像データのクラス分類を行い、分類結果を用いて特徴抽出部２１５を構成するニューラルネットワークのパラメータを最適化する（ステップＳ３６）。

　また、ドメイン適応部２２６は、データ拡張部２１４又はメジャークラスデータ抽出部２１３から出力される特徴量データとしてのターゲットドメインデータと、マイナークラスデータ抽出部２２２又はメジャークラスデータ抽出部２２３から出力される特徴量データとしてのソースドメインデータを用いて、２つのドメイン由来の画像データの特徴量データ分布が近似するように、特徴抽出部２２５を構成するニューラルネットワークのパラメータを最適化する（ステップＳ３７）。

　学習装置２００は、上記の処理を所定の学習終了条件が具備されるまで行う。学習が終了した時点で特徴抽出部２１５、２２５に設定されているパラメータにより、学習済みの特徴抽出モデルが構成される。

　［変形例］
　第２実施形態における変形例１は、第３実施形態にも適用することができる。即ち、第３実施形態においても、データ拡張部２１４のデータ生成部１３２は、距離演算部１３１が出力した距離に対して、所定の重みを掛けて新たなターゲットドメインデータＤｎを生成してもよい。

　＜第４実施形態＞
　次に、本発明の第４実施形態について説明する。図１２は、第４実施形態に係るデータ拡張装置７０の機能構成を示すブロック図である。データ拡張装置７０は、データ取得手段７１と、推定手段７２と、データ生成手段７３とを備える。

　データ取得手段７１は、ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から所定のクラスの１つのターゲットドメインデータを取得する。推定手段７２は、２つのソースドメインデータを用いて、ソースドメインのデータ分布を示す多様体の構造を推定する。データ生成手段７３は、１つのターゲットドメインデータと、多様体の構造とを用いて、ターゲットドメインの新たなデータを生成する。

　図１３は、第４実施形態によるデータ拡張処理のフローチャートである。このデータ拡張処理は、図１２に示すデータ拡張装置７０により実行される。具体的に、データ取得手段７１は、ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から所定のクラスの１つのターゲットドメインデータを取得する（ステップＳ４１）。推定手段７２は、２つのソースドメインデータを用いて、ソースドメインのデータ分布を示す多様体の構造を推定する（ステップＳ４２）。データ生成手段７３は、１つのターゲットドメインデータと、多様体の構造とを用いて、ターゲットドメインの新たなデータを生成する（ステップＳ４３）。

　＜適用例＞
　上記の実施形態は、画像認識などを行うシステムにおいて、従来のクラスとは異なる新たなクラスが出現した場合に好適に適用することができる。例えば、自動車等の監視カメラシステムにおいて新しい車種が登場した場合や、工場の製造ラインなどにおける外観検査システムにおいて新たな検査対象物（即ち、新たな製品）が登場した場合などに適用することができる。

　なお、従来無かった新たなクラスが登場した場合に限らず、従来と同一のクラスの対象物を異なる方向から見たものを、別の新たなクラスとして取り扱うような場合にも、上記の実施形態を適用することができる。例えば、自動車等の監視カメラシステムにおいて、従来は車両の前方から撮影した画像（以下、「前方画像」と呼ぶ。）を用いて車種の認識を行っていたが、車両の後方から撮影した画像（以下、「後方画像」と呼ぶ。）も用いて車種の認識も行うようにシステムを改良したとする。ここで、後方画像についてクラス間にデータ数のインバランスがある場合、即ち、ある車種については後方画像のデータ数が極端に不足しているような場合にも、上記の実施形態の手法を適用することができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から前記所定のクラスの１つのターゲットドメインデータを取得するデータ取得手段と、
　前記２つのソースドメインデータを用いて、前記ソースドメインのデータ分布を示す多様体の構造を推定する推定手段と、
　前記１つのターゲットドメインデータと、前記多様体の構造とを用いて、前記ターゲットドメインの新たなデータを生成するデータ生成手段と、
　を備えるデータ拡張装置。

　（付記２）
　前記推定手段は、前記多様体の構造を、前記２つのソースドメインデータ間の特徴量の距離により推定する付記１に記載のデータ拡張装置。

　（付記３）
　前記データ生成手段は、前記ターゲットドメインのデータ分布において、前記１つのターゲットドメインデータから前記距離を有するデータを前記新たなデータとして生成する付記２に記載のデータ拡張装置。

　（付記４）
　前記データ生成手段は、前記距離に重み付けを行って前記新たなデータを生成する付記２又は３に記載のデータ拡張装置。

　（付記５）
　前記データ取得手段は、前記ターゲットドメインのデータ群から、前記１つのターゲットドメインデータをランダムに取得する付記１乃至４のいずれか一項に記載のデータ拡張装置。

　（付記６）
　前記データ取得手段は、前記ターゲットドメインのデータ群の特徴量の代表値に相当するデータを前記１つのターゲットドメインデータとして取得する付記１乃至４のいずれか一項に記載のデータ拡張装置。

　（付記７）
　前記データ取得手段は、前記ソースドメインのデータ群から、前記２つのソースドメインデータをランダムに取得する付記１乃至６のいずれか一項に記載のデータ拡張装置。

　（付記８）
　前記所定のクラスは、前記ターゲットドメインにおけるデータ数が所定数以下のクラスである付記１乃至７のいずれか一項に記載のデータ拡張装置。

　（付記９）
　前記データ生成手段は、前記新たなデータと、前記所定のクラスのクラスラベルとを含む教師データを生成する付記１乃至８のいずれか一項に記載のデータ拡張装置。

　（付記１０）
　付記１乃至９のいずれか一項に記載のデータ拡張装置と、
　モデルを用いて、前記ソースドメインのデータ群、及び、前記新たなデータを含む前記ターゲットドメインのデータ群から特徴量を抽出し、クラスを識別する識別手段と、
　前記クラスの識別結果と正解ラベルとの誤差を最小化し、かつ、前記ソースドメインのデータから抽出した特徴量と前記ターゲットドメインのデータから抽出した特徴量との誤差を最小化するように前記モデルを学習する学習手段と、
　を備える学習装置。

　（付記１１）
　ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から前記所定のクラスの１つのターゲットドメインデータを取得し、
　前記２つのソースドメインデータを用いて、前記ソースドメインのデータ分布を示す多様体の構造を推定し、
　前記１つのターゲットドメインデータと、前記多様体の構造とを用いて、前記ターゲットドメインの新たなデータを生成するデータ拡張方法。

　（付記１２）
　ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から前記所定のクラスの１つのターゲットドメインデータを取得し、
　前記２つのソースドメインデータを用いて、前記ソースドメインのデータ分布を示す多様体の構造を推定し、
　前記１つのターゲットドメインデータと、前記多様体の構造とを用いて、前記ターゲットドメインの新たなデータを生成する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　２　ソースドメインデータベース
　３　ターゲットドメインデータベース
　１０　データ拡張装置
　１２　プロセッサ
　２１、１２１、２２１　ソースドメインデータ取得部
　２２、１１１、２１１　ターゲットドメインデータ取得部
　２３　サンプル間距離演算部
　２４、１３２　データ生成部
　１１２、１２２、２１２、２２２　マイナークラスデータ抽出部
　１１３、１２３、２１３、２２３　メジャークラスデータ抽出部
　１１４、２１４　データ拡張部
　１１５、１２５、２１５、２２５　特徴抽出部
　１１６、１２６、２１６、２２６　ドメイン適応部
　１３１　距離演算部

Claims

　ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から前記所定のクラスの１つのターゲットドメインデータを取得するデータ取得手段と、
　前記２つのソースドメインデータを用いて、前記ソースドメインのデータ分布を示す多様体の構造を推定する推定手段と、
　前記１つのターゲットドメインデータと、前記多様体の構造とを用いて、前記ターゲットドメインの新たなデータを生成するデータ生成手段と、
　を備えるデータ拡張装置。
　前記推定手段は、前記多様体の構造を、前記２つのソースドメインデータ間の特徴量の距離により推定する請求項１に記載のデータ拡張装置。
　前記データ生成手段は、前記ターゲットドメインのデータ分布において、前記１つのターゲットドメインデータから前記距離を有するデータを前記新たなデータとして生成する請求項２に記載のデータ拡張装置。
　前記データ生成手段は、前記距離に重み付けを行って前記新たなデータを生成する請求項２又は３に記載のデータ拡張装置。
　前記データ取得手段は、前記ターゲットドメインのデータ群から、前記１つのターゲットドメインデータをランダムに取得する請求項１乃至４のいずれか一項に記載のデータ拡張装置。
　前記データ取得手段は、前記ターゲットドメインのデータ群の特徴量の代表値に相当するデータを前記１つのターゲットドメインデータとして取得する請求項１乃至４のいずれか一項に記載のデータ拡張装置。
　前記データ取得手段は、前記ソースドメインのデータ群から、前記２つのソースドメインデータをランダムに取得する請求項１乃至６のいずれか一項に記載のデータ拡張装置。
　前記所定のクラスは、前記ターゲットドメインにおけるデータ数が所定数以下のクラスである請求項１乃至７のいずれか一項に記載のデータ拡張装置。
　前記データ生成手段は、前記新たなデータと、前記所定のクラスのクラスラベルとを含む教師データを生成する請求項１乃至８のいずれか一項に記載のデータ拡張装置。
　請求項１乃至９のいずれか一項に記載のデータ拡張装置と、
　モデルを用いて、前記ソースドメインのデータ群、及び、前記新たなデータを含む前記ターゲットドメインのデータ群から特徴量を抽出し、クラスを識別する識別手段と、
　前記クラスの識別結果と正解ラベルとの誤差を最小化し、かつ、前記ソースドメインのデータから抽出した特徴量と前記ターゲットドメインのデータから抽出した特徴量との誤差を最小化するように前記モデルを学習する学習手段と、
　を備える学習装置。
　ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から前記所定のクラスの１つのターゲットドメインデータを取得し、
　前記２つのソースドメインデータを用いて、前記ソースドメインのデータ分布を示す多様体の構造を推定し、
　前記１つのターゲットドメインデータと、前記多様体の構造とを用いて、前記ターゲットドメインの新たなデータを生成するデータ拡張方法。
　ソースドメインのデータ群から所定のクラスの２つのソースドメインデータを取得し、ターゲットドメインのデータ群から前記所定のクラスの１つのターゲットドメインデータを取得し、
　前記２つのソースドメインデータを用いて、前記ソースドメインのデータ分布を示す多様体の構造を推定し、
　前記１つのターゲットドメインデータと、前記多様体の構造とを用いて、前記ターゲットドメインの新たなデータを生成する処理をコンピュータに実行させるプログラムを記録した記録媒体。