WO2024261877A1

WO2024261877A1 - 学習装置、学習方法、及び学習プログラム

Info

Publication number: WO2024261877A1
Application number: PCT/JP2023/022796
Authority: WO
Inventors: 伸克北条; 亮増村; 哲小橋川; 沙希水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2024-12-26
Anticipated expiration: 2025-12-20

Abstract

実施形態の学習装置（１０）は、損失関数計算部（１５２）及び更新部（１５３）を有する。損失関数計算部（１５２）は、モダリティが異なる複数の時系列データ間のアテンションを基に推定値を出力するモデルについて、時系列データ間の異なる時刻におけるアテンションの大きさに関する損失関数を計算する。更新部（１５３）は、損失関数を用いて、時系列データ間の異なる時刻におけるアテンションが小さくなるように、モデルのパラメータを更新する。

Description

学習装置、学習方法、及び学習プログラム

　本発明は、学習装置、学習方法、及び学習プログラムに関する。

　従来、マルチモーダル時系列から対応する出力情報を推定する推定器として、Transformer　Encoderを用いた技術が知られている（例えば、非特許文献１を参照）。非特許文献１には、入力された複数の特徴量時系列を時間軸方向に結合し、Transformer　Encoderを含むモデルに入力する手法が記載されている。

　非特許文献１に記載の技術におけるモデルの学習時には、マルチモーダル時系列と、対応する正解の出力情報とから構成される学習データが使用される。モデルによる推定結果と正解との間の誤差関数を最小化する基準でモデルの学習が行われる。一方、推論時には、マルチモーダル時系列が学習済みのモデルに入力されることで、推定結果が得られる。

Chen　Sun,　Austin　Myers,　Carl　Vondrick,　Kevin　Murphy,　and　Cordelia　Schmid,　"VideoBERT:　A　Joint　Model　for　Video　and　Language　Representation　Learning,"　in　Proceedings　of　the　IEEE/CVF　international　conference　on　computer　vision,　2019,　pp.　7464-7473.

　しかしながら、従来の技術には、学習データの量が少ない場合にモデルの学習を精度良く行うことが難しい場合があるという問題がある。

　マルチモーダル時系列を取り扱うモデルでは、同時刻における各モダリティに対応する特徴量時系列間の関係が重要である。例えば、映像からコミュニケーションスキルを推定するためには、発話中の身振り、話者と聞き手の表情の同調等の関係が重要である。なお、この場合、「発話中の身振り」及び「話者の表情」、「聞き手の表情」が各モダリティに相当する。

　従来の技術では、Transformer　Encoderのアテンション行列により、系列データの間の関係性をモデル化する。一方で、学習データ量が限られる場合、従来の技術によりモデルの学習を行うことは困難である。これは、従来の技術では学習データのみから高次元のアテンション行列を学習する必要があるためである。

　上述した課題を解決し、目的を達成するために、学習装置は、モダリティが異なる複数の時系列データ間のアテンションを基に推定値を出力するモデルについて、前記時系列データ間の異なるタイムステップにおけるアテンションの大きさに関する損失関数を計算する損失関数計算部と、前記損失関数を用いて、前記時系列データ間の異なるタイムステップにおけるアテンションが小さくなるように、前記モデルのパラメータを更新する更新部と、を有することを特徴とする。

　本発明によれば、学習データの量が少ない場合であってもモデルの学習を精度良く行うことができる。

図１は、第１の実施形態の学習装置の構成例を示す図である。図２は、モデルの構造を説明する図である。図３は、モダリティ間の同時刻に対応するタイムステップを説明する図である。図４は、アテンションペナルティ行列を説明する図である。図５は、学習装置の処理の流れを示すフローチャートである。図６は、プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る学習装置、学習方法、及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態の構成］
　図１を用いて、第１の実施形態に係る学習装置の構成について説明する。図１は、第１の実施形態に係る学習装置の構成例を示す図である。

　学習装置１０は、機械学習モデル（以下、単にモデルと呼ぶ。）の学習を行う。モデルは、入力されたデータの特徴を基に、推定結果を出力する。モデルは、例えばTransformer（参考文献１：Ashish　Vaswani,　Noam　Shazeer,　Niki　Parmar,　Jakob　Uszkoreit,　Llion　Jones,　Aidan　N　Gomez,　Lukasz　Kaiser,　and　Illia　Polosukhin.　Attention　is　all　you　need.　In　NIPS,　2017.）である。

　本実施形態では、モダリティが異なる複数の時系列データがモデルに入力される。モデルは、複数の時系列データ間のアテンションに基づき推定値を出力する。例えば、推定値は２値のラベルである。なお、推定値は、２値以外の離散値であってもよいし、連続量であってもよい。また、モデルは推定器と言い換えられてもよい。

　従来、モデルの学習においては、モデルによって出力された推定値と、推定値の正解との誤差が小さくなるようにモデルのパラメータが更新される。本実施形態では、さらに、「複数の特徴量時系列で同時刻に対応するデータの間の関係が重要である」という先行知識に基づき、同時刻に対応するデータの間を関連付けるようにアテンション行列を誘導する損失関数（attention　penalty　loss）が導入される。

　その結果、本実施形態によれば、先行知識を活用することで、限られた量の学習データでモデルの学習を精度良く行うこと、すなわち学習済みのモデルの精度を向上させることが可能になる。

　図２を用いて、本実施形態のモデルを説明する。図２は、モデルの構造を説明する図である。なお、図２に示すモデルは一例であり、本実施形態は他のモデルにも適用可能である。

　モデルは、販売員（seller）と顧客（buyer）という２人の話者の会話を撮影した映像及び音声を基に、販売員による発話の良い点を推定するために用いられる。モデルには、（１）式に示すデータＸが入力される。

　Ｘ_ｓｓは、販売員の音声データ（seller’s　speech）である。Ｘ_ｖｓは、販売員の映像データ（seller’s　video）である。Ｘ_ｖｂは、顧客の映像データ（buyer’s　video）である。各データは、スカラ又はベクトルで表される。

　なお、各映像データ及び音声データは、販売員が発話をしたある発話区間に対応する時刻で切り出されたデータであるものとする。なお、販売員の発話中は、多くの場合顧客は黙っているので、ここでは顧客の音声データは使用されないものとする。

　モデルは２値のラベルｌを出力する。ラベルｌが「０」であることは、「販売員の発話が十分に共感を示せていないこと」を意味する。また、ラベルｌが「１」であることは、「販売員の発話が十分に共感を示せていること」を意味する。

　すなわち、ラベルｌが「１」であれば、対応する販売員の発話が褒められるべきものであるといえる。その場合、その発話には良い点があったことが推定される。

　音声エンコーダは、データＸ_ｓｓから時系列の特徴量Ｚ_ｓｓを抽出する。また、音声エンコーダは、データＸ_ｖｓから時系列の特徴量Ｚ_ｖｓを抽出する。また、映像エンコーダは、データＸ_ｖｂから時系列の特徴量Ｚ_ｖｂを抽出する。音声エンコーダ及び映像エンコーダは、例えば事前学習済みのニューラルネットワークを用いて特徴量を抽出することができる。

　モデルは、特徴量をTransformer　Encoder層によりさらに変換し、Pooling層及びSoftmax層を経てラベルｌを出力する。なお、Transformer　Encoder層はＮ個（例えば６個）の隠れ層を含む。また、Transformer　Encoder層はＨ個（例えば、１６個）のヘッドを備えていてもよい。また、各隠れ層及び各ヘッダには、対応するアテンション機構が備えられる。ただし、Ｎ及びＨは正の整数である。

　販売員の音声データＸ_ｓｓ、販売員の映像データＸ_ｖｓ、及び顧客の映像データＸ_ｖｂは、互いにモダリティが異なるデータである。同様に、特徴量Ｚ_ｓｓ、特徴量Ｚ_ｖｓ、及び特徴量Ｚ_ｖｂは、互いにモダリティが異なる特徴量である。各データのＸの添え字を用いて、モダリティをｍ∈｛ｓｓ，ｖｓ，ｖｂ｝と表記する。このとき、Ｚ_ｍ∈Ｒ^Ｄ×Ｔｍである。すなわち、特徴量Ｚ_ｍは、Ｄ×Ｔ_ｍの行列である。ただし、Ｄは特徴量の次元である。また、Ｔ_ｍは、入力されたデータＸ_ｍの時間方向の長さである。

　図１に戻り、学習装置１０は、通信部１１、入力部１２、出力部１３、記憶部１４及び制御部１５を有する。

　通信部１１は、ネットワークを介して他の装置との間でデータ通信を行う。例えば、通信部１１はＮＩＣ（Network　Interface　Card）である。

　入力部１２は、データの入力を受け付ける。例えば、入力部１２は、例えばマウス及びキーボード等の入力装置と接続されるインタフェースである。

　出力部１３は、データを出力する。出力部１３は、例えばディスプレイ及びスピーカ等の出力装置と接続されるインタフェースである。

　記憶部１４は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１４は、学習装置１０で実行されるＯＳ（Operating　System）及び各種プログラムを記憶する。

　記憶部１４は、モデル情報１４１を記憶する。モデル情報１４１は、モデルを構築するためのパラメータである。例えば、モデル情報１４１は、Transformerに含まれる各層の重み行列等のパラメータである。

　制御部１５は、学習装置１０の全体を制御する。制御部１５は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。

　また、制御部１５は、各種の処理手順を規定したプログラム及び制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１５は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１５は、推定部１５１、損失関数計算部１５２及び更新部１５３として機能する。

　推定部１５１は、モデルを用いて、入力されたデータに対する推定値を計算する。例えば、推定部１５１は、入力されたデータＸ_ｓｓ、データＸ_ｖｓ、及びデータＸ_ｖｂからラベルｌを推定する。

　損失関数計算部１５２は、損失関数を計算する。損失関数計算部１５２は、モデルの推定誤差とアテンションペナルティ誤差の両方を最適化できるような損失関数を計算する。

　推定誤差は、ラベルの推定値と正解と誤差によって表される。アテンションペナルティ誤差は、時系列データ間の異なるタイムステップにおけるアテンションの大きさに関する誤差である。特に、アテンションペナルティ誤差については、後に詳細に説明する。以下、損失関数計算部１５２による損失関数の計算方法を説明する。

　損失関数計算部１５２は、モデルが推定値の計算過程で定義するアテンション行列を利用して損失関数を計算する。まず、アテンション行列について説明する。

　モデルは、特徴量Ｚ_ｓｓ、特徴量Ｚ_ｖｓ、及び特徴量Ｚ_ｖｂを時間軸方向に連結することで、入力ベクトルＺを構成する。ただし、ベクトルＺの各要素は行列であってもよい。

　続いて、Transformer　Encoderは、入力ベクトルのタイムステップの間の関連を、アテンション行列Ａによりモデル化する。アテンション行列Ａは、クエリ行列Ｑとキー行列Ｋのscaled　dot　productである。クエリ行列Ｑとキー行列Ｋは、入力ベクトルの各タイムステップのベクトルに対し、重み行列を掛けることで計算される。このため、クエリ行列Ｑとキー行列Ｋは、（３）式及び（４）式に示すように、各モダリティのデータに対応する部分行列から構成されるとみなすことができる。

　なお、クエリ行列Ｑとキー行列Ｋを計算するための重み行列は、Transformer　Encoderの各隠れ層における学習対象のパラメータである。すなわち、モデル情報１４１は、重み行列を含む。また、更新部１５３は、重み行列を更新する。

　Transformer　Encoderの各隠れ層には、１つ前の隠れ層から出力されたベクトルが入力される。そして、Transformer　Encoderは、各隠れ層において、入力されたベクトルに重み行列を掛けることで、クエリ行列Ｑ及びキー行列Ｋを計算する。

　ここで、各モダリティのデータｍについて、Ｑ_ｍ，Ｋ_ｍ∈Ｒ^ｄ×Ｔｍとした。すなわち、Ｑ_ｍ，Ｋ_ｍは、ｄ×Ｔ_ｍの行列である。ただし、ｄはクエリ行列とキー行列の次元である。また、Ｔ_ｍは、入力されたデータＸ_ｍの時間方向の長さである。

　クエリ行列Ｑとキー行列Ｋのscaled　dot　product　により定義されるアテンション行列Ａは、（５）式のようにブロック行列から構成される。

　ここで、softmax（・）はsoftmax関数である。ブロック行列Ａ_{ｍ１，ｍ２}∈Ｒ^{Ｔｍ１×Ｔｍ２}は、モダリティｍ_１からモダリティｍ_２へのアテンションとみなすことができる。

　モダリティ間のアテンションは、非対角のブロック行列Ａ_{ｍ１，ｍ２}（ｍ_１≠ｍ_２）により表現される。図３に示すように、非対角のブロック行列の対角成分（矩形の対角線と平行な斜めの直線）が、異なるモダリティ間の同時刻のタイムステップに対応する。図３は、モダリティ間の同時刻に対応するタイムステップを説明する図である。

　非対角のブロック行列Ａ_{ｖｓ，ｓｓ}は、図３の矩形を構成する９つの矩形の領域のうち、縦方向（Ｑ）がＶＳであり、横方向（Ｋ）がＳＳである領域に対応する。この領域の対角線には直線が引かれている。これは、ブロック行列Ａ_{ｖｓ，ｓｓ}の対角成分が、異なるモダリティ間の同時刻のタイムステップに対応するためである。

　一方、非対角のブロック行列Ａ_{ｓｓ，ｓｓ}は、図３の矩形を構成する９つの矩形の領域のうち、縦方向（Ｑ）がＳＳであり、横方向（Ｋ）がＳＳである領域に対応する。この領域の対角線には直線が引かれていない。これは、ブロック行列Ａ_{ｓｓ，ｓｓ}の対角成分が、同一のモダリティ間の同時刻のタイムステップに対応するためである。

　これより、非対角のブロック行列Ａ_{ｍ１，ｍ２}（ｍ_１≠ｍ_２）の対角成分が支配的になれば、互いにモダリティが異なる時系列データ間の異なる時刻におけるアテンションが小さくなるということができる。アテンションの大小は相対的なものであることから、言い換えると、非対角のブロック行列Ａ_{ｍ１，ｍ２}（ｍ_１≠ｍ_２）の対角成分が支配的になれば、互いにモダリティが異なる時系列データ間の同一の時刻におけるアテンションが大きくなるということができる。

　すなわち、「複数の特徴量時系列で同時刻に対応するデータの間の関係が重要である」という先行知識に従う傾向がモデルに生じることになる。なお、アテンションは、データ間の関係性の強さと言い換えられてもよい。

　そこで、損失関数計算部１５２は、非対角のブロック行列Ａ_{ｍ１，ｍ２}（ｍ_１≠ｍ_２）の対角成分が支配的であるほど小さくなるような損失関数を計算する。

　まず、損失関数計算部１５２は、（６）式及び（７）式に示すアテンションペナルティ行列を定義する。

　ここで、Ｗ^{ｍ１，ｍ２} _ｉ，ｊは、ブロック行列Ｗ^{ｍ１，ｍ２}∈Ｒ^{Ｔｍ１×Ｔｍ２}の（ｉ，ｊ）番目の成分である。σはハイパーパラメータである。また、（７）式より、非対角成分は正の値を取る。

　なお、Ｔ_ｍ１及びＴ_ｍ２は、それぞれモダリティｍ_１及びモダリティｍ_２のタイムスロットの数である。このように、モダリティごとにタイムスロットの数は異なっていてもよい。ただし、少なくともアテンションペナルティ行列が定義される範囲においては、タイムスロットを合計した時間の長さはモダリティ間で共通である。

　例えば、販売員の音声データＸ_ｓｓ（モダリティｓｓ）及び販売員の映像データＸ_ｖｓ（モダリティｖｓ）がいずれも１２秒間（時刻ｔ＝０秒～時刻ｔ＝１２秒）にわたって取得された場合を考える。また、モダリティｓｓのタイムスロットの数Ｔ_ｓｓは１２である。一方、モダリティｖｓのタイムスロットの数Ｔ_ｖｓは４である。

　つまり、モダリティｓｓのタイムスロットには、時刻ｔ＝０秒～１秒、１秒～２秒、…、１１秒～１２秒の１２個の区間が含まれる。一方、モダリティｖｓのタイムスロットには、時刻ｔ＝０秒～３秒、３秒～６秒、６秒～９秒、９秒～１２秒の４個の区間が含まれる。

　（７）式によれば、（ｉ，ｊ）＝（１２，４）の場合、ｅｘｐのかっこ内の分子の（ｉ／Ｔ_ｍ１－ｊ／Ｔ_ｍ２）^２が（１２／１２－４／４）^２＝０となり、Ｗ^{ｓｓ，ｖｓ} _１２，４は、Ｗ^{ｍ１，ｍ２} _ｉ，ｊが取り得る値の中では最小の０になる。なお、（ｉ，ｊ）＝（１２，４）に対応する成分は対角成分である。

　また、（７）式によれば、（ｉ，ｊ）＝（１１，４）の場合、ｅｘｐのかっこ内の分子の（ｉ／Ｔ_ｍ１－ｊ／Ｔ_ｍ２）^２が（１１／１２－４／４）^２＝１／１４４と小さい値となり、Ｗ^{ｓｓ，ｖｓ} _１１，４は、Ｗ^{ｍ１，ｍ２} _ｉ，ｊが取り得る値の中では小さい方の値になる。なお、（ｉ，ｊ）＝（１１，４）に対応する成分は対角成分に近い非対角成分である。

　また、（７）式によれば、（ｉ，ｊ）＝（３，４）の場合、ｅｘｐのかっこ内の分子の（ｉ／Ｔ_ｍ１－ｊ／Ｔ_ｍ２）^２が（３／１２－４／４）^２＝８１／１４４と大きい値となり、Ｗ^{ｓｓ，ｖｓ} _３，４は、Ｗ^{ｍ１，ｍ２} _ｉ，ｊが取り得る値の中では大きい方になる。なお、（ｉ，ｊ）＝（３，４）に対応する成分は対角成分から遠い非対角成分である。

　このように、アテンションペナルティ行列の非対角のブロック行列の対角成分の値は０であり、対角成分から遠くなるにしたがって、値は大きくなる。このため、アテンションペナルティ行列をヒートマップとして表すと、図４に示すようなグラデーションが現れる。図４は、アテンションペナルティ行列を説明する図である。

　損失関数計算部１５２は、Transformerの各層ｎ∈｛１，…，Ｎ｝の各ヘッドｈ∈｛１，…，Ｈ｝の損失を合計し、損失関数Ｌ_ｓｇを（８）式のように計算する。

　さらに、損失関数計算部１５２は、推定誤差、すなわち推定結果と正解ラベルの誤差を表す損失関数Ｌ_{ｌａｂｅｌ}とともに、損失関数Ｌを（９）式のように計算する。

　λ_ｓｇは、Ｌ_{ｌａｂｅｌ}に対するＬ_ｓｇ正則化パラメータであり、ハイパーパラメータとして事前に設定される。また、Ｌ_{ｌａｂｅｌ}は、例えばクロスエントロピー関数である。

　このように、損失関数計算部１５２は、モダリティが異なる複数の時系列データ間のアテンションを基に推定値を出力するモデルについて、時系列データ間の異なる時刻におけるアテンションの大きさに関する損失関数を計算する。

　更新部１５３は、損失関数を用いて、時系列データ間の異なる時刻におけるアテンションが小さくなるように、モデルのパラメータを更新する。

　図５は、学習装置の処理の流れを示すフローチャートである。図５に示すように、まず、学習装置１０は、パラメータを初期化する（ステップＳ１０１）。ここでのパラメータは、例えばTransformerの重み行列であり、モデル情報１４１に含まれる。

　次に、学習装置１０は、条件が満たされるまでステップＳ２の処理を反復し、パラメータを更新する。条件は、反復回数が一定回数を超えたこと、パラメータの更新量が閾値を下回ったこと、等である。

　学習装置１０は、forward計算を行う（ステップＳ１０２）。すなわち、学習装置１０は、入力された互いにモダリティが異なる複数の時系列データについて、モデルを用いて推定値を計算する。

　続いて、学習装置１０は、推定結果を基に推定誤差を計算する（ステップＳ１０３）。推定誤差は、例えば（９）式のＬ_{ｌａｂｅｌ}である。

　また、学習装置１０は、アテンション行列を基に、attention　penalty　loss（アテンションペナルティ誤差）を計算する（ステップＳ１０４）。アテンションペナルティ誤差は、例えば（９）式のＬ_ｓｇである。

　ここで、学習装置１０は、推定誤差とアテンションペナルティ誤差を合わせた損失関数（例えば、（９）式のＬ）が最適化されるように、back　propagation（誤差逆伝搬）を行い（ステップＳ１０５）、モデルのパラメータを更新する（ステップＳ１０６）。

［第１の実施形態の効果］
　これまで説明してきたように、損失関数計算部１５２は、モダリティが異なる複数の時系列データ間のアテンションを基に推定値を出力するモデルについて、時系列データ間の異なる時刻におけるアテンションの大きさに関する損失関数を計算する。更新部１５３は、損失関数を用いて、時系列データ間の異なる時刻におけるアテンションが小さくなるように、モデルのパラメータを更新する。

　このように、学習装置１０は、アテンションペナルティ誤差を用いた学習を行うことで、同時刻に対応するデータの間の関係性が、特徴量時系列において強くなるような傾向をモデルに生じさせることができる。これにより、本実施形態によれば、学習データの量が少ない場合であってもモデルの学習を精度良く行うことができる。

　また、損失関数計算部１５２は、複数の時系列データを基に、各成分が２つのモダリティの組み合わせ、及び２つの時刻の組み合わせに対応するアテンション行列を計算し、アテンション行列の各成分に、対応する２つの時刻が離れているほど大きくなるように重みを付け、重みを付けたアテンション行列を含む損失関数を計算する。また、更新部１５３は、重みを付けたアテンション行列の各成分が小さくなるように、モデルのパラメータを更新する。

　特に、損失関数計算部１５２は、Transformerであるモデルに含まれる１つ以上の層に入力されるクエリ行列とキー行列とのscaled　dot　productをアテンション行列として計算し、アテンション行列を構成する非対角のブロック行列の各成分に、対応する２つの時刻が離れているほど大きくなるように重みを付けるアテンションペナルティ行列を掛け、アテンション行列とアテンションペナルティ行列との積のノルムを含む損失関数を計算する。

　ここで、（５）式で説明した通り、アテンション行列Ａの各ブロック行列は、２つのモダリティの組み合わせに対応する。また、ブロック行列の各成分は、タイムスロットによって表される時刻の組み合わせに対応する。例えば、ブロック行列Ａ_{ｖｓ，ｓｓ}は、モダリティｖｓとモダリティｓｓの組み合わせに対応する。また、ブロック行列Ａ_{ｖｓ，ｓｓ}の各成分は、それぞれ行と列に割り当てられる２つのタイムスロットの組み合わせに対応する。

　また、（６）式、（７）式及び（８）式で説明した通り、アテンション行列Ａは、アテンションペナルティ行列Ｗにより、２つの時刻（例えば、ｉ番目のタイムスロットとｊ番目のタイムスロット）が離れているほど大きくなるように重みを付けがされる。

　これにより、本実施形態によれば、特にTransformerの学習を精度良く行うことができる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、学習装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、更新前のモデルのパラメータを入力とし、更新後のモデルのパラメータを出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図６は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　学習装置
　１１　通信部
　１２　入力部
　１３　出力部
　１４　記憶部
　１５　制御部
　１４１　モデル情報
　１５１　推定部
　１５２　損失関数計算部
　１５３　更新部

Claims

　モダリティが異なる複数の時系列データ間のアテンションを基に推定値を出力するモデルについて、前記時系列データ間の異なる時刻におけるアテンションの大きさに関する損失関数を計算する損失関数計算部と、
　前記損失関数を用いて、前記時系列データ間の異なる時刻におけるアテンションが小さくなるように、前記モデルのパラメータを更新する更新部と、
　を有することを特徴とする学習装置。
　前記損失関数計算部は、前記複数の時系列データを基に、各成分が２つのモダリティの組み合わせ、及び２つの時刻の組み合わせに対応するアテンション行列を計算し、前記アテンション行列の各成分に、対応する２つの時刻が離れているほど大きくなるように重みを付け、重みを付けた前記アテンション行列を含む前記損失関数を計算し、
　前記更新部は、重みを付けた前記アテンション行列の各成分が小さくなるように、前記モデルのパラメータを更新する
　ことを特徴とする請求項１に記載の学習装置。
　前記損失関数計算部は、Transformerである前記モデルに含まれる１つ以上の層に入力されるクエリ行列とキー行列とのscaled　dot　productを前記アテンション行列として計算し、前記アテンション行列を構成する非対角のブロック行列の各成分に、対応する２つの時刻が離れているほど大きくなるように重みを付けるアテンションペナルティ行列を掛け、前記アテンション行列と前記アテンションペナルティ行列との積のノルムを含む前記損失関数を計算する
　ことを特徴とする請求項２に記載の学習装置。
　学習装置によって実行される学習方法であって、
　モダリティが異なる複数の時系列データ間のアテンションを基に推定値を出力するモデルについて、前記時系列データ間の異なる時刻におけるアテンションの大きさに関する損失関数を計算する損失関数計算工程と、
　前記損失関数を用いて、前記時系列データ間の異なる時刻におけるアテンションが小さくなるように、前記モデルのパラメータを更新する更新工程と、
　を含むことを特徴とする学習方法。
　モダリティが異なる複数の時系列データ間のアテンションを基に推定値を出力するモデルについて、前記時系列データ間の異なる時刻におけるアテンションの大きさに関する損失関数を計算する損失関数計算ステップと、
　前記損失関数を用いて、前記時系列データ間の異なる時刻におけるアテンションが小さくなるように、前記モデルのパラメータを更新する更新ステップと、
　をコンピュータに実行させることを特徴とする学習プログラム。