JP7708031B2

JP7708031B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7708031B2
Application number: JP2022129482A
Authority: JP
Inventors: 靖弘生田; 敦史川本
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2025-07-15
Anticipated expiration: 2042-08-16
Also published as: JP2024026931A

Description

本開示は情報処理装置、情報処理方法、及びプログラムに関し、特に、予測値を算出する情報処理装置、情報処理方法、及びプログラムに関する。

データ間の因果関係を分析する因果分析の技術分野などにおいて、データ間の相対距離に基づいて予測値（推定値）を算出する処理が行なわれることがある。これに関連し、特許文献１に開示された因果関係学習装置は、２つのセンサによって測定された測定値間の相関を判定する相関判定部と、相関が所定の基準よりも低い場合に、結果である測定値から原因である測定値を推定することによって２つのセンサ間の因果関係を判定する推定部とを備える。また、関連する技術として、非特許文献１は、ＮＰＭＲ（Non-Parametric Multiplicative Regression）モデルを用いた因果分析について開示している。

国際公開第２０１８／１９８２６７号

Nicolaou N et al., "A Nonlinear Causality Estimator Based on Non-Parametric Multiplicative Regression", Frontiers in Neuroinformatics, Volume 10, June 2016.

特許文献１で用いられる予測式は、データ間の相対距離に基づく重みの計算式が比較的単純であるため、非線形モデルとしての表現力が乏しい。この問題を解決するためには、例えば、重みの数を増やした予測式を用いたり、予測式における重みの算出において積演算を用いたりすることが考えられる。しかしながら、そのような予測式を用いた場合、重みにかかわる計算量が増加し、多くの計算時間を要することとなってしまう。

本開示は、上記した事情を背景としてなされたものであり、データ間の相対距離の計算を含む予測式を用いた予測処理において、高速な処理を実現することができる情報処理装置、情報処理方法、及びプログラムを提供することを目的とする。

上記目的を達成するための本開示の一態様は、Ｔ（ただし、Ｔは２以上の整数）行ｍ（ただし、ｍは１以上の整数）列の行列として表される説明変数のデータと、Ｔ個の成分を有するベクトルとして表される目的変数のデータを取得するデータ取得部と、前記説明変数のデータのうち注目する行のデータと他のそれぞれの行のデータとの相対距離の計算を含む所定の予測式と、前記データ取得部が取得したデータとを用いて、前記目的変数についての予測値を算出する予測処理部とを有し、前記予測処理部は、前記他のそれぞれの行との前記相対距離がベクトルにより表された前記予測式を用いて、又は、前記他のそれぞれの行のうち前記相対距離が所定の閾値以上である行のデータを間引いて計算することにより、前記予測値を算出する情報処理装置である。

また、上記目的を達成するための本開示の他の一態様は、情報処理装置が、Ｔ（ただし、Ｔは２以上の整数）行ｍ（ただし、ｍは１以上の整数）列の行列として表される説明変数のデータと、Ｔ個の成分を有するベクトルとして表される目的変数のデータを取得し、前記説明変数のデータのうち注目する行のデータと他のそれぞれの行のデータとの相対距離の計算を含む所定の予測式と、取得した前記データとを用いて、前記目的変数についての予測値を算出し、前記予測値を算出するステップでは、前記他のそれぞれの行との前記相対距離がベクトルにより表された前記予測式を用いて、又は、前記他のそれぞれの行のうち前記相対距離が所定の閾値以上である行のデータを間引いて計算することにより、前記予測値を算出する情報処理方法である。

また、上記目的を達成するための本開示の他の一態様は、Ｔ（ただし、Ｔは２以上の整数）行ｍ（ただし、ｍは１以上の整数）列の行列として表される説明変数のデータと、Ｔ個の成分を有するベクトルとして表される目的変数のデータを取得するデータ取得ステップと、前記説明変数のデータのうち注目する行のデータと他のそれぞれの行のデータとの相対距離の計算を含む所定の予測式と、前記データ取得ステップで取得したデータとを用いて、前記目的変数についての予測値を算出する予測処理ステップとをコンピュータに実行させ、前記予測処理ステップでは、前記他のそれぞれの行との前記相対距離がベクトルにより表された前記予測式を用いて、又は、前記他のそれぞれの行のうち前記相対距離が所定の閾値以上である行のデータを間引いて計算することにより、前記予測値を算出するプログラムである。

本開示によれば、データ間の相対距離の計算を含む予測式を用いた予測処理において、高速な処理を実現することができる情報処理装置、情報処理方法、及びプログラムを提供することができる。

実施の形態にかかる情報処理装置の構成の一例を示すブロック図である。オリジナルのＮＰＭＲ予測式で示される演算をコンピュータプログラムにより実装する場合のプログラムのソースコードの一例を示す図である。ベクトル化予測式で示される演算をコンピュータプログラムにより実装する場合のプログラムのソースコードの一例を示す図である。リカレンスプロットの一例を示す図である。実施の形態にかかる情報処理装置のハードウェア構成の一例を示すブロック図である。実施の形態にかかる情報処理装置の動作の一例を示すフローチャートである。第１の実験における実験結果を示すグラフである。第２の実験における実験結果を示すグラフである。第３の実験における実験結果を示すグラフである。

以下、図面を参照して本発明の実施の形態について説明する。
図１は、実施の形態にかかる情報処理装置１０の構成の一例を示すブロック図である。情報処理装置１０は、例えば説明変数のデータと目的変数のデータとの間の因果関係を分析する因果分析を行なうために、説明変数のデータと目的変数のデータとを用いて目的変数のデータを予測する処理を行なうが、他の任意の目的のために後述する予測処理を行なってもよい。情報処理装置１０は、一例として、図１に示すようにデータ取得部１０１と予測処理部１０２とを有する。

データ取得部１０１は、予測処理に用いるデータの入力を受付ける。データ取得部１０１は、説明変数のデータ系列と、目的変数のデータ系列の入力を受付ける。本実施の形態では、説明変数のデータ及び目的変数のデータは、いずれも時系列データであるが、必ずしもこれらが時系列データでなくてもよい。特に、データ取得部１０１は、Ｔ行ｍ列の行列として表される説明変数のデータと、Ｔ個の成分を有するベクトルとして表される目的変数のデータを取得する。

具体的には、データ取得部１０１は、以下の式（１）で示される説明変数のデータを取得する。

＜式（１）＞

また、データ取得部１０１は、以下の式（２）で示される目的変数のデータを取得する。

＜式（２）＞

ここで、Ｔは２以上の整数であり、ｍは１以上の整数である。なお、ｍは、説明変数として用いられるデータの種類数を表す。すなわち、予測処理のためにｍ個の予測子が用いられる。また、Ｔは、各データ系列（各時系列データ）のデータ数である。具体的な一例を挙げると、例えば、Ｘの第１列のデータ系列は気温の時系列データであり、第２列のデータ系列は降水量の時系列データであり、Ｙが示すデータ系列は電気使用量の時系列データである。この場合、後述する予測処理部１０２は、気温の時系列データと降水量の時系列データと電気使用量の時系列データとに基づいて、電気使用量の予測値を算出することとなる。なお、これらは一例に過ぎず、各データ系列の具体的なデータは上述した例に限定されない。

なお、データ取得部１０１は、入力されたデータ系列から、Ｔ行ｍ列の行列として表される説明変数のデータと、Ｔ個の成分を有するベクトルとして表される目的変数のデータを設定してもよい。すなわち、データ取得部１０１は、行列Ｘの成分であるｘ_ｉ，ｊ（ただし、ｉは１以上Ｔ以下の整数、ｊは１以上ｍ以下の整数）及びベクトルＹの成分であるｙ_ｔ（ただし、ｔは１以上Ｔ以下の整数）のそれぞれの値を指定する入力を受付けてもよいし、入力されたデータからこれらの値をユーザの指示に従うなどして設定してもよい。また、データ取得部１０１は、後述する標準偏差σ_ｊが所定の値（例えば１）となるように、データを予め規格化してもよい。

予測処理部１０２は、説明変数のデータのうち注目する行のデータ（ｔ行のデータ）と他のそれぞれの行のデータ（ｔ行以外のそれぞれの行のデータ）との相対距離（差）の計算を含む所定の予測式と、データ取得部１０１が取得したデータ（Ｘ及びＹ）とを用いて、目的変数についての予測値を算出する。所定の予測式は、より詳細には、上述した相対距離に基づく重み計算を含む予測式である。なお、この所定の予測式では、相対距離が大きいほど、目的変数の値に対する重みが小さくなるよう重みが設定されている。

本実施の形態では、予測処理部１０２は、上述した所定の予測式として、具体的には、例えば、非特許文献１に開示されているＮＰＭＲモデルの予測式に基づく予測式（ＮＰＭＲモデルの予測式を修正した予測式）を用いて予測値を算出する。ここで、非特許文献１に開示されているＮＰＭＲモデルの予測式は、以下の式（３）のように表される。ここで、式（３）の予測式において、目的変数の値に対して適用される重みｗ_ｉ，ｊは、式（４）により表される。なお、σ_ｊは、説明変数Ｘのｊ列のデータの標準偏差である。また、本開示では、式（３）の左辺などに現われる、予測値を表す変数をｙ_ｔ^と表記することがある。

＜式（３）＞

＜式（４）＞

このように、ＮＰＭＲでは、目的変数Ｙのデータ系列のｔ番目の成分であるｙ_ｔの予測値ｙ_ｔ^を、目的変数Ｙのデータ系列のｔ番目以外のそれぞれの成分に重み付けをすることにより算出している。上記予測式から明らかなように、ＮＰＭＲモデルでは、目的変数Ｙの全ての成分、すなわちｙ_１からｙ_Ｔがいずれも実データである場合（すなわち、いずれもＮｕｌｌ値でない場合）、ｔの値として１からＴを設定することにより、ｙ_１^からｙ_Ｔ^を全て算出することができる。このため、実データであるｙ_１からｙ_Ｔのそれぞれと予測値であるｙ_１^からｙ_Ｔ^のそれぞれとを比較することで説明変数Ｘを用いた予測の精度がわかる。一方で、予測値ｙ_ｔ^の算出には、目的変数Ｙのデータ系列のｔ番目の成分であるｙ_ｔは用いられない。ｙ_１^からｙ_Ｔ^のうちいずれか一つの値（例えば、未知のｙ_ｔ）を算出するだけであれば、目的変数ＹのＴ個の成分の全てが必ずしも実データでなくてもよい。すなわち、データ取得部１０１は、Ｎｕｌｌ値（欠損値）である成分を一つ含むベクトルＹを目的変数Ｙのデータ列として取得してもよい。換言すると、データ取得部１０１が取得するＴ個の成分を有するベクトルの所定のｔ番目の成分はＮｕｌｌ値であってもよい。

式（４）からわかるように、重みは、説明変数のデータのうち注目する行のデータ（ｔ行のデータ）と他のそれぞれの行のデータ（ｔ行以外のそれぞれの行のデータ）との相対距離（差）を計算することにより算出される。ＮＰＭＲモデルは、特許文献１などに示されるモデルに比べ十分に非線形性を表現できるものの、重みに関する計算量が多く、予測値の算出にかかる処理時間が長くなってしまう。そこで、本実施の形態では、予測処理部１０２は、高速な処理を実現するために、相対距離がベクトルにより表された予測式を用い、かつ、相対距離が所定の閾値以上である行のデータを間引いて計算することにより予測値を算出する。すなわち、予測処理部１０２による予測値の計算は、相対距離のベクトル化という特徴と、データの間引きという特徴とを有する。なお、本実施の形態は、これら両方の特徴を備えるが、予測処理部１０２は、いずれか一方の特徴だけを採用して予測値の算出を行なってもよい。

まず、相対距離のベクトル化に関して説明する。発明者らは、ＮＰＭＲモデルの予測式は、相対距離がベクトルにより表された以下の予測式（式（５））に変形することが可能であることを見出した。このような変形が行なわれた予測式を、本開示ではベクトル化予測式と称すこととする。

＜式（５）＞

ここで、－tの添え字は、ｔ番目（ｔ行目）の成分が取り除かれていることを意味する。例えば、以下の式（６）に示すベクトルｙについて、ｙ_－tは以下の式（６）のように定義される。

＜式（６）＞

したがって、式（５）においてベクトルｙ_－tは、Ｔ個の成分を有するベクトルとして表される目的変数のデータ列からｔ番目の成分を除いたＴ－１個の成分を有するベクトルである。

また、式（５）においてベクトルΔｘ_－tは、説明変数のデータにおけるｔ行以外の行のデータセットとｔ行のデータセットとの相対距離を成分とするＴ－１個の成分を有するベクトルである。つまり、ベクトルΔｘ_－tは、説明変数のデータにおけるｉ行のデータセットとｔ行のデータセットとの相対距離をｉ番目の成分とするＴ個のベクトルから、ｔ番目の成分を除いて得られるＴ－１個の成分を有するベクトルである。説明変数のデータにおけるｔ行以外の行のデータセットとｔ行のデータセットとの相対距離は、説明変数のデータにおけるｔ行以外の行であるｉ行のｍ個の成分（ｘ_ｉ，１，ｘ_ｉ，２，・・・，ｘ_ｉ，ｍ）で表されるベクトルと、説明変数のデータにおけるｔ行のｍ個の成分（ｘ_ｔ，１，ｘ_ｔ，２，・・・，ｘ_ｔ，ｍ）で表されるベクトルとの相対距離とも言える。

簡単な例として、ｍ＝１の場合には、ベクトルΔｘ_－tは例えば以下のように示される。

＜式（７）＞

また、式（５）などの本開示に示される式において、演算子「・」は、内積を示す演算子（内積演算子）であり、演算子「ｏ」は、アダマール積を示す演算子（アダマール積演算子）である。また、式（５）などの本開示に示される式において、関数「ｅｘｐ」は、指数関数であり、関数「Ｅｘｐ」はベクトルの各成分に作用する指数関数である。すなわち、関数「Ｅｘｐ」は、関数「ｅｘｐ」を各成分に対しそれぞれ適用することを意味する。

図２は、オリジナルのＮＰＭＲ予測式である式（３）で示される演算をコンピュータプログラムにより実装する場合のプログラムのソースコードの一例を示す図である。また、図３は、ベクトル化予測式である式（５）で示される演算をコンピュータプログラムにより実装する場合のプログラムのソースコードの一例を示す図である。図２及び図３で示したソースコードは、プログラミング言語としてJuliaを用いた場合の例を示しているが他のプログラミング言語により予測式の演算が実装されてもよい。図３に示すように、ベクトル化予測式を用いた場合、ベクトル演算を行なうコードによる実装が可能となるため、ベクトル化前の予測式（オリジナルのＮＰＭＲ予測式）の演算を実装するコードよりもループ処理による計算の実行回数が削減されたコードにより予測値の計算が可能となる。このため、ベクトル化予測式を用いることにより、予測値の予測処理において、高速な処理を実現することができる。なお、ベクトル化予測式を用いた場合の処理の高速化は、後述する図７などに示す結果からも実験的に理解される。

次に、データの間引きに関して説明する。式（３）及び式（４）からもわかるように、ＮＰＭＲ予測式などのように相対距離に基づき重みが計算される予測式においては、説明変数Ｘのｔ行のデータとの相対距離が大きい行に対応する目的変数Ｙの成分は、予測値ｙ_ｔ^の算出における寄与度合いが低い。そこで、本実施の形態では、予測値の算出処理をさらに高速化するために、予測処理部１０２は、相対距離が所定の閾値以上である行のデータを間引いて計算することにより、予測値を算出する。具体的には、予測処理部１０２は、以下の式（８）で示される予測式を用いて予測値ｙ_ｔ^を算出する。式（８）は、式（５）に示されるベクトル化予測式をさらに変形した予測式である。なお、式（８）により計算される予測値ｙ_ｔ^は、式（３）や式（５）で示される予測式により算出される予測値の近似値となっている。

＜式（８）＞

上記式におけるΔｘ_－ｔ ^ｒｅｃは以下の式（９）により定義され、ｙ_－ｔ ^ｒｅｃは、以下の式（１０）により定義される。

＜式（９）＞

＜式（１０）＞

ここで、Ｒ（ｔ）は、説明変数のデータにおけるｔ行以外の行のデータセットとｔ行のデータセットとの相対距離に基づいて生成されるＴ－１個の成分を有するベクトルである。Ｒ（ｔ）は、相対距離が所定の閾値未満である成分、すなわち予測値の算出における寄与度合いが所定の基準以上である成分を抽出するためのフィルタとして用いられる。予測処理部１０２は、相対距離が閾値未満である行のデータを抽出するためのフィルタ、換言すると、予測値の算出における寄与度合いが所定の基準以上である成分を抽出するためのフィルタであるＲ（ｔ）を相対距離に基づいて生成し、当該フィルタを用いて相対距離が閾値以上である行のデータを間引く。Ｒ（ｔ）は、説明変数のデータ間の相対距離を表すリカレンスプロット（図４参照）においてプロットされる点に対応するものであり、以下の式（１１）、（１２）により定義される。

＜式（１１）＞

＜式（１２）＞

なお、式（１２）において、ｋ＝１，２，・・・，ｔ－１，ｔ＋１，・・・，Ｔである。すなわちｋは、１からＴまでの整数のうちｔを除く整数である。また、式（１２）において、ｄ（ｘ_ｋ，ｘ_ｔ）は、説明変数Ｘのデータにおけるｋ行のデータセットとｔ行のデータセットとの相対距離である。また、δは、上述した所定の閾値である。図４に示される、Ｒ（ｔ）とリカレンスプロットとの関係性からわかるように、式（１１）で示されるＲ（ｔ）は、時刻ｔにおけるリカレンスプロットの分布を０と１とで表現するベクトルである。

上述の通り、Ｒ（ｔ）の成分は、説明変数Ｘのデータにおけるｔ行のデータセットとの相対距離が閾値δ以上である場合に０となり、相対距離が閾値δ未満である場合に１となる。そして、式（９）に示されるように、０又は１の値をとるＴ－１個の成分を有するＲ（ｔ）とΔｘ_－ｔとのアダマール積によりΔｘ_－ｔ ^ｒｅｃが定義される。つまり、Δｘ^ｒｅｃ _－ｔは、Δｘ_－tの成分の値を変更したベクトルであって、説明変数のデータにおいてｔ行のデータとの相対距離が閾値以上である行に対応する各成分の値を０に変更したベクトルである。換言すると、Δｘ^ｒｅｃ _－ｔは、Δｘ_－tの成分の値を変更したベクトルであって、Δｘ_－tの成分のうち、相対距離が閾値以上である成分の値を０に変更したベクトルとも言える。同様に、式（１０）に示されるように、０又は１の値をとるＴ－１個の成分を有するＲ（ｔ）とｙ_－ｔとのアダマール積によりｙ_－ｔ ^ｒｅｃが定義される。つまり、ｙ_－ｔ ^ｒｅｃは、ｙ_－tの成分の値を変更したベクトルであって、説明変数のデータにおいてｔ行のデータとの相対距離が閾値以上である行に対応する各成分の値を０に変更したベクトルである。換言すると、ｙ_－ｔ ^ｒｅｃは、ｙ_－ｔの成分の値を変更したベクトルであって、ｙ_－ｔの成分のうち、Δｘ^ｒｅｃ _－ｔにおいて値が０に変更された成分と同じインデックス（要素番号）の成分の値を０に変更したベクトルとも言える。このため、式（５）に示す予測式とは対照的に、式（８）で示した予測式では、Δｘ_－ｔの各成分のうち相対距離が閾値以上である成分つまり予測値算出に対して実質的に寄与しない成分の値を０に変更したベクトルと、ｙ_－ｔの各成分のうち予測値算出に対して実質的に寄与しない成分の値を０に変更したベクトルとを用いて、予測値の算出が行なわれることとなる。予測処理部１０２は、このように、相対距離が所定の閾値以上である行のデータを間引いて計算することにより、換言すると、そのようなデータを除外して計算することにより、より少ない計算量で予測値を算出することができ、予測値の予測処理において、高速な処理を実現することができる。また、これにともない、メモリの消費も低減できる。

次に、情報処理装置１０のハードウェア構成の一例について説明する。図５は、情報処理装置１０のハードウェア構成の一例を示すブロック図である。図５に示すように、情報処理装置１０は、入出力インタフェース１５１、メモリ１５２、及びプロセッサ１５３を含む。

入出力インタフェース１５１は、必要に応じて他の装置（例えば、入力装置又は出力装置など）と通信可能に接続するためのインタフェースである。例えば、入出力インタフェース１５１は、データ取得部１０１がデータを取得するために用いられてもよいし、予測処理部１０２が予測結果を出力するために用いられてもよい。

メモリ１５２は、例えば、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ１５２は、プロセッサ１５３により実行される、１以上の命令を含むソフトウェア（コンピュータプログラム）、及び各種処理に用いるデータなどを格納するために使用される。

プロセッサ１５３は、メモリ１５２からソフトウェア（コンピュータプログラム）を読み出して実行することで、図１に示した各構成要素の処理を行う。プロセッサ１５３は、例えば、マイクロプロセッサ、ＭＰＵ(Micro Processor Unit)、又はＣＰＵ(Central Processing Unit)などであってもよい。プロセッサ１５３は、複数のプロセッサを含んでもよい。
このように、情報処理装置１０は、コンピュータとしての機能を備えている。

プログラムは、コンピュータに読み込まれた場合に、実施形態で説明される１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

次に、情報処理装置１０の処理について、フローチャートを参照しつつ説明する。図６は、本実施の形態にかかる情報処理装置１０の動作の一例を示すフローチャートである。

ステップＳ１００において、データ取得部１０１は、説明変数及び目標変数のデータを設定する。本実施の形態では、具体的には、データ取得部１０１は、予測値の算出に用いる、Ｔ行ｍ列の行列として表される説明変数のデータと、Ｔ個の成分を有するベクトルとして表される目的変数のデータを設定する。次に、ステップＳ１０１において、予測処理部１０２は、高速化のための予測式を用いて予測値を算出する。本実施の形態では、予測処理部１０２は、式（８）に示した予測式のように、データを間引いて計算することを可能になるように変形されたベクトル化予測式を用いて予測値を算出したが、予測処理部１０２による予測値の計算は、相対距離のベクトル化という特徴と、データの間引きという特徴のいずれか一方の特徴だけを採用して予測値の算出を行なってもよい。次に、ステップＳ１０２において、予測処理部１０２は、ステップＳ１０１で算出された予測値、すなわち予測結果を出力する。予測処理部１０２は、ディスプレイなどの出力装置に出力してもよいし、予測結果を記憶するために記憶装置に出力してもよい。

以上、実施の形態について説明した。情報処理装置１０によれば、予測処理部１０２は、説明変数のデータのうち注目する行のデータと他のそれぞれの行のデータとの相対距離がベクトルにより表された予測式を用いて、又は、当該他のそれぞれの行のうち相対距離が所定の閾値以上である行のデータを間引いて、予測値を算出する。前者の場合、相対距離がベクトルにより表されていない予測式をコンピュータプログラムにより演算する場合に比べて、実行されるループ処理が削減されるため、高速な処理を実現できる。また、後者の場合、予測値の算出に実質的に寄与しないデータを間引いて処理が行なわれるため、高速な処理を実現できる。また、メモリの消費も低減できる。また、特に、予測処理部１０２は、予測値の算出に用いる予測式として、ＮＰＭＲモデルの予測式に基づく予測式を用いるため、十分に非線形性を反映した予測処理を高速に実現することができる。

次に、予測処理部１０２による高速な処理についての実験結果を示す。本実験のために用いた測定環境は以下の通りである。
オペレ－ティングシステム：macOS Catalina
プロセッサ：2.8GHz、クアッドコア、Intel Core i7
メモリ：16GB、2133Mhz、LPDDR3

また、第１の実験では、テストデータとして以下により定義される２つの時系列データを用い、これらの時系列データから説明変数Ｘ及び目的変数Ｙを設定した。なお、式（１３）において、ｅ_１（ｔ）、ｅ_２（ｔ）は、ホワイトノイズである。式（１３）に示すテストデータでは、ｘ_２からｘ_１への非線形な因果が存在する。

＜式（１３）＞

また、第２の実験では、テストデータとして以下により定義される３つの時系列データを用い、これらの時系列データから説明変数Ｘ及び目的変数Ｙを設定した。なお、式（１４）において、ｅ_１（ｔ）、ｅ_２（ｔ）、ｅ_３（ｔ）は、ホワイトノイズである。式（１４）に示すテストデータでは、ｘ_１からｘ_２への非線形な因果と、ｘ_１からｘ_３への非線形な因果と、ｘ_２からｘ_３への線形な因果が存在する。

＜式（１４）＞

図７は、第１の実験における実験結果を示すグラフである。また、図８は、第２の実験における実験結果を示すグラフである。図７及び図８では、オリジナルのＮＰＭＲを用いて解析する場合の所要時間のグラフ（ラベル「NPMR」が付されたグラフ）と、相対距離のベクトル化がされたＮＰＭＲを用いて解析する場合の所要時間のグラフ（ラベル「Fast NPMR-1」が付されたグラフ）と、相対距離のベクトル化とデータの間引きを組み合わせたＮＰＭＲを用いて解析する場合の所要時間のグラフ（ラベル「Fast NPMR-2」が付されたグラフ）とを示している。図７及び図８に示されるように、本実施の形態で示される技術が用いられることにより、処理が高速化されることがわかる。特にデータ数が多いほど、また、解析対象が複雑であるほど、高速化が顕著である。

また、第３の実験では、上述した予測式とは別の予測式を用いて、データの間引きによる効果について確認した。ここでは、カーネル法を用いた予測式について検討した。具体的には、予測処理部１０２は、以下の式（１５）で示される予測式を高速に処理するために、以下の式（１６）で示される予測式を用いて処理を行なう。

＜式（１５）＞

＜式（１６）＞

式（１６）においても、上述したフィルタ、すなわち相対距離が所定の閾値未満である成分（予測値の算出における寄与度合いが所定の基準以上である成分）を抽出するためのフィルタを用いて、計算に用いられるデータが間引かれている。ここで、式（１６）におけるＲ（ｔ）は、以下のように定義され、相対距離が閾値δ未満である成分を示すインデックス（行番号）の集合を表す。なお、式（１７）において、Ｄ（ｔ_ｉ）は、データ取得部１０１が設定した説明変数Ｘのｉ行のデータを示し、Ｄ（ｔ_ｉ）は、説明変数Ｘのｔ行のデータＤ（ｔ）との相対距離が算出され、閾値と比較される。

＜式（１７）＞

予測処理部１０２は、Ｒ（ｔ）を生成し、式（１６）に示される予測式の演算を実行する。図９は、第３の実験における実験結果を示すグラフである。なお、第３の実験において用いたテストデータは、第１の実験と同様である。図９では、相対距離に基づくデータの間引きを行なわないで解析する場合の所要時間のグラフ（ラベル「通常版」が付されたグラフ）と、相対距離に基づくデータの間引きを行なって解析する場合の所要時間のグラフ（ラベル「高速版」が付されたグラフ）とを示している。図９に示されるように、フィルタを用いたデータの間引きが行なわれることにより、処理が高速化されることがわかる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記実施の形態では、情報処理装置１０が、データ取得部１０１及び予測処理部１０２の機能を有したが、これらの一部又は全ての機能が、他の装置（例えば、サーバなど）により実装されてもよい。すなわち、１以上の装置から構成されるシステムにより、上記実施の形態で説明された処理が実現されてもよい。

１０情報処理装置
１０１データ取得部
１０２予測処理部
１５１入出力インタフェース
１５２メモリ
１５３プロセッサ

Claims

Ｔ（ただし、Ｔは２以上の整数）行ｍ（ただし、ｍは１以上の整数）列の行列として表される説明変数のデータと、Ｔ個の成分を有するベクトルとして表される目的変数のデータを取得するデータ取得部と、
前記説明変数のデータのうち注目する行のデータと他のそれぞれの行のデータとの相対距離の計算を含む所定の予測式と、前記データ取得部が取得したデータとを用いて、前記目的変数についての予測値を算出する予測処理部と
を有し、
前記予測処理部は、前記他のそれぞれの行との前記相対距離がベクトルにより表された前記予測式を用いて、又は、前記他のそれぞれの行のうち前記相対距離が所定の閾値以上である行のデータを間引いて計算することにより、前記予測値を算出する
情報処理装置。
前記予測処理部は、前記相対距離が前記閾値未満である前記行のデータを抽出するためのフィルタを前記相対距離に基づいて生成し、当該フィルタを用いて前記相対距離が前記閾値以上である前記行のデータを間引く
請求項１に記載の情報処理装置。
前記所定の予測式は、ＮＰＭＲ（Non-Parametric Multiplicative Regression）モデルの予測式に基づく予測式である
請求項１又は２に記載の情報処理装置。
前記予測処理部は、前記予測式として下記の式を用いて、前記予測値を算出する
請求項３に記載の情報処理装置。
ただし、
下記の式において、
は、前記予測値であり、
ｔは、前記注目する行の行番号に対応し、
Δｘ^ｒｅｃ _－ｔは、前記説明変数のデータにおけるｔ行以外の行のデータセットとｔ行のデータセットとの前記相対距離を成分とするＴ－１個の成分を有するベクトルの成分の値を変更したベクトルであって、前記相対距離が前記閾値以上である前記行に対応する各成分の値が０に変更されたベクトルであり、
ｙ^ｒｅｃ _－ｔは、Ｔ個の成分を有するベクトルとして表される前記目的変数からｔ番目の成分を除いたＴ－１個の成分を有するベクトルの成分の値を変更したベクトルであって、前記相対距離が前記閾値以上である前記行に対応する各成分の値が０に変更されたベクトルであり、
ｅｘｐは、指数関数であり、
Ｅｘｐは、ベクトルの各成分に作用する指数関数である。
前記説明変数のデータ及び前記目的変数のデータは、時系列データである
請求項１に記載の情報処理装置。
情報処理装置が、
Ｔ（ただし、Ｔは２以上の整数）行ｍ（ただし、ｍは１以上の整数）列の行列として表される説明変数のデータと、Ｔ個の成分を有するベクトルとして表される目的変数のデータを取得し、
前記説明変数のデータのうち注目する行のデータと他のそれぞれの行のデータとの相対距離の計算を含む所定の予測式と、取得した前記データとを用いて、前記目的変数についての予測値を算出し、
前記予測値を算出するステップでは、前記他のそれぞれの行との前記相対距離がベクトルにより表された前記予測式を用いて、又は、前記他のそれぞれの行のうち前記相対距離が所定の閾値以上である行のデータを間引いて計算することにより、前記予測値を算出する
情報処理方法。
Ｔ（ただし、Ｔは２以上の整数）行ｍ（ただし、ｍは１以上の整数）列の行列として表される説明変数のデータと、Ｔ個の成分を有するベクトルとして表される目的変数のデータを取得するデータ取得ステップと、
前記説明変数のデータのうち注目する行のデータと他のそれぞれの行のデータとの相対距離の計算を含む所定の予測式と、前記データ取得ステップで取得したデータとを用いて、前記目的変数についての予測値を算出する予測処理ステップと
をコンピュータに実行させ、
前記予測処理ステップでは、前記他のそれぞれの行との前記相対距離がベクトルにより表された前記予測式を用いて、又は、前記他のそれぞれの行のうち前記相対距離が所定の閾値以上である行のデータを間引いて計算することにより、前記予測値を算出する
プログラム。