JP2005523534A

JP2005523534A - 自動的ニューラルネットモデル発生及びメインテナンス

Info

Publication number: JP2005523534A
Application number: JP2003586833A
Authority: JP
Inventors: ツォメン，; ヨー−ハンパオ，
Original assignee: コンピュータアソシエイツシンク，インコーポレイテッド
Priority date: 2002-04-19
Filing date: 2003-04-15
Publication date: 2005-08-04
Also published as: WO2003090163A3; EP1504413B1; IL164614A0; CN1647107A; CA2481433A1; EP1504413A2; BR0309382A; WO2003090163A2; KR20050007309A; US20030200189A1; AU2003223638A1; US7483868B2

Abstract

ニューラルネットモデルを増分的に形成し且つ適応的にアップデートする方法が提供される。関数近似ノードがニューラルネットモデルへ増分的に付加される。関数近似ノードに対する関数パラメータが決定され且つニューラルネットワークモデルにおけるその他のノードの関数パラメータが、ニューラルネットワークモデルへ関数近似ノードを付加する前に、その他のノードの関数パラメータを使用することによりアップデートされる。

Description

本願はニューラルネットに関するものである。特に、本願はニューラルネットモデル構築及びメインテナンスに関するものである。

人間は、それが行う多くのことにおいて、特に、問題を解決するために、パターン認識の能力を使用する。以下のものは、問題を予測及び／又は検知し且つその問題に対する解決を見つけ出すために人がどのようにしてパターン認識を使用するかの幾つかの例である。

（ａ）経験を積んだマネジャーは、顧客の購買パターンについての彼女の経験及び知識及び現在の状況（例えば、天気、週のうちの日、日付、局所的な経済等）の彼女の観察に基づいて、次に来る月に対して注文すべき商品の単位数を予測し、且つ
（ｂ）醸造監督者は時間にわたり彼の製品をサンプルし且つ彼の直感及び経験がその製品を改善するために彼が行うべき材料又はプロセスに対しての変更を彼に示唆する。

人工ニューラルネットワーク（「ニューラルネット」）技術は、同様のパターン認識能力を具備する情報処理ツールを提供し、それは種々雑多なアプリケーションに対する入力−出力モデルを提供すべく訓練することが可能である。

典型的なニューラルネットは、接続に沿って互いにデータを送信する多数の相互接続されているニューロン状処理要素（即ちノード）を有している。処理要素は、その処理要素から又はネットワークの入力から直接的に多数の入力を受取り、且つ対応する重みを該入力の各々へ乗算し且つその結果を加算して重み付けした和即ち加重和を形成する。次いで、それはその和に対して伝達関数（本明細書において、「活性化関数」及び「基底関数」とも呼称する）を適用してその要素の状態として知られる値を得る。次いで、その状態は、重み付けされた接続に沿って１つ又はそれ以上のその他の処理要素ヘパスされるか、又はネットワークの出力として供給される。集合的に、状態は短期間における情報を表わすために使用され、一方重みは長期の情報又はラーニング即ち学習を表わす。

ニューラルネットにおける処理要素は複数の層へ編成することが可能である。例えば、多層隠れ層ネットは入力層と出力層と該入力層及び出力層の間の１個又はそれ以上の隠れ層を有している。入力層の出力は隠れ層のうちの１つへパスされる。通常、隠れ層処理要素は、ネットワークが中間表現を構築することを可能とし、それはニューラルネットモデルがトレーニング即ち訓練を介してより大きな精度で所望の入力−出力マッピングを学習することを助けるような態様で入力データを結合する。隠れ層の出力は出力層へパスされ、且つ出力層は１つ又はそれ以上の出力を発生する。

トレーニング即ち訓練は、それを介してニューラルネットが、データへの露呈及び処理ノード間の接続と関連する重みの調節を介して入力−出力モデルを学習するプロセスである。トレーニングプロセスは以下のステップ、即ち、
１）特定の入力／出力タスクの例を繰り返しニューラルネットモデルへ提示し、
２）エラーを測定するためにモデル出力と所望の出力とを比較し、
３）そのエラーを減少させるためにモデル重みを修正する、
が関与する場合がある。

このプロセスは、更なる繰り返しがそのエラーを減少させなくなるまで（又はそのエラーが所定の最小値より小さくなるまで）繰り返される。その場合に、ネットワークは「訓練」されたと言われる。

例えばサンプルデータのトレーニング組でのトレーニングを介して、ニューラルネットは、人間が経験から学ぶ態様と同様にデータから関係を抽出することを学ぶことが可能であり、且つ動作中にある場合には（「コンサルテーション」即ち参照とも呼ばれる）、新たな状態（例えば、トレーニングデータ内に明示的に表現されていないもの）において妥当な解決を推測するために学習した関係をリコールすることが可能である。特定の選択したサンプルの組を適用することによりニューラルネットをトレーニングすることは、ネットワークが一般的な入力−出力モデルを開発することを助ける。訓練されたモデルは各入力パターンに対してその入力パターンと関連する１つ又はそれ以上の出力値を出力することが期待され、その場合にブラックボックスの様相を維持する（即ち、訓練されたモデル内の例えば重み及びノード等の詳細即ち内部的作業はユーザ又は観察者にとって容易に明らかなものではない）。

適切なネット構造を選択することは、機能的関係又はシステムのニューラルネット計算モデルを構築する上で実質的な役割を担う。その問題の前知識が既知ではなく、従って、通常使用されるノード活性化関数のみが使用されることが仮定されると、ニューラルネット発生プロセスにおける問題点は以下のものを包含している。第一に、ネットタイプ（例えば、ネット内の層）が選択される。ネットタイプが選択されると、ノードパラメータのみならずネット内のノードの適切な数及び接続性を決定する。

図１は７個の入力及び１個の出力のサンプルデータ組に対して、従来の単一隠れ層ネットの隠れ層内のノードの数（１から２０の範囲）に対するトレーニングエラー即ち訓練誤差のプロットを示している。図１に例示されるように、トレーニングエラーと隠れ層ノードの数との間には何等観察可能な関係が存在しないことが殆どである。従来のニューラルネットモデルにおいて使用されるノードの数は、典型的に、経験と試行錯誤により決定され、そのことは、勿論、自動モデルを構築するためには適切なものではない。

更に、従来のニューラルネットは増分的及び／又は適応的学習にとって役立つものではない。本明細書において使用されるように「増分的学習」という用語は、（ａ）ネットを新たなノードを付加して拡張することが可能であり、且つ（ｂ）拡張したネットに対する重みの新たな組の計算が最初から始めるのではなく開始点として拡張前からの重みを使用する、ことを意味している。本明細書において使用されるように「適応的学習」という用語は、ニューラルネットモデルが確立された後に、よりよい全体的な結果を達成するためにそのモデルをアップデートするために付加的なデータを使用することが可能であることを意味している。例えば、隠れ層ネットによる非線形処理はノードにわたって広く分布され且つ相互接続されており、従って、決定されたエラーに基づく重みに対する調節は非線形的に分布されねばならないので、増分的学習も適応的学習も隠れ層ネットにより効率的に達成することは不可能である。

従って、増分的及び適応的学習を容易なものとさせるニューラルネットモデル発生及びメインテナンス方法が必要とされている。

本開示は、ニューラルネットモデルを増分的に形成し且つ適応的にアップデートする方法を提供している。１実施例によれば、本方法は、（ａ）ニューラルネットモデルに対して関数近似ノードを増分的に付加し、且つ（ｂ）ニューラルネットワークモデルへの関数近似ノードの付加の前にその他のノードの関数パラメータを使用することにより関数近似ノードに対する関数パラメータを決定し且つニューラルネットワークモデルにおけるその他のノードの関数パラメータをアップデートする、ことを包含している。ステップ（ａ）及び（ｂ）は、関数近似ノードを付加したニューラルネットモデルのモデル精度が所定の精度レベルより低い場合には、繰り返すことが可能である。

１実施例よれば、１組のサンプルデータパターンを使用して関数近似ノード候補のリストを形成し、且つ該関数近似ノードは該関数近似ノード候補のリストから選択する。該関数近似ノード候補のリストは、該１組のサンプルデータパターンをクラスター階層の第一レベルにおける複数個のクラスターへ分割し、第一レベルにおける１個の選択したクラスターが所定の寸法を超えるポピュレーションを有していることを決定し、且つ該選択したクラスターを２個又はそれ以上のクラスターへ分割し且つ該選択したクラスターをクラスター階層の次のレベルにおける２個又はそれ以上のクラスターと置換させる、ことにより形成することが可能である。クラスター階層の各レベル上のクラスターはクラスター寸法に基づいており、関数近似ノード候補のソートしたリストを形成する。

ニューラルネットモデルにおけるノードに対する関数パラメータは、１組のサンプルデータパターンに対して階層的ｋ−平均（ｋ−ｍｅａｎｓ）クラスタリング法を適用することにより決定することが可能である。例えば、関数近似ノードは、ラジアル基底ノードとすることが可能であり、且つ該ラジアル基底ノードの中心及び半径は階層的ｋ−平均クラスタリング法を介して決定される。

本方法は、更に、ニューラルネットモデルがオンラインで使用されている間に、ニューラルネットモデルのモデル精度をモニタリングし、且つニューラルネットモデルのモデル精度が所定のスレッシュホールドより低い場合に、ニューラルネットモデルを適応的にアップデートすることを包含することが可能である。適応的アップデートは、新たなデータを表わすために、ニューラルネットモデルへ１個又はそれ以上の付加的なノードを増分的に付加することを包含することが可能である。その新たなデータは、サンプルデータパターンの組内において表わされることのないデータ範囲、及び／又はシステムダイナミックスにおける変化に対応することが可能である。適応的アップデートは、ニューラルネットモデルにおけるノードの関数パラメータのアップデートを包含することが可能である。適応的アップデートが限界に到達すると、ニューラルネットモデルの完全な再訓練を実施することが可能である。

１実施例によれば、付加的なノードは、新たなデータパターンにクラスタリング法を適用することにより形成することが可能である。クラスタリング法は、例えば、新たなデータパターンをほぼニューラルネットモデル内のノードの数である多数のクラスターへクラスタリングし、１個の選択したクラスターがニューラルネットモデル内の夫々のノードと関連する位置から遠く離れていることを決定し、且つニューラルネットモデルに対して該選択したクラスターと関連する付加的なノード及び該選択したクラスターの中心を付加することを包含することが可能である。

ニューラルネットモデルに対する１組の重みを決定するために、直交最小二乗法を適用することが可能である。該１組の重みは、新たなデータパターンを使用することにより及び／又はシステムドリフトを補償するために適応的にアップデートさせることが可能である。適応的アップデート前のニューラルネットモデルにおけるノードの重みは、忘却因子に基づく１組の新たな重みと結合させることが可能である。この忘却因子は、モデル劣化の原因に基づいて決定することが可能である。

本開示は、又、ニューラルネットモデルを増分的に形成する方法を提供している。１実施例においては、本方法は、関数近似ノード候補のリストを形成するために１組のサンプルデータパターンに対して階層的クラスタリング法を適用し、且つ選択した精度レベル以上の精度を具備するモデルを形成するために該関数近似ノード候補のリストから関数近似ノードを増分的に適用することを包含している。

別の実施例によれば、本方法は、１組のサンプルデータパターンへ階層的クラスタリング法を適用し、且つ関数近似ノードと関連する１組の重みを決定するために直交最小二乗法を適用することにより、ニューラルネットモデルに対する複数個の関数近似ノードを形成することを包含している。

本開示は、ニューラルネットモデル発生及びメインテナンス用のツール（方法及びシステムの形態）を提供している。トレーニングを介して学習したマッピングの適切に正確なニューラルネットモデルを効率的に構築し且つ該モデルの精度を維持するための新規な増分的及び／又は適応的方法が提供される。本明細書に記載する増分的方法は、その他のアプローチと比較して効率を提供し、且つ本適応的方法はデータの性質において又はシステム応答においての変化に応答して実行される。

１実施例によれば、モデルの効率的な増分的改善は、適切な態様でのノードの付加及び以前に学習したモデルから反復的に改善したシステムモデルパラメータの計算を包含しており、それは、従って、増分的に改善される。

別の実施例によれば、増分的学習は、階層的クラスタリングにより与えられるガイダンスに基づいて逐次的に順番付けした候補リストからのノードの付加を包含している。階層的クラスタリングのアーキテクチャは、第一レベルを超えてバイナリーとすることが可能であり且つ最大数のレベルを有することが可能である。候補リストは、最初にレベルにより、次いでクラスター寸法によりクラスターをソートすることにより発生することが可能である。トップレベルのクラスターからの関数で開始してソートしたリストからノードが選択される。モデルの精度が適切でない場合には、候補リスト内の全てのノードが使い尽くされるまで、又は所望の精度が得られるまで、更なるノードを逐次的に付加させる。この方法は、適切な精度を有しており且つ適度の寸法を有するモデルを得るために適応することが可能である。

システムダイナミックスにおける変化か又はデータの範囲、又は両方に応答して、適応性ラーニング即ち学習は、１実施例によれば、完全なリトレイン即ち再教育を得ることの必要性なしに、ネットワークパラメータ及び／又は構成を調節するための簡単な方法を包含している。この方法の下では、新たなノードを付加すべきであるか否かを決定するために新たなデータのクラスタリングを使用し、且つ基本のノードに対して及び発生した新たなノードに対しての一番上の線形重みが、オリジナルのモデルの性能における劣化の原因の決定及びトレーニングのために使用したパターンの数に基づく「忘却因子」に従って、ネット内の既存の重みと結合して新たなデータのみを使用することにより計算される。

本開示の１実施例は、増分的モデル構築及び適応的メインテナンスを与えるために、階層的クラスタリング、ラジアル基底関数及び線形直交最小二乗法の組合わせを使用することが可能である。

本発明の１実施例に基づいて、ニューラルネットモデルを増分的に形成するための例示的な方法を図２Ａを参照して説明する。階層的クラスタリング法を１組のサンプルデータパターンを適用して、関数近似ノード候補のリストを形成する（ステップＳ２１）。関数近似ノード候補のリストから選択した関数近似ノードをニューラルネットモデルへ増分的に付加して、選択した精度レベル以上の精度を有するモデルを形成する（ステップＳ２２）。

別の実施例によれば、ニューラルネットモデルを増分的に形成する方法は、関数近似ノード候補のリストを形成するために１組のサンプルデータパターンへ階層的クラスタリング法を適用し、且つ選択した精度レベル以上の精度を有するモデルが得られるまで、該関数近似ノード候補のリストから選択した１個又はそれ以上の関数近似ノードをニューラルネットモデルへ増分的に付加する、ことを包含している。関数近似ノード候補は、ガウスノード、シグモイド基底ノード、ウェーブレット基底ノード等を包含することが可能である。ノードは非線形とすることが可能である。

１つの例示的実施例に基づく階層的クラスタリング法について図２Ｂを参照して説明する。１組のサンプルデータパターンをクラスター階層の第一レベルにおいて複数個のクラスターへ分割する（ステップＳ２１１）。現在の（第一）レベルにおける１個のクラスターを選択し且つそのクラスターのポピュレーションを所定の寸法スレッシュホールドと比較する（ステップＳ２１２）。そのクラスターのポピュレーションがスレッシュホールドを超える場合には（ステップＳ２１３）、そのクラスターを分割し且つクラスター階層の次のレベルにおける２個又はそれ以上のクラスターと置換させる（ステップＳ２１４）。寸法スレッシュホールドを超えるクラスターが残存しなくなるまでこのプロセスを繰り返す（ステップＳ２１５）。

１つの例示的実施例（図２Ｃ）に基づいて候補ノード関数の順番付けしたリストを発生する方法は、クラスター階層を展開するために図２Ｂの方法を使用することが可能である。全ての残存するクラスターが適度な寸法である場合（例えば、ポピュレーションがスレッシュホールド未満）（ステップＳ２１２−Ｓ２１５）、候補ノード関数のリストは、クラスタ寸法に基づいて、クラスタ階層の各レベルにおけるクラスタをソートすることにより発生させることが可能である（ステップＳ２１６）。

１実施例（図２Ｄ）に従って、適度な精度で適度な寸法のモデルを増分的に構築する方法は、例えば、図２Ｃに示した方法を適用することにより発生した候補ノード関数のリストを使用することが可能である。候補リスト上にノード関数が存在する場合には（ステップＳ２２１）、該リスト上の最初のノード関数が選択され且つ該モデルへ付加される（ステップＳ２２２）。新たな重みが、システムエラー（又はその他の精度インジケータ）と共に、計算される（ステップＳ２２３）。該モデルの精度が適切でない場合（ステップＳ２２４）、本プロセスはステップＳ２２１へリターンし、該リスト上に残存する候補ノード関数を処理する。

別の実施例に基づいて、オフラインでニューラルネットモデルを増分的に形成し且つ該ニューラルネットモデルを適切な精度レベル及び適度な寸法に適応的に維持する方法を図３Ａを参照して説明する。関数近似ノードをニューラルネットモデルへ増分的に付加する（ステップＳ３１）。関数パラメータを該関数近似ノードに対して決定し、且つ該ニューラルネットモデルにおけるその他のノードの関数パラメータを、新たなデータ及び該関数近似ノードの付加前のその他のノードの既存の関数パラメータを使用することによりアップデートさせる（ステップＳ３２）。関数近似ノードは、該モデルが適切な精度を有するまで（例えば、図２Ｄ参照）、該ニューラルネットモデルへ付加させることが可能である（ステップＳ３１及びＳ３２）。オフラインで形成されたモデルは、デプロイ即ち配備され且つオンラインで使用される（ステップＳ３３）。モデルへの入力として新たなデータが供給される場合にモデルの精度をモニタする（ステップＳ３４）。モデルが適切に正確（例えば、最小レベルの精度を満足）なものでない場合には（ステップＳ３５）、モデルパラメータ及び／又は構成を適応的にアップデートすることが可能である（ステップＳ３６）。例えば、システムダイナミックスにおける変化により又はシステムにおけるドリフトにより適応的アップデートが必要とされる場合がある。ニューラルネットモデルは、関数近似ノードに対応するサンプルデータパターンのクラスターのうちのいずれかにより表わされる（例えば、それから離れている）ものでない新たなデータに対して不良な精度を有している場合がある。この後者のインスタンスにおいて、適応的アップデートはモデルへ付加的なノードを付加するために新たなデータを使用することが可能である。例えば、図３Ｂ及び以下の対応する説明を参照すると良い。

適応的アップデートに対する限界に到達すると（例えば、適応的アップデートを介して精度が改善されない）（ステップＳ３７）、完全なオフライン再教育に対する準備が実施され（ステップＳ３８）、次いで本プロセスはステップＳ２１において再開始する。一方、適応的アップデートがモデルの精度を改善する場合には（ステップＳ３７）、適応的にアップデートされたモデルが再配備され且つオンラインで使用され（ステップＳ３３）且つアップデートされたモデルの精度がモニタされる（ステップｓ３４）。

本開示の１実施例（図３Ｂ）に基づいてモデルの精度を維持するためにモデルを適応的にアップデートする方法（例えば、ステップＳ３６）は、例えば、システムダイナミックスにおける及び／又はデータの範囲における変化に対応する新たなデータに応答して適用することが可能である。この新たなデータはモデル内の現在のノードの数とほぼ同一のクラスターの数にクラスター化される（ステップＳ３６１）。モデル内の現在のノードから遠く離れているクラスターの場合には、対応する新たなノードはクラスター中心の位置に付加される（且つ新たなノードの出力リンク上の重みはゼロへ初期化することが可能である）（ステップＳ３６２）。１組の新たな重みが新たなデータに基づいて全ての（現在及び新たな）ノードに対して計算される（ステップＳ３６３）。新たな重みは、忘却因子を適用することにより、既存のノードの既存の重みと結合される（ステップＳ３６４）。忘却因子は、例えば、モデル性能における劣化の原因及び／又はトレーニングパターンの数に基づいて選択することが可能である。

ニューラルネットモデルにおけるノードと関連する関数パラメータは、階層的ｋ−平均クラスタリング法を使用することにより発生することが可能である。例えば、ノードはラジアル基底ノードを包含することが可能であり、且つラジアル基底ノードの中心及び半径は階層的ｋ−平均クラスタリング法を介して決定される。

全ての可能な入力パターンについてトレーニング即ち訓練することの必要性なしに、入力と出力との間の関数関係をモデル又は近似するためにいくつかのニューラルネットを訓練することが可能である。例えば、入力パターンが唯一の関連する出力値を有する各入力パターンに対して入力−出力関係が数学的関数により近似することが可能であることを意味するために、入力と出力との関係が「関数的」であると説明される（例えば、入力ｘ及びｙが４及び５である場合に、出力ｚは常に９であり、ｘ及びｙが９４及び７３である場合に、ｚは常に２６である等）。

この関数的関係は線形的又は非線形的とすることが可能である。線形性は出力（ｙ）が入力（ｘ）に対して比例的に関係している（例えば、ｙ＝２ｘ、ｙ＝５−４ｘ等）数学的性質（例えば、関数の入力と出力との間の関係に適用可能）であり、従って入力における小さな／大きな変化は出力において対応する小さな／大きな変化を発生する。ある問題が変数の間で線形関係を実現することが知られると、線形係数は周知の方法を介して数値的に、実験的に及び／又は方法論的に決定することが可能である。然しながら、現実世界においては、数学的問題における独立変数の間の関係は典型的に非線形的である（即ち、このような固定した比は存在しない）。従って、ニューラルネットが普遍的に近似的なものであるためには（ネット内に充分なノードが与えられる場合には任意の精度で任意の関数を近似するためにネットワークを使用することが可能であることを意味する）、ニューラルネットは非線形的入力−出力関係をモデル化することが可能なものであるべきである。幾つかのニューラルネットは、非線形性及び独立変数の間の相互作用を事前仕様なしに自動的にキャプチャすべく訓練することが可能である。

関数的リンクネット（「ＦＬＮ」）は入力と出力との間の関数関係をモデル化するために使用することが可能な１つのタイプのニューラルネットである。ＦＬＮは、入力ｘ及び出力ｙのベクトルで任意のスカラー関数を近似するために使用することが可能である。関数的リンク層内に完全に包含されている非線形性を有するＦＬＮの構成を図４に例示してある。関数的リンク層におけるノードは関連する非線形的基底関数を有している。ＦＬＮの例は米国特許第４，９７９，１２６号、第５，７３４，７９６号、第６，１３４，５３７号、第６，２１２，５０９号に記載されており、これらの特許は本願出願人により所有されており、引用によりその全体を本明細書に取込む。ベクトル関数はスカラー次元へ分解することが可能であり、従って複数の出力ノード又は複数のネットで近似することが可能であるので、本開示におけるＦＬＮの説明は、複数の出力ノードが存在する典型的な環境をカバーするために汎用性を失うことなしに、例えば図４に示したような１個の出力ノードの場合に焦点をあてることとする。

隠れ層ネット及びＦＬＮは、普遍的なアプロキシメータ（ａｐｐｒｏｘｉｍａｔｏｒ）即ち近似体として作用することが可能な２つのタイプのニューラルネットである。然しながら、非線形性の位置はこれら２つのタイプのネットに対して異なっている。多層隠れ層ネットの場合には、隠れ層ノードに対する活性化関数は、典型的に、非線形的である。重みの全てが線形的な重みであるが、このようなネットを訓練するために使用される方法は非線形的なものでなければならない。一方、ＦＬＮが使用される場合には、非線形性は関数的リンク層内に完全に包含される場合があり、且つネットの残部は線形的である場合がある。従って、例えば回帰を基礎としたトレーニング等の線形的トレーニング技術をＦＬＮコードと共に使用することが可能である。線形的トレーニングは、線形的代数技術を介してネット内のパラメータを解決する技術のことを意味する。

両方のタイプのネット（即ち、多層隠れ層ネット及び関数的リンクネット）が普遍的なアプロキシメータである場合があるが、幾つのノードで充分であるかはデータ及び／又は問題に従って異なる。更に、初期的組の重み及び／又はネット内の関数パラメータは、通常、ランダムに発生されるので、結果的に得られる訓練されたネットは、通常、単にエラー空間内の局所的最小である（例えば、関連するエラーは最小にあるものと思われる）。訓練したネットの結果が局所的最小にあるということは、かなりの数の異なる初期的重み及び／又はパラメータ値の組を試みるものでない場合には、更に１個のノードを付加することはモデルエラーを全く減少させるものではない場合があるということである。このことは、ランダムに発生されたパラメータ値が線形問題を特異的なもの（例えば、問題空間におけるある点において未定の数学的導関数が存在している）とさせることがない限り、線形的に訓練可能なＦＬＮにとってそれ程問題ではない。従って、トレーニングエラーが局所的な最小に安定化することの問題は、隠れ層ネットの場合により顕著であり且つ発生する蓋然性が高い。

本開示のニューラルネットモデル発生及びメインテナンス方法（ここでは、集合的に「直交関数的リンクネット方法」又は「ＯＦＬＮ方法」と呼称する）は、好適実施例に従って、効率的で高性能の関数近似ニューラルネットを発生するために適用することが可能である。ＯＦＬＮ方法は、又、モデル化したシステムから得られるデータに従ってネットを自動的にアップデートすることが可能であるように、主題のネットのメインテナンスのための規則を包含している。

線形出力ノードを具備するＦＬＮは、ＯＦＬＮ方法の下でのネットタイプとして選択される。ＦＬＮの１つの利点は、直交最小二乗（ＯＬＳ）学習法（以下に説明する）等の線形回帰トレーニング技術を増分的及び適応的ラーニング即ち学習を達成するために使用することが可能であるということである。

ＯＦＬＮ法の下で、関数近似ノードの適切な数はノードのパラメータと共に考慮される。ラジアル基底関数近似ノード（後述する）の場合には、パラメータは中心位置、及び、幾つかの場合には、実効半径を包含している。ランダムな中心と結合して発見的な半径を使用する場合があり、又はランダムに選択した既存のパターン状に中心を配置させる場合がある。然しながら、１つの欠点は、使用可能なデータを表わす能力についてパラメータの品質を決定することが困難な場合があるということである。従って、良好なモデルに到達するためには、複数の試行及び／又はユーザ経験、即ちある問題に対して特定的な発見的手法が必要となる場合がある。ＯＦＬＮ法の下で、データははっきりしており、即ち、候補の中心及び半径の値は階層的クラスタリング（後述する）を介して発生される。

ラジアル基底ＦＬＮ、階層的クラスタリング及び直交最小二乗法の利点を結合して、ＯＦＬＮ法は、１組のトレーニングデータが使用可能である場合には、システムの適切なモデルの自動的な発生を与えるために適用することが可能である。ＯＦＬＮ法により作成されるモデルは、又、適応的にアップデートさせることが可能である。新たなデータが蓄積する場合にオフラインで周期的に実施することが可能な実効的モデル構築、及び新たなデータが使用可能である場合にオンラインで実施することが可能な適用的モデルアップデートの組合わせは、そのモデルによる最適性能を維持するためのツールを提供する。

ＯＦＬＮ法は以下のものを包含する多数の特徴を提供し、それは該方法を新たな且つ複雑な実世界の問題を解決するのに特に適した方法としている。

（ａ）ラーニング：我々が経験から学習する態様と類似した態様で、主題の方法がデータから関係を抽出することにより解決を展開する；
（ｂ）多次元：主題の方法の下で、ある問題の特徴の全てを有限の数のデータストリームを一度に解析する人間の能力及び多くの特徴を有する問題を解決するために多大の複雑なプログラミングを必要とする場合がある従来の逐次的なアルゴリズムと対比して、一度に考慮することが可能であり、
（ｃ）非線形：主題の方法は、問題の基礎となる性質の何等かの知識が前もって知られているか又は仮定され且つ解がその形態に制限されることを必要とする従来のモデリング又は問題解決技術に拘束されるものではなく、
（ｄ）適応的：本モデルは新たなデータを受付けるために容易にアップデートすることが可能であり、その問題の知識を継続的に改善するものである。

直交最小二乗法
直交最小二乗学習法は増分的学習法である。

ＦＬＮは、１組の観察された関連する入力−出力パターン対｛（ｘ_p，ｙ_p）｝が与える場合、尚ｐ＝１，．．．，Ｐ（Ｐはパターン対の数）、以下の／カラー関数、
ｙ＝ｙ（ｘ）（１）
を近似するために訓練することが可能である。

図４に例示したネットを使用して、式（１）における関数に対する近似を表わすために１組の非線形基底関数ｆ_j（ｘ）、尚ｊ＝１，．．．，Ｊ（Ｊはノード数）、の以下の線形和を使用することが可能である。

式（２）は近似であるので、真の等式とするためにはその式の右側に更にエラー項が存在している。然しながら、説明の便宜上このエラー項は式（２）において削除している。ガウス等のラジアル基底関数が式（２）におけるｆ_j（ｘ）としてしばしば選択されるが、シグモイド又はウェーブレッド等のその他の関数も使用することが可能である。式（２）内へ既知のパターンを代入すると、Ｐ個の連立方程式が得られる。Ｐ（即ち、パターン対の数）は通常Ｊ（即ち、関数近似ノードの数）よりも著しく大きいので、問題は過剰特定（ｏｖｅｒ−ｓｐｅｃｉｆｉｅｄ）され且つ解はエラーの二乗の最小和、即ち最小二乗の意味においてのみ得ることが可能である。

最小二乗に基づくトレーニング法がネットを訓練するために使用される場合には、使用される基底関数の数が多ければ多い程、発生するトレーニングエラーはより小さく、その場合に、選択される基底関数が結果的に発生する線形システムをほぼ特異的なものとさせるものでないものと仮定している。然しながら、目標とするところは、勿論、暗示的な関数関係を真に表わす近似を得ることである。訓練したネットは、パターンの妥当性検査組（例えば、トレーニング組とは別個のテスト組）の助けを借りてテストすることが可能である。妥当性検査組でのテストが学習した関係が妥当性検査組にわたり広く有効なものではないことを表わす場合には（例えば、学習した関係が、トレーニング組内にはない入力パターンが適用された場合に適切な出力を発生するものではない）、トレーニング組パターンのみに対しての小さなエラーは学習プロセスの満足の行く結果ではない。このような条件下において、モデルを洗練化させるために増分的学習及び／又は適応的学習技術を適用することが可能である。

式（２）から得られた連立方程式の組は、以下の如くに行列形式で書くことが可能であり、

又は、
Ｆｗ＝ｙ（４）
である。

非線形関数ｆ_j（ｘ）の各々はパラメータにより記述される。これらのパラメータはトレーニングプロセスにおいて変化させることが可能であるが、それらは、通常、予め選択されており且つ一定に止まり一方このようなネット構成に対するトレーニングプロセス期間中に、線形的重みのみが調節される。

線形最小二乗技術を使用して、式（４）に対する解は以下の如くに表わすことが可能である。

然しながら、実際の計算においては、重み係数ｗは、通常、式（５）に対応する擬似逆技術ではなく、Ｆ^tＦの特異値分解（ＳＶＤ）又はＬＵ分解を使用して直接的に計算される。この計算は、Ｆが固定されている場合には、簡潔である。Ｆが動的に関数近似ノードを付加する場合におけるようにトレーニング期間中に増大される場合には問題が発生する。Ｆにおける唯一の変化は付加された列であっても、ｗの直接的な計算は増大されたＦ^tＦの全く新たなＳＶＤ又はＬＵ分解を必要とする場合がある。

トレーニング期間中におけるＦの増大を取り扱うために、ＯＬＳ法は直交化のエキストラなステップを与える。このエキストラなステップは、Ｆが増大される前の計算からの結果の殆どを、例えば、回帰的態様でＦが増大された後に再使用させることを可能とする。

式（４）において、行列Ｆの各行はＪ基底関数による単一パターンベクトルの表現である。従って、行列ＦはＪ基底関数によるＰ個のパターンベクトルの全体的な組の表現である。行列Ｆは、以下の如くに、列ベクトルｆ_jの１つの業として考えることも可能である。

ＯＬＳ法において、１組の直交ベクトルｈは以下のようにしてグラム・シュミット（Ｇｒａｍ−Ｓｃｈｍｉｄｔ）態様におけるｆ個のベクトルから構築することが可能である。

係数Ｃ_kiは以下の直交条件により決定される。

＜ｈ_iｈ_k＞＝＜ｈ_iｆ_k＞−Ｃ_ki＜ｈ_iｈ_i＞＝０
従って、

が得られる。

この表記法の場合、行列Ｆは以下の如くに書くことが可能であり、
Ｆ＝ＨＡ（９）
尚、Ａは上三角行列でありその要素として係数を有しており且つその対角線上に１を有している。

式（４）は以下の如くに書き直すことが可能である。

ＨＡｗ＝ｙ（１０）
次のように表わすことにより、
ｇ＝Ａｗ（１１）
該１組の連立方程式は以下のように変換される。

Ｈｇ＝ｙ（１２）
ｇに対する最小二乗解は以下の如くである。

尚、Ｈ^tＨは以下の対角行列であり、

従って（Ｈ^tＨ）^-1は以下の通りである。

別のｈベクトルがこの式に付加されると、新たなｇベクトルが以下の如くにして回帰的に評価することが可能であり、それは簡単な線形代数で示すことが可能である。

ｗに対する解は以下の如くである。

ｗ＝Ａ^-1ｇ（１７）
Ａは上三角行列であるので、逆行列Ａ^-1も以下の如くにして回帰的に計算することが可能である。

新たなｇベクトル及びＡ^-1行列を使用して、新たな重みベクトルを式（１７）を使用して得ることが可能である。

従って、関数的リンク層内に完全に包含されている非線形性を有するＦＬＮは、ＯＬＳ法を適用することにより増分的に構築することが可能である。ＯＬＳ法はノードの数に関し自然な制御を与える。ノードがネットへ付加されると、トレーニングのエラーは、通常、減少する。トレーニングの目標に到達するか又は過剰トレーニングの符号が明らかとなると、ノードの付加は停止する。

階層的クラスタリング
ＯＬＳ法はトレーニング時間の期間中に、新たな関数近似ノードを容易に付加することを可能とする。次の問題は、どの新しいノードを付加すべきであるかということであり、即ち、新たなノード関数においてどのパラメータを使用すべきであるかということである。

ランダム選択が１つの技術である。ランダムベクトルＦＬＮはランダムに選択したノードパラメータを使用し、且つそれへＯＬＳ法を適用することはこのタイプのネットの自然な拡張である場合がある。然しながら、ランダムに選択したパラメータは、データ配布の適切なカバレッジを与えるものでない場合があり、且つ集団ネット技術において説明したような良好なモデルを得るためには多数の（ランダム選択）試行が望まれる場合がある。

ＯＦＬＮ法は、１実施例によれば、関数的リンク層においてラジアル基底関数近似ノードを使用する。ラジアル基底関数的リンク層ノードを使用することの１つの利点は、中心及び半径を発生するためにクラスタリング法を使用することが可能であるということである。

ｋ−平均（ｋ−ｍｅａｎｓ）クラスタリング法は、中心及び半径を決定するために使用することが可能である。クラスターの数は、典型的に、トレーニング即ち訓練の前には未知であるので、１実施例によれば、ノードパラメータを発生するために階層的ｋ−平均クラスタリング（後に説明する）を使用することが可能である。この階層的ｋ−平均クラスタリング法は分割的技術である。全体的なサンプルデータの組が、最初に、小さな数のクラスターへクラスター化される。結果的に得られるクラスターのポピュレーションに依存して、大きなものは、そのクラスターのポピュレーションが適当なものであるか又はクラスター階層内のレベル数が選択した最大値を超えるまで、更により小さなクラスターへ分割される。レベル数に関する限界を使用して結果的に得られるモデルの最大複雑性を制御する。ｋ−平均法はクラスタリングの各レベルにおいて使用される。

単一レベルクラスタリングと比較して階層的クラスタリングを使用する場合に幾つかの利点が存在している。例えば、幾つかのその他のクラスタリング法によって最初に必要とされるような発生されるべきクラスターの数又はクラスターの半径を推測することは必要ではない。更に、クラスター階層における異なるレベルは異なるレベルの詳細においてのデータの記述を表わす。異なるレベルはモデルを構築する上で極めて重要である。何故ならば、モデルを良好に一般化させるためには、トレーニングエラーが許容可能なものである限り、ネット内において小数のノードを有することが良好だからである。異なるレベルの詳細の場合には、ネットは第一レベル上で粗い記述で開始することが可能であり、且つトレーニングエラーが満足のいくものでない場合には、モデルが許容可能なものとなるまでより低いレベルのクラスターからの結果を使用して付加的な詳細を付加することが可能である。これは自動的に適切な複雑性のモデルを発生する。

多くのその他の方法の下では、ノードの数は、しばしば、十分な詳細を得るために必要以上に大きなものに選択される。然しながら、前方選択か又は後方排除のいずれかが複雑性を制御するために望ましいものである場合がある。階層的クラスタリングの場合には、そのプロセスは前方選択と同等である。然しながら、同一又は次のレベルにおけるクラスターのみが考慮されるので、候補の数はどの段階においてもより小さいものである。次のレベルのクラスターを発生する上でｋの小さな値（例えば、２）の場合には、全体的な選択プロセスを排除することが可能である。何故ならば、残存する同一のレベル又は次のレベルのクラスターの間での最大のポピュレーションを有するクラスターに対応する候補を単に付加することは、前方選択で得られるものと同様の性能を達成するからである。この簡単化は、しばしば、トレーニング時間を著しく減少させる場合がある。

適応的モデルアップデート
最善の環境の下においても、モデルは、そのモデルを訓練したデータが収集される時間期間中のその基礎となる関数関係又はシステムの近似に過ぎない。モデルをアップデートする動機に貢献する多数のファクタが存在している。

同一の入力が異なる時間に供給されると、モデルは同一の計算された出力値をリターンすべきである。然しながら、その値は、必ずしも、モデル中の関数関係又はシステムを表わすものではない。観察されるノイズが、典型的に、古い計算された値を新たに観察されるものから幾分異なったものとさせる。

モデルが陳腐化している場合がある。システムの数学的モデルの使用において、焦点は入力におかれ、システムパラメータは定数であると考えられる。然しながら、モデルが確立された後に、システムパラメータはドリフトし且つ基礎となるシステム挙動をシフトさせる場合がある。例えば、運転者が自動車のブレーキペダルをより深く踏み込むと、その自動車はより速く停止し、且つブレーキペダルが移動する特定の距離に対してどれ程速く自動車が停止するかを予測するためにモデルを構築することが可能である。然しながら、ブレーキパッドが磨耗して薄くなり且つブレーキ流体が時間と共に老化するに従い、ブレーキペダルにおける同じ量の移動は自動車を前よりもより遅く停止させることとなる。

例えばＦＬＮモデルにおける重み等の幾つかの適当なパラメータをアップデートすることにより、ノイズ又はシステムドリフトに起因する僅かな変化を補償することが可能である。新たに使用可能なデータは前のトレーニングデータにおけるノイズを相殺させ、即ちモデルをより最新なものとさせることに貢献することが可能である。実際上、通常はノイズとドリフトの両方が存在するので原因がノイズであるか又はドリフトであるかを決定することは困難であり、且つ短期的にはノイズ効果が支配的であるが、ドリフトは経年変化に起因する場合があり且つ長期的に支配的なものとなる蓋然性がある。

モデルのアップデートが所望される別の状態は、新たに使用可能なデータにおいて新規な事例が識別される場合である。新規なデータの事例の場合には、既存のノードに関連して重みを変化させることが新規なデータの効果を表わすのに充分でない場合がある。新規な事例が存在するデータ領域に関連する新たなノードを付加することはこの問題を対処するために使用することが可能である。再度、新たなノード関数の位置及び広がりを決定するためにクラスタリングを使用することが可能である。クラスタリングの結果からの中心があると、既知の領域の外側に該当するパターンを識別することが容易である。

トレーニング法内の非線形性のために従来の多層隠れ層ネット構成に対して適用性ラーニングを実施することは困難であるが、例えばＯＦＬＮ法により発生されたネットのような関数的リンク層内に包含されている非線形性を有するＦＬＮに対する適応的アップデートは以下のようにして実施することが可能である。

１組の新たに得られた関連するパターン対｛（ｘ′_p，ｙ′_p）｝が与えられ、その場合にｐ＝１，．．．，Ｐ′であり且つＰ′がトレーニング組内のオリジナルのパターン数Ｐよりも著しく小さい場合には、正当なものであるとして付加的なノードで補充された同一のラジアル基底関数近似ノードを使用して新たなＦ′行列を得ることが可能である。式（５）に相当する最小二乗解ｗ′を得ることが可能である。ｗがモデルにおける現在の重みを表わすものと仮定すると、付加的なノードからのリンクに対してゼロとし、新たな重みｗ_newは次式を使用して得ることが可能である。

尚、αは０と１との間のパラメータである。αの決定は、例えば以前のトレーニング組と比較して新たな組におけるパターンの数、前のものに対して新たに使用可能な組における信頼水準、基礎となるシステムにおける推定される変化割合、及びモデルが最初に確立されてから経過した時間等の幾つかのパラメータに基づいている。パラメータαを計算する１つの方法は次式を使用することであり、

尚Ｐ及びＰ′は夫々現在のモデルを訓練するために使用したトレーニング組における及び新たな使用可能なデータ組におけるパターンの数である。パラメータλは忘却因子（ｆｏｒｇｅｔｔｉｎｇｆａｃｔｏｒ）である。その値も［０，１］内にある。λの値が高ければ高い程、既存の重みｗが新たな重みｗ_newに与える効果はより少ない。換言すると、現在の重みはより大きな程度忘却される。λを導入することの利点は、パラメータαに対する決定プロセスのタンジブルでない部分からタンジブルな部分（即ち、パターンの数）を分離することである。

適応的ラーニング即ち学習は、ノイズ及びドリフトの両方により発生された差異を減少させることに貢献することが可能であるが、これら２つの原因の間に区別が存在している。所望の応答を得るためには、入力パラメータはゼロ平均ノイズにより発生される差異に対して尚且つ同一の近傍にある場合があるが、ドリフトにより発生される差異に対して次第に異なるものである場合がある。更に、モデルをアップデートするための所望の動作も異なるものである。ノイズの場合には、既存のモデルにおけるパラメータは同じ重要性で取り扱われる。対照的に、ドリフトの場合には、忘却されることが必要である。パラメータλが式（２０）においてこの目的のために設けられている。

モデルパラメータの適応的アップデートが動作するためには、関数関係即ちモデルにおける一般的な基礎となる原理が未だ有効なものであり且つ変化の量が小さなものである。これらの条件が成立しない場合には、完全に新しいモデルが確立される。その変化がゆっくりなものであるとしても、変化の量は時間と共に顕著なものとなる場合がある。従って、適応的アップデートは短期間の解決方法として最善のものである。新たなデータが蓄積するに従い、周期的に又はｗ_newがオリジナルのｗから著しく異なる場合には、完全なリトレイン即ち再教育を行う。適応的アップデートと完全な再教育との間の差異は、適応的アップデートは全ての既存のノードを維持し且つそれらに対する重みのみを調節するに過ぎないが、完全な再教育の場合には、全ての関数近似ノード（及び重み）が新たに発生される。完全な再教育は、良い性能を提供するが、著しく時間がかかるものである。周期的にオフラインから完全に再教育したモデルをインストールすることと結合してしばしばオンラインモデルに対して適応的アップデートを実施することは、モデルが常に最新状態にあることを確保するための効果的な技術である。

以前のトレーニングデータがアーカイブされているか否かはトレードオフ問題である。適用的アップデートはそのうちのいずれを必要とするものではない。完全な再教育がそれらを使用するか否かは、その再教育が大量の新たなデータにより要求されているか又は重みにおける大きな差異により要求されているかに依存する。後者の場合（即ち、重みにおける大きな差異）であって新たなデータの量が小さい場合には、以前のトレーニングデータの全て又は幾つかでの再教育が所望される場合がある。然しながら、速く変化する状態の場合には、古いデータを捨てることがより良い結果を発生する場合がある。殆どの場合に充分に動作する１つの技術は、固定した量のデータを維持し新たなものが使用可能となる場合に古いものを捨てることである。

例
ＯＦＬＮ法を使用することによる自動的モデル発生及びアップデートのプロセスを例示するために簡単な非線形時系列例について以下について説明する。この例は、模範的にネットワーク性能及びネットワーク中心の位置決めに対して適用することが可能である。

非線形時系列は次式によりシミュレーションされる。

尚ｅ（ｔ）は偏差０．０１を有するゼロ平均ノイズシーケンスである。初期条件はｙ（０）＝０．１及びｙ（−１）＝０に設定した。現在の点の値を予測するために前の２つの点を使用している。

２０００個のサンプルの時系列を発生させた。最初の１０００個のパターンをトレーニング組として使用し且つ残りの１０００個をバリデーション即ち妥当性検査組として使用した。関数近似ノードとしてガウスを使用した。中心は、クラスター中心を使用して決定し、且つ広がりはクラスターの半径を使用して決定した。最初のレベルにおいて３個のクラスターを有し次の２つのレベルにおいて２分岐を行う最大で３個のレベルまでの階層的ｋ−平均クラスタリングを使用した。この階層的クラスタリングは全部で２１個のクラスターを発生した。これらのクラスターを昇順レベル及び降順ポピュレーションに基づいてソートした。ネットは最上レベルクラスターに対応する３個のノードで開始し、且つノードは逐次的にクラスターのリストから付加させた。５ｅ−４のエラー目標の場合に、全部で１２個のノードを選択した。妥当性検査組に対するエラーも５ｅ−４未満であり、結果的に得られるモデルの良好な一般化能力を表わしている。

図５は、トレーニングパターン、ノイズのない限界サイクル、モデル出力が入力へフィードバックされた場合のモデルにより発生される限界サイクル、及びクラスタリングの異なるレベルからのクラスター中心の位置を、シミュレーションした非線形時系列及びＦＬＮモデルからの結果について示している。小さな点はトレーニングパターンに対応している。灰色のループはノイズのない限界サイクルに対応している。黒色のループは出力を入力へフィードバックさせた場合のＦＬＮモデルにより発生される限界サイクルに対応している。大きな黒色の円は第一レベルクラスターの中心の位置に対応している。三角形は第二レベルクラスターに対応している。菱形は選択した第三レベルクラスターに対応している。選択した中心は戦略的な位置にあるものと思われ且つモデルにより発生された限界サイクルはノイズのないシステム限界サイクルと良好に一致している。

適応的モデルアップデート及びモデルの周期的な再教育の結合を介して最適なモデル性能を維持するプロセスを例示するために、以下のようにしてｔ＞１０００に対して、式（２１）に対応する非線形時系列システムに対して一定のドリフト項を付加する。

各組において５００個のパターンを包含する２つの付加的なトレーニングデータ組が発生された。オリジナルのモデルを使用してこれらのパターンを検討した場合のエラーは０．００３２６であった。各トレーニング組で逐次的に適応的ラーニング即ち学習を適応した。使用した忘却因子は両方の場合において０．５であった。トレーニングデータ組に対応する修正したモデルの結果的に発生するエラーは、夫々、０．００１１４及び０．０００７１３であった。周期的な再教育をシミュレーションするために新たなトレーニングデータ組の両方を使用することにより新たなモデルも構築した。再度、５ｅ−４のエラー目標の場合には、１２個の新たなノードを使用したに過ぎない。

図６は式（２２）に対応するドリフトさせたシステムに対するノイズのない限界サイクルと比較して、出力を入力へフィードバックさせた場合の異なる段階におけるモデルにより発生される限界サイクルを示している。灰色ドットループはノイズのない限界サイクルに対応している。灰色実線ループはオリジナルのモデルにより発生された限界サイクルに対応している。黒色の実線ループは第一適応的学習後に発生された限界サイクルに対応している。＊ドットループは第二適応的学習後に発生した限界ループに対応している。＋ドットループは新たなデータでの完全な再教育後の新たなモデルに対応している。

図６から、モデル出力をだんだんとターゲット近くのものとさせるためにモデルパラメータを補正するために適応的学習を使用することが可能であることが明らかである。然しながら、新たなパターンが蓄積して再教育を行うことを正当化する場合には、新たなモデルは適応的にアップデートされたモデルよりもより良い性能である。何故ならば、再教育されたモデルはオリジナルのモデルにおける古いパラメータにより影響されないからである。更に、中心は新たなデータ組に調整することが可能である。

従って、後方伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）等のその他の既存の方法と比較してＯＦＬＮ法の利点は、どこにデータ点が位置しているかの知識を使用することにより自動的に且つ効率的に候補処理ノードを発生するためにＯＦＬＮ法を使用することが可能であるということである。ＯＦＬＮ法は、又、ユーザの介入なしで、関数近似の忠実度を維持するか又は改善するために処理ノードの数を動的に調節するために使用することが可能である。関数的リンクネット構成は適応的学習を容易なものとさせ、それを介して、ＦＬＮモデルはノイズのあるトレーニングデータでのラーニング即ち学習、前のものに基づいての現在の観測結果の値の予測、及び基礎となる関数関係又はシステム（例えば、信号発生メカニズム）におけるドリフトが存在する中での精度の維持のタスクを成功裡に実施することが可能である。

ＯＦＬＮ法の適用
ＯＦＬＮ法を介して形成され且つ維持されるニューラルネットモデルは、人間のパターン認識及び予測技量と類似した能力を具備するコンピュータアプリケーションソフトウエアを提供するために適用することが可能である。該方法は、コンピュータシステムのメモリ内に格納されているコンピュータプログラム又はソフトウエアモジュール内に組込むことが可能であり、コンピュータ読取可能な媒体上に格納することが可能であり、及び／又はコンピュータシステム上で実行可能な１つ又はそれ以上のセグメントでコンピュータネットワーク及び／又はその他の伝送媒体を介して伝送することが可能である。

以下のものはアプリケーションソフトウエアが有するように適合させることが可能なこのような技量の２，３の例に過ぎない。

アプリケーションソフトウエアは、現在の状態及び時代的傾向に基づいて予測を行うこと、例えば、在庫を過剰なものとすることなしに来月における在庫が不足することを回避するために（例えば、その月に対し必要とされるものより上の）サプライヤから注文するための商品の量を予測するために適合させることが可能である。時間と共に、ファッションの傾向、経済的条件等における変化を考慮するために、適応的アップデート法を適用することによりモデルをアップデートさせることが可能である。

アプリケーションソフトウエアは、又、以下のようなその他のインテリジェントな挙動をエミュレーションすべく適合させることが可能である。即ち、（ａ）予測モデリング：システム挙動を記述するデータからシステムの原因及び結果モデルを開発し且つ新たな「原因」データに基づいてシステムの挙動を予測すること、及び（ｂ）最適化：システムの性能を改善するか又は問題を解決すること。システムの動作点がドリフトするか（例えば、損耗により発生される）又はシステム条件が変化した場合（例えば、要求が増加したため）、システムモデルを適応的にアップデートさせることが可能である。

ＯＦＬＮ法は、例えば、データにおける興味のあるパターンを探し出し且つその説明を試みるためのプロファイリング（それは、情報技術分野においては「データマイニング」として知られている）に対して適用することが可能である。本モデルは、典型的に、新たなデータが収集される度に増分的にアップデートされる。何故ならば、新たなデータのうちの少なくとも幾つかは既存のモデルにおいて表わされない場合があるからである。

ＯＦＬＮ法は値予測に適用することが可能である。例えば、ＦＬＮモデルへの入力は、ゴム、ポリマー、ガラス、金属、石油化学、食品等を生産するための材料及び処理条件のリスト及び製品の結果的に得られる特性を包含するレシピである場合がある。ＦＬＮモデルは生産プロセスをモデルするために訓練することが可能である。予測モデルは各レシピに対する製品特性に対応するデータベース内のこれまでの製品データから訓練することが可能である。例えば、パンレシピの特性を予測すべく訓練されたモデルは、種々の材料の量及びベーキング条件を入力として受取り、且つパン製品の測定可能な量を予測することが可能である。一方、本モデルは、所望の特性の入力に基づいて適宜のレシピを特定すべく訓練することが可能である。本モデルは、ドリフト（例えば、装置の損耗）又は新たなデータ（例えば、予測されたレシピをテストする場合）を考慮するために適応的にアップデートさせることが可能である。独立的に発見された付加的なレシピは本モデルを増分的にアップデートすることを必要とする場合がある。

ＯＦＬＮ法はビジネスインテリジェンスに対して適応させることが可能である。例えば、ローカルな電力会社が、電力の価格を予測する方法を改善することに興味を有している場合がある。従来、マネージャが、次の日の需要及び価格の予測に基づいて、どのプラントが生産のために稼動され且つどの程度の電力をスポットマーケットで購入するか又は販売するかを毎日決定している。これらの決定は、又、その次の日に対して時間毎に行われる場合があり、従って予測は次の日の各時間に対して所望される。前の２４時間の屋外温度及び実際の需要に基づいて電力に対する次の日の時間毎の需要を予測すべくモデルを訓練することが可能である。そのように訓練されたモデルは、社会的な傾向（例えば、週の各日に対する需要に影響を与える週の５日働くことから４日働くことへの変化）を考慮すべく適応的にアップデートすることが可能である。

付加的な変形例は、以下の米国特許出願を読むことから当業者にとって自明なものであり、なおこれらを引用により本明細書に取込む。

（ａ）米国特許出願第６０／３７４，０６４号、２００２年４月１９日出願、発明の名称「混合型数字及び／又は非数字データの処理（ＰＲＯＣＥＳＳＩＮＧＭＩＸＥＤＮＵＭＥＲＩＣＡＮＤ／ＯＲＮＯＮ−ＮＵＭＥＲＩＣＤＡＴＡ）」、
（ｂ）米国特許出願第６０／３７４，０２０号、２００２年４月１９日出願、発明の名称「自動的ニューラルネットモデル発生及びメインテナンス（ＡＵＴＯＭＡＴＩＣＮＥＵＲＡＬ−ＮＥＴＭＯＤＥＬＧＥＮＥＲＡＴＩＯＮＡＮＤＭＡＩＮＴＥＮＡＮＣＥ）」、
（ｃ）米国特許出願第６０／３７４，０２４号、２００２年４月１９日出願、発明の名称「階層的ビジュアリゼーションを介しての多次元データの観察（ＶＩＥＷＩＮＧＭＵＬＴＩ−ＤＩＭＥＮＳＩＯＮＡＬＤＡＴＡＴＨＲＯＵＧＨＨＩＥＲＡＲＣＨＩＣＡＬＶＩＳＵＡＬＩＺＡＴＩＯＮ）」、
（ｄ）米国特許出願第６０／３７４，０４１号、２００２年４月１９日出願、発明の名称「システム内の発展的変化を発見するための方法及び装置（ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＤＩＳＣＯＶＥＲＩＮＧＥＶＯＬＵＴＩＯＮＡＲＹＣＨＡＮＧＥＳＷＩＴＨＩＮＡＳＹＳＴＥＭ）」、
（ｅ）米国特許出願第６０／３７３，９７７号、２００２年４月１９日出願、発明の名称「ローカルネットを介しての自動的モデルメインテナンス（ＡＵＴＯＭＡＴＩＣＭＯＤＥＬＭＡＩＮＴＥＮＡＮＣＥＴＨＲＯＵＧＨＬＯＣＡＬＮＥＴＳ）」、
（ｆ）米国特許出願第６０／３７３，７８０号、２００２年４月１９日出願、発明の名称「データマイニングのためのニューラルネットワークの使用（ＵＳＩＮＧＮＥＵＲＡＬＮＥＴＷＯＲＫＳＦＯＲＤＡＴＡＭＩＮＩＮＧ）」、
（ｇ）米国特許出願第１０／３７４，４０６号、２００３年２月２６日出願、発明の名称「自動的ニューラルネットモデル発生及びメインテナンス（ＡＵＴＯＭＡＴＩＣＮＥＵＲＡＬ−ＮＥＴＭＯＤＥＬＧＥＮＥＲＡＴＩＯＮＡＮＤＭＡＩＮＴＥＮＡＮＣＥ）」。

単一層隠れ層ネットの隠れ層内のノード数対トレーニングエラーのプロットのグラフ表示。本発明の１実施例に基づいてニューラルネットモデルを増分的に形成する方法を示したフローチャート。１実施例に基づいて階層的クラスタリング法を示したフローチャート。図２Ｂに示した階層的クラスタリング法を使用して１実施例に基づいて候補ノード関数の順番付けしたリストを発生する方法を示したフローチャート。候補ノード関数のリストを使用して１実施例に基づいてモデルを増分的に構築する方法を示したフローチャート。本開示の１実施例に基づいて適度な精度レベルにおいてニューラルネットモデルを増分的に形成し且つ適応的に維持する方法を示したフローチャート。新たなデータを使用して１実施例に基づいてモデルの精度を維持するためにモデルを適応的にアップデートする方法を示したフローチャート。関数的リンクネット構成を示した概略図。非線形時系列例に対し本開示により提供される方法を適用することにより発生されるモデルにより発生される出力及びデータパターンのプロットを示した概略図。非線形時系列（ドリフト有り）例に対し、本開示により提供される方法を適用することにより発生され且つアップデートされるモデムにより発生される出力及びデータパターンのプロットを示した概略図。

Claims

ニューラルネットモデルを増分的に形成し且つ適応的にアップデートする方法において、
（ａ）前記ニューラルネットモデルへ関数近似ノードを増分的に付加し、
（ｂ）前記ニューラルネットワークモデルへ関数近似ノードを付加する前に他のノードの関数パラメータを使用することにより、前記関数近似ノードに対する関数パラメータを決定し且つ前記ニューラルネットワークモデルにおける他のノードの関数パラメータをアップデートする、
ことを包含している方法。
請求項１において、前記関数近似ノードが付加された前記ニューラルネットワークモデルのモデル精度が所定の精度レベルより低い場合には、ステップ（ａ）及び（ｂ）を繰り返す方法。
請求項１において、１組のサンプルデータパターンを使用して関数近似ノード候補のリストを形成し、且つ前記関数近似ノードを前記関数近似ノード候補のリストから選択する方法。
請求項３において、前記関数近似ノード候補のリストを、
前記１組のサンプルデータパターンをクラスター階層の第一レベルで複数個のクラスターへ分割し、
前記第一レベルにおける選択したクラスターが所定の寸法を超えるポピュレーションを有していることを決定し、
前記選択したクラスターを２個又はそれ以上のクラスターへ分割し且つ前記選択したクラスターを前記クラスター階層の次のレベルにある２個又はそれ以上のクラスターと置換する、
ことにより形成する方法。
請求項４において、更に、関数近似ノード候補のソートしたリストを形成するために、クラスター寸法に基づいて前記クラスター階層の各レベル上で前記クラスターをソートすることを包含している方法。
請求項３において、前記ニューラルネットワークモデルが前記１組のサンプルデータパターンにおいて表わされることのないデータレンジに対応する新たなデータを表わすために、前記ニューラルネットワークモデルへ１個又はそれ以上の付加的なノードを増分的に付加することにより前記ニューラルネットワークモデルを適応的にアップデートさせる方法。
請求項１において、更に、
前記ニューラルネットモデルがオンラインで使用される間に前記ニューラルネットモデルのモデル精度をモニタし、
前記ニューラルネットモデルのモデル精度が所定のスレッシュホールドより低い場合に、前記ニューラルネットモデルを適応的にアップデートさせる、
ことを包含している方法。
請求項７において、前記適応的アップデートが、新たなデータを表わすために、前記ニューラルネットモデルへ１個又はそれ以上の付加的なノードを増分的に付加することを包含している方法。
請求項８において、前記新たなデータがシステムダイナミックスにおける変化に対応している方法。
請求項７において、前記適応的アップデートが、前記ニューラルネットモデルにおけるノードの関数パラメータをアップデートすることを包含している方法。
請求項７において、前記適応的アップデートが限界に到達すると、前記ニューラルネットモデルの完全なリトレインが実施される方法。
請求項１において、更に、新たなデータパターンに基づいて、前記ニューラルネットモデルへ１個又はそれ以上の付加的なノードを付加することにより前記ニューラルネットモデルを適応的にアップデートすることを包含している方法。
請求項１２において、前記付加的なノードが、前記新たなデータパターンへクラスタリング方法を適用することにより形成される方法。
請求項１３において、前記クラスタリング方法が、
前記新たなデータパターンをほぼ前記ニューラルネットモデルにおけるノードの数である多数のクラスターへクラスタリングし、
１個の選択したクラスターが前記ニューラルネットモデルにおける夫々のノードと関連する位置から遠く離れていることを決定し、
前記ニューラルネットモデルへ前記選択したクラスターと関連する付加的なノード及び前記選択したクラスターの中心を付加する、
ことを包含している方法。
請求項１２において、
１組の初期的重みが、前記ニューラルネットモデルが形成される場合に、前記ニューラルネットモデル内のノードに対して決定され、
前記付加的なノードが適応的アップデート期間中に付加される場合に、前記ニューラルネットモデルにおけるノードに対する１組の新たな重みが計算され、且つ前記初期的な重みが忘却因子に基づいて前記ノードに対する新たな重みと結合される方法。
請求項１５において、前記忘却因子がモデル劣化の原因に基づいて決定される方法。
請求項１において、更に、前記ニューラルネットモデルに対する１組の重みを決定するために直交最小二乗法を適用することを包含している方法。
請求項１７において、前記１組の重みが新たなデータパターンを使用することにより適応的にアップデートされる方法。
請求項１７において、前記１組の重みがシステムドリフトを補償するためにアップデートされる方法。
請求項１において、前記ニューラルネットモデルにおけるノードに対する関数パラメータが、１組のサンプルデータパターンに対して階層的ｋ−平均クラスタリング法を適用することにより決定される方法。
請求項１において、前記関数近似ノードがラジアル基底ノードであり、且つ前記ラジアル基底ノードの中心及び半径が階層的ｋ−平均クラスタリング法を介して決定される方法。
請求項１において、前記関数近似ノードがガウスノードである方法。
請求項１において、前記関数近似ノードがシグモイド基底ノードである方法。
請求項１において、前記関数近似ノードがウェーブレット基底ノードである方法。
請求項１において、前記関数近似ノードが非線形である方法。
ニューラルネットモデルを増分的に形成する方法において、
関数近似ノード候補のリストを形成するために１組のサンプルデータパターンに対して階層的クラスタリング法を適用し、
所定の精度レベル以上の精度を有するモデルが形成されるまで前記ニューラルネットモデルへ１個又はそれ以上の関数近似ノードを増分的に付加する、
ことを包含しており、前記関数近似ノードが前記関数近似ノード候補のリストから選択される方法。
コンピュータシステムにおいて、
プロセッサ、
請求項２６の方法を実施するために前記プロセッサにより実行可能な命令からなるプログラムをタンジブルに実現しており前記コンピュータシステムにより読取可能なプログラム格納装置、
を有しているコンピュータシステム。
マシンにより読取可能なプログラム格納装置において、請求項２６の方法を実施するために前記マシンにより実行可能な命令からなるプログラムをタンジブルに実現しているプログラム格納装置。
伝送媒体内に実現されているコンピュータデータ信号において、請求項２６の方法を実施するためにコンピュータにより実行可能な命令を実現しているコンピュータデータ信号。