WO2025074469A1

WO2025074469A1 - 学習データ処理装置、方法及びプログラム

Info

Publication number: WO2025074469A1
Application number: PCT/JP2023/035918
Authority: WO
Inventors: 修税所; 啓一郎柏木; 一輝岩花; 弘樹神谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2023-10-02
Filing date: 2023-10-02
Publication date: 2025-04-10
Anticipated expiration: 2026-04-02

Abstract

学習データ処理装置２は、少なくとも１個の学習用生データに基づいて、学習用生データの擬似的な学習用データである合成データを生成する合成データ生成部２２と、学習用生データの分布と合成データの分布とを比較して、学習用生データの分布から外れている合成データである外れ合成データを合成データから除く外れ合成データ除去部２７と、を備えている。

Description

学習データ処理装置、方法及びプログラム

　開示の技術は、モデルを学習するためのデータを処理する技術に関する。

　機械学習、特に教師あり学習は様々な応用分野で普及している。対象が広がる中、学習に用いるデータは、より機微なものとなり、またモデルとともに継続的に更新されていくことが一般的になっている。

　機微なデータを扱う分野での普及においては、機械学習に用いるデータやラベル、モデルをそれぞれ提供者以外に提示できないという制約があり、セキュアな環境や処理方法が必要になる。また、訓練データセットおよびモデルの構築、更新においては、実際のデータの特徴やモデルの出力結果といったモデルの動作状況をラベル提供者やモデル提供者が観察し、十分な推論性能を実現するインタラクティブな処理方法が必要である。

　機微なデータを提供者以外に提示せずにセキュアな環境で処理する方法として、データサンドボックスが知られている。データサンドボックスは、ハードウェア暗号化技術（TEE）を活用することによりハードウェア上でセキュアな環境を担保し、その環境内では平文のまま学習と推論の両方を実行できる技術である。

　また、従来技術として、データサンドボックス内で学習用生データから疑似的な学習用データである合成データを生成して、合成データをラベルやモデル等の生成者に提示する技術が知られている（例えば、非特許文献１参照。）。これにより、学習用生データの提供者以外に学習用生データを提示せずに、モデルの生成等を行うことができる。

税所修, 三浦尭之, 岩花一輝, 紀伊真昇, 「能動合成データ生成：アノテーションを伴う機械学習へのプライバシ保護合成データの活用」, 研究報告モバイルコンピューティングと新社会システム（MBL）,2023-MBL-107(9),1-8 (2023-05-11) , 2188-8817

　しかし、非特許文献１の技術によって生成されたモデルの精度は低いことがあった。

　開示の技術は、より精度の高いモデルを生成することができる学習データを生成する学習データ処理装置、方法及びプログラムを提供することを目的とする。

　開示の技術の一態様である学習データ処理装置は、少なくとも１個の学習用生データに基づいて、学習用生データの擬似的な学習用データである合成データを生成する合成データ生成部と、学習用生データの分布と合成データの分布とを比較して、学習用生データの分布から外れている合成データである外れ合成データを合成データから除く外れ合成データ除去部と、を備えている。

　開示の技術によれば、より精度の高いモデルを生成することができる学習データを生成可能となる。

図１は、学習データ処理装置の機能構成の例を示す図である。図２は、学習方法の処理手続きの例を示す図である。図３は、学習データ処理装置の機能構成の例を示す図である。図４は、コンピュータの機能構成例を示す図である。

　以下、図面を参照して開示の技術の実施形態を説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　[実施形態]
　学習データ処理装置２は、図１に示すように、学習用生データ記憶部２１、合成データ生成部２２、合成データ記憶部２３、外れ合成データ除去部２７を例えば備えている。後述するように、学習データ処理装置２は、図１に一点鎖線で示す提示データ抽出部２５、図１に二点鎖線で示すモデル学習管理部２６、図１に点線で示すモデル記憶部２４を更に備えていてもよい。

　学習データ処理装置２は、学習用生データ提供装置１、モデル提供装置３及び利用者装置４のそれぞれとデータの送受信が可能なように接続されている。学習データ処理装置２は、図１に破線で示すラベル提供装置５とデータの送受信が可能なように接続されていてもよい。

　学習データ処理装置２において、データサンドボックスが作成される。データサンドボックスは、ハードウェア暗号化技術（TEE）を活用したハードウェア上のセキュアな環境であり、外部から隔離された処理実行環境である（例えば、参考文献１参照。）。学習データ処理装置２の各部（学習用生データ記憶部２１、合成データ生成部２２、合成データ記憶部２３、モデル記憶部２４、提示データ抽出部２５、モデル学習管理部２６、外れ合成データ除去部２７）の処理は、データサンドボックスの中で行われる。これらの部の少なくとも１つの処理が、データサンドボックスの中で行われてもよい。

　〔参考文献１〕持田誠一郎, 長田孝彦, 三原淳慎, 「高品質・高信頼なデータ流通でデータ中心社会を実現する次世代データハブ技術」, NTT技術ジャーナル, 2020年12月号, 特集「将来の情報処理基盤実現に向けた取り組み」, pp.23-28.
　データサンドボックスの中では、データは、そのデータを提供した装置の許可がなければ、そのデータを提供した装置以外の装置から閲覧することはできない。例えば、学習用生データは、学習用生データ提供装置１の許可がなければ学習用生データ提供装置１以外の装置から閲覧することはできない。また、モデルは、モデル提供装置３の許可がなければモデル提供装置３以外の装置から閲覧することはできない。

　学習方法は、学習データ処理装置２の各構成部が、以下に説明し、図２に示すステップＳ２２、ステップＳ２７の処理を行うことにより例えば実現される。

　以下、学習データ処理装置２の各構成部について説明する。

　<学習用生データ記憶部２１>
　学習用生データ提供装置１は、自身のローカル環境等で取得した学習用生データを学習データ処理装置２に送信する。

　これにより、学習用生データ記憶部２１には、学習用生データ提供装置１から提供される学習用生データが記憶される。

　学習用生データ提供装置１は、暗号化された通信方式で、学習用生データを送信してもよい。これにより、学習用生データの漏洩を防ぐことができる。もちろん、学習用生データ提供装置１が学習用生データを送信する際に用いる通信方式は、暗号化された通信方式に限定されない。

　学習用生データ提供装置１の個数は、１個であってもよいし、複数個であってもよい。すなわち、学習用生データ記憶部２１には、少なくとも１個の学習用生データ提供装置１からそれぞれ提供される少なくとも１個の学習用生データが記憶されてもよい。

　<合成データ生成部２２>
　合成データ生成部２２は、少なくとも１個の学習用生データに基づいて、学習用生データの擬似的な学習用データである合成データを生成する（ステップＳ２２）。

　この例では、少なくとも１個の学習用生データは学習用生データ記憶部２１に記憶されているので、合成データ生成部２２は、学習用生データ記憶部２１から読み込んだ学習用生データに基づいて、学習用生データの擬似的な学習用データである合成データを生成する（ステップＳ２２）。

　合成データ生成部２２は、例えば、プライバシジェットを予め指定した上で差分プライバシを考慮して合成データを生成する。

　生成された合成データは、外れ合成データ除去部２７に出力される。

　合成データ生成部２２が合成データを生成するタイミングの例は、学習用生データ記憶部２１に学習用生データが記憶されとき、学習用生データ記憶部２１に記憶された学習用生データが更新されたとき、予め定められた時間間隔の何れかである。予め定められた時間間隔の例は、Tを整数として、T時間である。

　なお、合成データ生成部２２が合成データを生成するタイミングは、学習用生データ記憶部２１に記憶された学習用生データの更新が行われる毎であってもよいし、学習用生データ記憶部２１に記憶された学習用生データの数回の更新に一度であってもよい。このように、合成データ生成部２２が合成データを生成するタイミングは、学習用生データ記憶部２１に記憶された学習用生データの更新が行われるタイミングを考慮して定められてもよい。

　また、予め定められた時間間隔も、学習用生データ記憶部２１に記憶された学習用生データの更新が行われるタイミングを考慮して定められてもよい。

　<外れ合成データ除去部２７>
　外れ合成データ除去部２７には、合成データ生成部２２が生成した合成データが入力される。また、外れ合成データ除去部２７は、学習用生データ記憶部２１から学習用生データを読み込む。

　外れ合成データ除去部２７は、学習用生データの分布と合成データの分布とを比較して、学習用生データの分布から外れている合成データである外れ合成データを合成データから除く（ステップＳ２７）。

　外れ合成データが除かれた合成データは、合成データ記憶部２３に記憶される。

　外れ合成データ除去部２７は、例えば、学習用生データ及び合成データをクラスタリングすることで複数のクラスタに分割して、合成データの割合が所定の割合以上であるクラスタに含まれる合成データを外れ合成データとして合成データから除く。

　所定の割合の例は、０以上１以下の実数ｃである。

　例えば、ｃ＝１であり、あるクラスタに含まれる合成データの個数が１００であり、そのあるクラスタに含まれる学習用生データの個数が０であるとする。この場合、そのあるクラスタに含まれる合成データの割合は１であり、ｃ（＝１）以上であるため、そのあるクラスタに含まれる合成データは、外れ合成データとされる。

　外れ合成データ除去部２７は、この処理を各クラスタに対して行い、外れ合成データを決定する。そして、外れ合成データ除去部２７は、決定された外れ合成データを、合成データから除く。

　また、外れ合成データ除去部２７は、例えば、学習用生データ及び合成データをクラスタリングすることで複数のクラスタに分割して、学習用生データの個数が所定の閾値以下であるクラスタに含まれる合成データを外れ合成データとして合成データから除いてもよい。

　例えば、あるクラスタに含まれる合成データの個数が１００であり、そのあるクラスタに含まれる学習用生データの個数が１であり、所定の閾値＝５であるとする。この場合、そのあるクラスタに含まれる学習用生データの個数は１であり、所定の閾値（＝５）以下であるため、そのあるクラスタに含まれる合成データは、外れ合成データとされる。

　<合成データ記憶部２３>
　合成データ記憶部２３には、外れ合成データ除去部２７によって外れ合成データが除かれた合成データが記憶される。

　このように、外れ合成データを除くことで、外れ合成データを除いた合成データから生成されるモデルの精度はより高くなる。これは、外れ合成データを除いた合成データの分布は、外れ合成データを除く前の合成データの分布と比較すると、学習用生データの分布に近くなるためである。

　よって、上記の実施形態により、より精度の高いモデルを生成することができる学習データ（外れ合成データを除いた合成データ）を生成可能となる。

　この例では、外れ合成データが除かれた合成データが学習データとされる。例えば、モデル提供装置３が、外れ合成データが除かれた合成データに基づいて学習を行いモデルを生成する（ステップＳ３）。この例では、モデル提供装置３は、合成データ記憶部２３に記憶された合成データを受信して、受信した合成データに基づいて学習を行いモデルを生成する。

　モデル提供装置３は、暗号化された通信方式で、合成データを受信してもよい。これにより、合成データの漏洩を防ぐことができる。もちろん、モデル提供装置３が合成データを受信する際に用いる通信方式は、暗号化された通信方式に限定されない。

　学習データ処理装置２が図１に点線で示されるモデル記憶部２４を備えている場合には、生成されたモデルは、学習データ処理装置２に送信され、モデル記憶部２４に記憶される。

　モデル提供装置３は、暗号化された通信方式で、モデルを送信してもよい。これにより、モデルの漏洩を防ぐことができる。もちろん、モデル提供装置３がモデルを送信する際に用いる通信方式は、暗号化された通信方式に限定されない。

　なお、モデル提供装置３による合成データの受信は、モデル提供装置３の操作者がＷｅｂブラウザを介して合成データ記憶部２３に記憶された合成データを見ることを可能にすることで実現されてもよい。

　モデルを利用しようとする利用者装置４は、モデルに入力しようするデータを学習データ処理装置２に送信する。学習データ処理装置２は、モデル記憶部２４から読み込んだモデルに、受信したデータを入力した場合の出力結果を得る。得られた出力結果は、利用者装置４に送信される。このようにして、利用者装置４は、モデル記憶部２４に記憶されたモデルを利用することができる。

　[第一変形例]
　図１に破線で示すラベル提供装置５があってもよい。

　この場合、合成データ記憶部２３から読み込まれた合成データは、ラベル提供装置５に送信される。

　合成データのラベル提供装置５への送信は、暗号化された通信方式で行われてもよい。これにより、合成データの漏洩を防ぐことができる。もちろん、合成データのラベル提供装置５への送信の際に用いる通信方式は、暗号化された通信方式に限定されない。

　ラベル提供装置５は、学習データ処理装置２から受信した合成データにラベルを付与する（ステップＳ５）。ラベルが付与された合成データは、モデル提供装置３に送信される。ラベルが付与された合成データのことを、訓練データと呼ぶこともある。

　なお、ラベルが付与された合成データは、学習データ処理装置２に送信され、合成データ記憶部２３に記憶されてもよい。これにより、ラベルが付与された合成データの管理を、学習データ処理装置２で行うことができる。もちろん、ラベルが付与された合成データの管理は、ラベル提供装置５で独立して行われてもよい。

　モデル提供装置３は、ラベルが付与された合成データを用いて学習を行いモデルを生成する。その後の処理は、上記の実施形態と同様である。

　このように、ラベル提供装置５が合成データにラベルを付与することで、教師あり学習又は半教師あり学習を行うことができようになる。

　[第二変形例]
　学習データ処理装置２は、図１に一点鎖線で示す提示データ抽出部２５を備えていてもよい。

　提示データ抽出部２５は、外れ合成データが除かれた合成データの一部を抽出する（ステップＳ２５）。そのために、提示データ抽出部２５は、例えば、合成データ記憶部２３に記憶された合成データの一部を抽出する。

　提示データ抽出部２５は、合成データの一部を、ランダムに抽出してもよいし、合成データ記憶部２３に記憶されている過去の合成データの分布と、現在の合成データの分布との少なくとも一方を考慮して、合成データの一部を抽出してもよい。例えば、提示データ抽出部２５は、合成データ記憶部２３に記憶されている過去の合成データの分布と、現在の合成データの分布との比較を考慮して、合成データの一部を抽出してもよい。

　また、提示データ抽出部２５が抽出する合成データの個数は、定数であってもよいし、プライバシバジェット及び／又は現在の合成データの分布を例えば考慮して動的に決定されてもよい。

　提示データ抽出部２５が合成データの一部を抽出することで、合成データの分布の不確かさを大きくすることができ、学習用生データの推定を難しくすることができる。言い換えれば、合成データの全てはモデル提供装置３又はラベル提供装置５に提供しないことで、学習用生データが漏洩する可能性を小さくすることができる。

　また、提示データ抽出部２５が、更新前後のデータ分布の変化が十分小さくなるように、合成データの一部を抽出することで、合成データ生成時に差分プライバシのためのノイズを全くあるいは大きくは付与しなくても、合成データのデータセット間においても差分プライバシを担保することができる。

　また、提示データ抽出部２５は、抽出される一部の合成データを用いた学習により生成されるモデルの精度が上がるように、外れ合成データが除かれた合成データの一部を抽出してもよい（ステップＳ２５）。

　例えば、提示データ抽出部２５は、外れ合成データが除かれた合成データの分布に基づいて計算されるスコアに基づいて、モデルの精度が上がる、外れ合成データが除かれた合成データの一部を抽出する。

　また、提示データ抽出部２５は、外れ合成データが除かれた合成データの一部を、学習中のモデルに入力した場合の出力に基づいて計算されるスコアに基づいて、モデルの精度が上がる、外れ合成データが除かれた合成データの一部を抽出してもよい。

　スコアには、例えば、エントロピー等を用いた推論結果の不確かさをベースとする伝統的なもの、相互情報量等を用いて不確かさをベイズ統計的に表現するもの、データ分布に着目したもの、カーネル密度推定又はクラスタリングに基づくもの、これらを組み合わせたものを用いることができる。

　なお、提示データ抽出部２５は、抽出される一部の合成データに、ランダムに抽出される合成データと、スコアに基づいてモデルの精度が上がると期待される合成データとの両方を含めてもよい。

　抽出された合成データは、例えば、モデル提供装置３に送信される。この場合、モデル提供装置３は、提示データ抽出部２５によって抽出された合成データに基づいて学習を行いモデルを生成する。その後の処理は、上記の実施形態と同様である。

　なお、提示データ抽出部２５による合成データの一部の抽出と、モデル提供装置３による、抽出された一部の合成データを用いたモデルの生成とを繰り返すことでモデルを生成してもよい。この繰り返し処理は、予め設定された条件が満たされるまで実行される。予め設定された条件の例は、繰り返し数が所定の回数に達するまでという条件、モデルの出力が所定の精度に達するまでという条件である。なお、２回目以降に抽出される合成データの一部は、それ以前に抽出された合成データを含んでいてもよい。

　なお、図１に破線で示すラベル提供装置５がある場合には、提示データ抽出部２５によって抽出された合成データは、ラベル提供装置５に送信されてもよい。この場合、ラベル提供装置５は、提示データ抽出部２５によって抽出された合成データにラベルを付与する。その後の処理は、第一変形例と同様である。このように、モデル提供装置３は、提示データ抽出部２５によって抽出された合成データにラベルを付与するラベル提供装置５によってラベルが付与された合成データを用いて学習を行いモデルを生成してもよい。

　なお、ラベル提供装置５は合成データ生成部２２によって生成された合成データにラベルを付与し、ラベルが付与された合成データが合成データ記憶部２３に記憶されているとして、提示データ抽出部２５はラベルが付与された合成データ記憶部２３に記憶された合成データの一部を抽出してもよい。

　抽出された合成データは、例えば、モデル提供装置３に送信される。この場合、モデル提供装置３は、提示データ抽出部２５によって抽出された、ラベルが付与された合成データに基づいて学習を行いモデルを生成する。その後の処理は、上記の実施形態と同様である。

　なお、学習用生データ提供装置１と、モデル提供装置３と、ラベル提供装置５とは、互いに別の装置である。

　[第三変形例]
　学習データ処理装置２は、図１に二点鎖線で示すモデル学習管理部２６を備えていてもよい。

　モデル学習管理部２６は、学習用生データ、及び／又は、合成データを用いて、モデル提供装置３により生成されたモデルの追加学習を行う（ステップＳ２６）。そのために、モデル学習管理部２６は、例えば、学習用生データ記憶部２１に記憶された学習用生データ、及び／又は、合成データ記憶部２３に記憶された合成データを用いて、モデル記憶部２４に記憶されたモデルの追加学習を行う。

　学習用生データを用いた追加学習とは、学習用生データの全部又は一部を用いた追加学習である。同様に、合成データを用いた追加学習とは、合成データの全部又は一部を用いた追加学習である。

　このように、モデル学習管理部２６が追加学習を行うことで、大半のデータをデータサンドボックス内に閉じ込めつつ、十分な学習データ量を確保することができ、モデルの性能を向上させることができる。

　[他の変形例]
　以上、開示の技術の実施形態の具体的な構成は、これまで説明した構成に限られるものではない。開示の技術の実施形態の具体的な構成は、開示の技術の実施形態の趣旨を逸脱しない範囲で適宜設計の変更等が可能である。

　開示の技術の実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　例えば、学習データ処理装置２において、データサンドボックスは作成されなくてもよい。すなわち、学習データ処理装置２の各部（学習用生データ記憶部２１、合成データ生成部２２、合成データ記憶部２３、モデル記憶部２４、提示データ抽出部２５、モデル学習管理部２６、外れ合成データ除去部２７）の処理は、データサンドボックスの中で行われなくてもよい。

　学習用生データ記憶部２１は、図３に例示するように、学習用生データ提供装置１の外部に設けられていてもよい。言い換えれば、学習用生データ提供装置１は、学習用生データ記憶部２１を備えていなくてもよい。この場合、学習用生データは、例えば暗号化された通信方式で、学習用生データ記憶部２１から学習データ処理装置２に送信される。もちろん、学習用生データ記憶部２１から学習データ処理装置２に学習用生データを送信する際に用いられる通信方式は、暗号化された通信方式に限定されない。この図３の例においても、学習用生データ提供装置１は複数あってもよい。

　モデル提供装置３は、複数の装置で構成されていてもよい。同様に、ラベル提供装置５は、複数の装置で構成されていてもよい。

　例えば、学習データ処理装置の構成部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。

　ラベル提供装置５とモデル提供装置３は同一の装置であってもよい。この場合、例えば、ラベルが付与された合成データ及びモデルは、学習データ処理装置２に同じタイミングで送信される。

　利用者装置４は、学習用生データ提供装置１と、モデル提供装置３と、ラベル提供装置５と異なる装置であってもよいし、同じ装置であってもよい。

　学習用生データ提供装置１、モデル提供装置３、ラベル提供装置５及び利用者装置４のそれぞれは、複数の装置で構成されていてもよい。

　なお、ラベル提供装置５及びモデル提供装置３の少なくとも一方が、学習用生データにアクセス可能であってもよい。

　[プログラム、記録媒体]
　上述した各装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図７に示すコンピュータ１０００の記憶部１０２０に読み込ませ、演算処理部１０１０、入力部１０３０、出力部１０４０、表示部１０６０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部１０５０に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部１０５０に格納されたプログラムを記憶部１０２０に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部１０２０に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。例えば、学習用生データ記憶部２１、合成データ生成部２２、合成データ記憶部２３、モデル記憶部２４、提示データ抽出部２５及びモデル学習管理部２６のそれぞれは、処理回路により構成されてもよい。

　その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

　本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記載された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

　少なくとも１個の学習用生データに基づいて、前記学習用生データの擬似的な学習用データである合成データを生成する合成データ生成部と、
　前記学習用生データの分布と前記合成データの分布とを比較して、前記学習用生データの分布から外れている合成データである外れ合成データを前記合成データから除く外れ合成データ除去部と、
　を含む学習データ処理装置。
　請求項１の学習データ処理装置であって、
　前記外れ合成データ除去部は、前記学習用生データ及び前記合成データをクラスタリングすることで複数のクラスタに分割して、合成データの割合が所定の割合以上であるクラスタに含まれる合成データを前記外れ合成データとして前記合成データから除く、
　学習データ処理装置。
　請求項１の学習データ処理装置であって、
　前記学習用生データは、前記少なくとも１個の学習用生データを提供する学習用生データ提供装置の許可がなければ前記学習用生データ提供装置以外の装置から閲覧することはできない、
　学習データ処理装置。
　請求項１又は３の学習データ処理装置であって、
　前記外れ合成データが除かれた合成データの一部を抽出する提示データ抽出部を更に含み、
　前記提示データ抽出部によって抽出された一部の合成データが、学習に用いられる、
　学習データ処理装置。
　請求項４の学習データ処理装置であって、
　前記提示データ抽出部は、抽出される一部の合成データを用いた学習により生成されるモデルの精度が上がるように、前記外れ合成データが除かれた合成データの一部を抽出する、
　学習データ処理装置。
　合成データ生成部が、少なくとも１個の学習用生データに基づいて、前記学習用生データの擬似的な学習用データである合成データを生成する合成データ生成ステップと、
　外れ合成データ除去部が、前記学習用生データの分布と前記合成データの分布とを比較して、前記学習用生データの分布から外れている合成データである外れ合成データを前記合成データから除く外れ合成データ除去ステップと、
　を含む学習データ処理方法。
　請求項１の学習データ処理装置の各部としてコンピュータを機能させるためのプログラム。