WO2025074469A1 - 学習データ処理装置、方法及びプログラム - Google Patents
学習データ処理装置、方法及びプログラム Download PDFInfo
- Publication number
- WO2025074469A1 WO2025074469A1 PCT/JP2023/035918 JP2023035918W WO2025074469A1 WO 2025074469 A1 WO2025074469 A1 WO 2025074469A1 JP 2023035918 W JP2023035918 W JP 2023035918W WO 2025074469 A1 WO2025074469 A1 WO 2025074469A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- learning
- synthetic
- synthetic data
- raw
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the disclosed technology relates to technology for processing data to train a model.
- Data sandboxing is known as a method for processing sensitive data in a secure environment without disclosing it to anyone other than the data provider.
- Data sandboxing is a technology that uses hardware encryption technology (TEE) to ensure a secure environment on the hardware, and allows both learning and inference to be performed in plain text within that environment.
- TEE hardware encryption technology
- the disclosed technology aims to provide a learning data processing device, method, and program that generates learning data that can generate more accurate models.
- the training data processing device which is one aspect of the disclosed technology, includes a synthetic data generation unit that generates synthetic data, which is pseudo training data of the training raw data, based on at least one piece of training raw data, and an outlier synthetic data removal unit that compares the distribution of the training raw data with the distribution of the synthetic data, and removes outlier synthetic data, which is synthetic data that deviates from the distribution of the training raw data, from the synthetic data.
- a synthetic data generation unit that generates synthetic data, which is pseudo training data of the training raw data, based on at least one piece of training raw data
- an outlier synthetic data removal unit that compares the distribution of the training raw data with the distribution of the synthetic data, and removes outlier synthetic data, which is synthetic data that deviates from the distribution of the training raw data, from the synthetic data.
- the disclosed technology makes it possible to generate training data that can generate more accurate models.
- FIG. 1 is a diagram illustrating an example of a functional configuration of a learning data processing device.
- FIG. 2 is a diagram showing an example of a processing procedure of the learning method.
- FIG. 3 is a diagram illustrating an example of a functional configuration of the learning data processing device.
- FIG. 4 is a diagram illustrating an example of a functional configuration of a computer.
- the learning data processing device 2 includes, for example, a learning raw data storage unit 21, a composite data generation unit 22, a composite data storage unit 23, and a defective composite data removal unit 27. As will be described later, the learning data processing device 2 may further include a presentation data extraction unit 25 shown by a dashed line in Fig. 1, a model learning management unit 26 shown by a dashed double-dashed line in Fig. 1, and a model storage unit 24 shown by a dotted line in Fig. 1.
- the learning data processing device 2 is connected to the learning raw data providing device 1, the model providing device 3, and the user device 4 so as to be able to send and receive data.
- the learning data processing device 2 may also be connected to the label providing device 5 shown by the dashed line in FIG. 1 so as to be able to send and receive data.
- a data sandbox is created in the training data processing device 2.
- the data sandbox is a secure environment on the hardware that utilizes hardware encryption technology (TEE) and is a processing execution environment that is isolated from the outside (see, for example, Reference 1).
- TEE hardware encryption technology
- Processing of each part of the training data processing device 2 (learning raw data storage unit 21, synthetic data generation unit 22, synthetic data storage unit 23, model storage unit 24, presentation data extraction unit 25, model learning management unit 26, and outlier synthetic data removal unit 27) is performed in the data sandbox. Processing of at least one of these parts may be performed in the data sandbox.
- the learning method is realized, for example, by each component of the learning data processing device 2 performing the processes of steps S22 and S27 shown in FIG. 2, as described below.
- the learning raw data storage unit 21 stores the learning raw data provided by the learning raw data providing device 1.
- the learning raw data providing device 1 may transmit the learning raw data using an encrypted communication method. This can prevent leakage of the learning raw data.
- the communication method used by the learning raw data providing device 1 when transmitting the learning raw data is not limited to an encrypted communication method.
- the number of learning raw data providing devices 1 may be one or more.
- the learning raw data storage unit 21 may store at least one learning raw data provided from at least one learning raw data providing device 1.
- the number of synthetic data extracted by the presentation data extraction unit 25 may be a constant, or may be dynamically determined, for example, taking into account the privacy budget and/or the current distribution of synthetic data.
- the extracted synthetic data is transmitted to, for example, the model providing device 3.
- the model providing device 3 performs learning based on the synthetic data extracted by the presentation data extraction unit 25 to generate a model. Subsequent processing is the same as in the above embodiment.
- a model may be generated by repeating the extraction of a portion of the synthetic data by the presentation data extraction unit 25 and the generation of a model by the model providing device 3 using the extracted portion of the synthetic data. This repetitive process is executed until a preset condition is satisfied. Examples of the preset condition are a condition that the number of repetitions reaches a predetermined number, and a condition that the output of the model reaches a predetermined accuracy.
- a portion of the synthetic data extracted from the second time onwards may include synthetic data extracted previously.
- the synthetic data extracted by the presentation data extraction unit 25 may be transmitted to the label providing device 5.
- the label providing device 5 assigns a label to the synthetic data extracted by the presentation data extraction unit 25.
- the subsequent processing is the same as in the first modified example.
- the model providing device 3 may perform learning using the synthetic data that has been assigned a label by the label providing device 5, which assigns a label to the synthetic data extracted by the presentation data extraction unit 25, to generate a model.
- the label providing device 5 may assign a label to the composite data generated by the composite data generating unit 22, and the composite data with the label may be stored in the composite data storage unit 23.
- the presentation data extracting unit 25 may extract a portion of the composite data with the label stored in the composite data storage unit 23.
- learning raw data providing device 1 the model providing device 3, and the label providing device 5 are separate devices.
- the learning data processing device 2 may include a model learning management unit 26 indicated by a two-dot chain line in FIG.
- the model learning management unit 26 performs additional learning of the model generated by the model providing device 3 using the learning raw data and/or the synthetic data (step S26). To this end, the model learning management unit 26 performs additional learning of the model stored in the model storage unit 24, for example, using the learning raw data stored in the learning raw data storage unit 21 and/or the synthetic data stored in the synthetic data storage unit 23.
- Additional learning using raw training data is additional learning using all or part of the raw training data.
- additional learning using synthetic data is additional learning using all or part of the synthetic data.
- model learning management unit 26 performing additional learning, it is possible to secure a sufficient amount of learning data while confining the majority of the data within the data sandbox, thereby improving the performance of the model.
- a data sandbox does not need to be created.
- the processing of each part of the learning data processing device 2 does not need to be performed in a data sandbox.
- the learning raw data storage unit 21 may be provided outside the learning raw data provision device 1, as exemplified in FIG. 3. In other words, the learning raw data provision device 1 does not need to be equipped with a learning raw data storage unit 21. In this case, the learning raw data is transmitted from the learning raw data storage unit 21 to the learning data processing device 2, for example, using an encrypted communication method.
- the communication method used when transmitting learning raw data from the learning raw data storage unit 21 to the learning data processing device 2 is not limited to an encrypted communication method. Even in the example of FIG. 3, there may be multiple learning raw data provision devices 1.
- the model providing device 3 may be composed of multiple devices.
- the label providing device 5 may be composed of multiple devices.
- data may be exchanged directly between components of the learning data processing device, or may be exchanged via a storage unit (not shown).
- the label providing device 5 and the model providing device 3 may be the same device.
- the synthetic data and the model to which the labels have been added are transmitted to the training data processing device 2 at the same time.
- the user device 4 may be a different device from the learning raw data providing device 1, the model providing device 3, and the label providing device 5, or may be the same device.
- Each of the learning raw data providing device 1, the model providing device 3, the label providing device 5, and the user device 4 may be composed of multiple devices.
- At least one of the label providing device 5 and the model providing device 3 may be able to access the raw data for learning.
- each unit of each of the above-mentioned devices may be realized by a computer, in which case the processing contents of the functions that each device should have are described by a program. Then, by loading this program into the storage unit 1020 of the computer 1000 shown in Fig. 7 and operating the arithmetic processing unit 1010, the input unit 1030, the output unit 1040, the display unit 1060, etc., various processing functions of each of the above-mentioned devices are realized on the computer.
- the program describing this processing can be recorded on a computer-readable recording medium.
- a computer-readable recording medium is, for example, a non-transitory recording medium, specifically, a magnetic recording device, an optical disk, etc.
- the program may be distributed, for example, by selling, transferring, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of a server computer and transferring the program from the server computer to other computers via a network.
- a computer that executes such a program for example, first stores the program recorded on a portable recording medium or the program transferred from a server computer in its own non-transient storage device, auxiliary recording unit 1050. Then, when executing processing, the computer reads the program stored in its own non-transient storage device, auxiliary recording unit 1050, into storage unit 1020, and executes processing according to the read program. As another execution form of this program, the computer may read the program directly from the portable recording medium into storage unit 1020 and execute processing according to the program, or, each time a program is transferred to this computer from the server computer, the computer may execute processing according to the received program.
- the above-mentioned processing may be executed by a so-called ASP (Application Service Provider) type service, which does not transfer the program from the server computer to this computer, but instead realizes processing functions only by issuing execution instructions and obtaining results.
- the program includes information used for processing by a computer that is equivalent to a program (such as data that is not a direct command to a computer but has properties that dictate computer processing).
- the device is configured by executing a specific program on a computer, but at least a part of the processing may be realized by hardware.
- each of the learning raw data storage unit 21, the composite data generation unit 22, the composite data storage unit 23, the model storage unit 24, the presentation data extraction unit 25, and the model learning management unit 26 may be configured by a processing circuit.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
学習データ処理装置2は、少なくとも1個の学習用生データに基づいて、学習用生データの擬似的な学習用データである合成データを生成する合成データ生成部22と、学習用生データの分布と合成データの分布とを比較して、学習用生データの分布から外れている合成データである外れ合成データを合成データから除く外れ合成データ除去部27と、を備えている。
Description
開示の技術は、モデルを学習するためのデータを処理する技術に関する。
機械学習、特に教師あり学習は様々な応用分野で普及している。対象が広がる中、学習に用いるデータは、より機微なものとなり、またモデルとともに継続的に更新されていくことが一般的になっている。
機微なデータを扱う分野での普及においては、機械学習に用いるデータやラベル、モデルをそれぞれ提供者以外に提示できないという制約があり、セキュアな環境や処理方法が必要になる。また、訓練データセットおよびモデルの構築、更新においては、実際のデータの特徴やモデルの出力結果といったモデルの動作状況をラベル提供者やモデル提供者が観察し、十分な推論性能を実現するインタラクティブな処理方法が必要である。
機微なデータを提供者以外に提示せずにセキュアな環境で処理する方法として、データサンドボックスが知られている。データサンドボックスは、ハードウェア暗号化技術(TEE)を活用することによりハードウェア上でセキュアな環境を担保し、その環境内では平文のまま学習と推論の両方を実行できる技術である。
また、従来技術として、データサンドボックス内で学習用生データから疑似的な学習用データである合成データを生成して、合成データをラベルやモデル等の生成者に提示する技術が知られている(例えば、非特許文献1参照。)。これにより、学習用生データの提供者以外に学習用生データを提示せずに、モデルの生成等を行うことができる。
税所修, 三浦尭之, 岩花一輝, 紀伊真昇, 「能動合成データ生成:アノテーションを伴う機械学習へのプライバシ保護合成データの活用」, 研究報告モバイルコンピューティングと新社会システム(MBL),2023-MBL-107(9),1-8 (2023-05-11) , 2188-8817
しかし、非特許文献1の技術によって生成されたモデルの精度は低いことがあった。
開示の技術は、より精度の高いモデルを生成することができる学習データを生成する学習データ処理装置、方法及びプログラムを提供することを目的とする。
開示の技術の一態様である学習データ処理装置は、少なくとも1個の学習用生データに基づいて、学習用生データの擬似的な学習用データである合成データを生成する合成データ生成部と、学習用生データの分布と合成データの分布とを比較して、学習用生データの分布から外れている合成データである外れ合成データを合成データから除く外れ合成データ除去部と、を備えている。
開示の技術によれば、より精度の高いモデルを生成することができる学習データを生成可能となる。
以下、図面を参照して開示の技術の実施形態を説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[実施形態]
学習データ処理装置2は、図1に示すように、学習用生データ記憶部21、合成データ生成部22、合成データ記憶部23、外れ合成データ除去部27を例えば備えている。後述するように、学習データ処理装置2は、図1に一点鎖線で示す提示データ抽出部25、図1に二点鎖線で示すモデル学習管理部26、図1に点線で示すモデル記憶部24を更に備えていてもよい。
学習データ処理装置2は、図1に示すように、学習用生データ記憶部21、合成データ生成部22、合成データ記憶部23、外れ合成データ除去部27を例えば備えている。後述するように、学習データ処理装置2は、図1に一点鎖線で示す提示データ抽出部25、図1に二点鎖線で示すモデル学習管理部26、図1に点線で示すモデル記憶部24を更に備えていてもよい。
学習データ処理装置2は、学習用生データ提供装置1、モデル提供装置3及び利用者装置4のそれぞれとデータの送受信が可能なように接続されている。学習データ処理装置2は、図1に破線で示すラベル提供装置5とデータの送受信が可能なように接続されていてもよい。
学習データ処理装置2において、データサンドボックスが作成される。データサンドボックスは、ハードウェア暗号化技術(TEE)を活用したハードウェア上のセキュアな環境であり、外部から隔離された処理実行環境である(例えば、参考文献1参照。)。学習データ処理装置2の各部(学習用生データ記憶部21、合成データ生成部22、合成データ記憶部23、モデル記憶部24、提示データ抽出部25、モデル学習管理部26、外れ合成データ除去部27)の処理は、データサンドボックスの中で行われる。これらの部の少なくとも1つの処理が、データサンドボックスの中で行われてもよい。
〔参考文献1〕持田誠一郎, 長田孝彦, 三原淳慎, 「高品質・高信頼なデータ流通でデータ中心社会を実現する次世代データハブ技術」, NTT技術ジャーナル, 2020年12月号, 特集「将来の情報処理基盤実現に向けた取り組み」, pp.23-28.
データサンドボックスの中では、データは、そのデータを提供した装置の許可がなければ、そのデータを提供した装置以外の装置から閲覧することはできない。例えば、学習用生データは、学習用生データ提供装置1の許可がなければ学習用生データ提供装置1以外の装置から閲覧することはできない。また、モデルは、モデル提供装置3の許可がなければモデル提供装置3以外の装置から閲覧することはできない。
データサンドボックスの中では、データは、そのデータを提供した装置の許可がなければ、そのデータを提供した装置以外の装置から閲覧することはできない。例えば、学習用生データは、学習用生データ提供装置1の許可がなければ学習用生データ提供装置1以外の装置から閲覧することはできない。また、モデルは、モデル提供装置3の許可がなければモデル提供装置3以外の装置から閲覧することはできない。
学習方法は、学習データ処理装置2の各構成部が、以下に説明し、図2に示すステップS22、ステップS27の処理を行うことにより例えば実現される。
以下、学習データ処理装置2の各構成部について説明する。
<学習用生データ記憶部21>
学習用生データ提供装置1は、自身のローカル環境等で取得した学習用生データを学習データ処理装置2に送信する。
学習用生データ提供装置1は、自身のローカル環境等で取得した学習用生データを学習データ処理装置2に送信する。
これにより、学習用生データ記憶部21には、学習用生データ提供装置1から提供される学習用生データが記憶される。
学習用生データ提供装置1は、暗号化された通信方式で、学習用生データを送信してもよい。これにより、学習用生データの漏洩を防ぐことができる。もちろん、学習用生データ提供装置1が学習用生データを送信する際に用いる通信方式は、暗号化された通信方式に限定されない。
学習用生データ提供装置1の個数は、1個であってもよいし、複数個であってもよい。すなわち、学習用生データ記憶部21には、少なくとも1個の学習用生データ提供装置1からそれぞれ提供される少なくとも1個の学習用生データが記憶されてもよい。
<合成データ生成部22>
合成データ生成部22は、少なくとも1個の学習用生データに基づいて、学習用生データの擬似的な学習用データである合成データを生成する(ステップS22)。
合成データ生成部22は、少なくとも1個の学習用生データに基づいて、学習用生データの擬似的な学習用データである合成データを生成する(ステップS22)。
この例では、少なくとも1個の学習用生データは学習用生データ記憶部21に記憶されているので、合成データ生成部22は、学習用生データ記憶部21から読み込んだ学習用生データに基づいて、学習用生データの擬似的な学習用データである合成データを生成する(ステップS22)。
合成データ生成部22は、例えば、プライバシジェットを予め指定した上で差分プライバシを考慮して合成データを生成する。
生成された合成データは、外れ合成データ除去部27に出力される。
合成データ生成部22が合成データを生成するタイミングの例は、学習用生データ記憶部21に学習用生データが記憶されとき、学習用生データ記憶部21に記憶された学習用生データが更新されたとき、予め定められた時間間隔の何れかである。予め定められた時間間隔の例は、Tを整数として、T時間である。
なお、合成データ生成部22が合成データを生成するタイミングは、学習用生データ記憶部21に記憶された学習用生データの更新が行われる毎であってもよいし、学習用生データ記憶部21に記憶された学習用生データの数回の更新に一度であってもよい。このように、合成データ生成部22が合成データを生成するタイミングは、学習用生データ記憶部21に記憶された学習用生データの更新が行われるタイミングを考慮して定められてもよい。
また、予め定められた時間間隔も、学習用生データ記憶部21に記憶された学習用生データの更新が行われるタイミングを考慮して定められてもよい。
<外れ合成データ除去部27>
外れ合成データ除去部27には、合成データ生成部22が生成した合成データが入力される。また、外れ合成データ除去部27は、学習用生データ記憶部21から学習用生データを読み込む。
外れ合成データ除去部27には、合成データ生成部22が生成した合成データが入力される。また、外れ合成データ除去部27は、学習用生データ記憶部21から学習用生データを読み込む。
外れ合成データ除去部27は、学習用生データの分布と合成データの分布とを比較して、学習用生データの分布から外れている合成データである外れ合成データを合成データから除く(ステップS27)。
外れ合成データが除かれた合成データは、合成データ記憶部23に記憶される。
外れ合成データ除去部27は、例えば、学習用生データ及び合成データをクラスタリングすることで複数のクラスタに分割して、合成データの割合が所定の割合以上であるクラスタに含まれる合成データを外れ合成データとして合成データから除く。
所定の割合の例は、0以上1以下の実数cである。
例えば、c=1であり、あるクラスタに含まれる合成データの個数が100であり、そのあるクラスタに含まれる学習用生データの個数が0であるとする。この場合、そのあるクラスタに含まれる合成データの割合は1であり、c(=1)以上であるため、そのあるクラスタに含まれる合成データは、外れ合成データとされる。
外れ合成データ除去部27は、この処理を各クラスタに対して行い、外れ合成データを決定する。そして、外れ合成データ除去部27は、決定された外れ合成データを、合成データから除く。
また、外れ合成データ除去部27は、例えば、学習用生データ及び合成データをクラスタリングすることで複数のクラスタに分割して、学習用生データの個数が所定の閾値以下であるクラスタに含まれる合成データを外れ合成データとして合成データから除いてもよい。
例えば、あるクラスタに含まれる合成データの個数が100であり、そのあるクラスタに含まれる学習用生データの個数が1であり、所定の閾値=5であるとする。この場合、そのあるクラスタに含まれる学習用生データの個数は1であり、所定の閾値(=5)以下であるため、そのあるクラスタに含まれる合成データは、外れ合成データとされる。
外れ合成データ除去部27は、この処理を各クラスタに対して行い、外れ合成データを決定する。そして、外れ合成データ除去部27は、決定された外れ合成データを、合成データから除く。
<合成データ記憶部23>
合成データ記憶部23には、外れ合成データ除去部27によって外れ合成データが除かれた合成データが記憶される。
合成データ記憶部23には、外れ合成データ除去部27によって外れ合成データが除かれた合成データが記憶される。
このように、外れ合成データを除くことで、外れ合成データを除いた合成データから生成されるモデルの精度はより高くなる。これは、外れ合成データを除いた合成データの分布は、外れ合成データを除く前の合成データの分布と比較すると、学習用生データの分布に近くなるためである。
よって、上記の実施形態により、より精度の高いモデルを生成することができる学習データ(外れ合成データを除いた合成データ)を生成可能となる。
この例では、外れ合成データが除かれた合成データが学習データとされる。例えば、モデル提供装置3が、外れ合成データが除かれた合成データに基づいて学習を行いモデルを生成する(ステップS3)。この例では、モデル提供装置3は、合成データ記憶部23に記憶された合成データを受信して、受信した合成データに基づいて学習を行いモデルを生成する。
モデル提供装置3は、暗号化された通信方式で、合成データを受信してもよい。これにより、合成データの漏洩を防ぐことができる。もちろん、モデル提供装置3が合成データを受信する際に用いる通信方式は、暗号化された通信方式に限定されない。
学習データ処理装置2が図1に点線で示されるモデル記憶部24を備えている場合には、生成されたモデルは、学習データ処理装置2に送信され、モデル記憶部24に記憶される。
モデル提供装置3は、暗号化された通信方式で、モデルを送信してもよい。これにより、モデルの漏洩を防ぐことができる。もちろん、モデル提供装置3がモデルを送信する際に用いる通信方式は、暗号化された通信方式に限定されない。
なお、モデル提供装置3による合成データの受信は、モデル提供装置3の操作者がWebブラウザを介して合成データ記憶部23に記憶された合成データを見ることを可能にすることで実現されてもよい。
モデルを利用しようとする利用者装置4は、モデルに入力しようするデータを学習データ処理装置2に送信する。学習データ処理装置2は、モデル記憶部24から読み込んだモデルに、受信したデータを入力した場合の出力結果を得る。得られた出力結果は、利用者装置4に送信される。このようにして、利用者装置4は、モデル記憶部24に記憶されたモデルを利用することができる。
[第一変形例]
図1に破線で示すラベル提供装置5があってもよい。
図1に破線で示すラベル提供装置5があってもよい。
この場合、合成データ記憶部23から読み込まれた合成データは、ラベル提供装置5に送信される。
合成データのラベル提供装置5への送信は、暗号化された通信方式で行われてもよい。これにより、合成データの漏洩を防ぐことができる。もちろん、合成データのラベル提供装置5への送信の際に用いる通信方式は、暗号化された通信方式に限定されない。
ラベル提供装置5は、学習データ処理装置2から受信した合成データにラベルを付与する(ステップS5)。ラベルが付与された合成データは、モデル提供装置3に送信される。ラベルが付与された合成データのことを、訓練データと呼ぶこともある。
なお、ラベルが付与された合成データは、学習データ処理装置2に送信され、合成データ記憶部23に記憶されてもよい。これにより、ラベルが付与された合成データの管理を、学習データ処理装置2で行うことができる。もちろん、ラベルが付与された合成データの管理は、ラベル提供装置5で独立して行われてもよい。
モデル提供装置3は、ラベルが付与された合成データを用いて学習を行いモデルを生成する。その後の処理は、上記の実施形態と同様である。
このように、ラベル提供装置5が合成データにラベルを付与することで、教師あり学習又は半教師あり学習を行うことができようになる。
[第二変形例]
学習データ処理装置2は、図1に一点鎖線で示す提示データ抽出部25を備えていてもよい。
学習データ処理装置2は、図1に一点鎖線で示す提示データ抽出部25を備えていてもよい。
提示データ抽出部25は、外れ合成データが除かれた合成データの一部を抽出する(ステップS25)。そのために、提示データ抽出部25は、例えば、合成データ記憶部23に記憶された合成データの一部を抽出する。
提示データ抽出部25は、合成データの一部を、ランダムに抽出してもよいし、合成データ記憶部23に記憶されている過去の合成データの分布と、現在の合成データの分布との少なくとも一方を考慮して、合成データの一部を抽出してもよい。例えば、提示データ抽出部25は、合成データ記憶部23に記憶されている過去の合成データの分布と、現在の合成データの分布との比較を考慮して、合成データの一部を抽出してもよい。
また、提示データ抽出部25が抽出する合成データの個数は、定数であってもよいし、プライバシバジェット及び/又は現在の合成データの分布を例えば考慮して動的に決定されてもよい。
提示データ抽出部25が合成データの一部を抽出することで、合成データの分布の不確かさを大きくすることができ、学習用生データの推定を難しくすることができる。言い換えれば、合成データの全てはモデル提供装置3又はラベル提供装置5に提供しないことで、学習用生データが漏洩する可能性を小さくすることができる。
また、提示データ抽出部25が、更新前後のデータ分布の変化が十分小さくなるように、合成データの一部を抽出することで、合成データ生成時に差分プライバシのためのノイズを全くあるいは大きくは付与しなくても、合成データのデータセット間においても差分プライバシを担保することができる。
また、提示データ抽出部25は、抽出される一部の合成データを用いた学習により生成されるモデルの精度が上がるように、外れ合成データが除かれた合成データの一部を抽出してもよい(ステップS25)。
例えば、提示データ抽出部25は、外れ合成データが除かれた合成データの分布に基づいて計算されるスコアに基づいて、モデルの精度が上がる、外れ合成データが除かれた合成データの一部を抽出する。
また、提示データ抽出部25は、外れ合成データが除かれた合成データの一部を、学習中のモデルに入力した場合の出力に基づいて計算されるスコアに基づいて、モデルの精度が上がる、外れ合成データが除かれた合成データの一部を抽出してもよい。
スコアには、例えば、エントロピー等を用いた推論結果の不確かさをベースとする伝統的なもの、相互情報量等を用いて不確かさをベイズ統計的に表現するもの、データ分布に着目したもの、カーネル密度推定又はクラスタリングに基づくもの、これらを組み合わせたものを用いることができる。
なお、提示データ抽出部25は、抽出される一部の合成データに、ランダムに抽出される合成データと、スコアに基づいてモデルの精度が上がると期待される合成データとの両方を含めてもよい。
抽出された合成データは、例えば、モデル提供装置3に送信される。この場合、モデル提供装置3は、提示データ抽出部25によって抽出された合成データに基づいて学習を行いモデルを生成する。その後の処理は、上記の実施形態と同様である。
なお、提示データ抽出部25による合成データの一部の抽出と、モデル提供装置3による、抽出された一部の合成データを用いたモデルの生成とを繰り返すことでモデルを生成してもよい。この繰り返し処理は、予め設定された条件が満たされるまで実行される。予め設定された条件の例は、繰り返し数が所定の回数に達するまでという条件、モデルの出力が所定の精度に達するまでという条件である。なお、2回目以降に抽出される合成データの一部は、それ以前に抽出された合成データを含んでいてもよい。
なお、図1に破線で示すラベル提供装置5がある場合には、提示データ抽出部25によって抽出された合成データは、ラベル提供装置5に送信されてもよい。この場合、ラベル提供装置5は、提示データ抽出部25によって抽出された合成データにラベルを付与する。その後の処理は、第一変形例と同様である。このように、モデル提供装置3は、提示データ抽出部25によって抽出された合成データにラベルを付与するラベル提供装置5によってラベルが付与された合成データを用いて学習を行いモデルを生成してもよい。
なお、ラベル提供装置5は合成データ生成部22によって生成された合成データにラベルを付与し、ラベルが付与された合成データが合成データ記憶部23に記憶されているとして、提示データ抽出部25はラベルが付与された合成データ記憶部23に記憶された合成データの一部を抽出してもよい。
抽出された合成データは、例えば、モデル提供装置3に送信される。この場合、モデル提供装置3は、提示データ抽出部25によって抽出された、ラベルが付与された合成データに基づいて学習を行いモデルを生成する。その後の処理は、上記の実施形態と同様である。
なお、学習用生データ提供装置1と、モデル提供装置3と、ラベル提供装置5とは、互いに別の装置である。
[第三変形例]
学習データ処理装置2は、図1に二点鎖線で示すモデル学習管理部26を備えていてもよい。
学習データ処理装置2は、図1に二点鎖線で示すモデル学習管理部26を備えていてもよい。
モデル学習管理部26は、学習用生データ、及び/又は、合成データを用いて、モデル提供装置3により生成されたモデルの追加学習を行う(ステップS26)。そのために、モデル学習管理部26は、例えば、学習用生データ記憶部21に記憶された学習用生データ、及び/又は、合成データ記憶部23に記憶された合成データを用いて、モデル記憶部24に記憶されたモデルの追加学習を行う。
学習用生データを用いた追加学習とは、学習用生データの全部又は一部を用いた追加学習である。同様に、合成データを用いた追加学習とは、合成データの全部又は一部を用いた追加学習である。
このように、モデル学習管理部26が追加学習を行うことで、大半のデータをデータサンドボックス内に閉じ込めつつ、十分な学習データ量を確保することができ、モデルの性能を向上させることができる。
[他の変形例]
以上、開示の技術の実施形態の具体的な構成は、これまで説明した構成に限られるものではない。開示の技術の実施形態の具体的な構成は、開示の技術の実施形態の趣旨を逸脱しない範囲で適宜設計の変更等が可能である。
以上、開示の技術の実施形態の具体的な構成は、これまで説明した構成に限られるものではない。開示の技術の実施形態の具体的な構成は、開示の技術の実施形態の趣旨を逸脱しない範囲で適宜設計の変更等が可能である。
開示の技術の実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
例えば、学習データ処理装置2において、データサンドボックスは作成されなくてもよい。すなわち、学習データ処理装置2の各部(学習用生データ記憶部21、合成データ生成部22、合成データ記憶部23、モデル記憶部24、提示データ抽出部25、モデル学習管理部26、外れ合成データ除去部27)の処理は、データサンドボックスの中で行われなくてもよい。
学習用生データ記憶部21は、図3に例示するように、学習用生データ提供装置1の外部に設けられていてもよい。言い換えれば、学習用生データ提供装置1は、学習用生データ記憶部21を備えていなくてもよい。この場合、学習用生データは、例えば暗号化された通信方式で、学習用生データ記憶部21から学習データ処理装置2に送信される。もちろん、学習用生データ記憶部21から学習データ処理装置2に学習用生データを送信する際に用いられる通信方式は、暗号化された通信方式に限定されない。この図3の例においても、学習用生データ提供装置1は複数あってもよい。
モデル提供装置3は、複数の装置で構成されていてもよい。同様に、ラベル提供装置5は、複数の装置で構成されていてもよい。
例えば、学習データ処理装置の構成部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。
ラベル提供装置5とモデル提供装置3は同一の装置であってもよい。この場合、例えば、ラベルが付与された合成データ及びモデルは、学習データ処理装置2に同じタイミングで送信される。
利用者装置4は、学習用生データ提供装置1と、モデル提供装置3と、ラベル提供装置5と異なる装置であってもよいし、同じ装置であってもよい。
学習用生データ提供装置1、モデル提供装置3、ラベル提供装置5及び利用者装置4のそれぞれは、複数の装置で構成されていてもよい。
なお、ラベル提供装置5及びモデル提供装置3の少なくとも一方が、学習用生データにアクセス可能であってもよい。
[プログラム、記録媒体]
上述した各装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図7に示すコンピュータ1000の記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040、表示部1060などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
上述した各装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図7に示すコンピュータ1000の記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040、表示部1060などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部1020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。例えば、学習用生データ記憶部21、合成データ生成部22、合成データ記憶部23、モデル記憶部24、提示データ抽出部25及びモデル学習管理部26のそれぞれは、処理回路により構成されてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記載された場合と同程度に、本明細書中に参照により取り込まれる。
Claims (7)
- 少なくとも1個の学習用生データに基づいて、前記学習用生データの擬似的な学習用データである合成データを生成する合成データ生成部と、
前記学習用生データの分布と前記合成データの分布とを比較して、前記学習用生データの分布から外れている合成データである外れ合成データを前記合成データから除く外れ合成データ除去部と、
を含む学習データ処理装置。 - 請求項1の学習データ処理装置であって、
前記外れ合成データ除去部は、前記学習用生データ及び前記合成データをクラスタリングすることで複数のクラスタに分割して、合成データの割合が所定の割合以上であるクラスタに含まれる合成データを前記外れ合成データとして前記合成データから除く、
学習データ処理装置。 - 請求項1の学習データ処理装置であって、
前記学習用生データは、前記少なくとも1個の学習用生データを提供する学習用生データ提供装置の許可がなければ前記学習用生データ提供装置以外の装置から閲覧することはできない、
学習データ処理装置。 - 請求項1又は3の学習データ処理装置であって、
前記外れ合成データが除かれた合成データの一部を抽出する提示データ抽出部を更に含み、
前記提示データ抽出部によって抽出された一部の合成データが、学習に用いられる、
学習データ処理装置。 - 請求項4の学習データ処理装置であって、
前記提示データ抽出部は、抽出される一部の合成データを用いた学習により生成されるモデルの精度が上がるように、前記外れ合成データが除かれた合成データの一部を抽出する、
学習データ処理装置。 - 合成データ生成部が、少なくとも1個の学習用生データに基づいて、前記学習用生データの擬似的な学習用データである合成データを生成する合成データ生成ステップと、
外れ合成データ除去部が、前記学習用生データの分布と前記合成データの分布とを比較して、前記学習用生データの分布から外れている合成データである外れ合成データを前記合成データから除く外れ合成データ除去ステップと、
を含む学習データ処理方法。 - 請求項1の学習データ処理装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/035918 WO2025074469A1 (ja) | 2023-10-02 | 2023-10-02 | 学習データ処理装置、方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2023/035918 WO2025074469A1 (ja) | 2023-10-02 | 2023-10-02 | 学習データ処理装置、方法及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2025074469A1 true WO2025074469A1 (ja) | 2025-04-10 |
Family
ID=95284339
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2023/035918 Pending WO2025074469A1 (ja) | 2023-10-02 | 2023-10-02 | 学習データ処理装置、方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2025074469A1 (ja) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019526851A (ja) * | 2016-07-18 | 2019-09-19 | ナント ホールディングス アイピー エルエルシーNant Holdings IP, LLC | 分散型機械学習システム、装置、および方法 |
| US20190362268A1 (en) * | 2013-12-12 | 2019-11-28 | Cigna Intellectual Property, Inc. | System and method for synthesizing data |
| US20210065053A1 (en) * | 2019-08-30 | 2021-03-04 | Accenture Global Solutions Limited | Automated data processing and machine learning model generation |
| US20220027490A1 (en) * | 2020-07-24 | 2022-01-27 | Siemens Aktiengesellschaft | Gan-based data obfuscation decider |
| JP2023520557A (ja) * | 2020-04-02 | 2023-05-17 | ヘイジー リミテッド | 安全な個人データ集約のための装置と方法 |
-
2023
- 2023-10-02 WO PCT/JP2023/035918 patent/WO2025074469A1/ja active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20190362268A1 (en) * | 2013-12-12 | 2019-11-28 | Cigna Intellectual Property, Inc. | System and method for synthesizing data |
| JP2019526851A (ja) * | 2016-07-18 | 2019-09-19 | ナント ホールディングス アイピー エルエルシーNant Holdings IP, LLC | 分散型機械学習システム、装置、および方法 |
| US20210065053A1 (en) * | 2019-08-30 | 2021-03-04 | Accenture Global Solutions Limited | Automated data processing and machine learning model generation |
| JP2023520557A (ja) * | 2020-04-02 | 2023-05-17 | ヘイジー リミテッド | 安全な個人データ集約のための装置と方法 |
| US20220027490A1 (en) * | 2020-07-24 | 2022-01-27 | Siemens Aktiengesellschaft | Gan-based data obfuscation decider |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20230019072A1 (en) | Security model | |
| Picek et al. | Sok: Deep learning-based physical side-channel analysis | |
| CN114930357B (zh) | 经由梯度提升的隐私保护机器学习 | |
| US20200082272A1 (en) | Enhancing Data Privacy in Remote Deep Learning Services | |
| CN102611692B (zh) | 多承租人数据中心中的安全计算方法 | |
| US20180365674A1 (en) | Using a mixture model to generate simulated transaction information | |
| EP3335117B1 (en) | Data center privacy | |
| US10692115B2 (en) | Systems and methods for protecting internet advertising data | |
| CN115461761A (zh) | 基于判定树的同态加密数据推理 | |
| US11470057B2 (en) | Systems and methods for protecting internet advertising data | |
| Rathee et al. | Mpc-minimized secure llm inference | |
| US11477166B2 (en) | Systems and methods for providing secure evolution as a service | |
| US20230067574A1 (en) | Contextually irrelevant file segmentation | |
| US20230162054A1 (en) | Non-transitory computer-readable recording medium, machine training method, and information processing apparatus | |
| CN113591040A (zh) | 加密方法及其装置、解密方法及其装置、电子设备和介质 | |
| US11669780B2 (en) | Asynchronous multiple scheme meta learning | |
| WO2025074469A1 (ja) | 学習データ処理装置、方法及びプログラム | |
| CN110457869A (zh) | 程序编译加密方法、装置、存储介质及电子设备 | |
| WO2024209579A1 (ja) | 学習装置、方法及びプログラム | |
| US20240211639A1 (en) | Systems and methods for hardware device fingerprinting | |
| JPWO2018211670A1 (ja) | 検索装置、秘匿検索システム及び検索プログラム | |
| WO2025258052A1 (ja) | 訓練データ生成装置、訓練データ生成方法 | |
| Yan et al. | Data-centric Federated Graph Learning with Large Language Models | |
| JP7779379B2 (ja) | モデル学習装置、連合学習システム、それらの方法、およびプログラム | |
| JP7729474B2 (ja) | 秘密グローバルモデル計算装置、ローカルモデル登録方法、プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23954684 Country of ref document: EP Kind code of ref document: A1 |