JP7629011B2

JP7629011B2 - 機械学習を使用したデータセキュリティ及びアクセス制御の強化

Info

Publication number: JP7629011B2
Application number: JP2022529683A
Authority: JP
Inventors: チャンドラシェーカルウマ
Original assignee: アルコンインコーポレイティド
Priority date: 2019-12-03
Filing date: 2020-11-24
Publication date: 2025-02-12
Anticipated expiration: 2040-11-24
Also published as: US20230418967A1; CA3156894A1; US20210165901A1; CN114787809A; US12287895B2; CN114787809B; WO2021111247A1; AU2020397625A1; US20250232052A1; EP4070216A1; JP2023504371A; US11797700B2

Description

本開示の態様は、データアクセス及びセキュリティに関し、より具体的には、機械学習を使用してデータの可視性、制御、アクセス、及びセキュリティの決定を推進することに関する。

患者、ユーザ、又は処理及び保存されたデータによって記述される任意のその他の個人又はエンティティなど、任意の数のデータ主体に関するデータを収集及び保存するために、様々なグローバルシステムが使用されている。例えば、医療データは、特定の施設の患者ごとに維持されることがよくある。これには、診断、遺伝情報、臨床記録、患者が服用している（又は以前に処方された）投薬、入院患者又は外来患者の外科的手術、又は実行されるか若しくは推奨されているその他の処置など、任意の数の様々なデータ要素を含めることができる。一般に、このデータは、データのセキュリティとユーザのプライバシに関係する様々な保護と要件の対象となる。しかしながら、データへのアクセスが、データ主体に害を及ぼしたり、又はそれらのプライバシを侵害したりすることなく、データ主体又は他の人にとって有益である場合が多くある。

既存のシステムは一般にデータアクセスを困難にし、どのデータ要素が公開されているか（又は公開されてよいか）、どのデータ要素が保護されているかに関して重大な混乱を引き起こす。多くの分野（医療分野など）では、データアクセスとセキュリティは、共有が他者にとって有益である場合でも、データのどの要素を共有できるかについての柔軟性と予測可能性がほとんどない様々なテクノロジーによって主に制御されている。例えば、特定のケースでは、患者は、合併症又は根本的な病状のために残念ながら亡くなる可能性がある。患者の生涯の間に、遺伝情報や診断などの医療データが収集され、相関している可能性がある。そのような情報は、例えば、患者の生きている親戚にとっても、同じ状態の素因となる可能性のある遺伝子マーカーを持っているかどうかを決定するなど、有益である可能性がある。親戚がそのような情報にアクセスできた場合、それは彼らがより早く状態に対処し、生活の質を向上させるのに役立つ可能性がある。しかし、現在のシステムは非常に厳格であるため、親戚は患者の同意がないためそのような情報にアクセスできず、更にこの段階では、残念ながらそれを取得することはできない。

他の業界では、パートナーや競合他社も同様に、専有知識を失うことを恐れており、イノベーションと成長の機会を逃しているにもかかわらず、一般的にデータアクセスを完全に妨げている。高いレベルでは、イノベーションを進めるために他の人が使用する可能性のある貴重なデータが、アクセス制限のために、そのような制限の影響を考慮せずに一般に利用できないため、これは社会のイノベーションの進展に悪影響を与える可能性がある。したがって、データ開示のオールオアナッシングの既存のバイナリフレームワークの代替として、データアクセスをより細かく制御するための柔軟でインテリジェントなシステムが必要である。

特定の実施形態は、１つ又は複数の機械学習モデルを使用してデータアクセスを自動的に制御するための方法を提供する。この方法は、概して、第１のユーザから、第２のユーザに関係するデータの第１の要求を受信することと、１つ又は複数のトレーニングされた機械学習モデルの第１のセットを使用して第１の要求を処理することにより、第１の要求が１つ又は複数のデータアクセスルールを満たしているかどうかを自動的に決定することと、第１の要求が１つ又は複数のデータアクセスルールを満たしていると決定すると、第１の要求に基づいて第１の複数のデータ要素を自動的に取得することと、１つ又は複数のトレーニングされた機械学習モデルの第２のセットを使用して第１の複数のデータ要素のそれぞれを処理することによって、第１の複数のデータ要素のそれぞれが１つ又は複数のデータアクセスルールを満たしているかどうかを自動的に決定することと、第１の複数のデータ要素からのデータ要素の第１のセットが１つ又は複数のデータアクセスルールを満たしていると決定すると、１つ又は複数のトレーニングされた機械学習モデルの第３のセットを使用してデータ要素の第１のセットを処理することによって、データ要素の第１のセットが１つ又は複数のデータアクセスルールを満たしているかどうかを決定することと、データ要素の第１のセットが１つ又は複数のデータアクセスルールを満たしていると決定すると、データ要素の第１のセットを含むカスタムレポートを生成することと、を含む。

特定の実施形態は、１つ又は複数の機械学習モデルをトレーニングしてデータアクセス可能性を制御するための方法を提供する。この方法は、概して、履歴アクセスレコードのセットから第１のトレーニングデータセットを生成することであって、第１のトレーニングデータセットのそれぞれのアクセスレコードは、データのそれぞれの要求に対応し、それぞれの要求が１つ又は複数のデータアクセスルールを満たしているかどうかを識別する情報を含む、生成することと、データレコードのセットから第２のトレーニングデータセットを生成することであって、第２のトレーニングデータセットのそれぞれのデータレコードは、それぞれのデータ要素に対応し、それぞれのデータ要素が１つ又は複数のデータアクセスルールを満たしているかどうかを識別する情報を含む、生成することと、履歴アクセスレコードのセットから第３のトレーニングデータセットを生成することであって、第３のトレーニングデータセットのそれぞれのアクセスレコードは、集約されたデータ要素のそれぞれのセットに対応し、集約されたデータ要素のそれぞれのセットが１つ又は複数のデータアクセスルールを満たしているかどうかを識別する情報を含む、生成することと、第１、第２、及び第３のトレーニングデータセットに基づいて１つ又は複数の機械学習モデルをトレーニングして、データの要求を許可すべきかどうかを識別する出力を生成することと、１つ又は複数の機械学習モデルを１つ又は複数のコンピューティングシステムに展開することと、を含む。

本開示の態様は、本明細書に記載の方法を実行するための、装置、プロセッサ、及びコンピュータ可読媒体のための手段を提供する。

前述及び関連する目的を達成するために、１つ又は複数の態様は、以下で完全に説明され、特に特許請求の範囲で挙げられる特徴を含む。以下の説明及び添付図面は、１つ又は複数の態様の特定の例示的な特徴を詳述する。しかしながら、これらの特徴は、様々な態様の原理を採用できる様々な方法のほんの一部を示しているものである。

添付の図面は、１つ又は複数の実施形態の特定の態様を示しており、それゆえ、本開示の範囲を限定するものと見なされるべきではない。

図１は、本明細書に開示されるいくつかの実施形態による、機械学習を使用してデータアクセスを制御するように構成された分析サーバを含む環境を示す。図２は、本明細書に開示されるいくつかの実施形態による、様々なアクセスルールを使用してデータアクセスを制御するためのワークフローを示す。図３は、本明細書に開示されるいくつかの実施形態による、機械学習モデルをトレーニングして、データ要求の特性に基づいてデータアクセスを制御するための方法を示す流れ図である。図４は、本明細書に開示されるいくつかの実施形態による、機械学習モデルをトレーニングして、個々のデータ要素の特性に基づいてデータアクセスを制御するための方法を示す流れ図である。図５は、本明細書に開示されるいくつかの実施形態による、機械学習モデルをトレーニングして、アクセスルールを個別に満たす集約されたデータ要素の特性に基づいてデータアクセスを制御するための方法を示す流れ図である。図６は、本明細書に開示されるいくつかの実施形態による、トレーニングされた機械学習モデルを使用してデータアクセスを制御するための方法を示す流れ図である。図７は、本明細書に開示されるいくつかの実施形態による、データアクセス制御及び通知を強化するためのグラフィカルユーザインタフェース（ＧＵＩ）を示す。図８は、本明細書に開示されるいくつかの実施形態による、１つ又は複数の機械学習モデルを使用してデータアクセスを自動的に制御するための方法を示す流れ図である。図９は、本明細書に開示されるいくつかの実施形態による、１つ又は複数の機械学習モデルをトレーニングしてデータアクセス可能性を制御するための方法を示す流れ図である。図１０は、本明細書に開示されるいくつかの実施形態による、機械学習モデルをトレーニング及び使用してデータアクセスを制御するように構成されたコンピューティングデバイスを示すブロック図である。

理解を促進するために、各図面に共通する同一の要素は、可能な限り同一の参照符号を使用して示している。一実施形態の要素及び特徴は、更なる説明を伴わずに他の実施形態に有益に組み込むことができるように企図されている。

本開示の実施形態は、データのプライバシ及びセキュリティが維持されることを保証すると同時に、そうすることが対応する害なしに有益であるときには柔軟なアクセスを可能にする、効果的なデータアクセス制御のための技術を提供する。有利なことに、そのようなシステムは、共有から利益を得ることができるデータが共有される一方で、（例えば、プライバシ問題につながる特定の個人を識別することによって）害を及ぼす可能性のあるデータの共有が実行されないように、定義された方法で貴重なデータへのアクセスを自動的に提供することができる。このような微調整されたデータ共有は、単にデータ共有にオールオアナッシングアプローチを利用する既存の方法では不可能である。例えば、既存のシステムによって収集されたデータのせん断量に基づいて、共有するデータを手動で決定する現在のメカニズムでは、本明細書で説明するデータ共有の柔軟性のレベルを提供することは実際には実現可能ではない。したがって、そのような手動メカニズムは慎重になり過ぎる可能性があり、ほとんどのデータを共有しないことによってデータへのアクセスを過度に制限する可能性がある。

いくつかの実施形態では、そのような柔軟なデータ共有を可能にするために、定義されたアクセスルールを利用して、複数の層又はステップでデータ要求及びデータ要素を評価して（例えば、要求のみを評価し、それぞれの個別のデータ要素を評価し、集約されたデータ要素を評価して）からその後に任意のデータを提供する（又は提供を控える）。いくつかの実施形態では、１つ又は複数の機械学習モデルのセットは、そのようなアクセスルールに基づいて要求及びデータ要素を分類するようにトレーニングされる。そうすることで、本開示の実施形態は、データセキュリティを維持しながら、データ要求への迅速な評価及び応答を可能にする。加えて、本システムは、（現在のシステムが主観的な決定に依存しているのに対して）客観的なモデルを利用して要求を評価するため、データの整合性が保証される。

いくつかの実施形態では、アクセスルールのセットを利用して、データアクセスの決定を推進する。いくつかの実施形態では、所与の展開において任意の数のアクセスルールが存在し得る。いくつかの実施形態では、システムは、業界にとらわれない方法でアクセスルールの基本セットを利用することができ、所与の業界又は展開に対する特定の要件及び要望に基づいて追加のルールを追加又は変更することができる。いくつかの実施形態では、アクセスルールは、初期手動フェーズ中にデータアクセスを制御するために使用され、（例えば、対象分野の専門家又は他のユーザによって）ルールに基づいて行われた決定を使用して、自動的に分析を提供するための機械学習モデルをトレーニングする。すなわち、上記で初期手動フェーズと呼ばれるものの間に、人間のレビュー担当者は、要求が許可されるべきか、及び／又はデータが共有されるべきかを決定するために、アクセスルールを考慮して要求及びデータ要素を評価し得る。これらの手動の決定は、要求及び／又はデータの詳細を含むレコードに保存でき、人間の決定でラベル付けされる。このようなレコードは、機械学習アルゴリズムで使用して、機械学習モデルをトレーニングし、同様の分析を自動的に実行できる。

いくつかの実施形態では、アクセスルール（したがって、アクセスルールに基づいてトレーニングされたモデル）は、プライバシ及びセキュリティを維持しながらアクセスが有益であると考えられるときにデータを共有できることを保証するために使用される。いくつかの実施形態では、システムは、３つのルールのセットを使用し、それらは、データが提供された場合、それは（データ主体に害を与えることなく）人類又は社会を向上させるためにのみ使用できることを指定する第１のアクセスルール、要求元エンティティがデータに対して正当な意図を有している必要があることを指定する第２のアクセスルール、及び他のルールと競合することなく、データを可能な限り保護及び保証する必要があることを指定する第３のアクセスルール、である。このフレームワークに基づいて、モデルをトレーニングして、アクセスルールを順守しながら、インテリジェントで柔軟な方法でデータへのアクセスを許可及び制限する動的データアクセスシステムを効果的に提供できる。

図１は、本明細書に開示されるいくつかの実施形態による、機械学習を使用してデータアクセスを制御するように構成された分析サーバ１１０を含む環境１００を示す。図示の実施形態では、要求元ユーザ１０５は、分析サーバ１１０に要求を提供することができる。この要求は通常、少なくとも要求されたデータ並びにデータの使用目的を識別する。いくつかの実施形態では、要求は、要求元ユーザ１０５を識別するために、又は他の追加情報を提供して要求にコンテキストを与えるために使用されるメタデータ若しくは他の追加データを含む。いくつかの実施形態では、要求は、例えば、要求元ユーザ１０５のアイデンティティ（例えば、それらの名前又は他の識別情報）、要求の理由若しくは目的、データがいつ必要であるかのタイムライン、又は要求のコンテキストを補足又は提供するための任意の追加のドキュメントを指定する要求者プロファイルに関連付けられる。

例えば、ユーザが家族歴に基づいて、深部静脈血栓症（ＤＶＴ）などの特定の障害のリスクが高いかどうかを決定したいと仮定する。いくつかの実施形態では、ユーザ（要求元ユーザ１０５として作用する）は、直接又はネットワークによってなど別のデバイスを介して、この情報を含む分析サーバ１１０に要求を提供することができる。分析サーバ１１０は、任意の適切な環境（例えば、オンプレミス、エンティティに関連付けられている、クラウド内など）の任意の適切なサーバであり得る。いくつかの実施形態では、要求は、１つ又は複数のデータ主体を具体的に識別する。例えば、要求元ユーザ１０５は、彼らの家族をデータ主体として識別することができる（例えば、「私の家族の誰かがＤＶＴの病歴を持っているか？」）。別の実施形態では、分析サーバ１１０は、関連するデータ主体を識別するために要求を評価する。例えば、要求（例えば、「私はＤＶＴの遺伝的リスクが高いか？」）に基づいて、システムは、関連するデータ主体が要求元ユーザ１０５の親戚であると決定することができる。これは、例えば、自然言語処理（ＮＬＰ）を使用して実現できる。

加えて、いくつかの実施形態では、要求は、所望のデータ要素を具体的に識別する（例えば、特定のレポート、検査、又はデータの他の要素を識別する）。別の実施形態では、分析サーバ１１０は、ＮＬＰ又は他の技術を使用して要求を分析することに基づいて、関連するデータ要素を識別する。

図示の環境１００では、分析サーバ１１０は、データ共有コンポーネント１１５及びカスタムレポートジェネレータ１２０を含む。データ共有コンポーネント１１５は、一般に、本明細書で論じられるアクセスルールのセットに基づいて、要求を（完全に又は部分的に）許可すべきかどうかを決定するために要求を評価し、更に、関連するデータ要素を識別、取得、及び評価して、それらが本明細書で論じられるのと同じアクセスルールのセットに基づいて、データ要求者に提供されるべきかどうかを決定する。いくつかの実施形態では、データ共有コンポーネント１１５は、３つの層で要求及びデータを評価し、それらは、アクセスルールを考慮して要求を評価する第１の層、アクセスルールを考慮してそれぞれの個別のデータ要素を評価する第２の層、及びアクセスルールを考慮してデータ要素の集合セットを評価する第３の層、である。最終レポートには、全ての層に合格するデータ要素のみが含まれる。カスタムレポートジェネレータ１２０は、一般に、要求元ユーザ１０５のためのカスタムレポートを構築する。このカスタムレポートには、データ共有コンポーネントによる共有が承認されたあらゆるデータ要素が含まれ得る。いくつかの実施形態では、カスタムレポートは、以下でより詳細に説明するように、任意の要求の一部（又は要求全体）が否認された理由、又は任意のデータが除外された理由を更に含むことができる。データ共有コンポーネント１１５及びカスタムレポートジェネレータ１２０は、概念を明確にするために個別のコンポーネントとして示されているが、実施形態では、操作は、任意の数のコンポーネント及びデバイスにわたって組み合わせ又は分散され得る。

いくつかの実施形態では、データ共有コンポーネント１１５は、定義されたアクセスルールに基づいてなど、要求を完全に否認すべきかどうかを決定するために、最初に要求を評価することができる。これは、本明細書に記載のいくつかの実施形態では「層１」と呼ばれることがある。例えば、データ共有コンポーネント１１５は、アクセスルールに指定されるように、要求されたデータへのアクセスを許可することが、データ主体に害を与えることなく人類を向上させるかどうか、要求が正当な意図によって導かれているかどうか、データが保護されたままであるかどうかなどを決定することができる。いくつかの実施形態では、データ共有コンポーネント１１５は、以下でより詳細に説明するように、１つ又は複数のトレーニングされたモデルを使用してそのようにする。例えば、データ共有コンポーネント１１５は、本明細書で更に議論されるように、要求の特徴を抽出し、以前の要求からのラベル付けされたアクセスデータに基づいてトレーニングされた１つ又は複数のモデルを使用してそれらを処理することができる。そのような特徴は、限定されないが、要求元ユーザ１０５及び／又はデータ主体のアイデンティティ、それらの間の関係、データを要求するための示された目的（明示的に述べられてもよく、又は例えば、ＮＬＰなどを使用して要求を処理することに基づいて決定されてもよい）などを含み得る。

データ共有コンポーネント１１５が（例えば、要求元ユーザ１０５が広告目的でデータを商業的に利用することを意図しており、これは人類を向上させる正当な使用ではないため）要求を否認すべきであると決定した場合、データ共有コンポーネント１１５は要求を拒否することができる。次に、カスタムレポートジェネレータ１２０は、要求が否認されたことを示すレポートを生成し、決定された理由（例えば、どのアクセスルールに不合格だったかを示す）を含めることができる。

いくつかの実施形態では、データ共有コンポーネント１１５が、（例えば、トレーニングされたモデルを使用して）要求がアクセスルールを満たしていると決定した場合、データ共有コンポーネント１１５は、関連するデータ要素を識別し、それらを１つ又は複数のデータリポジトリ１２５から取得することによって、分析の第２の層を開始することができる。例えば、データ共有コンポーネント１１５は、データが含まれ得るデータリポジトリ１２５を識別する。データリポジトリ１２５は、例えば、要求元ユーザ１０５のアイデンティティ、データ主体のアイデンティティ、要求の性質又はコンテキスト（例えば、要求されている特定のタイプのデータ）などに基づいて識別され得る。次に、データ共有コンポーネント１１５は、識別された各リポジトリにクエリを送信して、関連するデータを取得することができる。

いくつかの実施形態では、データ共有コンポーネント１１５は、次に、アクセスルールに基づいて（例えば、１つ又は複数のトレーニングされたモデルを使用して）それぞれの個別のデータ要素を評価する。実施形態では、データ共有コンポーネント１１５は、要求を評価するために使用されるのと同じモデルを利用することができ、又はデータ要素を評価するためにトレーニングされた異なるモデルのセットを使用することができる。それぞれの個別のデータ要素ごとに、データ共有コンポーネント１１５が、データ要素はアクセスルールを満たしていると決定した場合、データ共有コンポーネント１１５は、要求元ユーザ１０５が潜在的にアクセスを許可されるデータ要素のセットにそれを追加することができる。不合格だったあらゆるデータについては、データ共有コンポーネント１１５はそれを開示することを控えることができる。いくつかの実施形態では、カスタムレポートジェネレータ１２０は、特定のデータ要素が除外された理由を含むことになる。

複数のデータ要素が基準を満たしていると決定された場合、いくつかの実施形態では、データ共有コンポーネント１１５は、次に、複数のデータ要素を集合的に評価して、それが集合的に共有されるべきかどうかを決定することができる。例えば、データ要素のセットは、個別にルールを満たすことができるが（例えば、データ主体を特定したり又は害を与えたりすることなく人類を向上させるために使用されているため）、データ要素は、まとめて評価されると、不合格となる可能性がある（例えば、それらを集合的に使用して、データ主体を特定及び／又は害することができ得るため）。例えば、性別、生年月日、及び勤務地のそれぞれだけでは、データ主体を特定するのに個別に十分ではない場合があり、これは、そのような定義に個別に一致するデータ主体が多数あるためであるが、集合的には、そのような情報は、小グループ又は単一のデータ主体だけにしか関連しない可能性がある。

いくつかの実施形態では、データ共有コンポーネント１１５の評価に基づいて、カスタムレポートジェネレータ１２０は、次に、カスタムレポートを生成し、要求元ユーザ１０５に返す。いくつかの実施形態では、カスタムレポートジェネレータ１２０は、どのデータが共有されたかを示す通知をデータ主体１３０に更に提供することができる。いくつかの実施形態では、通知は、要求の理由又は目的、要求元ユーザ１０５のアイデンティティなどを更に示す。特定の実施形態では、通知は、差し控えられた任意のデータ要素を更に示すことができる。

図示の実施形態では、データ主体１３０は、分析サーバ１１０へのこのデータアクセスに関係するフィードバックを提供することができる。例えば、データ主体１３０は、１つ又は複数の特定のデータ要素が共有されることを望まないこと、又はそれにもかかわらず差し控えられた１つ又は複数のデータ要素が共有されるべきであることを示し得る。いくつかの実施形態では、システムは、このフィードバックに基づいてトレーニングされたモデルを精緻化することができる。

図示の実施形態では、データ共有コンポーネント１１５は、トレーニングサーバ１３５によって提供されるトレーニングされたモデルを利用する。概念を明確にするために別個のサーバとして示されているが、いくつかの実施形態では、トレーニングサーバ１３５及び分析サーバ１１０は、単一のサーバとして動作することができる。つまり、モデルは単一のサーバでトレーニングして使用することも、又は１つ又は複数のサーバでトレーニングして他の１つ又は複数のサーバで使用するために展開することもできる。

図示のように、トレーニングサーバ１３５は、トレーニングデータジェネレータ１４０及びモデルトレーナ１４５を含む。概念を明確にするために個別のコンポーネントとして示されているが、いくつかの実施形態では、トレーニングデータジェネレータ１４０及びモデルトレーナ１４５の動作は組み合わせられてもよく、又は任意の数のコンポーネント及びデバイスにわたって分散されてもよい。

トレーニングデータジェネレータ１４０は、一般に、履歴アクセスレコード１５０を使用して、モデルトレーナ１４５が１つ又は複数の機械学習モデルをトレーニングするために使用するトレーニングデータセットを生成する。いくつかの実施形態では、履歴アクセスレコード１５０は、データ共有に関する以前の決定に関係している。例えば、履歴アクセスレコード１５０内の各レコードは、特定の要求に対応することができ、レコードは、要求が許可されたかどうかを示すことができる。いくつかの実施形態では、否認された要求ごとに、対応するレコードは、要求が否認された理由を示すこともできる。いくつかの実施形態では、承認された要求ごとに、対応するレコードは、関連するデータ要素、それぞれの個別のデータ要素のリリースが承認されたかどうか、集約されたデータセットが承認されたかどうかなどを示すことができる。

いくつかの実施形態では、トレーニングデータジェネレータ１４０は、トレーニングされるモデルごとに別個のトレーニングデータセットを生成する。例えば、モデルトレーナ１４５は、分析の各層について別個のモデルをトレーニングすることができ、そのモデルは、要求がアクセスルールを満たしているかどうかを評価する１つ又は複数のモデルの第１のセット、それぞれの個別のデータ要素がアクセスルールを満たしているかどうかを評価する１つ又は複数のモデルの第２のセット、及び、集約されたデータ要素がアクセスルールを満たしているかどうかを評価する１つ又は複数のモデルの第３のセット、である。同様に、各層について、モデルトレーナ１４５は、アクセスルールごとに別個のモデルをトレーニングすることができる。例えば、モデルトレーナ１４５は、要求が第１のルールを満たしているかどうか（例えば、要求が人類に利益をもたらすかどうか）を決定する第１のモデル、要求が第２のアクセスルールを満たしているかどうかを決定する第２のモデル、及び要求が第２のアクセスルールを満たしているかどうかを決定する第３のモデル、をトレーニングすることができる。同様に、モデルトレーナ１４５は、個々のデータ要素が同じ第１のルールを満たしているかどうかを決定する第１のモデル、個々のデータ要素が第２のアクセスルールを満たしているかどうかを決定する第２のモデル、及び個々のデータ要素が第３のアクセスルールを満たしているどうかを決定する第３のモデル、をトレーニングすることができる。また、モデルトレーナ１４５は、集約されたデータ要素が第１のルールを満たしているかどうかを決定する第３のモデル、集約されたデータ要素が第２のアクセスルールを満たしているかどうかを決定する第２のモデル、及び集約されたデータ要素が第３のアクセスルールを満たしているかどうかを決定する第３のモデル、をトレーニングすることができる。

いくつかの実施形態では、生成されたトレーニングデータセットは、ターゲットモデルに基づいて異なる可能性がある。例えば、分析の要求層のためにモデルをトレーニングするために、トレーニングデータジェネレータ１４０は、履歴アクセスレコード１５０からデータセットを生成することができ、ここで、各トレーニングレコードは、要求の態様である入力特徴（例えば、決定された理由、要求者のアイデンティティなど）、及び要求がアクセスルールを満たしたかどうか、したがって承認されたかどうか（又は、それぞれの個別のデータアクセスルールに合格又は不合格であると決定されたかどうか）を示す対応するラベルを指定する。例えば、人間のユーザは、要求がアクセスルールを満たしているかどうかを決定するために要求を評価することができる。次に要求データ（又はメタデータ）は、ラベル付けの例として、ユーザの決定と共に記録できる。個々のデータ要素層について、トレーニングデータジェネレータ１４０は、各レコードが以前に要求及び／又は共有された特定のデータ要素に対応し、各レコードがデータ要素の特性に関係する入力特徴（例えば、関係するフィールド、事前定義されたプライバシレベル、関連する規制など）を指定する、データレコードのセット、並びに、データ要素へのアクセスを許可することがアクセスルールを満たしていると決定されたかどうかを示すラベルを生成することができる。

図示の実施形態では、モデルトレーナ１４５は、生成されたトレーニングデータセットを使用して、モデルのセットをトレーニングする。一般に、各モデルのトレーニングには、１つ又は複数のトレーニングレコードについて、（ランダムなパラメータで開始できる）示された入力特徴をモデルへの入力として提供することが含まれる。次に、生成された出力がトレーニングレコードのラベルと比較され、モデルトレーナ１４５は、生成された出力と提供されたラベルとの間の差に基づいて損失を計算することができる。次に、この損失を使用して、モデルの内部パラメータ又は重みを変更できる（例えば、バックプロパゲーションを介して）。各トレーニングレコードを繰り返し処理することにより、モデルは繰り返し精緻化され、入力特徴に基づいて正確なアクセス決定を生成する。

図示のように、トレーニングサーバ１３５は、実行時に使用するために、これらのトレーニングされたモデルを分析サーバ１１０に展開する。いくつかの実施形態では、トレーニングサーバ１３５はまた、分析サーバ１１０から更新を受信する（例えば、データ主体又は対象分野の専門家からのフィードバックの形で）。これらの更新は、モデルを更に精緻化するために使用できる。

図２は、本明細書に開示されるいくつかの実施形態による、様々なアクセスルールを使用してデータアクセスを制御するためのワークフロー２００を示す。ワークフロー２００は、要求２０５が受信されたときに開始する。要求は通常、所望のデータを示したり又は識別したりする。この指示は、特定のデータ要素の指定（例えば、特定のレコードの識別）、データのタイプの識別（例えば、「検査結果」）、所望のコンテンツの表示（例えば、「ＤＶＴに関係するレコード」）などを含む、任意の特異性のものであり得る。いくつかの実施形態では、要求２０５はまた、１つ又は複数のデータ主体を識別する。説明したように、データ主体とは、要求されたデータの対象となる人物である。いくつかの実施形態では、データ主体を識別することはまた、特定の人々を識別すること、又は人々のグループ（例えば、「私の親戚」、「６０歳未満の男性」など）を示すことを含む、任意のレベルの特異性であり得る。

いくつかの実施形態では、要求２０５は、要求元エンティティ、データの目的などを更に識別する。いくつかの実施形態では、データの目的を示すことは、理由を明示的に述べること、事前定義された目的を選択することなどを含むことができる。特定の実施形態では、要求２０５は自然言語テキストを含む。そのような一実施形態では、システムは、ＮＬＰを使用して、要求されたデータ、関連するデータ主体、及び／又は要求の目的を識別することができる。例えば、分析サーバは、ＮＬＰを使用して、テキストから概念を抽出し、要求２０５で識別された概念に基づいて、関連する業界又は分野（例えば、医療）、所望のデータ要素、関連するデータ主体などを決定することができる。

ブロック２１０で、分析サーバは、要求２０５が１つ又は複数の定義されたアクセスルールを満たしているかどうかを決定する。機械学習モデルが使用されないいくつかの実施形態では、決定は、要求２０５で識別された（又は指定された）概念を、データの許容可能又は正当な目的を指定する１つ又は複数の定義されたルックアップテーブルと比較することを含む。特定の実施形態では、これらのルックアップテーブルは業界固有であり、その結果、所与の目的は、一部の業界では受け入れ可能であるが、他の業界では受け入れ可能でない場合がある。

いくつかの実施形態では、分析サーバは、代わりに、トレーニングされた機械学習モデルを利用して、ブロック２１０で、要求２０５がアクセスルールを満たしているかどうかを決定する。いくつかの実施形態では、上記のように、１つ又は複数の機械学習モデルは、ラベル付けされたトレーニングデータを含む手動でキュレーションされたアクセスレコードに基づいてトレーニングされる。更に、説明したように、ラベル付けされたトレーニングデータを使用して、１つ又は複数の機械学習モデルをトレーニングし、要求２０５がアクセスルールを満たしているかどうかの分析を自動的に実行することができる。いくつかの実施形態では、アクセスルールは、説明したように、データ処理のための定義された倫理規定に関係している。

特定の実施形態では、アクセスルールごとに別個のモデルがトレーニングされる。そのようないくつかの実施形態では、分析サーバが３つのアクセスルールを利用する場合、ブロック２１０は、要求２０５を３つの別個の機械学習モデルを通して渡すことを含む。モデルへの入力（及び、したがって、モデルをトレーニングするために使用される入力）は、一般に、データの示された目的又はデータが関係する分野又は業界などの、要求２０５の特徴を含む。例えば、データが匿名化されて医学研究を推進するために使用されることを示す要求は承認される可能性があるが、データが広告代理店に販売されることを示す要求は否認される可能性がある。一般に、評価される要求特徴は、要求２０５から抽出された任意の数の様々な概念を含むことができる。上記のように、いくつかの実施形態では、特徴は、要求元ユーザ及び／又はデータ主体のアイデンティティ、それらの間の関係、データを要求するための示された目的（明示的に述べられ得るか、又は、例えば、ＮＬＰを使用して要求を処理することに基づいて決定され得る）、要求又はデータが関係する分野又は業界などを含み得る。

図示のように、要求２０５がアクセスルールに合格しなかった場合（例えば、トレーニングされたモデルが要求２０５を拒否することによって示される）、ワークフロー２００はブロック２５０に進み、ここで分析サーバは、拒否の１つ又は複数の理由を含むカスタムレポートを生成する。いくつかの実施形態では、分析サーバは、要求２０５が不合格だったアクセスルールを示すことができる。分析サーバは、要求を拒否したモデルに基づいて、これらの不合格だったルールを識別できる。要求を拒否したトレーニングされた任意のモデルに対して、分析サーバは、対応するアクセスルールが満たされていないことを示すことができる。

要求２０５が全てのアクセスルールを満たしている場合（例えば、この段階で全ての機械学習モデルによって承認されている場合）、分析サーバはデータクエリ２１５を生成し、これは１つ又は複数のデータリポジトリ２１５に送信される。いくつかの実施形態では、分析サーバは、要求２０５によって示される要求されたデータに基づいてデータクエリ２１５を生成する。例えば、要求がＤＶＴを発症する要求者の家族性リスクについて尋ねた場合、分析サーバは、要求者に関係し、ＤＶＴに関連するデータ主体に対応するデータレコードを取得するためのクエリを生成できる（例えば、診断、検査結果、遺伝子マーカー、検査が行われた医療提供者の名前及び／又は場所、検査の精度、提案又は完了された処置など）。

図示の実施形態では、データリポジトリ１２５は、１つ又は複数のデータジェネレータ２２０によって作成されたデータを格納する。データジェネレータ２２０は、一般に、医療施設又は非医療施設、特定の機械又は機器、データ主体自体、データの収集を容易にした他者などの任意のデータソースを含む。例えば、医療データの場合、データジェネレータ２２０は、患者、医療専門家、患者からデータを取得又は記録するために使用された機器、データが収集された診療所又は施設などを含み得る。

図示のように、データリポジトリ１２５は、データクエリ２１５に基づいて、関連するデータ要素２２５を返す。本明細書で使用される場合、データ要素２２５は、一般に、別個のデータ片であり、任意の数及びタイプの値を含むことができる。例えば、データ要素２２５は、医療検査結果を指定し、実行された検査を示し、検査の精度を指定し、検査が実行された施設を示すなどであり得る。

ブロック２３０において、これらのデータ要素２２５は、それらがアクセスルールを満たしているかどうかを決定するために、それぞれ個別に評価される。いくつかの実施形態では、分析サーバは、１つ又は複数のトレーニングされた機械学習モデルを利用して、このレビューを実行する。いくつかの実施形態では、分析サーバは、個々のデータ要素を評価するために特別にトレーニングされたモデルを利用する。すなわち、ブロック２１０で使用されるモデルは、要求特徴を評価するようにトレーニングされたが、ブロック２３０で使用されるモデルは、データ要素を評価するようにトレーニングすることができる。いくつかの実施形態では、ブロック２３０で使用されるモデルは、ブロック２１０を参照して上で論じられたモデルと同様にトレーニングされる。例えば、システムは、データレコード内のデータ要素ごとに、人間のユーザがアクセスを承認したかどうか（又はデータ要素が特定のアクセスルールに合格したとユーザが決定したかどうか）を示す履歴アクセスレコード又はデータレコードを取得できる。

そのような各レコードは、入力特徴として、データの１つ又は複数の特性を指定できる。実施形態では、これらの特徴は、データのタイプ、データの特異性、データの出所、データが関係する分野、データがデータ主体を具体的に識別するかどうかなどを含み得る。いくつかの実施形態では、これらの特徴の１つ又は複数は、データ要素２２５に関連するメタデータで指定される。いくつかの実施形態では、データ要素２２５が自然言語テキスト（例えば、臨床記録）を含む場合、分析サーバは、自然言語処理を利用して、入力特徴として使用される概念を抽出することができる。更に、いくつかの実施形態では、各レコードは、データ要素が１つ又は複数のデータアクセスルールに合格した（又は不合格であった）と人間のユーザが決定したかどうかに関する指示でラベル付けされる。いくつかの実施形態では、次に、モデルは、レコードに基づいてトレーニングされる。

所与のデータ要素がアクセスルールのいずれかに不合格である場合、ブロック２５０でレポートから除外される。特定の実施形態では、分析サーバはまた、拒否の１つ又は複数の理由を含むことができる（例えば、特定のルールに不合格であるために１つ又は複数のデータ要素が差し控えられたことを示す）。いくつかの実施形態では、分析サーバは、どのデータ要素が差し控えられ、どれが解放されたかを示す通知を追加的に生成し、データ主体に送信することができる。

図示のワークフロー２００では、アクセスルールを満たしていると決定された任意のデータ要素２２５が組み合わされて、集約されたデータ要素（「集約されたデータ」）２３５のセットを形成する。図示のように、次に、この集約されたデータ２３５は、ブロック２４０で評価されて、集約されたデータ２３５がデータアクセスルールを満たしているかどうかを決定する。例えば、２つ以上のデータ要素２２５は、ステップ２３０で個別に評価されるときにアクセスルールに合格するが、結合されると、要素が基礎となるデータ主体の識別を可能にするため、集約されたときに不合格となる可能性がある。

いくつかの実施形態では、ブロック２４０での評価は、１つ又は複数のトレーニングされた機械学習モデルを使用して同様に実行される。いくつかの実施形態では、分析サーバは、この集約された評価のために特別にトレーニングされたモデルを利用する。すなわち、分析サーバは、ブロック２１０で要求評価を実行する１つ又は複数のモデルの第１のセット、ブロック２３０でデータ評価を実行する１つ又は複数のモデルの第２のセット、及びブロック２４０で集約されたデータ評価を実行する１つ又は複数のモデルの第３のセットを利用することができる。いくつかの実施形態では、ブロック２４０で評価される特徴は、ブロック２３０で利用された特徴を反映することができる。

図示のように、集約されたデータがアクセスルールに合格する場合、分析サーバは承認されたデータ要素を使用してカスタムレポートを生成する（ブロック２４５内）。図示の実施形態では、集約されたセットが１つ又は複数のアクセスルールに不合格だった場合、分析サーバは、データ要素の少なくとも１つを除外しながら、カスタムレポートを生成する。いくつかの実施形態では、分析サーバは、あらゆるデータ要素を提供することを控えることができる。別の実施形態では、分析サーバは、承認されたデータ要素のいくつかのサブセットを提供することができる。

例えば、集約されたデータ２３５が１つ又は複数のアクセスルールに不合格だったと決定すると、分析サーバは、セットから１つ又は複数のデータ要素を削除し、モデルを使用して集約されたデータセットを再評価することができる。いくつかの実施形態では、分析サーバは、どのデータ要素をセットから削除すべきかを識別するために、データ要素の異なる組み合わせを繰り返し評価することができる。例えば、分析サーバは、削除される要素を最も少なくしてルールに合格するデータ要素の組み合わせを見つけようとすることができる（分析サーバが可能な限り多くのデータを返すことができるように）。

図３～５は、データ要求、データ要素、及び集約されたデータを評価するためなど、本明細書で論じられる機械学習モデルをトレーニングするための技術を更に詳細に説明している。

図３は、本明細書に開示されるいくつかの実施形態による、機械学習モデルをトレーニングして、データ要求の特性に基づいてデータアクセスを制御するための方法３００を示す流れ図である。いくつかの実施形態では、方法３００を使用して、要求を評価するようにモデルをトレーニングすることができる（例えば、図２のブロック２１０で）。方法３００は、ブロック３０５で開始し、ここで、トレーニングサーバ（例えば、トレーニングサーバ１３５）は、履歴アクセスレコードのセットを取得する。いくつかの実施形態では、各履歴アクセスレコードは、以前のデータ要求に対応し、人間のレビュー担当者が要求を承認したかどうか（及び／又は要求が１つ又は複数のデータアクセスルールを満たしていると決定されたかどうか）を示すラベルを含む。例えば、初期手動／トレーニングフェーズ中に、レビュー担当者がデータの要求を評価及び承認又は拒否するときに、トレーニングサーバはデータを収集することができる。この監視に基づいて、トレーニングサーバは履歴アクセスレコードのトレーニングデータセットを構築できる。

ブロック３１０で、トレーニングサーバは、履歴アクセスレコードの１つを選択する。実施形態では、この選択は、トレーニングサーバがトレーニングセット内の各履歴アクセスレコードを反復処理するときに、任意の適切な基準（例えば、最も古いレコードから開始、最新のレコードから開始など）を利用できる。次に、方法３００は、ブロック３１５に進み、ここで、トレーニングサーバは、選択されたレコードに対応する要求の１つ又は複数の特徴を抽出する。これらの特徴は、機械学習モデルへの入力特徴として使用される。これには、要求の目的、要求に関係する分野又は業界など、要求から概念を抽出することが含まれ得る。例えば、トレーニングサーバは、要求が健康又は幸福、経済的利益などに関係するかどうかを決定することができる。特定の実施形態では、トレーニングサーバは、ＮＬＰを利用して、要求からこれらの特徴を抽出する。いくつかの実施形態では、特徴を抽出するために要求が以前に評価されている可能性があり、これらの特徴はアクセスレコードに格納され得る。いくつかの実施形態では、各アクセスレコードは、要求が承認されたか又は拒否されたかを示すラベルに更に関連付けられる。

次に、方法３００は、ブロック３２０に進み、ここで、トレーニングサーバは、選択されたレコードに基づいて１つ又は複数の機械学習モデルをトレーニングする。いくつかの実施形態では、トレーニングサーバは、モデルへの入力として（ブロック３１５で抽出された）特徴を提供することによってそれを行う。このモデルは、ランダムな重みとパラメータで初期化された新しいモデルである場合もあれば、又は（例えば、以前のトレーニングラウンドに基づいて）部分的又は完全に事前トレーニングされている場合もある。入力特徴に基づいて、トレーニング中のモデルはいくつかの出力（例えば、１つ又は複数のアクセスルールの「合格」又は「不合格」としての分類）を生成する。実施形態では、トレーニングサーバは、この生成された分類を（レコードに示されている）レコードの実際のラベルと比較して、実際の結果と生成された結果との差に基づいて損失を計算することができる。次に、この損失を使用して、モデルの１つ又は複数の内部の重みとパラメータを精緻化し（例えば、バックプロパゲーションを介して）、モデルが要求をより正確に分類することを学習するようにする。

いくつかの実施形態では、トレーニングサーバは、アクセスルールの集合的なセットを考慮して要求を分析するためにモデルをトレーニングする。つまり、トレーニングサーバは、全てのアクセスルールを考慮して要求を同時に評価するようにモデルをトレーニングし、要求が全てのアクセスルールに合格したか、又は少なくとも１つに不合格となったかに基づいて、バイナリの「合格」又は「不合格」を出力できる（又はルールごとに１つずつ、決定のセットを出力できる）。他の実施形態では、上記のように、トレーニングサーバは、アクセスルールごとに別個のモデルをトレーニングする。

次に、方法３００は、ブロック３２５に進み、ここで、トレーニングサーバは、追加のトレーニングが必要かどうかを決定する。これには、任意の追加の履歴アクセスレコードがトレーニングデータセットに残っているかどうかなど、任意の終了基準の評価が含まれ得る。様々な実施形態において、他の終了基準は、限定されないが、事前定義された時間又はコンピューティングリソースがモデルのトレーニングに費やされたかどうか、モデルが事前定義された最小精度に達したかどうかなどを含み得る。追加のトレーニングがまだ完了していない場合、方法３００はブロック３１０に戻る。

そうでない場合、方法３００はブロック３３０に進み、ここでトレーニングサーバは、実行時に着信データ要求を分析するためにトレーニングされたモデルを展開する。いくつかの実施形態では、これは、別のデバイス上でモデルをインスタンス化するために使用することができるトレーニングされたモデル（例えば、重みベクトル）のいくつかの指示を送信することを含む。例えば、トレーニングサーバは、トレーニングされたモデルの重みを分析サーバに送信することができる。その後、モデルを使用して、新たに受信したデータ要求を評価できる。

図４は、本明細書に開示されるいくつかの実施形態による、機械学習モデルをトレーニングして、個々のデータ要素の特性に基づいてデータアクセスを制御するための方法４００を示す流れ図である。いくつかの実施形態では、方法４００を使用して、個々のデータ要素を評価するようにモデルをトレーニングすることができる（例えば、図２のブロック２３０で）。方法４００は、ブロック４０５で開始し、ここで、トレーニングサーバは、それぞれが前のデータ要求に対応する１つ又は複数の履歴アクセスレコードを取得する。いくつかの実施形態では、トレーニングサーバは、要求が承認されたアクセスレコードを選択する。つまり、拒否された要求についてデータが取得又は分析されないため、トレーニングサーバは、少なくとも１つのデータ要素が人間のレビュー担当者によって取得及び評価された承認済みの要求しか取得できない。いくつかの実施形態では、履歴アクセスレコードは、それぞれ１つ又は複数のデータレコードに関連付けられ、各データレコードは、要求に基づいて取得されたそれぞれのデータ要素に対応する。

次に、方法４００は、ブロック４１０に進み、ここで、トレーニングサーバは、トレーニングアクセスレコードのセットから履歴アクセスレコードを選択する。実施形態では、この選択は、トレーニングサーバがトレーニングセット内の各履歴アクセスレコードを反復処理するときに、任意の適切な基準（例えば、最も古いレコードから開始、最新のレコードから開始など）を利用できる。ブロック４１５で、トレーニングサーバは、選択されたアクセスレコードに関連付けられたデータレコードを識別する。いくつかの実施形態では、各データレコードは、選択されたアクセスレコードに対応する要求に応じて取得されたデータ要素に対応する。例えば、選択したアクセスレコードに対応する要求の結果、データリポジトリから１０個のデータ要素が取得されていると仮定する。したがって、いくつかの実施形態では、アクセスレコードは、１０個のデータレコード（各データ要素に１個）を含むか、又はそれらにリンクされるか、又はさもなければ関連付けられる。いくつかの実施形態では、各データレコードは、対応するデータ要素の特徴、並びにデータ要素が１つ又は複数のアクセスルールを満たしているかどうかを示すラベルを含む。

ブロック４２０で、トレーニングサーバは、識別されたデータレコードの１つを選択する。次に、方法４００は、ブロック４２５に進み、ここで、トレーニングサーバは、選択されたレコードに対応するデータ要素の１つ又は複数の特徴を抽出する。特徴は、一般に、データのタイプ、データのソース、データの事前定義された機密性又はプライバシレベルなどのデータ要素の特性に対応する。いくつかの実施形態では、特徴は、データ要素のデータプロファイルを含み、データプロファイルは、関連する特徴を指定するメタデータ構造である。特定の実施形態では、トレーニングサーバはまた、データ要素の１つ又は複数のデータソースプロファイルを抽出する。データソースプロファイルは通常、データ要素のソースの特徴を指定するメタデータ構造である。例えば、データ要素が特定の医療施設によって収集された場合、データソースプロファイルは施設の特徴（名前、場所など）を指定できる。同様に、データ要素が特定の機器を使用して収集された場合、プロファイルは、機器のアイデンティティとタイプ、保守レコード、機器の精度などを指定できる。いくつかの実施形態では、各データレコードは、データの収集及びデータリポジトリへの転送に関与するエンティティに対応する任意の数のプロファイルに関連付けることができる。

次に、方法４００は、ブロック４３０に進み、ここで、トレーニングサーバは、選択されたデータレコードに基づいて１つ又は複数の機械学習モデルをトレーニングする。いくつかの実施形態では、トレーニングサーバは、モデルへの入力として（ブロック４２５で抽出された）特徴を提供することによってそれを行う。このモデルは、ランダムな重みとパラメータで初期化された新しいモデルである場合もあれば、又は（例えば、以前のトレーニングラウンドに基づいて）部分的又は完全に事前トレーニングされている場合もある。入力特徴に基づいて、トレーニング中のモデルはいくつかの出力（例えば、１つ又は複数のアクセスルールの「合格」又は「不合格」としての分類）を生成する。実施形態では、トレーニングサーバは、この生成された分類を（データレコードと共に含まれている）実際のラベルと比較して、実際の結果と生成された結果との差に基づいて損失を計算することができる。次に、この損失を使用して、モデルの１つ又は複数の内部の重みとパラメータを精緻化し（例えば、バックプロパゲーションを介して）、モデルが個々のデータ要素をより正確に分類することを学習するようにする。

いくつかの実施形態では、トレーニングサーバは、アクセスルールの集合的なセットを考慮してデータ要素を分析するためにモデルをトレーニングする。つまり、トレーニングサーバは、全てのアクセスルールを考慮してデータ要素を同時に評価するようにモデルをトレーニングし、データ要素が全てのアクセスルールに合格したか、又は少なくとも１つに不合格となったかに基づいて、バイナリの「合格」又は「不合格」を出力できる（又はルールごとに１つずつ、決定のセットを出力できる）。他の実施形態では、上記のように、トレーニングサーバは、アクセスルールごとに別個のモデルをトレーニングする。

次に、方法４００は、ブロック４３５に進み、ここで、トレーニングサーバは、選択されたアクセスレコードが、まだ評価されていない少なくとももう１つの追加のデータレコードを含むかどうかを決定する。含む場合、方法４００はブロック４２０に戻る。そうでない場合、方法４００はブロック４４０に進み、ここでトレーニングサーバは追加のトレーニングが必要かどうかを決定する。これには、任意の追加の履歴アクセスレコードがトレーニングデータセットに残っているかどうかなど、任意の終了基準の評価が含まれ得る。様々な実施形態において、他の終了基準は、限定されないが、事前定義された時間又はコンピューティングリソースがモデルのトレーニングに費やされたかどうか、モデルが事前定義された最小精度に達したかどうかなどを含み得る。追加のトレーニングがまだ完了していない場合、方法４００はブロック４１０に戻る。

そうでない場合、方法４００は、ブロック４４５に進み、ここで、トレーニングサーバは、実行時に取得された個々のデータ要素を分析するためにトレーニングされたモデルを展開する。いくつかの実施形態では、これは、別のデバイス上でモデルをインスタンス化するために使用することができるトレーニングされたモデル（例えば、重みベクトル）のいくつかの指示を送信することを含む。例えば、トレーニングサーバは、トレーニングされたモデルの重みを分析サーバに送信することができる。次に、このモデルを使用して、新たに受信したデータ要求に応じて取得されるデータ要素を評価できる。

図５は、本明細書に開示されるいくつかの実施形態による、機械学習モデルをトレーニングして、アクセスルールを個別に満たす集約されたデータ要素の特性に基づいてデータアクセスを制御するための方法５００を示す流れ図である。いくつかの実施形態では、方法５００を使用して、集約されたデータに対応する集約されたデータ要素を評価するようにモデルをトレーニングすることができる（例えば、図２のブロック２４０で）。方法５００は、ブロック５０５で開始し、ここで、トレーニングサーバは、それぞれが前のデータ要求に対応する１つ又は複数の履歴アクセスレコードを取得する。いくつかの実施形態では、トレーニングサーバは、要求が承認されたアクセスレコードを選択する。つまり、拒否された要求についてデータが取得又は分析されないため、トレーニングサーバは、少なくとも１つのデータ要素が人間のレビュー担当者によって取得及び評価された承認済みの要求しか取得できない。いくつかの実施形態では、トレーニングサーバは、少なくとも２つのデータ要素が取得されたレコードのみを取得する（例えば、集約されたデータが個々の評価とは異なる結果を引き起こす可能性があるように）。いくつかの実施形態では、履歴アクセスレコードは、それぞれ１つ又は複数のデータレコードに関連付けられ、各データレコードは、要求に基づいて取得されたそれぞれのデータ要素に対応する。

次に、方法５００は、ブロック５１０に進み、ここで、トレーニングサーバは、トレーニングレコードのセットから履歴アクセスレコードを選択する。いくつかの実施形態では、この選択は、トレーニングサーバがトレーニングセット内の各履歴アクセスレコードを反復処理するときに、任意の適切な基準（例えば、最も古いレコードから開始、最新のレコードから開始など）を利用できる。ブロック５１５で、トレーニングサーバは、アクセスルールを満たしていると決定された、選択されたアクセスレコードに関連付けられたデータレコードを識別する。つまり、トレーニングサーバは、アクセスルールを個別に満たしていると見なされたデータ要素がある場合はそれを識別できる。例えば、システムが要求に基づいて１０個のデータ要素を取得し、３個のデータ要素が個別に評価されたときに１つ又は複数のデータアクセスルールに不合格だったと仮定する。いくつかの実施形態では、トレーニングサーバは、個々のレビューに合格したデータ要素のサブセット（例えば、残りの７個）を識別することができる。

ブロック５２０で、トレーニングサーバは、個々のレビューに合格した識別されたデータレコードの１つを選択する。次に、方法５００は、ブロック５２５に進み、ここで、トレーニングサーバは、選択されたレコードに対応するデータ要素の１つ又は複数の特徴を抽出する。上記のように、特徴は、一般に、データのタイプ、データのソース、データの事前定義された機密性又はプライバシレベルなどのデータ要素の特性に対応する。いくつかの実施形態では、特徴は、データ要素のデータプロファイルを含み、データプロファイルは、関連する特徴を指定するメタデータ構造である。特定の実施形態では、トレーニングサーバはまた、要素の１つ又は複数のデータソースプロファイルを抽出する。データソースプロファイルは通常、データソースの特徴を指定するメタデータ構造である。例えば、データが特定の医療施設によって収集された場合、データソースプロファイルは施設の特徴（名前、場所など）を指定できる。同様に、データが特定の機器を使用して収集された場合、プロファイルは、機器のアイデンティティとタイプ、保守レコード、機器の精度などを指定できる。いくつかの実施形態では、各データレコードは、データの収集及びデータリポジトリへの転送に関与するエンティティに対応する任意の数のプロファイルに関連付けることができる。

ブロック５３０で、トレーニングサーバは、データ要素が生成されたデータレポートに含まれていたかどうかを決定する。データが除外された場合、人間は、そのデータを含めると、集合セットが１つ又は複数のデータアクセスルールに違反することになると決定したに違いない。対照的に、含まれている場合、レビュー担当者は、選択された要素が他の含まれている要素と組み合わされた場合でも、アクセスルールを満たしていると決定した。

次に、方法５００は、ブロック５３５に進み、ここで、トレーニングサーバは、選択されたアクセスレコードが、まだ評価されていない少なくとももう１つの追加のデータレコードを含むかどうかを決定する。含む場合、方法５００はブロック５２０に戻る。そうでない場合、方法５００は、ブロック５４０に進み、ここで、トレーニングサーバは、アクセスルールを個別に満たした識別されたデータレコードに基づいて、１つ又は複数の機械学習モデルをトレーニングする。いくつかの実施形態では、トレーニングサーバは、モデルへの入力として（ブロック５２５で抽出された）各データレコードの特徴を提供することによってそれを行う。このモデルは、ランダムな重みとパラメータで初期化された新しいモデルである場合もあれば、又は（例えば、以前のトレーニングラウンドに基づいて）部分的又は完全に事前トレーニングされている場合もある。入力特徴に基づいて、トレーニング中のモデルは１つ又は複数のアクセスルールのいくつかの出力（例えば、「合格」又は「不合格」としての集約されたセットの分類）を生成する。実施形態では、トレーニングサーバは、この生成された分類をブロック５３０で決定された実際の結果（例えば、レポートに含まれたデータ要素の実際のセット）と比較して、実際の結果と生成された結果との差に基づいて損失を計算することができる。次に、この損失を使用して、モデルの１つ又は複数の内部の重みとパラメータを精緻化し（例えば、バックプロパゲーションを介して）、モデルがデータ要素の集約されたセットをより正確に分類することを学習するようにする。

いくつかの実施形態では、トレーニングサーバは、アクセスルールの集合的なセットを考慮して集約されたデータを分析するためにモデルをトレーニングする。つまり、トレーニングサーバは、全てのアクセスルールを考慮して集約されたデータを同時に評価するようにモデルをトレーニングし、集約されたセットが全てのアクセスルールに合格したか、又は少なくとも１つに不合格となったかに基づいて、バイナリの「合格」又は「不合格」を出力できる（又はルールごとに１つずつ、決定のセットを出力できる）。他の実施形態では、上記のように、トレーニングサーバは、アクセスルールごとに別個のモデルをトレーニングする。

次に、方法５００は、ブロック５４５に進み、ここで、トレーニングサーバは、追加のトレーニングが必要かどうかを決定する。これには、任意の追加の履歴アクセスレコードがトレーニングデータセットに残っているかどうかなど、任意の終了基準の評価が含まれ得る。様々な実施形態において、他の終了基準は、限定されないが、事前定義された時間又はコンピューティングリソースがモデルのトレーニングに費やされたかどうか、モデルが事前定義された最小精度に達したかどうかなどを含み得る。追加のトレーニングがまだ完了していない場合、方法５００はブロック５１０に戻る。

そうでない場合、方法５００は、ブロック５５０に進み、ここで、トレーニングサーバは、実行時に取得されたデータ要素の集合セットを分析するためにトレーニングされたモデルを展開する。いくつかの実施形態では、これは、別のデバイス上でモデルをインスタンス化するために使用することができるトレーニングされたモデル（例えば、重みベクトル）のいくつかの指示を送信することを含む。例えば、トレーニングサーバは、トレーニングされたモデルの重みを分析サーバに送信することができる。次に、モデルを使用して、ルールを個別に満たしていると決定されたデータ要素の集約されたセットを評価できる。

図６は、本明細書に開示されるいくつかの実施形態による、トレーニングされた機械学習モデルを使用してデータアクセスを制御するための方法６００を示す流れ図である。一実施形態では、方法６００は、機械学習及び／又はルールエンジンを活用して、有効な要求に基づいて関連データを取得するための信頼できるソースとして機能するために、業界全体に共通の方法論を提供する。

方法６００は、ブロック６０５で開始し、ここで、分析サーバ（例えば、分析サーバ１１０）は、データアクセスの要求を受信する。上記のように、この要求は、一般に、明示的な参照によって、データをフィルタリング又は識別するために使用できる特性を提供することによってなど、所望のデータを示す。更に、実施形態では、要求は、一般に、要求の目的又は理由を示す。いくつかの実施形態では、要求は、要求されたデータ及び／又は提案された使用法の自然言語のテキスト記述を含む。例えば、要求には、「私は家族歴のためにＤＶＴのリスクが高くなっているか？もしそうなら、どのマーカーをスクリーニングする必要があるか？」などの質問が含まれる場合がある。いくつかの実施形態では、要求は、データが必要とされる（又は所望の）タイムライン、及び提供され得る任意の追加のサポートドキュメントなどの他のフィールドを追加的に含むことができる。いくつかの実施形態では、これらの要求特徴は、要求プロファイルと呼ばれるメタデータ構造に含まれる（直接提供されるか、又はＮＬＰを使用して要求を評価することに基づいて生成される）。

次に、方法６００は、ブロック６１０に進み、ここで分析サーバは、１つ又は複数のトレーニングされた機械学習モデルの第１のセットを使用して要求プロファイルを処理する。いくつかの実施形態では、上記のように、これらのモデルは、一般に、要求が１つ又は複数のアクセスルールを満たしているかどうかを決定するようにトレーニングされる。例えば、要求がデータ主体に害を与えることなく人類を向上させるかどうかを決定するために、分析サーバは、要求が健康又は幸福に関係する（人類に利益をもたらすことを示す）かどうか、使用に商業的利益が含まれる（そうでないことを示す）かどうか、などを決定することができる。加えて、モデルを使用して、提案された使用が正当であるかどうか（例えば、それが臨床的であるか又は医療的であるか、又はユーザが単に好奇心を持っているか、又はデータを悪用するつもりであるかどうか）を決定できる。同様に、モデルを使用して、データが保護されているかどうか（例えば、機密性を維持したままになるかどうか）を決定できる。いくつかの実施形態では、上記のように、別個のトレーニングされたモデルを使用して、それぞれの個別のアクセスルールを考慮して要求を評価する。

ブロック６１５で、分析サーバは、モデルによって提供される分類に基づいて、要求がアクセスルールに合格するかどうかを決定する。例えば、要求が商業的利益を目的としている場合、分析サーバは要求を拒否することができる。

要求が合格しない場合、方法６００はブロック６６０に進み、ここで分析サーバは要求を拒否するカスタムレポートを生成する。いくつかの実施形態では、レポートは、要求が拒否された理由（例えば、違反されたルールを指定する）を含む。要求がアクセスルールを満たしている場合、方法６００はブロック６２０に進む。

ブロック６２０で、分析サーバは、１つ又は複数のデータリポジトリから要求されたデータを取得する。次に、方法６００は、ブロック６２５に進み、ここで分析サーバは、１つ又は複数のトレーニングされたモデルの第２のセットを使用して、取得されたデータ要素の１つを処理する。つまり、分析サーバは各データ要素を個別に処理する。いくつかの実施形態では、分析サーバは、単一のモデルを使用して各データ要素を評価する。別のものでは、分析サーバはモデルのセット（例えば、データアクセスルールごとに１つ）を使用する。

いくつかの実施形態では、データ要素を処理することは、データ要素の特徴又は特性（例えば、データ及び／又はデータのソース若しくはジェネレータのための１つ又は複数のデータプロファイル）を抽出することを含む。次にこれらの特徴は、１つ又は複数のモデルの入力として使用される。ブロック６３０で、分析サーバは、選択されたデータ要素が全てのアクセスルールを満たしているかどうかを決定する。満たしていない場合、方法６００は、ブロック６３５に進み、ここで、分析サーバは、選択されたデータ要素をブロックする（例えば、カスタムレポートから除外するためにフラグを立てるか、それを破棄するか、又はそうでなければそれを処理又は考慮することを停止する）。データ要素がルールに合格したと分析サーバが決定した場合、分析サーバはそれを承認されたデータ要素のサブセットに追加し、方法６００はブロック６４０に進む。

ＤＶＴ関連の要求について上記の例を続けると、分析サーバは、検査及び／又は識別されたＤＶＴマーカー、要求者の家族歴、親戚の診断、実施した検査のタイプなどのデータ主体に害を及ぼしたり又は特定したりすることなく、一部のデータ要素を使用することで人類を向上させ得ると決定することができる。対照的に、人類を向上させない、又はデータ主体に害を及ぼす可能性があるためにこのルールに不合格となる可能性のあるデータ要素のいくつかの例には、医師の診断書、ＤＶＴを持っている又は持っていた家族の特定のアイデンティティなどがある。

同様に、使用法が正当であると見なすことができる要素の例として、分析サーバは、ＤＶＴマーカー、診断、使用された検査のタイプなどのデータが正当に使用されていると決定することができる。対照的に、分析サーバは、任意のＤＶＴに関連しない履歴、ＤＶＴに関係しない検査などのデータ要素が、要求を考慮して正当な使用法ではないと決定することができる。このような要素は制限され得る。加えて、分析サーバがデータは保護されていないと決定する要素の例として、分析サーバは、ＤＶＴマーカーと診断は条件を満たしているが、特定の患者名、生年月日、非ＤＶＴ診断などのデータ要素を除外する必要がある、と決定することができる。

図６に戻ると、ブロック６４０において、分析サーバは、取得されたがまだ評価されていない任意の追加のデータ要素が存在するかどうかを決定する。存在する場合、方法６００はブロック６２５に戻る。そうでない場合、方法６００はブロック６４５に進む。

ブロック６４５で、分析サーバは、１つ又は複数の機械学習モデルの第３のセットを使用して、残りのデータ要素の集約されたセット（例えば、個別にルールを満たしていることが見出されたデータ要素）を処理する。上記のように、これには、モデルの第３のセットを使用して（承認された要素のセット内の各データ要素からの）特徴の集約されたセットを提供することが含まれ得る。ブロック６５０で、分析サーバは、集約されたデータがデータアクセスルールに合格するかどうかを決定する。合格である場合、方法６００は、ブロック６６０に進み、ここで、分析サーバは、集約されたデータを含むレポートを生成する。いくつかの実施形態では、いずれかの要素が除外された場合（例えば、ブロック６３５で）、分析サーバは、（例えば、除外されたデータ要素ごとに不合格だったルールを識別する）説明を含むことができる。

ブロック６５０で、分析サーバが、集約されたデータがルールのセットに合格できないと決定した場合、方法６００は、ブロック６５５に進み、ここで、分析サーバは、データ要素の少なくとも１つを最終レポートから除外する。例えば、関係する医療専門家又は施設の場所を識別するデータ要素は、個別にアクセスルールに合格する場合があるが、他の承認されたデータ要素と組み合わせると、データ主体を識別できるようになるか、又は他のアクセスルールに違反する可能性がある。いくつかの実施形態では、分析サーバは、集約されたデータから１つ又は複数のデータ要素を繰り返し削除し、満足のいくデータ要素の集約されたセットが見つかるまで残りのセットを再処理することができる。次に、方法６００はブロック６６０に進む。

いくつかの実施形態では、どのデータが共有されたかについて知らせる通知をデータ主体に送信することもできる。特定の実施形態では、通知はまた、要求者、要求の理由などを示す。

ブロック６１５の評価の別の例として、養子縁組された個人が、自分の病歴に関する情報を受け取るために、自分の実の親の現在の場所を知ることを要求すると仮定する。一実施形態では、示された目的（病歴の受信及びレビュー）は、より侵入的でない要求（例えば、親の場所ではなく、データのための特別な要求）で満たすことができるので、そのような要求は、ブロック６１５で否認され得る。

別の例として、養子縁組された個人が、自分の病歴を確認するために、自分の実の親に関する一般的な情報を要求すると仮定する。一実施形態では、この要求は、（例えば、要求者が有効であり、要求されたデータ及び述べられた目的が整合されているため）ブロック６１５に合格することができ、データは、ブロック６２０で１つ又は複数のソース（関連する養子縁組機関など）から取得され得る。ブロック６３０で、いくつかのデータ（両親の名前、養子縁組の日付、家族歴、基本的な病歴など）がアクセスルールに合格する可能性がある。対照的に、親の現在の連絡先情報、親の社会保障番号などのデータは、アクセスルールに違反しているために不合格となる。

集約されたときにブロック６５０での評価に不合格となる可能性があるデータ要素の例として、養子縁組された子の例を検討する。各親の名前及び養子縁組の日付又は場所などのデータは個別にルールに合格する場合があるが（ブロック６３０で）、そのようなデータはブロック６５０での評価に合格しない場合がある（例えば、親の特定が可能になるため）。対照的に、基本的な病歴などのデータは、この集約された評価に合格する可能性がある。

更に別の例として、ある個人が生物学的親のアイデンティティをすでに知っていて、親の健康保険会社が遺伝子の危険因子を決定するために医療遺伝子検査情報を公開するように要求すると仮定する。一実施形態では、そのような要求は、アクセスのルールを満たす有効な目的のための有効な要求であるため、ブロック６１５で評価に合格することができる。ブロック６３０では、親の身体的属性（例えば、身長、体重、ＢＭＩなど）、保険情報、調査又は質問票への個人的な回答（薬物使用など）、検査を実施した会社の識別などのデータは、否認され得る。対照的に、検査が実施された日付、試験施設の場所、発見された特定の遺伝子バイオマーカー値などのデータは、ブロック６３０のルールを満たすであろう。しかしながら、ブロック６５０では、施設の場所、検査の日付、医師の診断書などのデータは集合分析に不合格となり、識別されたバイオマーカーなどのデータは合格する。

ブロック６１５での評価の更に別の例として、教育結果を向上させ、生徒が学校を中退するのを防ぐために、地方自治体の職員が郡内の全ての生徒の通知表又は成績情報を要求すると仮定する。一実施形態では、そのような要求は、そのようなデータを共有しない、より侵入的でない要求で（成果を向上させ、脱落を減らすための）意図を満たすことができるので、ブロック６１５での評価に不合格となる。

代わりに、政府職員が教育結果を向上させることを望んでおり、子供の教育を懸念して追加の支援を要求した親に関する情報を要求すると仮定する。要求は、職員が、教育成果を向上させるために、これらの関心のある個人の個別指導及び／又はクラスに関する戦略を増強又は変更することを望んでいることを示している場合がある。一実施形態では、そのような要求は、有効であり、意図を満たすために必要な最も侵入的でないデータに限定されるため、ブロック６１５で評価に合格することができる。

一実施形態では、ブロック６３０において、親教師間のメモ、親の名前、関心のある教科、生徒の年齢、彼らの教師の名前、指導教員及び使用されている学習技術などのデータはルールを満たすことができる。このようなデータは関連性があり、対象に害を与えたり、又はルールに違反したりすることはない。対照的に、生徒の特定の通知表、親の財政状況、生徒の特定の識別子などのデータは、データ主体に害を及ぼす可能性があるか、又はそうでなければ意図を満たすのに必要がないため、ブロック６３０でこの評価に不合格となり得る。

追加の支援を要求した親又は生徒に関する情報を要求する政府職員に関する上記の例を続けると、生徒の名前（例えば、親と教師の間のメモに含まれる）、所与の試験で受け取った具体的な成績、親又は教師の名前などのいくつかのデータは、ブロック６５０で評価に不合格となる可能性がある。そのようなデータは、全体として、主体に害を及ぼす可能性がある。対照的に、関心のある教科、既知の学習障害、年齢層又は範囲などのデータは、この評価に合格し、レポートに含まれ得る。

方法６００の適用の更に別の例として、納税者固有の割戻しを提供するために、政府職員が郡内の各家庭の納税者に関する情報を要求すると仮定する。一実施形態では、この要求は、要求者のアイデンティティ及び要求／意図が有効であるため、ブロック６１５で評価に合格することができる。ブロック６３０では、納税者の社会保障番号、総所得、扶養家族の数、郵便番号などのデータは、害を及ぼすことなく要求を満たすことができるため、ブロック６３０でそれぞれ個別分析に合格することができる。対照的に、個人の市民権状況、識別子、障害状況などのデータは不合格となり得る。全体として、ブロック６５０では、社会保障番号、扶養家族の数、総収入などのデータは、主体に害を及ぼす可能性があるため、不合格となり得る。対照的に、その地域の納税者数などのデータは合格することができる。

追加の例として、全ての居住者の保険にアクセスするために、政府職員が公的保険の対象となる人数に関する情報を要求すると仮定する。そのような要求は、ブロック６１５で評価に合格することができる。ブロック６３０において、各主体の家族収入、彼らが住んでいる場所の郵便番号、既存の健康状態などのデータは、アクセスルールに不合格となり得る。対照的に、納税者情報、年齢、社会保障番号、居住地、雇用状況などのデータは、害を及ぼすことなく要求に対応できるため、この個人評価に合格することができる。しかしながら、ブロック６５０では、社会保障番号、年齢、結婚歴などのデータは集約されたレビューに不合格となるが、対象者の適格性、名前などのデータは合格となり得る。

更に別の例として、病気が広がるリスクを最小限に抑え、関連する乗客に懸念を通知するために、航空会社が特定の期間に伝染病にかかった個人と接触した全ての個人のアイデンティティを要求すると仮定する。そのような要求は、より侵入的でない要求で対処できるので、ブロック６１５での評価に不合格となり得る。

上記の例を続けて、代わりに航空会社が（乗客を具体的に特定することなく）任意の乗客が伝染病にかかった個人と接触したかどうかについての決定を要求したと仮定する。一実施形態では、この要求は、ブロック６１５で評価に合格することができる。ブロック６２０で、乗客のアイデンティティ、場所（例えば、ソーシャルメディア又はＧＰＳを使用して）、カレンダー、関連する検査機関及び実験室の結果などの関連するデータを取得することができる。ブロック６３０では、乗客の個人名又は識別子、年齢、既存の状態などのデータを除外することができる。しかしながら、接触トレース情報（位置データなど）、現在の健康状態の結果などのデータは含めることができる。ブロック６５０では、全体として、乗客に接触した人の名前、乗客の年齢、潜在的に伝染病にかかっている個人の現在の位置などのデータを除外することができる。対照的に、誰かが伝染病にかかった人と接触したかどうか、接触が事前定義された時間内であったかどうかなどに関するバイナリの「はい」又は「いいえ」の表示などのデータは、ルールに合格することができる。

別の例として、患者（又は潜在的な患者）が、自分の手術の治療計画と医療提供者を選ぶために、網膜剥離手術を受けた患者に関する情報を１つ又は複数の施設に要求すると仮定する。そのような要求は、意図がより侵入的でない要求又はデータで満たすことができるので、ブロック６１５での評価に不合格となり得る。

代わりに、患者がそのような手術の成功率、又はそれらによって引き起こされた任意の永久的な損傷又は危害についての情報を要求したと仮定する。この要求は、ブロック６１５で評価に合格することができる。ブロック６３０では、特定の診療場所、特定の患者情報などのデータはレビューに不合格となる。対照的に、手術を行う診療所及び／又は外科医のリスト、成功率に影響を与える要因の表示、手術に使用される医療機器のリスト、眼の測定値又は患者の他のデータなどのデータは、この評価に合格し得る。

しかしながら、ブロック６５０では、成功率が低い特定の診療所又は個々の外科医、手術で使用される特定のデバイスなどのデータは除外され得る。対照的に、成功率の高い外科医のリスト、合併症又は危害の兆候などのデータが含まれ得る。

別の例として、政府職員又は契約した非営利団体が、結果を評価するために、現在開発中のワクチンの臨床試験に関係するデータを要求すると仮定する。要求は、ブロック６１５で評価に合格することができ、データを取得することができる。ブロック６３０では、ワクチンの成分、副作用、ワクチンが投与された日付又は時間、投与量、懸念の報告、ワクチンの独立した評価、開発の段階、試験のフェーズ、参加者数、報告された有害事象、試験から脱落した患者の兆候などは全てアクセスルールに合格することができる。対照的に、特定の患者の名前、場所、住所などのデータは、このレビューに不合格となり得る。

この例を続けると、ブロック６５０で、特定の試験の名前と場所、ワクチンの価格設定構造、コストなどが全てまとめて除外され得る。対照的に、ワクチンの有効性、年齢層別の抗体又は免疫応答、報告された副作用などのデータは、レポートに含めるためにこの集合レビューに合格することができる。

別の例として、研究者が、手術部位周辺の経時的な形態変化を分析するために、外科的治療を受けた患者の生の画像データへのアクセスを要求すると仮定する。そのような要求は、ブロック６１５で評価に合格することができる。ブロック６３０において、手術を実施する病院又は現場、手術に使用される装置、データを収集するために使用される画像装置、医師の診断書、患者の苦情、副作用などのデータは、個別の評価に合格することができる。対照的に、施設の場所、患者の名前、患者の病歴などのデータは、このレビューに不合格となる。

ブロック６５０において、生画像、画像又は操作に関連する既存の条件の要約などのデータは、集約されたレビューに合格することができる。対照的に、画像分析に関係のない医師の診断書、医師の名前又は識別子、画像をキャプチャするために使用される特定の医療機器、画像に関係のない副作用などのデータは除外され得る。

方法６００の適用の更に別の例として、学校の教師が、生徒が虐待されている疑いがあるために、特定の生徒が受けた全ての医療のレコードについて、医療サービスに情報を要求すると仮定する。一実施形態では、要求者は正当であるが、要求されたレコードは必要なものを超えているので、この要求はブロック６１５で評価に不合格となる。例えば、（特定の健康データを要求せずに）欠席又は遅刻の頻度、診察の回数などを対象とした場合、要求はルールを満たすことができる。

別の例として、生徒が授業を避けるために家族の緊急事態について嘘をついた疑いがあるため、教授が生徒の位置データを要求すると仮定する。一実施形態では、そのような要求は、データ主体に有害である（また、異なるデータが要求された場合にも満たされる可能性が高い）ため、ブロック６１５での評価に不合格となる。

更に別の例として、故人の成人した子供が、ビデオトリビュート用の写真やビデオをダウンロードするために、故人のソーシャルネットワーキングアカウントへのアクセスを要求すると仮定する。そのような要求は、ブロック６１５で評価に合格することができる。ブロック６３０において、ソーシャルメディアアカウントから公開されている写真及びビデオ、友人のリストなどの情報は、個別のレビューに合格することができる。対照的に、非公開情報、保存された投稿又はコンテンツ、故人の非公開の会話などのデータは除外することができる。

更に別の例として、親戚が違法な活動に従事していたかどうかを決定するために、ある人が故人の親戚のソーシャルネットワーキングアカウントへのアクセスを要求すると仮定する。ブロック６１５において、そのような要求は、意図がアクセスルールを満たしていないために否認され得る（例えば、それは人類を向上させないか、又はデータ主体に害を及ぼす可能性がある）。

別の例として、セカンドオピニオンを得るために個人が家族の診断情報を取得したいと仮定する。そのような要求は、ブロック６１５で評価に合格することができる。ブロック６３０では、診断に関係する検査結果、遺伝的素因、症状などのデータが評価に合格することができるが、診断に関係のない情報（血液型など）などのデータは除外される。ブロック６５０では、患者名、医師名、病院のアイデンティティ又は場所などの情報を除外することができ、その一方で、関連する検査結果などのデータはアクセスルールに合格する。

図７は、本明細書に開示されるいくつかの実施形態による、データアクセス制御及び通知を強化するためのグラフィカルユーザインタフェース（ＧＵＩ）７０５を示す。図示の実施形態では、ＧＵＩ７０５は、一連のデータ要素７１０Ａ～Ｊを、各データ要素７１０について、データ要素が共有されている（又は共有可能である）かどうかの表示と共に含む。図示の実施形態では、ＧＵＩ７０５はスライディングインジケータを使用し、ここで、１つの位置は、共有されないブロックされたデータ要素／データに対応し（例えば、スライダーの左端）、１つは、特定の要求に応じてケースバイケースで時々又は制限的に共有されるデータに対応し（例えば、スライダーの中央）、１つの位置は、常に又は自由に共有されるデータに対応する（例えば、スライダーの右端）。いくつかの実施形態では、データ要素７１０はそれぞれ、色分け（例えば、赤、黄、及び緑）などの他の視覚補助に関連付けられている。

いくつかの実施形態では、ユーザは、ＧＵＩ７０５を使用して、分析サーバに設定又は選択を提供することができる。例えば、ユーザは、１つの要素が共有された（又は選択的に共有されている）が、それをむしろ常にロックされているようにすることを指定できる。或いは、ユーザは、１つのデータ要素がブロックされたが、それを（少なくとも選択的に）共有できるようにしたいことを示すことができる。いくつかの実施形態では、このユーザフィードバックを使用して、アクセス決定を行うために使用されるモデルを繰り返し精緻化することができる。

図８は、本明細書に開示されるいくつかの実施形態による、１つ又は複数の機械学習モデルを使用してデータアクセスを自動的に制御するための方法８００を示す流れ図である。方法８００は、ブロック８０５から開始し、ここで、分析サーバは、第１のユーザから、第２のユーザに関係するデータの第１の要求を受信する。ブロック８１０で、分析サーバは、１つ又は複数のトレーニングされた機械学習モデルの第１のセットを使用して第１の要求を処理することによって、第１の要求が１つ又は複数のデータアクセスルールを満たしているかどうかを自動的に決定する。次に、方法８００は、ブロック８１５に進み、ここで、第１の要求が１つ又は複数のデータアクセスルールを満たしていると決定すると、分析サーバは、第１の要求に基づいて第１の複数のデータ要素を自動的に取得する。ブロック８２０で、分析サーバは、１つ又は複数のトレーニングされた機械学習モデルの第２のセットを使用して第１の複数のデータ要素のそれぞれを処理することによって、第１の複数のデータ要素のそれぞれが１つ又は複数のデータアクセスルールを満たしているかどうかを自動的に決定する。更に、第１の複数のデータ要素からのデータ要素の第１のセットの各データ要素が１つ又は複数のデータアクセスルールを個別に満たしていると決定すると、分析サーバは、ブロック８２５で１つ又は複数のトレーニングされた機械学習モデルの第３のセットを使用してデータ要素の第１のセットを処理することによって、データ要素の第１のセットが集合的に１つ又は複数のデータアクセスルールを満たしているかどうかを決定する。ブロック８３０で、データ要素の第１のセットが１つ又は複数のデータアクセスルールを満たしていると決定すると、分析サーバは、データ要素の第１のセットを含むカスタムレポートを生成する。

図９は、本明細書に開示されるいくつかの実施形態による、１つ又は複数の機械学習モデルをトレーニングしてデータアクセス可能性を制御するための方法９００を示す流れ図である。方法９００は、ブロック９０５で開始し、ここで、トレーニングサーバは、履歴アクセスレコードのセットから第１のトレーニングデータセットを生成し、第１のトレーニングデータセット内のそれぞれのアクセスレコードは、データのそれぞれの要求に対応し、それぞれの要求が１つ又は複数のデータアクセスルールを満たしているかどうかを識別する情報を含む。ブロック９１０で、トレーニングサーバは、データレコードのセットから第２のトレーニングデータセットを生成し、第２のトレーニングデータセットのそれぞれのデータレコードは、それぞれのデータ要素に対応し、それぞれのデータ要素が１つ又は複数のデータアクセスルールを満たしているかどうかを識別する情報を含む。加えて、ブロック９１５で、トレーニングサーバは、履歴アクセスレコードのセットから第３のトレーニングデータセットを生成し、第３のトレーニングデータセットのそれぞれのアクセスレコードは、集約されたデータ要素のそれぞれのセットに対応し、集約されたデータ要素のそれぞれのセットが１つ又は複数のデータアクセスルールを満たしているかどうかを識別する情報を含む。次に、方法９００は、ブロック９２０に進み、ここで、トレーニングサーバは、第１、第２、及び第３のトレーニングデータセットに基づいて１つ又は複数の機械学習モデルをトレーニングして、データの要求を許可すべきかどうかを識別する出力を生成する。次に、ブロック９２５で、トレーニングサーバは、１つ又は複数の機械学習モデルを１つ又は複数のコンピューティングシステムに展開する。

（機械学習モデルをトレーニング及び使用してデータアクセスを制御するためのシステム例）
図１０は、本明細書に開示されるいくつかの実施形態による、機械学習モデルをトレーニング及び使用してデータアクセスを制御するように構成されたコンピューティングデバイス１０００を示すブロック図である。例えば、コンピューティングデバイス１０００は、図１に示される分析サーバ１１０及び／又はトレーニングサーバ１３５のうちの１つ又は複数を含み得る。コンピューティングデバイス１０００は、図２～９を参照して説明された方法及び技術など、本明細書に開示された様々な技術を実行するように構成され得る。

示されるように、コンピューティングデバイス１０００は、中央処理ユニット（ＣＰＵ）１００５、様々な入出力デバイス１０３５（例えば、キーボード、ディスプレイ、マウスデバイス、ペン入力など）のコンピューティングデバイス１０００への接続を可能にし得る１つ又は複数の入出力デバイスインタフェース１０２０、コンピューティングデバイス１０００がそれを通して１つ又は複数のネットワーク（ローカルネットワーク、イントラネット、インターネット、又は互いに通信可能に接続されたコンピューティングデバイスの任意の他のグループを含み得る）に接続され得るネットワークインタフェース１０２５、メモリ１０１０、ストレージ１０１５、及び相互接続１０３０を含む。

ＣＰＵ１００５は、メモリ１０１０に格納されたプログラミング命令を取得して実行してもよい。同様に、ＣＰＵ１００５は、メモリ１０１０に存在するアプリケーションデータを取得して格納してもよい。相互接続１０３０は、ＣＰＵ１００５、入出力デバイスインタフェース１０２０、ネットワークインタフェース１０２５、メモリ１０１０、及びストレージ１０１５の間で、プログラミング命令及びアプリケーションデータを送信する。

ＣＰＵ１００５は、単一のＣＰＵ、複数のＣＰＵ、複数の処理コアを有する単一のＣＰＵなどを表すために含まれている。

メモリ１０１０は、ランダムアクセスメモリなどの揮発性メモリ、又は、不揮発性ランダムアクセスメモリ、若しくは相変化ランダムアクセスメモリなどの不揮発性メモリを表す。示されるように、メモリ１０１０は、データ共有コンポーネント１１５、カスタムレポートジェネレータ１２０、トレーニングデータジェネレータ１４０、及びモデルトレーナ１４５を含む。

データ共有コンポーネント１１５は、一般に、要求及びデータ要素を評価して、それらを共有すべきかどうか（例えば、要求元エンティティにアクセスを許可すべきかどうか）を決定するように構成される。実施形態では、データ共有コンポーネント１１５は、倫理的で許容可能なデータセキュリティ及びアクセス実施を定義するアクセスルールのセットに部分的に基づいてこれを行う。いくつかの実施形態では、データ共有コンポーネント１１５は、履歴アクセスレコード１５０でトレーニングされた機械学習モデルを利用する。

カスタムレポートジェネレータ１２０は、一般に、データ共有コンポーネント１１５によって返された決定に基づいてデータレポートを生成する。すなわち、カスタムレポートジェネレータ１２０は、共有のために（個別に及び集合的に）承認された任意のデータ要素を含むレポートを生成する。いくつかの実施形態では、除外された任意のデータについて、カスタムレポートジェネレータ１２０は、要素が満たすことができなかったルールに関する表示を含むことができる（例えば、データ要素を不合格として分類した特定のモデルに基づく）。

トレーニングデータジェネレータ１４０は、一般に、履歴アクセスレコードからトレーニングデータセットを生成する。トレーニングデータセットの各レコードは、（対応する履歴要求又はデータ要素の）入力特徴のセット、並びにターゲット出力ラベル（例えば、履歴要求又はデータ要素がアクセスルールを満たしたかどうか）を示す。

モデルトレーナ１４５は、一般に、トレーニングデータセットを使用して、トレーニングされたモデル１０５０のセットをトレーニングし、これは、データ共有コンポーネント１１５によってデータアクセス決定を推進するために使用される。

（追加的考慮事項）
前述の説明は、当業者が本明細書に記載の様々な実施形態を実践できるようにするために提供されている。これらの実施形態に対する様々な修正は、当業者には容易に明らかであり、本明細書で定義する一般的な原理は、他の実施形態に適用され得る。例えば、本開示の範囲から逸脱することなく、議論された要素の機能及び配置に変更を加えることができる。様々な例では、必要に応じて、様々な手順又はコンポーネントを省略、置換、又は追加できる。また、いくつかの例に関して説明された特徴は、いくつかの他の例で組み合わせることができる。例えば、本明細書に記載の任意の数の態様を使用して、装置を実装することができ、又は方法を実施することができる。更に、本開示の範囲は、本明細書に記載の本開示の様々な態様に加えて、又はそれ以外の他の構造、機能、又は構造及び機能を使用して実施されるそのような装置又は方法を網羅することを意図している。本明細書に開示される開示の任意の態様は、特許請求の範囲の１つ又は複数の要素によって具体化され得ることを理解されたい。

本明細書で使用される場合、項目のリスト「の少なくとも１つ」を指す語句は、単一の要素を含む、それらの項目の任意の組み合わせを指す。例として、「ａ、ｂ、又はｃの少なくとも１つ」は、ａ、ｂ、ｃ、ａ－ｂ、ａ－ｃ、ｂ－ｃ、及びａ－ｂ－ｃ、並びに複数の同じ要素の任意の組み合わせ（例えば、ａ－ａ、ａ－ａ－ａ、ａ－ａ－ｂ、ａ－ａ－ｃ、ａ－ｂ－ｂ、ａ－ｃ－ｃ、ｂ－ｂ、ｂ－ｂ－ｂ、ｂ－ｂ－ｃ、ｃ－ｃ、並びにｃ－ｃ－ｃ又はａ、ｂ、及びｃの他の任意の順序）を網羅することが意図される。

本明細書で使用される場合、「決定する（ｄｅｔｅｒｍｉｎｉｎｇ）」という用語は、多種多様な作用を包含する。例えば、「決定する」は、算出する、計算する、処理する、導出する、調査する、検索する（例えば、テーブル、データベース、又は別のデータ構造で検索する）、確認するなどを含み得る。また、「決定する」は、受信する（例えば、情報を受信する）、アクセスする（例えば、メモリ内のデータにアクセスする）などを含み得る。また、「決定する」は、解明する、選択する、選ぶ、定めるなどを含み得る。

本明細書に開示される方法は、方法を達成するための１つ又は複数のステップ又は作用を含む。方法ステップ及び／又は作用は、特許請求の範囲から逸脱することなく、互いに交換可能であり得る。換言すれば、ステップ又は作用の具体的な順序の指定がない限り、具体的なステップ及び／又は作用の順序及び／又は使用は、特許請求の範囲から逸脱することなく変更され得る。更に、上記の方法の様々な操作は、対応する機能を実行することができる任意の適切な手段によって実行され得る。これらの手段は、回路、特定用途向け集積回路（ＡＳＩＣ）、又はプロセッサを含むがこれらに限定されない、様々なハードウェア及び／又はソフトウェアコンポーネント及び／又はモジュールを含み得る。一般に、図に示されている操作がある場合、それらの操作には、同様の番号が付けられた対応する同等の手段と機能のコンポーネントが含まれ得る。

本開示に関連して記載されている種々の図示する論理ブロック、モジュール及び回路は汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）若しくは他のプログラマブルロジックデバイス（ＰＬＤ）、個別ゲート若しくはトランジスタロジック、個別ハードウェアコンポーネント、又は本明細書において記載されている機能を実行するように設計されているいかなるそれらの任意の組み合わせでも、実装することができるか又は実行することができる。汎用プロセッサはマイクロプロセッサであってもよいが、代替として、プロセッサは、任意の市販のプロセッサ、コントローラ、マイクロコントローラ、又はステートマシンであってもよい。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと組み合わせた１つ又は複数のマイクロプロセッサ、又は任意の他のそのような構成として実装され得る。

処理システムは、バスアーキテクチャで実装することができる。バスには、処理システムの特定の用途と全体的な設計上の制約に応じて、任意の数の相互接続するバスとブリッジを含めることができる。バスは、とりわけ、プロセッサ、機械可読媒体、及び入出力デバイスを含む様々な回路を相互にリンクすることができる。ユーザインタフェース（例えば、キーパッド、ディスプレイ、マウス、ジョイスティックなど）もバスに接続できる。バスはまた、タイミングソース、周辺機器、電圧レギュレータ、電力管理回路など、当技術分野でよく知られている他の様々な回路をリンクすることができ、したがって、これ以上説明しない。プロセッサは、１つ又は複数の汎用及び／又は特殊目的のプロセッサで実装することができる。例としては、マイクロプロセッサ、マイクロコントローラ、ＤＳＰプロセッサ、及びソフトウェアを実行できるその他の回路が含まれる。当業者は、特定の用途及びシステム全体に課せられる全体的な設計上の制約に応じて、処理システムについて説明された機能をどのように実装するのが最善であるかを認識するであろう。

ソフトウェアに実装されている場合、機能は、コンピュータ可読媒体上に１つ又は複数の命令又はコードとして保存又は送信されてもよい。ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、又はハードウェア記述言語などと呼ばれるかどうかにかかわらず、命令、データ、又はそれらの任意の組み合わせを意味するように広く解釈されるものとする。コンピュータ可読媒体には、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体などの通信媒体の両方が含まれる。プロセッサは、コンピュータ可読記憶媒体に格納されたソフトウェアモジュールの実行を含む、バス及び一般的な処理の管理を担当することができる。コンピュータ可読記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合することができる。代替的には、記憶媒体はプロセッサに統合することができる。例として、コンピュータ可読媒体は、伝送線路、データによって変調された搬送波、及び／又は無線ノードとは別にその上に記憶された命令を備えたコンピュータ可読記憶媒体を含み得、これらは全て、プロセッサによってバスインタフェースを介してアクセスされ得る。或いは、又は更に、コンピュータ可読媒体又はその任意の部分は、キャッシュ及び／又は一般的なレジスタファイルを伴い得る場合など、プロセッサに統合され得る。機械可読記憶媒体の例には、例として、ＲＡＭ（ランダムアクセスメモリ）、フラッシュメモリ、ＲＯＭ（読み取り専用メモリ）、ＰＲＯＭ（プログラム可能読み取り専用メモリ）、ＥＰＲＯＭ（消去可能なプログラム可能読み取り専用メモリ）、ＥＥＰＲＯＭ（電気的消去可能なプログラム可能読み取り専用メモリ）、レジスタ、磁気ディスク、光ディスク、ハードドライブ、又は任意のその他の適切な記憶媒体、或いはそれらの任意の組み合わせが含まれ得る。機械可読媒体は、コンピュータプログラム製品に具体化することができる。

ソフトウェアモジュールは、単一の命令又は多くの命令を含み得、いくつかの異なるコードセグメントにわたって、異なるプログラム間で、且つ複数の記憶媒体にわたって分散され得る。コンピュータ可読媒体は、いくつかのソフトウェアモジュールを含み得る。ソフトウェアモジュールは、プロセッサなどの装置によって実行されると処理システムに様々な機能を実行させる命令を含む。ソフトウェアモジュールは、送信モジュール及び受信モジュールを含み得る。各ソフトウェアモジュールは、単一のストレージデバイスに常駐する場合もあれば、又は複数のストレージデバイスにわたって分散する場合もある。例として、トリガーイベントが発生したときにソフトウェアモジュールをハードドライブからＲＡＭにロードすることができる。ソフトウェアモジュールの実行中に、プロセッサはアクセス速度を上げるために命令のいくつかをキャッシュにロードすることができる。次に、１つ又は複数のキャッシュラインを汎用レジスタファイルにロードして、プロセッサで実行することができる。ソフトウェアモジュールの機能に言及するとき、そのような機能は、そのソフトウェアモジュールからの命令を実行するときにプロセッサによって実装されることが理解されよう。

以下の特許請求の範囲は、本明細書に示す実施形態に限定されることが意図されるものではなく、特許請求の範囲の文言に一致する全範囲が認められるべきである。特許請求の範囲において、単数形での要素への言及は、具体的にそのような定めがない限り、「１つ及び１つのみ（ｏｎｅａｎｄｏｎｌｙｏｎｅ）」を意味することを意図するものではなく、むしろ「１つ又は複数（ｏｎｅｏｒｍｏｒｅ）」を意味するものである。具体的に別段の定めがない限り、「いくつかの（ｓｏｍｅ）」という用語は、１つ又は複数を指す。特許請求の範囲のいかなる要素も、要素が「するための手段（ｍｅａｎｓｆｏｒ）」という語句を使用して明示的に列挙されない限り、米国特許法第１１２条（ｆ）の規定に基づいて解釈されるべきではなく、又は方法請求項の場合には、要素は「ためのステップ（ｓｔｅｐｆｏｒ）」という語句を使用して列挙される。当業者に知られている又は後に知られることになる、本開示全体を通して説明した様々な態様の要素に対する全ての構造的及び機能的均等物は、本明細書に参照により明示的に組み込まれ、特許請求の範囲に包含されることが意図される。その上、本明細書に開示したものは、そのような開示が特許請求の範囲に明示的に列挙されているか否かにかかわらず公衆に献呈されることが意図されるものではない。
態様（１）によれば、１つ又は複数の機械学習モデルを使用してデータアクセスを自動的に制御する方法であって、
第１のユーザから、第２のユーザに関係するデータの第１の要求を受信することと、
１つ又は複数のトレーニングされた機械学習モデルの第１のセットを使用して前記第１の要求を処理することによって、前記第１の要求が１つ又は複数のデータアクセスルールを満たしているかどうかを自動的に決定することと、
前記第１の要求が前記１つ又は複数のデータアクセスルールを満たしていると決定すると、前記第１の要求に基づいて第１の複数のデータ要素を自動的に取得することと、
１つ又は複数のトレーニングされた機械学習モデルの第２のセットを個別に使用して前記第１の複数のデータ要素のそれぞれを処理することによって、前記第１の複数のデータ要素のそれぞれが前記１つ又は複数のデータアクセスルールを満たしているかどうかを自動的に決定することと、
前記第１の複数のデータ要素からのデータ要素の第１のセットの各データ要素が前記１つ又は複数のデータアクセスルールを個別に満たしていると決定すると、１つ又は複数のトレーニングされた機械学習モデルの第３のセットを使用してデータ要素の前記第１のセットを処理することによって、データ要素の前記第１のセットが集合的に前記１つ又は複数のデータアクセスルールを満たしているかどうかを決定することと、
データ要素の前記第１のセットが前記１つ又は複数のデータアクセスルールを満たしていると決定すると、データ要素の前記第１のセットを含むカスタムレポートを生成することと、
を含む、方法である。
態様（２）によれば、第２の要求を受信することと、
１つ又は複数のトレーニングされた機械学習モデルの前記第１のセットを使用して前記第２の要求を処理することによって、前記第２の要求が前記１つ又は複数のデータアクセスルールを満たしているかどうかを決定することと、
前記第２の要求が前記１つ又は複数のデータアクセスルールを満たしていないと決定すると、前記第２の要求のデータを取得することを控えることと、
を更に含む。
態様（３）によれば、前記第１の複数のデータ要素からのデータ要素の第２のセットが前記１つ又は複数のデータアクセスルールを満たしていないと決定すると、データ要素の前記第２のセットを提供することを控えること、
を更に含む。
態様（４）によれば、第２の要求を受信することと、
前記第２の要求に基づいて第２の複数のデータ要素を自動的に取得することと、
１つ又は複数のトレーニングされた機械学習モデルの前記第２のセットを使用して前記第２の複数のデータ要素のそれぞれを処理することによって、前記第２の複数のデータ要素からのデータ要素の第２のセットが前記１つ又は複数のデータアクセスルールを満たしていることを自動的に決定することと、
１つ又は複数のトレーニングされた機械学習モデルの前記第３のセットを使用してデータ要素の前記第２のセットを処理することによって、データ要素の前記第２のセットが前記１つ又は複数のデータアクセスルールを集合的に満たしているかどうかを決定することと、
データ要素の前記第２のセットが前記１つ又は複数のデータアクセスルールを集合的に満たしていないと決定すると、データ要素の前記第２のセットからの少なくとも１つのデータ要素を提供することを控えることと、
を更に含む。
態様（５）によれば、前記第２のユーザに、データ要素の前記第１のセットが前記第１のユーザによってアクセスされたという通知を送信すること、
を更に含む。
態様（６）によれば、第２の要求を受信することと、
前記第２の要求が前記１つ又は複数のデータアクセスルールを満たしていないと決定することと、
前記第２の要求が否認された理由を指定するカスタムレポートを生成することと、
を更に含む。
態様（７）によれば、１つ又は複数の機械学習モデルをトレーニングしてデータアクセス可能性を制御する方法であって、
履歴アクセスレコードのセットから第１のトレーニングデータセットを生成することであって、前記第１のトレーニングデータセット内のそれぞれのアクセスレコードは、データのそれぞれの要求に対応し、前記それぞれの要求が１つ又は複数のデータアクセスルールを満たしているかどうか、を識別する情報を含む、生成することと、
データレコードのセットから第２のトレーニングデータセットを生成することであって、前記第２のトレーニングデータセットのそれぞれのデータレコードは、それぞれのデータ要素に対応し、前記それぞれのデータ要素が前記１つ又は複数のデータアクセスルールを満たしているかどうか、を識別する情報を含む、生成することと、
履歴アクセスレコードの前記セットから第３のトレーニングデータセットを生成することであって、前記第３のトレーニングデータセットのそれぞれのアクセスレコードは、集約されたデータ要素のそれぞれのセットに対応し、集約されたデータ要素の前記それぞれのセットが前記１つ又は複数のデータアクセスルールを満たしているかどうか、を識別する情報を含む、生成することと、
前記第１のトレーニングデータセット、前記第２のトレーニングデータセット、及び前記第３のトレーニングデータセットに基づいて前記１つ又は複数の機械学習モデルをトレーニングして、データの要求を許可する必要があるかどうかを識別する出力を生成することと、
前記１つ又は複数の機械学習モデルを１つ又は複数のコンピューティングシステムに展開することと、
を含む方法である。
態様（８）によれば、前記第１のトレーニングデータセット、前記第２のトレーニングデータセット、及び前記第３のトレーニングデータセットに基づいて前記１つ又は複数の機械学習モデルをトレーニングすることが、
前記第１のトレーニングデータセットに基づいて、前記１つ又は複数の機械学習モデルの第１のセットをトレーニングすることと、
前記第２のトレーニングデータセットに基づいて、前記１つ又は複数の機械学習モデルの第２のセットをトレーニングすることと、
前記第３のトレーニングデータセットに基づいて、前記１つ又は複数の機械学習モデルの第３のセットをトレーニングすることと、
を含む。
態様（９）によれば、前記１つ又は複数のデータアクセスルールが、
（ｉ）第１のルールと、
（ｉｉ）第２のルールと、
（ｉｉｉ）第３のルールと、
を含む。
態様（１０）によれば、前記１つ又は複数の機械学習モデルの前記第１のセットをトレーニングすることは、
前記第１のトレーニングデータセットと前記第１のルールとに基づいて第１の機械学習モデルをトレーニングすることと、
前記第１のトレーニングデータセットと前記第２のルールとに基づいて第２の機械学習モデルをトレーニングすることと、
前記第１のトレーニングデータセットと前記第３のルールとに基づいて第３の機械学習モデルをトレーニングすることと、
を含み、
前記１つ又は複数の機械学習モデルの前記第２のセットをトレーニングすることは、
記第２のトレーニングデータセットと前記第１のルールとに基づいて第４の機械学習モデルをトレーニングすることと、
前記第２のトレーニングデータセットと前記第２のルールとに基づいて第５の機械学習モデルをトレーニングすることと、
前記第２のトレーニングデータセットと前記第３のルールとに基づいて第６の機械学習モデルをトレーニングすることと、
を含み、
前記１つ又は複数の機械学習モデルの前記第３のセットをトレーニングすることは、
前記第３のトレーニングデータセットと前記第１のルールとに基づいて第７の機械学習モデルをトレーニングすることと、
前記第３のトレーニングデータセットと前記第２のルールとに基づいて第８の機械学習モデルをトレーニングすることと、
前記第３のトレーニングデータセットと前記第３のルールとに基づいて第９の機械学習モデルをトレーニングすることと、
を含む。
態様（１１）によれば、前記第１のルールが、データにアクセスできるのはそうすることで人類を向上させるであろう場合のみであることを指定し、
前記第２のルールが、データにアクセスできるのは前記データの意図された使用が正当である場合のみであることを指定し、
前記第３のルールが、データにアクセスできるのはデータが保護されたままの場合のみであることを指定している。
態様（１２）によれば、前記第１のトレーニングデータセット内のそれぞれのアクセスレコードは、
前記それぞれの要求の目的と、
前記それぞれの要求に関連する１つ又は複数のデータ要素と、
を識別する情報を更に含む。
態様（１３）によれば、前記第２のトレーニングデータセット内のそれぞれのデータレコードは、
前記それぞれのデータ要素の１つ又は複数の特性
を識別する情報を更に含む。
態様（１４）によれば、前記第２のトレーニングデータセット内のそれぞれのデータレコードは、
集約されたデータ要素の前記それぞれのセット内の各データ要素のソースのデータプロファイル
を識別する情報を更に含む。
態様（１５）によれば、前記第３のトレーニングデータセット内のそれぞれのデータレコードは、
前記それぞれのデータ要素のソースのデータプロファイル
を識別する情報を更に含む。

Claims

トレーニングデータを生成するためのトレーニングデータジェネレータと、データアクセスルールを個別に満たす集約されたデータ要素の特性に基づいて、データアクセス可能性を制御するために１つ又は複数の機械学習モデルをトレーニングするためのモデルトレーナとを備えるトレーニングサーバにおいて実行される方法であって、
トレーニングデータジェネレータによって、複数の分析の層の各層についてトレーニングされる各モデル用の個別のトレーニングデータを生成することと、
以前のデータの要求に対応し、以前のデータ共有の決定及びデータアクセスの要求が承認された又は否認されたかに関連する履歴アクセスレコードのセットから第１のトレーニングデータセットを生成することであって、前記第１のトレーニングデータセット内のそれぞれのアクセスレコードは、データのそれぞれの要求に対応し、前記それぞれの要求が１つ又は複数の前記データアクセスルールを満たしているかどうか、を識別する情報を含み、前記第１のトレーニングデータセット内のそれぞれの前記アクセスレコードは、（ｉ）前記それぞれの要求の目的と、（ｉｉ）前記それぞれの要求に関連する１つ又は複数の前記データ要素と、を識別する情報を更に含む、生成することと、
データレコードのセットから第２のトレーニングデータセットを生成することであって、前記第２のトレーニングデータセットのそれぞれの前記データレコードは、それぞれの前記データ要素に対応し、それぞれの前記データ要素が１つ又は複数の前記データアクセスルールを満たしているかどうか、を識別する情報を含み、前記第２のトレーニングデータセット内のそれぞれの前記データレコードは、それぞれの前記データ要素の１つ又は複数の特性を識別する情報及び集約された前記データ要素のそれぞれのセットの中の各前記データ要素のソースのデータプロファイルを識別する情報を更に含む、生成することと、
前記履歴アクセスレコードのセットから第３のトレーニングデータセットを生成することであって、前記第３のトレーニングデータセットのそれぞれの前記アクセスレコードは、集約された前記データ要素のそれぞれのセットに対応し、集約された前記データ要素のそれぞれのセットが、前記データアクセスルールを個別に満たす集約された前記データ要素の特性に基づいて、１つ又は複数の前記データアクセスルールを満たしているかどうか、を識別する情報を含み、前記第３のトレーニングデータセット内のそれぞれの前記データレコードは、それぞれの前記データ要素のソースのデータプロファイルを識別する情報を更に含む、生成することと、
前記第１のトレーニングデータセット、前記第２のトレーニングデータセット、及び前記第３のトレーニングデータセットに基づいて前記１つ又は複数の機械学習モデルをトレーニングして、前記データの要求を許可する必要があるかどうかを識別する出力を生成することと、
分析サーバを備える１つ又は複数のコンピューティングシステムに前記１つ又は複数の機械学習モデルを展開することであって、前記トレーニングサーバは、実行時に受信するデータ要求を分析し、実行時に取得された個別の前記データ要素を分析し、実行時に取得された前記データ要素の集約セットを分析するために、１つ又は複数のトレーニングされた機械学習モデルを展開する、前記１つ又は複数の機械学習モデルを展開すること、
を含む方法。
前記第１のトレーニングデータセット、前記第２のトレーニングデータセット、及び前記第３のトレーニングデータセットに基づいて前記１つ又は複数の機械学習モデルをトレーニングすることが、
前記第１のトレーニングデータセットに基づいて、前記１つ又は複数の機械学習モデルの第１のセットをトレーニングすることと、
前記第２のトレーニングデータセットに基づいて、前記１つ又は複数の機械学習モデルの第２のセットをトレーニングすることと、
前記第３のトレーニングデータセットに基づいて、前記１つ又は複数の機械学習モデルの第３のセットをトレーニングすることと、
を含む、請求項１に記載の方法。
１つ又は複数の前記データアクセスルールが、
（ｉ）第１のルールと、
（ｉｉ）第２のルールと、
（ｉｉｉ）第３のルールと、
を含む、請求項２に記載の方法。
前記１つ又は複数の機械学習モデルの前記第１のセットをトレーニングすることは、
前記第１のトレーニングデータセットと前記第１のルールとに基づいて第１の機械学習モデルをトレーニングすることと、
前記第１のトレーニングデータセットと前記第２のルールとに基づいて第２の機械学習モデルをトレーニングすることと、
前記第１のトレーニングデータセットと前記第３のルールとに基づいて第３の機械学習モデルをトレーニングすることと、
を含み、
前記１つ又は複数の機械学習モデルの前記第２のセットをトレーニングすることは、
記第２のトレーニングデータセットと前記第１のルールとに基づいて第４の機械学習モデルをトレーニングすることと、
前記第２のトレーニングデータセットと前記第２のルールとに基づいて第５の機械学習モデルをトレーニングすることと、
前記第２のトレーニングデータセットと前記第３のルールとに基づいて第６の機械学習モデルをトレーニングすることと、
を含み、
前記１つ又は複数の機械学習モデルの前記第３のセットをトレーニングすることは、
前記第３のトレーニングデータセットと前記第１のルールとに基づいて第７の機械学習モデルをトレーニングすることと、
前記第３のトレーニングデータセットと前記第２のルールとに基づいて第８の機械学習モデルをトレーニングすることと、
前記第３のトレーニングデータセットと前記第３のルールとに基づいて第９の機械学習モデルをトレーニングすることと、
を含む、請求項３に記載の方法。
前記第１のルールが、前記データにアクセスできるのはそうすることで人類を向上させるであろう場合のみであることを指定し、
前記第２のルールが、前記データにアクセスできるのは前記データの意図された使用が正当である場合のみであることを指定し、
前記第３のルールが、前記データにアクセスできるのは前記データが保護されたままの場合のみであることを指定している、
請求項３に記載の方法。
前記データの要求は、医療診断の決定に関連する情報に対する前記データの要求であり、第１のルールは、前記データの要求が、プライバシー及びセキュリティを維持しながら、前記データの要求者又は他の人に有益かつ正当な前記データの要求である場合に、前記データにアクセスできることを規定し、
前記データ要素は、検査結果、遺伝的素因及び症状を含む医療診断に関連する要素で構成され、第２のルールは、前記データの意図された使用が正当な場合に限り前記データにアクセスできることを規定し、
集約された前記データ要素には、患者名、病院のアイデンティティ又は場所を含む診断に関連しない前記データがさらに含まれ、第３のルールは、前記データが保護されたままである場合に限り前記データにアクセスできることを規定する、
請求項３に記載の方法。
請求項１から請求項６の何れか１項に記載の方法に従って、前記１つ又は複数の機械学習モデルを使用してデータアクセスを自動的に制御するために前記分析サーバにおいて実行される方法であって、
第１のユーザから、第２のユーザに関係する前記データの第１の要求を受信することであって、前記第１の要求は、１つ又は複数の明示的な参照によって、又は、前記データをフィルタリングするために使用できる特性と、要求の目的又は理由とを提供することによって、要求される前記データを示す、前記第１の要求を受信することと、
前記１つ又は複数のトレーニングされた機械学習モデルの第１のセットを使用して前記第１の要求を処理することによって、前記第１の要求が１つ又は複数の前記データアクセスルールを満たしているかどうかを自動的に決定することと、
前記第１の要求が１つ又は複数の前記データアクセスルールを満たしていると決定すると、前記第１の要求に基づいて第１の複数のデータ要素を自動的に取得することと、
前記１つ又は複数のトレーニングされた機械学習モデルの第２のセットを個別に使用して前記第１の複数のデータ要素のそれぞれを処理することによって、前記第１の複数のデータ要素のそれぞれが１つ又は複数の前記データアクセスルールを満たしているかどうかを自動的に決定することと、
前記第１の複数のデータ要素からの前記データ要素の第１のセットの各前記データ要素が１つ又は複数の前記データアクセスルールを個別に満たしていると決定すると、前記第１の複数のデータ要素を承認された前記データ要素のサブセットに追加することと、
前記１つ又は複数のトレーニングされた機械学習モデルの第３のセットを使用して前記データ要素の前記第１のセットを処理することによって、前記データ要素の前記第１のセットが集合的に１つ又は複数の前記データアクセスルールを満たしているかどうかを決定することと、
前記データ要素の前記第１のセットが１つ又は複数の前記データアクセスルールを満たしていると決定すると、前記データ要素の前記第１のセットを含むカスタムレポートを生成することと、
を含む、方法。
第２の要求を受信することと、
前記１つ又は複数のトレーニングされた機械学習モデルの前記第１のセットを使用して前記第２の要求を処理することによって、前記第２の要求が１つ又は複数の前記データアクセスルールを満たしているかどうかを決定することと、
前記第２の要求が１つ又は複数の前記データアクセスルールを満たしていないと決定すると、前記第２の要求の前記データを取得することを控えることと、
を更に含む、請求項７に記載の方法。
前記第１の複数のデータ要素からの前記データ要素の第２のセットが１つ又は複数の前記データアクセスルールを満たしていないと決定すると、前記データ要素の前記第２のセットを提供することを控えること、
を更に含む、請求項７に記載の方法。
第２の要求を受信することと、
前記第２の要求に基づいて第２の複数のデータ要素を自動的に取得することと、
前記１つ又は複数のトレーニングされた機械学習モデルの前記第２のセットを使用して前記第２の複数のデータ要素のそれぞれを処理することによって、前記第２の複数のデータ要素からの前記データ要素の第２のセットが１つ又は複数の前記データアクセスルールを満たしていることを自動的に決定することと、
前記１つ又は複数のトレーニングされた機械学習モデルの前記第３のセットを使用して前記データ要素の前記第２のセットを処理することによって、前記データ要素の前記第２のセットが１つ又は複数の前記データアクセスルールを集合的に満たしているかどうかを決定することと、
前記データ要素の前記第２のセットが１つ又は複数の前記データアクセスルールを集合的に満たしていないと決定すると、前記データ要素の前記第２のセットからの少なくとも１つの前記データ要素を提供することを控えることと、
を更に含む、請求項７に記載の方法。
前記第２のユーザに、前記データ要素の前記第１のセットが前記第１のユーザによってアクセスされたという通知を送信すること、
を更に含む、請求項７に記載の方法。
第２の要求を受信することと、
前記第２の要求が１つ又は複数の前記データアクセスルールを満たしていないと決定することと、
前記第２の要求が否認された理由を指定するカスタムレポートを生成することと、
を更に含む、請求項７に記載の方法。
前記データアクセスルールには、データ主体に害を与えることなく要求が正当な臨床診断又は医学的診断に関連しているかどうか、及び、前記データが機密として保持されるかどうかを判断することを含む、請求項７に記載の方法。
前記分析サーバは、集約された前記データから１つ又は複数の前記データ要素を繰り返し削除し、満足のいく集約された前記データ要素のセットが見つかるまで残りのセットを再処理することができ、データ主体が特定される可能性のある前記データ要素、又は、施設の場所又は医療専門家が特定される可能性のある前記データ要素は、集約された前記データから削除される、請求項７に記載の方法。