[go: up one dir, main page]

JP6995940B2 - 機械学習システムのためのデータ管理方法、装置、およびシステム - Google Patents

機械学習システムのためのデータ管理方法、装置、およびシステム Download PDF

Info

Publication number
JP6995940B2
JP6995940B2 JP2020114687A JP2020114687A JP6995940B2 JP 6995940 B2 JP6995940 B2 JP 6995940B2 JP 2020114687 A JP2020114687 A JP 2020114687A JP 2020114687 A JP2020114687 A JP 2020114687A JP 6995940 B2 JP6995940 B2 JP 6995940B2
Authority
JP
Japan
Prior art keywords
model
privacy protection
facility
protection data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020114687A
Other languages
English (en)
Other versions
JP2021012695A (ja
Inventor
実佳 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JP2021012695A publication Critical patent/JP2021012695A/ja
Application granted granted Critical
Publication of JP6995940B2 publication Critical patent/JP6995940B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、機械学習(ML)システムのためのデータ管理を対象とし、より具体的には、プライバシーおよびリスク管理システムによって保護されている特徴を有するデータのための機械学習システムの処理を対象とする。
MLシステムを作成する際に発生する問題には、データ選択および特徴選択が関与する。特に、複数の団体(例えば、病院、保険会社、政府)は、独自のフォーマットでデータを格納し管理しており、外部のベンダーへの直接データアクセスを禁じる秘密情報が関係している。したがって、MLシステムが、かかる団体からのデータを利用する必要がある場合、団体で働くエンジニアまたはデータサイエンティストは、団体のポリシー(例えば、アクセスおよびプライバシー制限)、倫理、知識、およびベンダー要求に基づいて、団体のデータを準備する必要がある。更に、団体で働くそれらのエンジニアまたはデータサイエンティストによって準備される選択データは、欠損データまたは不良データにより、訓練データセットとして不適切なことがある。
関連技術の実施例では、それにより、団体で働くエンジニアまたはデータサイエンティスト、ならびにMLシステムを作成しようとするデータサイエンティストは、データアクセス制限が原因で、MLシステムのために特徴を選択するのに試行錯誤を行うため、MLシステムの作成が困難になっている。
例示の実施例は、MLシステムに適切なデータサンプルおよび特徴を選択する、システムおよび方法を対象とする。本明細書に記載する例示の実施例には、医療判断支援システムを促進するために患者データおよび病院が関与するが、本明細書に記載する例示の実施例は、政府機関、保険会社など、厳密なデータアクセス制限が関与する他の状況に拡張することができる。
病院および医療提供者の分野の一例として、各病院または医療提供者は異なるデータポリシーを利用し、外部ベンダーは、患者データまたは電子カルテ(EHR)を保護する法律により、病院または医療提供者が管理するデータに直接アクセスすることができない。関連技術の実施例では、病院のエンジニア/データサイエンティストは、データを選択し、匿名化によってプライバシー保護されたデータをベンダーに付与する。ベンダーは、データへの部分アクセス、ならびにメタデータアクセスのみを有する。
本明細書に記載する例示の実施例には、他の団体における経験危険因子に基づいて重要であると見なされる因子に関する十分なデータソースを有し、メタデータとして格納される、適切なサンプル(例えば、患者)を選択する「危険因子管理構成要素」が関与する。危険因子管理により、全てのデータサンプル候補の中で、求められるデータソース中に他の患者よりも多くのデータを有する一部の患者に、より高い優先順位が付けられる。換言すれば、訓練データサンプル属性の類似度は、新しいサンプルセットを選択する基準であり得る。それに加えて、危険因子管理は、他の団体の経験から導き出されたメタデータに基づいて、有益な特徴を効率的に選択する。以下、本明細書において、「危険因子」は、「説明因子」、「予測根拠因子」、「ML結果説明因子」、「ML根拠因子」「ML根拠因子」、「ML根拠説明因子」等と読み替えてもよい。また、本明細書において、「訓練」は、「学習」等と読み替えてもよい。
それにより、例示の実施例は、1つの団体における毎日のシステム管理を繰り返し利用するので、MLシステムの精度を改善することができ、また、MLシステムを他の団体に適宜展開するために働くことができる。
本開示の態様は、第1の施設と関連付けられた第1のプライバシー保護データの訓練済みモデルを生成する方法を含み、方法は、第2の施設と関連付けられた第2のプライバシー保護データのメタデータであって、第1の施設と関連付けられた第1のプライバシー保護データからの特徴と関連付けられたメタデータを決定するステップと、メタデータに基づいて、モデルを訓練するのに利用される、第1の施設と関連付けられた第1のプライバシー保護データのサンプルを決定するステップと、第1の施設と関連付けられた第1のプライバシー保護データのサンプルに基づいて、モデルを訓練するステップとを含む。
本開示の態様は、第1の施設と関連付けられた第1のプライバシー保護データの訓練済みモデルを生成するように構成されたコンピュータプログラムを含み、コンピュータプログラムは、第2の施設と関連付けられた第2のプライバシー保護データのメタデータであって、第1の施設と関連付けられた第1のプライバシー保護データからの特徴と関連付けられたメタデータを決定することと、メタデータに基づいて、モデルを訓練するのに利用される、第1の施設と関連付けられた第1のプライバシー保護データのサンプルを決定することと、第1の施設と関連付けられた第1のプライバシー保護データのサンプルに基づいて、モデルを訓練することとを含む、命令を有する。コンピュータプログラムの命令は、1つまたは複数のプロセッサによって実行されるように構成された、非一時的コンピュータ可読媒体に記憶されてもよい。
本開示の態様は、第1の施設と関連付けられた第1のプライバシー保護データの訓練済みモデルを生成するように構成されたシステムを含み、システムは、第2の施設と関連付けられた第2のプライバシー保護データのメタデータであって、第1の施設と関連付けられた第1のプライバシー保護データからの特徴と関連付けられたメタデータを決定する手段と、メタデータに基づいて、モデルを訓練するのに利用される、第1の施設と関連付けられた第1のプライバシー保護データのサンプルを決定する手段と、第1の施設と関連付けられた第1のプライバシー保護データのサンプルに基づいて、モデルを訓練する手段とを有する。
本開示の態様は更に、第1の施設と関連付けられた第1のプライバシー保護データの訓練済みモデルを生成するように構成された装置を含み、装置は、第2の施設と関連付けられた第2のプライバシー保護データのメタデータであって、第1の施設と関連付けられた第1のプライバシー保護データからの特徴と関連付けられたメタデータを決定し、メタデータに基づいて、モデルを訓練するのに利用される、第1の施設と関連付けられた第1のプライバシー保護データのサンプルを決定し、第1の施設と関連付けられた第1のプライバシー保護データのサンプルに基づいて、モデルを訓練するように構成された、プロセッサを含む。
例示の実施例による、ハードウェア構成の一例を示す図である。 例示の実施例による、適切なデータサンプルおよび特徴を選択するシステム構成要素を示す図である。 例示の実施例による、図2のシステムの例示のフロー図である。 例示の実現例による、危険因子管理構成要素の詳細なフローを示す図である。 例示の実施例による、特徴ベクトルを作成するデータ処理構成要素を示すフロー図である。 例示の実施例による、訓練構成要素の例示のフロー図である。 例示の実施例による、テスト構成要素の例示のフロー図である。 例示の実施例による、クラスタ構成要素の例示のフロー図である。 例示の実施例による、モデルメタデータを管理する例示のデータモデルを示す図である。 例示の実施例による、予測結果を説明する例示の表を示す図である。 例示の実施例による、危険因子を示す例示の表を示す図である。 例示の実施例による、重要度クラスタラベルを示す例示の表を示す図である。 例示の実施例による、特徴ベクトルを示す例示の表を示す図である。 例示の実施例による、患者優先順位ラベルを示す例示の表を示す図である。 例示の実施例による、システムの別の例を示す図である。 例示の実施例による、例示の可視化主要フロー図である。 例示の実施例による、可視化詳細フロー図である。 例示の実施例による、例示のデータソースを示す図である。 例示の実施例による、例示のデータソースを示す図である。 例示の実施例による、例示のデータソースを示す図である。 例示の実施例による、例示の優先順位計算プロセスを示す図である。 例示の実施例による、ユーザ相互作用を示すフロー図である。 例示の実施例による、クライアントデバイスの例示のダッシュボードを示す図である。
以下の詳細な説明は、本出願の図面および例示の実施例の更なる詳細を提供する。図面間の冗長な要素の参照番号および説明は、明瞭にするために省略する。明細書全体を通して使用される用語は、例として提供されるものであり、限定を意図しない。例えば、「自動」という用語の使用には、本出願の実施例を実施する当業者の所望の実施例に応じて、ユーザまたは管理者が実施例の特定の態様を制御することを伴う、全自動または半自動の実施例が関与することがある。選択は、ユーザインターフェースまたは他の入力手段を通してユーザが実践することができ、または所望のアルゴリズムを通して実現することができる。本明細書に記載されるような例示の実施例は、単独または組み合わせのどちらかで利用することができ、例示の実施例の機能性は、所望の実施例による任意の手段を通して実現することができる。
本明細書に記載する例示の実施例は、医療判断支援システムなど、プライバシー保護データの使用を容易にするシステムにおいて、危険因子に基づいて予測分析を実施する、MLモデルを訓練するための適切なデータサンプルおよび特徴を選択することを対象とする。本明細書に記載する例示の実施例では、危険因子管理構成要素は、MLモデルで使用するのに十分なデータソースを有し、それによって、メタデータとして格納される、経験危険因子(例えば、病院Aなどの他の病院における危険因子)に基づいて非常に重要な因子をもたらす、適切なサンプル(例えば、患者、個人データを有する人)を選択する。危険因子管理により、全てのデータサンプル候補の中で、求められるデータソース中に他の患者または人よりも多くのデータを有する一部の患者または人に、より高い優先順位が付けられる。換言すれば、訓練データサンプルの属性の類似度は、新しいサンプルセットを選択するための基準であろう。それに加えて、危険因子管理は、病院など、他の団体の経験から導き出されたメタデータに基づいて、有益な特徴を効率的に選択する。
本明細書に記載するプロセスは、病院などの施設における毎日のシステム管理を容易にすることができるので、かかる例示の実施例は、ML精度を改善することができ、またMLシステムは、基礎となる施設からのプライバシー保護データを暴露することなく、他の施設(例えば、他の病院)で展開するように拡張することができる。
収集データは、医療システムなどの接続されたシステム内で格納されるデータのサイズおよびタイプの点で、広く異なる場合があり、各患者のデータ収集レベルは様々であり得る。例えば、医師によっては、自身の患者に関するメモを保持したい者もいるが、医師に対する特別な標準または要件はないので、かかるメモを保持しない者もいる。かかる医師のメモは、患者の今後の状態を認識し予測するのに有用な場合がある。したがって、医師のメモが関与する訓練モデルを、違いを解析するにあたって更に洗練させる必要がある。更に、個人の患者健康データも広く異なる場合があり、スマートフォンの健康アプリケーションからのデータなどのデータが関与する場合がある。かかる従来的でないデータも、個人訓練モデルに含まれることがある。
図1は、例示の実施例による、ハードウェア構成の一例を示している。サーバ100には、中央処理装置(CPU)101、記憶装置102、入力インターフェース103および出力インターフェース(I/F)104、通信ネットワークI/F 105、および短期メモリ106を含むことができる、モデル管理システムを容易にする要素が関与する。それらはバス107を通して互いに接続される。サーバ100は、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)などの形態であることができるネットワーク108を通して、病院システムなどの外部の団体に接続されて、双方向または一方向の方式でデータの送受信を行う。CPU 101は、所望の実施例にしたがって、物理的ハードウェアプロセッサ、またはハードウェアおよびソフトウェアプロセッサの組み合わせとしての形態であることができる。
本明細書の例示の実施例に記載するように、サーバ100は、第1の施設と関連付けられた第1のプライバシー保護データに対する訓練済みモデルを生成するように構成された装置である。かかる例示の実施例では、CPU 101は、第2の施設と関連付けられた第2のプライバシー保護データのメタデータであって、第1の施設と関連付けられた第1のプライバシー保護データからの特徴と関連付けられたメタデータを決定し、メタデータに基づいて、モデルを訓練するのに利用される、第1の施設と関連付けられた第1のプライバシー保護データのサンプルを決定し、図2~7に示されるように、第1の施設と関連付けられた第1のプライバシー保護データのサンプルに基づいて、モデルを訓練するように構成することができる。
例示の実施例では、図9に示されるように、メタデータは、特徴と、特徴と関連付けられたデータソースのタイプと、訓練されるモデルとの間の関係を示す。
所望の実施例に応じて、特徴は危険因子に基づき、特徴は、危険因子と関連付けられた重要度に基づいて、CPU 101によって選択され、モデルの訓練は更に、図3、6~8、および11に示されるように、選択された特徴に基づく。
例示の実施例では、CPU 101は、図4に示されるように、第1のプライバシー保護データの量に基づいて、第1の施設と関連付けられた第1のプライバシー保護データのサンプルを決定するように構成される。
例示の実施例では、モデルは、図10に示されるように、危険因子、危険因子それぞれの重要度値、および再通院リスクスコアを出力するように訓練される。
例示の実施例では、CPU 101は更に、第1のプライバシー保護データに対して訓練済みモデルを周期的に実行し、図15~17に示されるように周期的に更新される、訓練済みモデルの出力を含む可視化を生成するように構成される。
図2は、例示の実施例による、適切なデータサンプルおよび特徴を選択するシステム構成要素を示している。危険因子管理構成要素201、データ処理構成要素202、訓練構成要素203、クラスタ構成要素204、テスト構成要素205、および前処理構成要素206などの構成要素があり得る。記憶装置102には、記憶装置によって促進されるデータベース(DB)210およびファイルシステム220があり得る。DB 210は、モデルメタデータ211、予測結果/危険因子/重要度値212、重要度クラスタラベル213、患者データ214、および患者優先順位ラベル215を格納することができる。ファイルシステム220は、病院から導き出された匿名化EHRデータ221、特徴ベクトルファイル222、および機械学習モデル223を含むことができる。
例示の実施例では、サーバ100は、第1の施設と関連付けられた第1のプライバシー保護データに対する訓練済みモデルを生成するように構成され、前処理構成要素206を通して元のEHR(すなわち加工前の生EHR) 221にアクセスするようにして、第1の施設に配置することができる。DB 210はまた、モデルメタデータ211と、予測結果、危険因子、および重要度値212とを提供する同じアーキテクチャを有する、第2の類似のタイプの施設(例えば、別の病院、別の保険会社など)と関連付けられた第2のプライバシー保護データと関連付けられた、別のサーバからの情報を含むことができる。図9~12に示されるように、かかるモデルメタデータ211は、様々なタイプのモデルを生成するのにどの特徴が利用されるかを示すことができ、したがって、第1のプライバシー保護データから抽出された同じ特徴(例えば、第1の施設の元のEHR 221)と関連付けることができる。かかる例示の実施例では、第1の施設と関連付けられた第1のプライバシー保護データのサンプルは、図4に示されるプロセスを通して第2の施設から取得されるようなモデルメタデータ211に示される特徴に基づいて、モデルを訓練するのに使用すると決定することができる。
かかる例示の実施例により、特徴を第2の施設のモデルメタデータ211に基づいて導き出すことができ、サンプルを適宜取得することができるので、第1の施設にあるサーバ100の管理者は、MLモデルを生成する際に患者データのうちのどれを要求するかを決定する必要がない。更に、第2の施設のプライバシー保護データと関連付けられたメタデータは個人情報を何も含まないので、第2のプライバシー保護データを第1の施設から隔離することによって、施設間でのプライバシー保護データの汚染を回避しながら、第1の施設が第2の施設からのモデル訓練結果を組み込んで、自身の機械学習モデル訓練を実践することができる。同様に、第1の施設で利用されるような、例示の実施例から生成されるモデルメタデータ211、ならびに予測結果、危険因子、および重要度値212を、EHRシステムのプライバシー保護データに他の施設を暴露することなく、機械学習モデルをやはり生成する他の施設に提供することができる。それに加えて、利用されるサンプルを決定するのにモデルメタデータが使用されるので、適切なサンプルが直接EHRシステムを標的にすることができるため、例示の実施例によって訓練される、結果として得られる機械学習モデルは、関連技術のシステムよりも高い精度を有する。
図3は、例示の実施例による、図2のシステムの例示のフロー図である。この主要フローは、機械学習モデルを作成し、モデルを予測に使用するプロセスを示している。したがって、プロセスは、所望の実施例にしたがって、周期的に(例えば、毎月)自動的に、またはユーザによって手動で行われる。危険因子管理構成要素201は、図4に記載されるように、データベースにアクセスし、適切なサンプル/患者データ(例えば、EHRデータ)、および特徴のタイプをリスト上に示す選択された特徴リストを選択する。次に、データ処理構成要素は、選択された患者データおよび選択された特徴リストを受信し、かかる情報を利用して訓練用の特徴ベクトル301を生成する。このプロセス中、データ処理構成要素202は、テスト患者データおよび特徴リスト310から、テストデータ用の特徴ベクトル311も作成してもよい。
次に、訓練構成要素203は、所望の実施例にしたがって、任意のML訓練プロセスを通して、特徴ベクトルを得て、訓練済みモデル302を生成する。テスト構成要素205は、訓練済みモデルおよびテストサンプル用の特徴ベクトルを使用することによって、MLテストを実践する。テスト構成要素205は、危険因子、重要度値、および予測リスクを、予測結果303として出力する。特定のテストを実行した後、クラスタ構成要素204は、304で、複数のテスト結果に基づいて危険因子にラベル付けする。ラベルは、予測結果に対する危険因子それぞれの相対重要度を示す。所定の各時間間隔、または各回のテストに対して、システムは、305で、DBの各危険因子に対する重要度クラスタラベルを更新するように構成することができる。
図4は、例示の実施例による、危険因子管理構成要素201の詳細なフローを示している。400で、危険因子管理構成要素201は、利用可能な重要度クラスタラベルがDBに存在するかをチェックすることによって、かかるクラスタラベルへのアクセスを試みる。重要度クラスタラベルがもうデータベースにない場合(いいえ)、システムは初期特徴リスト401を得て、そうでない場合(はい)、システムは、402で、特定の基準よりも重要度が高いラベル(例えば、上位40個、または平均以上)など、重要度クラスタラベルに基づいて主要特徴を取得する。
次に、401または402で取得される特徴のタイプが特徴リスト403に入れられる。システムは、404で、特徴リストを受信するときにモデルメタデータからデータソースを獲得すること(405)によって、データソースを見つける。405でどのデータソースが必要かを見つけた後、システムは、406で、何らかの優先順位基準、例えば各サンプルと関連付けられるデータ量に基づいて、サンプル候補(例えば、患者)に優先順位を付ける。例えば、一部の患者は、総合診療記録、診療記録、および入院記録を有し、他の患者は、総合診療記録および診療記録のみを有することがあり、または追加して社会歴データを含むことがある。優先順位は、407で、患者優先順位ラベルとして出力される。次に、システムは、408で、優先順位に基づいて適切なサンプル患者データを選択する。十分な最高優先順位のサンプルがある(例えば、最高優先順位の患者の数が訓練データの必要数を満たす)場合、最高優先順位のサンプルが選択される。最高優先順位ラベルを有する十分なサンプルがない場合、次に高い優先順位のサンプルが選択される。この選択プロセスは、必要な量の訓練データが選択されるまで、最高優先順位から最低優先順位まで繰り返し実施される。次に、409で、選択された患者データおよび特徴リストが提供される。
図18~20は、例示の実施例による、いくつかの特徴を提供するデータソースの例を示している。図18は、DataA.csvという名称の例示のデータソースファイル、図19は、DataB.csvという名称の例示のデータソースファイル、図20は、DataC.csvという名称の例示のデータソースファイルである。各ファイルは、第1行にヘッダを有し、それが第2行以降のデータに関する列名を記述している。これら3つの例示のファイルでは、患者ID N00001およびN00005が全てのファイルに含まれており、それらの患者の優先順位が最も高くなっている。
図21は、406におけるデータサンプル属性の類似度に基づいて、患者の優先順位を出力する、例示のフロー図を示している。例えば、実施例において必要なデータソースの中から各患者が関与するデータ量に基づいて、優先順位が計算される場合、システムは、2100で、各患者に対するデータソースの数を計数する。次に、システムは、2101で、全ての計数値を、計数値の最大数から順に、1、2、3などの3つの優先順位レベルに分類する。
図5は、例示の実施例による、特徴ベクトルを作成するデータ処理構成要素のフロー図を示している。構成要素202は、501で、選択された患者データおよび選択された特徴リストを受信し、502で、入力された特徴リストに基づいて、入力された患者データから特徴を抽出し変換する。次に、構成要素は、503で、訓練用またはテスト用の特徴ベクトル(例えば、feature_vector.h5)を出力する。
図6は、例示の実施例による、訓練構成要素203の例示のフロー図を示している。この構成要素203は、601で、訓練用の特徴ベクトルを受信し、機械学習アルゴリズム602(例えば、線形回帰、ニューラルネットワーク、または深層学習)を使用することによって特徴ベクトルを訓練して、危険因子を最終的に予測結果として出力するように構成される、訓練済みモデル603を生成する。
図7は、例示の実施例による、テスト構成要素205の例示のフロー図を示している。この構成要素205は、訓練済みモデル701およびテスト用の特徴ベクトル702を受信し、703で、特徴ベクトルを訓練済みモデルに入力してテストを実行して、704で、予測リスク、危険因子、および重要度値を予測結果として出力する。
図8は、例示の実施例による、クラスタ構成要素204の例示のフロー図を示している。構成要素は、801で予測結果を受信し、802で、予測リスク確率、危険因子、および重要度値を含み得る複数のテスト結果を収集する。次に、803で、状況が、特定の基準を満たすテスト結果の数、または前回のクラスタ化後に経過した所定の時間間隔など、クラスタ化を実行するための特定の基準を満たす場合(はい)、構成要素204は、危険因子および重要度値を使用することによって、クラスタ化(例えば、K平均法)を開始する。次に、804で、全て危険因子に対する重要度クラスタラベルが出力される。そうでない場合(いいえ)、プロセスは、所望の実施例に応じて、終了することができるか、または803に戻って、条件が満たされるまで待機することができる。
図9は、例示の実施例による、モデルメタデータを管理する例示のデータモデルを示している。FEATURESMETA、FEATURESELEMENT、DATASOURCEELEMENT、MODELMETA、およびTESTMETAは、所望の実施例にしたがって、機械学習モデル、特徴およびテスト結果(例えば、特徴のタイプ)、特徴をRECIPEとしてどのように作成するか、データソースのタイプ、モデルパラメータおよびテスト結果を参照する、様々なメタデータを格納する。図9に示されるように、モデルメタデータは、特徴と、特徴と関連付けられたデータソースのタイプと、訓練されるモデルとの間の関係を示す。例えば、MODELMETAでは、訓練されるモデルの識別子はMODEL_IDとして指定され、FEATURES_IDによって指定される特徴セットを利用し、訓練されるモデルは、メタデータALGORITHMおよびTUNING_PARAMでそれぞれ指定されるアルゴリズムおよび調整パラメータにしたがって訓練される。次に、特徴IDを利用して、モデルを効率的に訓練するのにどのタイプのソースからどの量のデータが必要かを決定する、DATASOURCE_IDを決定することができる。
図10は、例示の実施例による、予測結果を説明する例示の表を示している。この表は、prediction_result_idとしての行識別子(ID)、Model_IDとしてのモデルID、FEATURES_IDによってとしての特徴IDセット、Test_Patient_IDとしてのテスト患者結果ID、およびReadmission_Prediction_resultとしての再通院予測リスクを有する。本明細書に記載するように、モデルは、図10に示されるような予測結果を生成するように訓練され、特徴セットは危険因子を示し、再通院予測リスクは再通院リスクスコアを示す。再通院リスクスコアは、予測結果および危険因子セットを所与として、Test Patient IDで示されるテスト患者が施設を再訪問する確率を反映するように、任意の所望の実施例にしたがって実施することができる。図11で分かるように、特徴はそれぞれ重要度値とも関連付けることができ、それをまた、図15~17のシステムを使用して、可視化のために出力することができる。
図11は、例示の実施例による、危険因子を示す例示の表を示している。この表は、Prediction_result_IDとしての予測結果ID、Feature_element_idとしての特徴要素ID、およびImportance_valueとしての各特徴の重要度値を有する。図11に示されるように、所望の予測タイプに対して、特徴と関連付けられた危険因子の関連する重要度値に基づいて、モデルを訓練することができる。本明細書に記載するように、病院が関与する例示の実施例では、特徴を、状態の予測を実施するための危険因子として利用することができ、重要度値は、かかる状態を予測するのにかかる危険因子がどの程度重要であるかを示す。重要度値は、任意の所望の実施例にしたがって導き出すことができる。
図12は、例示の実施例による、重要度クラスタラベルを示す例示の表を示している。これは、Features_idとしての特徴セットのID、Features_element_idとしての特徴要素ID、およびLabelとしての重要度クラスタラベルを有する。
図13は、例示の実施例による、特徴ベクトルを示す例示の表を示している。この表は、所望の実施例にしたがって、特徴として、Patient_IDとしての患者ID、Index_Patient_keyとしての各患者の入院IDのインデックス、Lab_test_Aとしての検査Aの結果、Frequency of med_Bとしての医薬Bの頻度などを有する。
図14は、例示の実施例による、患者優先順位ラベルを示す例示の表を示している。この表は、Patient ID、および訓練データとして選択される優先順位を示すデータ選択優先順位を有する。例えば、N00001およびN00005は、訓練データとして最も優先順位が高いデータサンプルであり、N00002、N00003、N00004は次に優先順位が高いデータサンプルであり、N00006は最も優先順位が低いデータサンプルである。
図15は、例示の実施例による、システムの別の例を示している。異なるのは、可視化構成要素1501および相互作用構成要素1504が、ハイパーテキスト転送プロトコル(HTTP)などのプロトコルを使用することによってクライアント1503がインターフェース1502を通してアクセスするアプリケーションサーバ1500に追加され、またメンテナンス構成要素1505が追加されている点である。アプリケーションサーバ1500は、図1に示されるサーバ100と同じ構成を有することができる。例示の実施例では、本明細書に記載するような訓練済みモデルが実行される場合、かかる実行は、図17に示されるように周期的にデータに対して実施することができ、所望の実施例にしたがって、可視化を適宜(例えば、周期的に)更新することができる。
図16は、例示の実施例による、例示の可視化主要フロー図を示している。可視化手順は、図17に示されるように、可視化構成要素1501によって実行される。1601で、フローは、可視化の結果を、クライアントデバイス1503に対して結果を表示するように構成される、ダッシュボードに提供する。
図17は、例示の実施例による、可視化詳細フロー図を示している。具体的には、この構成要素1501は、1701で、周期的に、患者データ、予測結果、危険因子、重要度値、および重要度クラスタラベルをデータベースから獲得し、フォーマットを変換し、ネットワーク(例えば、ウェブソケット)を通してデータをダッシュボード1601に送信する。次に、データはダッシュボード1601に表示され、所望の実施例にしたがって、HTML、Javascript、または他の方法を利用することができる。
図22は、例示の実施例による、ユーザ相互作用のフロー図を示している。構成要素1503が、このシステムからユーザ入力を受信して、重要度クラスタラベルまたは患者優先順位ラベルなどの格納データを更新すると、入力データは、1502のインターフェースを通して1500でアプリケーションサーバに送信される。相互作用構成要素1504は、2201で、受信データをメンテナンス構成要素1505に送信する。次に、メンテナンス構成要素1505は、2202で、受信データを使用することによって、DB 210の格納データを更新する。かかる格納データの更新は、重要度クラスタラベル213または患者優先順位ラベル215の更新を含むことができる。
図23は、例示の実施例による、クライアントデバイス1503の例示のダッシュボードを示している。ダッシュボードは、特徴2302の重要度値のランク2301、特徴の重要度値2303、詳細情報を開くインターフェースを提供するチェックボックス行「詳細」2304、および重要度クラスタラベルとして特徴を選択するラベルとしての入力行 2305などの情報を、主要ディスプレイに提供することができる。例えば、ラベルは最初は1を有し、ユーザが異なる値をラベル(例えば、0または1)として2305に入力する。ユーザが、2304の詳細をクリックすることによって1つの特徴を選択すると、システムはインターフェース2306を開く。このインターフェース2306は、2307に特徴のデータソースを、2308にデータ状態(例えば、訓練データにおける患者状態)を表示する。
詳細な説明のいくつかの部分は、コンピュータ内の動作のアルゴリズムおよび図式的表現に関して提示されている。これらのアルゴリズム的説明および図式的表現は、データ処理分野の当業者が技術革新の本質について他の当業者に伝達するのに使用される手段である。アルゴリズムは、所望の最終状態または結果につながる一連の規定のステップである。例示の実施例では、実施されるステップは、有形の結果を達成する有形の量の物理的操作を要する。
別段の具体的な説明がない限り、考察から明白であるように、本明細書全体を通して、「処理する」、「計算する」、「算出する」、「判定する」、「表示する」などの用語を利用した考察は、コンピュータシステムのレジスタおよびメモリ内の物理(電子)量として表されるデータを操作し、同様にコンピュータシステムのメモリもしくはレジスタまたは他の情報記憶デバイス、送信デバイス、または表示デバイス内の物理量として表される他のデータへと変換する、コンピュータシステムまたは他の情報処理デバイスの動作およびプロセスを含み得ることが認識される。
例示の実施例はまた、本明細書の動作を実施する装置に関連することがある。この装置は、求められる目的のために特別に構築されてもよく、あるいは1つもしくは複数のコンピュータプログラムによって選択的に起動または再構成される、1つもしくは複数の汎用コンピュータを含んでもよい。かかるコンピュータプログラムは、コンピュータ可読記憶媒体またはコンピュータ可読信号媒体など、コンピュータ可読媒体に記憶されてもよい。コンピュータ可読記憶媒体には、光学ディスク、磁気ディスク、読出し専用メモリ、ランダムアクセスメモリ、固体素子およびドライブ、または電子情報を記憶するのに適した他の任意のタイプの有形もしくは非一時的媒体などであるがそれらに限定されない、有形媒体が関与してもよい。コンピュータ可読信号媒体は、搬送波などの媒体を含んでもよい。本明細書に提示されるアルゴリズムおよびディスプレイは、いずれかの特定のコンピュータまたは他の装置には本質的に関連しない。コンピュータプログラムには、所望の実施例の動作を実施する命令を伴う、純粋なソフトウェア実装が関与し得る。
様々な汎用システムが、本明細書の例によるプログラムおよびモジュールとともに使用されてもよく、または所望の方法ステップを実施するのに、より専門的な装置を構築するのが便利であるとわかる。それに加えて、例示の実施例は、いかなる特定のプログラミング言語も参照せずに記載されている。本明細書に記載される例示の実施例の教示を実現するのに、様々なプログラミング言語が使用されてもよいことが認識されるであろう。プログラミング言語の命令は、1つまたは複数の処理デバイス、例えば中央処理装置(CPU)、プロセッサ、またはコントローラによって実行されてもよい。
当該分野で知られているように、上述の動作は、ハードウェア、ソフトウェア、またはソフトウェアとハードウェアの何らかの組み合わせによって実施することができる。例示の実施例の様々な態様は、回路および論理デバイス(ハードウェア)を使用して実現されてもよく、他の態様は、機械可読媒体(ソフトウェア)に記憶された命令を使用して実現されてもよく、これはプロセッサによって実行された場合、プロセッサによって方法を実施させて、本出願の実施例を実施する。更に、本出願のいくつかの例示の実施例はハードウェアだけで実施されてもよく、他の例示の実施例はソフトウェアだけで実施されてもよい。更に、記載した様々な機能は、単一の単位体で実施することができ、または無数の手法で多数の構成要素にわたって分散させることができる。ソフトウェアによって実施される場合、方法は、コンピュータ可読媒体に記憶された命令に基づいて、汎用コンピュータなどのプロセッサによって実行されてもよい。所望の場合、命令は、圧縮および/または暗号化形式で媒体に記憶することができる。
更に、本明細書を考察し、本出願の教示を実践することによって、本発明の他の実施例が当業者には明白となるであろう。記載された例示の実施例の様々な態様および/または構成要素は、単独でまたは任意の組み合わせで使用されてもよい。本明細書および例示の実施例は単なる例として考察されるものであって、本出願の真の範囲および趣旨は以下の特許請求の範囲によって示される。
100 サーバ
101 中央処理装置(CPU)
102 記憶装置
103 入力インターフェース(I/F)
104 出力インターフェース(I/F)
105 通信ネットワークインタフェース(I/F)
106 短期メモリ
107 バス

Claims (18)

  1. 第1の施設と関連付けられた第1のプライバシー保護データの訓練済みモデルを生成する方法であって、
    第2の施設と関連付けられた第2のプライバシー保護データのメタデータであって、前記第1の施設と関連付けられた前記第1のプライバシー保護データからの特徴と関連付けメタデータを決定するステップと、
    前記メタデータに基づいて、前記モデルを訓練するのに利用される、前記第1の施設と関連付けられた前記第1のプライバシー保護データのサンプルを決定するステップと、
    前記第1の施設と関連付けられた前記第1のプライバシー保護データの前記サンプルに基づいて、前記モデルを訓練するステップとを含む、方法。
  2. 前記メタデータが、前記特徴と、前記特徴と関連付けられたデータソースのタイプと、前記訓練されるモデルとの間の関係を示す、請求項1に記載の方法。
  3. 前記特徴が危険因子に基づいており、前記特徴が、前記危険因子と関連付けられた重要度に基づいて選択され、前記モデルの前記訓練が更に前記選択された特徴に基づいている、請求項1に記載の方法。
  4. 前記第1の施設と関連付けられた前記第1のプライバシー保護データの前記サンプルを決定する前記ステップが、前記第1のプライバシー保護データの量に基づいている、請求項1に記載の方法。
  5. 前記モデルが、危険因子、前記危険因子それぞれに対する重要度値、および再通院リスクスコアを出力するように訓練される、請求項1に記載の方法。
  6. 前記訓練済みモデルを前記第1のプライバシー保護データに対して周期的に実行するステップと、周期的に更新される、前記訓練済みモデルの力を含む可視化を生成するステップとを更に含む、請求項1に記載の方法。
  7. 第1の施設と関連付けられた第1のプライバシー保護データの訓練済みモデルを生成する命令を格納する、非一時的コンピュータ可読媒体であって、前記命令が、
    第2の施設と関連付けられた第2のプライバシー保護データのメタデータであって、前記第1の施設と関連付けられた前記第1のプライバシー保護データからの特徴と関連付けメタデータを決定することと、
    前記メタデータに基づいて、前記モデルを訓練するのに利用される、前記第1の施設と関連付けられた前記第1のプライバシー保護データのサンプルを決定することと、
    前記第1の施設と関連付けられた前記第1のプライバシー保護データの前記サンプルに基づいて、前記モデルを訓練することとを含む、非一時的コンピュータ可読媒体。
  8. 前記メタデータが、前記特徴と、前記特徴と関連付けられたデータソースのタイプと、前記訓練されるモデルとの間の関係を示す、請求項7に記載の非一時的コンピュータ可読媒体。
  9. 前記特徴が危険因子に基づいており、前記特徴が、前記危険因子と関連付けられた重要度に基づいて選択され、前記モデルの前記訓練が更に前記選択された特徴に基づいている、請求項7に記載の非一時的コンピュータ可読媒体。
  10. 前記第1の施設と関連付けられた前記第1のプライバシー保護データの前記サンプルの前記決定が、前記第1のプライバシー保護データの量に基づいている、請求項7に記載の非一時的コンピュータ可読媒体。
  11. 前記モデルが、危険因子、前記危険因子それぞれに対する重要度値、および再通院リスクスコアを出力するように訓練される、請求項7に記載の非一時的コンピュータ可読媒体。
  12. 前記命令が、前記訓練済みモデルを前記第1のプライバシー保護データに対して周期的に実行することと、周期的に更新される、前記訓練済みモデルの力を含む可視化を生成することとを更に含む、請求項7に記載の非一時的コンピュータ可読媒体。
  13. 第1の施設と関連付けられた第1のプライバシー保護データの訓練済みモデルを生成するように構成された装置であって、
    プロセッサを備え、該プロセッサが、
    第2の施設と関連付けられた第2のプライバシー保護データのメタデータであって、前記第1の施設と関連付けられた前記第1のプライバシー保護データからの特徴と関連付けメタデータを決定し、
    前記メタデータに基づいて、前記モデルを訓練するのに利用される、前記第1の施設と関連付けられた前記第1のプライバシー保護データのサンプルを決定し、
    前記第1の施設と関連付けられた前記第1のプライバシー保護データの前記サンプルに基づいて、前記モデルを訓練するように構成された、装置。
  14. 前記メタデータが、前記特徴と、前記特徴と関連付けられたデータソースのタイプと、前記訓練されるモデルとの間の関係を示す、請求項13に記載の装置。
  15. 前記特徴が危険因子に基づいており、前記特徴が、前記危険因子と関連付けられた重要度に基づいて選択され、前記モデルの前記訓練が更に前記選択された特徴に基づいている、請求項13に記載の装置。
  16. 前記プロセッサが、前記第1のプライバシー保護データの量に基づいて、前記第1の施設と関連付けられた前記第1のプライバシー保護データの前記サンプルを決定するように構成される、請求項13に記載の装置。
  17. 前記モデルが、危険因子、前記危険因子それぞれに対する重要度値、および再通院リスクスコアを出力するように訓練される、請求項13に記載の装置。
  18. 前記プロセッサが、前記訓練済みモデルを前記第1のプライバシー保護データに対して周期的に実行し、周期的に更新される、前記訓練済みモデルの力を含む可視化を生成するように、更に構成される、請求項13に記載の装置。
JP2020114687A 2019-07-03 2020-07-02 機械学習システムのためのデータ管理方法、装置、およびシステム Active JP6995940B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/503334 2019-07-03
US16/503,334 US11227062B2 (en) 2019-07-03 2019-07-03 Data management method, apparatus and system for machine learning system

Publications (2)

Publication Number Publication Date
JP2021012695A JP2021012695A (ja) 2021-02-04
JP6995940B2 true JP6995940B2 (ja) 2022-01-17

Family

ID=74065750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020114687A Active JP6995940B2 (ja) 2019-07-03 2020-07-02 機械学習システムのためのデータ管理方法、装置、およびシステム

Country Status (2)

Country Link
US (1) US11227062B2 (ja)
JP (1) JP6995940B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11328222B1 (en) 2019-05-10 2022-05-10 Innovium, Inc. Network switch with integrated gradient aggregation for distributed machine learning
US11057318B1 (en) * 2019-08-27 2021-07-06 Innovium, Inc. Distributed artificial intelligence extension modules for network switches
JP7088391B1 (ja) 2021-07-09 2022-06-21 トヨタ自動車株式会社 情報処理装置
US20230162053A1 (en) * 2021-11-19 2023-05-25 Equifax Inc. Machine-learning techniques for risk assessment based on clustering
CN116668095B (zh) * 2023-05-16 2024-03-29 江苏信创网安数据科技有限公司 一种网络安全智能评估方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357760A1 (en) 2016-06-10 2017-12-14 Electronics And Telecommunications Research Institute Clinical decision supporting ensemble system and clinical decision supporting method using the same

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9934361B2 (en) * 2011-09-30 2018-04-03 Univfy Inc. Method for generating healthcare-related validated prediction models from multiple sources
US20160364536A1 (en) * 2015-06-15 2016-12-15 Dascena Diagnostic support systems using machine learning techniques
US20170083926A1 (en) * 2015-09-22 2017-03-23 Homeaway, Inc. Visualizing and correlating feedback influencers
US10817781B2 (en) * 2017-04-28 2020-10-27 SparkCognition, Inc. Generation of document classifiers
EP3506315A1 (en) * 2017-12-29 2019-07-03 Atos Spain S.A. Method of using medical data related to patients suffering a given disease

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357760A1 (en) 2016-06-10 2017-12-14 Electronics And Telecommunications Research Institute Clinical decision supporting ensemble system and clinical decision supporting method using the same

Also Published As

Publication number Publication date
US11227062B2 (en) 2022-01-18
US20210004480A1 (en) 2021-01-07
JP2021012695A (ja) 2021-02-04

Similar Documents

Publication Publication Date Title
JP6995940B2 (ja) 機械学習システムのためのデータ管理方法、装置、およびシステム
US20240185993A1 (en) Multifactorical, machine-learning based prioritization framework for optimizing patient placement
JP6783887B2 (ja) 治療経路分析および管理プラットフォーム
JP6782802B2 (ja) 計算機システム、計算機システムにより実行される方法及びプログラム
Mendo et al. Machine learning in medical emergencies: a systematic review and analysis
US10534816B2 (en) Association of entity records based on supplemental temporal information
US10691827B2 (en) Cognitive systems for allocating medical data access permissions using historical correlations
US12230372B2 (en) Dynamic database updates using probabilistic determinations
US20180101657A1 (en) Medical risk factors evaluation
US10755197B2 (en) Rule-based feature engineering, model creation and hosting
US20210265063A1 (en) Recommendation system for medical opinion provider
US20220351846A1 (en) System and method for determining retention of caregivers
US11177023B2 (en) Linking entity records based on event information
US20180101652A1 (en) Medical risk factors evaluation
US20240312607A1 (en) Automated AI-Based Method And System For Dynamically Prioritizing Patients' Waiting Lists
US11301772B2 (en) Measurement, analysis and application of patient engagement
Helm et al. Adopting standard clinical descriptors for process mining case studies in healthcare
Valluripally et al. Increasing protected data accessibility for age-related cataract research using a semi-automated honest broker
Alarcon et al. Cloud-based data pipeline orchestration platform for COVID-19 evidence-based analytics
US11238955B2 (en) Single sample genetic classification via tensor motifs
CN114822857A (zh) 重复入院的预测方法、计算设备及存储介质
Murphy et al. Information Technology Systems
US11842801B2 (en) Systems and methods for guiding traversal through logic series for event chains
US20160140292A1 (en) System and method for sorting a plurality of data records
Acosta-Perez et al. Toward Real-Time Discharge Volume Predictions in Multisite Health Care Systems: Longitudinal Observational Study

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211215

R150 Certificate of patent or registration of utility model

Ref document number: 6995940

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150