[go: up one dir, main page]

TW201812646A - 分散式機器學習系統、分散式機器學習方法、以及產生代用資料之方法 - Google Patents

分散式機器學習系統、分散式機器學習方法、以及產生代用資料之方法 Download PDF

Info

Publication number
TW201812646A
TW201812646A TW106123791A TW106123791A TW201812646A TW 201812646 A TW201812646 A TW 201812646A TW 106123791 A TW106123791 A TW 106123791A TW 106123791 A TW106123791 A TW 106123791A TW 201812646 A TW201812646 A TW 201812646A
Authority
TW
Taiwan
Prior art keywords
data
model
training
private
private data
Prior art date
Application number
TW106123791A
Other languages
English (en)
Inventor
克里斯多福 塞托
史蒂芬查理斯 賓士
尼可拉斯 魏區
Original Assignee
美商南坦奧美克公司
美商南坦控股Ip有限責任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商南坦奧美克公司, 美商南坦控股Ip有限責任公司 filed Critical 美商南坦奧美克公司
Publication of TW201812646A publication Critical patent/TW201812646A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

分散式機器學習系統包括許多私人資料伺服器,每個私人資料伺服器具有本地私人資料。研究員可以要求相關的私人資料伺服器於他們的本地私人資料上訓練機器學習演算法,而無需去除辨識私人資料,也無需暴露私人資料給未授權計算系統。私人資料伺服器根據實際資料的資料分佈產生合成或代用資料。伺服器使用代用資料以訓練代用模型。當代用模型足夠相似於訓練實際模型,則代用資料、代用模型參數或其他學習知識可以被傳遞至一或多個非私人計算裝置。來自許多私人資料伺服器的學習知識可被整合為一或多個訓練全域模型,而不會暴露私人資料。

Description

分散式機器學習系統、分散式機器學習方法、以及產生代用資料之方法
本發明之領域是一種分散式機器學習技術。
背景描述包括有用於了解本發明主題的資訊,並沒有承認於此所提出的任何資訊為先前技術或相關於本發明主張之主題,亦沒有承認任何明確或隱含參考的刊物為先前技術。
隨著高度可存取和成本效益的機器學習平台近期的提升(例如Google®’s Artificial Intelligence包括TensorFlow, Amazon的 Machine Learning, Microsoft的Azure Machine Learning, OpenAI, SciKit-Learn, Matlab等等),對資料分析師來說,有大量現有的選擇以執行大資料組分析。此外,目標數據組的大小也和機器學習平台同步提升。舉例來說,雅虎(Yahoo!)已發行具有兆位元組等級的大資料組給公眾,及癌症基因圖譜(TCGA)入口網站提供大量的臨床資訊及基因特徵資料可供存取。這些預建立的資料組可使資料分析師輕易地獲得。
不幸地,當研究員於正在進行的研究中編譯資料組時,時常面臨一些難題,尤其是當正試圖建立能夠透過領域內(in-the-field)資料產生有趣預測的訓練機器學習模型。一個主要的難題是研究員時常無法存取他們所需的資料。舉例來說,考慮一種情況,一研究員希望自病患資料建立一訓練模型,病患資料儲存於多個醫院的電子醫療紀錄資料庫。研究員可能因為私人限制或健康保險可攜性和責任法案(HIPAA)的規定,而無權限存取每一醫院的病患資料。為了編譯想要的資料組,研究員必須要求來自醫院的資料。假設醫院順從要求,醫院在提供資料給研究員之前,必須去除辨識資料以移除參考至特定病患。然而,去除辨識導致在資料組中可能損失有價值的資訊,這些損失的資訊可能對於訓練機器學習演算法很有幫助,可以提供機會以發現資料中新的關係或提供有價值的預測性質。因此,由於安全性的限制,研究員可得到的資料組可能缺少資訊。顯然地,研究員可能從可擷取學習資訊或知識的技術獲益,且同樣尊重分散於多處資料的私人或安全資訊。
有趣地,和分析分散資料有關的先前努力致力於機器學習的本性,而非處理獨立、私人資料的技術議題。舉例來說,於2006年10月26日申請的Collins的美國專利7,899,225,名稱為“利用醫療影像資料以進行臨床狀態預測的系統及方法”(“Systems and Methods of Clinical State Prediction Utilizing Medical Image Data”),其敘述建立及合併統計模型以建立一最終多維度分類空間。統計模型為數學變異模型,數學變異模型定義主題可以被表示的空間。不幸地,Collins假定系統有權限以存取所有用於建立預測模型的資料。Collins未能提供見解關於在非集中式資料必須保持安全或隱私的環境。但能夠以一些方法結合訓練模型仍然是有用的。
Criminisi的美國專利8,954,365,於2012年6月21日申請,名稱為“密度估測及/或流形學習”(“Density Estimation and/or Manifold Learning”),Criminisi並非致力於結合模型的方法,而是致力於簡化一資料組。Criminisi描述降低維度技術,將未標示資料映射至較低維度的空間時,同時保有未標示資料點之間的相對距離或其他關係。雖有效於減少計算的付出,這樣的技術無法解決如何結合相依於不同的、私人的資料組的模型。
另一試圖解決資料的去除辨識的例子包括Higgins的美國專利申請公開號2014/0222349,於2014年1月15日申請,名稱為“藥物基因組學分類的系統及方法”(“System and Methods for Pharmacogenomic Classification”)。Higgins描述在去辨識吸收作用、分佈、代謝及排泄(ADME)藥物資料中,使用替代表型(surrogate phenotypes)以表示藥物基基因組的叢集(clusters)。替代表型被用以訓練學習機器(例如支持向量機) ,學習機器可以被使用於病患資料的分類。儘管Higgins根據替代表型提供建立訓練學習機器,Higgins需要存取去辨識資料以建立初始訓練組。正如先前提及,去辨識資料除去了訓練資料組中的一部分價值。
在分散式環境中,可以有許多存放私人資料的實體,無法確保可存取大量高品質的去辨識資料。當新的學習任務被啟動,且還沒有可以服務新任務的資料存在時,情況更是如此。因此,對於在分散式環境中能夠自私人資料組整合學習資訊或知識、不需在訓練開始之前對資料去辨識的學習系統,仍然存在相當大的需求。
此處所指出的所有出版物通過引用併入本文,其程度如同每個單獨的出版物或專利申請被具體地和單獨地被指出為通過引用併入。當併入的參考文獻所使用術語的定義或使用與本文提供的術語的定義不一致或相反時,本文中提供的術語的定義適用,該參考文獻中對該術語的定義不適用。
在一些實施例中,用於描述和要求保護本發明主題的某些實施方式中,表現成分的份量、性質的數字,像是濃度、反應條件等等,應被理解為在一些情況下為 “大約”。因此,在一些實施例,在說明書和所附申請專利範圍中提出的數字參數為近似值,其可以根據特定實施例試圖獲得的期望性質而變化。在一些實施例中,數字參數應該根據報導的有效位數及透過施加平常的取整數值技術被解釋。儘管闡述本發明主題一些實施例的廣泛範圍時,數值範圍和參數是近似值,但在特定例子中,所記載的數字值盡可能精確以能夠實施。本發明主題的一些實施例的數字值可能包含必然由各自測試量測中發現的標準差導致的某些誤差。
除非文意另有說明,否則於此提出的全部範圍應該被解釋為包含他們的端點,且開放式範圍應該被解釋為僅包含商業上可行的值。相似地,除非文意另有說明,否則所有值的列表應該被視為包含中間值。
除非上下文另外明確指出,否則在說明書以及隨後的申請專利範圍中所使用的“一”、“一個”和“該”的含義包括複數指代。 此外,除非上下文另有明確規定,否則此處說明書所使用“在...中”的含義包括“在...中”和“在...上”。
這裡對數值範圍的敘述僅是用作對於落入該範圍內每個單獨值的速記方法。除非有另外指出,否則每個單獨值都應併入說明書,就如同在這裡被單獨列舉一樣。除非另有指示或清楚地與上下文牴觸,否則於此描述的全部方法可以以任何適合的順序被執行。說明書實施例所提供的任何及全部例子,或例示性語言(“例如”)的使用,僅為更佳地說明本發明主題,而並非對於本發明主題所保護的範圍加以限定。說明書中的任何語言都不應被解釋為表示對本發明主題的實施必不可少的非主張專利範圍的要素。
本發明主題關於替代元件或實施例的分組不應被解釋為限制。每一群組構件可以被個別參考及主張,或和群組中其他構件或於此找出的其他元件一起被參考及主張。出於便利性及/或可專利性的原因,群組中的一或多個構件可被包含在群組中或自群組中移除。當任何這樣的包含或移除發生時,於此的說明書被視為包含修改的組,從而實現所附申請專利範圍中使用的所有馬庫西(Markush)群組之描述,。
本發明係有關於一種分散式線上機器學習電腦的裝置、系統及方法,能夠自私人資料學習資訊或得到知識,及在無法存取私人資料的同儕(peer)中分散知識,其中分散的知識不包括本地私人資料的實際私人或限制特徵。
為了本申請的目的,可以理解用詞“機器學習”是指在沒有明確地編程情況下從資料中學習的人工智慧系統。可以理解這樣的系統必須源自電腦科技,事實上,於缺少電腦科技的情況,這樣的系統不能被實施或甚至不能存在。雖然機器學習系統利用各種類型的統計分析,機器學習系統與統計分析的差別在於,機器學習系統無明確編程而具有學習能力,並且是源自於電腦科技。因此,本發明技術利用一分散式資料架構,其保留隱私權,同時還保持可學習性。與原始資料相比,交換壓縮/學習資料的協定減少了頻寬負擔。
本發之一方面包括一分散式機器學習系統。在一些實施例中,分散式機器學習系統有複數個私人資料伺服器,可能如同儕操作於一分散式計算環境。每一私人資料伺服器可存取自己的本地私人資料。系統中的其他伺服器或同儕一般而言對於其他本地私人資料缺乏許可、權限、特權、或訪問權限。此外,每一私人資料伺服器通訊耦接於一或多個非私人計算裝置,非私人計算裝置包含一全域建模引擎(modeling engine);例如集中式機器學習計算機群或一不同的私人資料伺服器。私人資料伺服器係具有一或多個處理器的計算裝置,處理器係用以執行儲存於非暫態電腦可讀取記憶體的軟體指令,執行此軟體指令以於私人資料伺服器上產生一建模引擎。建模引擎係用以根據本地私人資料產生一或多個訓練機器學習模型。進一步來說,建模引擎能夠自一或多個於網路上的遠端計算裝置接收建模指令。建模指令可視為一或多個指令,這些一或多個指令指示建模引擎根據一機器學習演算法(例如支持向量機、神經網路、決策樹、隨機森林、深度學習神經網路演算法等)之一實作,使用至少部分之本地私人資料,以建立一訓練實際模型。建模引擎在任何被要求的預處理要求條件已經符合(過濾、驗證、正規化等)之後,根據本地私人資料(例如一選擇或過濾訓練資料組)建立訓練實際模型。一旦被建立,訓練實際模型將有一或多個實際模型參數或描述訓練實際模型本質的指標(例如:準確度、準確度增益、敏感度、敏感度增益、效能測量標準、權重、學習率、時期、核心、節點數量、層數量)。建模引擎更自本地私人資料訓練組產生一或多個私人資料分佈,私人資料分佈代表用以建立訓練模型的本地私人資料的本質。建模引擎使用私人資料分佈,以產生一組代用資料(proxy data),其可以被視為具有與本地私人資料相同資料分布特徵的合成(synthetic)資料或蒙地卡羅(Monte Carlo)資料,同時也缺乏本地私人資料的實際或限制特徵。在一些例子中,藉由使用虛擬隨機數字產生器的種子,蒙地卡羅模擬產生確定性的多組代用資料。真實隨機種子的來源包括由random.org所提供的(見網址www.random.org)。本地私人資料的私人或限制特徵,包括但不限定於,社會安全號碼、病患名字、地址或任何其他個人辨識資訊,特別是在健康保險可攜性與責任法案(HIPAA Act)保護下的資訊。建模引擎藉由自這組代用資料建立訓練代用模型,嘗試驗證這組代用資料為合理的代替本地私人資料的訓練組。產生的訓練代用模型由一或多個代用模型參數描述,一或多個代用模型參數係根據和實際模型參數相同的屬性空間被定義。建模引擎根據代用模型參數及實際模型參數計算一相似分數,相似分數指出訓練實際模型和代用模型彼此有多相似。根據相似分數,建模引擎可以傳遞一或多個和訓練模型相關的資訊,可能包括這組代用資料、足夠重建代用資料的資訊、實際模型參數、代用模型參數或其他特徵。舉例來說,若模型相似滿足一相似需求(例如與一臨界值相比較等等),建模引擎可以傳遞這組代用資料至一非私人計算裝置,接著可以整合代用資料至一整合模型(aggregated model)。
本發明之另一方面包括電腦實施之尊重私人資料的分散式機器學習之方法。方法之一實施例包括一私人資料伺服器,私人資料伺服器接收複數個建模指令,以根據至少部分本地私人資料建立一訓練實際模型。舉例來說,複數個建模指令可以包括自機器學習演算法之實作建立訓練實際模型的請求。一機器學習引擎,可能執行於私人資料伺服器,繼續藉由於相關本地私人資料上訓練機器學習演算法之實作,根據複數個建模指令建立訓練實際模型。產生的訓練模型包括一或多個描述訓練模型本質的實際模型參數。此方法之另一步驟包括產生一或多個形容相關本地私人資料本質的私人資料分佈。舉例來說,私人資料分佈可以表示為高斯分佈、波式(Poisson)分佈、直方圖、機率分佈或其他型態的分佈。從私人資料分佈,機器學習引擎可以辨識或計算一或多個描述私人資料分佈本質的顯著的(salient)私人資料特徵。根據分佈的型態,例示的特徵可以包括樣本資料、均值、模式、平均、寬度、半衰期、斜率、動差(moment)、直方圖、更高階動差、或其他型態的特徵。在一些更具體的實施例中,顯著的私人資料特徵可以包括代用資料。一旦可以取得顯著特徵,機器學習引擎透過一網路傳遞顯著的私人資料特徵至非私人計算裝置;舉例來說,中央伺服器或全域建模引擎可以整合顯著私人資料特徵和其他資料組,以建立一整合模型。因此,多個私人同儕能夠在沒有暴露他們私人資料的情況下,分享他們的學習知識。
為了對本發明之上述及其他方面有更佳的瞭解,下文特舉實施例,並配合所附圖式詳細說明如下:
需要注意的是,任何針對電腦或計算裝置的語言,應該被解讀為包括計算裝置的任何適合組合,包括伺服器、介面、系統、裝置、資料庫、代理元件、同儕、引擎、控制器、模組、或個別地、共同地、合作地操作之其他型態的計算裝置。本領域具有通常知識者應該理解,計算裝置包括一或多個處理器,處理器用以執行儲存於實體的非暫態電腦可讀取儲存媒體(例如:硬碟、現場可程式化閘陣列(FPGA)、可程式化邏輯閘陣列(PLA)、可程式邏輯裝置(PLD)、固態硬碟、隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、外部硬碟、記憶棒(memory stick)等)的軟體指令。這些軟體指令具體配置或編程計算裝置,以提供以下討論所揭露裝置的角色、責任或其他功能。此外,所揭露技術可以被實施為一電腦程式產品,電腦程式產品包括儲存軟體指令的實體非暫態電腦可讀取媒體,軟體指令可以被處理器執行,以使電腦程式產品執行以下所揭露相關於以電腦為基礎的演算法的實作、過程、方法或其他指令的步驟或操作。在一些實施例中,各樣的伺服器、系統、資料庫、或介面使用標準協定或演算法交換資料,其可能根據HTTP、HTTPS、AES、公共私人金鑰交換、網站服務APIs、已知的金融交易協定、或其他電子資訊交換方法。在裝置中資料交換可以被執行於封包交換網路、網際網路、區域網路(LAN)、廣域網路(WAN)、虛擬私人網路(VPN)或其他型態的封包交換網路;電路交換網路;小區(cell)交換網路;或其他型態的網路。
在以下說明書以及申請專利範圍所使用的,當系統、引擎、伺服器、裝置、模組或其他計算元件被描述為被配置以施行或執行功能在記憶體中的資料上時,“配置以”或“編程至”的意思被定義為一或多個處理器或計算元件的核心,被一組儲存於計算元件的記憶體的軟體指令編程,以在記憶體中的目標資料或資料物件上執行這組功能。
需要理解的是,所揭露技術提供許多有利的技術效果,包括在網絡上的計算裝置之間建構通訊信道以交換機器學習資料,同時尊重基礎原始資料的資料隱私。計算裝置能夠在不包含個人隱私的情況下,彼此間交換“學到的”資訊或知識。更具體地說,所揭露的私人資料伺服器透過基於電腦實現的一或多個機器學習演算法,嘗試自動“學習”本地私人資料,而非傳遞私人或安全資料至遠端計算裝置。學習到的資訊接著可和其他缺乏存取私人資料權限的電腦交換。此外應該理解,技術效果包括自分散式私人資料及它們對應的資料分佈,計算地建置訓練代用模型。
本發明之重點在於使計算裝置之建置與配置能夠在超出人類能力的巨大數量資料上進行操作。儘管數位資料典型地代表各方面的病患資料,需注意的是,數位資料是一或多個病患的數位模型,而非病患本身。藉由在計算裝置中的記憶體中實例化這樣的數位模型,計算裝置能夠以這樣的方式管理數位資料或模型,此方式提供計算裝置的使用者在沒有這樣工具下會缺少的效用,特別是在分散式線上機器學習系統中。因此,本發明主題在計算裝置無法存取私人資料的環境中,改善或優化分散式機器學習。
以下討論提供本發明主題之許多實施例。儘管每一實施例代表發明元件之一單一結合,但發明主題被視為包括已揭露元件之全部可能組合。因此,若一實施例包含元件A、B及C,及一第二實施例包含元件B及D,則本發明主題,儘管未明確地揭露,但被視為包括A、B、C及D之其他剩下的組合。
除非上下文指出,否則,正如在此所使用的,“耦合”意旨包括直接耦合(例如兩互相耦合之元件彼此接觸)及間接耦合(例如至少一額外元件位於此兩元件之間)。因此,“耦合”及“耦接”被同義地使用。
以下討論之呈現來自一醫療觀點,特別是關於從關於癌症病患的基因體序列資料建立訓練機器學習模型。然而,完全可以預期的是,在此所述之架構可以適用於腫瘤學之外的其他形式的研究,並且可以在原始資料被保護或被認為是私密的任何地方被利用;例如:保險資料、財務資料、社交媒體概況資料、人力資本資料、專屬實驗資料、遊戲或賭博資料、軍事資料、網路交通資料、購物或行銷資料、或其他型態的資料。
舉例來說,於此呈現的技術可以被用於“學習即服務”(learning as a service)商業模型的一部分。在此型態的商業模型中,具有私人資料(例如醫療資料、基因資料、企業資料等)的組織可以產生機器學習模型(例如訓練實際模型、訓練代用模型等)及其他學習到的資訊,並且可以允許其他群眾(例如創業者、其他機構、其他公司等)付費使用這些模型,以分析他們自己的資料或研究本地資料。舉例來說,在醫療機構中,可以分析從特定醫療機構的患者收集的資料,使用機器學習以建立訓練實際模型及/或訓練代用模型。不同醫療機構或公司的研究員、資料分析師或其他企業家可以付費(例如一次性費用、訂閱等)以存取模型,例如分析他們自己的資料或研究本地資料。因此,在此例中,根據相對於系統100的內部資料而產生機器學習模型,並且此機器學習模型可以用於分類相對於系統100的外部資料。
在其他實施例中,提供機器學習服務的組織可以收取費用,以分析由第三方提供的資料。此例中,不同醫療機構的研究人員、資料分析師或其他企業家可以付費以提供資料,此資料相似於本地私人資料,且此資料可以被個別分析或可以與本地私人資料結合,以產生機器學習模型(例如訓練實際模型或訓練代用模型)以及其他學習到的資訊,此資訊可以被用來分析由第三方所提供的後續資料組。因此在此例中,根據相對於系統100的外部資料產生機器學習模型,並且此機器學習模型可以用於分類相對於系統100的額外外部資料。
這些形態的“學習即服務”模型的可以適用的其他產業包括但不限定於:遊戲資料、軍事資料、網路交通/安全資料、軟體執行資料、模擬資料等。
機器學習演算法建立根據被觀察資料以形成結論的模型。對於監督式的學習,訓練資料組被送入機器學習演算法。在這裡,藉由提供輸入及已知輸出作為訓練資料,機器學習系統可以根據此訓練資料建立模型。因此,機器學習演算法產生映射輸入至輸出的映射函數(mapping function)。
在其他實施例,對於非監督式的學習,資料組被送入機器學習系統,機器學習系統根據資料點的叢集分析資料。在此型態的分析,資料潛在的結構或分佈被用來產生模型,模型反映資料的分佈或結構。此型態的分析頻繁地被用來偵測相似性(例如兩影像是否相同),辨識異常值/離群值(anomalies/outliers),或偵測在一組資料的模式(pattern)。
半監督模型(前兩種方法的混合)利用監督模型和非監督模型分析資料。
機器學習模型根據輸入(在沒有已知輸出或答案的情況下)預測輸出(使用分類法或迴歸法)。預測可能牽涉映射數入至類別(例如分析影像以判斷影像的特徵是否存在)。在此型態的分析,輸出變數採用類別標籤的形式,辨識群組成員。因此,此方法可以被用來選擇類別(例如根據影像是否包含指定的特徵)。
迴歸(Regression)分析法試圖使迴歸線與用以產生線的資料點之間的誤差最小化。在這裡,輸出變數採用連續變數(例如線)的形式,以預測連續響應。因此,迴歸法可以被用來分析數據資料。這些技術被更加完整地描述如下。需注意的是,迴歸分析法可以根據研究工作的需求,發生於一或多個相關維度。
第1圖係例示性分散式機器學習系統100的示意圖。系統100被配置為以電腦為基礎的研究工具,允許多個研究員或資料分析家自許多私人或安全資料來源建立訓練機器學習模型,這些私人或安全資料源是研究員在一般的情況下無法得到允許或不具有權限存取的。在所示的例子中,研究員得到允許存取以非私人計算裝置130表示的中央機器學習中心,非私人計算裝置130可能作為全域建模引擎136執行。非私人計算裝置130可以包括一或多個提供分散式機器學習服務給研究員的全域模型伺服器(例如雲端、軟體即服務(SaaS)、 平台即服務(PaaS)、基礎結構即服務(IaaS)、 學習即服務(LaaS)、電腦群(farm)等)。然而,研究員感興趣的資料位於通過網路115的一或多個實體120A到120N的一或多個私人資料伺服器124A、124B到124N(以下統稱為私人資料伺服器124),網路115例如為無線網路、內部網路、蜂巢式網路、封包交換網路、隨意(ad-hoc)網路、網際網路、廣域網路(WAN)、虛擬私人網路(VPN)、區域網路(LAN)、點對點通訊網路(P2P)等,網路115可以包括任何上述網路的組合。這些實體包括醫院120A、診所120B、實驗室120N(以下統稱為實體120)。每一個實體120可以存取它自己的本地私人資料122A到122N(以下統稱為私人資料122),私人資料122可儲存在本地儲存設備(例如硬碟冗餘陣列(RAID)系統、檔案伺服器、網路附加儲存(NAS)、儲存區域網路(SAN)、網路可存取儲存裝置、儲存區域網路裝置、本地電腦可讀取記憶體、硬碟、光學儲存裝置、磁碟、磁帶庫、固態硬碟等)。此外,每一私人資料伺服器124可以包括一或多個BAM伺服器、SAM伺服器、GAR伺服器、BAMBAM伺服器,或甚至臨床操作系統伺服器。每一私人資料伺服器124可以存取它自己的本地私人資料122及具有至少其中之一建模引擎126。為討論方便起見,每一私人資料伺服器120被視為透過網路115通訊耦接至非私人計算裝置130。
每一組私人資料122被視為對其對應的實體120係私人的。在這個考慮之下,應當理解其他實體120以及訪問由非私人計算裝置130提供的建模服務的研究人員,沒有權利、許可或其他權限以存取另一個私人資料122。為了要更清楚地理解,用詞“私人”及“非私人”係相對的語詞,係在描述在各樣實體及他們對應的資料組中的關係。舉例來說,在診所120B的私人資料伺服器124B可以存取它的本地私人資料122B,但不能存取另外的私人資料,例如在實驗室120N的私人資料122N或在醫院120A的私人資料122A。在其他實施例中,私人資料伺服器124N可以被視為相對於其他實體的非私人計算裝置130。在各種私人資料伺服器124能夠通過網絡115直接通信的實施例中,這樣的考慮特別地重要,私人資料伺服器124可能以點對點(peer-to-peer)的方式或透過隸屬關係(affiliation)通訊,而非透過中央設備。舉例來說,若一醫療機構有多重位置及/或隸屬關係,例如主要的醫院、醫生辦公室、診所、次級醫院、醫院隸屬機構,則這些實體的每一個可以有它們自己的私人資料122、私人資料伺服器124及建模引擎126,其全部都可以對彼此可見,但不對不同的實體可見。
考慮到系統本質以及每一實體120必須保持它的私人資料122安全的要求,研究員很難獲得大量的高品質資料,這些資料係欲建立理想的訓練機器學習模型所必須的。更具體地說,研究員將必須從具有感興趣的私人資料122的每一實體120獲得授權。此外,由於各種限制(例如隱私政策、法規、HIPAA等) ,每一實體120可能不被允許向研究員提供所請求的資料。儘管在研究員能自全部的實體120獲得允許以獲得相關私人資料122的假設下,實體120將仍然必須對這些資料組去辨識(de-identification)。這樣的去辨識可能是有問題的,因為對資料去辨識需要花費時間,且會造成資訊損失,,其可能影響研究員自訓練機器學習模型獲取知識的能力。
在第1圖中呈現的生態系統/系統,通過關注從經過訓練的機器學習演算法獲得的知識而不是原始資料本身,解決與私人資料122的隱私限制相關聯的問題。研究員能夠定義他/她希望建立的機器學習模型,而非要求來自每一實體120的原始資料。研究員可經由以下方式與系統100溝通:經由非私人計算裝置130;經由其中之一私人資料伺服器124(假設研究員已被賦予可以存取私人資料伺服器);或經由系統100外部可與非私人計算裝置130溝通的裝置。隨後將關於如何創建期望的模型的可編程建模指令提交給每個相關的私人資料伺服器124,其也具有對應的建模引擎126(即126A到126N)。每一本地建模引擎126存取它自己的本地私人資料122,並根據研究員所建立的建模指令,建立本地訓練模型。當每一建模引擎126得到新的學習資訊時,一旦滿足傳輸條件,將新知識傳回在非私人計算裝置130的研究員。新的知識可以透過全域建模引擎136被整合至訓練全域模型。知識的例子包括(見第2圖)但不限於:代用資料260、訓練實際模型240、訓練代用模型270、代用模型參數、模型相似分數、或其他型態已經被去辨識的資料。在一些實施例中,全域模型伺服器130在結合資訊之前,分析多組代用相關資訊(包括例如代用資料260、代用資料分佈362、代用模型參數475、其他結合種子的代用相關資料等),以判斷自其中之一的私人資料伺服器124的代用相關資訊與自另一個私人資料伺服器124的代用相關資訊是否具有相同的形狀及/或整體性質。不相似的代用相關資訊可能被標記為手動審查,以確定底層的私人資料分佈組是否損壞、是否具有缺失的資料或是否包含大量的異常值。在一些實施例中,被視作異常值的私人病患資料被忽視及不被包括在於此已揭露的技術中。舉例來說,可以使用單類別(one-class)支持向量機(support vector machine, SVM)來識別可能與核心相關資料不一致的異常值。在一些實施例中,單類別SVM根據興趣相似資料被外部同儕(例如非私人計算裝置130等)建構。此單類別SVM可以被傳遞至私人資料伺服器124。私人資料伺服器124可以使用外部產生的單類別SVM,以確認感興趣的本地資料係確實和感興趣的外部資料一致。
因此,代用資料可被視為原始資料轉換至保留原始資料特徵的不同形式資料。
私人資料伺服器124可持續獲得新的私人資料122,例如當測試結果變為可得到的、當做出新的診斷、當新的病患被加入至系統等。對於相對小的資料組來說,代用資料260或其他代用相關資訊可以透過全部或近乎全部儲存的私人資料被重新產生。對於較大的資料組來說,代用資料可以僅透過新增的資料而重新產生。新的資料可透過時間標記、儲存位置、地理標記、區塊鏈雜湊(blockchain hashes)等被辨識。
在其他實施例中,新的私人資料為即時或近乎即時地被加入至機器學習系統。因此,一旦新的私人資料為可得到的,其可以被整合至訓練實際模型及訓練代用模型。在一些實施例中,機器學習模型不斷地被更新,例如用全部可得到的私人資料(舊的及新增的私人資料)或僅新增的私人資料。此外,因為沒有設定管理機器學習模型更新的時間框架,因此某些機器學習模型每天更新,而其他模型每年更新,甚至更長時間更新。這種靈活性與傳統的機器學習模型形成對比,傳統的機器學習模型依賴於所有資料的大量處理以及隨之而來的訓練和測試循環。
在一些實施例中,每一私人資料伺服器124接收關於如何創建期望模型的相同的可編程建模指令230。在其他實施例中,一私人資料伺服器可接收第一組可編程建模指令,以建立一第一模型,另一私人資料伺服器可接收第二組可編程建模指令,以建立一第二模型。因此,被提供至每一私人資料伺服器124的可編程建模指令可能相同或不同。
當代用資料260被產生及被傳遞至全域模型伺服器130時,全域模型伺服器整合資料及產生一更新的全域模型。一旦全域模型被更新,可以判斷更新的全域模型是否改善先前版本的全域模型。若更新的全域模型已改善(例如預測的準確度已改善),新的參數可透過更新的建模指令230被提供至私人資料伺服器。在私人伺服器124,可以評估訓練實際模型的效能(例如模型已改善或更差),以判斷由更新的全域模型提供的建模指令是否產生較佳的訓練實際模型。多個版本的機器學習模型相關的參數可被儲存,因此若有需要的話,可以於稍晚取回較早的機器學習模型。
在其他實施例中,私人資料伺服器124可能自一同儕私人資料伺服器(不同的私人資料伺服器124)接收代用相關資訊(包括例如代用資料260、代用資料分佈362、代用模型參數475、其他結合種子的代用相關資料等)。私人資料伺服器可根據它自己的本地私人資料,或根據它自己的本地私人資料及自同儕私人資料伺服器所接收的代用相關資訊,以產生模型。若資料組經組合後的預測準確度改善,則資料組或學習知識被組合。
在一些實施例中,資訊(例如機器學習模型,包括訓練代用模型、訓練實際模型、私人資料分佈、合成/代用資料分佈、實際模型參數、代用模型參數、相似分數或任何其他於機器學習過程產生的資訊等)可以被地理標記(相關於過程發生地點的位置或其他識別符號)、被時間標記、或被整合至區塊鏈,以歸檔研究(同樣可見US20150332283)。區塊鏈可能被配置為特定於樣本的審計跟蹤,在此例中,區塊鏈實例化為單個樣本的單獨獨立鏈,並表示樣本的生命週期或審計跟蹤。此外,系統可以用非同步的方法連續接收新的資料,地理標記可以幫助管理新資訊的流入(例如,對於新增的診所,全部被地理標記為來自該診所的資料將會被整合至機器學習系統)。可以預期任何型態的資料皆可以被地理標記。
第2圖繪示實體220中的包括私人資料伺服器224的架構,以及相關的機器學習活動的示意圖。第2圖從私人資料伺服器224如何與遠端計算裝置和私人資料222互動揭示了進步性概念。在更多較佳的實施例中,私人資料222包含本地私人醫療資料,或更具體地包括病患特定資料(例如名字、SSN、正常WGS、腫瘤WGS、基因體差異指令物件、病患識別符號等)。實體220通常是具有私人本地原始資料並受到前述限制的機構。實體的範例包括醫院、實驗室、診所、藥局、保險公司、腫瘤專科醫師辦公室、或其他具有本地儲存資料的實體。私人資料伺服器224代表本地伺服器,通常位於實體220的防火牆之後。私人資料伺服器224可實作為具有一或多個處理器297的電腦,可配置以執行儲存於記憶體290的軟體指令293。可用於本發明主題的示例伺服器包括Linux®伺服器、Windows®伺服器、或其他伺服器。
私人資料伺服器224代表實體220的利益相關者提供對私人資料222的存取權限。在更多較佳的實施例中,私人資料伺服器224代表特定病患資料的一本地快取,特別是大規模的資料組。舉例來說,一病患可能會經歷各樣的對於癌症的治療或參與一臨床試驗。在這樣的情境下,病患的資料可以包括一或多個基因體序列組,其中每一資料組可能包括數百個十億位元組(GB)的資料。若有許多病患,全部的資料組可以有許多太位元組(TB)或更多。示例的基因體序列資料組可以包括全基因體序列(WGS)、RNA-序列資料、全胞外體序列(WES) 、蛋白質體資料、組織間的差異(例如:疾病對匹配常態、腫瘤對匹配常態、一病患對另一病患等)或其他大資料組。再者,一病患在檔案中可以有超過一基因體資料組;一腫瘤WGS和一匹配正常的WGS。特別感興趣的一資料組包括腫瘤序列以及匹配常態之間的基因體差異,有時被參考作“基因差異物件”。這樣的基因差異物件及其生成被更完整地描述於分別於2011年5月25日及2011年11月18日提申的Sanborn的美國專利案號No.9,652,587及美國專利案號No.9,646,134,兩者名稱皆為“BAMBAM:Parallel comparative Analysis of High Throughput Sequencing Data”。另一形態的資料包括來自患者樣品推斷的蛋白質組途徑(proteomic pathways),描述於分別於2011年4月29日及2011年10月26日提申的Vaske的美國專利申請公開2012/0041683及2012/0158391,兩者的名稱皆為“Pathway Recognition Algorithm Using Data Integration on Genomic Models (Paradigm)”。
透過私人資料伺服器220提供如此大資料組的本地快取,在許多理由上被視為有利的。這些資料組具有這樣的大小,以至於不能輕易地依需要或在需要時被取得。舉例來說,帶有50x讀取的病患的全WGS可以包含大約150GB的資料。再加上病患的腫瘤的相似WGS,資料組可以輕易地超過300GB的資料。這是假設僅有單腫瘤WGS及單常態WGS。若有在不同的腫瘤位置或在不同的時間所採集的多重樣本,就一病患而言,資料組可輕易地超過1TB的資料。當即時治療病患時,下載這樣大資料組或遠端地存取這些資料組的時間遠遠超過迫切的需求。因此,病患及其他利害關係人藉由具有病患資料的本地快取而被最佳地服務。再者,當病患移動或以其他形式關聯於各個實體時,即時移動資料是不切實際的。作為提供快取資料的替代方案,對於可能不適合快取的大資料組,可以使用模擬私人資料的迷你蒙地卡羅(mini Monte Carlo)模擬。這些類型的模擬通常利用種子,允許根據種子及虛擬隨機數字產生器,以確定性的方式利用蒙地卡羅模擬而產生合成的私人資料。一旦識別出以最小限度的資料修正來產生較佳數量合成私人資料的種子,則該種子可以被提供至任何私人資料伺服器124,其可以使用相同的虛擬隨機數字產生器及其他演算法,而被用以再次產生合成私人資料。可以分析合成資料以確保其不包含應該保持隱私的辨識特徵。
在所示的例子中,軟體指令293引起建模引擎226的能力或功能。建模引擎226使用私人資料222以訓練一或多個機器學習演算法295的實作。機器學習演算法的實作的示例來源包括sci-kit 學習、包括SciKit-Learn、Google®’s Artificial Intelligence包括 TensorFlow™、 OpenAI™、Prediction IO™、Shogun™、WEKA、或Mahout™、 Matlab、Amazon’s Machine Learning、Microsoft’s Azure Machine Learning、 及SciKit-Learn,僅列舉部分範例。描繪於建模引擎226內的各樣元件代表資料的交互作用及在建模引擎226內的各樣功能性模組。因此,建模引擎226被視作本地代理元件,用以提供一介面至私人資料222及一管道,遠端的研究員可經由網路215通過此管道在建模引擎226內建立本地訓練模型。毫無疑問地,建模引擎226為一轉換模組,其轉換本地私人資料222為相關於資料的知識,此知識可以在沒有包含隱私的情況下被外部計算裝置使用。知識可以包括機器學習系統產生的任何已經被去辨識的資訊。
私人資料伺服器224可具有許多不同的形式。在一些實施例中,私人資料伺服器224為被整合於實體220的資訊科技基礎架構內的計算裝置,例如是具有自己的儲存系統以儲存私人資料222的專用伺服器。在私人資料222涉及實體220外部的特定研究項目的大型資料組的情況下,這樣的方法被認為是有利的。例如,裝置可以儲存與政府或臨床研究高度相關的患者資料。。在其他實施例,私人資料伺服器224可以包括由實體220的資訊科技部門擁有及操作的一或多個伺服器,其中伺服器包括可以部署在實體220的伺服器上的附加軟體建模引擎應用。
在所示的例子中,私人資料伺服器224被描繪為一計算裝置,可以被配置為通過網路215通訊。為了討論的目的,網路215被視為網際網路。然而,網路215也可以包括其他形式的網路,網路包括虛擬私人網路(VPNs)、內部網路、廣域網路(WAN) 、點對點網路(P2P)、蜂巢式網路或其他形式的網路。私人資料伺服器224係可被配置為使用一或多個協定,以建立和遠端裝置的聯繫。可以利用以下示例性的協定來進行這樣的通信,包括HTTP、HTTPS、SSL、SSH、TCP/IP、UDP/IP、FTP、SCP、WSDL、SOAP或其他型態知名的協定。可以理解的是,儘管可以利用這樣的協定,但可預期在生態系統/系統中裝置之間的資料交換將更能被包裝以便於計算裝置傳輸及使用。舉例來說,在系統中各樣的資料元件交換(例如建模指令230、代用資料260等)可以透過一或多個標記語言(例如XML、YAML、JSON等)或其他檔案格式(例如HDF5等)被包裝。
在一些實施例中,私人資料伺服器224將會被配置於網路安全架構的後面;例如防火牆。在這些例子中,除非適合的網路位址轉換(NAT)埠已經在防火牆被建立,否則遠端計算裝置將可能無法和私人資料伺服器224建立連結。然而,一較佳的方法可能是透過建模引擎226來配置私人資料伺服器224,以穿過防火牆並與中央建模伺服器(例如第1圖的非私人計算裝置130)建立通訊連結。此方法因為不需要修改防火牆,所以是有利的。再者,透過加密(例如HTTPS、SSL、SSH、AES等)通訊連結可以為安全的。
建模引擎226代表操作於私人資料伺服器224的一代理元件及可以被配置以建立訓練機器學習模型。在一些實施例中,建模引擎226可以在專用於特定研究任務的安全虛擬機或安全容器(container)內運行,這允許多個不同的研究人員並行工作,同時還確保每個研究人員的努力彼此保持安全。舉例來說,建模引擎226可以透過一Docker®容器被實施,其中每一研究員將具有於私人資料伺服器224上運行的他們自己的建模引擎226的單獨實例(instance)。在其他實施例中,建模引擎226可以被建構至同時處理多個會話(session),其中每一會話可以被實施為在私人資料伺服器224的作業系統(例如Linux、Windows等)內的單獨執行緒(thread) 。
一旦通訊連結在私人資料伺服器224及一或多個遠端非私人計算裝置之間被建立,建模引擎226即已準備好提供它的服務至外部實體;例如研究員。建模引擎226接收一或多個建模指令230,且建模指令230指示建模引擎226根據至少一些私人資料222,建立一訓練實際模型240。舉例來說,在一些實施例中,例如神經網路,輸入及其他配置參數可以由建模指令提供,以及由機器學習系統決定每一輸出的權重。訓練實際模型240為一訓練機器學習模型,且其係自機器學習演算法295所訓練出的。在訓練完成之後,訓練實際模型240包含一或多個訓練模型參數245。
建模引擎226接收複數個建模指令,以根據機器學習演算法295之一實作,從至少部分之本地私人資料222建立一訓練實際模型240。建模指令230代表許多可能機制,通過該機制,可以將建模引擎226配置以從私人資料222得到知識,並且建模指令230可以包括在實體200內生成的本地命令、通過網路215發送的遠端命令、可執行檔案、協定命令、自選擇目錄中的選擇命令或其他型態的指令。建模指令230可以視期望實作而大大地變化。在一些例子中,建模指令230可以包括流線式(stream-lined)指令,其可能以腳本(例如Python、Ruby、JavaScript等)的形式通知建模引擎226如何建立期望的訓練模型。此外,建模指令可以包括資料過濾器或資料選擇準則,其定義從私人資料222建立的期望結果組的要求,以及要使用哪個機器學習演算法295。考慮一情況,一研究員希望根據支持向量機(SVM) 考慮在病患腫瘤序列及病患的匹配常態序列之間的特定基因體差異,而研究哪些病患對於各種藥物為反應者(responder)或非反應者。對於這樣一例子的建模指令230,可能透過XML或HDF5而封裝,且可以包括自私人資料222選出的資料的要求、辨識的藥物、基因體差異物件的參考、反應對比非反應的指示等。建模指令230也可以包括對於期望的SVM的一特定參考,其可能係透過一識別符號 (例如數字、名字、總體通用識別(GUID)等)及版本數字,或甚至準備使建模引擎260執行的SVM的一預封裝實作。
在一些實施例中,用以蒐集元資料(metadata)的應用程式可以掃描私人資料,以決定儲存於私人資料儲存庫的資料的型態。舉例來說,這個應用程式可以掃描檔案儲存庫,以辨識存在的檔案的型態(例如辨識特定程式之副檔名以指示可取得特定型態的資料,根據命名傳統掃描檔案名稱以指示可取得的資料型態等)。在其他實施例中,應用程式可與資料庫溝通,以查詢可獲得的資料型態,又或者,資料庫可被配置以送出反應可獲得資料型態的報告至全域模型伺服器130。一旦可取得元資料(反映私人資料)的描述,建模指令可以被配置為參考私人資料,由此提供關於機器學習系統輸入選擇的指示。在研究員的查詢為持續且連續更新的例子中,例如以週期性區間更新,系統可以被配置以辨識元資料 ,以判斷關鍵參數是否存在,並產生及傳送對應由研究員設立的查詢的建模指令。在其他例子中,對於新的查詢,研究員可能以手工或半自動的方法產生建模指令。對新的查詢來說,系統可能被配置以提供關於分析資料型態的推薦,以產生這些新的查詢的建模指令。
自每一私人資料伺服器的元資料可以被提供至全域模型伺服器。元資料回傳屬性空間(而不是原始或私人資料) 。根據這個資訊,產生機器學習任務的研究員可以配置特別私人資料伺服器的建模指令,以分析特別的一組私人資料。
在一些實施例中,私人資料伺服器可能辨識出模型準確度為低的,可能要求全域模型伺服器額外的更新。使用全域建模引擎的全域模型伺服器整合來自不同的位置的資料至一全域模型。舉例來說,若一改善的癌症存活模型被要求,且相同型態的資料並非可獲得的,則來自不同組織型態的資料可能被結合,以改善癌症存活模型的預測準確度。
建模指令230呈現更複雜的本質是可能的。更具體來說,建模指令230可以為獨立的,其中可包括完整的建模封裝,其包括專門配置為與本地資料庫溝通的查詢引擎(例如SQL、NoSQL等)、機器學習演算法295的預編譯(例如物件碼、位元組代碼等)實作、用於管理結果模型的規則等等諸如此類的。這樣的方法可以透過封裝及可傳送的容器被實施。更應該值得注意且需要完整的考慮的是,建模指令230也可以在從簡單配置至呈現的更複雜配置的光譜之間變化。因此,建模指令230可以包括自本地電腦所接收的本地命令、通過網路215接收來自電腦(例如同儕資料伺服器或全域模型伺服器)的遠端命令、可執行的檔案、協定命令、自選擇目錄中的選擇命令、遠端程序呼叫或其他型態的指令。
建模引擎226利用來自建模指令230的資料選擇條件,以從私人資料222建立結果組,其可能透過提交查詢至儲存於私人資料222的資料庫。舉例來說,此查詢可以包括從建模指令230中的需求正確地格式化的SQL查詢 ,以存取或取回儲存於私人資料222的屬性或表格。依據資料選擇條件的本質,此結果組可以與私人資料222相同,或可以是私人資料222的子集合。此結果組成為訓練實際模型240的訓練資料。換句話說,此結果組可被用以訓練實際模型240。在醫療的範疇中,結果組包括病患資料,病患資料可以再包括一或多個以下病患特定的資訊:症狀、測試、測試結果、提供者名稱、病患名稱、年齡、地址、診斷、CPT碼、ICD碼、DSM碼、關係或其他用於描述病患的資訊。需要注意的是,由於機器學習演算法操作於本地私人資料,結果組不需要預處理去辨識的步驟以淨化(sanitize)資料。此揭露的方法被認為優於先前的方法,因為保留病患特定資訊允許建模引擎226從訓練實際模型240獲得可能在其他方法中丟失的知識,而。舉例來說,若病患名稱在分析之前被建模引擎226移除,則相關的家族歷史可能無法被整合至實際模型240作為預測參數。
建模引擎226根據代表至少部分私人資料222的結果組,建立訓練實際模型240。這可以透過建模引擎226訓練在私人資料222結果組上的機器學習演算法295的期望實作而被完成。有鑑於期望的機器學習演算法295可以包括各樣可能的演算法,建模指令230可以包括定義訓練發生條件的指令。舉例來說,條件可以包括疊代次數或執行訓練資料組的時期數、學習率、收斂要求、訓練的時間限制、初始條件、敏感度、特定性、或其他型態的被要求或選擇的條件。收斂要求可以包括像“改變率”這樣的第一階微分、像“加速度”這樣的第二階微分、或更高階對時間的微分、或甚至在資料屬性空間中其他維度的更高階微分等。
機器學習演算法295可以包括相當多的不同類型的演算法的實作,包括分類演算法、神經網路演算法、迴歸演算法、決策樹演算法、叢集演算法、基因演算法、監督學習演算法、半監督學習演算法、無監督學習演算法、深度學習演算法、或其他型態的演算法。具體而言,機器學習演算法295可以包括一或多個以下演算法的實作:支持向量機、決策樹、、最近鄰點演算法、隨機森林、山脊迴歸、拉索(Lasso)演算法、k-means分群演算法、提昇(boosting)演算法、光譜叢集演算法、均數位移叢集演算法、非負矩陣因式分解演算法、彈性網演算法、貝氏分類器演算法、隨機抽樣一致性(RANSAC)演算法、正交匹配追蹤演算法、複式抽樣整合(bootstrap aggregating)、時間性差異學習、反向傳播、線上機器學習、Q-學習、隨機梯度下降法、最小平方迴歸法、邏輯斯迴歸法、一般最小平方法(OLSR)、線性迴歸法、步進式迴歸法、多變量可適性迴歸樣條(MARS)、本地的估計散點圖平滑(LOESS)整體方法、叢集演算法、重心基礎演算法、主成份分析(PCA)、奇異值分解、獨立元件分析、k最近鄰點(kNN)、學習向量量子化(LVQ)、自我組織映射圖(SOM)、本地權重學習(LWL)、先驗模型(apriori)演算法、Eclat演算法、規則化演算法、山脊迴歸、最小絕對收縮及選擇運算子(LASSO)、彈性網、分類及迴歸樹(CART)、疊代二分3(ID3)、C4.5及C5.0、卡方自動互動偵測(CHAID)、決策樹樁、M5、有條件的決策樹、最小角度迴歸法(LARS)、單純貝氏分類法、高斯單純貝氏分類法、多項式單純貝氏分類法、平均一相依估計式(AODE)、貝式信賴網路(BBN)、貝式網路(BN)、k-中位數(k-medians)、期望值最大化、階層分群法、感知反向傳遞、賀普菲爾德(Hopfield)網路、放射基礎方程式網路(RBFN)、深度波茲曼機器(DBM)、深度信賴網路(DBN)、迴旋神經網路(CNN)、堆疊自動編碼器、主成份迴歸法(PCR)、部分最小平方迴歸法(PLSR)、SAMMON映射、多維標度法(MDS)、投射追蹤、線性判別式分析法(LDA)、混合物判別式分析法(MDA)、平方判別式分析法(QDA)、彈性判別式分析法(FDA)、拔靴整合(封袋)、自適應增強(Adaboost)、層疊泛化(混合)、梯度促進機(GBM)、梯度促進迴歸樹(GBRT)、隨機森林、或甚至還未發明出的演算法。訓練可能為監督式的、半監督式的、或非監督式的。在一些實施例中,機器學習系統可使用自然語言過程(NPL)以分析資料(例如音訊資料、文字資料等)。一旦被訓練,訓練實際模型240代表已經學習到的東西,或者更確切的說是提交機器學習工作的研究人員所期望的從私人資料222獲得的知識。訓練實際模型240可以被視作被動模型或主動模型。被動模型代表最後、完整而沒有進一步工作要執行的模型。主動模型代表動態的及可以根據各樣情況被更新的模型。在一些實施例中,訓練實際模型240即時被更新,每天、每週、雙月、每月、每季或每年。當新的資訊可獲得(例如更新建模指令230、時間位移、新的或更正的私人資料222等),主動模型將會進一步地更新。在這些例子中,主動模型帶有描述關於模型更新狀態的元資料。元資料可以包括描述一或多個以下所述的屬性:版本數字、資料更新、用以更新的新資料量、模型參數的位移、收斂要求、或其他資訊。這樣的資訊提供了隨著時間管理大型模型集合的方法,其中每一主動模型可以被視為獨特的可管理的物件。
訓練實際模型240使用的詞“實際”(actual)以闡明其是在真實資料上被訓練,真實資料還未被去辨識,視為從私人資料222得到的實際資料。此對比於以下將進一步討論的訓練代用模型270,其為訓練於代用資料260上,代用資料260可被視作模擬資料。
訓練實際模型240包含多個有興趣的點。首先,儘管未顯示出來,但訓練實際模型240可以包括正如先前所討論的,描述訓練模型本質的元資料。第二,訓練實際模型240多個參數,以實際模型參數245表示。實際模型參數245是當訓練實際模型240在實際資料上操作時用於預測目的的特定值。因此,實際模型參數245可以被視作從訓練實際模型240(從私人資料222建立的)所獲得知識的抽象代表。當實際模型參數245被封裝及被傳遞至遠端非私人計算裝置或至同儕的私人資料伺服器時,遠端非私人裝置或同儕計算裝置可以基於在遠端計算裝置本地端的參數,不需要訪問私人資料222,而實例化(instantiate)訓練實際模型240的一個新實例(instance),以準確地重建訓練實際模型240,因而消除了去辨識的需要。實際模型參數245相依於訓練實際模型240的本質、其底層實作的機器學習演算法295、以及用以產生實際模型240的私人資料222的品質。實際模型參數245的多個例子包括權重(weights)、核心(kernels)、層(layers)、節點數量、敏感度、準確增益、超參數(hyper-parameters)、或其他可以用以再實例化訓練實際模型的資訊。
在一些例子中,私人資料222的數量被視為高品質及足夠大小,傳遞實際模型參數245至一遠端裝置可以有相當大的益處。然而,有一點要注意的是,實體220可能沒有足夠大的本地資料的數量以完成研究任務。再者,根據在此所揭露的技術而發表的另一議題包括如何整合自訓練實際模型240所獲得的知識以及來自其他實體220的資料,特別是如何整合生態系統中同儕間的知識,以產生關於反映研究員或臨床醫師興趣的建模指令的知識,且建模指令。在所示的例子中,通過配置建模引擎226來解決這些點,以理解用以建立訓練實際模型240的資料。
在所示的例子中,建模引擎226分析用以建立訓練實際模型240的訓練資料組,以理解訓練資料組的本質,其可表示為私人資料分佈250。因此,建模引擎226更可以被配置以產生複數個私人資料分佈250,私人資料分佈250代表本地私人資料的整合(in aggregate),用以作為訓練組以建立訓練實際模型240。在一些實施例中,建模引擎226可以於訓練資料組上自動執行許多不同的演算法(例如迴歸法、叢集等),可能為非監督式方法,以試圖發現資料間的關係,此關係可通過私人資料分佈250表示。私人資料分佈250描述私人資料訓練組的整體本質。舉例來說,私人資料分佈250可以包括病患年齡的直方圖。更詳細關於私人資料分佈250的討論係呈現於以下所討論的第3圖。私人資料分佈250可以為連續的、不連續的,離散的、或其他型態的分佈。私人資料分佈可以包括但不限定於以下的分佈:白努利分佈、雷德曼契分佈、二項式分佈、beta-二項式分佈、退化分佈、離散均勻分佈、超幾何分佈、及波式二項式分布。私人資料分佈也可以包括beta負二項式分佈、波茲曼分佈、吉布斯分佈、馬克斯威爾-波茲曼分佈、波爾(Borel)分佈、Champernowne分佈、擴張負二項式分佈、擴張超幾何分佈、log-序列分佈、對數分佈、負二項式分佈、複合波式分佈、拋物線分形分佈、波式分佈、Polya-Eggenberger分佈、歪斜橢圓分佈、Yule-Simon分佈、及zeta分佈。私人資料分佈也可以包括反正弦分佈、beta分佈、對數常態分佈、均勻分佈、Irwin-Hall分佈、貝次(Bates)分佈、肯特(Kent)分佈、對數分佈、Marchenko-Pastur分佈、密度分佈、上升餘弦分佈、倒數分佈、三角分佈、梯形分佈、截斷常態分佈、U-二次分佈及、von Mises-Fisher分佈。其他形式的分佈包括連續均勻分佈、Skellam分佈、卡方分佈、Gamma分佈、或任何其他用於統計科學的分佈。
建模引擎226根據私人資料分佈250產生一組代用資料260,以建立一模擬或蒙地卡羅資料組,其可以用於試圖重新建立經由訓練實際模型240獲得的知識。產生代用資料260有助於減少或消除對於私人資料222訓練組去辨識的需求。代用資料260可以視為隨機產生的合成資料,在一些例子中則可為確定性產生,代用資料260保留訓練資料中可學習的顯著特徵(即知識),同時消除了參考至儲存於私人資料222中的真實信息。一些實施例比較來自代用資料260的樣本以及私人資料222內的樣本,以確保代用樣本不具有和實際病患資料足夠的重疊。具有重大重疊的代用樣本可以被拋棄以確保維持隱私。代用樣本排除過濾器可以是基於根據私人資料222內病患資料的命名空間或屬性空間所定義的標準。舉例來說,若代用樣本有太多特徵和一或多個實際樣本相同 (例如相同郵遞區號、相同症狀等),則此代用樣本可以被消除。
在一些實施例中,在代用資料組產生期間,可以執行已知的“種子”,以致於代用資料組的產生可以為確定性的。因此,模型參數及種子可以被送至同儕裝置或一非私人裝置,以使得可以在另一個位置產生完全相同的代用資料。真實隨機種子可以在網址 www.random.org.找到。
在一些層面中,訓練機器學習模型及產生代用資料可以被視作一種有損壓縮。相似於有損壓縮,將原本資料轉換至代用資料,保存了資料的關鍵特徵,但沒有維持關於個別病患的顆粒度(granularity)。藉由發送一組模型參數,其為一種自定的壓縮,則資料可以根據參數被重建。模型參數(根據一資料分佈的機器學習參數,其相當於資料組的壓縮版本)可以伴隨種子被送出,而非傳送全部代用資料組至同儕伺服器。本地機器接收模型參數及種子,以及重建確定性的代用資料。
因此,產生代用資料提供了對於資料科學、人工智慧及分散式計算各領域顯著的改善。由於代用資料為等效於實際資料的合成資料,相較於大組資料,這個代用資料可能可以更精簡形式被提供,因此改善了用以透過分散式計算環境整合資料組的人工智慧平台的效能。舉例來說,相較於數百萬的實際個別資料點,以分佈的形式提供參數可以有較精簡的資料表示方式,人工智慧平台可以更有效率地操作於其上,因而改善了系統的整體功能。當然,正如在此所討論的,代用資料保存了有可能在去辨識過程期間被拋棄的知識。此外,藉由使用代用資料,可以維持病患隱私及HIPPA標準。
建模引擎226通過訓練用於建立除了代用資料260之外的訓練實際模型240的機器學習演算法295的相同實作,從代用資料260建立訓練代用模型270。訓練代用模型270也包含代用模型參數275,其可能稍微不同於實際模型參數245。在一些實施例中,建模引擎226疊代地產生代用資料260及建立訓練代用模型270,直到訓練代用模型270已足夠相似於訓練實際模型240,其係根據至少部分之訓練模型參數。此方法是有利的,因為此方法提供合成資料,合成資料能夠重新產生從私人資料222中所獲得的知識,其可表示為兩個訓練模型。
訓練代用模型270及訓練實際模型240之間的相似度可以經由各樣的技術被測量,其係透過建模引擎226根據代用模型參數275及實際模型參數245所計算出。產生的模型相似分數280表示兩模型至少在相似度標準內有多相似。相似度標準可以透過研究員要求私人資料222的分析而被定義,且相似度標準可以在建模指令230內被傳輸。在一些例子中,相似分數280可以為單一值(例如準確度的差值、平方誤差的總和等),可與一臨界值比較 。在其他實施例中,相似分數280可以是多值的。舉例來說,若許多代用模型被產生,則相似分數可以包括代理模型相對於實際模型的精確度的平均值以及寬度,假設精確度落入類似於常態分佈範圍內。在相似性分數280確實包括多個值的實施例中,相似分數280內的值可以與相似度標準(即多個標準)比較。測量相似分數280的技術將在第4圖做進一步的討論。
若相似分數280滿足相似度標準,表示訓練代用模型270足夠相似於訓練實際模型240,則建模引擎226可以傳遞努力所獲得的知識的資訊。更明確地,舉例來說,一旦相似度標準已經被滿足,建模引擎226可以傳遞(例如根據建模指令230)一或多個代用資料260、代用模型參數275、相似分數280、或其他資訊至網路215上的非私人計算裝置。正如先前討論的,這個方法允許研究員,在不妥協於私人資料222的隱私或安全的情況下,獲得有關私人資料222的知識。
接收知識的非私人計算裝置可以整合知識及從其他私人資料伺服器224所獲得的知識。應該要注意的是,非私人計算裝置(見第1圖,非私人計算裝置130)在生態系統中也可以為不同的私人資料伺服器、集中的機器學習中心或服務、全域建模引擎、雲端服務、或其他型態的適合配置以接收資料的計算裝置。從操作為非私人計算裝置的中央建模服務的觀點,中央建模服務可以整合全部的代用資料組為新的整合訓練資料組,以建立訓練全域整合模型。整合的模型可以被傳回至感興趣的利害關係人,例如私人資料伺服器224,以作為病患治療及成效的分類器或預測器使用。此外,整合的模型可以作為新版本的訓練實際模型240的基準線(base-line)或基礎。從另一不同觀點,建模指令230可以包括全域訓練模型,其可以進一步地被訓練於私人資料222上以產生訓練實際模型240。全域訓練模型也可以作為訓練代用模型270的基礎。
第3圖呈現關於私人資料分佈及產生代用資料的額外細節。私人資料322代表用以建立訓練實際模型的訓練資料組,可視為在已完成任何可選的或必要的預處理過程之後的輸入資料組,預處理過程例如對於私人資料322事實誤差(factual error)的修正。私人資料322可以包含許多維度或屬性,私人資料322內的每一樣本可以根據資料的屬性空間包括許多值。對於醫療,私人資料322可以包括一或多個以下型態的資料,包括但不限於:基因體資料、全基因體序列資料、全胞外體序列資料、蛋白質體資料、新生抗原決定位資料、核醣核酸(RNA)資料、過敏資訊、就醫資料、治療資料、成效資料、預約資料、訂單資料、付費碼資料、診斷碼資料、結果資料、人口資料、用藥資料、重大症狀資料、付費者資料、藥品研究資料、藥品反應資料、長期追蹤研究資料、生物識別資料、財務資料、專屬資料、電子醫療紀錄資料、研究資料、人力資本資料、績效資料、分析結果資料、事件資料或其他型態的資料。因此,在私人資料322內的單一樣本可以代表單一病患及病患的特定屬性或資訊,可為公開的或私人的。
私人資料322上的全部樣本根據在訓練資料組上的每一相關維度,整合地形成一或多個私人資料分佈350。舉例來說,私人資料分佈350可以包括年齡、重量、在腫瘤序列上的突變型態、腫瘤對匹配常態基因差異、或其他資訊的分佈。儘管對於私人資料分佈350使用語詞“分佈”,但應該注意的是,其亦可以有許多不同型態的分佈。舉例來說,性別分佈可能為兩個數字:在私人資料322內的女性數字及男性數字。此外,私人資料分佈350也可以包括已定義的數學或統計分佈型態,其可能包括高斯分佈、波式分佈、白努利分佈、雷德曼契分佈、離散分佈、二項式分佈、zeta分佈、Gamma分佈、beta分佈、直方圖分佈或其他型態的分佈。在其他實施例中,私人資料分佈350也可以包含在相關維度內的一或多個協變(covariance)矩陣。
在其他實施例中,資料分佈可能為手動建立(例如直方圖、機率密度函數等)。在一些其他實施例中,資料分佈可能是基於改變率,及/或更高階的微分(例如動差)。
為了清楚討論起見,第3圖將私人資料分佈350表示於具有兩個維度A及B的圖示上。從圖示可以看出在兩個維度之間有較弱的相關性。提出這點,是要顯示私人資料分佈350在私人資料322上的各樣屬性及維度之間可以包括一或多個相關性,且當建立代用資料360時此相關性可以被保存。這樣的相關性可以經由多種技術被發現,包括迴歸法、主成份分析、皮爾森相關性、k-means分群、或其他可以利用來找出在訓練資料維度之間的關係的技術。
需要注意的是,私人資料分佈350可以包括額外的資訊,正如私人資料分佈元資料350A所示。元資料350A為有關被發現的私人資料分佈350本質的資訊,可被封裝和被傳遞至其他計算裝置。示例的元資料包括分佈的名字或型態、定義分佈的參數(例如平均值、模式、中位數、寬度、輪廓係數、χ2 契合度、皮爾森係數、動差等)、在分佈中的樣本數量、相關性(例如主成份等) 或其他可以用以定義私人資料分佈350的資訊。
私人資料分佈350可視為一種機率分佈,可用於產生代用資料360。對於可以適合私人資料分佈322的連續分佈,建模引擎可以使用用於連續分佈(例如平均值、寬度、動差等)的元資料350A,來為代理數據360內由連續分佈建模的維度隨機地產生新樣本的值。對於非連續分佈,例如直方圖,可以被視為離散機率密度函數,用以產生對應相關維度的值。舉例來說,考慮郵遞區號,病患資料322可以包括跨過多個郵遞區號的多個病患樣本點。可產生對應郵遞區號的直方圖,且直方圖可被正規化以形成郵遞區號機率分佈。作為更具體的例子,考慮多個郵遞區號中有一部分郵遞區號的子集合相關於具有特別型態的癌症,直方圖可以被建構具有和癌症具有相關性的郵遞區號。合成的病患資料可以被建構以反映郵遞區號機率分佈。建模引擎使用正規化郵遞區號分佈以產生代用資料360的郵遞區號值。
如果沒有發現或明顯的相關性,可以利用主成份分析(principle component analysis, PCA)以減少私人資料322的維度。一旦維度被減少,新的訓練實際模型可以被產生,並被與原本的訓練實際模型比較以確保在維度減少後沒有知識遺失,模型準確度被保持。由於減少資料的維度可減少計算時間及減少傳輸時間,更加改善計算系統的效能。可以使用在第4圖中所討論的相似分數的技術而進行比較。建模引擎可以應用PCA至資料上以減少維度,建模引擎也可以得到對應私人資料322的一或多個特徵向量(eigenvector)或特徵值(eigenvalue)。“特徵向量”可以被用以代表訓練資料組。因此,代用資料360可以被視為包括以下元件的組合:從私人資料322推得的特徵向量、私人資料分佈350、實際模型參數、或其他和私人資料322相關的資訊。舉例來說,在代用資料之間的單一樣本可以包括特徵向量的線性組合,或可能是加權組合。這樣的組合可以被視為包括:特徵病患(eigenpatient)、特徵描述(eigenprofile)、特徵藥品、特徵健康紀錄、特徵基因、特徵蛋白質體、特徵RNA描述、特徵路徑、或其他取決於私人資料322內資料本質的向量型態。
在一些實施例中,每一特徵向量有對應的特徵值,使得特徵值/特徵向量成對發生。特徵值為資料組中變異量的測量,特徵向量指示在n-維空間中資料的方向。對一給定的資料組,特徵值/特徵向量對的數量等於資料組的維度。任何及全部這樣的資訊可以根據在此所揭露的技術而被利用。
關於代用資料360有多個興趣點。代用資料360不必被要求有和私人資料322相同數量的樣本。取而代之的,代用資料360僅需要具有一足夠數量的樣本,以致於代用資料360可以足夠地再造相似於訓練實際模型的一模型。如第3圖所呈現的另一興趣點,其為代用資料360可以有不同的代用資料分佈362,至少在可接受或定義的限制內。相對於基於樣本而建立的私人資料分佈350,因為新產生樣本的隨機性,所以在分佈間的差異可能稍微地不同。在代用資料分佈362及私人資料分佈350之間的可接受差異可以被視為超參數,且超參數可以被調整以確認代用資料360能夠產生所需的相似模型。而且,只要代用資料360產生足夠相似於訓練實際模型的訓練代用模型,在分佈之間的差異可以被允許為可忽略的程度。另一興趣點為代用資料360可以被疊代地產生直到它有期望的特徵;例如可接受的代用資料分佈362特徵,可接受的相似模型、或其他因子。舉例來說,建模引擎可以使用基因演算法以更改代用資料360的值,使用相似度分數作為適度函數直到適合的相似訓練代用模型出現,或使用實際資料的變異數矩陣及代用資料360的變異數矩陣之間的差異,以確保代用資料360保持相同或相似於實際資料的形狀。調整或“突變”代用資料分佈362也被視為可接受的,以達到適用於訓練實際模型的較佳訓練代用模型。
如同在此所形容的,代用資料是基於私人資料分佈,且確保代用資料反映私人資料分佈為相當重要的。舉例來說,對於5維度(其中每一維度代表資料分佈的一不同形態),代用資料可能被表示為5元組(5-tuple)。被合成的代用資料,可能映射至“假的”病患與假的紀錄,具有相似於真實病患的特徵,可與病患資料比較以確保其為病患資料適用的代表。
第4圖描繪可能用於計算兩個訓練模型之間相似分數490的技術;在這個例子中兩個訓練模型是訓練實際模型440及代用模型470。訓練實際模型440已在真實世界實際私人資料422上被訓練,如先前所討論。訓練代用模型470已經於合成代用資料460上被訓練,如相關於第3圖的討論,合成代用資料460是根據私人資料422的資料分佈而建構。
每一訓練模型視為包含對應的模型參數,模型參數定義建立或再實例化訓練模型的必要特徵(例如參數值、參數數量、層數量、節點數量等)。模型參數取決於對應底層實作機器學習演算法的本質。舉例來說,當訓練實際模型440包含2D SVM,實際模型參數將可能包括對應柔性邊界參數C的值、核心選擇及其值、臨界值ε、截距(intercept)、權重或其他SVM參數。在神經網路的例子中,實際模型參數可以包括層數量、核心數量、在每一層的神經元/節點的數量、學習率、動量、時期、輸入權重、或其他允許再實例化神經網路的值。
還可以包括防止過擬合(overfitting)的模型參數。舉例來說,系統可能提供自動化回授作為所定義建模指令的一部分,以避免過度訓練或過度擬合的本地模型。隨著計算科技的進步,例如包括大數量神經元及多層的神經網,機器學習系統可以產生不會提供最佳配適性的複雜模型。舉例來說,代替線性或較低階擬合,可以通過機器學習系統產生更高階擬合(例如12次的多項式),該機器學習系統不會最佳地分類或特徵化私人資料。為了避免過度擬合,可以通過用於產生機器學習模型的建模指令來約束節點數量、層數量、演算法型態等。過度擬合的其他原因包括建立模型的資料數量不足。因此,模型參數可以包括小數量的參數值(例如10或更少)或可以包括非常大數量的參數值(例如多於一百萬)。在這裡,需要理解在一百萬個參數的例子,這仍然遠小於傳送用以取得一百萬個參數的資料組。應該理解的是,由於訓練實際模型440及訓練代用模型470是使用相同的底層機器學習演算法實作而被建立,代用模型參數475應該包含恰好相同於實際模型參數445的參數數量。然而,各參數的值可以不同,如兩個定性的圖所表示。有鑑於實際模型參數445及代用模型參數475具有恰好相同數量的參數,它們可以彼此在一對一的基礎上被比較。在所示的例子中,比較可以被參數差異480所表示,其表示各個參數的差異。若訓練代用模型470完全相同於訓練實際模型440,參數差異480將全部為零。然而,由於訓練代用模型470被建立於代用資料460上,預期會具有非零差異。因此,至少在所示的這個例子中,藉由根據實際模型參數(Pa )445及代用模型參數(Pp )475的值計算相似分數490,可以比較兩個訓練模型,其中在相似分數490中,N對應參數數量,i對應第i個參數。
可以通過各種技術並根據相應建模指令中概述的研究人員的目標來計算相似分數490。在一些實施例中,相似分數490可以根據在模型參數(例如參數差異480)中的差異被計算。舉例來說,相似分數490可以包括差異的和、或差的平方的和、參數間的指標距離、協變差、在協變矩陣中元素的差等。在一些情況下,平方的和被視為優於差的和。在參數可以有不同定義的例子中,這些值可以被正規化或給予權重,以使得每一差異貢獻度一致或根據它們的重要性決定貢獻度。除了參數差異480外,相似分數490可以基於訓練模型的其他層面。其他非差異值可以包括基於一或多個驗證組的模型準確度比較、模型準確增益、資料分佈或其他標準。
儘管相似分數490例示說明為單一值,應當理解相似分數490也可以為多值的,包括二或多個任何先前提及的差異或非差異值。舉例來說,分數可以包括差異的和以及參數中差異的(可能被正規化的)平均。
相似分數490可以經由建立代用資料460及訓練代用模型470的多次疊代而被追蹤,以確認相似分數490往一期望方向的走向。在這個意義上,當代用資料被產生時,相似分數490可以代表適應值。當相似分數490滿足相似傳輸要求時,建模引擎可以傳送代用資料460,並伴隨著其他輔助的資訊(例如代用模型參數475、實際模型參數445、參數差異480、相似分數490等),至遠端非私人計算裝置。在一些實施例中,非私人計算裝置作為全域建模引擎,且全域建模引擎可配置以整合來自許多分散式同儕的代用資料460至全域模型。通過這個揭露的方法,每一組私人資料422所獲得的知識被保持,同時保有私人資料安全。
建立相似分數490的另一技術可以包括使用各樣的相關資料組對訓練代用模型470執行交叉驗證法。在一些實施例中,交叉驗證法可以使用私人資料組422的不同部分而被執行,私人資料422被用作訓練實際模型440的訓練組。當兩個訓練模型為足夠地相似,訓練代用模型470使用實際資料將產生可接受的預測結果。在其他實施例中,代用資料422可以分割為訓練及驗證資料組,其可以被用於交叉摺疊驗證法。在這裡,訓練資料422將會被用以產生訓練實際模型440,私人資料分佈將會被用以產生代用資料460。訓練代用資料將會被用以產生訓練代用模型470,並且驗證代用資料將會被提供至訓練代用模型用以驗證。此外,訓練代用模型470,可能伴隨著代用模型參數475,可以被送至生態系統中的其他建模引擎(例如在第1圖,其他建模引擎126、非私人計算裝置130、全域建模引擎136等)。這些計算裝置可以試圖在它們個別(可能為私人的)相似的訓練資料組上驗證訓練代用模型470。一旦每一驗證裝置完成它們的驗證工作,則結果被提供回至原本的建模引擎,以估測及推導模型相似分數490。第5圖呈現分散式線上機器學習的電腦實施方法500。方法500相關於從許多私人資料組建立整合的訓練全域模型。訓練全域模型可以被送回至每一實體,以作為預測工作的使用。
步驟510開始於配置私人資料伺服器作為建模引擎,以接收建模指令(例如從私人資料伺服器124或從中央/全域伺服器130) ,以根據至少一機器學習演算法之實作,從至少部分本地私人資料建立訓練實際模型240。建模指令可以於網路透過一或多個協定(無線網路、封包交換網路、互聯網、內部網路、虛擬私人網路、蜂巢式網路、隨意型網路、點對點網路等)被接收。在一些實施例中,建模指令代表完整的、獨立的封包。舉例來說,建模指令可以包括目標機器學習演算法的編譯實現,以及可以用於查詢產生訓練資料組的期望的私人資料特徵的定義。當收到封包時,建模引擎可以在安全容器中執行訓練。在其他實施例中,建模指令提供一指標,該指標指向本地儲存的機器學習演算法的實作。此外,建模指令可以包括允許建模引擎完成它的本地訓練任務的額外資訊,這些額外資訊可以包括:相似標準、相似分數定義、從本地資料庫選擇私人資料的查詢轉換指令、作為基準線的預訓練模型、或其他資訊。舉例來說,若研究員感興趣於判斷病患是否對特定藥物反應有特別腫瘤突變,例如單核苷酸多態性(SNP),而研究員可以根據突變及藥物建構查詢標準,並將查詢標準封裝在建模指令中。
步驟520包括建模引擎藉由於本地私人資料上訓練機器學習演算法之實作,根據複數個建模指令以及至少部分之本地私人資料建立訓練實際模型。建模引擎能夠根據在建模指令內所提供的私人資料選擇標準,建構訓練資料樣本。建模引擎將資料選擇標準提交給本地私人資料庫,然後根據需要進行適當格式化以適應本地資料庫的索引/檢索系統。這結果組成為目標機器學習演算法的訓練組。在訓練組上訓練目標機器學習演算法之實作可以包括調整演算法的權重、調整輸入至演算法的權重、最佳化適應標準、執行交叉折疊驗證、更新預訓練模型、限制系統以避免過度擬合、或其他行為。所產生的訓練實際模型包括可用以再實例化訓練實際模型的實際模型參數。
步驟530包括從本地私人資料訓練組產生一或多個私人資料分佈,私人資料分佈代表用以建立訓練實際模型的訓練組的整合。取決於資料的本質(例如連續的、離散的等),私人資料分佈將會於形式或本質上而變化。在一些例子中,資料分佈代表一維度,可能表示為直方圖、頻率圖、時間變異值、或其他一維代表方式。在其他例子中,資料分佈代表超過一個相關維度(例如2D、3D等)。更具體來說,更高階維度資料分佈可以包括叢集、相關性、輪廓、密度圖、散佈圖、或其他型態的更高階分佈。各種資料分佈可以經由多個技術被產生,多個技術包括使用適當的分箱創建數值的直方圖、建立資料圖、使曲線擬合於資料、建立散佈圖、計算主成份、計算迴歸法、或其他行為。應當理解的是,產生分佈可以被視為形成代表訓練資料組的機率密度函數或機率質量函數。
步驟540包括根據一或多個私人資料分佈產生一組代用資料。建模引擎利用私人資料分佈作為機率分佈,可據以產生代用資料。建模引擎可以根據機率分佈隨機地產生新的資料,以產生新的代用資料樣本。建模引擎可以將每個樣本與其在每個相關機率分佈內落入的位置進行比較,以確保樣本符合實際資料的性質。步驟540可以被執行多次或疊代,以確保代用資料整體在相同分佈空間產生適當的形狀。代用資料可以包括相同於被提供的資料訓練組的樣本數量:然而,代用資料有更多或更少的樣本數量也是有可能的。代用資料的每一樣本可以與來自訓練資料的樣本比較,以辨識代用樣本是否太相似於原本的實際樣本。若相似或若代用樣本相同於實際樣本,則代用樣本可以被丟棄,以確保隱私被維持。可以使用蒙地卡羅模擬以達成產生代用資料組,蒙地卡羅模擬是根據實際資料分佈而執行,其中可使用種子以產生確定性的代用資料。
步驟550藉由於代用資料上訓練該機器學習演算法之型態或實作,建模引擎自代用資料建立訓練代用模型。具體來說,訓練代用模型較佳是根據用於建立訓練實際模型的機器學習算法的相同實現來建立的,以確保兩個模型能夠精確地比較。建模引擎確保訓練代用模型根據建模指令而被訓練,且是和訓練實際模型足夠相似的方法。訓練代用模型一旦完成,就具有代用模型參數,代用模型參數代表訓練代用模型及代用資料。儘管訓練代用模型及訓練實際模型係通常是基於完全相同機器學習演算法實作,他們產生的參數值(例如權重、核心等)可以為不同的。
在步驟560中,建模引擎根據代用模型參數及實際模型參數計算模型相似分數。如上所討論,由於每一模型係自相同機器學習演算法實作被建立,且代用資料有相似於私人資料的特徵,所以多個參數可以成對比較。除了使用代用及實際模型參數之外,建模引擎也可以使用其他因子以計算相似分數。示例的額外因子可以包括模型準確度、交叉摺疊驗證法、準確度增益、敏感度、特定度、成對比較的分佈(例如平均值、相對於零點的分佈等)。在一些實施例中,實際私人資料訓練組可用於交叉驗證代用模型。若是從訓練代用模型預測實際私人資料訓練組的準確度足夠高(例如誤差在10%、5%、1%內或更近),則訓練代用模型可視為相似於訓練實際模型。此外,若相似分數無法滿足相似標準(例如低於臨界值以下等),則建模引擎可以重複執行步驟540至560。
在相似分數滿足相似標準的情況下,建模引擎可以執行操作570。操作570包括通過網路傳遞這組代用資料,並可能連同其他資訊一起,到至少一非私人計算裝置。非私人計算裝置可以為一集中式樞紐(centralized hub),整合來自私人伺服器或同儕中樞或兩者組合的代用資料。代用資料可以是網路中傳遞的檔案(例如HDF5)、以標記語言序列化(例如XML、YAML、JSON等)、壓縮檔案、或其他格式。除了代用資料的額外資訊也可以被送至例如遠端計算裝置、全域建模引擎、或同儕機器,額外資訊包括實際模型參數、代用模型參數、資料分佈、相似分數、或其他資訊。提供的模型參數使遠端計算裝置能夠再實例化訓練模型,並且對由私人資料伺服器的建模引擎執行的工作進行本地化驗證。需要注意的一點是,實際的私人數據不被傳送,因此尊重隱私。
步驟580係由全域建模引擎或同儕私人資料機器所執行,包括整合來自不同私人資料伺服器的二或多個代用資料組。整合的代用資料組(全域代用組)根據給予的機器學習任務被而被組合,以及根據原本要求的建模指令被產生。儘管每一組代用資料可能從不同的私人資料分佈被產生,應當理解對應的私人資料訓練組是根據相同的選擇標準被建構。舉例來說,研究員可能希望建立預測模型,係關於吸菸者對於肺癌治療的反應如何。研究將會要求模型在許多私人醫院被建立,且每一醫院有它們自己的私人資料。每一醫院接收相同的資料選擇標準;吸菸者的病患、被給予的治療、以及他們相關已知的成效。每一醫院的本地私人資料伺服器,透過他們的建模引擎,使用訓練實際資料作為基礎及根據相同的資料選擇標準,建構他們自己的代用資料。全域建模引擎接著整合個別資料組為一起,以建立全域訓練資料組。步驟590包括全域建模引擎在整合的多組代用資料上,訓練一全域模型。全域模型整合從每一實體的私人資料所得到的知識。在一些實施例中,全域建模引擎可以藉由累計多組實際模型參數及組合它們至單一訓練模型,以建立訓練全域模型。這樣的方法對於單純、線性的演算法是可行的,例如線性的SVM。然而,在更複雜的實施例中,例如神經網路,使用代用資料組是較佳的,因為代用資料組保留了可能經由數學組合(例如增加、平均等)個別參數而遺失的知識。
在其他實施例中,全域建模引擎也傳回訓練全域模型至一或多個私人資料伺服器。私人資料伺服器可以利用全域訓練模型以執行本地預測研究,以支持本地臨床決策工作流程。此外,私人資料伺服器也可以使用全域模型作為持續線上學習的基礎。因此,當可取得新的私人資料時,全域模型成為持續機器學習的基礎。當可取得新的資料時,可重複執行方法500以改善全域建模引擎。
機器學習系統可接收多個輸入(例如私人資料),經由機器學習過程,可辨識最重要的輸入的子集合。因此,可以預期一間醫院可能不會收集和另一間醫院完全相同型態的私人資料。因此,建模指令可能因不同的醫院或地點而不同。然而,藉由使用如同在此所述的機器學習系統以辨識哪些參數為最有預測性的,皆具有這些關鍵預測性參數的資料組可被組合。在其他實施例中,建模指令可被修正,例如限制包括關鍵預測性特徵,及被用以重新產生代用資料、代用資料分佈及其他型態的學習資訊。這個重新產生的資訊可以被送至其被整合的全域模型伺服器。
在其他實施例中,第一醫院可能以和第二醫院不同的方法收集或篩選資料。因此,在資料組被組合之前,可能需要有不同的資料正規化。
在其他實施例中,研究員可能想在一個特別的私人資料組執行不同的分析。舉例來說,第一組建模指令可能指示使用高斯分佈建立模型,第二組建模指令可能指示使用波式分佈建立模型。多個結果可以被比較,及最有預測性的模型可以被選擇。這些結果亦可以被比較以評估給定的機器學習模型的再造性。
在其他實施例中,第一組建模指令可用以研究一特別型態的癌症,例如建立乳癌分類器。接著可修改建模指令(例如額外增加指令、移除對於乳癌的特定指令、及增加對於前列腺癌的特定指令),並將建模指令用於不同的癌症族群,例如前列腺癌族群。因此可以預期的是,對應第一型態癌症的第一組建模指令可能被修正及外插至另一型態癌症。因此,在不同型態的癌症及它們的治療之間的新穎關係可以根據在此所揭露之技術被偵測。舉例來說,第一型態的癌症及第二型態的癌症之間可能存在相關性,使得治療第一型態癌症可預測在第二型態癌症的成功治療。
第6圖呈現電腦實施方法600,其代表相對於方法500不同的分散式線上機器學習方法。私人資料伺服器的建模引擎所執行的步驟610、620及630相同於由建模引擎所執行的步驟510、520及530。方法600從步驟640開始實質上不同於方法500,但一開始仍然專注於配置在實體內私人資料伺服器的建模引擎的活動。方法600試圖允許遠端非私人計算裝置從私人實體代表本地私人資料的資料分佈建立全域模型。
步驟640包括建模引擎辨識一或多個來自本地私人資料分佈的一或多個顯著的私人資料特徵。顯著的私人資料特徵可以視為對於建模資料分佈必要的資料,或在非私人計算裝置的記憶體中實例化分佈所必需的資料。取決於分佈的本質,顯著的私人資料特徵可以包括一或多個以下所述:樣本數量、主成份、平均值、模式、中位數、分佈型態(例如高斯、波式、衰減等)、分佈型態參數、直方圖分箱、相關性、或其他特徵。此外,顯著的私人資料特徵可以較佳地包括在實際私人資料上訓練的訓練實際模型的參數。實際模型參數被用於以下步驟。顯著的私人資料特徵可以根據標記語言(例如XML、YAML、JSON等)或其他適合的格式,而被封裝以傳輸。
步驟650著重於建模引擎在網路中傳遞顯著私人資料至遠端計算裝置。在典型的實施例中,顯著的私人資料特徵被傳遞至全域建模引擎,且全域建模引擎整合來自多個私人實體的顯著特徵。特徵的傳輸可以是基於一或多個網路協定,包括HTTP、HTTPS、UDP、TCP、FTP、網路服務(例如REST、WSDL、SOAP等)或其他協定。
步驟660將焦點從實體的私人資料伺服器中的建模引擎轉移至非私人計算裝置的全域建模引擎(見第1圖,全域建模引擎136)。全域建模引擎接收顯著的私人資料特徵,並於本地記憶體中再實例化私人資料分佈。正如對於步驟540先前所討論的,全域建模引擎從顯著的私人資料特徵產生代用資料,例如是使用再實例化的私人資料分佈作為機率分佈,以產生新的、合成的樣本資料。產生的代用資料不必和原本的、實際的資料有相同的樣本數量。取而代之的,代用資料僅僅需要足夠數量的足夠品質的樣本,以建立相似於從實際私人資料所建立的訓練模型的訓練模型。
在一些實施例中,顯著的私人資料特徵可以包括代用資料,從代用資料可以再推得資料分佈。然而,在方法600的例子中,每一私人資料伺服器產生自己的顯著的特徵係被視為有利的。其中一個原因是,每一私人資料伺服器的建模引擎可以以並列式及分散式的方式操作,而非要求全域建模引擎以集中式序列式的方式在代用資料上執行全部的工作,因此,整體的系統產出量(throughput)獲得改善。不過在一些代用資料稀少的情況中,因為稀少的代用資料於傳輸上可以比顯著的私人資料特徵封包更為精簡,因此以全域建模引擎接收代用資料是合理的。決定是否傳送代用資料的條件或要求,可以被封裝在原本的建模指令。
在步驟670中,相似於第5圖的操作550,全域建模引擎藉由用以建立訓練實際模型的機器學習演算法的相同型態或實作,從這組代用資料建立訓練代用模型。在這個例子中,代用資料變成訓練資料組。一旦代用資料完成訓練,則其具有一組定義訓練模型的代用模型參數。如同先前所討論的,代用模型參數可以被用以在目標計算裝置(例如私人資料伺服器)的記憶體中再實例化訓練代用模型。
步驟680,相似於第5圖的步驟560,包括全域建模引擎根據代用模型參數及實際代用模型參數,計算相對於訓練實際模型的訓練代用模型的模型相似分數。實際代用模型參數可以與關於步驟640所討論的顯著私人資料特徵一起取得,或可以在傳送要求至代用資料的建模引擎時取得。若模型相似分數無法滿足相似度要求,則全域建模引擎可以重複執行步驟660至680,直到產生令人滿意的相似訓練代用模型。
步驟690包括當判斷訓練代用模型滿足相似要求時,全域建模引擎整合代用資料至整合的全域模型。代用資料與來自其他私人資料伺服器的其他代用資料被整合,以建立整合的模型。應當理解的是這個方法可以用線上學習方法被執行,其中整合的全域模型係隨著時間以新的代用資料被持續更新。
在更感興趣的實施例中,被產生的全域模型可以被傳遞至在私人資料伺服器內的建模引擎,以被用作預測的目的。此外,可利用全域模型作為私人資料伺服器建立訓練實際模型的基礎。這個方法被認為有利的,因為缺乏足夠數量資料樣本的私人資料伺服器將仍然能夠增加對發現知識的貢獻。
所揭露的分散式線上機器學習方法可以利用多種技術以驗證訓練模型。一個方法包括第一私人資料伺服器傳送它的訓練實際模型至其他私人資料伺服器,接著其他私人資料伺服器可以在它們自己的本地資料上驗證訓練實際模型,並回傳結果至第一私人資料伺服器。此外,全域建模引擎也可以使用整合的代用資料的全域收集,在訓練實際模型上執行一或多個交叉摺疊驗證步驟。反向操作也可以。全域建模引擎可以傳送全域模型至一或多個私人資料伺服器,以使得在每一私人資料伺服器的本地資料上驗證全域模型。應當理解的是,對多個模型的驗證是執行於根據相同選擇要求而被選擇的資料組上,以確保正確的分析。
本揭露發明主題另一有趣的方面為可以隨著資料累積,可隨著時間管理各種訓練模型。每一模型可以被視為具有特定資料要求的總體分佈式研究任務的成員。因此,每一模型可以綁定任務辨識符(例如名字、目標、GUID、UUID等),允許各種建模引擎在任務基礎上管理它們的模型。除了建立de novo 模型之外,建模引擎可以隨著時間維持每一訓練模型或代用資料。當新的資料對私人資料伺服器變為可見時,建模引擎可能可透過特定任務監聽器而偵測到資料,然後將相關的新資料整合到實際訓練資料。此外,相關資料分佈可以據以被更新。在一些例子中,產生全新代用資料組,而在一些例子中,只有新的樣本被產生,且被增加至先前產生的代用資料。因此,本發明主題被視為包括建立時變模型管理規則,建模引擎藉由此規則管理相關於研究任務的模型。示例的規則包括:回報更新、隨著時間監控模型參數、盤點已存的模型或研究任務、當模型或資料改變時產生警示、從全域模型伺服器(例如一全域建模集線器、全域建模引擎等)回復遺失的模型、記錄建模或研究任務、確保模型安全、或其他管理功能。
揭露的生態系統/系統提供跨許多計算裝置的分散式線上學習,其中每個計算裝置(例如全域建模引擎、私人資料伺服器等)有一或多個建模引擎。建模引擎可配置為管理許多建模任務。因此,主動模型的數量可以數以百計、數以千計或甚至更多於一百萬個模型。因此,本發明主題也可以被視為包括在分散式系統中大量模型物件的管理裝置或方法。舉例來說,每一建模任務可以被分派一或多個辨識符或其他元資料,以被系統管理。具體來說,辨識符可以包括獨特的模型辨識符、被分享於屬於相同的任務的模型之間的任務辨識符、模型擁有者辨識符、時間標籤、版本號碼、實體或私人資料伺服器辨識符、地理標籤、或其他型態的辨識符。此外,全域建模引擎可被配置以呈現儀表板給研究員,以編譯及呈現每一計畫的狀態。儀表板可被配置以深究至特定的模型及它們目前的狀態(例如NULL、實例化、訓練中、已訓練、更新、刪除等)。
有許多對於所揭露技術的可能應用。儘管本揭露主題已主要專注在針對有突變病患的治療及成效的訓練模型,但仍有其他可能的使用。一主要的使用在於,所產生的本地訓練實際模型或全域模型可作為臨床試用推薦系統的基礎。考慮有許多訓練模型的例子,實際本地模型或全域模型,這些模型已經接受了各種病患及藥品(包括臨床試驗中的藥品)的治療及成效資料的訓練。當新的病患被診斷有疾病(例如癌症)時,位於病患照護設施的建模引擎可以提交病患資料(例如WGS、WES、基因差異物件、症狀、人口資料等)至可用的相關訓練實際模型、訓練代用模型、或訓練全域模型。訓練模型將會產生病患是否對於特定治療(此模型最初訓練的治療)反應的預測。若此模型預測病患將會對目前在試驗中的治療反應,則系統可以呈現可能的臨床試驗的分級清單,且其中病患可為候選者;例如根據預測信心度而分級。當有偵測到可能的病患試驗匹配,建模引擎可以產生警示或其他通知,且通知被傳送至一或多個病患照護利害關係人。再者,當病患接受治療時,他們的資料可以被送回至訓練實際模型、代用模型、及全域模型,以確保訓練模型透過額外的訓練被更新。
本發明主題的另一有趣層面包括建立發現偏離值事件的機會。再次考慮新的病患資料進入系統的情況,系統中的建模引擎做出關於病患的可能治療成效的預測。接著,考慮病患可能根據特定基因組變體被預測為對於特定治療的非反應者。然而,病患可能在稍後被發現為反應者。當一或多個建模引擎偵測到在預測及實際成效之間的重大差異,建模引擎可以產生通知給擁有或管理訓練模型的研究員。這樣異常值的偵測提供了一些見解。舉例來說,異常值可能指出在一或多個訓練模型的弱點。此外,異常值可能為應該被深入研究的真實異常值,以判斷異常值相對於訓練資料組之間有甚麼差異(例如其他基因體差異等)造成資料成為異常值。自動的異常值偵測或發現為進一步研究提供了可能的途徑。
除了醫療之外,所揭露的技術也可利用於人工智慧(AI),可能相關於電腦遊戲開發。在這些例子中,電腦遊戲機(例如PS4、X-Box、PC等)可被配置以具有如同以上所揭露的遊戲特定建模引擎。當個別玩家玩遊戲時,建模引擎觀察玩家與給定場景的互動(即收集輸入),並偵測玩家的成功(即成效),以產生本地訓練實際模型的訓練資料。使用以上所述的技術,可以從許多玩家產生代用資料,以建立全域訓練模型。全域訓練模型可作為遊戲AI的基礎。遊戲AI可以使用全域訓練模型,以預測新玩家的可能下一動作,以預期接下來所要發生的事情,遊戲可以據以調整戰術或策略以建立更具挑戰性的遊戲。除了醫療以及遊戲之外,其他可以利用所揭露技術的市場包括:保險政策分析、消費者交易分析、通勤者交通分析、或其他型態具有大數量高品質訓練資料的分析,且資料被要求保持安全。
本發明主題另一可能的應用包括從私人影像收集中學習。考慮有多個分散式快取的私人影像的例子;例如在許多人的個別家用電腦上。所揭露的技術允許研究員或資料分析家在私人影像收集內研究資訊,而不需要存取特定影像。假設得到擁有者的允許,可以藉由安裝模型引擎在每一個人的電腦來實現這樣的功能。建模引擎可以以原始影像的形式接收本地訓練資料以及根據建模指令定義的其他訓練資訊(例如註解、分類、場景描述、位置、時間、設定、相機方向等)。模型引擎可以從原本影像及訓練資訊建立本地訓練實際模型。代用資料可以透過建構相似影像而被建立,例如可能根據訓練實際模型的特徵向量。
舉例來說,應當理解私人影像收集通常存放在不同地理位置(例如不同社區、城市、郵遞區號、州等),例如多個不同醫師辦公室內或相關聯的電腦或資料儲存設備、醫療影像設施、或臨床/病理學實驗室。在這個例子中,影像收集可包括各種掃瞄(例如正子放射式斷層掃描(PET)、單光子放射斷層掃描(SPECT)、電腦斷層(CT)、功能性磁振造影(fMRI)等),各種掃描相關於特定的病患及個別的診斷及治療歷史。或者影像可以包括組織區塊(通常以染劑、螢光團、或其他光學可偵測的實體染色)、或相關於病患資訊的免疫組織化學治療區塊。另外可預期的影像還包括聲波造影影像(例如2D、3D、都卜勒)、視訊、血管攝影影像或視訊,同樣相關於病人資訊。
明顯地本文所討論的分散式學習系統將會提供許多的益處。舉例來說,圖樣的大規模分析(例如整體組織區塊的影像獲取,而非在顯微鏡中單一視野的分析)可以用於分散式學習系統,以允許顯著更大的資料組以人類無法做到的方式處理。此外,因為大量對應的影像或視訊可用於學習過程,通常僅由臨床醫生認為是直覺線索的參數可以由分佈式學習系統描繪。再者,值得注意的是,學習到的資訊可以透過大型網路用戶(其資訊耦接至分散式學習系統)而分享,不會洩露病患身分或狀態。
或者,不是試圖從人的觀點來生成相似的影像,建模引擎可以產生具有電腦可理解特徵(例如描述符、關鍵點等)的合成影像,例如可能使用基因演算法。描述符可能為單值的或多值的,並可能包括相似分數(直方圖描述符)。為了討論起見,假設建模引擎是基於尺度不變特徵轉換(SIFT)描述符(見Lowe的美國專利6,711,293,2000年3月6日申請,名稱為“Method and Apparatus for Identifying Scale Invariant Features in an Image and Use of Same for Locating an Object in an Image”)以及由影像擁有者所提供的分類資訊被訓練。代用影像可使用隨機重疊、半透明多邊形而被產生。基因演算法可以改變多邊形的參數,接著使用代用影像的SIFT描述符,以相對於原先影像的SIFT描述符作為適合度的測量。當代用影像的SIFT描述符足夠地相似(例如分佈相似、值相似、描述符的數量相似等)時,則代用影像完成。應該注意的一點是,因為產生的代用影像為機器可理解的,但並非為人類可理解的,這允許遠端非私人計算裝置能夠從代用影像學習,所以這個方法被認為是有利的。在其他實施例中,學習模型的參數可被提供至系統,系統可產生對應的描述符。
綜上所述,雖然本發明已以實施例揭露如上,然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
許多不同的實施例在此也被仔細考慮,包括整體系統100、私人資料伺服器、同儕資料伺服器及全域建模引擎等。因此,涵蓋至少部分先前實施例的申請專利範圍呈現於表1,包括: 表1.
對於本領域通常知識者來說顯而易見的是,在沒有偏離在此的發明概念的情況下,除了那些已經可能被描述的,許多更多的修正是可能的。因此,本發明主題除了後附的申請專利範圍的精神之外,是沒有被限制的。此外,在解釋說明書及申請專利範圍上,所有的用語應該以與上下文一致的最廣泛的方式來解釋。特別地,用詞“包括”及“包含” 應該被解釋為以非排他性方式引用元件、組件或步驟,以表示所提及的元件、組件或步驟可能與其他未被提及的元件、組件或步驟組合。其中說明書或申請專利範圍提及從A、B、C…..及N組成的群體中的至少一個時,文章應該被解釋為只需要從該群體中選擇一個元素,不是A加N,或B加N等。
100‧‧‧系統
115、215‧‧‧網路
120A‧‧‧醫院
120B‧‧‧診所
120N‧‧‧實驗室
122A~122N、222、322、422‧‧‧私人資料
124A~124N、224‧‧‧私人資料伺服器
126A~126N、226‧‧‧建模引擎
130‧‧‧非私人計算裝置
136‧‧‧全域建模引擎
220‧‧‧實體
230‧‧‧建模指令
240、440‧‧‧訓練實際模型
245‧‧‧實際模型參數
250‧‧‧私人資料分佈
260、360、460‧‧‧代用資料
270、470‧‧‧訓練代用模型
275‧‧‧代用模型參數
280‧‧‧模型相似分數
290‧‧‧記憶體
293‧‧‧軟體指令
295‧‧‧機器學習演算法
297‧‧‧處理器
350‧‧‧私人資料分佈
350A‧‧‧私人資料分佈元資料
362‧‧‧代用資料分佈
445‧‧‧實際模型參數
475‧‧‧代用模型參數
480‧‧‧參數差異
490‧‧‧相似分數
500、600‧‧‧方法
510、520、530、540、550、560、570、580、590‧‧‧步驟
610、620、630、640、650、660、670、680、690‧‧‧步驟
第1圖繪示依照本發明之多個實施例的分散式線上機器學習系統的示意圖。 第2圖繪示依照本發明之多個實施例的配置於一私人資料伺服器的機器學習建模引擎架構。 第3圖繪示依照本發明之多個實施例的產生代用訓練資料的的流程圖,代用訓練資料用於準備建立代用訓練模型。 第4圖繪示依照本發明之多個實施例的比較訓練實際模型與訓練代用模型的以產生一或多個相似分數的流程圖。 第5圖繪示依照本發明之多個實施例的分散式線上機器學習之方法的流程圖,其中私人資料伺服器產生代用資料,代用資料能夠複製在真實資料上產生的訓練實際模型的本質,其中代用資料被傳遞至一非私人計算裝置。 第6圖繪示依照本發明之多個實施例的分散式線上機器學習之方法的流程圖,其中私人資料伺服器傳遞整合的私人資料顯著的特徵至非私人計算裝置,其接著建立代用資料以整合至訓練全域模型。

Claims (38)

  1. 一種分散式機器學習系統,包括: 複數個私人資料伺服器,各該私人資料伺服器可存取一本地私人資料,各該私人資料伺服器具有至少一建模引擎,其中該複數個私人資料伺服器透過一網路而通訊耦接於至少一非私人計算裝置; 其中當各該私人資料伺服器執行儲存於一非暫態電腦可讀取記憶體中之至少一處理器軟體指令時,各該私人資料伺服器之該至少一建模引擎用以: 接收複數個建模指令,以根據一機器學習演算法之一實作,從至少部分之該本地私人資料建立一訓練實際模型; 藉由於該本地私人資料上訓練該機器學習演算法之該實作,根據該複數個建模指令以及該至少部分之該本地私人資料建立該訓練實際模型,其中該訓練實際模型包括複數個訓練實際模型參數; 從該本地私人資料產生複數個私人資料分佈,其中該複數個私人資料分佈代表用以建立該訓練實際模型的該本地私人資料的整合; 根據該複數個私人資料分佈產生一組代用資料; 藉由於該組代用資料上訓練該機器學習演算法之該實作,自該組代用資料建立一訓練代用模型,該訓練代用模型包括複數個代用模型參數; 根據該複數個代用模型參數及該複數個訓練實際模型參數計算一模型相似分數;以及 根據該模型相似分數之一函數,透過該網路傳送該組代用資料至該至少一非私人計算裝置。
  2. 如申請專利範圍第1項所述之系統,其中該本地私人資料包含一本地私人醫療資料。
  3. 如申請專利範圍第2項所述之系統,其中該本地私人醫療資料包括一病患特定性資料。
  4. 如申請專利範圍第1項所述之系統,其中該本地私人資料包括以下型態的資料至少其中之一:基因體資料、全基因體序列資料、全胞外體序列資料、蛋白質體資料、蛋白質體路徑資料、k-長DNA子序列(k-mer)資料、新生抗原決定位資料、核醣核酸(RNA)資料、過敏資訊、就醫資料、治療資料、成效資料、預約資料、訂單資料、付費碼資料、診斷碼資料、結果資料、治療反應資料、腫瘤反應資料、人口資料、用藥資料、重大症狀資料、付費者資料、藥品研究資料、藥品反應資料、長期追蹤研究資料、生物識別資料、財務資料、專屬資料、電子醫療紀錄資料、研究資料、人力資本資料、績效資料、分析結果資料、以及事件資料。
  5. 如申請專利範圍第1項所述之系統,其中該網路包括以下型態的網路至少其中之一:一無線網路、一封包交換網路、一互聯網、一內部網路、一虛擬私人網路、一蜂巢式網路、一隨意型網路、以及一點對點網路。
  6. 如申請專利範圍第1項所述之系統,其中該至少一非私人計算裝置是該複數個私人資料伺服器的其中之不同一者,該至少一非私人計算裝置缺乏授權存取用以建立該訓練實際模型的該本地私人資料。
  7. 如申請專利範圍第1項所述之系統,其中該至少一非私人計算裝置包括一全域模型伺服器。
  8. 如申請專利範圍第7項所述之系統,其中該全域模型伺服器配置以自至少二該複數個私人資料伺服器整合複數組代用資料,並且於該複數組代用資料上訓練一全域模型。
  9. 如申請專利範圍第1項所述之系統,其中各該私人資料伺服器係通訊耦接於儲存該本地私人資料的一本地儲存系統。
  10. 如申請專利範圍第9項所述之系統,其中該本地儲存系統包括以下至少其中之一:一磁碟陣列系統、一檔案伺服器、一網路可存取儲存裝置、一儲存區域網路裝置、一本地電腦可讀取記憶體、一硬碟、一光學儲存裝置、一磁帶機、一磁帶庫、以及一固態硬碟。
  11. 如申請專利範圍第9項所述之系統,其中該本地儲存系統包括以下至少其中之一:一本地資料庫、一BAM伺服器、一SAM伺服器、一GAR伺服器、一BAMBAM伺服器、以及一臨床作業系統伺服器。
  12. 如申請專利範圍第1項所述之系統,其中該複數個建模指令包括以下至少其中之一:一本地命令、一遠端命令、一可執行檔案、一協定命令、以及一選擇命令。
  13. 如申請專利範圍第1項所述之系統,其中該複數個私人資料分佈之一分佈遵循以下分佈型態至少其中之一:一高斯分佈、一波式分佈、一白努利分佈、一雷德曼契分佈、一離散分佈、一二項式分佈、一zeta分佈、一Gamma分佈、一beta分佈、以及一直方圖分佈。
  14. 如申請專利範圍第1項所述之系統,其中該複數個私人資料分佈係基於複數個特徵值,該複數個特徵值是由該複數個訓練實際模型參數及該私人本地資料推得。
  15. 如申請專利範圍第1項所述之系統,其中該組代用資料包括複數個特徵向量之組合,該複數個特徵向量由該複數個訓練實際模型參數及該私人本地資料推得。
  16. 如申請專利範圍第15項所述之系統,其中該代用資料包括該複數個特徵向量之線性組合。
  17. 如申請專利範圍第15項所述之系統,其中該些特徵向量包括以下至少其中之一:一特徵病患、一特徵描述、一特徵藥品、一特徵健康紀錄、一特徵基因、一特徵蛋白質體、一特徵RNA描述、以及一特徵路徑。
  18. 如申請專利範圍第1項所述之系統,其中該訓練實際模型係基於至少一以下型態的機器學習演算法的一實作:一分類演算法、一神經網路演算法、一迴歸演算法、一決策樹演算法、一叢集演算法、一基因演算法、一監督學習演算法、一半監督學習演算法、一無監督學習演算法、以及一深度學習演算法。
  19. 如申請專利範圍第1項所述之系統,其中該訓練實際模型係基於至少一以下機器學習演算法:一支持向量機、一最近鄰點演算法、一隨機森林、一山脊迴歸、一拉索演算法、一k-means分群演算法、一光譜叢集演算法、一均數位移叢集演算法、一非負矩陣因式分解演算法、一彈性網演算法、一貝氏分類器演算法、隨機抽樣一致性演算法、以及一正交匹配追蹤演算法。
  20. 如申請專利範圍第1項所述之系統,其中該複數個建模指令包括從一基準線模型建立該訓練實際模型之指令,其中該基準線模型是在該私人資料伺服器的外部被建立。
  21. 如申請專利範圍第20項所述之系統,其中該基準線模型包括一全域訓練實際模型。
  22. 如申請專利範圍第21項所述之系統,其中至少部分的該全域訓練實際模型是於來自於至少二該複數個私人資料伺服器的代用資料上被訓練。
  23. 如申請專利範圍第1項所述之系統,其中該相似分數係根據該代用模型之一交叉驗證法被決定。
  24. 如申請專利範圍第23項所述之系統,其中該交叉驗證法包括在部分的該代用資料之一內部交叉驗證法。
  25. 如申請專利範圍第23項所述之系統,其中該交叉驗證法包括在該本地私人資料之一內部交叉驗證法。
  26. 如申請專利範圍第23項所述之系統,其中該交叉驗證法包括一外部交叉驗證法,該外部交叉驗證法由該複數個私人資料伺服器其中的不同一者執行於該本地私人資料上。
  27. 如申請專利範圍第1項所述之系統,其中該相似分數包括在該代用模型之一精確測量及該訓練實際模型之一精確測量之間的一差值。
  28. 如申請專利範圍第1項所述之系統,其中該相似分數包括自該複數個訓練實際模型參數及該複數個代用模型參數所計算出的一指標距離。
  29. 如申請專利範圍第1項所述之系統,其中當該模型相似分數之該函數滿足至少一傳輸條件時,該代用資料被傳遞。
  30. 如申請專利範圍第29項所述之系統,其中該至少一傳輸條件包括至少一以下相關於該相似分數之條件:一臨界條件、一多值條件、一值改變條件、一走勢條件、一人類命令條件、一外部要求條件、以及一時間條件。
  31. 如申請專利範圍第1項所述之系統,其中該建模引擎更配置以於新的本地私人資料上更新該訓練實際模型。
  32. 一種以計算裝置實施之分散式機器學習之方法: 藉由一私人資料伺服器接收複數個建模指令,以根據一機器學習演算法之一實作,從至少部分之一本地私人資料建立一訓練實際模型,該本地私人資料是該私人資料伺服器本地端的資料; 根據該複數個建模指令以及該至少部分之該本地私人資料,藉由於該本地私人資料上訓練該機器學習演算法之該實作,以藉由一機器學習引擎建立該訓練實際模型,該訓練實際模型包括複數個訓練實際模型參數; 藉由該機器學習引擎,從該本地私人資料產生複數個私人資料分佈,其中該複數個私人資料分佈代表用以建立該訓練實際模型的該本地私人資料的整合; 藉由該機器學習引擎,從該私人資料分佈辨識複數個顯著私人資料特徵,其中該複數個顯著私人資料特徵允許該複數個私人資料分佈之複製;以及 藉由該機器學習引擎,經由一網路傳送該複數個顯著私人資料特徵至一非私人計算裝置。
  33. 如申請專利範圍第32項所述之方法,其中該複數個顯著私人資料特徵包括一組代用資料。
  34. 如申請專利範圍第32項所述之方法,更包括根據以下至少其中之一以產生一組代用資料:該複數個私人資料分佈以及該複數個顯著私人資料特徵。
  35. 如申請專利範圍第34項所述之方法,更包括藉由於該組代用資料上訓練該機器學習演算法之該實作,自該組代用資料建立一訓練代用模型,該訓練代用模型包括複數個代用模型參數。
  36. 如申請專利範圍第35項所述之方法,更包括根據該複數個代用模型參數及該複數個訓練實際模型參數,計算該訓練代用模型的一模型相似分數。
  37. 如申請專利範圍第36項所述之方法,更包括根據該模型相似分數整合該組代用資料為一整合全域模型。
  38. 一種以電腦實施之產生代用資料之方法,該方法使用一私人資料伺服器,該私人資料伺服器用以存取一本地私人資料,且該私人資料伺服器包括至少一建模引擎,該至少一建模引擎用以: 使用一機器學習演算法,從該本地私人資料建立一訓練實際模型; 從至少部分之該本地私人資料產生複數個私人資料分佈,其中該複數個私人資料分佈代表該本地私人資料的整合; 根據該複數個私人資料分佈產生一組代用資料;以及 使用該機器學習演算法,自該組代用資料建立一訓練代用模型。
TW106123791A 2016-07-18 2017-07-17 分散式機器學習系統、分散式機器學習方法、以及產生代用資料之方法 TW201812646A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662363697P 2016-07-18 2016-07-18
US62/363,697 2016-07-18

Publications (1)

Publication Number Publication Date
TW201812646A true TW201812646A (zh) 2018-04-01

Family

ID=60940619

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106123791A TW201812646A (zh) 2016-07-18 2017-07-17 分散式機器學習系統、分散式機器學習方法、以及產生代用資料之方法

Country Status (12)

Country Link
US (3) US11461690B2 (zh)
EP (1) EP3485436A4 (zh)
JP (1) JP2019526851A (zh)
KR (1) KR20190032433A (zh)
CN (1) CN109716346A (zh)
AU (1) AU2017300259A1 (zh)
CA (1) CA3031067A1 (zh)
IL (1) IL264281A (zh)
MX (1) MX2019000713A (zh)
SG (1) SG11201900220RA (zh)
TW (1) TW201812646A (zh)
WO (1) WO2018017467A1 (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI690861B (zh) * 2019-08-21 2020-04-11 中華電信股份有限公司 分散式深度學習系統及方法
TWI703458B (zh) * 2018-08-07 2020-09-01 香港商阿里巴巴集團服務有限公司 資料處理模型構建方法、裝置、伺服器和用戶端
TWI709054B (zh) * 2019-12-05 2020-11-01 財團法人資訊工業策進會 預測模型的建立裝置、建立方法與產品品質監控系統
TWI723868B (zh) * 2019-06-26 2021-04-01 義守大學 一種抽樣後標記應用在類神經網絡訓練模型之方法
TWI726420B (zh) * 2018-12-04 2021-05-01 開曼群島商創新先進技術有限公司 叢集結果的解釋方法和裝置
TWI730288B (zh) * 2019-01-31 2021-06-11 鴻齡科技股份有限公司 深度學習方法、系統、伺服器及可讀存儲介質
TWI739124B (zh) * 2019-04-26 2021-09-11 長佳智能股份有限公司 在被監督狀態下提供類神經網路訓練模型之雲端交易系統及其方法
US11188928B2 (en) 2018-08-03 2021-11-30 Advanced New Technologies Co., Ltd. Marketing method and apparatus based on deep reinforcement learning
TWI753329B (zh) * 2019-12-06 2022-01-21 財團法人工業技術研究院 具風險評估之最佳取樣參數搜尋系統、方法與圖案化使用者介面
US11250322B2 (en) 2019-07-15 2022-02-15 Sony Interactive Entertainment LLC Self-healing machine learning system for transformed data
TWI764081B (zh) * 2019-03-22 2022-05-11 南韓商納寶股份有限公司 組合多個全局描述符以用於圖像檢索的框架
TWI780608B (zh) * 2021-02-26 2022-10-11 華碩電腦股份有限公司 藥物推薦系統與方法
TWI786703B (zh) * 2021-06-28 2022-12-11 顥天光電股份有限公司 人工智慧模型訓練裝置及其應用裝置
US11574193B2 (en) 2018-04-28 2023-02-07 Samsung Electronics Co., Ltd. Method and system for training of neural networks using continuously differentiable models
TWI798583B (zh) * 2020-09-01 2023-04-11 中華電信股份有限公司 加速模擬軟體的模擬結果的產生的電子裝置和方法
TWI800304B (zh) * 2022-03-16 2023-04-21 英業達股份有限公司 使用同義資料的聯邦學習系統
TWI808762B (zh) * 2022-05-18 2023-07-11 動力安全資訊股份有限公司 異常事件監控方法
TWI825531B (zh) * 2021-05-05 2023-12-11 宏碁股份有限公司 用於神經網路運算之用戶設備和無線通訊方法
US11983609B2 (en) 2019-07-10 2024-05-14 Sony Interactive Entertainment LLC Dual machine learning pipelines for transforming data and optimizing data transformation
TWI881345B (zh) * 2022-07-27 2025-04-21 日商樂天集團股份有限公司 預測方法、訓練方法、預測系統及非暫時性電腦可讀媒體
TWI883920B (zh) * 2024-04-16 2025-05-11 中國鋼鐵股份有限公司 儲能系統的監測方法與儲能監測系統

Families Citing this family (541)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10614913B2 (en) * 2010-09-01 2020-04-07 Apixio, Inc. Systems and methods for coding health records using weighted belief networks
US20220253731A1 (en) * 2010-11-23 2022-08-11 Values Centered Innovation Enablement Services, Pvt. Ltd. Dynamic blockchain-based process enablement system (pes)
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
WO2016018348A1 (en) * 2014-07-31 2016-02-04 Hewlett-Packard Development Company, L.P. Event clusters
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11295506B2 (en) 2015-09-16 2022-04-05 Tmrw Foundation Ip S. À R.L. Chip with game engine and ray trace engine
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10534994B1 (en) * 2015-11-11 2020-01-14 Cadence Design Systems, Inc. System and method for hyper-parameter analysis for multi-layer computational structures
US9928230B1 (en) 2016-09-29 2018-03-27 Vignet Incorporated Variable and dynamic adjustments to electronic forms
US11514289B1 (en) 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
US12223282B2 (en) 2016-06-09 2025-02-11 Apple Inc. Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US12197817B2 (en) 2016-06-11 2025-01-14 Apple Inc. Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
WO2018017467A1 (en) 2016-07-18 2018-01-25 NantOmics, Inc. Distributed machine learning systems, apparatus, and methods
EP3497609B1 (en) * 2016-08-11 2020-10-07 Twitter, Inc. Detecting scripted or otherwise anomalous interactions with social media platform
US11196800B2 (en) 2016-09-26 2021-12-07 Google Llc Systems and methods for communication efficient distributed mean estimation
US10769549B2 (en) * 2016-11-21 2020-09-08 Google Llc Management and evaluation of machine-learned models based on locally logged data
US11157657B2 (en) * 2016-12-22 2021-10-26 Liveramp, Inc. Mixed data fingerprinting with principal components analysis
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN108303264B (zh) * 2017-01-13 2020-03-20 华为技术有限公司 一种基于云的车辆故障诊断方法、装置及其系统
WO2018131409A1 (ja) * 2017-01-13 2018-07-19 Kddi株式会社 情報処理方法、情報処理装置及びコンピュータ可読記憶媒体
CN107977163B (zh) * 2017-01-24 2019-09-10 腾讯科技(深圳)有限公司 共享数据回收方法及装置
WO2018176000A1 (en) 2017-03-23 2018-09-27 DeepScale, Inc. Data synthesis for autonomous control systems
US11263275B1 (en) * 2017-04-03 2022-03-01 Massachusetts Mutual Life Insurance Company Systems, devices, and methods for parallelized data structure processing
US11252260B2 (en) * 2017-04-17 2022-02-15 Petuum Inc Efficient peer-to-peer architecture for distributed machine learning
US20180322411A1 (en) * 2017-05-04 2018-11-08 Linkedin Corporation Automatic evaluation and validation of text mining algorithms
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. Multi-modal interfaces
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
CN110019658B (zh) * 2017-07-31 2023-01-20 腾讯科技(深圳)有限公司 检索项的生成方法及相关装置
CN109327421A (zh) * 2017-08-01 2019-02-12 阿里巴巴集团控股有限公司 数据加密、机器学习模型训练方法、装置及电子设备
US10802822B2 (en) * 2017-08-21 2020-10-13 Royal Bank Of Canada System and method for reproducible machine learning
US10311368B2 (en) * 2017-09-12 2019-06-04 Sas Institute Inc. Analytic system for graphical interpretability of and improvement of machine learning models
US10713535B2 (en) * 2017-09-15 2020-07-14 NovuMind Limited Methods and processes of encrypted deep learning services
US20190087542A1 (en) * 2017-09-21 2019-03-21 EasyMarkit Software Inc. System and method for cross-region patient data management and communication
US11869237B2 (en) * 2017-09-29 2024-01-09 Sony Interactive Entertainment Inc. Modular hierarchical vision system of an autonomous personal companion
US11341429B1 (en) * 2017-10-11 2022-05-24 Snap Inc. Distributed machine learning for improved privacy
US12265649B2 (en) * 2017-10-13 2025-04-01 Nippon Telegraph And Telephone Corporation Synthetic data generation apparatus, method for the same, and program
US20220222752A1 (en) * 2017-10-16 2022-07-14 Mitchell International, Inc. Methods for analyzing insurance data and devices thereof
US10909266B2 (en) * 2017-10-24 2021-02-02 Merck Sharp & Dohme Corp. Adaptive model for database security and processing
US12231151B1 (en) * 2017-10-30 2025-02-18 Atombeam Technologies Inc Federated large codeword model deep learning architecture with homomorphic compression and encryption
WO2019089389A1 (en) * 2017-11-03 2019-05-09 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for prioritizing software vulnerabilities for patching
US11354590B2 (en) * 2017-11-14 2022-06-07 Adobe Inc. Rule determination for black-box machine-learning models
US11669769B2 (en) 2018-12-13 2023-06-06 Diveplane Corporation Conditioned synthetic data generation in computer-based reasoning systems
US11640561B2 (en) 2018-12-13 2023-05-02 Diveplane Corporation Dataset quality for synthetic data generation in computer-based reasoning systems
US11727286B2 (en) 2018-12-13 2023-08-15 Diveplane Corporation Identifier contribution allocation in synthetic data generation in computer-based reasoning systems
US11676069B2 (en) 2018-12-13 2023-06-13 Diveplane Corporation Synthetic data generation using anonymity preservation in computer-based reasoning systems
JP6649349B2 (ja) * 2017-11-21 2020-02-19 株式会社テクロック・スマートソリューションズ 測定ソリューションサービス提供システム
EP3701403B1 (en) * 2017-11-27 2024-02-14 Siemens Industry Software NV Accelerated simulation setup process using prior knowledge extraction for problem matching
US10810320B2 (en) * 2017-12-01 2020-10-20 At&T Intellectual Property I, L.P. Rule based access to voluntarily provided data housed in a protected region of a data storage device
EP3499459A1 (en) * 2017-12-18 2019-06-19 FEI Company Method, device and system for remote deep learning for microscopic image reconstruction and segmentation
US10841331B2 (en) * 2017-12-19 2020-11-17 International Business Machines Corporation Network quarantine management system
EP3503117B1 (en) * 2017-12-20 2024-12-18 Nokia Technologies Oy Updating learned models
EP3503012A1 (en) * 2017-12-20 2019-06-26 Accenture Global Solutions Limited Analytics engine for multiple blockchain nodes
US11928716B2 (en) * 2017-12-20 2024-03-12 Sap Se Recommendation non-transitory computer-readable medium, method, and system for micro services
US11693989B2 (en) * 2017-12-21 2023-07-04 Koninklijke Philips N.V. Computer-implemented methods and nodes implementing performance estimation of algorithms during evaluation of data sets using multiparty computation based random forest
US12307350B2 (en) 2018-01-04 2025-05-20 Tesla, Inc. Systems and methods for hardware-based pooling
WO2019143737A1 (en) 2018-01-17 2019-07-25 Unlearn Ai, Inc. Systems and methods for modeling probability distributions
US11475350B2 (en) 2018-01-22 2022-10-18 Google Llc Training user-level differentially private machine-learned models
US11009452B2 (en) 2018-01-26 2021-05-18 Viavi Solutions Inc. Reduced false positive identification for spectroscopic quantification
US10810408B2 (en) 2018-01-26 2020-10-20 Viavi Solutions Inc. Reduced false positive identification for spectroscopic classification
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
GB2571703A (en) * 2018-02-07 2019-09-11 Thoughtriver Ltd A computer system
KR101880175B1 (ko) * 2018-02-13 2018-07-19 주식회사 마크로젠 복수의 블록체인에 기반을 둔 생명정보 데이터 제공 방법, 생명정보 데이터 저장 방법 및 생명정보 데이터 전송 시스템
EP3528179A1 (en) * 2018-02-15 2019-08-21 Koninklijke Philips N.V. Training a neural network
EP3528435B1 (en) * 2018-02-16 2021-03-31 Juniper Networks, Inc. Automated configuration and data collection during modeling of network devices
US10250381B1 (en) * 2018-02-22 2019-04-02 Capital One Services, Llc Content validation using blockchain
US11301951B2 (en) * 2018-03-15 2022-04-12 The Calany Holding S. À R.L. Game engine and artificial intelligence engine on a chip
US11940958B2 (en) * 2018-03-15 2024-03-26 International Business Machines Corporation Artificial intelligence software marketplace
US20210027182A1 (en) * 2018-03-21 2021-01-28 Visa International Service Association Automated machine learning systems and methods
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11245726B1 (en) * 2018-04-04 2022-02-08 NortonLifeLock Inc. Systems and methods for customizing security alert reports
US10707996B2 (en) * 2018-04-06 2020-07-07 International Business Machines Corporation Error correcting codes with bayes decoder and optimized codebook
US11262742B2 (en) * 2018-04-09 2022-03-01 Diveplane Corporation Anomalous data detection in computer based reasoning and artificial intelligence systems
CA3096405A1 (en) * 2018-04-09 2019-10-17 Veda Data Solutions, Inc. Processing personal data using machine learning algorithms, and applications thereof
US11385633B2 (en) * 2018-04-09 2022-07-12 Diveplane Corporation Model reduction and training efficiency in computer-based reasoning and artificial intelligence systems
US11093640B2 (en) 2018-04-12 2021-08-17 International Business Machines Corporation Augmenting datasets with selected de-identified data records
US10770171B2 (en) * 2018-04-12 2020-09-08 International Business Machines Corporation Augmenting datasets using de-identified data and selected authorized records
US11922283B2 (en) 2018-04-20 2024-03-05 H2O.Ai Inc. Model interpretation
US11386342B2 (en) 2018-04-20 2022-07-12 H2O.Ai Inc. Model interpretation
SG11202009599SA (en) * 2018-04-20 2020-10-29 H2O Ai Inc Model interpretation
US10834112B2 (en) 2018-04-24 2020-11-10 At&T Intellectual Property I, L.P. Web page spectroscopy
EP3750115B1 (en) * 2018-04-25 2024-06-19 Samsung Electronics Co., Ltd. Machine learning on a blockchain
EP3564873B1 (en) * 2018-04-30 2022-11-30 Hewlett Packard Enterprise Development LP System and method of decentralized machine learning using blockchain
US10878518B2 (en) * 2018-04-30 2020-12-29 International Business Machines Corporation Blockchain enabled quality control in construction projects
EP3788627A1 (en) * 2018-04-30 2021-03-10 Koninklijke Philips N.V. Adapting a machine learning model based on a second set of training data
EP3564883B1 (en) 2018-04-30 2023-09-06 Hewlett Packard Enterprise Development LP System and method of decentralized management of device assets outside a computer network
EP3565218B1 (en) 2018-04-30 2023-09-27 Hewlett Packard Enterprise Development LP System and method of decentralized management of multi-owner nodes using blockchain
US10692467B2 (en) * 2018-05-04 2020-06-23 Microsoft Technology Licensing, Llc Automatic application of mapping functions to video signals based on inferred parameters
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN110297178B (zh) * 2018-05-11 2024-10-25 北部湾大学 基于深度学习的柴油发电机组故障诊断与检测装置及方法
JP7115693B2 (ja) * 2018-05-18 2022-08-09 株式会社島津製作所 診断支援システム、診断支援装置および診断支援方法
US11392621B1 (en) * 2018-05-21 2022-07-19 Pattern Computer, Inc. Unsupervised information-based hierarchical clustering of big data
US12248877B2 (en) * 2018-05-23 2025-03-11 Movidius Ltd. Hybrid neural network pruning
US11477166B2 (en) * 2018-05-29 2022-10-18 Cognizant Technology Solutions U.S. Corporation Systems and methods for providing secure evolution as a service
US12373091B1 (en) * 2018-05-31 2025-07-29 Blue Yonder Group, Inc. System and method for intelligent multi-modal interactions in merchandise and assortment planning
US11494693B2 (en) 2018-06-01 2022-11-08 Nami Ml Inc. Machine learning model re-training based on distributed feedback
US12327171B2 (en) 2018-06-01 2025-06-10 International Business Machines Corporation Data platform to protect security of data
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10536344B2 (en) * 2018-06-04 2020-01-14 Cisco Technology, Inc. Privacy-aware model generation for hybrid machine learning systems
US10867067B2 (en) * 2018-06-07 2020-12-15 Cisco Technology, Inc. Hybrid cognitive system for AI/ML data privacy
CA3103866C (en) * 2018-06-19 2022-10-25 Ivenix, Inc. Fluid delivery event tracking and transaction management
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11032251B2 (en) 2018-06-29 2021-06-08 International Business Machines Corporation AI-powered cyber data concealment and targeted mission execution
CN112399819B (zh) * 2018-07-02 2024-08-23 3M创新有限公司 用于监测时间相关过程的传感系统和方法
CN110750591A (zh) * 2018-07-04 2020-02-04 全球智能股份有限公司 人工智能知识管理系统与其形成分布式记录的方法
US10635939B2 (en) 2018-07-06 2020-04-28 Capital One Services, Llc System, method, and computer-accessible medium for evaluating multi-dimensional synthetic data using integrated variants analysis
US11474978B2 (en) 2018-07-06 2022-10-18 Capital One Services, Llc Systems and methods for a data search engine based on data profiles
CN109032579A (zh) * 2018-07-06 2018-12-18 无锡雪浪数制科技有限公司 一种可视化模型在线预测系统
US10990694B2 (en) * 2018-07-11 2021-04-27 Salesforce.Com, Inc. Processing private data using a workflow action
CN112424779A (zh) * 2018-07-13 2021-02-26 映佳控制公司 为给定任务生成合成匿名数据的方法和系统
US10691901B2 (en) * 2018-07-13 2020-06-23 Carnegie Mellon University Sequence generation using neural networks with continuous outputs
US10877835B2 (en) * 2018-07-19 2020-12-29 Micron Technology, Inc. Write buffer management
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US10609434B2 (en) 2018-08-07 2020-03-31 Adobe Inc. Machine-learning based multi-step engagement strategy generation and visualization
US11107115B2 (en) 2018-08-07 2021-08-31 Adobe Inc. Machine-learning based multi-step engagement strategy modification
KR102107021B1 (ko) * 2018-08-10 2020-05-07 주식회사 딥핑소스 데이터를 식별 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
US11489662B2 (en) * 2018-08-30 2022-11-01 International Business Machines Corporation Special relationships in a blockchain
US11151165B2 (en) * 2018-08-30 2021-10-19 Microsoft Technology Licensing, Llc Data classification using data flow analysis
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11244242B2 (en) 2018-09-07 2022-02-08 Intel Corporation Technologies for distributing gradient descent computation in a heterogeneous multi-access edge computing (MEC) networks
US20200082279A1 (en) * 2018-09-11 2020-03-12 Synaptics Incorporated Neural network inferencing on protected data
WO2020053887A1 (en) * 2018-09-11 2020-03-19 Remidio Innovative Solutions Pvt. Ltd. Distributed training of systems for medical image analysis
US11699080B2 (en) * 2018-09-14 2023-07-11 Cisco Technology, Inc. Communication efficient machine learning of data across multiple sites
US11899763B2 (en) 2018-09-17 2024-02-13 Microsoft Technology Licensing, Llc Supervised learning system for identity compromise risk computation
CA3113807A1 (en) * 2018-09-25 2020-04-02 Coalesce, Inc. Model aggregation using model encapsulation of user-directed iterative machine learning
US10805353B2 (en) * 2018-09-26 2020-10-13 Bank Of America Corporation Security tool
US11354539B2 (en) 2018-09-27 2022-06-07 International Business Machines Corporation Encrypted data model verification
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
WO2020068360A1 (en) 2018-09-28 2020-04-02 Apple Inc. Distributed labeling for supervised learning
US11694774B9 (en) * 2018-10-10 2025-06-17 Avident Health, Llc Platform for perpetual clinical collaboration and innovation with patient communication using anonymized electronic health record data, clinical, and patient reported outcomes and data
JP7539872B2 (ja) 2018-10-11 2024-08-26 テスラ,インコーポレイテッド 拡張データによって機械モデルを訓練するためのシステムおよび方法
CN109446188B (zh) * 2018-10-17 2021-06-25 大国创新智能科技(东莞)有限公司 基于大数据和深度学习的跟踪审计方法和机器人系统
DE102018217901A1 (de) 2018-10-18 2020-04-23 Leica Microsystems Cms Gmbh Optimierung von Arbeitsabläufen von Mikroskopen
US11573962B2 (en) 2018-10-19 2023-02-07 Oracle International Corporation Dynamic performance tuning based on implied data characteristics
US10970402B2 (en) * 2018-10-19 2021-04-06 International Business Machines Corporation Distributed learning preserving model security
US11568179B2 (en) * 2018-10-19 2023-01-31 Oracle International Corporation Selecting an algorithm for analyzing a data set based on the distribution of the data set
US11010472B1 (en) 2018-10-23 2021-05-18 Architecture Technology Corporation Systems and methods for signature-less endpoint protection against zero-day malware attacks
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
EP3861487B1 (en) 2018-10-30 2025-08-27 Howso Incorporated Clustering, explainability, and automated decisions in computer-based reasoning systems
US11507822B2 (en) * 2018-10-31 2022-11-22 General Electric Company Scalable artificial intelligence model generation systems and methods for healthcare
US12001931B2 (en) 2018-10-31 2024-06-04 Allstate Insurance Company Simultaneous hyper parameter and feature selection optimization using evolutionary boosting machines
US11550970B2 (en) * 2018-11-02 2023-01-10 Wells Fargo Bank, N.A. Resolving opaqueness of complex machine learning applications
US12217143B1 (en) * 2018-11-02 2025-02-04 Wells Fargo Bank, N.A. Resolving opaqueness of complex machine learning applications
US10576380B1 (en) * 2018-11-05 2020-03-03 Sony Interactive Entertainment LLC Artificial intelligence (AI) model training using cloud gaming network
WO2020106650A1 (en) 2018-11-19 2020-05-28 Nant Holdings Ip, Llc Distributed ledger tracking of event data
US10904072B2 (en) * 2018-11-19 2021-01-26 Accenture Global Solutions Limited System and method for recommending automation solutions for technology infrastructure issues
CN109347863B (zh) * 2018-11-21 2021-04-06 成都城电电力工程设计有限公司 一种改进的免疫的网络异常行为检测方法
CN109543763B (zh) * 2018-11-28 2022-10-21 重庆大学 一种基于卷积神经网络的拉曼光谱分析方法
CN109690530A (zh) * 2018-11-29 2019-04-26 袁振南 模型训练方法及其节点、网络及存储装置
JP7087969B2 (ja) * 2018-12-03 2022-06-21 日本電信電話株式会社 前処理装置、前処理方法及び前処理プログラム
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
WO2020123999A1 (en) 2018-12-13 2020-06-18 Diveplane Corporation Synthetic data generation in computer-based reasoning systems
CN111324787B (zh) * 2018-12-14 2023-06-23 北京沃东天骏信息技术有限公司 区块链浏览器中区块链数据的展现方法和装置
US11205504B2 (en) 2018-12-19 2021-12-21 Cardinal Health Commercial Technologies, Llc System and method for computerized synthesis of simulated health data
US11436248B2 (en) * 2018-12-20 2022-09-06 At&T Intellectual Property I, L.P. Systems and methods for providing dynamically configured responsive storage
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
KR102247322B1 (ko) * 2018-12-28 2021-05-03 연세대학교 산학협력단 연합된 디스틸레이션 기반의 러닝 구동 방법, 러닝 구동 서버 및 러닝 구동 단말
US20220051139A1 (en) * 2018-12-28 2022-02-17 Telefonaktiebolaget Lm Ericsson (Publ) Wireless device, a network node and methods therein for training of a machine learning model
US11281801B2 (en) * 2019-01-02 2022-03-22 International Business Machines Corporation Decentralized privacy-preserving clinical data evaluation
US11816548B2 (en) * 2019-01-08 2023-11-14 International Business Machines Corporation Distributed learning using ensemble-based fusion
SG11201909946UA (en) * 2019-01-11 2019-11-28 Alibaba Group Holding Ltd Logistic regression modeling scheme using secrete sharing
JP7036049B2 (ja) * 2019-01-18 2022-03-15 オムロン株式会社 モデル統合装置、モデル統合方法、モデル統合プログラム、推論システム、検査システム、及び制御システム
CN111464485A (zh) * 2019-01-22 2020-07-28 北京金睛云华科技有限公司 一种加密代理流量检测方法和装置
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
WO2020155083A1 (zh) * 2019-02-01 2020-08-06 华为技术有限公司 神经网络的分布式训练方法及装置
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10911417B2 (en) * 2019-02-07 2021-02-02 Egress Software Technologies Ip Limited Method and system for processing data packages
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
CN109871702B (zh) * 2019-02-18 2024-06-28 深圳前海微众银行股份有限公司 联邦模型训练方法、系统、设备及计算机可读存储介质
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US11966818B2 (en) 2019-02-21 2024-04-23 Hewlett Packard Enterprise Development Lp System and method for self-healing in decentralized model building for machine learning using blockchain
US20200273570A1 (en) * 2019-02-22 2020-08-27 Accenture Global Solutions Limited Predictive analysis platform
JP7304960B2 (ja) * 2019-02-26 2023-07-07 フラティロン ヘルス,インコーポレイテッド 健康情報に基づく予後スコア
WO2020176304A1 (en) * 2019-02-28 2020-09-03 Skidmore Owings & Merrill Llp Machine learning tool for structures
US12106544B2 (en) * 2019-03-01 2024-10-01 Telefonaktiebolaget Lm Ericsson (Publ) Method, program, and apparatus for managing a tree-based learner
EP3709309A1 (en) * 2019-03-11 2020-09-16 Koninklijke Philips N.V. Medical data collection for machine learning
US11065549B2 (en) * 2019-03-15 2021-07-20 Sony Interactive Entertainment Inc. AI modeling for video game coaching and matchmaking
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
EP3948692A4 (en) 2019-03-27 2023-03-29 Cognizant Technology Solutions U.S. Corporation METHOD AND SYSTEM USING AN OPTIMIZATION MACHINE WITH EVOLUTIONARY SURROGATE ASSESSED TARGETS
US11494637B2 (en) * 2019-03-28 2022-11-08 International Business Machines Corporation Layer-wise distillation for protecting pre-trained neural network models
US11966851B2 (en) * 2019-04-02 2024-04-23 International Business Machines Corporation Construction of a machine learning model
US11138003B2 (en) * 2019-04-02 2021-10-05 Taplytics Inc. Methods and systems for automatic determination of a device-specific configuration for a software application operating on a user device
US11250062B2 (en) * 2019-04-04 2022-02-15 Kpn Innovations Llc Artificial intelligence methods and systems for generation and implementation of alimentary instruction sets
US11948159B2 (en) * 2019-04-08 2024-04-02 Google Llc Scalable matrix factorization in a database
CN111797851A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 特征提取方法、装置、存储介质及电子设备
US11250937B2 (en) 2019-04-12 2022-02-15 International Business Machines Corporation System and method to share and utilize healthcare data
US20220083896A9 (en) * 2019-04-12 2022-03-17 Userzoom Technologies, Inc. Systems and methods for improved modelling of partitioned datasets
CN111833078A (zh) * 2019-04-15 2020-10-27 泰康保险集团股份有限公司 基于区块链的推荐方法、装置、介质及电子设备
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11461664B2 (en) * 2019-05-07 2022-10-04 Kpn Innovations, Llc. Methods and systems for an artificial intelligence alimentary professional support network for vibrant constitutional guidance
US11139961B2 (en) * 2019-05-07 2021-10-05 International Business Machines Corporation Private and federated learning
US11797879B2 (en) * 2019-05-13 2023-10-24 Sap Se Machine learning on distributed customer data while protecting privacy
US20220222368A1 (en) * 2019-05-14 2022-07-14 Equifax Inc. Data protection via attributes-based aggregation
US11531875B2 (en) * 2019-05-14 2022-12-20 Nasdaq, Inc. Systems and methods for generating datasets for model retraining
CN110084225A (zh) * 2019-05-16 2019-08-02 中国联合网络通信集团有限公司 基于5g云存储的扫描、数字运算及打印装置和系统
EP3742669B1 (en) * 2019-05-20 2023-11-08 Nokia Technologies Oy Machine learning in radio access networks
US11568257B2 (en) * 2019-05-20 2023-01-31 Vmware, Inc. Secure cloud-based machine learning without sending original data to the cloud
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11269859B1 (en) * 2019-05-22 2022-03-08 Splunk Inc. Correlating different types of data of a distributed ledger system
US11521091B2 (en) 2019-05-22 2022-12-06 International Business Machines Corporation Leveraging correlation across agents for enhanced distributed machine learning
FI20195426A1 (en) * 2019-05-23 2020-11-24 Univ Helsinki Compatible anonymisation of datasets from different sources
CN111082961B (zh) * 2019-05-28 2023-01-20 中兴通讯股份有限公司 域间的数据交互方法及装置
CN110210626A (zh) * 2019-05-31 2019-09-06 京东城市(北京)数字科技有限公司 数据处理方法、装置和计算机可读存储介质
US11496600B2 (en) * 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11887585B2 (en) * 2019-05-31 2024-01-30 Apple Inc. Global re-ranker
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
EP3751467A1 (en) * 2019-06-14 2020-12-16 Robert Bosch GmbH A machine learning system
US12154012B2 (en) * 2019-06-14 2024-11-26 Open Text Sa Ulc Systems and methods for lightweight cloud-based machine learning model service
US11625884B2 (en) 2019-06-18 2023-04-11 The Calany Holding S. À R.L. Systems, methods and apparatus for implementing tracked data communications on a chip
CN110263928A (zh) * 2019-06-18 2019-09-20 中国科学技术大学 保护数据隐私的基于移动设备的分布式深度学习训练方法
EP3754550A1 (en) * 2019-06-21 2020-12-23 Siemens Healthcare GmbH Method for providing an aggregate algorithm for processing medical data and method for processing medical data
US11314892B2 (en) 2019-06-26 2022-04-26 International Business Machines Corporation Mitigating governance impact on machine learning
CN112148419B (zh) * 2019-06-28 2024-01-02 杭州海康威视数字技术股份有限公司 云平台中镜像管理方法、装置、系统及存储介质
CN110298185A (zh) * 2019-06-28 2019-10-01 北京金山安全软件有限公司 一种模型训练方法、装置、电子设备及存储介质
US11114193B2 (en) * 2019-07-03 2021-09-07 Kpn Innovations, Llc Methods and systems for optimizing dietary levels utilizing artificial intelligence
WO2021006861A1 (en) * 2019-07-05 2021-01-14 Visa International Service Association Method and system using ai call prediction and cache
US20210012196A1 (en) * 2019-07-11 2021-01-14 The Regents Of The University Of California Peer-to-peer training of a machine learning model
US20220358762A1 (en) * 2019-07-17 2022-11-10 Nagrastar, Llc Systems and methods for piracy detection and prevention
KR20210010284A (ko) 2019-07-18 2021-01-27 삼성전자주식회사 인공지능 모델의 개인화 방법 및 장치
WO2021018370A1 (en) * 2019-07-26 2021-02-04 Telefonaktiebolaget Lm Ericsson (Publ) Methods for data model sharing for a radio access network and related infrastructure
US11883206B2 (en) 2019-07-29 2024-01-30 Hologic, Inc. Personalized breast imaging system
FR3099613B1 (fr) * 2019-07-30 2022-10-28 Amadeus Systèmes d’apprentissage automatiques et procédés pour le placement de données dans le stockage distribué
US20220280034A1 (en) * 2019-07-31 2022-09-08 Nikon Corporation Information processing system, information processing apparatus, information processing program, and information processing method
CN110503135B (zh) * 2019-07-31 2023-04-25 上海交通大学烟台信息技术研究院 用于电力设备边缘侧识别的深度学习模型压缩方法及系统
US11870804B2 (en) * 2019-08-01 2024-01-09 Akamai Technologies, Inc. Automated learning and detection of web bot transactions using deep learning
CN110532320B (zh) * 2019-08-01 2023-06-27 立旃(上海)科技有限公司 基于区块链的训练数据管理方法及装置
KR20210015531A (ko) * 2019-08-02 2021-02-10 삼성전자주식회사 뉴럴 네트워크 모델을 업데이트하는 방법 및 시스템
KR102063781B1 (ko) * 2019-08-08 2020-01-08 주식회사 클리노믹스 유전적 구성비를 이용한 질병 또는 표현형의 위험도 예측 장치 및 방법
US11436501B1 (en) * 2019-08-09 2022-09-06 Bottomline Technologies, Inc. Personalization of a user interface using machine learning
US11392796B2 (en) * 2019-08-20 2022-07-19 Micron Technology, Inc. Feature dictionary for bandwidth enhancement
US11636334B2 (en) 2019-08-20 2023-04-25 Micron Technology, Inc. Machine learning with feature obfuscation
US11755884B2 (en) 2019-08-20 2023-09-12 Micron Technology, Inc. Distributed machine learning with privacy protection
JP7235125B2 (ja) * 2019-08-21 2023-03-08 日本電気株式会社 認識システム、モデル処理装置、モデル処理方法、及び、プログラム
US11532387B2 (en) * 2019-08-22 2022-12-20 International Business Machines Corporation Identifying information in plain text narratives EMRs
CN110991622B (zh) * 2019-08-22 2021-06-04 腾讯科技(深圳)有限公司 基于区块链网络的机器学习模型处理方法及节点
CA3149229A1 (en) * 2019-08-23 2021-03-04 Charles Kenneth Fisher Systems and methods for supplementing data with generative models
US20220321424A1 (en) * 2019-08-28 2022-10-06 Telefonaktiebolaget Lm Ericsson (Publ) Network nodes and methods for handling machine learning models in a communications network
CN110784507B (zh) * 2019-09-05 2022-12-09 贵州人和致远数据服务有限责任公司 人口信息数据的融合方法及系统
CN110706749B (zh) * 2019-09-10 2022-06-10 至本医疗科技(上海)有限公司 一种基于组织器官分化层次关系的癌症类型预测系统和方法
CN110633797B (zh) * 2019-09-11 2022-12-02 北京百度网讯科技有限公司 网络模型结构的搜索方法、装置以及电子设备
KR102215978B1 (ko) * 2019-09-17 2021-02-16 주식회사 라인웍스 블록체인망 상 비동기 분산 병렬형 앙상블 모델 학습 및 추론 시스템 및 그 방법
US11157776B2 (en) 2019-09-20 2021-10-26 International Business Machines Corporation Systems and methods for maintaining data privacy in a shared detection model system
US11080352B2 (en) * 2019-09-20 2021-08-03 International Business Machines Corporation Systems and methods for maintaining data privacy in a shared detection model system
CN110795477A (zh) * 2019-09-20 2020-02-14 平安科技(深圳)有限公司 数据的训练方法及装置、系统
US11188320B2 (en) 2019-09-20 2021-11-30 International Business Machines Corporation Systems and methods for updating detection models and maintaining data privacy
US11216268B2 (en) 2019-09-20 2022-01-04 International Business Machines Corporation Systems and methods for updating detection models and maintaining data privacy
US11449796B2 (en) * 2019-09-20 2022-09-20 Amazon Technologies, Inc. Machine learning inference calls for database query processing
DE112020004590T5 (de) * 2019-09-26 2022-06-09 Fujifilm Corporation System und verfahren für maschinelles lernen, integrationsserver, informationsverarbeitungsvorrichtung, programm und inferenzmodell-erzeugungsverfahren
EP3798934A1 (en) * 2019-09-27 2021-03-31 Siemens Healthcare GmbH Method and system for scalable and decentralized incremental machine learning which protects data privacy
US11669729B2 (en) * 2019-09-27 2023-06-06 Canon Medical Systems Corporation Model training method and apparatus
DE112020004688T5 (de) * 2019-09-30 2022-06-15 Amazon Technologies, Inc. Debuggen und erstellen von profilen von maschinenlernmodelltraining
US11455573B2 (en) 2019-09-30 2022-09-27 International Business Machines Corporation Data protection distributed learning
JP2022551612A (ja) * 2019-10-02 2022-12-12 エンドポイント ヘルス インコーポレイテッド 医療診断および介入推奨の指示
WO2021071399A1 (en) * 2019-10-09 2021-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Developing machine-learning models
US10860892B1 (en) 2019-10-09 2020-12-08 Capital One Services, Llc Systems and methods of synthetic data generation for data stream
US20230119103A1 (en) * 2019-10-11 2023-04-20 Nippon Telegraph And Telephone Corporation Training device, classification device, training method, and training program
US11551141B2 (en) * 2019-10-14 2023-01-10 Sap Se Data access control and workload management framework for development of machine learning (ML) models
US20210117829A1 (en) * 2019-10-16 2021-04-22 International Business Machines Corporation Learning pattern dictionary from noisy numerical data in distributed networks
EP3809279B1 (en) * 2019-10-18 2025-10-01 Amadeus S.A.S. Device, system and method for training machine learning models using messages associated with provider objects
WO2021079792A1 (ja) * 2019-10-23 2021-04-29 富士フイルム株式会社 機械学習システムおよび方法、統合サーバ、情報処理装置、プログラムならびに推論モデルの作成方法
CN110782340B (zh) * 2019-10-25 2021-09-07 深圳前海微众银行股份有限公司 决策树模型的交互式建模方法、装置、设备及存储介质
WO2021086305A1 (en) * 2019-10-28 2021-05-06 Google Llc Maintaining privacy during attribution of a condition
EP4055529A2 (en) * 2019-11-05 2022-09-14 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatus for machine learning model life cycle
US11604984B2 (en) * 2019-11-18 2023-03-14 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for machine learning based modeling
US11379727B2 (en) * 2019-11-25 2022-07-05 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for enhancing a distributed medical network
US11763138B2 (en) * 2019-11-27 2023-09-19 Intuit Inc. Method and system for generating synthetic data using a regression model while preserving statistical properties of underlying data
CN110942155A (zh) * 2019-11-29 2020-03-31 广西电网有限责任公司 一种机器学习引擎的研究方法
KR102392798B1 (ko) * 2019-12-06 2022-05-02 (주)지와이네트웍스 화재 감시 방법 및 화재 감시를 위한 신경망 모델의 블록체인 기반 학습 방법
CN112925558B (zh) * 2019-12-09 2022-05-17 支付宝(杭州)信息技术有限公司 模型联合训练方法及装置
SE545545C2 (en) * 2019-12-12 2023-10-17 Assa Abloy Ab Device and method for processing an input media feed for monitoring a person using an artificial intelligence (AI) engine
US11727284B2 (en) 2019-12-12 2023-08-15 Business Objects Software Ltd Interpretation of machine learning results using feature analysis
CN111212110B (zh) * 2019-12-13 2022-06-03 清华大学深圳国际研究生院 一种基于区块链的联邦学习系统及方法
CN111079947B (zh) * 2019-12-20 2022-05-17 支付宝(杭州)信息技术有限公司 一种基于可选隐私数据进行模型训练的方法及系统
CN111104911A (zh) * 2019-12-20 2020-05-05 湖南千视通信息科技有限公司 一种基于大数据训练的行人重识别方法及装置
JP7589981B2 (ja) * 2019-12-25 2024-11-26 国立大学法人京都大学 推定支援装置および学習済みモデルと、当該推定支援装置を備えるケア支援装置および転帰予測装置と、当該ケア支援装置を備える転帰予測装置
FR3105859B1 (fr) * 2019-12-26 2023-10-06 Thales Sa Procédé d'échanges de données entre au moins deux terminaux et dispositifs associés
KR102420895B1 (ko) 2019-12-31 2022-07-13 연세대학교 산학협력단 다중 경로 혼합 기반 학습 데이터 획득 장치 및 방법
KR102138166B1 (ko) * 2020-01-07 2020-07-27 주식회사 클리노믹스 인공지능 기반 게놈 빅데이터를 이용한 자기개선 유전자 검사 서비스 제공 방법
CN113128686A (zh) * 2020-01-16 2021-07-16 华为技术有限公司 模型训练方法及装置
WO2021144992A1 (ja) * 2020-01-17 2021-07-22 富士通株式会社 制御方法、制御プログラム、及び情報処理装置
US20210225463A1 (en) * 2020-01-22 2021-07-22 doc.ai, Inc. System and Method with Federated Learning Model for Medical Research Applications
CN111324453B (zh) * 2020-01-23 2023-01-03 天津大学 用于区块链平台资源调度的方法
US11218293B2 (en) 2020-01-27 2022-01-04 Hewlett Packard Enterprise Development Lp Secure parameter merging using homomorphic encryption for swarm learning
US11748835B2 (en) 2020-01-27 2023-09-05 Hewlett Packard Enterprise Development Lp Systems and methods for monetizing data in decentralized model building for machine learning using a blockchain
KR102126197B1 (ko) * 2020-01-29 2020-06-24 주식회사 카카오뱅크 비식별화된 이미지를 이용한 신경망 학습 방법 및 이를 제공하는 서버
US12393883B2 (en) 2020-01-31 2025-08-19 Hewlett Packard Enterprise Development Lp Adaptively synchronizing learning of multiple learning models
CN114930347A (zh) * 2020-02-03 2022-08-19 英特尔公司 用于无线边缘动态的分布式学习的系统和方法
GB202001468D0 (en) * 2020-02-04 2020-03-18 Tom Tom Navigation B V Navigation system
US11275883B2 (en) * 2020-02-12 2022-03-15 Siemens Industry Software Inc. Machine learning-based classification in parasitic extraction automation for circuit design and verification
US12039416B2 (en) * 2020-02-21 2024-07-16 Sap Se Facilitating machine learning using remote data
US12026613B2 (en) 2020-03-02 2024-07-02 International Business Machines Corporation Transfer learning across automated machine learning systems
WO2021177879A1 (en) * 2020-03-02 2021-09-10 Telefonaktiebolaget Lm Ericsson (Publ) Synthetic data generation in federated learning systems
CN111210093B (zh) * 2020-03-05 2023-05-09 重庆森鑫炬科技有限公司 基于大数据的日用水量预测方法
US20210279219A1 (en) * 2020-03-09 2021-09-09 Truata Limited System and method for generating synthetic datasets
US11361749B2 (en) 2020-03-11 2022-06-14 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US11783025B2 (en) 2020-03-12 2023-10-10 International Business Machines Corporation Training diverse and robust ensembles of artificial intelligence computer models
JP7461763B2 (ja) * 2020-03-18 2024-04-04 セコム株式会社 分散機械学習装置、分散機械学習方法、分散機械学習プログラム及びデータ処理システム
US20230122353A1 (en) * 2020-03-19 2023-04-20 Dignity Health Computer-implemented systems and methods for computing provider attribution
KR102211851B1 (ko) * 2020-03-20 2021-02-03 주식회사 루닛 데이터의 특징점을 취합하여 기계 학습하는 방법 및 장치
KR102211852B1 (ko) * 2020-03-20 2021-02-03 주식회사 루닛 데이터의 특징점을 취합하여 기계 학습하는 방법 및 장치
CN111429003B (zh) * 2020-03-23 2023-11-03 北京互金新融科技有限公司 数据处理方法及装置
US11734614B1 (en) * 2020-03-26 2023-08-22 Amazon Technologies, Inc. Training service for an aggregated machine learning model
WO2021193815A1 (ja) 2020-03-27 2021-09-30 富士フイルム株式会社 機械学習システムおよび方法、統合サーバ、情報処理装置、プログラムならびに推論モデルの作成方法
US11507887B2 (en) 2020-03-27 2022-11-22 Cisco Technology, Inc. Model interpretability using proxy features
CN111461304B (zh) * 2020-03-31 2023-09-15 北京小米松果电子有限公司 分类神经网络的训练方法、文本分类方法、装置及设备
US11580455B2 (en) 2020-04-01 2023-02-14 Sap Se Facilitating machine learning configuration
CN111444021B (zh) * 2020-04-02 2023-03-24 电子科技大学 基于分布式机器学习的同步训练方法、服务器及系统
US20210312336A1 (en) * 2020-04-03 2021-10-07 International Business Machines Corporation Federated learning of machine learning model features
US12099934B2 (en) * 2020-04-07 2024-09-24 Cognizant Technology Solutions U.S. Corporation Framework for interactive exploration, evaluation, and improvement of AI-generated solutions
CN113297264B (zh) * 2020-04-10 2025-09-02 阿里巴巴集团控股有限公司 用于大规模并行处理数据库的方法及装置
EP3901713B1 (de) * 2020-04-23 2023-08-16 Siemens Aktiengesellschaft Verfahren und system zum betrieb einer technischen anlage mit einem optimalen modell
JP7363662B2 (ja) * 2020-04-28 2023-10-18 富士通株式会社 生成方法,情報処理装置及び生成プログラム
KR102393109B1 (ko) * 2020-04-29 2022-05-03 한국전력공사 이종 기관 간 협업을 위한 빅데이터 플랫폼 및 전역 학습 모델을 이용한 빅데이터 학습 방법
US12301635B2 (en) 2020-05-11 2025-05-13 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11715044B2 (en) * 2020-06-02 2023-08-01 Huawei Cloud Computing Technologies Co., Ltd. Methods and systems for horizontal federated learning using non-IID data
US11775841B2 (en) 2020-06-15 2023-10-03 Cognizant Technology Solutions U.S. Corporation Process and system including explainable prescriptions through surrogate-assisted evolution
CN111860828B (zh) * 2020-06-15 2023-11-28 北京仿真中心 一种神经网络的训练方法、存储介质和设备
US11620575B2 (en) 2020-06-17 2023-04-04 At&T Intellectual Property I, L.P. Interactive and dynamic mapping engine (iDME)
WO2021262139A1 (en) * 2020-06-22 2021-12-30 Hewlett-Packard Development Company, L.P. Distributed machine learning models
US20210398017A1 (en) * 2020-06-23 2021-12-23 Hewlett Packard Enterprise Development Lp Systems and methods for calculating validation loss for models in decentralized machine learning
JP7501149B2 (ja) * 2020-06-25 2024-06-18 大日本印刷株式会社 セキュアコンポーネント、デバイス、サーバ、コンピュータプログラム及び機械学習方法
CN111785384B (zh) * 2020-06-29 2024-10-29 深圳平安医疗健康科技服务有限公司 基于人工智能的异常数据识别方法及相关设备
CN111787592B (zh) * 2020-06-30 2022-07-19 湖南大学 一种基于谱聚类和c4.5算法的机会路由实现方法
WO2022003420A1 (en) * 2020-06-30 2022-01-06 Dapper Labs Inc. Distributed machine learning via secure multi-party computation and ensemble learning
JP7414655B2 (ja) * 2020-07-01 2024-01-16 株式会社東芝 学習システム、情報処理装置、学習方法およびプログラム
US11580012B2 (en) * 2020-07-07 2023-02-14 Accenture Global Solutions Limited Smart test case generator
US12424335B2 (en) 2020-07-08 2025-09-23 Cognizant Technology Solutions U.S. Corporation AI based optimized decision making for epidemiological modeling
CN111797999A (zh) * 2020-07-10 2020-10-20 深圳前海微众银行股份有限公司 纵向联邦建模优化方法、装置、设备及可读存储介质
JP7551370B2 (ja) 2020-07-15 2024-09-17 キヤノンメディカルシステムズ株式会社 医用データ処理装置及び方法
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112101403B (zh) * 2020-07-24 2023-12-15 西安电子科技大学 基于联邦少样本网络模型的分类方法、系统及电子设备
CN114004328A (zh) * 2020-07-27 2022-02-01 华为技术有限公司 Ai模型更新的方法、装置、计算设备和存储介质
US12039807B2 (en) * 2020-07-27 2024-07-16 Raytheon Company Shape-based vehicle classification using laser scan and neural network
US12014293B2 (en) * 2020-07-29 2024-06-18 International Business Machines Corporation Electronic health record data synthesization
CN111967667B (zh) * 2020-08-17 2024-03-01 交控科技股份有限公司 一种轨道交通分布式运维方法及系统
US11379466B2 (en) 2020-08-18 2022-07-05 Accenture Global Solutions Limited Data accuracy using natural language processing
US20220059190A1 (en) 2020-08-19 2022-02-24 Tempus Labs, Inc. Systems and Methods for Homogenization of Disparate Datasets
US12198017B2 (en) 2020-08-19 2025-01-14 Accenture Global Solutions Limited Veracity assessment of a data model
EP4200874A4 (en) * 2020-08-19 2024-09-11 Tempus AI, Inc. SYSTEMS AND METHODS FOR HOMOGENIZING DISPARATE DATA SETS
JP7591128B2 (ja) * 2020-08-20 2024-11-27 ヒタチ ヴァンタラ エルエルシー 自動化されたデータサイエンスプロセスのためのシステム及び方法
KR102478613B1 (ko) * 2020-08-24 2022-12-16 경희대학교 산학협력단 스마트 헬스케어 의사결정 지원 시스템을 위한 진화 가능한 증상-질병 예측 시스템
US12236370B2 (en) * 2020-08-24 2025-02-25 Samsung Electronics Co., Ltd Method and apparatus for federated learning
KR102844783B1 (ko) * 2020-08-26 2025-08-08 이미지 에이아이 피티이 리미티드 자동화된 레거시 시스템을 업그레이드하기 위한 프록시 인터프리터
GB2598557A (en) * 2020-08-27 2022-03-09 Arm Cloud Tech Inc A machine-learning apparatus and technique
DE102020210998A1 (de) 2020-09-01 2022-03-03 Siemens Healthcare Gmbh Verwertung medizinischer Daten über Organisationsgrenzen hinweg
US20220076157A1 (en) 2020-09-04 2022-03-10 Aperio Global, LLC Data analysis system using artificial intelligence
US11494700B2 (en) * 2020-09-16 2022-11-08 International Business Machines Corporation Semantic learning in a federated learning system
CA3193213A1 (en) * 2020-09-18 2022-03-24 David Gilmore Analytics platform for federated private data
US11082487B1 (en) 2020-09-22 2021-08-03 Vignet Incorporated Data sharing across decentralized clinical trials using customized data access policies
US11854242B2 (en) * 2020-09-23 2023-12-26 Apple Inc. Systems and methods for providing personalized saliency models
WO2022066163A1 (en) * 2020-09-25 2022-03-31 Hewlett-Packard Development Company, L.P. Management task metadata model and computing system simulation model
US11954162B2 (en) * 2020-09-30 2024-04-09 Samsung Electronics Co., Ltd. Recommending information to present to users without server-side collection of user data for those users
US11824884B2 (en) * 2020-10-05 2023-11-21 Bank Of America Corporation System for generating responsive actions based on unauthorized access events associated with imitation networks
CN111931876B (zh) * 2020-10-12 2021-02-05 支付宝(杭州)信息技术有限公司 一种用于分布式模型训练的目标数据方筛选方法及系统
US11763919B1 (en) 2020-10-13 2023-09-19 Vignet Incorporated Platform to increase patient engagement in clinical trials through surveys presented on mobile devices
WO2022082742A1 (zh) * 2020-10-23 2022-04-28 北京小米移动软件有限公司 模型训练方法、装置、服务器、终端和存储介质
US12039012B2 (en) 2020-10-23 2024-07-16 Sharecare AI, Inc. Systems and methods for heterogeneous federated transfer learning
US11775522B2 (en) 2020-10-29 2023-10-03 Pacific Investment Management Company LLC Surrogate data generation of private data
CN112231756B (zh) * 2020-10-29 2022-05-27 湖南科技学院 一种fl-em-gmm的医疗用户隐私保护方法及系统
US20220139571A1 (en) 2020-11-03 2022-05-05 Nuance Communications, Inc. Communication System and Method
CN114529005A (zh) * 2020-11-03 2022-05-24 华为技术有限公司 机器学习模型管理方法、装置和系统
JP7422643B2 (ja) 2020-11-04 2024-01-26 株式会社日立製作所 統合装置、統合方法、および統合プログラム
US11810209B2 (en) * 2020-11-05 2023-11-07 International Business Machines Corporation Outage restoration time prediction during weather events and optimized solutions for recovery
TW202219850A (zh) * 2020-11-05 2022-05-16 財團法人資訊工業策進會 建模系統、建模裝置及建模方法
JP2022076278A (ja) * 2020-11-09 2022-05-19 株式会社Jsol モデル学習方法、モデル学習システム、サーバ装置、及びコンピュータプログラム
JP7551458B2 (ja) * 2020-11-09 2024-09-17 株式会社Jsol モデルのデータ提供方法、モデルのデータ提供システム、サーバ装置、及びコンピュータプログラム
JP7561005B2 (ja) * 2020-11-09 2024-10-03 株式会社Jsol モデル学習方法、モデル学習システム、及びコンピュータプログラム
JP7617724B2 (ja) * 2020-11-09 2025-01-20 株式会社Jsol モデル学習方法、モデル学習システム、サーバ装置、及びコンピュータプログラム
JP7545297B2 (ja) * 2020-11-09 2024-09-04 株式会社Jsol モデルのデータ提供方法、モデルのデータ提供システム、及びコンピュータプログラム
CN114492785B (zh) * 2020-11-13 2025-08-22 佳能医疗系统株式会社 模型学习系统及模型学习系统中的模型学习方法
CN112434818B (zh) * 2020-11-19 2023-09-26 脸萌有限公司 模型构建方法、装置、介质及电子设备
US20220164951A1 (en) * 2020-11-20 2022-05-26 Hologic, Inc. Systems and methods for using ai to identify regions of interest in medical images
WO2022111789A1 (en) * 2020-11-24 2022-06-02 Huawei Technologies Co., Ltd. Distributed training with random secure averaging
KR102390553B1 (ko) * 2020-11-24 2022-04-27 한국과학기술원 연합 학습 방법 및 시스템
CN112486816B (zh) * 2020-11-27 2024-04-02 北京知道未来信息技术有限公司 测试方法、装置、电子设备及存储介质
WO2022116095A1 (en) * 2020-12-03 2022-06-09 Nvidia Corporation Distributed neural network training system
US12262287B2 (en) * 2020-12-03 2025-03-25 Qualcomm Incorporated Wireless signaling in federated learning for machine learning components
CN112508101A (zh) * 2020-12-07 2021-03-16 杭州海康威视数字技术股份有限公司 一种神经网络模型的调整系统、方法及设备
US12182771B2 (en) 2020-12-15 2024-12-31 International Business Machines Corporation Federated learning for multi-label classification model for oil pump management
WO2022140433A1 (en) * 2020-12-22 2022-06-30 Nuance Communications, Inc. Ai platform system and method
KR102562377B1 (ko) * 2020-12-29 2023-08-01 성균관대학교산학협력단 우울증 진단 정보를 제공하기 위한 인공지능 연합학습 방법 및 시스템
US20220210140A1 (en) * 2020-12-30 2022-06-30 Atb Financial Systems and methods for federated learning on blockchain
CN112668501A (zh) * 2020-12-30 2021-04-16 杭州趣链科技有限公司 基于区块链激励的自动编码器特征提取方法与装置
WO2022144001A1 (zh) * 2020-12-31 2022-07-07 京东科技控股股份有限公司 一种联邦学习模型的训练方法、装置及电子设备
US11847390B2 (en) * 2021-01-05 2023-12-19 Capital One Services, Llc Generation of synthetic data using agent-based simulations
US12106026B2 (en) 2021-01-05 2024-10-01 Capital One Services, Llc Extensible agents in agent-based generative models
CA3206729A1 (en) * 2021-02-01 2022-08-04 Monik Raj BEHERA Systems and methods for federated learning using peer-to-peer networks
CN112749516B (zh) * 2021-02-03 2023-08-25 江南机电设计研究所 适应多类型数据特征的体系组合模型可信度智能评估方法
KR102493652B1 (ko) * 2021-02-04 2023-02-07 가천대학교 산학협력단 불꽃 및 연기 자동 감지 방법 및 이를 이용하는 확장 cnn 기반의 감시 시스템
US11042400B1 (en) * 2021-02-16 2021-06-22 block.one Language agnostic smart contract execution on a blockchain
US20220269517A1 (en) * 2021-02-25 2022-08-25 Avaya Management L.P. Adaptable warnings and feedback
JP7021809B1 (ja) * 2021-03-11 2022-02-17 株式会社Citadel AI ファイヤーウォール装置、プログラム及び情報処理方法
US20220292315A1 (en) * 2021-03-11 2022-09-15 Minitab, Llc Accelerated k-fold cross-validation
US20240320507A1 (en) * 2021-03-11 2024-09-26 Hitachi, Ltd. Device, method, and system for weighted knowledge transfer
US12229280B2 (en) * 2021-03-16 2025-02-18 Accenture Global Solutions Limited Privacy preserving cooperative learning in untrusted environments
WO2022208273A1 (en) * 2021-03-28 2022-10-06 Simpleway Technologies Ltd. System and method for privacy-preserving artificial intelligence and machine federated learning
WO2022217145A1 (en) * 2021-04-09 2022-10-13 Endocanna Health, Inc. Machine-learning based efficacy predictions based on genetic and biometric information
US12112344B2 (en) 2021-04-21 2024-10-08 Sensormatic Electronics, LLC Techniques for preventing shrink based on hybrid machine learning system
US20220343234A1 (en) * 2021-04-22 2022-10-27 Sensormatic Electronics, LLC Method for hybrid machine learning for shrink prevention system
US20220343218A1 (en) * 2021-04-26 2022-10-27 International Business Machines Corporation Input-Encoding with Federated Learning
US12288145B2 (en) * 2021-04-27 2025-04-29 International Business Machines Corporation Parallel cross validation in collaborative machine learning
US20220351868A1 (en) * 2021-04-28 2022-11-03 Insurance Services Office, Inc. Systems and Methods for Machine Learning From Medical Records
KR102746239B1 (ko) * 2021-04-28 2024-12-26 주식회사 메디컬에이아이 딥러닝기반의 심전도 판독 시스템
US20220374762A1 (en) * 2021-05-18 2022-11-24 International Business Machines Corporation Trusted and decentralized aggregation for federated learning
KR102686670B1 (ko) * 2021-05-18 2024-07-22 서울대학교병원 기계학습을 이용하여 사용자의 전자의무기록의 사용기록으로부터 의무기록의 작성 순서 및 내용을 예측하는 전자의무기록 시스템과 그 방법
JP7609713B2 (ja) * 2021-06-16 2025-01-07 株式会社日立製作所 統合装置、学習装置、および統合方法
US20220405623A1 (en) * 2021-06-22 2022-12-22 Google Llc Explainable artificial intelligence in computing environment
US12437232B2 (en) 2021-06-24 2025-10-07 Paypal, Inc. Edge device machine learning
US12380361B2 (en) 2021-06-24 2025-08-05 Paypal, Inc. Federated machine learning management
AU2022299545B2 (en) * 2021-06-24 2025-02-13 Paypal, Inc. Federated machine learning management
US12238081B2 (en) 2021-12-01 2025-02-25 Paypal, Inc. Edge device representation learning
US20230004831A1 (en) * 2021-06-30 2023-01-05 Nxp B.V. System and method for fine and coarse anomaly detection with multiple aggregation layers
US12430565B2 (en) * 2021-07-01 2025-09-30 GE Precision Healthcare LLC System and method for deep learning techniques utilizing continuous federated learning with a distributed data generative model
KR102514819B1 (ko) * 2021-07-05 2023-03-29 서울대학교산학협력단 사용자 군중 형성을 통한 단일 데이터베이스로부터의 요청 데이터 비공개적 회수 달성 방법 및 시스템
US12198067B2 (en) * 2021-07-14 2025-01-14 Accenture Global Solutions Limited Systems and methods for synthesizing cross domain collective intelligence
JP2023012757A (ja) * 2021-07-14 2023-01-26 キヤノンメディカルシステムズ株式会社 情報処理装置、情報処理システム、情報処理方法、及びプログラム
JP7665456B2 (ja) * 2021-07-16 2025-04-21 キヤノンメディカルシステムズ株式会社 学習システム、学習装置、学習方法、及びプログラム
US12248601B2 (en) * 2021-07-22 2025-03-11 Accenture Global Solutions Limited Privacy-preserving machine learning training based on homomorphic encryption using executable file packages in an untrusted environment
EP4125009A1 (en) * 2021-07-27 2023-02-01 Siemens Aktiengesellschaft Computer-implemented method for providing explanations concerning a global behaviour of a machine learning model
WO2023004572A1 (zh) * 2021-07-27 2023-02-02 京东方科技集团股份有限公司 模型训练方法、信号识别方法、装置、计算处理设备、计算机程序及计算机可读介质
US11928124B2 (en) * 2021-08-03 2024-03-12 Accenture Global Solutions Limited Artificial intelligence (AI) based data processing
CN113609779B (zh) * 2021-08-16 2024-04-09 深圳力维智联技术有限公司 分布式机器学习的建模方法、装置及设备
US12462575B2 (en) 2021-08-19 2025-11-04 Tesla, Inc. Vision-based machine learning model for autonomous driving with adjustable virtual camera
CN113761748B (zh) * 2021-09-09 2023-09-15 中国矿业大学 一种基于联邦增量随机配置网络的工业过程软测量方法
TWI781767B (zh) * 2021-09-17 2022-10-21 先智雲端數據股份有限公司 用於分析由於軟體系統組件內容變化而造成性能影響之基於預測的方法
US12041121B2 (en) 2021-09-20 2024-07-16 Amadeus S.A.S. Devices, system and method for changing a topology of a geographically distributed system
WO2023056546A1 (en) * 2021-10-04 2023-04-13 Fuseforward Technology Solutions Limited Machine learning training system and method
US20230274024A1 (en) * 2022-02-25 2023-08-31 BeeKeeperAI, Inc. Systems and methods for dataset selection optimization in a zero-trust computing environment
US12339993B2 (en) * 2022-02-25 2025-06-24 BeeKeeperAI, Inc. Synthetic and traditional data stewards for selecting, optimizing, verifying and recommending one or more datasets
US20230131099A1 (en) * 2021-10-22 2023-04-27 Sap Se Machine learning based performance prediction
WO2022247143A1 (en) * 2021-11-01 2022-12-01 F. Hoffmann-La Roche Ag Federated learning of medical validation model
US12105837B2 (en) * 2021-11-02 2024-10-01 Microsoft Technology Licensing, Llc Generating private synthetic training data for training machine-learning models
US12118816B2 (en) 2021-11-03 2024-10-15 Abbyy Development Inc. Continuous learning for document processing and analysis
US12118813B2 (en) 2021-11-03 2024-10-15 Abbyy Development Inc. Continuous learning for document processing and analysis
US12272184B2 (en) 2021-11-05 2025-04-08 Geotab Inc. AI-based input output expansion adapter for a telematics device
US11693920B2 (en) 2021-11-05 2023-07-04 Geotab Inc. AI-based input output expansion adapter for a telematics device and methods for updating an AI model thereon
CN114185988B (zh) * 2021-11-05 2025-03-25 海南火链科技有限公司 一种基于区块链的全局模型确定方法及装置、存储介质
WO2023081911A1 (en) * 2021-11-08 2023-05-11 The Regents Of The University Of California Quantization and cryptographic protocol based machine learning models for confidential data analysis and inference
US20230153461A1 (en) * 2021-11-16 2023-05-18 The Toronto-Dominion Bank Shared model training with privacy protections
US12423463B2 (en) * 2021-11-24 2025-09-23 Lemon Inc. Data processing for release while protecting individual privacy
WO2023120776A1 (ko) * 2021-12-23 2023-06-29 경희대학교 산학협력단 연합학습에서 프록시데이터 세트를 이용한 장치 간 지식 전달 방법 및 그 시스템
JP7605097B2 (ja) * 2021-12-23 2024-12-24 トヨタ自動車株式会社 情報処理方法、情報処理装置及びサーバ装置
US20230205917A1 (en) * 2021-12-24 2023-06-29 BeeKeeperAI, Inc. Systems and methods for data validation and transformation of data in a zero-trust environment
US11797408B2 (en) * 2021-12-30 2023-10-24 Juniper Networks, Inc. Dynamic prediction of system resource requirement of network software in a live network using data driven models
JP2023108797A (ja) * 2022-01-26 2023-08-07 国立大学法人 筑波大学 端末、データ処理装置、端末制御プログラム、データ処理プログラム、端末制御方法及びデータ処理方法
US20230244826A1 (en) * 2022-01-28 2023-08-03 Hiwin Technologies Corp. Method and System for Building Digital Twin Models
US11763949B1 (en) * 2022-02-01 2023-09-19 Allegheny Singer Research Institute Computer-based tools and techniques for optimizing emergency medical treatment
US20230260638A1 (en) * 2022-02-16 2023-08-17 Bloom Value Corporation Framework for optimizing outcomes for healthcare entities
US11899525B2 (en) 2022-02-23 2024-02-13 Microsoft Technology Licensing, Llc Reproduction of graph data during query evaluation
US11468370B1 (en) * 2022-03-07 2022-10-11 Shandong University Communication compression method based on model weight distribution in federated learning
US12153710B2 (en) * 2022-03-30 2024-11-26 Amazon Technologies, Inc. Synthetic data generation
US12172081B2 (en) * 2022-03-31 2024-12-24 Advanced Micro Devices, Inc. Detecting personal-space violations in artificial intelligence based non-player characters
US12445905B2 (en) 2022-04-01 2025-10-14 Intel Corporation Apparatus, system, method and computer-implemented storage media to implement radio resource management policies using machine learning
US12106556B1 (en) * 2022-04-04 2024-10-01 National Technology & Engineering Solutions Of Sandia, Llc Task-specific sensor optical designs
US12242633B2 (en) * 2022-04-11 2025-03-04 International Business Machines Corporation Regulation based protection of data for storage systems
CN114723047B (zh) * 2022-04-15 2024-07-02 支付宝(杭州)信息技术有限公司 任务模型训练方法、装置以及系统
CN114816669A (zh) * 2022-04-29 2022-07-29 北京百度网讯科技有限公司 模型的分布式训练方法和数据处理方法
US12197621B2 (en) * 2022-05-19 2025-01-14 Deeping Source Inc. Method for de-identifying privacy-related region within image and de-identifying device using the same
JP2023170924A (ja) * 2022-05-20 2023-12-01 富士フイルム株式会社 情報処理方法、情報処理装置およびプログラム
CN114842983B (zh) * 2022-06-08 2024-10-08 浙江大学温州研究院 基于肿瘤细胞系自监督学习的抗癌药物反应预测方法和装置
US12399913B1 (en) 2022-06-09 2025-08-26 Cisco Technology, Inc. Versioned connectors for data ingestion from distributed ledger systems
CN115130514B (zh) * 2022-06-30 2025-04-01 中国人民解放军火箭军工程大学 一种工程设备健康指标构建方法及系统
CN114841298B (zh) * 2022-07-06 2022-09-27 山东极视角科技有限公司 一种训练算法模型的方法、装置、电子设备和存储介质
CN115357781B (zh) * 2022-07-13 2024-02-23 辽宁工业大学 基于双向矩阵的深度置信网络兴趣点推荐算法
CN114970886B (zh) * 2022-07-18 2022-10-21 清华大学 一种基于聚类的自适应鲁棒协作学习方法和装置
US20240078337A1 (en) * 2022-09-02 2024-03-07 Dymium Inc. Systems and Methods for Managing Data Security
CN115497573B (zh) * 2022-09-02 2023-05-19 广东省科学院生态环境与土壤研究所 一种炭基生物地质催化材料性质预测与制备方法
CN115659774B (zh) * 2022-09-02 2025-08-05 武汉大学 一种融合机器学习的大坝风险贝叶斯网络模型建模方法
US20240080210A1 (en) * 2022-09-06 2024-03-07 Capital One Services, Llc Systems and methods for a digital register of models monitoring changes in accuracy of artificial intelligence models
CN115426358A (zh) * 2022-09-07 2022-12-02 河海大学 一种基于大数据的边坡安全预警方法、系统及可存储介质
US12118372B2 (en) * 2022-09-20 2024-10-15 Microsoft Technology Licensing, Llc App usage models with privacy protection
EP4343644A1 (en) * 2022-09-20 2024-03-27 u-blox AG Method for training a machine learning model in a server-client machine learning scenario
US20240095579A1 (en) * 2022-09-21 2024-03-21 At&T Intellectual Property I, L.P. Restricted reuse of machine learning model data features
GB2623057A (en) * 2022-09-28 2024-04-10 Nokia Technologies Oy Training data collection
WO2024069956A1 (ja) * 2022-09-30 2024-04-04 日本電気株式会社 学習装置、学習システム、学習方法、およびコンピュータ可読媒体
US12125117B2 (en) * 2022-10-04 2024-10-22 Mohamed bin Zayed University of Artificial Intelligence Cooperative health intelligent emergency response system for cooperative intelligent transport systems
US20240144114A1 (en) * 2022-11-01 2024-05-02 DKS Data & Strategy, Inc. Methods and systems for automated identification of optimizable factors in multivariate processes
US12007870B1 (en) 2022-11-03 2024-06-11 Vignet Incorporated Monitoring and adjusting data collection from remote participants for health research
US12166787B2 (en) * 2022-11-08 2024-12-10 Starguard, Inc. System configured to detect and block the distribution of malicious content that is attributable to an entity
US20240169256A1 (en) * 2022-11-18 2024-05-23 Microsoft Technology Licensing, Llc Secure machine learning model training using encryption
CN115879014A (zh) * 2022-12-29 2023-03-31 税友软件集团股份有限公司 一种数据扫描方法、装置、设备及存储介质
KR20240109014A (ko) * 2023-01-03 2024-07-10 삼성전자주식회사 전자 장치 및 이의 제어 방법
WO2024172853A1 (en) 2023-02-17 2024-08-22 Unlearn. Ai, Inc. Systems and methods enabling baseline prediction correction
US11966850B1 (en) 2023-02-22 2024-04-23 Unlearn.AI, Inc. Systems and methods for training predictive models that ignore missing features
US12314380B2 (en) 2023-02-23 2025-05-27 HiddenLayer, Inc. Scanning and detecting threats in machine learning models
US20240296374A1 (en) * 2023-03-02 2024-09-05 Applied Materials, Inc. Monitoring of edge- deployed machine learning models
CN116301994A (zh) * 2023-03-17 2023-06-23 支付宝(杭州)信息技术有限公司 一种模型更新方法和系统
WO2024202488A1 (ja) * 2023-03-27 2024-10-03 富士フイルム株式会社 学習モデル作成装置、学習モデル作成方法
CN116821725B (zh) * 2023-03-28 2024-11-22 北京火山引擎科技有限公司 网络服务数据处理方法、设备及存储介质
US12314787B2 (en) 2023-04-27 2025-05-27 Hewlett Packard Enterprise Development Lp Serving application programming interface calls directed to hierarchical data format files stored in fabric-attached memories
US20240404694A1 (en) * 2023-06-05 2024-12-05 Roche Diagnostics International Ag Secure healthcare data processing
US12294529B2 (en) * 2023-06-27 2025-05-06 Adobe Inc. Transferable clustering of contextual bandits for cloud service resource allocation
US20250053687A1 (en) * 2023-08-11 2025-02-13 BeeKeeperAI, Inc. Systems and methods for modulating outputs of large language models responsive to confidential information
CN116820352B (zh) * 2023-08-23 2023-11-10 湖南奔普智能科技有限公司 一种具有数据容灾功能的病区自助结算系统
US12468846B2 (en) * 2023-08-24 2025-11-11 Microsoft Technology Licensing, Llc Protecting sensitive user information in developing artificial intelligence models
KR102624263B1 (ko) * 2023-09-15 2024-01-16 광주과학기술원 무선충전모듈의 코어 설계하는 방법
WO2025074469A1 (ja) * 2023-10-02 2025-04-10 日本電信電話株式会社 学習データ処理装置、方法及びプログラム
CN117077641B (zh) * 2023-10-16 2024-01-19 北京亚信数据有限公司 医疗数据合成方法及装置
WO2025084597A1 (ko) * 2023-10-20 2025-04-24 삼성전자주식회사 개인화된 모델을 생성하기 위한 장치, 방법, 및 저장 매체
CN117371038B (zh) * 2023-10-23 2024-07-19 北京智源人工智能研究院 一种分布式的医学影像人工智能模型评价方法和装置
KR20250063426A (ko) 2023-11-01 2025-05-08 주식회사 더스푼 홍차 및 홍삼을 포함하는 홍삼 골드 밀크티 및 이의 제조방법.
WO2025122443A1 (en) * 2023-12-08 2025-06-12 Microsoft Technology Licensing, Llc Systems and methods for optimizing hyperparameters for machine learning models
TWI860923B (zh) * 2023-12-27 2024-11-01 中國信託商業銀行股份有限公司 模型重建方法及系統
US11995180B1 (en) 2024-01-31 2024-05-28 HiddenLayer, Inc. Generative artificial intelligence model protection using output blocklist
DE102024201190A1 (de) * 2024-02-09 2025-08-14 Siemens Healthineers Ag Verfahren und Systeme für föderales Lernen eines Maschinenlernmodells
US12248883B1 (en) 2024-03-14 2025-03-11 HiddenLayer, Inc. Generative artificial intelligence model prompt injection classifier
CN117992834B (zh) * 2024-04-03 2024-06-25 广东力创信息技术有限公司 一种数据分析方法以及相关装置
US12174954B1 (en) * 2024-05-23 2024-12-24 HiddenLayer, Inc. Generative AI model information leakage prevention
US12211598B1 (en) * 2024-06-21 2025-01-28 nference, inc. Configuring a generative machine learning model using a syntactic interface
US12293277B1 (en) 2024-08-01 2025-05-06 HiddenLayer, Inc. Multimodal generative AI model protection using sequential sidecars
US12229265B1 (en) 2024-08-01 2025-02-18 HiddenLayer, Inc. Generative AI model protection using sidecars
CN118800465B (zh) * 2024-09-14 2024-11-15 吉林大学 一种前列腺神经内分泌癌预测模型的构建方法及系统
US12328331B1 (en) 2025-02-04 2025-06-10 HiddenLayer, Inc. Detection of privacy attacks on machine learning models
CN120802163B (zh) * 2025-09-11 2025-11-18 江苏卡欧万泓电子有限公司 一种智能电表性能测试方法及系统

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US20050197783A1 (en) 2004-03-04 2005-09-08 Kuchinsky Allan J. Methods and systems for extension, exploration, refinement, and analysis of biological networks
WO2004053074A2 (en) 2002-12-06 2004-06-24 Science And Technology Corporation @ Unm Outcome prediction and risk classification in childhood leukemia
US8037109B2 (en) * 2003-06-30 2011-10-11 Microsoft Corporation Generation of repeatable synthetic data
US8024128B2 (en) * 2004-09-07 2011-09-20 Gene Security Network, Inc. System and method for improving clinical decisions by aggregating, validating and analysing genetic and phenotypic data
US7899225B2 (en) 2006-10-26 2011-03-01 Mcgill University Systems and methods of clinical state prediction utilizing medical image data
US20080288292A1 (en) * 2007-05-15 2008-11-20 Siemens Medical Solutions Usa, Inc. System and Method for Large Scale Code Classification for Medical Patient Records
WO2008148894A1 (en) 2007-06-07 2008-12-11 Mentis Cura Ehf. A system and a method for generating a quantitative measure reflecting the severity of a medical condition
US8095480B2 (en) * 2007-07-31 2012-01-10 Cornell Research Foundation, Inc. System and method to enable training a machine learning network in the presence of weak or absent training exemplars
US8250013B2 (en) * 2008-01-18 2012-08-21 Siemens Medical Solutions Usa, Inc. System and method for privacy preserving predictive models for lung cancer survival analysis
US9305180B2 (en) * 2008-05-12 2016-04-05 New BIS Luxco S.à r.l Data obfuscation system, method, and computer implementation of data obfuscation for secret databases
US20140257845A9 (en) * 2008-08-05 2014-09-11 Vasu Rangadass Operating System
US8385971B2 (en) 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US20100280334A1 (en) 2009-04-30 2010-11-04 Medtronic, Inc. Patient state detection based on support vector machine based algorithm
US8213680B2 (en) * 2010-03-19 2012-07-03 Microsoft Corporation Proxy training data for human body tracking
WO2011127150A2 (en) 2010-04-06 2011-10-13 Massachusetts Institute Of Technology Gene-expression profiling with reduced numbers of transcript measurements
US10619195B2 (en) 2010-04-06 2020-04-14 Massachusetts Institute Of Technology Gene-expression profiling with reduced numbers of transcript measurements
US9646134B2 (en) 2010-05-25 2017-05-09 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
US8903167B2 (en) * 2011-05-12 2014-12-02 Microsoft Corporation Synthesizing training samples for object recognition
US8688601B2 (en) * 2011-05-23 2014-04-01 Symantec Corporation Systems and methods for generating machine learning-based classifiers for detecting specific categories of sensitive information
US9916538B2 (en) 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9934361B2 (en) * 2011-09-30 2018-04-03 Univfy Inc. Method for generating healthcare-related validated prediction models from multiple sources
WO2013074634A1 (en) * 2011-11-15 2013-05-23 Icelero Llc Method and system for private distributed collaborative filtering
US20140058755A1 (en) 2011-11-23 2014-02-27 Remedev, Inc. Remotely-executed medical diagnosis and therapy including emergency automation
US20130231949A1 (en) * 2011-12-16 2013-09-05 Dimitar V. Baronov Systems and methods for transitioning patient care from signal-based monitoring to risk-based monitoring
CN103379114B (zh) * 2012-04-28 2016-12-14 国际商业机器公司 用于在MapReduce系统中保护隐私数据的方法和装置
US20140038836A1 (en) 2012-05-29 2014-02-06 Assurerx Health, Inc. Novel Pharmacogene Single Nucleotide Polymorphisms and Methods of Detecting Same
US20150154646A1 (en) * 2012-06-15 2015-06-04 New York University Storage, retrieval, analysis, pricing, and marketing of personal health care data using social networks, expert networks, and markets
US8954365B2 (en) 2012-06-21 2015-02-10 Microsoft Corporation Density estimation and/or manifold learning
US8429103B1 (en) * 2012-06-22 2013-04-23 Google Inc. Native machine learning service for user adaptation on a mobile platform
CN110491449B (zh) * 2012-07-06 2023-08-08 河谷控股Ip有限责任公司 健康护理分析流的管理
WO2014026152A2 (en) 2012-08-10 2014-02-13 Assurerx Health, Inc. Systems and methods for pharmacogenomic decision support in psychiatry
US9324033B2 (en) * 2012-09-13 2016-04-26 Nokia Technologies Oy Method and apparatus for providing standard data processing model through machine learning
EP3865056B1 (en) 2012-09-14 2025-11-05 InteraXon Inc. Systems and methods for collecting, analyzing, and sharing bio-signal and non-bio-signal data
US20140088989A1 (en) * 2012-09-27 2014-03-27 Balaji Krishnapuram Rapid Learning Community for Predictive Models of Medical Knowledge
US9104961B2 (en) * 2012-10-08 2015-08-11 Microsoft Technology Licensing, Llc Modeling a data generating process using dyadic Bayesian models
US9436911B2 (en) 2012-10-19 2016-09-06 Pearson Education, Inc. Neural networking system and methods
US20140222349A1 (en) 2013-01-16 2014-08-07 Assurerx Health, Inc. System and Methods for Pharmacogenomic Classification
US20140222737A1 (en) * 2013-02-01 2014-08-07 Opera Solutions, Llc System and Method for Developing Proxy Models
US20140343955A1 (en) * 2013-05-16 2014-11-20 Verizon Patent And Licensing Inc. Method and apparatus for providing a predictive healthcare service
US9349105B2 (en) 2013-12-18 2016-05-24 International Business Machines Corporation Machine learning with incomplete data sets
WO2015149035A1 (en) 2014-03-28 2015-10-01 LÓPEZ DE PRADO, Marcos Systems and methods for crowdsourcing of algorithmic forecasting
US20160055427A1 (en) 2014-10-15 2016-02-25 Brighterion, Inc. Method for providing data science, artificial intelligence and machine learning as-a-service
US10824958B2 (en) * 2014-08-26 2020-11-03 Google Llc Localized learning from a global model
US9405928B2 (en) * 2014-09-17 2016-08-02 Commvault Systems, Inc. Deriving encryption rules based on file content
US20160071017A1 (en) 2014-10-15 2016-03-10 Brighterion, Inc. Method of operating artificial intelligence machines to improve predictive model training and performance
US20160078367A1 (en) 2014-10-15 2016-03-17 Brighterion, Inc. Data clean-up method for improving predictive model training
US10333899B2 (en) * 2014-11-26 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for implementing a privacy firewall
PE20171260A1 (es) * 2015-01-16 2017-08-31 Pricewaterhousecoopers Llp Sistema y procedimiento de intercambio de datos en la atencion sanitaria
US11232466B2 (en) * 2015-01-29 2022-01-25 Affectomatics Ltd. Recommendation for experiences based on measurements of affective response that are backed by assurances
US10977571B2 (en) * 2015-03-02 2021-04-13 Bluvector, Inc. System and method for training machine learning applications
WO2018017467A1 (en) 2016-07-18 2018-01-25 NantOmics, Inc. Distributed machine learning systems, apparatus, and methods

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI806987B (zh) * 2018-04-28 2023-07-01 南韓商三星電子股份有限公司 用於訓練神經網路的方法及神經網路訓練系統
US11574193B2 (en) 2018-04-28 2023-02-07 Samsung Electronics Co., Ltd. Method and system for training of neural networks using continuously differentiable models
US11188928B2 (en) 2018-08-03 2021-11-30 Advanced New Technologies Co., Ltd. Marketing method and apparatus based on deep reinforcement learning
TWI703458B (zh) * 2018-08-07 2020-09-01 香港商阿里巴巴集團服務有限公司 資料處理模型構建方法、裝置、伺服器和用戶端
TWI726420B (zh) * 2018-12-04 2021-05-01 開曼群島商創新先進技術有限公司 叢集結果的解釋方法和裝置
TWI730288B (zh) * 2019-01-31 2021-06-11 鴻齡科技股份有限公司 深度學習方法、系統、伺服器及可讀存儲介質
TWI764081B (zh) * 2019-03-22 2022-05-11 南韓商納寶股份有限公司 組合多個全局描述符以用於圖像檢索的框架
TWI739124B (zh) * 2019-04-26 2021-09-11 長佳智能股份有限公司 在被監督狀態下提供類神經網路訓練模型之雲端交易系統及其方法
TWI723868B (zh) * 2019-06-26 2021-04-01 義守大學 一種抽樣後標記應用在類神經網絡訓練模型之方法
US11983609B2 (en) 2019-07-10 2024-05-14 Sony Interactive Entertainment LLC Dual machine learning pipelines for transforming data and optimizing data transformation
US11250322B2 (en) 2019-07-15 2022-02-15 Sony Interactive Entertainment LLC Self-healing machine learning system for transformed data
TWI755778B (zh) * 2019-07-15 2022-02-21 美商索尼互動娛樂有限責任公司 用於轉換後之資料之自我修復機器學習系統
TWI690861B (zh) * 2019-08-21 2020-04-11 中華電信股份有限公司 分散式深度學習系統及方法
TWI709054B (zh) * 2019-12-05 2020-11-01 財團法人資訊工業策進會 預測模型的建立裝置、建立方法與產品品質監控系統
TWI753329B (zh) * 2019-12-06 2022-01-21 財團法人工業技術研究院 具風險評估之最佳取樣參數搜尋系統、方法與圖案化使用者介面
TWI798583B (zh) * 2020-09-01 2023-04-11 中華電信股份有限公司 加速模擬軟體的模擬結果的產生的電子裝置和方法
TWI780608B (zh) * 2021-02-26 2022-10-11 華碩電腦股份有限公司 藥物推薦系統與方法
TWI825531B (zh) * 2021-05-05 2023-12-11 宏碁股份有限公司 用於神經網路運算之用戶設備和無線通訊方法
US12041480B2 (en) 2021-05-05 2024-07-16 Acer Incorporated User equipment and wireless communication method for neural network computation
TWI786703B (zh) * 2021-06-28 2022-12-11 顥天光電股份有限公司 人工智慧模型訓練裝置及其應用裝置
TWI800304B (zh) * 2022-03-16 2023-04-21 英業達股份有限公司 使用同義資料的聯邦學習系統
TWI808762B (zh) * 2022-05-18 2023-07-11 動力安全資訊股份有限公司 異常事件監控方法
TWI881345B (zh) * 2022-07-27 2025-04-21 日商樂天集團股份有限公司 預測方法、訓練方法、預測系統及非暫時性電腦可讀媒體
TWI883920B (zh) * 2024-04-16 2025-05-11 中國鋼鐵股份有限公司 儲能系統的監測方法與儲能監測系統

Also Published As

Publication number Publication date
MX2019000713A (es) 2019-11-28
JP2019526851A (ja) 2019-09-19
EP3485436A1 (en) 2019-05-22
WO2018017467A1 (en) 2018-01-25
CA3031067A1 (en) 2018-01-25
US20180018590A1 (en) 2018-01-18
SG11201900220RA (en) 2019-02-27
EP3485436A4 (en) 2020-04-01
KR20190032433A (ko) 2019-03-27
IL264281A (en) 2019-02-28
CN109716346A (zh) 2019-05-03
US11694122B2 (en) 2023-07-04
US20220405644A1 (en) 2022-12-22
US11461690B2 (en) 2022-10-04
AU2017300259A1 (en) 2019-02-14
US20230267375A1 (en) 2023-08-24

Similar Documents

Publication Publication Date Title
US11694122B2 (en) Distributed machine learning systems, apparatus, and methods
Sridhar et al. A probabilistic approach for collective similarity-based drug–drug interaction prediction
Kashyap Big Data Analytics challenges and solutions
Faruqui et al. Healthcare As a Service (HAAS): CNN-based cloud computing model for ubiquitous access to lung cancer diagnosis
US11276494B2 (en) Predicting interactions between drugs and diseases
Das et al. Twin: Personalized clinical trial digital twin generation
US12413403B2 (en) Method and system for generating cryptographic keys associated with biological extraction data
Wassan et al. Deep convolutional neural network and IoT technology for healthcare
CU et al. EHR privacy preservation using federated learning with DQRE-Scnet for healthcare application domains
EP3899776B1 (en) System and method for computerized synthesis of simulated health data
Yang et al. A trustworthy neural architecture search framework for pneumonia image classification utilizing blockchain technology
US12111951B2 (en) Systems and methods for dataset recommendation in a zero-trust computing environment
EP4515414A1 (en) Systems and methods for federated feedback and secure multi-model training within a zero-trust environment
Santhana Marichamy et al. Efficient big data security analysis on HDFS based on combination of clustering and data perturbation algorithm using health care database
Fancy et al. Modelling of healthcare data analytics using optimal machine learning model in big data environment
US12339993B2 (en) Synthetic and traditional data stewards for selecting, optimizing, verifying and recommending one or more datasets
US20240020576A1 (en) Methods, systems, and frameworks for federated learning while ensuring bi directional data security
Islam et al. Privacy preserving vertical distributed learning for health data
Adam Sahib et al. IoT-based smart healthcare using efficient data gathering and data analysis
US12369861B2 (en) Methods, systems, and frameworks for debiasing data in drug discovery predictions
Gunanidhi et al. Developed a hybrid optimal feature vector selection with blockchain technology for smart healthcare 4.0
Nguyen A privacy preserving online learning framework for medical diagnosis applications
Poongodi et al. Big Data Preparation and Exploration
Sinaga FedHK-MVFC: Federated Heat Kernel Multi-View Clustering
Nazarovs Statistical and Computational Strategies for Quantifying Uncertainty in Deep Probabilistic Models with Applications