[go: up one dir, main page]

JP2001519070A - 一致検出の方法、製品および装置 - Google Patents

一致検出の方法、製品および装置

Info

Publication number
JP2001519070A
JP2001519070A JP54459998A JP54459998A JP2001519070A JP 2001519070 A JP2001519070 A JP 2001519070A JP 54459998 A JP54459998 A JP 54459998A JP 54459998 A JP54459998 A JP 54459998A JP 2001519070 A JP2001519070 A JP 2001519070A
Authority
JP
Japan
Prior art keywords
matches
attributes
match
subset
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP54459998A
Other languages
English (en)
Other versions
JP2001519070A5 (ja
Inventor
エヴァン ダブリュー. スティーグ
Original Assignee
クイーンズ ユニバーシティー アット キングストン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クイーンズ ユニバーシティー アット キングストン filed Critical クイーンズ ユニバーシティー アット キングストン
Publication of JP2001519070A publication Critical patent/JP2001519070A/ja
Publication of JP2001519070A5 publication Critical patent/JP2001519070A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P31/00Antiinfectives, i.e. antibiotics, antiseptics, chemotherapeutics
    • A61P31/12Antivirals
    • A61P31/14Antivirals for RNA viruses
    • A61P31/18Antivirals for RNA viruses for HIV
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Virology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • General Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Tropical Medicine & Parasitology (AREA)
  • AIDS & HIV (AREA)

Abstract

(57)【要約】 各対象が多数の属性を有する、対象のデータセットにおける一致を検出するための方法およびシステムについて開示する。データセットの等しい大きさの部分集合が反復的にサンプリングされ、一致(部分集合内の1つまたは複数の対象における複数の属性の値の同時出現)が記録される。関心対象の各一致に関して、期待される一致の数が決定され、観測された一致数と比較される。この比較は一致に関して複数の属性の相関の程度を決定するために用いられる。その結果として得られた、相関の程度があらかじめ決定された閾値を上回る複数の属性である、k項数の相関属性の集合が報告される。本方法およびシステム(プロセッシングノードのアレイ上に実装される)は、HIV研究などにおける蛋白質構造解析に適する。

Description

【発明の詳細な説明】 一致検出の方法、製品および装置 技術分野 本発明は、多数の変数間の一致を検出するための方法、装置およびシステムに 関する。さらに本発明は、種々の分野への一致検出法の適用、およびこのような 適用に由来する製品に関する。 背景技術 k 項数(k-tuple)の相関属性(correlated attributes) 対(pair)またはk項数(k-tuple)の変数間の相関の発見には、科学、医学、 工業および商業の多くの領域で用途がある。例えば、医師および公衆衛生専門家 にとって、いかなる生活様式、食事および環境要因が互いに、ならびに患者の病 歴データベースにおける特定の疾患と相関するかを知ることには大きな関心があ る。株または商品の取引業者にとって、価格が時とともに共変する一組の金融証 書を見いだすことは収益につながる可能性がある。スーパーマーケットチェーン または通信販売会社の販売損は、製品Aを購入する消費者に製品BおよびCも購入 する傾向があるかを知ることに興味を抱くと思われ、これは販売記録データベー スに見いだしうる。数理分子生物学および薬物探索の研究者は、整列化されたRN Aまたは蛋白質配列のセットにおける離れた配列要素間の相関から3D分子構造の 諸性質を推測したいと考えるであろう。 多くの多様な用途を包含し、本明細書に記載される原理の理解を促す一般的な 問題を定式化したものの1つが、行が「対象(object)」(個々の患者、株価、 消費者または蛋白質配列など)に対応し、列が特徴または属性または変数(生活 様式の諸因子、株、販売品目またはアミノ酸残基の位置など)に対応する、離散 的特徴を持つ行列である。 任意の2つ、またはさらには3つもしくは4つの特定の変数の間の相関の種類、 度合いおよび統計的有意性の程度を決定するための数学的方法は一般化しており 、よく知られている。これらの方法には、連続変数に関する線形および非線形回 帰ならびに離散変数に関する分割表分析が含まれる。しかし、はるかに大規模な 変数の集合に関する相関を評価しようとすると―または同時確率もしくは条件付 き 確率を評価しようとしただけでも―大きな困難が生じる。この扱いにくさには結 合属性値確率密度項(joint attribute-value probability density term)が多 すぎるという1つの主な原因があり、これ自体が以下の2つの重大な問題を明らか に示す:(1)データベース全体にわたってすべての項に関して度数を計算およ び保存するには非常に多くの計算およびメモリを要する、(2)これらの度数に 基づいて信頼性のある確率推定値を提供するにはデータベースのレコード数が通 常は不十分である。 少し詳しく考察してみよう。M個のレコード(対象)、N個の変数(属性、フ ィールド)に関して、各変数が|A|通りの値をとりうる同一の集合をなすと仮定 すると、 れに関してk項数の数を加えると、すべてのサイズに関するこうした項数は2N-1 個となる。この指数関数的な複雑さが、高次確率推定および相関検出の方法の主 な障害となっていた。 この複雑さに対する1つの自然な考え方は、列変数(column varibale)の集合 の幕集合(power set)である。この幕集合は演算⊂の下で、結節点(node)が この列変数の集合の部分集合となるグラフに対応する「塔(tower)」である数 学的格子(mathematical Iattice)を形成する(集合にN個の要素があれば、幕 集合は2N個の要素を持つことに注意)。この観点からは、部分集合σ1およびσ2 を表す2つの結節点が連結されるのはσ1⊂σ2またはσ2⊂σ1の場合であり、し かもこれらの場合のみである。σ1⊂σ2の場合、本発明者らはσ2の結節点はσ1 のものより上にあると表現する。これにより「高次」という用語に対して、塔の より上方にあるという自然な意味が生じる。本発明者らは底すなわち零集合結節 点(nullset node)を0番目の層と呼ぶ。単一列項は1番目の層をなし、以下も同 様である。 塔によるたとえをさらに続け、本発明者らは、この建造物の各「フロア」はk項数は(|A|by|A|…by|A|/)の分割表と関連し、その各セルにはそれらの特 定のk列の間の相関に関する古典的分割表検定に用いるための特定の結合記号(j oint symbol)(ai1,ai2,…,aik)の計数度数が収められている必要がある(図 1参照)。 任意のk∈{1,2,…,N}、任意の特定のk項数の列(cj1,cj2,…,cjk)に関 して、とりうる結合値(joint value)は|A|個ある。任意のk∈{1,2,…,N} 、任意の特定のk項数の列(cj1,cj2,…,cjk)に関して、このデータセットを 用いるカルバック発散またはその他の相関関数の推定は少なくともΩ(Mk)または Ω(|A|k)量の計算であり、M、kおよび|A|の相対的サイズに依存する。 する確率推定値を特定しうる必要がある。このことは、例えば数理分子生物学の 領域では、各配列が7つのアミノ酸残基を有する小さなヘプタペプチド配列ファ ミリーに関して特定される項は1,801,088,540個あることを意味する。4つの塩基 記号という少数のRNA用アルファベットで書かれた長さ15ヌクレオチドの非現実 的に小さなRNAでも30,517,578,124個もの項がある。 明らかにこうしたモデルは取り扱えないほど巨大化しうる。モデル化/学習手 順によって検索しなければならない可能なモデルの領域についてはどうであろう か。その状態が顕在変数(observable)に共同的に影響を及ぼす潜在変数(late nt variable)を仮定することによって顕在変数の集合間の相関を説明しようと する潜在変数モデルについて考察する。各モデルはk項数の変数の集合を特定し なければならず、このような集合はexp(2,2N)(すなわち2〜2N乗)個存在する ため、最悪の場合には検索領域にexp(2,2N)個の可能なモデルが存在することに なる。 高次確率の程度を決定するための種々の方法では、求める高次特徴の幅k(図3 参照)、位置(図2)、数または相関の度合い、および考慮するモデルの種類に 対してあらかじめ厳密な制限を加えることにより、組み合わせの爆発的増加を回 避しようとする(図4参照)。確率椎定の3つの目標 既存の方法および本発明の詳細を説明する前に、それぞれが多くの研究および 今日の常法に対応する、大規模なデータセットにおける確率椎定に関して考えう る3つの異なる目標を概説しておくことが有用である。 1.完全に特定された完全に高次の同時確率分布の推定:すべてのk項数の属 性およびとりうる値に関して q(ai1@ci1,ai2@ci2,…,aik@cik) を特定する確率密度qを推定する。 2.特定の属性および特定の変数に関する特定の仮説に関する仮説の検定:例 えば、データは列ci1,ci2,…,cikが独立であるとの仮説と一致するか?。 3.特徴検出または「データマイニング(data mining)」:最も疑われる一 致、例えば、低次限界から予測されるであろうものよりも確率が高い同時属性出 現を検出する。これに関連して、最も相関性の高いk項数の列を見いだす。 本発明と最も関連の深いものは特徴検出およびデータマイニングの用途である 。しかし、データベースの完全な高次同時確率分布を推定するための最も好首尾 な方法の中には、k≧2の変数の集合間で高い相関を示すような高次項の正確な特 定、および最大エントロピーの仮定を要するものがあり、したがってそのような 用途も本発明の目的である。関連する研究 高次確率の椎定、相関の検出、および高次データベース関連のモデル化のため に、種々の数学的および計算的方法が提唱され、用いられている。従来のすべて のこのような方法は、非常にコストのかかるすべての可能なk項数の変数にわた る全体的、時には網羅的な検索を用いるか、または特別に固定した少数のkのk項 数のみにそれらの検索を限定することにより複雑性を完全に回避する(しばしば k=2であり、このため考慮されるのは対相関のみである)かのいずれかである。 関連する研究の代表的な例を以下にいくつか列挙する。 属性間の独立性の仮定 高次相関の複雑さを回避する最も簡単な方法は、単に それらが存在しないとみなすことである。本方法の用途のいくつかの分野におい て歴史的に主流である多くのアルゴリズムおよびコンピュータプログラムは、単 にすべての変数、すべての属性が独立であるというデータのモデルを作成および 使用している。例えば、数理分子生物学におけるDNAおよび蛋白質配列のモデル 化は、異なる塩基またはアミノ酸残基の位置は独立であるとの誤った仮定に立っ ており、しばしば共通配列およびプロファイルを用いてなされる。このようなモ デ ルに依拠すると、モデル化しようとするDNAまたは蛋白質に関する極めて重要な 機能的および構造的洞察を覆い隠すおそれがある。 k に関する事前の制限 データベースのギブスのモデルに関する1つの提唱はギ ブスポテンシャルの使用に基づき、これらの特殊な項を計算するためのハッシュ 法(hashing method)を提唱している。各k次ポテンシャルには、k次の同時確率 密度に加えて若干数の低次(典型的にはk-1次)密度の椎定が必要である。ポテ ンシャル計算の主な成分であるミラーのパターン収集サブルーチンの漸近的時間 複雑性は、本発明者らの用語に解釈すると以下のようになる: ここでK=kmaxは、それに関して検索しようとし、それによってデータベースのオ ブジェクトが示されると思われる最も高次の特徴である。この指数関数的な爆発 的増加は、数百もの属性を有するデータベースにおける、4または5を大きく上回 る任意のk次の高次特徴(HOF)に関する検索を妨げる。 さまざまな適用領域における多くの方法では、単にkをk=2と限定している。 例えば、対残基間相関法(pairwise inter-residue correlation method)は、 蛋白質の構造および機能の予測に有用な可能性があって一次配列分類機およびフ ォールド分類機よりも感度の高い分類機に組み込みうる二次特徴を見いだす。k 項(k-ary)相互作用が重要である限り、およびこのような相互作用が相同配列 の集合に痕跡を残す限りにおいて、対による方法には欠陥がある。2項相関の集 合からk項相関を推定しようと試みることはできるが[9](本質的には「Correl atesWith」二値関係の推移的閉鎖の計算による)、この帰納的方法はトラブルを 招く恐れがある:すなわち、変数x、y、zの間に高い対相関が認められてもそれは 一般にはx、y、zの3変数の3項相関(カルバック発散によって計測されるような もの)の高さを意味せず、その逆も必ずしも成り立たない。多剤相互作用の検討 などのその他の応用領域でも、対相関検出法では重大な高次関連が見逃される恐 れがあることは同様にいえる。 無作為変数の最も相関する対を同定するためのパツリ(Paturi)らの方法 N 個のランダムな二値変数X1,X2,…,XNの大きな集合の中から最も相関する変数 の対 Xi、Xjを見いだす問題に関して1つの方法が報告されている。この方法は、最も 相関するk項数の無作為二値変数の発見へと容易に拡張しうるが、計算上の複雑 性は著しく増大し、しかもこれは先験的に固定されたk≧2のみに関する。ここで は、M個の標本{Xm 1,Xm 2,…,Xm N]m=1,2,...,Mの何らかの集合にわたる相関(Xi ,Xj)=P[Xi=Xj]という相関の定義を用いている(ここでP[Xi=Xj]は、変数Xiが 変数Xjと同じ値または状態を有する確率を意昧する)。彼らの方法では、2つま たはそれ以上のほぼ等しく相関する対(またはk項数)の変数を分離しようとす る際に、時間的複雑性および標本の複雑性の両面でかなりの計算的複雑性を招く 。 パツリ法の2つの変数はNにおいてそれぞれ漸近的に二次的および準二次的(su b-quadratic)であり、手順を迅速化するにはより多くの標本抽出を必要とする 。この方法を最大のk項相関の探索に拡張する場合には(ここでは相関はP[Xi1=Xi2 =…Xik]と定義される)、時間的複雑性はほぼ0(k2Nklog3N)に増大する。極め て大きなデータセットにおいて5または6を大きく上回る幅kの高相関属性の小集 団を検索することは、ここでも同じく除外される。 隠れマルコフモデル 隠れマルコフモデル(HMM)は、自動会話認識ならびに 蛋白質、DNAおよびRNA配列のモデル化の両面において近年広くしかもますます好 首尾に用いられている。 いくつかのグループがHMMによる蛋白質配列ファミリーおよび連続会話データ のモデル化の大きな成功を報告しているが、あらかじめ選択された高次特徴のHM Mへの「直結(hardwiring)」による学習時間およびモデルの頑健性(robustnes s)の点では改良の余地は大きい(これは種々の分野においてHMM様反回神経回路 網に関して検討されている)。 そもそもHMMが局所的配列相関を用いる蛋白質配列または記録された発話の整 列化に極めて優れるという理由のいくつかは、同時に、すでに部分的または完全 に整列化されたデータにおける重要な配列-距離相関を見いだす上でのこのよう な方法の有用性の低さにもつながる。このジレンマに起因する現象は「拡散(di ffusion)」と呼ばれる。 一次HMMでは定義により配列の列(sequence column)の独立性を仮定しており 、隠れ状態配列が与えられる。比較的長い範囲の相互作用を捕捉するためには原 則的には複数の選択的状態配列を用いうるが、k項数の相関列の数に伴い、これ らの数は指数関数的に増加する。 結合規則を発見するためのアグローワル(Agrawal)らの方法 この方法は、 データベースから知識に基づく規則を自動抽出するという、おそらく最も純粋な データマイニングの文脈で開発されたものである。この方法では、M個のトラン ザクション(対象、行)およびN個の項目(属性、列)のデータベースを考慮し 、a⇒bの形式の規則を抽出しようとする。このため、「aを含むトランザクショ ンがbを含む傾向がある」というような属性a、bの対、すなわちp(b|a)が高値を とるような対を探索する。「CDプレーヤーを購入する人々はCDを購入する傾向が ある」とは、このような方法における商業的な利益の可能性を示唆する一例であ る(より一般的には、p(b1,b2,…,bk|a1,a2,…,aj)が高値である属性の集合 に関して検索しうる)。 規則a⇒bは以下を有するとされている: 1.aを含むトランザクションのc%がbも含む場合(したがって、大まかにはp(a ,b)/p(a)≧(c/100)であれば)、信頼度(confidence)c; 2.aおよびbを含むトランザクションがs%であれば(したがって、大まかにはp (a,b)≧s/100であれば)、サポート(support)s。 この方法の背景にある目標は本発明の目的とは異なる。しかし、アグローワル (Agrawal)の方法による対称性規則の発見に目的を絞り(p(a,b)/aおよびp(a ,b)/bがいずれも高値を示す属性の対に関して検索がなされるように)、サポ ートに対する強調を抑制すれば(稀に起こるものであっても疑わしい一致が検索 されるように)、異なる目的もより密接に結びつく。 アグローワルの方法では、‖S‖をこの手順において特定の段階の処理に到達 する指数関数的に大きい数のk項数(1≦k≦Nの任意のサイズに関する)αの属性 に関するSupport(α)のすべての値の合計とすると、複雑さが0(‖S‖-MN)倍にな ることが示されている。したがって、この方法は最悪の場合には0(2N)の量とな る。それぞれの分野で現実的なデータセットと考えられるものに対して一連の経 験的検定が行われる。この手順の実行時間はトランザクションの数Mに伴って線 形的に増加するに過ぎないが、項または属性の数はNA=1000に一定に保たれ、構 成され たそれらのデータセットは幅k>10の相関するk項数をおそらくは含まない。k-1 次の小集団(clique)からのk次の小集団の漸増的構築に基づくそれらのアルゴ リズムの解析から、この方法では幅広いHOF(大きいk)を見いだすために、同等 の統計的有意性を有するより狭いHOF(より小さなk)よりもはるかに多くの計算 を行うことが明らかとなっている。 スティーグ、ロビンソン、ディアフィールド、ラッパ(Steeg、Robinson、Dee rfield、Lappa)−1993 整列化された蛋白質配列の集合におけるk項数の相関残 基(位置)を見いだすことを目的として、大まかで経験的な方法がいくつか提唱 されている。提示された方法の1つは、本明細書に記載される表現および一致検 出の諸段階の初歩的なものの一態様を用いている。 属性間の相関を見いだすための代替的な方法および装置、ならびにそれらの相 関に関する応用が必要である。 発明の開示 第1の局面において、本発明は、多数の属性を有する対象のデータセットとと もに用いるための一致検出法を提供する。基本的方法は以下の段階を含む: ・対象がある属性を有する場合にその属性が対象において出現すると呼ばれる、 NA個の変数(「属性」)を項とするM個の対象の集合の表示、 ・あらかじめ決定された数の反復(iteration)における各反復に関する、M個の 対象からのri個の部分集合のサンプリング、 ・一致がサンプリングされた部分集合におけるri個の対象のうち同じhi個におけ る1≦k≦NA個の属性の同時出現であって、0≦hi≦riである、サンプリングされ た対象の部分集合のそれぞれにおけるk個の属性の集合間での一致の検出および 記録、 ・決定がサンプリングおよび収集の前、同時またはサンプリングおよび収集の後 に行われる、上記のk個の属性の任意の集合ならびにあらかじめ決定された数の サンプリングおよび一致計数の反復に関する一致の期待数の決定、 ・k個の属性の任意の集合ならびにサンプリングおよび一致計数の反復回数に関 する一致の観測値と期待数との比較、ならびにこの比較によるk個の属性の集合 に関する相関(または結合または依存)の程度の決定、ならびに ・k項数の相関属性が、選択された相関の程度に関してあらかじめ決定された閾 値を上回る値を持つことがこの過程によって決定されたNA個の属性のkの集合で ある、k項数の相関属性の集合の報告。 第2の局面において、本発明は、多数の属性を有する対象のデータセットとと もに用いるための一致検出法であって、下記の段階を含む方法を提供する: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセットの 部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告。 いずれの局面においても、観測数と期待数との比較は尾部確率(tail probabi lity)に関するチャーノフ境界(Chernoff bound)を用いて計算することができ 、数はサンプリングされた部分集合のすべてにわたって各一致の数の連続的な合 計を保存することによって記録しうる。 第3の局面において、本発明は、多数の属性を有する対象のデータセットの視 覚的表示のための方法であって、下記の段階を含む方法を提供する: ・各反復でデータセットのサンプリングされた部分集合が必ずしも同一の対象で ある必要はないものの同じ数の対象を有し、各対象に関して属性の同じ部分集合 を有する、あらかじめ決定された数の反復にわたるデータセットの部分集合のサ ンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合のグラフィカルイ ンターフェースを通じてのユーザーに対する報告。 第4の局面において、本発明は、多数の属性を有する対象のデータセットの高 次相互作用を捕捉してデータモデル化ユニット(data modelling unit)に報告 するための、データモデル化ユニットとともに用いるための予備処理の方法であ って、下記の段階を含む方法を提供する: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセットの 部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の、データモデル 化ユニットへの報告。 第5の局面において、本発明は、多数の属性を有する対象のデータセットとと もに用いるための相関消去の方法であって、下記の段階を含む方法を提供する: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復に関するデータセットの 部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリンダされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の消去。 いずれの局面においても、対象が各トランザクションが1つまたは複数の購入 された製品を含む販売トランザクションであって、属性が特定の製品または特定 の種類の製品の販売の事例であってもよい。対象が時間刻みであって、属性がシ ステムにおける要素の状態であってもよい。対象が時間刻みであって、属性が金 融証書または商品の価格または価格の変動であってもよい。 いずれの局面においても、本方法の段階は以下の疑似コードによって表現され うる: 0.begin 1.read(MATRIX); 2.read(R,T); 3.compute_first_order_marginals(MATRIX); 4.csets:={}; 5.for iter=l to T do 6.sampled_rows:=rsample(R,MATRIX): 7.attributes:=get_attributes(sampled_rows); 8.all_coincidences:=find_all_coincidences(attributes); 9.for coincidence in all_coincidences do 10.if cset_already_exists(coincidence,csets) 11.then update_cset(coincidence,csets); 12.else add_new_cset(coincidence,csets); 13.endif 14.endfor 15.endfor 16.for cset in csets do 17.expected:=compute_expected_match_count(cset); 18.observed:=get_observed_match_count(cset); 19.stats:=update_stats(cset,hypoth_test(expected,observed)); 20.endfor 21.print_final_stats(csets,stats); 22.end 第6の局面において、本発明は、各対象が複数の属性を有する、対象のデータ セットとともに用いるための一致検出システムであって、下記の手段を含むシス テムを提供する: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセットの 部分集合のサンプリングのための手段、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録のための手段、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定のための手段、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定のための手段、ならび に ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告のための手 段。 第6の局面のシステムにおいて、データセットの部分集合のサンプリングのた めの手段は、データセットを分割してサンプリング用の部分集合にするための手 段を含みうる。一致の検出および数の記録のための手段は、それぞれのプロセッ シングノード(processing node)が一致の検出および各サブカウントの記録を 行うプロセッシングノードのアレイを含むことができ、関心対象の各一致に関し て前記一致の観測数と前記一致の期待数とを比較するための手段は、前記サブカ ウントをマージ(merge)して前記観測数を提供するための手段を含みうる。前 記プロセツシングノードの少なくとも1つは一致の検出およびそれぞれのサブサ ブカウントの記録を行うそれぞれのプロセッシングノードのサブアレイを含むこ とができ、マージのための前記手段は前記サブサブカウントをマージして前記サ ブカウントおよび/または前記観測数を提供する。各プロセッシングノードは、 データセットの受け取られた部分集合を保存するための入力バッファーおよびサ ブカウントまたはサブサブカウントを保存するための出力バッファーを含むメモ リ、ならびにメモリとの間でデータをやり取りするメモリバスを含みうる。 第7の局面において、本発明は、コンピュータおよび多数の属性を有する対象 のデータセットとともに用いるための一致検出プログラム媒体であって、 そのコンピュータと互換性がある保存媒体上に保存されたコンピュータプロ グラムであって、 ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性 の同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセット の部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数 の対象における複数の属性値の同時出現であって、複数の属性値が各出現に関し て同一であって、データセットのサンプリングされた各部分集合における一致の 検出および数の記録が他の部分集合における一致のサンプリング、検出および数 の記録の前、同時または後に行われる、データセットのサンプリングされた各部 分集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の 各一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこ の比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定 された閾値を上回る複数の属性である、k項数の相関属性の報告 のためにコンピュータを指向するための指示を含むコンピュータプログラムを 含む媒体を提供する。 第8の局面において、本発明は、多数の属性を有する対象のデータセットとと もに用いるための一致検出システムであって、 コンピュータ、ならびに そのユンピュータと互換性のある媒体上のコンピュータプログラムであって、 ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性 の同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセット の部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数 の対象における複数の属性値の同時出現であって、複数の属性値が各出現に関し て同一であって、データセットのサンプリングされた各部分集合における一致の 検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の 各一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこ の比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定 された閾値を上回る複数の属性である、k項数の相関属性の集合の報告 のためにコンピュータを指向するためのコンピュータプログラム を含むシステムを提供する。 いずれの局面においても、本発明の方法は、データセットのサンプリングの前 に、データセットがその行列のサンプリングによってサンプリングされる、対象 と属性からなる行列の形で対象および属性を提示する段階をさらに含みうる。 第9の面において、本発明は、 ・各反復でデータセットのサンプリングされた部分集合が必ずしも同一の対象で ある必要はないものの同じ数の対象を有し、各対象に関して属性の同じ部分集合 を有する、あらかじめ決定された数の反復に関する対象対属性を表現するデータ セットの部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告 によって選択される属性の集合を有する製品を提供する。 第10の局面において、本発明は、 ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復に関する対象対属性を表 現するデータセットの部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告 によって生成される一組の規則を適用するこによって規定される製品を提供する 。 いずれの局面においても、本発明の方法は、報告された相関属性によって規定 される規則を適用する段階をさらに含みうる。 第11の局面において、本発明は、残基A18/Q31/H33の空間座標を含むHIVエンベ ロープ蛋白質のV3ループの構造モチーフを含むペプチドまたは疑似ペプチド(pe ptidomimetic)を提供する。 第12の局面において、本発明は、請求項2記載の方法を用いて同定される構造 モチーフを有する蛋白質と相互作用するリガンドを含む薬学的組成物、およびそ のための薬学的に許容される担体または賦形剤を提供する。リガンドは適した実 体 を有し、その成分が対応するモチーフの残基または部分と相互作用するような位 置に互いにある化学的成分を含みうる。リガンドはモチーフとの相互作用により 、モチーフを含む蛋白質の領域の機能を妨げうる。 第13の局面において、本発明は、本発明のこれまでの局面の方法を用いて同定 される構造モチーフを有する蛋白質と相互作用するリガンド、およびそのリガン ドと結合した検出可能な標識を含む診断薬を提供する。 第14の局面において、本発明は、残基A18/Q31/H33の空間座標を有するV3ルー プの構造モチーフを含むエンベロープ蛋白質であって、そのモチーフと相互作用 する官能基を少なくとも1つ含むリガンドを含有する、ヒト免疫不全ウイルス(H IV)のエンベロープ蛋白質と相互作用する薬学的組成物、ならびにそのための薬 学的に許容される担体または賦形剤を提供する。リガンドは、残基18との結合能 を有していて前記リガンド中の残基18との結合のための有効部分に存在する少な くとも1つの官能基、残基31との結合能を有していて前記リガンド中の残基31と の結合のための有効部分に存在する少なくとも1つの官能基、および残基33との 結合能を有していて前記リガンド中の残基33との結合のための有効部分に存在す る少なくとも1つの官能基を含みうる。 第15の局面において、本発明は、ヒト免疫不全ウイルス(HIV)のエンベロー プ蛋白質の構造モチーフと相互作用するリガンドを設計する方法であって、HIV エンベロープ蛋白質のV3ループ内の残基A18、Q31およびH33の空間座標を有する テンプレートの提供、ならびに空間的拘束を有する有効なアルゴリズムを用いて の化学的リガンドの計算による展開(evolve)であって該展開されたリガンドが モチーフと結合する有効な官能基を少なくとも1つ含むような展開、の段階を含 む方法を提供する。リガンドは、残基18との結合能を有していて前記リガンド中 の残基18との結合のための有効部分に存在する少なくとも1つの官能基、残基31 との結合能を有していて前記リガンド中の残基31との結合のための有効部分に存 在する少なくとも1つの官能基、および残基33との結合能を有していて前記リガ ンド中の残基33との結合のための有効部分に存在する少なくとも1つの官能基を 含みうる。 第16の局面において、本発明は、ヒト免疫不全ウイルス(HIV)のエンベロー プ蛋白質の構造モチーフと結合するリガンドを同定する方法であって、HIVエン ベロ ープ蛋白質のV3ループ内の残基A18、Q31およびH33の空間座標を有するテンプレ ートの提供、分子の構造および配向性を含むデータベースの提供、ならびにその 成分がモチーフと相互作用するように互いに対して位置する有効成分を前記分子 が含むかどうかを決定するための前記分子のスクリーニング、の段階を含む。分 子の第1の成分が残基18と相互作用し、分子の第2の成分が残基31と相互作用し、 分子の第3の成分が残基33と相互作用することが可能である。 第17の局面において、本発明は、本明細書に記載される共変するk項数を具現 化した抗原およびワクチンを提供しうる。 第18の局面において、本発明は、 ・各反復でデータセットのサンプリングされた部分集合が必ずしも同一の対象で ある必要はないものの同じ数の対象を有し、各対象に関して属性の同じ部分集合 を有する、あらかじめ決定された数の反復に関する対象対属性を表現するデータ セットの部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度があらかじめ決定された閾値を 上回る複数の属性である、k項数の相関属性の集合の報告 によって選択される一組の属性との相互作用によって規定される製品を提供する 。 いずれの局面においても、対象は化合物であってもよく、属性が特定の化学成 分を含んでいてもよい。対象がペプチドまたは蛋白質であり、属性がモチーフの 特定の構造または下部構造のパターンを含んでもよい。対象が化合物、分子構造 、ヌクレオチド配列およびアミノ酸配列からなる群より選択され、属性が選択さ れた対象の特徴であってもよい。対象が時間刻みであって属性が遺伝子または遺 伝子産物の生物的パラメーターであってもよい。対象が電子的に保存される、お よび/または電子的に索引が付けられた(indexed)文書であり、属性が題目で あってもよい。対象が消費者であって属性がそれらの消費者によって購入された 、または購入されなかった製品を含んでもよい。属性が、消費者に対して郵送さ れたこと、またはされなかったことをさらに含んでもよい。対象が製品を含むも のであって属性がそれらの製品を購入した、または購入しなかった消費者を含ん でいてもよい。属性が消費者の人口統計変数をさらに含んでもよい。対象が特定 の疾患または障害を有する人々であり、属性がその疾患または障害に対する寄与 因子の可能性があるものであってもよい。対象が多数の異なる疾患または障害を 有する人々であり、属性がその疾患または障害に対する寄与因子の可能性がある ものであってもよい。対象が疾患または障害に対する寄与因子の可能性があるも のを含み、属性がそれらの因子を持つ、または持たない人々であってもよく、こ の場合には本方法はその疾患または障害に対する実質的に等価なリスクを持つ人 々の群を関連づける。 対象が時間刻みであり、属性がシステムが故障する前の時間刻みでのシステム 内の要素の状態を含んでもよく、この場合には本方法はシステムの故障を潜在的 に引き起こしうる要素の状態を関連づける。 第1の局面において、riはすべての反復に関して同一でありうる。 いずれの局面においても、提供される本方法は、システム状態が選択された時 間量にわたる状態変数の値によって提示されるシステム状態間の移行のデータベ ースをまず作成した上で、各状態から状態への移行の集合がM個の対象のものに 対応し、このため各状態変数がある属性に対応するようなデータセットとして全 体的または部分的にデータベースを提示するという段階をさらに含みうる。 いずれの局面においても、提供される本方法は、第1に、選択された時間量に わたる状態および作用のデータベースの作成、および各状態/作用/状態の3つ 組がM個の対象の一つに対応し、このため各状態変数または作用のタイプがある 属性 に対応するようなデータセットとしての全体的または部分的なデータベースの提 示、の段階をさらに含みうる。 第19の局面において、本発明は、対象対属性という行列の形式で表現された多 数の属性を有する対象のデータセットとともに用いるための一致検出法であって 、 ・各反復で行列のサンプリングされた部分集合が各対象に関して属性の同じ部分 集合を有する、あらかじめ決定された数の反復にわたる行列の部分集合のサンプ リング、 ・一致が行列のサンプリングされた部分集合における1つまたは複数の対象にお ける複数の属性値の同時出現であって、複数の属性値が各出現に関して同一であ って、行列のサンプリングされた各部分集合における一致の検出および数の記録 が他の部分集合における一致のサンプリング、検出および数の記録の前、同時ま たは後に行われる、行列のサンプリングされた各部分集合における一致の検出お よび数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告 の段階を含む方法を提供する。 第1の局面において、数値的相関値をk項数の相関属性の集合とともに報告する こともできる。 図面の簡単な説明 本発明のより良い理解のため、およびそれがいかに実行されうるかをより明瞭 に示すために、ここではその例として、本発明の好ましい態様を示す以下の添付 の図面に関して言及する。 図1は、部分集合の演算の下に格子として配置された、N=6の対象を有する集 合の幕集合を示したものであり、その幕集合によるすべての可能なk項数の列を 示し ている。 図1aは、図1により示された(黒の四角形)または省かれた(白の四角形)す べての格子結節点の相対的位置を示すものである。 図2は、図1の幕集合に関してn=1,2,…,6のすべてのサイズのn-グラム(n-g ram)を示すものである。 図2aは、図2により示されたまたは省かれたすべての格子結節点の相対的位置 を、項の部分集合を強調して示したものである。 図3は、格子の底面からみて第3層の分析に対応する、図1の幕集合に関するす べての可能な対相関(pairwise correlation)を示すものである。これは例えば 、蛋白質およびRNA配列ファミリーにおける残基間相関に対してとられる便法で ある。もう1つの例において、この図は、消費者によって一緒に購入される傾向 のある販売品目のすべての対を簡単に見いだす方法でとられるアプローチを示す 。 図3aは、図1の幕集合のうち図3に関連する相関を図示したものである。 図4は、図1の幕集合の対象の変数の区分を示したものである。分割は配列ファ ミリーまたはその他の整列化したデータセットの、1つの特殊で重要な種類の成 分モデル(componential model)である。成分モデルにおいて、NY個の固有なyi 変数の集合が見出され、N個の観測可能な変数ciのより大きな集合が「生成」ま たは「説明」できる。分割モデルでは、NY≦Nであり、各ciは厳密に1つのyiによ って生成され、典型的にはNY<Nである。1つの固有値に対応する顕在変数は一種 の小集団を形成し、おそらく互いには高度に相関し、その小集団以外の変数とは 相対的に相関しないと考えられる。図4では、顕在変数は3つの小集団に分けられ る:(C1)(C2、C5、C6)および(C3、C4)。 図4aは、図1の幕集合のうち図4の区分を図示したものである。 図5は、本発明の1つの態様による、データセットのサンプリングの3回の反復 を示したものである。 図5Aは、図5のサンプリングの3回の反復を、注釈とともに示したものである。 図6は、好ましい態様のプログラム法の全体的な流れ図である。 図7は、図6のプログラム法を実行するシステムの模式図である。 図8は、製品の製造のための工程を制御するように適合化された図6のプログ ラ ム法の全体的な流れ図である。 図9は、図8の適合化されたプログラム法を実行するシステムの模式図である。 図10は、規則に基づくシステムのための規則を生成し、次いで製品を製造する ように適合化された図6のプログラム法の全体的な流れ図である。 図11は、図10の適合化されたプログラム法を実行するシステムの模式図である 。 図12は、製品を製造するための工程を制御するために用いられる規則を生成す るように適合化された図6のプログラム法の全体的な流れ図である。 図13は、図12の適合化されたプログラム法を実行するシステムの模式図である 。 図14は、好ましい態様のハードウエア実装のノードの図である。 図15は、配列の一致が保存された物理的または構造的な関連を示す可能性のあ る、図15aの標本3D構造の任意の配列に関する残基の図である。 図15aは、標本の蛋白質に関する3D構造の図である。 図16は、本明細書に記載された方法を用いうる、3次構造子測における諸段階 の図である。 発明の実施の形態 上に詳述した通り、本明細書に記載される基本的方法では以下の段階を用いる ・対象がある属性を有する場合にその属性が対象において出現すると呼ばれる、 NA個の変数(「属性」)を項とするM個の対象の集合の表示、 ・あらかじめ決定された数の反復における各反復に関する、M個の対象からのri 個の部分集合のサンプリング、 ・一致がサンプリングされた部分集合におけるri個の対象のうち同じhi個におけ る1≦k≦NA個の属性の同時出現であって、0≦hi≦riである、サンプリングされ た対象の部分集合のそれぞれにおけるk個の属性の集合間での一致の検出および 記録、 ・決定がサンプリングおよび収集の前、同時またはサンプリングおよび収集の後 に行われる、上記のk個の属性の任意の集合ならびにあらかじめ決定された数の サ ンプリングおよび一致計数の反復に関する一致の期待数の決定、 ・k個の属性の任意の集合ならびにサンプリングおよび一致計数の反復回数に関 する一致の観測値と期待数との比較、ならびにこの比較によるk個の属性の集合 に関する相関(または結合または依存)の程度の決定、ならびに ・k項数の相関属性が、選択された相関の程度に関してあらかじめ決定された閾 値を上回る値を持つことがこの過程によって決定されたNA個の属性のkの集合で ある、k項数の相関属性の集合の報告。 1つの代替的な基本的方法は以下の段階を含みうる: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性 の同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセット の部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告。 本明細書に記載の形態は、上記の基本的方法に対する拡張を提供するものであ り、同様の原理を用いる。本明細書に記載される1つの応用の原理を他のものに 対して適宜適用してもよい。したがって、応用のすべての構成要素の記載を必ず しもそれぞれの応用に関して繰り返すとは限らない。 好ましい態様においては、プログラミングおよび解釈を簡略化するために、対 象が行であって属性が列である行列を用いることが好ましい。しかし、これは厳 密に必要とはされず、いずれの態様も、データセットの部分集合を直接サンプリ ングすることにより、行列の形式で表現されていない対象および属性のデータセ ットを用いうる。当業者には周知の通り、あらゆるリレーショナルデータベース は2次元行列形式に容易に変換しうる。 本明細書に記載される態様は、多くの異なる標本またはデータセットの他の部 分集合の全体にわたってr個の標本のそれぞれに関する一致の検出、記録および 計数の段階を同時に実施しうることから、並列処理に特によく向いている。 対象を記述する特徴または変数のそれぞれは数的でも質的でもよい。質的であ れば、何らかの数zのレベルまたは質に関して記載された特徴または変数を、z個 の可能な値または状態を有する数的変数に変換しうる。z個の可能な値または状 態を有する数的変数はz個の二値変数に変換することができ、これは属性と呼ば れる。連続的範囲の可能な値またはレベルを有する数的変数または特徴は、z個 の可能な値または状態を有する1つの変数に変換する、またはそれによって表現 することができ、このためz個の二値属性の集合に変換する、またはそれによっ て表現することもできる。 より正式には、本発明者らに、離散値をとるN個の変数vjのそれぞれに関して 、それぞれが特定の値aij∈Ajによって特徴づけられるM個の対象01,02,…,0M からなるデータベースを与えられたと仮定する。特定の変数に関する特定の値は ai@vjと表記する。連続値をとる変数で始めた場合には、いくつかの既知の方法 のいずれかを用いてそれらを離散変数に量子化することができる。また、本発明 者らは、多くの応用において、すべての変数に関して可能な値に同一のアルファ ベットAを用いる。各対象はデータベース中の特定のレコードであってもよく、 ランダムな源からの標本であってもよい。 最初のN個の変数が二値的でない場合には、それらをNA個の属性の集合に変換 することができる。例えば、補遺「B」に添付した入力一覧において、各アミノ 酸の位置は、アルファベットの文字の部分集合によって表現される20種の天然に みられるアミノ酸に対応する20通りの可能性がある変数である。この変数を二値 属性に変換するには、各変数は「A」または「Aでない」、「B」または「Bでない 」などのように2つの状態のうち1つをとる20個の異なる属性となる。この種の変 数を 表現するための1つの態様は、補遺「A」のソースコード一覧に含まれている。デ ータを属性として表現するためのその他の技法も用いうる。 この説明で述べられた原理を、より高次の計算機で用いる3項属性などのより 高次の属性に拡張することもできる。本明細書で用いる二値の例は最も実施が容 易なものである。 この状況は、各行が対象を表し各列が属性を表す表によって表現することがで き、このため、ここで各表の成分aijはi番目の対象のj番目の変数がaijと表記さ れる値を有するという事実を表す。本発明者らは、cj(「行列j」に関して)お よび属性をai@cjと表記することもできる。 例えば、6行(対象)および6列(変数)からなるこの小さな行列を考える。 行1 行2 行3 行4 行5 行6 A B C D E F W U C V E G Z L C M W M V U C V A G A B C D Z Z W L C M E Z ↑ ↑ 対象番号1は変数1に関して「A」、変数2に関して「B」、変数3に関して「C」 といった値をとる。いくつかの用途には、例えば変数2および4が相関していると いったことが見いだされることが有用と考えられる。上記の小型の(小さな架空 の)行列の例では、対象がB@2を有する時には常にD@4も有し、対象がL@2を有す る時には常にM@4も有し、対象がU@2を有する時には常にV@4も有していることか ら、この相関は妥当と思われる。属性番号3は変化せず、あらゆる対象が属性C@3 をとっているため、これは他のどの変数とも興味深い様式では相関しない。 あるデータの行列が与えられたとして、本発明者らはさらに、すべての次数k =1,2,…,NAに関してそれぞれの可能なk項数の属性に関する確率を特定する何 らかの「真の」基礎確立分布q( )が存在すると仮定する。例えば、k=1について は、本発明者らはq(Cj):Aj→[0,1]を有し、本発明者らは何らかのデータセット に関してq(B@2)=0.33を有すると考えられる。分布が、例えばq(B@2,F@6)=0.1 66というように、より高次の確率を特定することもある。提起されたこの特定の 問題には、分布q( )もしくはその少なくとも一部の推定または概算の問題が内在 する。 問題は、k=2,…,NAに関して、相関があらかじめ決定された何らかの値より も高い、いくつかまたはすべてのk項数の行(cj1,cj2,…,cjk)を見いだすこ とである。例えば、M×Nの値の表が与えられたとして、何らかの実数ρkに関し てD(q(vj1,vj2,…,vjk1=1...kq(vj1))>ρkであるようなk項数の行添数(j1 ,j2,…,jk)の一覧を返す手順を必要とすることが考えられる。ここでD(p1|p2 )はカルバック発散測度であり、この場合には、行変数の全体にわたり観測され た値の分布とすべての行変数が統計的に独立している分布との間の差を推定して いる。カルバック測度は、この種の問題に適用しうる多くの考えられる相関また は関連性の指標のうちの1つに過ぎない。 本発明者らの目的のために、本発明者らは、統計的独立性からの偏差に関する 相関を検討した。独立変数が存在するという基礎仮説が真であるとして、データ ベースの調査における何らかの事象の観測発生数と期待される数とを比較するこ とができる。すなわち、問題は以下の通りである:値の表が与えられたとして、 (ai1@ci1,ai2@ci2,…,aik@cik)の何らかの観測挙動、何らかの実数閾値θi ∈[0,1]およびその推定または仮説検定の方法の基礎となる何らかのモデルに対 し、k=2…NAのすべてに関して、P(Observed(ai1@ci1,ai2@ci2,…,aik@cik)|I ndePendent(ci1,ci2,…,cik),Model)<θであるようなすべてのk項数の属性( ai1@ci1,ai2@ci2,…,aik@cik)の一覧を返す。 標本抽出のサブプロセスは無作為抽出でよく、無作為的である場合には均一分 布を含む、対象に関する多数の可能な確率分布のいずれかの支配下にありうる。 同様に、本方法の演算の間に抽出されたT個の標本のそれぞれの間、および1つの 標本内で抽出されたr個の対象のそれぞれの間の統計的独立性または依存性に対 して拘束があってもよい。好ましい態様の利点の例 上記および以下にさらに記載される一致検出法および装置の比較優位性が最も 明らかな、多くの多様な応用領域において生じる問題が少なくとも1種類ある。 このような問題は以下を特徴とする: 1.多数の属性(本発明者らの表現では行)、 2.互いに高い相関がある属性の何らかの数の小集団であって、このような小集 団の各メンバー属性がそれ自身の小集団以外の属性とは相対的に相関しないよう な小集団がデータセット中に存在する可能性がある、ならびに 3.このような属性小集団の正確な数、幅(k項相関およびk次の特徴などにおけ るk)および位置に関する予備知識がない。 本発明者らが知るすべての他の手順は、発見可能なk項数の幅kに対する事前の 制限を設定するか、または連続的もしくは並列的な網羅的な検索をすべてもしく はほぼすべての可能なk項数の属性にわたって実行するかのいずれかである。こ れをより簡略化するために、好ましい態様の方法では、44項相関を見いだすため に要する計算時間およびメモリは、同じ極めて高次元のデータセットにおいて2 項相関を見いだすために要するものとほぼ同一である。これに対して、大部分の 従来法では、44次特徴の発見を除外するか、さもなければそれを見いだすために 何桁も大きい時間または空間を割り当てる必要がある。好ましい態様の応用の例 極めて大量なデータセットの製作者は、タスクの計算上の複雑性、および大部 分の高次項に関して統計的に有意な椎定を裏づけるために必要なデータの不足と いう両面により、完全に高次な確率モデルによる高度の計算を行うという試みを 阻まれてきた。 好ましい態様では、データベースモデルを構築するために、高次確率の部分集 合のみを計算し、高次特徴(「HOF」)を限定的に選択した上で抽出する。本明 細書に記載される相関検出法を用いて高次特徴の集合をあらかじめ選択すること 、ならびに最も有意なもの(統計的、および用途特異的な基準に関して)を既存 の統計的な、規則に基づく、神経回路網による、または文法に基づく方法に基づ いたモデルに基づく分類機(classifier)および予測機(predictor)に組み入 れることにより、限定的な計算資源からの効率的な利用が可能となる。あらかじ め選択されたHOFの集合は、このようなシステムのための規則を作るために用い ること ができる。例えば、ある会社が特許出願を提出しようとしている際に発明者から の譲渡証を提出すべきかどうかを決定するために、本明細書で詳述した方法を用 いてデータセットを分析することもできる。次にこの規則は、会社が特許出願を 提出しようと決定する際に常に譲渡を生成するためのシステムに用いられる。規 則に基づく多くのネットワークは、本明細書に記載される方法を用いる予備処理 によって利益を得ると考えられ、例えば、1992年10月27に発行された米国特許第 5,159,662号に記載されたグレーディ(Grady)らのコンピュータに基づく網パタ ーンマッチング回路網を構築するためのシステムおよび方法(the System and M ethod for Building a Computer-Based Rete Pattern Matching Network)、199 2年6月2日に発行された米国特許第5,119,470号に記載されたハイランド(Highla nd)らの推論エンジン、ならびに1993年1月12日に発行された来国特許第5,179,6 32号に記載されたマツイ(Matsui)らの双方向推諭のための迅速法(the Fast M ethod for a Bidirectional Inference)などを参照されたい。 または、見いだされたHOFを、例えば、距離幾何学的または経験的に推定され た協同性およびフォールディングのパターンに基づく既存の方法に導入した場合 の蛋白質構造の予測または決定において、または相関する製品の販売情報に基づ く販売計画において、製品の作製のために直接的に用いることもできる。 以下では、ロスアラモス(Los Alamos)HIVデータベースを用いる本明細書に 記載された原理の実践について説明する。特にこれらの原理は、ヒト免疫不全ウ イルス(HIV)のエンベロープ蛋白質のV3ループの検討に適用された。生化学お よび分子生物学の全般において、蛋白質の特定の残基に共変がみられることは、 機能的、生理的役割を持つ蛋白質の領域を特徴づける構造モチーフの存在を示す 可能性が高い。 エンベロープ蛋白質はウイルス粒子の周囲を取り巻く脂質膜中に部分的に包埋 され、脂質から外部に突出する。感染時にHIV粒子の脂質が宿主細胞の膜と融合 すると、エンベロープ蛋白質も感染細胞の膜から突出することがある。V3ループ の配列は様々なウイルス単離株の間で非常に異なることから、V3のVは「可変な 」という意味を表す。 以前、ロスアラモスグループのB.T.M.コルバー(Korber)、R.M.ファーバー( Farber)、D.H.ウォルパート(Wolpert)およびA.S.ラペデス(Lapedes)は、本 明細書に参照として組み入れられる「HIV-1のV3ループにおける共変:情報理論 による分析(Covariations in the V3 loop of HIV-1:An information-theoreti c analysis)」、Proc.Nat.Acad.Sci.U.S.A.90(1993)において、HIV-1エ ンベロープ蛋白質のV3ループの特定の残基における2項共変変異を述べている。 本原理の実践により、ロスアラモスグループの結果の一部は確認されたが、さら に、その他の高度に共変する残基の群の発見も可能であった。ロスアラモスグル ープは対共変を見いだしたのみであったが、本発明者らは本明細書においてk>2 であるk項残基の共変を記載する。すなわち、本発明者らはHIVエンベロープ蛋白 質のこれまで認識されていなかったモチーフを同定した。 特定の試行に関して、入力は657種の異なるウイルス単離株由来のV3領域のそ れぞれのアミノ酸配列からなり、それらは補遺「B」に示されている、入力に関 して用いたソースコードは補遺「A」および「D」にそれぞれ「File coinc.pl」 および「File probsort.pl」の名称で示されている。出力は補遺「C」に示され ている。 以下の別項に詳述する表C.1からC.9までを参照すると、6回の別々の試行の結 果が示されている。パラメーターの値はそれぞれの凡例に表記した通りである。 各表では、結果は最も有意な相関が最初になるように統計的有意性の順に示され 、標準的な1文字アミノ酸コードを用いている。したがって、表C.6を参照すると 、観測された最も有意な一致は残基18のアラニン(A)、残基31のグルタミン(Q )および残基33のヒスチジン(H)の出現である。これは、引用したページで示 された他の一致と同様に、これらの残基を含むHIV-1 V3ループの構造モチーフが 同定されたことを意味する。 A18/Q31/H33の特定の例を続けると、V3の構造モチーフはおそらくウイルス 粒子の外側に存在するこれらの残基を含み、V3ループのその領域は特定の構造モ チーフを必要とする特定の機能を果たす可能性が高い。このため、この構造モチ ーフはその機能を保持するために変異後も保存される必要があると考えられる。 この推論は本明細書で同定される他の一致にも拡張される。 HIVの特定の保存された構造モチーフが同定されることにはいくつかの用途が ある。 当技術分野で知られた技法を用いることにより、このモチーフを具現化したペ プチドを抗体として用いうると考えられる。したがって、ワクチンを調製するこ とができる。このモチーフを具現化したペプチドは、例えばマニアティス(Mani atis)ら、分子クローニング:実験室マニュアル(Molecular Cloning:A Laborat ory Manual)、Cold Spring Harbor Laboratory、Cold Spring Harbor、NY(198 2)およびサムブルック(Sambrook)ら、分子クローニング:実験室マニュアル (Molecular Cloning:A Laboratory Manual)(第2版)、Cold Spring Harbor L aboratory、Cold Spring Harbor、NY(1989)などに一般に記載されている既知 の組換え法を用いて作製してもよい。または、ペプチドまたは疑似ペプチドを標 準的な化学的技法を用いて化学合成してもよい。ペプチドまたは疑似ペプチドに 対するモノクローナル抗体を、例えばハーロウ(Harlow,E)およびレーン(Lan e,D.)、抗体:実験室マニュアル(Antibodies:A Laboratory Manual)、Cold Spring Harbor Laboratory、Cold Spring Harbor、NY(1988)に記載されたもの などの標準的な方法を用いて作製してもよい。新規な構造モチーフに対する特異 的親和性を有するこのようなモノクローナル抗体の断片、例えばFab断片を作製 することもできると考えられる。 もう1つの態様では、本発明に従って同定された構造モチーフと相互作用する リガンドを作製することができる。すなわち、このリガンドは適切な実体をもち 、モチーフの対応する残基または部分と相互作用するように亙いに位置する化学 成分(chemical moiety)を有することを特徴とすると考えられる。いくつかの 態様において、リガンドはそのモチーフと結合することによってその領域の機能 を妨げる作用物質、例えば薬物でありうる。このため、リガンドは潜在的な治療 的有用性を侮えたHIV拮抗薬になると考えられる。または、同定されたモチーフ を含む特定のV3領域とリガンドを結合させ、診断的有用性を得ることも可能であ る。このような診断的有用性はエクスビボ的でありうる。診断的有用性を備えた リガンド(例えば抗体)は、比色反応に用いるための蛍光または酵素複合体など の標識を含むこともできる。蛍光標識されたウイルスまたはウイルス感染細胞は 蛍光顕微鏡またはFACS(蛍光標示式細胞分取器)を用いて可視化または計数しう る。 本発明に従って同定された構造モチーフと結合するリガンドの設計および同定 の方法も、本発明によって提供される。 したがって、1つの態様において、本発明は、アミノ酸残基A18/Q31/H33を含 む構造モチーフを含むヒト免疫不全ウイルス(HIV)のエンベロープ蛋白質と結 合するためのリガンドを提供する。このリガンドはそのモチーフと結合しうる少 なくとも1つの官能基を含む。1つの好ましい態様において、リガンドは、残基18 との結合能を有していて前記リガンド中の残基18との結合のための有効部分に存 在する少なくとも1つの官能基、残基31との結合能を有していて前記リガンド中 の残基31との結合のための有効部分に存在する少なくとも1つの官能基、および 残基33との結合能を有していて前記リガンド中の残基33との結合のための有効部 分に存在する少なくとも1つの官能基を含む。 もう1つの態様において、本発明は、ヒト免疫不全ウイルス(HIV)のエンベロ ープ蛋白質の構造モチーフと結合するリガンドを設計する方法を提供する。本方 法は、HIV-1エンベロープタンパク質のV3ループ内にA18、Q31およびH33の空間座 標を有するテンプレートの提供、および空間的拘束を備えた有効なアルゴリズム を用いて、モチーフと結合する少なくとも1つの有効な官能基を含むような化学 的リガンドを計算的に展開することを含む。1つの好ましい態様において、リガ ンドは、残基18との結合能を有していて前記リガンド中の残基18との結合のため の有効部分に存在する少なくとも1つの官能基、残基31との結合能を有していて 前記リガンド中の残基31との結合のための有効部分に存在する少なくとも1つの 官能基、および残基33との結合能を有していて前記リガンド中の残基33との結合 のための有効部分に存在する少なくとも1つの官能基を含む。 もう1つの態様において、本発明は、ヒト免疫不全ウイルス(HIV)のエンベロ ープ蛋白質の構造モチーフと結合するリガンドを同定する方法を提供する。本方 法は、HIV-1エンベロープタンパク質のV3ループ内にA18、Q31およびH33の空間座 標を有するテンプレートの提供、分子の構造および配向性を含むデータベースの 提供、ならびに前記分子がモチーフと相互作用するように互いに空間的に配置さ れた有効な成分を含むかどうかを決定するためのスクリーニングを含む。1つの 好ましい態様において、分子の第1の成分は残基18と相互作用し、分子の第2の成 分は残基31と相互作用し、分子の第3の成分は残基33と相互作用する。 本明細書に記載される原理は、本明細書に記載される他の共変するk項数、す なわち共変するV3ループの両方の残基、および共変する特定の残基の特定のアミ ノ酸に関する、抗原およびワクチンを含む同様のそれぞれの態様を包含する。 本発明の方法は、高次特徴を検出するための「高域フィルター」とみなしうる 。このようなHOFは、データベースのモデル化、機械学習、ならびに知覚および パターン認識において重要な役割を果たす。データベースのマイニングおよびモ デル化の文脈において、これらの特徴を見いだすための手順は以下を含むいくつ かの主要な役割のうちのいずれかに役立つと考えられる。 1.大量の複雑なデータセットの予備処理:ギブズモデル、隠れマルコフモデ ルおよびEM、マッカイ(MacKay)の密度ネットワーク(density network)、お よび神経回路網分野での関連した要因学習法(factorial learning)を含む最も 優れたモデル化法の多くは、本明細書に記載される原理を実行することによって 提供されるものなどの、データベース中の相関すると思われる変数を見いだす迅 速な予備処理手順を先行することにより、網羅的検索またはパラメーター空間の 組み合わせによる爆発的増加を伴わずに高次相互作用を捕捉する点において大き な助けを得ると考えられる。 2.大量の複雑なデータセットの視覚的表示:最も単純なグラフィカルディス プレイインターフェースと組み合わせた場合ですら、本発明者らのものなどの手 順により、ユーザーが高次元データにおける最も可能性の高いと思われる興味深 い高次特徴を迅速に(少数のr個の標本で)観察することが可能になる。 3.予備調整(pre-conditioning)および冗長性の排障:ここまでは、本発明 者らはモデルの構築に用いるための属性間相関を見いだす有用性を強調してきた が、多くの最適化、学習およびデータ適合化の用途においては、主成分分析法( PCA)などの多数の部分空間法のいずれかにより、変数の間の相関を発見および 排除する必要がある。プログラム可能なデジタルコンピュータを用いる1つの態様 デジタルコンピュータの態様のための構成要素 データ行列、標本抽出および一致 NA個の属性の固定集合のそれぞれに関して 、それぞれが「はい」(1によって表現される)または「いいえ」(0によって表 現される)のいずれかの値をとるM個の対象の集合が与えられた場合、入力デー タセットをM×NAの値の表として配列することができ、これを本発明者らはデー タ行列(data matrix)または単に行列と呼ぶことにするが、この行列は、以下 に説明するシステム/プロセスの機能的部分を構成する部分行列および関連ベク トルとともに、プログラム可能なコンピュータの内部のメモリ位置に保存される 。この表現において、行列の行は対象に対応し、列は属性に対応する。この行列 をVijと表記し、この二次元表の各要素をvij∈{0,1}によって表記しうるが、 ここでiはi番目の対象(行)oiを意味し、jはj番目の属性(列)ajを意味する。 これを記載する目的で、対象の集合を0=o1,o2,…,oMとしてリスト化してもよ く、属性の集合をA=a1,a2,…,aNAとしてリスト化してもよい。 図5Aは、好ましい態様のプログラム法の説明に関して以下により詳細に考察さ れる、図5に例示された実施例に対して適用されたこれらの項を例示したもので ある。 aij=1であれば、特定の属性ajが特定の対象(列)iにおいて出現するという ことができる。 1≦m≦M個の対象(列)5の順序付きのリストが与えられた場合、ある属性ajに 対する出現ベクトル2は、与えられた対象のリストにおけるg番目の対象において 属性ajが出現する場合、しかもその場合のみにg番目のビットが1であるような二 値ベクトルまたは長さmの列(string)として定義しうる。出現ベクトル2は、い くつかの対象の集合にわたる属性の出現パターンを単純に表現したものであり、 例えば、M個の対象すべての集合、または以下に説明する実施例に対応する対象 の集合である。 サンプルr、例えば図5Aにおける参照する数字4によって同定される3列で あるが、ある確率分布からランダムに導き出された記録Mからなるrのセットで ある。ある好ましい態様では、サンプル中の列は、一定の分布から独立して導き 出されるものと考えられる。 各あらかじめ決定された反復数の中で一回という系で、サンプルrのサンプル 4の製図を行った。ある好ましい態様では、全部でT回の反復によって導き出さ れたサンプルは、一定の分布から独立に導き出されるものと考えられる。 いくつかの好ましい態様では、平行したコンピュータ計算の実施態様において 、異なる連続反復サンプリング、および/またはさまざまなな処理ノードによっ て処理されたデータセットの異なったサブセットに対して、さまざまなr値が用 いられる。このような場合に、i番目の反復について、またはi番目のサンプルに おいて、対象となるザンプルの番号はrであるという。異なったサンプルサイズ を用いることの長所には、その方法を一通り行なう中で、どのr値が最適である かがはっきりしないときに、さまざまなr値を試すことができること;また、さ まざまな処理ノードの中で、さまざまなプロセッサーサイズ/速度、およびメモ リサイズを最適に使用するために、平行コンピュータ計算における異なった処理 ノードに対して、異なったr値を選び出すことができることなどがある。その方 法を一通り行なう問中、同一のr値を一つだけ用いることの長所は、プログラム のコードが単純になるということが僅かな利点となるだけである。 一致集合(set)、またはCsetは、対象(列)5の何らかの集合内の1≦k≦NA 属性(行)1の結合アピアランスを含むパターンとして定義することができる。 すなわち、何らかの一つもしくは複数の列5を考慮に入れると、aj1,aj2,…およ びajkが全て一つもしくは複数の所与の列に生じる場合、cset aj1,aj2,…,ajkが 存在する。たとえば、図5Aに示した式3によって決められる要素A@c1、B@c2、D@ c4は、セット(cセット)に一致する。 コンピューターメモリーはcセットテーブルと呼ばれるデータ構造を記録し、 それは前記プロセスにおける一つあるいはそれ以上の繰り返しが出現する各cセ ットの同定、および出現数の連続を意味する。cセットの同定は、cセットを構 成する属性(列)のリストであり;出現数は、このプロセスにおける特定の繰り 返しが見つかるまで、あるいは全ての繰り返しの終わりまでのcセットの出現数 の数に対応する数である。他の態様においては、コンピューターのメモリーに記 録されたハッシュ・テーブルとしてcセット・テーブルが満たされる。 あるr標本のためのcsetは、標本中のrデータアイテムにわたってその発生(「 ]」により表示される)および非発生が(「0」)、二進法によりコードされた記 録である、特定の発生率のベクトルを有する。従って、k属性の集合に対応するc setは、関連する発生率のベクトルを有する可能性があり、およびそれぞれの属 性 は、関連する発生率のベクトルを有する可能性がある。 あるr標本において、あるcset α=(αi1,...,αik)に対してαi1が、r記録中 のhにおいて現れるとき、...、およびαikがr記録中のhにおいて現れるとき、サ イズhのマッチ(または発生率)が生じているといい、それらはr記録中の同じh において確実に現れる(図5Aを参照)。 一致の観測数 一致を観測し、対応するcsetを「ビンニング(binning)法」 により保存またはアップデートする。各反復(iteration)において、属性を二値 列化(binned)し、分離されたサブセットの中に、その時の反復におけるそれら の結合(incidence)ベクター2割るr−試料4に従い配置した。ここに記載され た本発明のマトリックスに基づく態様において、これらのべクターは、2rアド レススペースの、非常にまばらなサブセット中に配置(addresses)するr−ビ ットのように振舞う(図5および5A参照)。 1回の二値列(bin)における全ての属性は1つのcsetを構成する。このcsetは 記録され、仮に特定のcsetが過去の反復において起こったものである場合は、生 起の回数はアップデートされ、仮に過去に起こったことのない場合は、そのため にcset表のエントリーを作成し、その生起回数がアップデートされる。ここに記 載された態様では、系は数hを保存する:この反復および各反復において、0≦ h≦rの生起。反復の数Tの特定が完了した後、cset表は、観察された全てのcs et、および、Σ1 r=1hi(α)で表される、各csetαに対する「観察された生起」 の総数のリストを含む。ここで、hi(α)は、i回目の反復におけるαiを含む k属性に対する結合生起の数を表す。 期待された関数計算 期待された関数計算は、数学的なものであり、コンピュ ータープログラムあるいはサブルーチンとして、または電子工学あるいは光学式 回路として働く。それは、aj1,aj2,…,ajkという特質及びTの数の1セットを導 き、 γ試料の描写及び観察上一致したTの反復の際に、特質の1セットに対し、期待 された一致数に符合する。 本発明の1つの特定の態様では、多項分布から関数fmatch(α,h,r)が得られる : この式は、1つのr標本において、すべてが同一のh行に生じる、ai1の厳密にh 回の出現、ai2の厳密にh回の出現、…およびaikの厳密にh回の出現が見いだされ る確率の椎定値を与える。 (標準的な多項式において2を除くすべての多数のp()因子はゼロ幕指数に伴っ て消失するため、この関数の定義は単純な形式を有する)。 可能性のあるcsetを構成するk個の属性に関する大きさhの合致の確率は同時確 率p(ai1,…,aik)に関して定義されており、期待計数関数はこれらの同時確率に 関して特定の推定値を用いる必要がある。この好ましい態様において、同時確率 の推定値は個々の属性の間に独立性があるとの仮説を取り入れている。したがっ て、上記で与えた定義式において本発明者らはP(ai1,…,aik)の代わりに 仮説検定関数および相関速度 仮説検定とは、コンピュータプログラムもしく はサブルーチンとして、または特殊な目的の電子的および/または光学的ハード ウエアにおいて履行される数学的手順であり、k個の属性の特定の集合に関して それそれが一致の期待数および観測数を表す一対の数字HexpおよびHobsを用い、 k個の属性間の相関の推定値を表す数Cを生成する。 いくつかの好ましい態様では、以下に説明する通り、尾部確率に関するチャー ノフ境界により仮説検定関数が提供される。 で0≦X≦T・rとする。チャーノフ-ヘフディング境界[8]の方法により以下の理 論が与えられる: X=X1+X2+…Xnをn個の独立無作為変数sの合計とし、ここで実数li(「下位値 」)およびui(「上位値」)に関してli≦Xi≦uiとする。 すると、 P[X-E[X]>δ]≦exp(-2δ2/Σi(ui-li)2) (1) 本発明者らの目的のために、本発明者らはすべてのi=1,2,…,Tに関してn= Tおよび1i=0およびui=riと設定し、本発明者はそれによって以下を得る。 この数学的関係を用いて、相関値を計算するための有効な手順を規定すること ができる: 標本抽出のあらゆる反復に関して同一の標本数rが用いられる、すなわちすべ てのi=1,2,…,Tに関してri=rである特殊な場合には、上記の式は以下のより 単純な形式に変わる。 ここで相関値は、期待数Hexpの基礎にある仮説が真である場合には、r個の標 本抽出のT回の反復にわたり観測されたHobs一致を有する確率を1から差し引いた 推定値に対応する。いくつかの好ましい態様に関して、属性間の独立性の仮定が 上記のHexpの計算に用いられた場合には、この仮説検定により、独立性からの偏 差を椎定する各csetに関する相関値が与えられる。すなわち、それにより、cset を構成する属性間の統計的依存性が椎定される。 プロセス内部の構成要素の演算 典型的には、表現構成要素はまず本発明の全体的プロセスの内部で動作する。 複数の標本抽出の反復がデータの表現に対して実施され、各r-標本に関して、一 致の検出および記録がなされる。 標本抽出の反復は連続的に行っても並列的に行ってもよく、または連続的およ び並列的ステップの何らかの組み合わせで行ってもよい。 プロセス内の任意のステップで、属性の一致集合の一部または全体に関して、 一致の期待数の決定が行われる。プロセスのこの構成要素は、すべての一致集合 に対してすべて一度に行っても段階的に行ってもよく、連続的もしくは並列的ま たは何らかの組み合わせで行ってもよい。各一致が検出または保存された時に一 致集合(cset)に関してこれを行ってもよく、このような検出または記録の前ま たは後に行ってもよい。 何らかの数の標本抽出の反復を行った後に、記録された一致集合の一部または 全体に対して、一致の実際の数と期待数との比較を行うことができる。これはす べてのcsetに関して一度に行ってもよく、またはプロセスの全体を通じて種々の 時点でそれらの部分集合に関して行ってもよい。異なるcsetに関するこれらの比 較は連続的に行っても並列的に行ってもよく、その何らかの組み合わぜで行って もよい。 何らかの数の標本抽出の反復を行った後に、比較により構成要素の属性問に有 意な相関が認められると判定された、記録された一致集合の一部または全体に関 して、相関属性の集合を報告してもよい。これはすべてのcsetに関して一度に行 ってもよく、またはプロセスの全体を通じて種々の時点でそれらの部分集合に関 して行ってもよい。異なるcsetに関するこれらの比較は連続的に行っても並列的 に行ってもよく、その何らかの組み合わせで行ってもよい。好ましい態様のプログラム法の説明 以下には、プログラム可能なデジタルコンピュータに関する1つの可能な態様 に対応する、フロッピーディスク、ハードディスク装置、RAMまたはその他の媒 体などの適切な媒体上にあるプログラムが疑似コードの形で示される。 図5は、架空の小型データセットに対するこの態様の適用の例を図面で提供し ている。小型データセットに対するr個の標本抽出(r=3に関して)の3回の反復 が上から下の順に描写されている。各反復に関して、左側の枠はデータセットを 表し、その中の枠で囲まれた部分はサンプリングされた行を表す。右側の枠は、 属性が重なる二値列(bin)の集合を表す。例えば、1回目の反復では、サンプリ ングされた3つの行のうち1番目および2番目で、A@1、B@2およびD@4のすべてが生 じており、このためそれらはそれぞれ一致ベクトル110を有し、その二進アドレ スによって表記された二値列において重なる。単一の属性のみを含む二値列は無 視され、「空白の」二値列は全く生成されない。すべての二値列は各反復の後に 消去および除去されるが、重なり(collision)はCsetの全体的データ構造に記 録される。 相関属性の集合を見いだすための手順: 0.begin 1. read(MATRIX); 2. read(R,T); 3. compute_first_order_marginals(MATRIX); 4. csets:={}; 5. for_iter=l to T do 6. sampled_rows:=rsample(R,MATRIX): 7. attributes:=get_attributes(sampled_rows); 8. all_coincidences:=find_all_coincidences(attributes); 9. for_coincidence in all_coincidences_do 10. if cset_already_exists(coincidence,csets) 11. then_update_cset(coincidence,csets); 12. else add_new_cset(coincidence,csets); 13. endif 14. endfor 15. endfor 16. for cset in csets do 17. expected:=compute_expected_match-count(cset); 18. observed:=get_observed_match_count(cset); 19. stats:=update_stats(cset,hypoth_test(expected,observed)); 20. endfor 21. print_final_stats(csets,stats); 22. end 疑似ユードのステップ5から21までは本明細書に記載される基本的方法の段階 、すなわち以下を表す: ・属性の各部分集合が同一である、あらかじめ決定された数の反復に関する行列 の部分集合のサンプリング、 ・一致がサンプリングされた部分集合における1つの対象における複数の属性値 の同時出現であって、各出現に関して複数の属性が同一である、サンプリングさ れた各部分集合における属性の一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告。 補遺「B」は、Sun4コンピュータ上でサン(Sun)UNIXオペレーティングシステ ムにおいて動作させるための、Perl言語で記述された実際のソースコードを含む 。補遺「B」のコードリストのための入力データのサンプルを、補遺「C」にHIV エンベロープ蛋白質のV3ループ由来の部分的アミノ酸配列に関して記載している 。補遺「C」の入力に関する補遺「B」のコードからの対応する出力を補遺「D」 に示している。補遺「D」の出力を生成する目的で、補遺「B」の主コードリスト の説明および表現のために、補遺「E」に記載した補助的Perl言語プログラムを 用いた。この態様に関する全体的な流れ図は図6に示されており、全体的なブロ ック図は図7に示されている。結果として得られた報告は相対的にみて体系化さ れていないアスキー(ascii)データベースとしてフラットファイル中に保存さ れ、それが後に印刷される。それをプリンタに直接送ること、または他のリソー スへの報告のためにネットワークを通じて送ることも同じく可能である。代替的な態様 本発明の代替的な態様の説明は2つの範鴫に分けることができ、以下に別々に 説明する:その1つは問題特異的(problem-specific)な可能性のある多くの用 途において用いうるようなシステム/プロセスの種々の物理的態様であり、2つ 目は本発明の種々の問題特異的用途による、上記の説明において列挙した構成要 素の異なる解釈である。異なる履行 例えば、プログラム可能なデジタルコンピュータ上のプログラムとしての多く の可能な態様のうち: 本方法は上記に与えられた疑似コードの最も直接的な解釈において完全に連続 的に実行することもでき、または本方法は並列的(ベクトルまたはマルチプロセ ッサ式)または分散型コンピュータシステム上で多くの可能な方式で実行するこ ともできる。一組の計算を、各計算がそれぞれの別々の計算でrすなわち標本数 に関して異なる値を用いる点を除いて上記に概要を述べた通りのプログラムのス テップ全体を実施する一組の計算を並列的に実行してもよいが、無作為なr-標本 抽出のために異なる初期無作為数の開始点(seed)から開始する条件で、それぞ れの別々の計算は同一の重要なパラメーター値を有する同一のプログラムステッ プを実行することもできる。または、それぞれの異なるr-標本を異なるプロセッ サ上で実行する別々のプロセスに分けるという条件で、上記に概要を述べたプロ グラムのステップ全体を1回実行することも可能であると思われ、ここでそれぞ れのこのようなプロセスは検出および選択的には記録の段階を含み、全体的なcs etの数が後に連結されて全体的なプロセスおよび全体的なデータ構造になると考 えられる。さらに、期待数の計算および期待数と観測数との比較はすべて一度に 行っても段階的に行ってもよく、連続的または並列的に行ってもよい。同様に、 推定された相関値の報告は、Csetの一部または全体に関して計算の終了時に一度 に行っても段階的に行ってもよく、または全体を通じて連続的もしくは並列的に 行ってもよい。 有意に相関するk項数の属性(比較、すなわち仮説検定の段階で十分高度に相 関すると思われたcset)の報告を含みうる本方法の出力は、言葉によるものでも よく、ならびに/または数字および/もしくは図形によるものでもよい。 標本抽出方式としては、確定的、疑似無作為的または純粋に無作為的なものを 含む、多数のものが可能である。疑似無作為的または無作為的であれば、超幾何 的および多項的な標本抽出を含む、多数の無作為標本抽出方式のいずれを用いる こどもできる。r-標本内部のr個の対象の標本抽出は「置換あり」でも「置換な し」でもよい。次に高いレベルに進んだ場合には、r個の標本それ自体の集合を 「置換あり」または「置換なし」で抽出することもできる。 重要な標本抽出パラメーターrに関する異なる選択も可能であり、各標本に関 して同じ数rを用いる必要はない。 標本抽出の反復回数Tについては多くの選択が可能である。本発明の方法によ って見いだされたk項数の属性に関して推定された相関の程度において望ましい 信頼 度を達成するためのTを選択するには多数の数学的方法のいずれを用いることも 可能である。または、手順を任意の一定回数にわたり反復して実行した後に結果 を印刷または表示すること、または何らかの回数にわたる反復の実行と結果の印 刷または表示をインターリーブにより行うことも可能である。 アルゴリズムの処理の間に用いられるCsetデータ構造の表現、保存およびアク セスのためには多くの可能な方式が存在する。Csetデータの保存およびアクセス は、ハッシュ表(hasht able)、k-dツリー、パトリシアツリー(trieとも呼ば れる)および/またはデータの効率的な保存およびアクセスのための当業者に知 られた他の方法によって行いうる。いかなるデータ構造が選ばれた場合でも、そ の構造はレジスタ内、主記憶装置内および/または磁気ディスク、磁気テープも しくは光学的保存媒体などの二次的もしくは外部の保存媒体に物理的に保存され うる。 種々のタイプの汎用計算ハードウエアに対する本方法の態様に代わるものとし て、特殊用途の電子的、光学的もしくは電気光学的ハードウエア、または汎用お よび特殊用途のアーキテクチャーおよび装置の何らかの組み合わせに対する多数 の可能な態様も存在する。 例えば、本発明の行列表現を実行するために極めて効率的な特殊用途電子回路 (LSIまたはVLSI)を用いることもできるが、これは属性の発生ベクトルが単純 な二進ベクトルであるという事実、本発明の1つの考察において以前に説明した 一致「二値列(bin)」が各r個の標本に関して大きさ2rのメモリ空間に対する「 アドレス」に対応するという事実、ならびに無作為数の生成およびサンプリング 、Csetデータ構造の高速アクセス保存ならびに期待数推定値の計算および仮説検 定および相関推計に用いられる数学的関数の実行のための特殊用途ハードウエア の設計、製造および使用が現在の技術で可能であることによる。 1 つの好ましい態様の特殊用途ハードウエアの方法の説明 1.概要 図14を参照すると、上記の特殊用途ハードウエアの1つの態様がアルゴリズム の実行を並列化することによる潜在的な利点を引き出すことを意図している。1 つのノード(以下に定義する)がM(データの行の数)に沿った任意のデータセ ットを 分割し、これらの部分をそのCP(これも以下に定義する)に対して分配する。CP は他のノード(回帰的定義における)でもよく、上記の好ましい態様の節のプロ グラム法の説明の項で高レベル「疑似コード」において説明した方法のステップ 8を実施するために開発された特殊用途プロセッサでもよい。ノードのCPによっ て結果が計算された場合、マージのステップ(上記の「疑似コード」の記載にお けるステップ9から14まで)がノードによって実施される。いったんマージがな された時点で、結果はノードのペアレント(parent)に戻される。ノードがツリ ーのルートでない場合には、このハードウエアを制御するドライバに完全な結果 のセットが返される。以下に説明するシステムは主コンピュータのCPUから「オ フライン」で用いうる。このようなシステムの商業的販売および使用に関するそ の他の可能性の中には、ユーザーが購入して自らのパーソナルコンピュータまた はワークステーションにインストールしうる特殊な「ボード」または「カード」 上への実装がある。ローカルエリアネットワークまたは「スーパーコンピュータ 」設備上での1つまたは多数のこのような特殊なサブシステムの使用も想起しう る。説明した態様は、当業者には理解されるであろうが、本明細書に記載された 方法を並列化するための多くの可能な方式のうち1つのみを表現している。 以下に説明するこの履行(implementation)は、文字を値とするデータ属性の みに対して作用すると仮定される。これは決して本明細書に記載される基本的方 法を限定するものではなく、むしろこれは基本的方法の特殊な履行である。この 実施は、本明細書の別項で記載される二値属性コード化に容易に追従しうる。 ノードの図は、図14に演算処理プロセッサ(CP)とともに示されている。ノー ドには以下のものが含まれる: CPに送ろうとする入力が保存される(入力バッファー)、およびCPによって見 いだされた結果が保存される(出力バッファー)記憶装置。 バス自体上の通信の調停に用いられるほかデータ転送の手段でもある、制御、 データおよびアドレスバスに分割されたメモリバス。 一組のビットフラグおよび小さな追加メモリ部分(Lastout)。LastOutは最後 に書き込まれた出力バッファーの区域のアドレスである。それぞれがどの状態に あるかを決定するためにマージおよびI/Oプロセッサによって2つのビットフラ グ が用いられる。 それぞれがそれ自体にローカルメモリキャッシュを備えた、一致の発見を実行 する大きさJの演算処理プロセッサ(CP)のアレイ。 CPのマージ結果を書き込むメモリキャッシュをそれ自体に備えたマージプロセ ッサ(MG)。 バスの使用を制御することに主な役割がある入力/出力プロセッサ(10) システムの各要素があらゆる他の要素に関して同期的に実行されることを保証 するために用いられるクロック。システムの各部分の実行は固定式に実行される ものと考えうる。 コンピュータプロセッサは、アルゴリズムのR-標本抽出ステップ(疑似コード におけるステップ8および図5に図示されたもの)を実行する何らかの特殊なプロ セッサと定義される。これは態様を単にベクトル配置に限定するのではなく、こ のようなノードのツリー構造の可能性をもたらす。メモリバス用ハードウエアの 任意の特定の選択に関して、ノード当たりのCPの数に対して最大限に有用な制限 があるという場合も考えられる。ツリー構造によりこの制限の回避が可能となる 。 この実施では、方法のパラメーターRおよびNの最大値(RmaxおよびNmax)が先 験的に特定されると仮定している。これらの制限に違反が起こった際に検出し、 それに応じて対応することはソフトウエアドライバの役割である。 2.記憶装置 各ノードに関してメモリのサイズは2*J*Amax*Rmax*Nmaxであり、ここでAmaxは ノードにおいて行いうる反復の最大合計数である。このメモリは入力および出力 バッファーに等しく分割される。単位の反復に関する入力の大きさはJ*Rmax*Nma xを超えず、局所的に生成された結果および最終的にマージされた結果(J個のCP による部分的結果をマージすることによって形成される)はいずれもこの制限を 超えることができず、このため使用可能なメモリを上回るリスクがないことに注 意されたい。 このメモリに対するアクセスは以下の通りである: 10は入力バッファーに対する書き込みアクセス、および出力バッファーに対す る読み取りアクセスを有する。 MGは入力バッファーに対するアクセスを持たず、出力バッファーに対する読み 取りアクセスを有する。 CPは入力バッファーに対する読み取りアクセス、および出力バッファーに対す る書き込みアクセスを有する。 3.メモリバス メモリバスの制御は10プロセッサの役割である。各CPには数値識別子が割り当 てられる(0からJ+1では10に絶対的に0が割り当てられ、MGには1が割り当てられ る)。メモリバスは3つの区域に分けられる。 制御:各CPに対する2本の線(wire)、MGに対する2本およびIPに対する2本が 制御バスを構成する。各対の1番目は要求線(request wire)と呼ばれ、2番目は 応答線(response wire)として知られる。 アドレス:システムの各装置には一意のメモリアドレス範囲が割り当てられる 。アドレスバスはデータバスと組み合わせて用いられ、データバス上の現在の値 をどの装置に書き込むか、および適用可能であればその装置内部のどこに保存さ れるかを決定する。アドレスバスの幅(すなわち、内部の線の数)は入力および 出力の記憶保存のために選択された大きさに関して決定され、このためここでは 特定しない。 データ:文字を値とする属性のみがこのシステムによって処理されると仮定す ると、データバスの幅は線8本分になる。 バスの調停(arbitration)は制御バスの使用を介して処理される。デバイス (ここではMG、IOまたはCPの1つを意味する)がバスを用いようとすると、それ はその要求線に論理値1をアサートする。任意のサイクルに対して、複数のデバ イスがそれを行いうる。IOはバスに調停動作を戻す際に、最も少ない番号のデバ イスの応答線を1に、他のすべての応答線を0に設定する。これは最も少ないと同 定されたデバイスに対し、それがバスを用いる許可を得ており(読み書きは指示 されない―IOはこの状況を確立する役割を果たす)、それ以外のすべては待機す る必要があることを伝える。バスを用いようとするすべてのデバイスは、許可を 与えられるまで要求線に1をアサートしつづける。許可されたデバイスがバス使 用を終了 すると、デバイスは要求線に0をアサートし、IOに対してバスを別のデバイスに 対して再び割り当ててよいことを指示する。「ハンドシェイク」および上記のも のなどの他の種類のプロトコルは当業者に周知であり、理解されている。 4.ビットフラグおよび追加メモリ 追加メモリは、IOにより、最後に書き込まれた出力区域を保存するために用い られる。出力バッファーに対する「書き込み」は段階的になされ、MGはその最後 の読み取りインデックスを最後の書き込みインデックスと比較することにより、 待機している未使用区域の数を決定しうるため、MGについてはこのような区域の リストを保存する必要はない。このメモリに書き込めるのはIOのみであり、それ を読めるのはMGのみである。 「IOの終了」(IOがすべてのデータを送り出し、すべてのCP出力を受け取った ことを意味する)および「マージの終了」を示すために、2つのビットフラグが 用いられる。 5.J個の演算処理プロセッサのアレイ 上記の通り、本発明の一般的方法のアルゴリズム記載における1つのR-標本抽 出ステップを計算するノードまたは特殊用途プロセッサが存在する。後者の場合 、それは以下を含みうる: 以下に記載する関数に加えて一致検出を行うプロセッサ サイズ2*Nmax*Rmaxのローカルメモリ メモリは入力および出力に関する2つの等価な部分に分割される。 まず、CPがその要求線に1をアサートし、データに対する準備が整ったことを 指示する。それが以下のサイクルの1つに対して設定された1つの応答線のみを監 視している場合には、それはRおよびNに関する現在の値を送り、続いてデータ自 体を送ると考えられる(さもなければ、これがそうなるのを待つ)。最初の2つ の値に基づき、それは現在の入力が終了した時点を判断しうる。それは続いて要 求線に0をアサートし、本方法の二値列化(binning)および一致検出のステップ を行う。これらのステップが完了し、CPが論理値1を再び要求線にアサートした 場合には、今回はそれがその結果を送ろうとしていることを示す。バス使用の許 可が与えられると、それは一致集合をIOに送る。IOにはこのデータの保存場所を 管理す る役割がある。CPの出力ストリームは、一致(cset)自体によって見いだされた 一致の符号を含む。一致は以下の形式をとる: ヒット数(Rmaxを超えない) サイズ(csetの幅、すなわち構成要素となる属性の数) (値、位置)形式での一致の属性のサイズの長さのリスト すべてのデータがIOに送られると、CPはその線に対してさらにデータを送るよ うにアサートする。 6.マージプロセッサMG マージプロセッサは以下を含みうる: マージのステップを実行するプロセッサ 1つのCPからの出力を保存するために用いられるNmaxRmaxのローカルメモリ カウンタC1およびC2(前者はMGによって読み取られた最後の出力区域を探知し 、後者はマージバッファーに現在保存されている一致の数を計数する) Aの現在の値を保存するために用いられるメモリ マージ結果を保存するために用いられるサイズJNmaxRmaxAmaxのメモリ まず、MGはそのカウンタを0に、その要求線を0に設定し、IOが処理すべき出力 データがあることをそれに対して知らせるまで(この線を1に設定することによ り)待機する。 MGがその要求線がonになったことを認識すると、それはカウンタによって索引 が付けられた出力データをそのローカルメモリに受け取り始める。いったんこれ が達成されると、MGがマージアルゴリズムを開始することができる。マージはロ ーカルメモリから直接マージバッファーに送られる形でなされる(このステップ が終了した時点でC2は現在の一致の数を保持している必要がある)。このステッ プが完了すると、MGはLastOutの現在の値を検索して取り出す。それがC1よりも 大きい場合、MGはそれがC1を増分として、次の出力区域に直接移動しうることを 知る。C1とLaStOutが等しい場合、MGは要求線を0に設定する。C1がA*Jに到達し た場合、MGはすべての結果が計算およびマージされたこと(およびこのためにす べてのCPおよびIOが休止状態にあること)を知り、このノードのペアレントを伝 達するためにマージバッファーの内容をIOに送り戻す。結果は単にC2の値として 送ら れ、続いてマージバッファーに一致のリストが保存される(一致の形式は上記の 5節で説明したものと同一である)。 7.入力/出力プロセッサIO IOは以下を含む: サイズJのビットベクトル 次に入手可能な出力二値列を示すカウンタC1 次の未使用の入力のR*N部分を示すカウンタC2 IOには上記に概要を述べたバス調停方式のための役割があり、アルゴリズムの 全体的な実行を司る。まず、IOはC1およびC2を0に設定し、そのビットベクトル を0にして(それがどのCPにもデータを送っていないことを示す)、ソフトウェ アドライバがそれにデータを送るのを待つ。この間にそれは何ら動作をなし得な いことを知り、バスに対するすべての許可をゼロにする。割り込みがドライバか らのデータの到着を知らせ、すべてのデータが入力バッファーに書き込まれるま で、IOはすべての通信要求をゼロにしつづける。入力データは以下の形式をとる : N R T、送られたサイズRの行のセットの総数 サイズTRNのデータストリーム IOはこのため、より多くのデータを期待することができない時点を決定する。 以下を行うことはドライバの役割であることに注意されたい: データマイニング要求をAmaxを超えないサイズに分割する 入力として送られた行の数がRによって割り切れることの保証 現在のデータセットがRmaxおよびNmaxを上回らないことの保証 デバイスから送り戻されたすべての結果のマージ いったんすべての入力が保存されると、IOは、まずベクトル中のi番目のビッ トを1に設定し(これはIOがCPiからの出力を予想すべきであることを示す)、そ の応答線を1に設定してその他のすべてを0にすることによってCPに信号を送り、 バスにデータを送り、最後にC2を増分とすることにより、サイズR*Nのデータを 各CPiに送る。 すべてのCPがビジー状態である場合(またはすべての使用可能な入力が完了し た場合)、IOはCPがその要求線に対して1をアサートするのを待つが、これはそ れが結果を送り戻す準備ができたことを示す。いったんこの信号をCPから受け取 ると、IOはCPから結果を検索して取り出し、カウンタにより索引が付けられた出 力区域にそれらを保存し、そのCPに関連するビットを0にし、C1を増分として加 え、MGの要求線に1をアサートする。入力バッファーに未使用データがある場合 、IOは次に使用可能なR*Nのセットを、結果を戻したばかりのCPに送る(そのCP に対するビットを1に設定する)。C2がTと等しく、ビットベクトルが1に設定さ れたビットを含まない場合、IOはそれが終了したことを知り、IOビットフラグを 1に設定する。この時点で、MGビットも1に設定されたこと(MGがその動作を終了 したことを示す)を見るまで、IOは前記の待機状態に復帰する。いったんこれが 起こると、IOは割り込み(このノードがツリーのルートである場合)または単な る送付(このノードにペアレントの別のノードがある場合)の要求を呼び出し、 MGにバスへの書き込みを許可し、続いてMGから送られたすべてのデータをペアレ ントに送り出す。 提案された方式はCP間で等しくない実行時間を可能とすることに注意されたい ―データを得る次のCPは最終的なデータ許可を最後に得たものである。したがっ て、システムの全体的な動作はクロックによって制御されるものの、ある程度の 非同期的処理能力もある。 特定のプロセッサ、バスおよびその他の構成要素に関する選択は、設計者、製 作者、製造者、販売者、バイヤーおよびユーザーの裁量にまかされ、選択肢の範 囲は当業者に周知である。特に、上記の態様のすべての部分は「標準仕様品」の 材料から入手してもよく、または当業者によりVLSIレベルで特別に設計されたも のでもよい。 種々の応用 概論 特殊用途の態様も可能である。例えば、マーケティングおよび販売/取引デー タの分析への適用において、本発明の方法に対する対象入力は取引に対応するこ とができ、属性は特定の製品またはサービスの販売事例に対応する。 工程管理、生産工学またはコンピュータシステム管理への適用では、対象は特 定の時間刻みまたは期間に対応することが可能であり、属性は特定の構成要素、 リソースまたはサブシステムのオン/オフまたは使用/非使用状態に対応する。 この適用の目標は、効率の改善または事業コストの削減のために、相互作用する サブシステムまたはユーザー間でのk項対立または対立する需要を見いだすこと であってもよい。 例えば、本方法は、図8の全体的流れ図および図9の模式図に示したような製品 の製造工程の制御のために適合化しうる。この例は自動化板金組み立て工場を表 しうる。本方法を、プラントからの製品の1つに対する需要が周期的変動のため に夏期には著しく減少すると思われ、一方で別の製品に対する需要は増加すると いう相関を見いだすために、既存のデータセットに対して適用することも可能で あろう。プラントの自動化工程制御システムへの接続で最初の製品に対する発注 を減らし、もう1つに対する発注を増やすことができる。相関が見いだされた結 果としての製品の実際の構造へのバリエーションを含む、その他の多くの例が当 業者には明らかであると思われる。 1つの代替的な態様では、規則に基づくシステムのための規則を作り出し、続 いてそれらの規則に基づく製品を製造するために、見いだされた相関を用いうる 。このような態様に関する全体的流れ図は図10に示されている。対応する模式図 は図11に示されている。 さらなる代替的な1つの態様では、製品を製造する工程を制御するために、規 則に基づくシステムを用いうる。このような態様に関する全体的流れ図は図12に 示されている。対応する模式図は図13に示されている。 財政分析または取引への応用では、対象は特定の時間刻みまたは期間に対応す ることができ、変数は特定の金融証書または商品の特定の価格または価格変動に 関するものでありうる。各証書または商品の価格を一組の離散的レベルに区分す ることにより、または「上昇対減少」に関する単純な二進符号を用いることによ り、このようなそれぞれの証書または商品を属性の集合によって表現することが でき、価格変動が相関するk項数の証書または商品を見いだすために本発明を用 いることができる。当業者は、この種の見いだされた情報から価値を得るための 多 くの方式を周知している。 医学、疫学または環境科学への応用では、対象は特定の患者、または一人の患 者の種々の時期の観察結果、または同一もしくは異なる環境資源(空気、土壌ま たは水など)からの試料に対応することができ、変数および導出された属性は特 定の症状、薬物、毒素または汚染物質のレベルまたは存在/非存在に対応しうる と考えられる。この方式では、本発明を用いて、疾患または環境公害の原因とな りうる相互作用を見いだすことができる。 分子および構造生物学への応用では、対象はDNA、RNAまたは蛋白質の配列およ び/または構造に対応しうる。属性は、特定の配列位置での特定の塩基もしくは アミノ酸の存在、または特定の配列もしくは構造上の位置での特定の幾何学的、 化学的、物理的もしくは生物的な性質、またはその他の全体的または局所的性質 の有無もしくはレベルでありうる。例えば、以下に示すものは、蛋白質構造の予 測のための本方法の詳細な応用であり、これはこれまでに説明したものの例であ る。 薬理学的な応用では、対象は特定の化合物または薬物の分子構造またはその他 の標識または表現に対応することができ、属性は、例えば特定の化学成分などの 、特定の幾何学的、化学的、物理的、生物的、毒性学的、治療的および/または その他の性質および特徴の有無または程度に対応しうる。本方法は、k項数のこ のような性質の間の相関を見いだすために用いうると考えられ、この情報は化合 物および薬物の設計および試験、ならびにスクリーニングおよび試験のためのコ ンビナトリアルライブラリーの設計、または薬物探索および薬物設計におけるそ の他の工程または段階のために有用な可能性がある。または、上記の配置を転置 して、対象が性質および特徴に対応し、属性が化合物および薬物に対応するよう にすることも可能である。この方式では、類似的または相補的または相乗的また は拮抗的活性を有する一連の薬物を見いだすために本発明を用いることができる 。これもまた、薬物探索および薬物設計において極めて有用である。 人口統計学、マーケティング、保険および信用度格付け、ならびに/または資 金調達への応用では、対象を特定の人々または会社または組織に対応させること ができる。属性は、雇用、収入、財産、信用度の履歴、生活様式、消費パターン または社会的/政治的意見もしくは所属に関する性質および特徴の有無または程 度に対応させうる。本方法はこのような因子間の関連を見いだすために用いうる と考えられ、それは信用度/保険リスクの予測もしくは詐欺の発見などの業務に おいて、または例えば限定的なマーケティングの配分もしくは資産調達に最適な ターゲットの判断において有用でありうる。 データベース中の対またはk項数の属性間のすべての有意な相関を見いだすと いう問題は、数理科学ならびに医学、工業および財政分野において普遍的である 。本明細書に記載された原理は、N-属性データベースにおいて2≦k≦Nであるす べてのkに関して、正当に有意な対相関を見いだすのと同じ計算コストで有意な 高次k項相関を見いだすという興味深い性質を有する確率論的アルゴリズムを含 む。さらに、他の既知の手順とは対照的に、kは本発明者らの手順においてあら かじめ固定されている必要はない。本手順は整列化された蛋白質配列における保 存された構造的関係を見いだす作業のために設計されたが、その他の分野でもよ り有用な用途がある可能性がある。 本明細書に記載された原理の蛋白質配列解析への応用 蛋白質鎖には配列が隔たったアミノ酸残基の間の相互作用がみられ、時に蛋白 質構造ファミリーからの一組の整列化された配列における位置(列)の間の相関 として検出可能であるが、これは構造および機能の決定に重要な役割を果たす。 見いだされた相関は代償性変異の進化の歴史を表すことがあり、蛋白質の構造/ 機能ファミリーのモデルに有用な特徴を提供する可能性があるが、大部分のML( 機械学習による)分類法では無視または誤った取り扱いがなされており、これは 一部にはk項数の相関する位置を検索するという計算の高度の複雑性による。 ヌクレオチドまたはアミノ酸配列などの生物的配列の行列に対して本発明を実 施するためには、選択的には比較の目的で異なる配列をまず整列化する。第1の 配列における位置を第2の配列における対応する位置と比較する。比較した位置 が同じヌクレオチドまたはアミノ酸で占められている時には、場合によっては、 2つの配列はその位置で同一である。2つの配列間の一致の度合いはしばしば、2 つの配列における合致(同一な)位置の数と比較した位置の総数との比を表す比 率として表現される。選択的には、2つまたはそれ以上の配列の整列化には一般 に、それ らの間の配列一致の度合いの最大化が含まれる。 配列整列化の分野の当業者には、いくつかのアルゴリズムおよびコンピュータ プログラムが知られている。これらのツールには、フェング(Feng)およびドゥ ーリトル(Doolittle)[J.Mol.Evol.25,351(1987)]の漸進的整列化法の修 正版を用いるGenetics Computer Group(Madison,WI)パッケージ(バージョン 8)からのPILEUPプログラム、欧州分子生物学研究所(European Molecular Biol ogy Laboratory)(EMBL)、Heildelberg、Germanyから入手可能なフリーウエア であるCLUSTAL X、および米国立衛生研究所(National Institutes of Health) (NIH)、Bethesda,MIDから入手可能なフリーウエアであるBLASTが含まれ、BLA ST-Pはアミノ酸配列に対して用いられ、BLAST-Nはヌクレオチド配列に対して、B LASTXは核酸コドン/アミノ酸翻訳に対して用いられる。 蛋白質配列ファミリーの解析からはいくつかの種類の有用な情報を得ることが できる。 第1に、結合記号の頻度の形で、個々の配列のレベルで抽出される情報がある 。特定の単一位置パターン(例えば「これらの配列の98%で第3残基にGが生じる 」)が異常に高い頻度で観察されることにより、二次または三次構造に対する重 要な物理化学的拘束が判明する可能性があることが知られている。驚くほど高い 頻度での連結記号の出現にも同じことが成り立つ(例えば「3位でのG、5位でのL および87位でのMが、個々の周辺頻度による予測よりもはるかに高い頻度で出現 する」)。このような長い距離を隔てた同時出現は特に三次拘束を示すが、これ は指定された位置が、モデル化された配列のすべてと対応する3D構造において互 いに近接する可能性があるためである(p(A,B)>>p(A)p(B)である場合のこの「疑 わしい一致」、の検出は、かなり以前に他の者によって指摘された通り、パター ン認識および学習の核心である)。 第2に、位置(相同配列の整列化における列)の間の統計的関係に関して、「 次に高いレベル」で抽出される情報がある。連結記号のk項数が出現する頻度の 存在を3D構造相互作用の推論に用いることができる場合、多くの異なる連結記号 の出現の集合にわたっての位置(列)の間の特定の情報理論的関係により、この ような推論ははるかに強く裏づけら得れる。このため、このような記号的関係は 蛋白 質鎖の異なる部分の間での進化的に保存された物理的または構造的関係を示しう る(図15参照)。列の間の相互情報および他の相関の程度に高値が観測されるこ とは、RNAおよびHIV蛋白質における3D構造相互作用の予測に好首尾に用いられて おり、例えばシャノン(C.E.Shannon)およびウィーバー(W.Weaver)、通信 の数学的理論(The Mathematical Theory of Communica Lion)、The Universit y of Illinois Press,1964を参照されたい。これらの以前に発表された取り組 みでは、対の残基-残基間相互作用に対象を絞っているが、本明細書で記載され る原理は2≦k≦Nのk項相互作用の検出を目的とする。 発見されたk項数の相関するアミノ酸残基は、蛋白質の構造予測および構造決 定に用いうる。 局所予測は、最良の全体的構造予測に対する検索の幅を狭めるのに有用と思わ れる。 第1に、距離幾何学的な拘束がある。二次構造の予測およびk項長距離相互作用 の発見は、蛋白質中のi番目およびj番目のアミノ酸残基に関してcontact(i,j) の形式をとる、推定された接触に対する証拠となる。この種の距離幾何学理論は 他の者によって開発されており(例えば、T.F.Havel,L.D.Kuntz,G.M.Cripp en、距離幾何学の理論および実践(The Theory and Practice of Distance Geom etry)、Bull.of Mathematics Biology v.45 1983pp.665〜720およびK.A.Dill ,K.M.Feibig,H.S.Chan、蛋白質フォールディング動態における協同性(Coop erativity in Protein-Folding Kinetics)、Proc.Natl.Acad.Sci.U.S.A.v .90 March 1993 pp.1942〜1946を参照されたい)、推論された接触の集合を誘導 することができる。推定または推論された接触の任意の集合によって禁じられる 接触である、推論されたブロックの集合を誘導することも可能である。本質的に は、固定体積内に存在するように拘束された重合体鎖のモデルが与えられたとし て、2つの特定の小片が接触に至ることは、いくつかの他の小片は近接するよう になるが他の小片はさらに離れることを意味する。事実、別の者は「密集した重 合体では、単に立体的制限により、かなりの量の内部構造(ヘリックスならびに 平行および逆平行シート)が生じることが予測される。これは球状蛋白質にこれ だけ多くの内部組織化がみられる一因と考えられる」と結論している。 第2に、以前の節の全体を通じて考察した通り、局所的および全体的な立体配 置の間の経験的な関係を推論または利用することができる。配列の局所的範囲、 または選択された非局所的残基対は、いくらか高い確率で、特定の球状立体配置 において生じることを見いだしうる。帰納的規則はいかなる形式のものでも、立 体配座空間の大きな部分を避けるために用いうる。特定のフォールディングにお ける協同性モデルの推論は特殊な例である:p(contact(i,j)|contact(i+1,j-1)) >p(contact(i,j))などの「規則」の知識は極めて有用なことがある。 例えば、図16は三次構造予測における段階を図示している。本出願の全体を通 じて記載される方法は、比較的大きな三次構造予測システムの一部として適用す ることができ、ここで上記の原理は整列化された配列ファミリーの解析に関する ブロックにおいて用いられる。このシステムは蛋白質の構造を予測する。 進化的に保存された構造的拘束の発見 この節では3つの問題を取り扱う。 1.多数の配列アライメントにおける列の間の相関を検出することにより、いか なる種類の進化的に保存された多残基構造的または機能的拘束が見いだされると 考えられるか? 2.相関-検出の取り組みは実際に重要な構造的または機能的拘束を見いだしてい るか? 3.このような発見は、分子の本来の三次構造の予測または決定に向けてどの程 度の情報を提供するか?我々が観察しうると考えられるものは何か? 蛋白質ファミリーとは、共通の全体的三次構造を共有すると考えられる一組の アミノ酸配列である。蛋白質のフォールディングおよび進化の理論および観察に より、蛋白質ファミリー内部での進化および保存という一般的な概念が裏づけら れている。 ・機能的拘束は表面残基に保存される、 ・構造的拘束はコア残基に保存される、 ・変異性浮動は主にループ残基にみられる 機能的拘束には、他の蛋白質、核酸、脂質、金属、O2または他の低分子などの 他 の分子がしばしば関与する。 蛋白質ファミリーの進化を通じて保存されると考えられる種類の構造的拘束は 、立体配座を安定化する2、3の重要な残基が主として関与するものである。静電 相互作用が重要と思われる場合には、2つまたはそれ以上の配列位置にわたり実 効電荷の保存が見いだされると予想される。静電的に相互作用する2つの残基の うち1つが正電荷を有する場合には、その「パートナー」残基(配列では離れて いても3D構造ではおそらく近接する)は負に荷電している必要があり、その逆も しかりである。状況はパッキング拘束についても類似している。蛋白質コア体積 の部分は、同じ構造ファミリーに属する多くの異なる蛋白質を通じてわずかな差 しかないが、非コア領域は大きな体積変動を呈すると正当に考えられる。したが って、側鎖体積に関して互いに代償的な変異を呈する対または少数k項数の残基 が見いだされる、すなわち簡単にいえば「大」が「小」に変異した場合には別の 「小」が「大」に変異する必要があると考えることができる。 何が観測されているか? ネーアー(Neher)ら(蛋白質配列ファミリーにおける相関的変化はどの程度 の頻度か(How frequent are correlated changes in families of protein seq uences)、PNAS,91:98〜102,1994)は、アミノ酸に関する物理化学的性質の 指標を用い、続いてアライメントにおける列間のピアソン相関を評価することに より、単一の蛋白質ファミリーの内部での代償的変化の頻度を定量化しようと試 みた。彼らは、ファミリー由来の対の配列の検討に基づき、ブートストラップを 参考にした再標本抽出方式を用いて小規模データセット問題を回避しようと試み た。ミオグロビンファミリーの蛋白質配列に対する彼らの研究により、側鎖体積 の性質に対する代償的変異の程度は低いが、電荷に対しては程度が高く、局所電 荷が完全に保存されるとして予想される相関レベルに近いことが明らかになった 。著者らは、彼らの列一対解析は接触性の近傍残基対のみに対象を絞っているた め、電荷保存のように極めて局所的に作用する拘束を見いだすことはできたが、 体積の保存のようにより分布の広い拘束は検出しえなかったと推測している(換 言すれば、正に荷電した単一の残基は負に荷電した単一の構造的パートナーと接 触する必要があるが、適合性の体積をもつ一組のパートナーは複数の残基を含む 可能性 があり、すべてが接触する必要はないと思われる)。別の者も、蛋白質構造ファ ミリーの進化における協同的変異の若干の証拠を見いだしている。 代償的変異に関する今日までの大部分の研究は、蛋白質構造の高度に保存され た「コア」型領域に対象を絞っているが、ケルバー(Korber)ら(HIV-1のV3ル ープにおける変異の共変:情報理論による分析(Covariation of mutations in the V3 loop of HiIV-1:An information-theoretic analysis)、Proc.Nat.Ac ad.Sci,90,1993)は、HIVエンベロープ蛋白質の高度に可変的なV3ループを分 析した。この研究者らは、V3の残基を表す31列の組からのすべての列の対に関し て対変異情報の強力なブートストラップによる推定を行った。彼らは、かなりの 統計的に有意な変異情報を示す約7対の組を見いだし、特定の属性(アミノ酸) の解析により、極めて可能性の高い代償的変異の特定パターンが示唆された。著 者らは保存された特定の性質または関係に関する議論もその証拠の提供も行って いないが、研究室でのその後の変異解析では高度な変異情報を有する部位の対の 一部の間に機能的連鎖が認められた。V3領域は機能的にも免疫学的にも重要であ ることが知られており、本出願の発明者らはこの種の解析がHIV/AIDSワクチン のデザインの検索に重要であろうと示唆している。 いかなる種類の方法が必要か? 明らかに、蛋白質配列ファミリーの包括的モデル化のためにはいくつかの詳細 に研究された有効な方法が存在する。それぞれの場合において、数学的手続きは データにおける極めて局所的および低次統計的構造の取り扱いおよび検出に適す る。それぞれの場合において、残基間、すなわち整列化された配列データにおけ る列の間のすべての可能な非局所的および高次相互作用を総体的に追及しようと いう試みは、計算上の複雑性および統計的推定に伴う困難さが生じる。 HMMまたは密度ネットワークを、信頼性のある非局所的相互作用の検出に明確 に対象を絞り、これらの相互作用のモデル化における精度の程度を犠牲にする迅 速な帰納的プレプロセッサとともに用いれば、より容易にモデル化を進めること が可能である。このような手順は本明細書に記載される原理によって提供される 。a )HIVタンパク質の配列分析 HIV タンパク質データベースの検定 ロス・アラモスHIVデータベースは、その中にHIVエンベロープタンパク質のV3 ループ領域のアミノ酸配列をも含んでいる。この領域は、機能的および免疫学的 な重要性をもつことが知られており、また、進化の共変につながる部位集合の発 見はHIVの感染および複製を理解および防止する上での重要な示唆を含む可能性 がある。 同一のデータベースの、初期の小規模版を用いて、ロス・アラモスの科学者ら は残基間の対相互情報量の解析をおこなった。 HIVデータ集合上で、一致検出法を用い、rおよびTの様々な数値の集合に関し て実験を行った。結果を示す表およびそれらの考察を以下に示す。HIV タンパク質データベースの実験結果 ロス・アラモスの研究員は、最も保存性が高く、また機能的および免疫学的に 重要であると考えられる33残基について集中的に調べるために、先述のHIV-V3 データ集合版を編集した。従って、データ集合はM=657行(配列)およびN =33列(残基)から成る。一致検出法では、33列はNA=N.\A\=33.21=693属性 に変換した。人工のデータ集合と同様にして、様々なTおよびrの値を用いて一連 の実験を行った。一致検出は先ず、T=10,000かつr=5、6、7、10でそれぞれ行い 、その後、T=100,000かつr=7、最終的にはT=750,000かつr=7で行った。結果を以 下の表C.1からC.9に示す。 表C.1 一致検出法により推定された、HIVデータ集合における最も相関の高い可 能性のある属性。これらの結果はT=10,000、r=5のパラメータで求められた。 HIVデータ集合 T=10,000、r=5 表C.2 一致検出法により推定された、HIVデータ集合における最も相関の高い可 能性のある属性。これらの結果はT=10,000、r=6のパラメータで求められた。 HIVデータ集合 T=10,000、r=6表C.3 一致検出法により推定された、HIVデータ集合における最も相関の高い可 能性のある属性。これらの結果はT=10,000、r=7のパラメータで求められた。 HIVデータ集合 T=10,000、r=7表C.4 一致検出法により推定された、HIVデータ集合における最も相関の高い可 能性のある属性。これらの結果はT=10,000、r=10パラメータで求められた。 HIVデータ集合 T=10,000、r=10表C.5 一致検出法により推定された、HIVデータ集合における最も相関の高い可 能性のある30属性。これらの結果はT=100,000、r=7のパラメータで求められた。 HIVデータ集合 T=100,000、r=7 表C.6 一致検出法により推定された、HIVデータ集合における最も相関の高い可 能性のある50項目のうち上位25位の属性。これらの結果はT=750,000、r=7のパラ メータで求められた。この標本数では、k≧3で、いくつかの統計学上有意な高位 の特徴が現われていることに着目。 HIVデータ集合 T=750,000、r=7 表C.7 一致分析法により推定された、HIVデータ集合における最も相関の高い可 能性のある26位から50位の属性。これらの結果はT=750,000、r=7のパラメータで 求められた。この標本数では、k≧3で、統計学上有意な幾つかの高位の特徴が現 われていることに着目。 HIVデータ集合 T=750,000、r=7表C.8 本文中に記された方法により推定された、HIV-V3データ集合の対列間相 互情報量の上位35位までの値。 表C.9 ロス・アラモスのグループの推定による、対列内相互情報量の上位7位 のHIV-V3データ集合の値。 表C.1からC.4は、各属性の検出された一致について観察された一致数において の(本発明者らの方法による確率(実測値/独立事象)の推定によって測定され た)最も有意なCSETを示す。予期されるように、この現実のデータ集合について 、この比較的小さな標本抽出数では、「おそらく相関がある」と「おそらく相関 がない」との間の明確な区別は見られない。r=7およびr=10での結果は、r=5およ びr=6の結果よりも、検出されたCSETb5より有意であることを示している。前者 の高いr値で、確率が0.1より小さい組み合わせは、(Q@17,D@24)、(N@4,K@9)、 (H@12,A@18)、(Q@31,H@23)、および(S@10,F@19)である。これらのCSETは全て 、注目すべき例外である(S@10,F@19)の組み合わせ以外は、より集中的な標本抽 出(T=100,000およびT=750,000)に報告されている、最も有意なCSETに含まれてい る。この後者のCSETは、小さな標本抽出の度合いで、r=10でのみ見 つかっているが、r=7を用いた場合の、より集中的な標本抽出の種類では見られ ない。 表C.5は、T=100,000、r=7についての結果を示している。ここでは確率が0.1以 下の有意水準内で、17の対および3つの3項(3-ary)相関をともない、HOF集合 内C、雑音と信号の区別がいくらかおこっていることが明らかである。 表C.6およびC.7中に示されるように、T=750,000において、より多くの統計学 的に有意な組み合わせが検出され、50近くの2項、3項から6項までの属性の相 関が見られた。 これらの結果が意味するところを明確に把握するために、本発明者らの独自分 析およびロス・アラモスグループによる対相互情報量を推定して、列間相関と共 に、これらの属性間相関を考察することとする。表C.8は本発明者らの33列のデ ータ集合からのN-N=528のすべての組み合わせ中の、最も高い推定対情報量値を 示している。これらの推測値は、M=657のうちm=300の1000の標本データの部分集 合を抽出し、標準対情報量の計算法を用いるブーストラップ法(Bootstrap)の ような方法により得られた。従って、表中では、標本についての平均値と、それ に関連する標準誤差値が報告されている。表C.6およびC.7中の最大のCSET値によ って示された列の組み合わせの集合と表C.8中の最大の対情報量値で示された集 合との間に有意な交事象が存在する。二つの順位間の対応は、幾つかの理由(雑 音および単純な標本の誤差以外の)により完全ではない。第一の、そして主要な 理由は、単一の結合属性の組み合わせの「疑惑」は確実に、対応する列の集合内 での対情報量に貢献する一方、列内に現れるその他の記号の行動もまた、明らか に大きな影響をもつことができる。次に、観察された感受性一致検出は、rの選 択に帰すことを再度言及する。 表C.9にはロス・アラモスグループにより推定された、統計学的に最も有意な 対情報量が記載されている。この表と本発明者らの表との間の共通部分に着目す るものの、ロス・アラモスグループはより初期の小規模なデータベースを、おそ らくさもなくば本発明者らがアクセスしなかったデータベースを使用したことを 再度強調したい。 こうして、本発明の一致分析法を、このように整列されたHIV配列のような生 物 学的データに応用することは、かつて認識されていなかった共変する構造要素を 同定することにつながる。構造および機能は生化学系において密接に関連してい るため、アミノ酸残基のような特定の構造要素の統計学的に有意な一致は、共変 する構造要素を有するモチーフの生物学的役割を示す可能性が高い。本発明の上 記の応用の一つには、HIVエンベロープタンパク質のV3ループにおけるA18、Q31 、およびH33残基の統計学的に有意な一致がある。これらの残基は、HIVのライフ サイクルにおいて生物学的役割を果すV3ループの構造モチーフに貢献することが 期待される。本発明以前には、特定の生物学的役割としてまとめられることがな かったA18/Q31/H33についてのこのような新しい情報は、以下のように、様々 な方法で開拓される可能性がある。 本発明により、ペプチドまたは、先に述べたV3ループ構造モチーフ(または一 致検出法により同定された他のタンパク質モチーフ)に似た疑似ペプチドが提供 された。選抜した例について、A18/Q31/H33アミノ酸の全ての原子は必ずしも 必要ではないが、ペプチド、または疑似ペプチドにはこれらのアミノ酸残基の空 間配位が含まれる可能性がある。V3と他の生物学的分子との結合が、ペプチドま たは疑似ペプチドによって模倣される構造モチーフを与える場合、例えば実際の HIVのV3ループと、その結合を競うような生物学的機能に有効なトポロジカルな および静電的な性質に加えて、ペプチドまたは疑似ペプチドは、むしろこのよう なA18/Q31/H33アミノ酸残基の空間配位を有する。 また、一致検出法により検出された、共変するk項数に基づいて設計されたペ プチドまたは疑似ペプチドを、抗原として使用することが可能である。すなわち 、分子が模倣する生物学的機能は、動物内の免疫反応を引き起こしている。同様 に、本明細書に記載の共変するk項数を含むワクチンも、本発明に含まれる。 モーガンおよびその共同研究者ら(Morgan et al.1989.In Annual Reports i n Medicinal Chemistry.Ed.:Vinick,F.J.Academic Press,San Diego,CA, pp.243-252)は、ペプチド疑似物を「レセプターおよび酵素に相互作用して、ペ プチドの適切な代用品としてはたらく構造」と定義している。この疑似ペプチド は親和性だけでなく効用および基質機能を保持しなければならない。本開示の目 的のために「peptide mimetic(ペプチド疑似物)」と「peptidomimetic(疑似 ペプチド)」は、上記の抜粋された定義に従って、交換可能に使用される。すな わち、疑似ペプチドは、その構造を限定されることなしに、ある特定のペプチド の機能を示す。例えば、上記に仮定されたV3ループの構造モチーフの類似物のよ うな本発明の疑似ペプチドには、望ましい機能的特徴を提供するアミノ酸残基ま たはその他の化学的部分を含むこともある。 さらに本発明は、本発明の一致検出法を用いて同定された構造モチーフを有す るタンパク質に相互作用するリガンド、リガンドを含む薬学的組成物、および薬 学的に許容されるそれらの担体または賦形剤を提供する。リガンドには、適切な 同一性を持ち、モチーフの対応する残基または一部分とその部分が相互作用する ようにお互いに空間的に配位された、化学的部分が含まれる可能性もある。モチ ーフとの相互作用により、リガンドはモチーフを含むタンパク質のその領域の機 能に支障をきたすかもしれない。 従って、本発明はヒト免疫不全ウイルス(HIV)のエンベロープタンパク質と 相互作用するための薬学的組成物を提供し、これにはA/18/Q31/H33残基の空間配 位を有するV3ループの構造モチーフと相互作用する官能基をもつリガンド、およ び薬学的に許容されるそれらの担体または賦形剤を含む。リガンドは、例えば、 結合する能力があり、残基18に結合するためにリガンド内の有効な位置に存在す る1番目の官能基、結合する能力があり、残基31に結合するためにリガンド内の 有効な位置に存在する2番目の官能基、および、結合する能力があり、残基33に 結合するためにリガンド内の有効な位置に存在する3番目の官能基等のような、 モチーフと相互作用する複数の官能基を有することもある。 さらに本発明は、例えばヒト免疫不全ウイルス(HIV)のエンベロープタンパ ク質のようなタンパク質の構造モチーフと相互作用させるためのリガンドの設計 方法を提供する。例えば、モチーフが、前述の一致検出法により同定されたA/18 /Q31/H33モチーフに関係する可能性がある場合、設計方法にはHIVエンベロープ タンパク質のV3ループ内のA18、Q31、およびH33の空間配位を有する鋳型を提供 し、設計されるリガンドがモチーフに結合するための少なくとも一つの有効な官 能基を有するような空間の制限をともなう有効なアルゴリズムを用いて、化学的 リガンドをコンピューターで展開する手順が含まれる。提供された鋳型にはさら に、ト ポロジカルなおよび/または静電的な特徴が含まれ、有効なアルゴリズムにはト ポロジカルなおよび/または静電的な制限が含まれる可能性がある。同様な方法 の手順には、一致検出法により同定されたモチーフを有する他のタンパク質につ いても使用されることがある。 また本発明は、タンパク質の構造モチーフに結合するリガンドを同定する方法 を提供する。構造モチーフは好ましくは一致検出法により同定される。例えば、 上記のHIVエンベロープタンパク質の残基A18、Q31、およびH33を有する一致検出 法によって同定されたモチーフの場合、この方法は、HIVエンベロープタンパク 質のV3ループ内のA18、Q31、およびH33の空間配位を有する鋳型を提供する手順 、分子の構造および定位を含むデータベースを提供する手順、およびモチーフと 相互作用するように相互に配位された有効な部分を含んでいるかを決定するため にデータベース上の分子をスクリーニングする手順を含む。データベースはさら に、分子のトポロジカルなおよび/または静電的な特徴を含み、スクリーニング の手順はさらに、モチーフと相互作用するために効果的であるかどうかを決定す る手順を含むことがある。例えば、データベース上に記載された分子は、それが 、残基18と相互作用する第一番目の部分、残基31と相互作用する第二番目の部分 、そして残基33と相互作用する第三番目の部分を有するという物理的/化学的特 徴を有する可能性がある。同様の方法の手順は、所期の構造モチーフを有するそ の他のタンパク質に使われることもある。 本発明により提供されるリガンドが薬学的組成物に含まれる場合には、薬学的 組成物はさらに、薬学的組成物に関する分野の当業者に周知の、薬学的に許容さ れる担体も含む。本明細書で用いられる「薬学的に許容される担体」には、塩類 溶液およびバッファー水溶液などの希釈剤、ならびに固相、気相、または液相の の基剤、またリポソーム等の担体(Strejan et al.,1984.J.Neuroimmunol.7 :27)、およびグリセロール、液体ポリエチレングリコール等の分散剤、その他 が含まれる。薬学的組成物には、溶媒、分散媒体、コーティング、安定促進剤、 抗菌および抗真菌剤(例えば、パラベン、クロロブタノール、フェノール、アス コルビン酸、チメロサール)、等張剤(例えば、塩化ナトリウム、糖、マンニト ール等のポリアルコール)、ならびに周知の吸収遅延剤(例えば、モノステアリ ン 酸アルミニウムゼラチン)のいずれかが含まれていてもよい。 また、生物学的標的に結合するような、本発明により提供されるリガンドは、 診断的な目的のために利用されることもある。本発明による診断剤には、一致検 出法により同定された構造モチーフを含むタンパク質と相互作用するリガンド、 およびリガンドに結合した検出可能な標識が含まれてもよい。検出可能な標識は 、例えば蛍光物質または放射性物質等の、本技術分野において周知の検出可能な 物質のいずれであってもよい。また、標識は、検出可能な(例えば発色する)産 物を生ずる反応を触媒する酵素(例えば、ホースラディシュペルオキシダーゼま たはアルカリホスファターゼ)であってもよく、またはそのような酵素の基質で あってもよい。記述された原理の薬物発見背景への応用 数十億ドル規模の製薬産業は、高分子(「標的」)と相互作用し、標的の構造 、機能または活性をある程度抑制、促進、阻害、加速、さもなければ改変する低 分子(「リガンド」)の設計または発見および精製に、大いなる基礎を置いてい る。疾病の機構において、ある程度示唆されるのは、標的の構造、機能、または 活性である。標的分子は大抵、酵素もしくはタンパク質レセプター、もしくは核 酸、またはそれらの組み合わせである。可能性を持つ多数のリガンドが存在する ものの、一つまたは複数の標的とともに、または対抗して働く、すなわち、疾病 に対して効果のある治療用化合物として開発され市場に出されているのは、その うちの比較的に一部でしかない。 従って、膨大な数の、可能性のある有効な化合物を考えることができ、しかも 、有用でない、安全でない、有効でない、または経済的に可能でないかもしれな い可能性のある化合物に基づく治療の開発に資源を使い過ぎることを回避するこ とを可能にすることは、バイオテクノロジーおよび薬学の研究者にとって非常に 関心のあることである。本明細書に記された方法は、良質で効果的な化合物を発 見する方法および公共もしくは民間の分子コレクションまたはコンピューターの データベース画像上の化合物のうち、見込のある化合物を、見込のないまたは見 込の少ない化合物と区別する方法を促進および加速するために用いることができ る。これらの方法は、本明細書の様々な方法において標的の構造を理解し推論す ることを手助けし、またその幾何学的な、トポロジカルな、静電的な、またはそ の他の特徴をもつために、標的と効果的に相互作用する候補となるリガンドを検 出することにより、効果的に利用されて価値を提供することができる。本明細書により記載された原理の、分子およびそれらの特徴のデータベースへの 応用 コンピューターデータベース上の多くの分子構造(主要メモリー内、磁気ディ スク、テープ、またはその他の電子的もしくは光学的メディアにより貯蔵された )を表記する方法の一つに、「スクリーン」によるものがある。当業者らはある スクリーンや属性が、例えば、硫酸基のような、ある特定の下部構造パターンの 存在または不在をあらわす、二進の(binary)属性としてスクリーンを認識する。 もし化合物の一集合が、スクリーンで表記される場合、「C」で表記されるある 特定の化合物は、1および0の連続により表すことができ、1はCが含むあらかじめ 決められたの下部構造パターンを表し、0はCが含まないあらかじめ決められた下 部構造パターンを表す。 この方式はまた、本明細書の別の箇所で説明するように、属性による、核酸ま たはタンパク質に第一次構造の表記にも用いることができる。第一次構造は、「 配列」、すなわち、DNAまたはRNA中の塩基またはヌクレオチドの配列として、ま たタンパク質中のアミノ酸残基とも呼ばれるアミノ酸配列として知られている。 例えば、天然に存在する20の標準アミノ酸の一つひとつに対応するアルファベッ トの文字である記号を用いた記号の配列として、タンパク質の配列を表記するこ とは容易である。また、この表記を20の二進の属性の集合よる配列において、個 々の残基または位置を表記して、もしそのような表記が望ましい場合に、この表 記を変換することも容易である。これらの属性は、上記のスクリーンのようには たらく。例えば、タンパク質Pの最初のアミノ酸が、Aで表されるアラニンであれ ば、「位置1のアミノ酸はアラニンか」という問いを表す属性において、「1」の 値により表記することができ、また、「位置1のアミノ酸はシステインか」、「 位置1のアミノ酸はフェニルアラニンか」等を表す属性において、「0」の値によ り表記することができる。図15はアミノ酸および残基の位置を表す。 また、属性の用語を用いて、化合物のその他の側面または性質を表すことも容 易でわかりやすい。例えば、ある化合物Cが、特定の標的Tに対して活性があるこ とが知られていれば、この場合「Tに対して活性か」という問いに対応する属性 は、化合物Cに対応する対象について、1の値をとる。また、その他の例としては 、製薬会社は、一連の「測定」や生物学的または化学的活性の検定を行って、多 くの化合物を管理している。測定は、例えば、標的に対する有効性、血液脳関門 を通過する能力、または有毒性などに関する側面を検査することもある。測定結 果は、当業者に周知の前処理の方法を通して、離散値、および二進の属性の用語 で表すことも可能である。特定の化合物のその他の特徴には、文献引用(すなわ ち、その化合物が記述、設計、発見または分析されている論文や研究の参考文献 )、または化合物の所有権ならびに特許の状態が含まれ得る。 スクリーンおよびその他の属性の用語で、低分子の治療用化合物のみでなく、 DNA、RNA、ペプチド、タンパク質、炭水化物および脂質等の、より高分子の、可 能性のある治療用分子を表記することができる。標的分子もまた、この方法で表 記できる。必要なものとしては、研究者または利用者により重要とみなされた下 部構造パターンまたはその他の特徴の、あらかじめ決められた(更新、変更、縮 小、または拡張されている可能性があるが)一覧表のみである。標的の構造につ いて、下部構造パターンや、一次直線構造(配列)、遺伝的連鎖情報、疾患経路 における他のタンパク質との相互作用、文献引用などの表記が望まれるかもしれ ない。特定の分子は時に、データベース上で、複数の対象として、つまりその分 子がとり得る様々な高次構造を表す異なった対象として記録されていることもあ る。 化合物のデータベース表記における、スクリーンおよびその他の属性の使用は 、本発明の作業を述べる上で使用されたNxMデータ行列の用語で表記することも 可能であることは明らかである。NxMデータ行列は、以下の表1に示されている。 表1の行は、分子、化合物、分子構造、または配列の集合に対応し、一方列は 、分子の下部構造パターン、測定結果、またはその他の側面を含む特徴に対応す る。表中のセル[i,j]の数値は、もし、分子iが特徴jを持っていれば1、そうで なければ0となる。 本明細書に記載の方法を分子データベースの分析に応用するための手順には、 以下のものが含まれる。 1.所期の1次元、2次元および/または3次元の分子構造の離散属性表記を支持 する分子データベースを得る(または、分子データベースを得て、このような表 記を作成するための標準方法を使用する)。所期の分子の配列およびその他の情 報を属性表記に変換するための標準方法を使用する。 2.データベース上の個々の化合物が、具体化されたデータ行列中のM個の対象 (行)の一つまたはそれ以上に対応し、個々のスクリーン表示された下部 構造パターンがデータ行列の属性(列)に対応するように、このデータベ ースのすべてまたは一部を本発明の態様に提供する。活性、測定結果、使 用された化合物に対する既知の標的、化合物の生産または貯蔵のよりどこ ろまたは方法、化合物の所有権または特許の状態を示すなどの付加的な属 性および下部構造パターン属性が共に、データ行列上のN個の属性(列)を 含む。 3.上記の基本的方法またはデータ行列上での本明細書に記載のその他の態様 の一つを使用する。 4.発見された相関のあるk項数の属性を以下のものに指向する。 グラフィカルビューアー、または、 ●規則に基づくシステムのための規則作成プロセッサー、または ●利用者、研究者、もしくは管理者のためのレポート、またはレポート作成シス テム、または、 ●データベース上に表記された化合物、配列、または構造の、ある種のさらなる 分析を行う別のコンピュータプログラム、または、 ●データベース上のいくつかの変換もしくは最適化を実行するの別のコンピュー タプログラム、または、 ●薬物のスクリーニング実験または治療用化合物の設計、精製、もしくは生産に おける人間および/またはロボットを指導する別のコンピュータプログラム。 この薬物発見の応用において、本発明の結果は多くの可能な方法で利用するこ とができる。 先ず、スクリーンに基づく分子の表記を、設定または最適化に使用することが できる。例えば、相互に相関関係がなく、おおよその可能性が等しいスクリーン (属性)の集合を、良好なスクリーンに基づく表記に使用すべきことは本技術分 野において公知である。本発明の方法は、上記の様に使用された場合、相関のあ るスクリーンの集合を産出することがある。改変されたスクリーンの集合を、相 関がなく、可能性の等しいという理想により近づけるため、スクリーンが表記す る特徴を付加、除去または組み合わせるために、この情報を使用することができ る。 この方法により製造される情報の、その他の便利で価値のある側面には以下の ものが含まれる。 例えば、研究者が、標的の構造、標的構造の活性部位、または生物学的システ ムにおける数種のタンパク質のどれが標的であるかさえも知らない場合でさえ、 in vivoやin vitro実験ではたらく良質の「最も重要な化合物」を製薬会社が保 持することは、珍しいことではない。本明細書記載の方法が下部構造パターンと 測定結果との間の相関関係を検出するために利用される場合、この情報は研究者 が構造に望ましい活性を組み合わせることができるので、標的構造を示唆したり 、より効果的で重要な化合物を設計したりすることの助けとなる。 また、別の例としては、本明細書で後述するように、DNA、RNANまたはタンパ ク質の配列の整列した集合に対応する薬物発見データベースのその箇所で、相関 するアミノ酸残基をみつけることである。この場合、相関するk項数(位置)の 残基は、進化上保存された構造的および機能的関係に対応することもある。従っ て、本明細書に記載の原理はこのようにして、レセプターおよび酵素のような薬 学的標的を含む、重要な生物学的高分子の構造および機能を予測または解明する こ とにも役立てることができる。 さらに、別の例として、ひとつの標的分子であるT1の構造的または機能的側面 、疾患経路またはその他の側面と、別の標的分子T2との相関を検出し、またはT1 を目的とした可能性のある治療用化合物の集合の構造的、機能的、またはその他 の側面と、T2を目的とした可能性のある治療用化合物の集合の構造的、機能的も しくはその他の側面との間の相関を検出することが可能である。これらの場合に は、この相関関係の情報は、薬物の設計者がT1に対して有効な知識、化合物、お よび技術をT2に対する成果に応用することができるので、有効である。 また、本明細書記載の原理の、薬物発見および医科学へのかなり異なった応用 として、上記のデータ行列変換の検討があげられる。対象(行)としての化合物 および属性(列)としての化合物の特徴の代わりに、化合物が列に、そして化合 物の特徴が行にそれぞれ対応する場合に可能なことを考察する。下記の表2を見 ると、この方法に本発明を使用すると、特徴の空間上に相関したk項数の化合物 を産出する。k項数を産出することで、数種類の貴重な情報を具体化することが できる。例えば、もし行における特徴のほとんどが、下部構造パターン(スクリ ーン)を表している時、産出されたk項数は、化合物のクラスターに対応する。 このような化合物のデータベースのクラスター化は、生物学的/化学的測定(in vivoまたはin vivo)およびコンピューター測定の両方を用いた、高処理量スク リーニング(ハイ・スループット・スクリニーング、HTS)に非常に役立つ。HTS では、最初に個々のクラスターの一つまたは少数の群を測定し、「ヒット」が起 った時のみ(すなわち、生物学的または化学的活性測定において化合物が「検出 」に「合格」すること)、対応するクラスターの他の種類を分析することが、測 定する際において有効で経済的である。 特徴の空間に化合物をクラスター化するために、先に示した分子データベース の「移項(transpose)」における方法の利用が、表2に示されている。分子、化合 物、分子構造または配列の集合に対応しているのは、ここでは列であり、一方、 行は、分子の下部構造パターン、測定結果、またはその他の側面を含む特徴に対 応している。M'個の行とN'個の列があり、ここでは、上記の元来のMおよびNに対 して、おそらくM'=Nであり、N'=Mである。表のセル[j,i]中の数値は、もし、分 子iが特徴jを有するなら1であり、有さない場合は0となる。 遺伝子ネットワークを発見および分析するための本明細書記載の原理の応用 大規模なゲノム地図作成や配列決定の作業に応用される高等分子生物学的な計 算技術により、完全なゲノムの配列、完全な遺伝子の発現パターン、およびこの 情報を貯蔵し操作する能力に接近することができ始めている。このような情報は 、新規の疾患標的および有効な治療用化合物の発見を加速させるために利用する ことができる。特定の物理的形質の「青写真」を形成する遺伝子および生物内の システムは、複雑な方法で、ともに作用することが知られている。遺伝子は相互 調整しながら相互作用し、それ自身および他の遺伝子の活性化ならびに発現を促 進、抑制、さもなくば変調させる。 分子生物学は従来、単離した個々の遺伝子の研究に集中してきた。しかしなが ら、神経発達または腫瘍形成などの複雑な生物学的現象を理解するためには、例 えば、一過性パターンや解剖学的パターンを計算に入れながら、同時に、数十や 数百の発現パターンを研究する必要がある。このような分析は、本明細書記載の 原理により提供されるような、新規の計算および統計能力を必要とする。 多くの変更が可能であり、当業者により計画されるが、遺伝子ネットワークの 解析における本明細書記載の方法を利用するための基本方式には、以下の手順が 含まれる。 手順1関心の遺伝子を選択する。 手順2特定の時間での遺伝子の状態を表記するための、生物学的パラメータを選 択する。生物学的パラメータには、遺伝子の発現、関連するmRNAまたはタンパク 質産物の濃度、生物学的に重要なリン酸化またはその他の翻訳後修飾等のタンパ ク質の特定の状態、あるタンパク質の位置、または共同因子の存在または不在が 含まれる。例えば、ポリメラーゼ・チェーン反応(PCR)技術を用いて増幅し、 続いて周知の方法を用いて個々の遺伝子のmRNAの濃度を測定し、その後個々の遺 伝子の最大の発現レベルによって分割してこれらを標準化し、これらの継続的に 変異するレベルを本明細書を通して記載のデータ行列形式で表記できるz離散レ ベルの集合へ量子化することができる。また、遺伝子の活性および活性間の指標 として、タンパク質産物の濃度レベルを用いることも可能である。時間測定され た観察中のタンパク質濃度の変化は、主に三つの方法により支配されている:あ る遺伝子のタンパク質合成の、その他の遺伝子のタンパク質産物による直接的調 節(特殊な場合の自己調節も含まれる);細胞核間の分子輸送;およびタンパク 質濃度の減衰である。 手順3分析中の遺伝システム上の遺伝子の生物学的パラメータを経時標本抽出す る方式を選択する。個々の適切な時間に、選択した遺伝子の選択した生物学的パ ラメータを測定するための当技術分野において周知の方法を使用する。 手順4選択した生物学的パラメータの用語により、選択した遺伝子を表記し、デ ータ行列上の属性として、生物学的パラメータの測定値を表記する。データ行列 上の行には、過時抽出標本(生物学的パラメータの測定の例)を表記する。すな わち、データ行列およびi番目の行のj番目の列のセルに対しては、i番目の経時 抽出標本での、j番目の生物学的パラメータに対する(これは、j番目の遺伝子に 対応する場合もしない場合もあり、それぞれの遺伝子について一つまたは複数の パラメータが測定されているかどうかによる)測定された量または特徴を入力す る。記録された量、レベル、または特徴は二進(例えば、遺伝子が「オン」また は「オフ」)であるか、z離散量の一つであることもある。本明細書の別の箇所 に記載したように、すべての離散量の属性はその値がある対象内に存在するか不 在かの二進暗号化して表記することができ、そして本発明の好ましい態様は、こ の種のデータに応用することができる。 手順5本明細書記載の、データ行列上に上記の基本的方法または別の態様を利用 する。 上記の手順の結果、すなわち、相関するk項数の属性の集合は、相関する遺伝 子 の群の集合として理解することができる。例えば、ある遺伝子が「オン」で、別 の遺伝子が「オン」ということが見つかるかもしれない。また、ある遺伝子G1が 「低い発現」の時、別の遺伝子G2は「オフ」であったり、G1が「中程度の発現」 では、G2は「低い発現」であったり、また、G1が「高い発現」では、G2は「中程 度の発現」であることが発見されるかもしれない。このような結果は、G1がG 2の発現を促進する、すなわち「G1がG2をオンにする」という仮定を支持す るものであるかもしれない。同様に、相関のあるk項数の遺伝子または生物学的 パラメータは、ある遺伝子が別の遺伝子または、別の遺伝子集合を抑制または「 消す」こと等の証拠を提供するかもしれない。このような情報は全て、例えば、 相互作用する遺伝子集合の「ブールネットワーク(boolean network)」のような モデルを構築することに役立つ。このようなモデルは、疾病を診断、予防、およ び治療し、効果的で経済的に価値のある治療薬を設計する際の、価値ある補助を 提供するものとして、当業者に周知である。 表3の行は経時抽出標本の集合(また、時間の点や、時間の一部分として知ら れている)、すなわち、特定の遺伝子または遺伝子産物の活性の観測の時刻また は期間に対応する。列は、特定の遺伝子または遺伝子産物に対応する。表のセル [i,j]内の数値は、もし、遺伝子iが「オン」と考えられる、すなわち例えば、 時間jの間に「活性である」または「発現されている」と考えられるなら1であり 、そうでなければ0となる。この表記および応用は、遺伝子の単純なオン/オフ の状態が、例えば遺伝子の主要なタンパク質産物の観測量等のような、発現のz の異なる量の集合に置き換わる場合にも、容易に発展させることができる。単一 の遺伝子の状態を表記するために、複数の生物学的パラメータが用いられる状況 でも、容易にこの表記と応用を発展させることができる。 本明細書記載の方法は、(G.S.Michaels,D.B.Carr,M.Askenazi,S.Fu rhman,X.Wen,and R.Somogyi,Pacific Symposium on Biocomputing 3:42-53 ,1988)に記載のように、ラットの脊髄の発達に関与する遺伝子に対する遺伝子 発現データの集合に応用されている。データ集合はこれらの著者から入手可能で あり、1998年の3月付けのものは、ワールドワイドウェブ(WWW)http://rsb.in fo.nih.gov/mol-physiol/PNAS/GEMtable.htmlで、入手可能である。 逆転写ポリメラーゼ・チェーン反応(RT-PCR)の手法を用いて、112の遺伝子の 発現(最大の発現レベルに標準化されたmRNAレベル)を、9つの発達時刻の点( E11、E13、E15、E18、E21、P0、P7、P14、およびP90または成体、Eは胚、Pは出 生後を表す)で測定した。使用された遺伝子の一覧表には、九つの主要遺伝子系 統群を含む中枢神経系(Central Nervous System:CNS)の発生において重要であ ると考えられる遺伝子が含まれる。 上記のデータ集合は、本明細書記載の二三の手順による方法で、分析に好都合 な対象および属性のデータ行列へ容易に変換された。 1.実数の(すなわち、連続的な数値の)遺伝子発現のレベルは(C.S.Wallace and D.L.Dowe,「Intrinsic Classification by MML-the SNOB program」,P roceedings of the Seventh Australian Joint Conference on Artificial Inte lligence,pp.37-44,1994)に記載の通り、SNOBソフトウエアーで具体化され たように、ベイジアンクラスター化法(Bayesian clustering method)を用いて 、離散量の集合へと変換された。実数を量子化または離散化するベイジアンクラ スター化法は当業者に周知である。結果を理解しやすいように、これらの六つの 離散の数値は、AからFまでのアルファベットの記号の小さな集合へ変換された。 2.行列の列が112の異なった遺伝子を、また行列の行が九つの異なった発生時間 の点に対応するように、データ行列が準備された。 本明細書に記載の方法は、その後、変換された遺伝子データ集合の入力におい て数回、それぞれの回において、パラメータr(標本抽出数)値およびT(標本抽 出反復数)値の異なった組み合わせを使用して実行された。この方法は、付録の AとDに記載の態様に酷似したコンピュータープログラムを使用して、このデータ 集団に応用することができる。しかしながらこの特定の態様は、タンパク質配列 分析の分野への応用に適合され、HIVタンパク質のデータにおける特定の試験に 適合するように幾つかのパラメータが同定されたことを意味する。入力データに パラメータ値が適合するようプログラムを改変しなければならない。 遺伝子発現データにおけるこれらの実行は、Windows'95の運行システム下で、 IMB-PC変換可能コンピューター上で行われた。各実行において、観察および分析 をおこなうために、結果の表を印刷した。T=100,000かつr=5での実行の結果は、 付録Eとして貼付されている。研究者は、もっとも相関の高いk項数の遺伝子の上 位10位、50位、1000位(または別の順位まで)だけを印刷したいと思うかもしれ ない。付録Eでは、上位25位を示した。 貼付した結果の印刷物では、次に述べる形式変換が使われた: 一並びまたは、複数の並びのそれぞれのグループは、一つの相関するk項数の 遺伝子、すなわち本明細書の別の箇所に記載のように、統計学的に独立している 、個々の成分属性の低い確率を示す一つのcset(一致集合)を報告する。独立の 低い確率は当業者に周知であり、本明細書で先述したように、高い相関の形態で ある。個々のk項数に対して、k遺伝子が示され、独立の確率に対する数値が示さ れる。(計算値は非常に小さくゼロに近いので、小数伸長(decimal expansion) は0に省略され、この数はしばしば0と表示される)。復唱するが、低い確率値は 、高い相関の度合いを意味する。個々の遺伝子に対するA...Fの記号は、量子化 された発現のレベルを表記し、遺伝子の内部データ集合名、そして遺伝子に対す るより標準的で許容された名称が続く。 産出された相関のあるk項数は、先述の科学論文中の著者により報告された結 果と比較することができる。この遺伝子発現データ集合上でこれらの著者の行な った方法の中には、対相互情報量分析がある。この分析では、相互情報として知 られる特定の相関測定が、112の遺伝子のそれぞれの対について測定され、高い 相互情報量をもつ遺伝子のグループが互いに近くになるように、図表により示さ れた。本明細書に記載の方法は、付録E中の結果に示されるように、高い相関を もつ遺伝子の対のみでなく、3項数、4項数などを発見することができる。付録E 中の結果および先に引用した科学論文の著者らの結果を試験したところ、二つの 違った方 法はお互いを確証する傾向にはあるものの、本方法は大量の属性内の相関関係の 検出により効果があることが示された。例えば、本発明者らの結果のいずれかの 並びの試験は、その集団の中の別の遺伝子の対もまた、他の著者らの方法で高い 対情報量をもつと記されているような、相関のある遺伝子の集合を検出する。 相関のあるk項数の属性は、そのk項数からの全ての可能な対もまた、相互に相 関していること、またはその逆を示唆するとは限らない。従って、対および高位 のk項の相関を検出できる、本明細書に記載されたような方法は、その他の応用 において、遺伝子間、またはその他の属性間の重要な高位の相関を検出すること に失敗する可能性のある対の方法よりも有利である。本明細書記載の原理の、書類検索手段に使用するためのインターネット/イント ラネット書類データベース上のカテゴリーの検出のための応用 トピックまたはキーワードによる書類検索は、十分な検索手段の存在を示唆し ており、実際、効果的な検索アルゴリズムの開発に多くの労力が費やされてきた 。これは、しかしながら、全体的な解決策の一部分でしかなく、問題には効果的 な書類のカテゴリー化の戦略が必要とされる。情報理論は、書類を整理するため に利用される効果的なカテゴリーまたはトピックの集合は、相関がなくおおよそ 可能性が等しくあるべきであることを示している。これらのトピックスが広い変 異幅をともなう可能性とともにあらわれる時、書類の検索空間はいくつかのトピ ックにより、過度に大きくまたは過度に小さく分割される。もし、トピック間に 相関が存在するなら(すなわち、ある書類内のトピックの存在の知識が、別のト ピックが書類内に見つかるより大きな可能性を示唆する場合)、トピック集合の 大きさを減少させることができる(カテゴリー化集団から相関のあるトピックの 幾つかを除くことによって)。「等しい可能性」問題は、本明細書記載の原理の 応用により取り組むことができる。この問題は容易に統計学的技術に従うが、標 準の統計学的技術は高位の確率項の検出に失敗する。「脱相関(decorrelation) 」の問題は、より難解で処理しにくい。次に最適なトピック集合は、結果が利用 者に返される(そして書類それ自身の構造の解釈を混乱させる)前に検索手段に 強いて、必要以上に多くのこのようなトピックを試験させる。検索効果の全ての 増進により、より多くの利用者がシステムを利用することが可能になるなら、こ の ようなシステムの開発者には、書類の効果的なカテゴリー化の欠落の余地はない 。 この方法を最適または、ほぼ最適のトピック集合の減少に応用することは、本 明細書の他節で本発明の作業を説明するために本発明者らが使用したNxMのデー タ行列の用語で表記することができる。応用特異的な態様では、データ行列の行 はデータベース上の特定の書類に対応し、列はそれらをカテゴリー化するように 意図して作成されたトピック集合に対応する(表6参照)。 表6中の行は、データベース上の書類に対応し、列は書類を分類するために使 用して作成されたトピックに対応する。表のセル[i,j]中の数値は、もし書類i がトピックjを言及しているなら1であり、そうでない場合0となる。 書類集合を分類するために使用する、ほぼ最適のトピック集合検索へ、本発明 を応用することに関係する手順には以下が含まれる。 1.最初のトピック集合を得る。書類検索の分野は十分に確立され、そのような 集合の作出のために効果的な方法論は、当業者に周知である。 2.このトピック集合およびトピック集合がカテゴリー化する書類の集合を用い てデータベースを作成する。トピック集合があるとすれば、必要なことは個々の 書類が個々のトピックを言及しているか否かを決定するために試験することであ る。 3.データベース上の個々の書類が、態様のデータ行列上のM個の対象(行)の一 つまたは複数の対応し、個々の考えられたトピックがデータ行列の一属性(列) に対応するように、データベースの全体または一部を表記する。 4.上記の基本方法または本明細書記載の別の態様をデータ行列上で利用する。 5.検出された相関のあるk項数の属性を以下に指向する。 ●グラフィカルビューアーまたはプリンター、または、 ●規則に基づくシステムのための規則作成プロセッサー、または、 ●管理者またはコンピュータデータベース検索システムの利用者に対する報告書 、または報告書作成システム、または、 ●例えば、相関のある変数についてさらに徹底した統計学的分析を行う等(例え ば、重相関(multiple regression))の、データのいくつかの種のさらなる分析を 行う別のコンピュータープログラム、または、 ●データベース上で変換または最適化を実行する別のコンピュータープログラム 。 トピック集合内のトピック間の統計学的に有意な相関は、トピックの効果的で ない最初の選択を示すこともある。本発明の方法により検出されたk項数の相関 は「高い相関にあるトピック」(「脱相関のトピック」の目標に関して)および 「高い確率の同時トピック」(「ほぼ可能性の等しいトピック」の目標に関して )の両者に対応している。当業者は、ともに起ることが判明したトピックスをト ピック集合から除くべきか、組み合わせるべきかを決定する指針として、この応 用における相関の結果を利用することができる。この方法での応用の結果を用い て、このような書類検索手段の管理者は、利用者の質問に応じて検索すべきカテ ゴリーの数を減少させることで、システムの性能を高めることができる。システ ム性能の向上はサービスの提供者にとって、二つの利益がある。一つは、利用者 の質問に対するシステムの反応時間が減少することであり、もう一つは、提供さ れる利用者の総数が増加することである。本明細書記載の原理のインターネットおよびイントラネットによる検索および貯 蔵への応用 インテーネットおよびイントラネットによる検索手段は、利用者の質問にとっ て重要なサイトまたは書類を探すために、使用者が必要とする時間の長さを調べ ることによって、消費者観的に順位をつけることができる。利用者が探している ものをより迅速に見つけだせることを可能にする検索手段の結果を運行する、重 要なアルゴリズムの改良は、その手段の有益性を改善し、より多くの利用者がそ の手段を利用でき、また(インターネット検索の場合は)利用者および広告主の 両方の社会にとって、また(会社間のイントラネットの場合には)利用者および 経営者との両方の社会にとって、その手段がより魅力的なものとなる。以下に、 インターネットまたはイントラネットシステム上で、より迅速に利用者にとって 重要な情報を得、書類の貯蔵をよりよく管理する方法を提供する本明細書記載の 原理の二つの利用を述べる。以下の説明と例では、インターネット/ウェブ、従 って個々のウェブページおよびウェブサイトを考える場合と、検索がそれ自体の ウェブサイトよりむしろ書類に対する場合の、単一の会社または研究所の情報シ ステム内に貯蔵されたイントラネットが考えられる場合において、述べられた原 理は同等に適用する。 この説明を明瞭にするために、その検索手段に周知の、ウェブページ集合内の 各ページ、またはそのような書類集合内の内部イントラネットの書類はトピック により既に分類され、トピック集団はあらかじめ固定されているものと仮定する 。目標は検索手段の通常の結果を利用者に提示することであり、利用者の要求に 関連することが知られているトピックスの付加リストをもつリンクの一覧表を補 足することもある。 表7の行はウェブページの集合または、内部イントラネット書類に対応し、列 はトピックスに対応する。表のセル[i,j]の値は、ウェブページまたは書類iが トピックjを言及していれば1で、していなければ0となる。 表7は、本明細書の別の箇所で定義され説明された対象および属性を表記する ためのデータ行列の形式で、本明細書記載の基本的方法または他の態様が実行さ れるデータベースを示している。本明細書記載の態様の性質により、表に利用さ れたページの数は全ウェブページの総集合である必要はないことに留意のこと。 態様がこの表上で実行(または利用)される時、態様は、同一の書類内で共に頻 繁 に検出されるこれらのトピックスを検出するであろう。このことは、これらのト ピックスがある様式で関連し、ウェブページの集合がこれらの関連を支持すると 、利用者にとって興味深いかもしれないことを示している。 長所は幾つかある。これらの態様の計算費用は、データベース上の列の数に関 連して直線的に比例する。この応用において、列の数はウェブページに関連する トピックの数を表わす。この数はほぼ例外なく膨大なので、当方法のこの性質は 実際に長所である。さらに、ウェブページがランダムな順番で保存されている場 合、態様をウェブページの総集合の、より処理しやすい部分集合上で実行するこ とができる。これは検索手段が存在する場合、サーバー上の使用されていない時 間に、連続的または同時に、これらの関連を検出する作業を、実行可能なより小 規模な作業へと分割することができる。この方法により、その実行の間のどのよ うな点でも大きな幅(k)の新しい関連を産出することができる。多くの他の「 関連を採掘する」方法は、長い実行時間内でのより後の段階で、関連する属性の より長いk項数のみを検出する。また、このアルゴリズムにより検出された関連 するトピックスの一覧表が大きくなると、これらの新しい「同時トピックス」に 対するリンタを選択するページを作成し保存することができる。これは、サーバ ーロードを減少させる可能性がある(従って、より多くの利用者がシステムにア クセスすることが可能となる。)。また、これは検出物の統計学的な重要性に制 限を与えるので、どの新しいトピック指標を保存し、必要に応じて再作成するか を選択するためにこの情報を利用することができる。ウェブページおよび書類の貯蔵ならびに検索を管理するための本明細書記載の原 理の異なる応用 インターネットおよびイントラネットの検索手段は、トピックにより、ウェブ ページまたは書類の空間を整理することを意図とする。一般的には、頭文字(例 えばアルファベットの)順番は、全くこの空間を等しく分割する見込がない。例 えば、トピック「カリフォルニア」は「ノース・ダコタ」よりも、それに関連す るずっと多くのページ集合を有するであろう。トピックによる(木(tree)の低い 位置では副トピックスとともに)ページの木に似た簡易な貯蔵は、「カリフォル ニア」を茂った木に託することになる。この状況で便利なことは、単一のトピッ クスのみによるよりは、ページの検索空間を分割するためのよりよい方法である ことである。先にあげた例では、カリフォルニア関連のウェブページの大きな集 合を、ノース・ダコタの集団の大きさに近い、より小さな集団に分割した方がよ いだろう。集合を説明する単一のトピックを、同一の空間を含む一連の関連する トピックの一覧表を置き換えることで、大きな集合を小さなものに分割したいな ら、トピックによるページの整理を続けることが可能である。再度例に戻ると、 もし、「カリフォルニア」が、「太陽の光」、「ワイン」および「自動車」のみ と強く関連しているとすれば、我々は「カリフォルニア」の木の節を「カリフォ ルニアと太陽の光」、「カリフォルニアとワイン」、「カリフォルニアと自動車 」、または「カリフォルニアとその他」の節の集合に置き換えるであろう。木の この部分の高さが(この場合)一つ分低くなるので、このことはまた、このペー ジの検索と保存を速くすることを可能にする。木の全ての節に同じ方法を繰り返 して行うことは、以前よりも良好なバランスを保証するための方法を提供するこ ととなる。新しい木のバランシング機能のこの情報で唯一漏れているのは、それ ら自身の関連を発見することである。ここに表記された態様を先の節で説明した 同じ表に応用すると、ページ集合からこの情報を抽出できる。この方法により、 どのトピックが関連しているかだけでなく、データベース上の個々の関連に対す る支持のレベルの指標を得ることができる。いったん、大きすぎるトピックが同 定されたら、トピックをどのように分割するかを決定するために、このトピック を含むアルゴリズムにより検出された関連の一覧表を調べることができる。 木に基づく貯蔵検索技術の利用は周知で、このようは方法には、B-ツリー(B-t rees)、k-Dツリー(k-D trees)、ツリー(tries)、k-Dツリー(k-D tries)、および グリッドファイル(gridfiles)などの変型がある。木に基づく方法の代わりに、 または、それに加えて、ハッシング方式を利用できる。このような方法を全て用 い、応用領域上のデータの特定分布を利用して、貯蔵(主要メモリーおよびオフ ラインメモリー)および実施時間の両方で有効な利益が得られる。ここに記載さ れた態様は、上記またはその他で示されるように、データ分布のよりよい理解と 探索を得るために役立てることができる。 長所には、上記の最初の方法に対してあげた全てが含まれ、さらにもう一つの 重要な長所がある。もしある質問に関連するサイトの一覧表を検出する方法をす でに使っているならば、検索の木の均衡をとらせるために必要な関連の正確な一 覧表がすでに完成しつつある。売り上げ分析、ダイレクトメールおよび関連のマーケティング活動への本明細書 記載の原理の応用 小売店、広告/マーケティング代理店、雑誌、新聞、ラジオ、テレビ、映画、 やインターネットの会社、または非営利もしくは慈善団体のマーケティング管理 職屓は、どのような種類の人々が購買または貢献する見込みがあるかを知る必要 がある。これらや他のマーケティング状況において、過去のマーケティング・キ ャンペーン(その他のキャンペーンや販売促進も含まれるが、「メーリング」と いう用語をここで使用する)から、また、重要な商品やサービスの購入からの、 または慈善事業への過去の貢献から(これらの全てを「製品」と呼ぶこととする )のデータを分析することは便利で価値があることである。 マーケティングの管理職員や、セールスマン、経営幹部が例えば以下のような なことを知ることが有効である。 どの製品が一緒に購買される傾向にあるのか(同一の消費者により、おそらく は同一の売買において)。 過去のどの広告キャンペーンまたはメーリングが良い反応(製品の高い売り上 げ)を引き起こし、どれが引き起こさなかったか。 どの人工統計学的要因が昨年の会社の製品の大きな総消費に相関していたか。 中西部の25〜40歳の女性はその会社の製品を購入しているか。 このような質問に対して、消費者や売買、人工統計学的要因、過去のマーケテ ィング・キャンペーンおよび特定の製品の売り上げについて整理されたデータベ ースを分析することで、取り組むことが可能である。慈善団体では、例えば「売 り上げ」や「消費者」の代わりに、「貢献」や「寄贈者」が適応されるが、基本 的な考え方は同じである。主な現在の計算上の問題の一つが、大きなデータベー ス上の変数または属性集合の中の関連(相関)を検出することである時、これら の分析作業へ、本明細書記載の原理を効果的に適応することができる。表8は、 製品の消費者の購買についてのデータベースの分析への応用を示している。表9 は、 購買が記録されているだけでなく、過去のマーケティング・キャンペーンにおけ る情報も記録されている場合を示していること以外は、表8と同様である。たと えば、住宅の地域、年齢群、収乳群、性別、職業カテゴリーや地域社会またはレ ジャーに関する活動への参加などの、消費者の人工統計学的属性に対応する列を 新たに挿入して、これらの方式のどちらの一方も拡大することができる。 表8の行は消費者(および/または潜在的な消費者)に対応し、列は特定の消 費者に購買された(1で表される)または購買されなかった(0で表される)製品 に対応している。表のセルの[i,j]の値は、もし消費者iが製品jを購入したなら 1、そうでない場合は、0である。 表9の行は消費者(および/または潜在的な消費者)に対応し、列は、特定の 消費者に購買されたか(1で表示される)または購買されなかった(0で表示され る)メーリング(またはその他のマーケティング・キャンペーン)および製品( 品物またはサービス)に対応している。表のセルの[i,j]の値は、もし消費者i が製品jを購人したなら1、そうでない場合は、0である。 本明細書記載の原理を、売り上げ/マーケティングのデータベースに応用する ことに関係する手順には以下が含まれる。 1.上記の様に売り上げ/マーケティングのデータベースを入手する。必要な場 合 は連続量の変数を離散状の変数に変換するための周知の方法を使用する。 2.データベース上の個々の消費者が、態様のデータ行列上のM個の対象(行)の 一つまたは複数に対応し、各製品またはメーリングがデータ行列上の一属性(列 )に対応するように、このデータベースを、総体的にまたは部分的に表示する。 メーリング属性および(もしあれば)製品属性は共に、データ行列上のN個の属 性(列)を形成する。 3.上記または本明細書記載の別の態様の一つをデータ行列に適応する。 4.検出された相関のあるk項数の属性を以下に指向する。 グラフィカルビューアーもしくはプリンター、または ●規則に基づくシステムのための規則作成プロセッサー、または、 ●マーケティング担当者、雑誌/新聞の循環を指揮する担当者、セールスマン、 経営者、もしくは他のコンピューターデータベースの質問システムの利用者に対 する報告書、または報告書製作のシステム、または、 ●例えば、相関する変数に対して、さらに徹底した統計学的分析を行う等(例え ば、重相関)のデータのさらなる分析の幾つかを行う別のコンピュータープログ ラム、または、 ●データベース上で変換もしくは最適化を実行する別のコンピュータープログラ ム。 この適用の結果は、幾つかの可能な場面に役立つ。 例えば、同一の売買または同一の消費者による異なる売買のいずれかにおいて 、一緒に購入される傾向にある製品の集合を有する、k項数の相関が結果に含ま れる可能性がある。このような情報は、例えば、NBAバスケットボールの入場券 の購入者に、NBAチームのシャツや、バスケットシューズや他の関連する商品の 割引のクーポン券が与えられるなどの、「抱き合わせ販売」や共同マーケティン グ・キャンペーンを開発するために利用できる。バスケットボールのファンがNB Aチームのシャツを着用することを好むことは、おそらく驚くべきことではない ので、上記の手順により明瞭でない製品間のその他の関連を検出することができ る。 また、別の例としては、特定の商品購買と相関する特定の広告キャンペーンを 表すk項数の相関が結果に含まれるかもしれない。このような情報により、マー ケ ティングの管理職員が、売り上げをもっとも増加させそうな種類の新しいマーケ ティング・キャンペーンに、彼等の資金を集中させることを助長することができ る。消費者のデータのクラスター化における本明細書記載の原理の利用 本明細書に記載された原理のマーケティング実践へのその他の応用には、上記 のデータ行列の移項(transpose)が考えられる。対象(行)としての消費者と、 属性(列)としての製品や人口統計学的要素の代わりに、消費者が列に対応し、 製品や人口統計学的要素が行に対応する場合に可能なものを考える(表10参照) 。この方法で本明細書に記載の原理を利用すると、人口統計学的要素または購買 パターンの特徴の空間に、相関するk項数の消費者または消費者の人物概評が得 られる。これは、購買の習慣やライフスタイルにおおよそ類似する、消費者また は消費者の人物概評のグループへ、消費者のデータをクラスター化する形態であ るとみなす。このようなクラスター化は、マーケティング資金をより最適に位置 付けるために、特別な「標的グループ」を設計することに役立つ。いったん、こ のデータの移項(transpose)が計画されると、マーケティング活動の対しての上 記記載の説明に、その他の手順を全く同様に応用することができる。 消費者をクラスター化するための、先に示したマーケティング・データベース の「移項(transpose)」の方法の利用を表10に示す。消費者の集合に対応するの は、この場合は列で、行は購入された製品や人口統計学的(demographic)特徴に 対応する。M'個の行およびN'個の列があり、ここではおそらく上記の元来のMお よびNに対して、M'=NでN'=Mである。表のセル[i,j]の値は、もし、消費者iが製 品jを購入した、または人口統計学的特徴jを有する時は1となり、そうでない場 合は0となる。 医療、疫学および/または公衆衛生のデータベースの分析への本明細書記載の原 理の応用 医学研究者や開業者の間では、多くのヒトの肉体的および精神的疾患や不全は 、多くの潜在的な要因因子間の複雑な相互作用により引き起こされることが知ら れている。このような因子には、特定の遺伝状況や、異常、生物学的病原体への 暴露、食餌面、環境(空気、水、騒音、汚染)、家庭や職場での危険物への暴露 、感情的ストレス、物質中毒、貧困が含まれる。ある状況の真の「原因」は、い くつかの例を説明しようとした多くの民族的および逸話的証拠はあるものの、し ばしば確認が不可能なままである。健康への脅威を発見および予防する問題は、 研究者や保険会社の代理店、疫学者や公衆衛生官吏らが、生存のまたは死去した 、健康なまたは疾病を煩った実在の人々の大量のデータを収集し分析することに より近年、解決への手助けがなされている。データベースへのコンピューターと 統計学的分析の適用において、だれもが莫大な数の変数とそれらの潜在的な相互 作用の指数学的複雑さを伴う分野で戦わねばならない。この種の分析は数十、数 百、または数千の変数間の相関および関連を能率的に検出する方法により大幅に 改善できる。本明細書に記載の原理はこのような状況に適応できる。 医療データベースへの適応は、本明細書の他節で利用した縦Mに横Nのデータ行 列の形で表記することができる。適用の特異的な態様の一つでは、データ行列の 行は、衛生研究における特定の患者または被験者に対応し、列はある疾患または 疾患の集合の一因であると考えられる因子に対応する。これらの因子は、復唱と なるが、社会経済的要因、ライフスタイル(運動、食餌)、患者の家庭や職場環 境の側面、(例えば、発ガン化学物質への暴露)、過去の治療などが含まれる( 表11参照)。 表11の行は、ある研究における患者または被験者に対応し、列は潜在的な疾患 因子に対応する。表のセル[i,j]の値は、もし患者iが因子jを経験または、因子 jに暴露した場合は、1となり、そうでなければ0となる。 応用の特異的な態様では、暗黙の内に表記される単一の疾患のみでなく、上記 のように、また表11に示された因子を伴う属性として表記される多くの異なった 疾患がある可能性がある。例えば、特定の患者pが肺がんを患ってはいるが、糖 尿病や心臓疾患を患っていない場合、行pは、肺がんに対応する列には1を、糖尿 病および心臓疾患の対応する列には0の値を有する。 本発明を医療/疫学/ライフスタイル要因のデータベースへの適応に関する手 順には以下を含まれる。 1.上記の医療/疫学/ライフスタイル/要因のデータベースを入手する。必要 があれば、連続量の変数を離散状の変数に変換するために周知の方法を使用する 。 2.データベース上の個々の医療/疫学/ライフスタイル要因が、態様のデータ 行列上のM個の対象(行)の一つまたは複数に対応し、個々の潜在的疾病因子が データ行列上の一属性(列)に対応するように、このデータベースを総体的また は部分的に表示する。異なった疾患を表す付加の属性は疾患因子と共にデータ行 列上のN属性(列)を形成する。 3.上記または本明細書記載の別の態様の一つをデータ行列に適応する。 4.検出された相関のあるk項数の属性を以下に指向する。 ●グラフィカルビューアーもしくはプリンター、または ●規則に基づくシステムのための規則作成プロセッサー、または、 ●医師、研究者、公共衛生官吏、支配人、もしくは他のコンピューター・データ ベース質問システムの利用者に対する報告書、または報告書製作のシステム、ま たは、 ●例えば、相関する変数に、さらに徹底的な統計学的分析を行う等(例えば、重 相関)のデータのさらなる分析の幾つかの種類を行う別のコンピュータープログ ラム、または、 ●データベース上で変換または最適化を実行する別のコンピュータープログラム この応用の結果は幾つかの可能な場面に役立てることができる。 例えば、単一または複数の疾病状況に関連した要因の集合を含むk項数が、結 果に含まれる可能性がある。このようは情報はおそらく、さらなる統計学的分析 を経て精製され、これらの特定疾病の理解、検定、および予防に大きな飛躍をも たらすであろう。 また別の例では、関連が以前には知られていなかったような、お互いに関連の ある要因集団を含む相関のあるk項数が結果に含まれている可能性がある。特定 の食餌と肥満、または特定の職業と高いアルコールの摂取量のような、関連する ライフスタイル要因の発見は、公衆衛生政策と医療実践の改善にそれ自体役立つ 。 このような検出された相関全てが、公的または民営の保険の提供者にとって、 潜在的に大きな利益となる。なぜなら彼等は、彼等の保険統計の表や保険証券を 、例えばライフスタイル、社会経済的、およびその他の要因に基づいて、健康や 寿命の予測に反映させなければならないためである。患者のデータのクラスター化への本明細書記載の原理の使用 公衆衛生、保険証券や実践への、本明細書に記載する原理のまた別の異なった 応用は、上記のデータ行列の移項(transpose)を考案することにより可能である 。対象(行)としての患者と、属性(列)としての潜在的疾患要因の代わりに、 対象(行)としての患者が列に、属性が行に対応する時に可能なものを考えるこ とができる(表12参照)。この方法による本発明の利用により、特徴の空間に、 相関するk項数の患者または患者の人物概評が得られる。これは、患者のデータ を、彼等のライフスタイルに関しておおよそ同様の、患者や患者の人物概要のク ラスター化した形態であることがわかる。このようなクラスター化は、健康サー ビス、出張所計画、保険保護、または他の資源の最適な割り当てを可能にするた めに、患者または保険の申請者の特別な「危険性の低い」或いは「危険性の高い 」タイプを設計することに役立つ。このデータの移項(transpose)が計画された 場合、医療およびその他のデータベースの分析への前述の応用におけるその他の 手順は 、上に示した説明に全く同様に応用できる(表12参照)。 因子空間上の患者や証券の保持者をクラスター化するための、先に示した疾病 要因データベースの「移項(transpose)」における原理の利用が、表12に示され ている。患者、医療研究の被験者、または潜在的な保険証券の保持者の集合に対 応するのはここでは列であり、一方行はライフスタイル要因や、社会経済的要因 、職場の要因やその他を含む潜在的疾患要因に対応する。M'個の行と、N'個の列 があり、ここでは前述の元来のMとNに対して、M'=NでN':Mである。表のセル[j, i]の値は、もし、患者iが、因子jを保持する、または因子jに暴露した時、1とな り、そうでなければ0となる。 複合システムにおける動作不良の原因の検出への本明細書記載の原理の応用 コンピューターネットワークや工場の自動化などの複合の集積システムの管理 者は、始めから、システムがもつ困難な診断の問題に直面してきた。システム上 の一連の事象が(おそらく延長した時間中)、総体的にシステムの動作不良を引 き起こす場合、動作不良の真の原因の診断は、ほぼ克服できない課題である。例 えば、高いロードの状態下で、断続的に動作不良を起こすゲートウエイ・コンピ ューター上のネットワーク・インターフェイス・カードの診断は、ホスト・コン ピューターの破壊を引き起こさないが、ネットワークの要求に応えるためにカー ドを使用する(代理人をもって)他のコンピューター上のエラーを引き起こす可 能性がある。このような問題は、従来の診断技術を用いて探知することが極端に 困難であるかもしれない。動作不良を招く総体的なシステム上の状況の、よりよ い分析を管理者に提供する手段は、重要な問題の診断と修理を加速させるかもし れない。 本明細書に表記された原理が応用されるデータベースは、定義される必要性が ある。 データベースは総体的に、時間にわたって一連の成分の状況記録として考える ことができる。このデータベースの列は、本明細書を通して利用されるデータ行 列の形式上で考察される場合、一連の成分を表記し、行は時間における離散点を 表す。表の値は質問の時刻での個々の成分の状態(オン、オフ、待機、エラー、 その他)の暗号であることが意図されている。このようは記入の手順は当業者に 周知である。 表13の行は時刻、列はシステム上の個々の成分に対応する。表のセルの[i,j] の値は、時刻iでの成分jの暗号化された状態である。 本発明の方法のシステム運転データベースの分析への応用に関係する手順には 以下が含まれる。 1.前記の通り、システム成分およびそれらの状態のデータベースを作成する。 システム上の成分に対する状態の集合の選択は、システムの管理者への関心の行 動、および成分そのものにより行われる。 2.データ行列上の個々の列がシステム上の成分に対応し、データ行列上の個々 の行が一連の時刻に対応するような、データ行列として総体的または部分的にこ のデータベースを表記する。 3.上記の基本的方法または本明細書表記の他の態様をデータ行列に応用する。 4.検出された相関のあるk項数の属性を以下に指向する。 ●グラフィカルビューアーもしくはプリンター、または ●規則に基づくシステムのための規則作成プロセッサー、または、 ●システムの管理者対する報告書もしくはレポート作成システム、または、 ●例えば、相関する変数に対してさらに徹底的な統計学的分析を行う等の、デー タのさらなる分析の幾つかを行う別のコンピュータープログラム、または、 この応用の結果は、特異的にある作動不良とともに起ることが見られるシステ ム上の事象を示すために利用することができる。データベースの定式化があれば 、作動不良の時刻でのシステム上の成分のみに限定されず、データベースが記録 を行った全ての時刻の全ての範囲へ、作動不良状態の試験を広げる事ができる。 これにより、最終的に作動不良を引き起こす成分間の難解な因果関係をこの方法 で照らし出すことができる。最も容易は場合には、もし、ある成分が作動不良と 相関しないことが判明したなら、システム上のこれらの成分を精査から除去する ためにこの結果を用いることができる。複合システムの分析への本明細書記載の原理の応用 複合システムは、幾分類似した適用の大きな系列を定義する。この検討のため に、複合システムは、これらのシステムが膨大な数の相互作用する個々の成分ま たは部分を有するために、直接的な詳細的モデル化の方法がないようなシステム として定義される。例として(しかし、これらに限定されるものでない)、経済 学、個人の行動、従業員のグループの生産性、天候パターン、国家の犯罪などが あげられる。これらの個々の場合では、これらのシステムの状態を測定するため に、変数や変数の集合が用いられるように(例えば、経済学の場合では、利率、 株価、およびインフレ率など)、システムを正確にモデル化する周知の方法はな い。これを説明するために、複合システム上の事象は、先条件(pre-condition) 、作用(action)、後条件(post-condition)の形態をとる。これらの相互作用は、 作用が起る前のシステムの状態、作用そのもの、作用実施後のいくつかの時刻で の結果としてのシステムの状態を表す。言い換えると、以前のシステムの摂動と その結果の集合を、システムの特徴についての情報が由来するシステムの経緯と して利用できる。 本明細書記載の原理を効果的に活用する、この種の複合システムのデータベー スは、ある制限に直面しなければならない。あるシステムの状態を測定するため に利用される変数の集合(一般的な利用、または領域の知識から導き出せる形で )がなければならないのである。これらの変数は個々のデータベース入力の前お よび後の状態の部分で利用される。また、システムがそれによりかき乱される可 能性のあることが知られている方法を有するシステムに応用される作用の一般的 な集合がなければならない。経済学の例に戻ると、作用の集合は「財政政策」の 属性の下Cの全ての事が含まれる可能性がある。 形式上、データベースは、ゼロまたはそれ以上の先条件の変数、ゼロまたはそ れ以上の作用の変数、ゼロまたはそれ以上の後条件の変数を示す属性を有してい なければならない。データベースがゼロの先および後条件の変数、およびゼロの 作用の変数をとる普通の場合を除くと、考慮すべき八つの場合がある。それぞれ の場合、二つの重要な解釈があることに留意のこと。例えば、先条件と作用の変 数はあるが、後条件の変数がない場合を考えてみる。相関関係は二つの形で発生 する。データベースそれ自体がその中に後条件の変数をもたない(また、一種類 の変数のみを含む全ての相関を除去するために、報告された相関関係の集合が選 抜される)、またはデータベースは実際、後条件の変数を有するものの、相関の 集合そのものは全く後条件の変数を含まない形である。検討のために、前者がそ の場合であると仮定する。いくつかの種類の変数を含まない相関の集合を残すた めに、より多くの種類の変数を有するデータベース上での方法の結果が常時選抜 される。 もし、データベースが一種類の変数のみ(例えば一つの作用変数または一つの 後条件の変数)を含む場合は、これから生じた相関は二通りのうちの一つで解釈 することができる。もし、変数が先条件または後条件の変数であれば、結果は状 態の原形、すなわち共に見られる傾向にある属性の値(または変数の状態と同等 )の集合を示している。天候パターンの領域からの例には、雨と低気圧がある。 もし、作用変数のみがデータベース上にあるとすれば、これらの間で検出される 相関は、ともに行われる傾向にある決定の集合を示している。軍部の領域では、 側面演習と攻撃は同時に見られる傾向にあることが検出されるかもしれない。こ れらの種のデータベースは、本明細書のどこかで説明された他のデータベースと 非常に似ているので(これらの場合におけるこの方法の応用であるかもしれない ので)、この節はこれらを明確には示さない。 三種類の変数のうち、二種類のみを含むデータベースの場合は、総数では三つ である。 先条件と作用の変数のみを含むデータベース上で見つかった相関は、領域内の 状態と作用の選択の間の関係を示す。フットボールのプレイコーリング(play-ca lling)が一例である(これはまたどのような直接的な詳細な方法、つまりプレイ コーラー(play-caller)でモデル化できない、複合システムに関連していること に留意)。ここで、相関は例えばコーチやクォーターバックのような作用を起こ す本体の傾向を示している。 もし、データベースが作用と後条件の変数のみを含む場合は、検出された相関 は先条件にかかわりなく、作用の集合の有効性を明瞭にする。フットボールの例 に戻ると、この種の相関は当のチームがある作用を実践できるかを示す((四回 挑戦できるうちの)三回目で到達すべき長いヤーデッジは、往々にして残念な結 果となり、次の四つ目のダウンで、貧困な後条件の集合につながる傾向にあるな ら、チームはこの状態で無力である傾向にあることか分かるかもしれない)。別 の重要な例は、薬物の相互作用である。この場合、作用は投与された薬物であり 、後条件は幾人かの患者の間で報告された副作用である。 データベースが先および後条件の変数を含む場合の効用が、最初の試験で不明 解であれば、これはおそらく最も右効な場合の一つだろう。ここでは意志決定者 によってとられた作用に関係なく、ある領域上の状態の後に起こる傾向がある事 に我々は興味をもつか、またはとることのできる作用のない(またはシステムそ のものに影響する何もない)領域上に我々がいるかのどちらかである。前者の例 は、フットボールでの先条件「三回目の長い」は、後条件「四番目の長い」が続 く傾向があるという事実である。実際、もっとも興味深いのは後者の場合である 。天候パターンの場合を考えてみよう。もし我々が後条件の「竜巻き」にしぼる なら(すなわち、後条件で「竜巻き」の出現に関連する相関のみを相関の集合が 含むように、結果の相関の集合を選択する)、これらの相関が述べることは、竜 巻きが内在する前兆である。 最後の場合は最も一般的である。データベースが三つ全ての変数を含む場合で ある。この形態のデータベースは全ての先の種の属性の相関を含むことができる ことに留意。領域の例は既にあげられている(経済学、ある母集団のなかの犯罪 等)。ここでは、相関は、後条件の質に基づいて作用の集団(ある先条件のいく つかの集団)を順序づけるものとして考えることができる。 最後の考察は、データベース本体が含むデータの種類である。二進値をとる属 性は、本明細書全体を通じて述べられているように、この方法に容易に受け入れ られる。他の種類は、離散量の範囲に限られる。この場合でない時(例えば実数 または整数値の属性)、これらの値の範囲をより処理しやすい数にまで減少させ るために、当の値において、変換がなされなければならない。このための好まし い方法の中には様々なクラスター化があり、当業者に周知である。 全ての場合で、この方法によって出された相関は事象に基づいた推論パッケー ジへの理想的な入力である。システムの状態(例えば現在の状態)がある場合、 事象に基づいた推論の手段は、このシステムに応用できる作用の集合からの選択 の可能な結果の分析の基礎として、本明細書記載の原理により検出された関連を 利用することができる。 一般的には、本明細書にあげる原理は、意志決定者を補助するための手段とし て用いることができる。意志決定者は「実在」または人工である(すなわちこの 方法は、興味の領域上で意志決定をすることが目的である、人工知能的手段の一 部として使うことができる)。先条件変数および作用変数を伴うデータベースへの本明細書記載の原理の応用の 説明 データベースの形態に前述の制限がある場合、本明細書の別の箇所で記載され た態様の応用に対する入力の必要条件が適合することは明白である。本明細書の 別の箇所で引用された便利なデータ行列上で、この文脈内のM個の行は先条件お よびとられた作用の選択された全ての集合である。もし作用を適応する本体が、 かなり擬人化されるなら、これらの行はこの本体によりなされた決定と、決定が なされた時点でのシステムの状態の経緯を表す。N個の列は、システムの状況と 、システムがかき乱される方法を説明する、全ての適用可能な作用の変数の集合 を有している(表14参照)。 表14の行は、その状態に対応してとられた作用へと引き続く、システム状態の 例または組み合わせ(システムの先条件)に対応し、列は、システムの状態とシ ステムに適応ができる可能な作用を説明すると考えられる変数に対応している。 表のセル[i,p]の値は、もし列pが先条件の列である時、事象における状態の変 数pの測定値の暗号であり、もし列pが作用の列である時は、事象iでとられた作 用の暗号である。 本明細書の別の箇所に記載された原理をある領域に適用する前に、考えなけら ばならない幾つかの点がある。状態の変数の集合は定義されなければならない。 これは、領域そのものの当業者(例えばフットボールのコーチ、軍事アナリスト 等)に任される。 先にあげられた例は、コーチによるフットボールのプレイコーリング(play-ca lling)と、陸軍大将(general)による軍事的決定の場合である。一般的に、本 発明の好ましい実践には、作用を起こしている本体についての情報を抽出するた め、この形式のデータベース上の本発明の方法が使われる。相関する状態の変数 および作用はこの本体の傾向を示す。前述のように、このシステムの状態がある とすれば、本体がとりそうな決定のよりよい状況を得るために、事象に基づく推 論の手段を用いて、これらはさらに分析されるかもしれない。 この種のデータベース上での本発明の使用には、税金の収集における不正行為 の指標を見つけることがある。ここでは先条件を税金還付の顕著な詳細(総収入 、個人や会社により報告された総税金負担、請求された税金免除など)の獲得を 目的とする属性の集合とし、可能な脱税方法の集合を定義するための作用の変数 を選択する。本発明により検出された相関は税金還付の種類と脱税の種類の間の 関連を示す。一致検出が出された相関を統計学的に束縛するので、脱税の指標だ けでなく、これらの発見の確からしさも検出できる。税金収集代理店が、彼等に 送られてきた全ての税金還付を調査することができないとすると、この方法を用 い、不正行為を発見する(そして政府に対してより多くの貨幣還付)結果にもっ ともなりようなこれらの還付の十分に選択された部分集合を見つけることができ る。 紹介されるこの様な利用の最後は、保険詐欺の領域上においてであり、本明細 書記載の原理の税金収集への応用に非常に類似している。先条件の変数は、詐欺 の可能な指標(請求額、保険のかけられた本体に関する詳細など)であると考え られる、保険の請求における詳細の集合を獲得することを意図し、作用変数は詐 欺の種類を表す。本明細書記載の原理を適応して検出された結果は、保険請求の 詳細と詐欺の間の相関を示す。保険会社は、送られてきた全ての請求を調査でき ないので、本明細書記載の原理を応用することで、このような請求の総一覧表を より有効な調査の対象となりそうな集合へと縮小する事が可能である。 先条件および作用変数を含むデータベースの分析への本発明の方法の応用に関 する手順には以下が含まれる。 1.前記の通り、システムの状態と作用を実行している本体が行う作用のデータ ベースを作成する。必要であれば、連続量の属性を離散状の属性に変換するため の周知の方法を使用する。 2.個々の状態/作用の集合がデータ行列上のN個の対象(行)の一つに対応し、 個々の状態の種類の側面や作用の種類が、データ行列上の一つの属性(列)に対 応するように、総体的または部分的にデータベースを表示する。 3.上記の基本的方法または本明細書表記の他の態様をデータ行列に適用する。 4.検出された相関のあるk項数の属性を以下に指向する。 ●グラフィカルビューアーもしくはプリンター、または ●意志決定者に対する報告書もしくはレポート作成システム、または、 ●意志決定のための基盤として検出された相関を用いる別のコンピュータープロ グラム(例えば、事象に基づく推論パッケージ(a case-based reasoning packag e)等)、または、 ●データベース上で変換もしくは最適化を実施する別のコンピュータープログラ ム。 本明細書記載の原理のこの応用は、作用を実施する本体の傾向に洞察を与える 、相関した状態/作用の一覧表を提供し利用する。もし例えば現在の状態などの 、一つのシステムの状態のみに興味があるとすれば(またはある状態の少数の側 面にのみに)、その状態を伴うある側面の集合を共有しないすべての相関の結果 を選択できる。得られた集合は、興味の側面に反応してとられた作用の間の相関 を表す可能性がある。作用を実施する本体の方法への得られた洞察は、次の意志 決定に利用することができる。先条件の変数および後条件の変数を伴うデータベースへ応用した場合の本明細書 記載の原理の説明 データベースの形態において、先述の制限により本明細書の別の場所で記載さ れた態様の入力の必要条件に従うことが強制される。この文脈上でのM個の行は 先条件および後条件の例または組み合わせである(ともに見るとこれらの行を状 態間のシステムの推移(transition)であると考えることができる。)N個の列は 椎移の前と後のシステムの状態を定義する状態の変数の集合から成り立っている (表15参照)。 表15のセル[i,j]内の値は、推移(transition)の前または後のいずれかの状態 変数jの測定値の暗号である。 あらゆる領域上で本発明を応用する前に、幾つかの考えるべき点がある。状態 の変数の集合は定義されなければならない。これは、領域そのものにおける当業 者に任される。 推移の程度を定義する時間の量の選択もまた、同等に重要である。これもまた 自身の経験と、抽出したい情報の種類に基づいて決定する当業者に任される。い くつかの最小の程度が、このようはデータを集める複雑さまたはこのようなデー タの有効性の限界のいずれかにより、賦課されていると仮定される。この状況に おいて、先条件と後条件の間の時間であるこの最小の程度の複数を選択できる。 少なくとも、時間のこの隔たりはシステムがこの状態を変化させるのに十分に長 くなければならない。 本発明の応用の可能性のある領域には、経済および財政政策、株式市場の予測 、運動選手の人材スカウトや天候パターンが含まれる。本発明の方法の詳細を適 合させるために、どのようにこれらの問題を整理するかを示すために、それぞれ の簡単な説明を以下に示す。 経済および財政政策の領域においては、状態が経済指標(インフレ率や利率、 住宅着工やGDP等)の集合である場合の、状態の集合のデータベースを提案する 。データベースの各行は、固定した時間の量により分割された二つのこのような 状態(システムの先条件および後条件)を含んでいなければならない。本発明の 方法で検出された相関は、経済における循環への洞察を与える。株式市場の予測 では、他に対して影響をもつと考えられる株の集合(大きなものを仮定)を提案 する。固定された時間の区分が椎移に対して選択されたことを復唱する。このデ ータベースの行は、選択した期間のこれらの株の椎移を示す。本発明の結果は、 この期間中、どの株の集合が相関のある様式で「動いた」かを示す。 運動選手のスカウト(例えば、若い選手のドラフト前のプロチームによるもの 等)はこの様は選択の経緯の検査を含んでいるかもしれない。データ行列の各行 は個々の選手に関係する。先条件の状態は、プロのレベルでの将来の活躍を示唆 するものであると考えられる統計(そしてその選手について入手可能な他の全て の情報)の選択である。後条件の状態はプロのレベルでのその選手の成功を計る ことを意図した変数の集合である。本発明のより検出された相関は、チームが選 択を行うための将来の成功の指標の最善の集合をみつけることに役立つ。この場 合、先条件および後条件は全く同一の形式ある必要はない。状態の表示が等しい ことを強制するような、意図的な制限はない。 天気予測は、本発明の非常に簡易な応用である。本明細書において選択した時 間の量の程度は、利用者が検出したいと願う種の情報のみに基づく。換言すると 、時間量は望まれた予測の程度を決定する。もし、1日を選んだ場合、この方法 によって検出された相関は1日先の天気(現在の天気を表す個々の先条件の変数 に対する値の集合があるとすると)を予測することに役立つ。もし、一週間(ま たは一ヶ月等)を選んだ場合は、これは将来にむけての予測のどれほどが拡張す るかである。 一般的に、この発明の好ましい態様では、将来の状態を予測するものとして、 どのように現在のシステムの状況が働くかについての情報を抽出するためにこの 形態でのデータベース上で本発明の方法を用いる。確率統計学的に連結した状態 とシステム間のデータ相関があれば、効果的な予測をシステムの行動について行 うことができる。 先条件と作用の変数を含むデータベースへの本発明の応用に関する手順には以 下のものが含まれる。 1.システムの状態が、前述のように選択された時間量の間、状態の変数によっ て表記されたシステム状態間の推移のデータベースを作成する。必要があれば、 いずれの連続した値の状態の変数を、状態の変数に変換するための周知の方法を 使用する。 2.状態変化に対する各状態が態様のデータ行列上のM個の対象(行)の一つに対 応し、各状態の変数がデータ行列の一つの属性(列)に対応するように、総体的 または部分的にこのデータベースを表示する。 3.基本方法またはここで記載された態様をデータ行列に応用する。 4.検出された相関のk項数の属性を以下に指向する。 ●グラフィカルビューアーもしくはプリンター、または ●意志決定者に対する報告もしくはレポート作成システム、または、 ●決定を行うための基盤として、検出された相関を使用する別のコンピューター プログラム(例えば、事象に基づく推論パッケージ等)、または、 ●データベース上の変換もしくは最適化を実施する別のコンピュータープログラ ム。作用の変数および後条件の変数を伴うデータベースへの本明細書記載の原理の応 ここではまた、データベースの形態についての先述の規制が、本明細書の別の 場所で記載された態様の入力の必要条件に従うことを強制する。この文脈中のM 個の行は、作用と後条件の選択されたすべての集合である。N個の列は推移の前 後で のシステムの状態を定義する状態の変数の集合で構成されている(表16参照)。 表16の行はシステムに適応された作用、それらの結果としてのシステムの状態 の観察された例または仮説的な組み合わせに対応する。列はシステムに適用でき る可能な作用または個々の状態の表記の変数のいずれかに対応する。列pがデー タベース上の作用の一種類に対応する場合、表16のセル[i,p]の値は、とられた 作用の暗号である。もし列jが、システムの状態の幾つかの側面を示すために使 われた列であるなら、表16のセル[i,j]の値は、その側面の測定値の暗号である 。 先の例で引用したように、この種のデータベースへの本発明の方法の応用に先 立って、なされなければならない決定には、時間のある点でのシステムの状態を 貯蔵するために使用される状態の変数の選択、および後条件から作用を一時的に 分けるために使われる時間量の選択が含まれる。これらの選択は、応用の領域の 当業者に任される。選択された時間量は、ほとんどの通常の場合、作用がシステ ムの状態に何らかの効果を及ぼすのに十分長くなければならない。 この発明の可能な利用には、ホッケーにおける選手管理や薬物の相互作用の研 究のような大きく変化する分野などが含まれる。 本明細書の目的のため、ホッケーにおける選手管理は、これらの選手の経緯の 知識があるとすると、氷上での次の出番に対する選手の選択のみに関わる。この 場合の作用の変数は、次の出番に選手が選ばれるかどうかを示す二進値であり、 一方、後条件の変数は、ホッケーの領域内の結果の集合を示す(その出番での相 対的点数、宣言されたペナルティー(罰則)、ペナルティーの長さ、放たれたシ ョットの相対数など)。問題の定式化により、本発明により検出された発見が、 選抜された選手と次の出番での結果の集合の間の相関を示すことは明らかである 。前もって、敵の選手がわかっている場合には、これらの選手を作用の変数に付 け加えることができる。この場合、味方と敵チーム双方の選手と結果の集合間の 相関が得られる。この知識がある場合、本発明は、コーチが有益な結果を非常に 出しそうな選手を選抜することを補助するものとして役立つ。 薬物相互作用の研究は、この発明に当然適合する。ここでは作用の変数を、あ る患者に薬物、または、薬物の組み合わせを投与してきたかどうかを示す二進値 とする。後条件の変数は、患者により報告された副作用の一覧表を示す。本発明 により検出された結果は、患者に与えられた薬物と副作用の集合間の、統計学的 に連結した相関を示す。この様に、本発明の方法は薬物使用上の配合禁忌を決定 するために使用することができるが、おそらくは後続の研究が重点を置く相互作 用の集合の選抜の方法として最適である。 作用と後条件の変数を含むデータベースへの本研究の応用に関する手順には以 下が含まれる。 1.前記の通り、選択した時間量の間のシステムの状態と作用との間の推移のデ ータベースを作成し、そこではシステムの状態は状態の変数の値により表記され 、作用は作用の種類の値により表記されるものとする。必要があれば、連続した 値の状態の変数、および作用の種類を離散状の変数、ならびに作用の種類に変換 するための周知の方法を用いる。 2.各作用集合/状態集合対が態様のデータ行列上のM個の対象(行)の一つに対 応し、各状態の変数がデータ行列の一つの属性(列)に対応するように、総体的 または部分的にこのデータベースを表示する。 3.基本方法または本明細書に記載された態様をデータ行列に応用する。 4.検出された相関のk項数の属性を以下のものに指向する。 ●グラフィカルビューアーもしくはプリンター、または ●意志決定者に対する報告もしくはレポート作成システム、または、 ●決定を行うための基盤として、検出された相関を使用する別のコンピューター プログラム(例えば、事象に基づく推論パッケージ)、または、 ●データベース上の変換もしくは最適化を実施する別のコンピュータープログラ ム。先条件の変数、作用の変数、および後条件の変数を伴うデータベースへの本明細 書記載の原理の応用の説明 ここではまた、データベースの形態についての先述の規制が、本明細書の別の 場所で記載された態様の入力の必要条件に従うことを強制する。この応用におけ るのM個の行は先条件、作用と後条件の選択された全ての集合である。N個の列は 推移の前後でのシステムの状態を定義する状態の変数の集合、および暗号化され た作用の種類で構成されている(表17参照)。 表17の行は、先条件、とられた作用、および結果として得られた後条件の例、 または組み合わせを示している。列は、領域上の可能な作用の種類および領域上 のある状態に対する側面に対応する(先および後条件の列の両方に対して)。も し、列pがデータベース上の作用の一種類に対応する場合、表17のセル[j,p]の 値は、とられた作用の暗号である。もし列pが、先条件または後条件のいずれか の側面を特定するために使われるなら、表のセル[j,i]の値は、その側面の測定 値の暗号である。 前述の例で述べられたように、この種のデータベースへの本発明の方法の応用 に先んじてなされなければならない決定には、ある時点でのシステムの状態を貯 蔵するために利用された状態変数の選択、および後条件から作用を一時的に区別 するために用いられた時間量の選択が含まれる。この場合、先条件および後条件 が等しい(変数の選択に関連して)必要がないことを述べるべきである。これら の選択は、応用の領域の当業者に任される。選択された時間量は、例えば作用が システムの状態になんらかの影響を与えるだけ十分長くなければならない。 本発明の可能な利用には、経済政策、犯罪に対する行動、および軍事戦略が含 まれる。 経済の状態を定義するための変数の集合(利率、インフレ、GNP等)および統治 する団体の経済政策(政府債の発行および買い戻し)の一部としてとられる作用 の集合があるとすれば、その形態の経済事象、つまり現存する経済状態、実施さ れた財政政策の手段、政策決定に続く経済状態のデータベースが作成される。本 発明の方法により検出された相関は、ある経済状態下で経済政策決定の有効性の 尺度を提供する。このような知識は、それが決定のある集団への経緯的な援助( または欠落した)を示すので、経済政策を決定する際に有益であるかもしれない 。 同様な調子で、犯罪対策の設置に助力するための本発明の使用は地域社会の犯 罪の過去の状態、実施された政策手段、およびその結果としての地域社会内の犯 罪の状態のデータベースを作成することから始まる。状態の変数には、異なる種 の犯罪率(強盗や自動車盗難等)、犯罪の異なった性質(例えば、ピストルが使 われたかどうか)等が含まれる。この場合の作用の変数には、様々な犯罪に対し て最小に判決する指針や、「スリーストライク(three-strike)」法、死刑の適 用、および教育および精神的健康のための資金集めなどが含まれる。このような データベース上で、本発明は現存の犯罪状況、政策決定やこれらの決定の結果に 関連する相関を検出することもある。これらの相関はこれらの決定を行うことに 責任を持つ人々への非常に貴重な助けになることが判明することが考えられる。 意志決定者の概念は、軍事戦略の領域においての注意深い考慮を必要とする。 陸軍大将の意志決定の十分な経緯を伴うデータベースを埋めるための「実績」が 十分ない場合ももっともである。このような場合、好ましい実行は意志決定者の 概念を拡張して、全ての類似の意志決定者を含むことができる。一例として、戦 車師団を管轄する一人の陸軍大将を考えてみる。もし、陸軍大将が最近昇進した なら、同様の義務をもつこのような全ての将軍の全経緯を考えることは賢明であ る。この方法の使用の程度を更に拡大するため、データベースを一人の中佐の決 定よりはむしろ、歩兵中佐によりなされた決定で埋めることができる。検出され た相関は、陸軍大将が決定を行った際、直面した戦場の状況の測定値があるとす ると、その階級の将軍の傾向を示す可能性がある。同様に、決定の集合の結果に アクセスするので、陸軍大将らがどの戦況を稚拙に扱ったかを決める立場にいる かもしれない。このような知識は、抵抗戦略の選択に極めて重大であることが判 明するかもしれない。 先条件、作用および後条件の変数を含むデータベースへの本研究を応用に関す る手順には以下が含まれる。 1.前記の通り、選択した時間量を包含する状態と作用のデータベースを作成す る。必要があれば、連続した値の状態の変数および作用の種類を、離散状の変数 および作用の種類に変換するための周知の方法を用いる。 2.各状態/作用/状態の三重がデータ行列上のM個の対象(行)の一つに対応し 、各状態の変数または作用の種類がデータ行列の一属性(列)に対応するように 、総体的または部分的にこのデータベースを表示する。 3.基本方法またはここで記載された態様をデータ行列に応用する。 4.検出された相関するk項数の属性を以下のものに指向する。 ●グラフィカルビューアーもしくはプリンター、または ●意志決定者に対する報告もしくはレポート作成システム、または、 ●決定を行うための基盤として、検出された相関を使用する別のコンピューター プログラム(例えば、事象に基づく推論パッケージ)、または、 ●データベース上の変換もしくは最適化を実施する別のコンピュータープログラ ム。 この説明が好ましい態様を参照して実施され、本明細書に添付のAからEの付録 に続いているページは、この説明の一部を形成する付録であり、この請求により 定義されるような意図および範囲内に納まる発明の原理を実施する他の態様の作 成が可能であることは、当業者に理解されるであろう。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G01N 33/68 G06F 17/30 350A G06F 17/30 350 A61K 37/02 (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(GH,GM,KE,LS,M W,SD,SZ,UG,ZW),EA(AM,AZ,BY ,KG,KZ,MD,RU,TJ,TM),AL,AM ,AT,AU,AZ,BA,BB,BG,BR,BY, CA,CH,CN,CU,CZ,DE,DK,EE,E S,FI,GB,GE,GH,GM,GW,HU,ID ,IL,IS,JP,KE,KG,KP,KR,KZ, LC,LK,LR,LS,LT,LU,LV,MD,M G,MK,MN,MW,MX,NO,NZ,PL,PT ,RO,RU,SD,SE,SG,SI,SK,SL, TJ,TM,TR,TT,UA,UG,US,UZ,V N,YU,ZW

Claims (1)

  1. 【特許請求の範囲】 1.多数の属性を有するデータセットとともに用いるための一致検出法であって 、下記の段階を含む方法: ・対象がある属性を有する場合にその属性が対象において出現すると呼ばれる、 NA個の変数(「属性」)を項とするM個の対象の集合の表示、 ・あらかじめ決定された数の反復における各反復に関する、M個の対象からのri 個の部分集合のサンプリング、 ・一致がサンプリングされた部分集合におけるri個の対象のうち同じhi個におけ る1≦k≦NA個の属性の同時出現であって、0≦hi≦riである、サンプリングされ た対象の部分集合のそれぞれにおけるk個の属性の集合間での一致の検出および 記録、 ・決定がサンプリングおよび収集の前、同時またはサンプリングおよび収集の後 に行われる、上記のk個の属性の任意の集合ならびにあらかじめ決定された数の サンプリングおよび一致計数の反復に関する一致の期待数の決定、 ・k個の属性の任意の集合ならびにサンプリングおよび一致計数の反復回数に関 する一致の観測値と期待数との比較、ならびにこの比較によるk個の属性の集合 に関する相関(または結合もしくは依存)の程度の決定、ならびに ・k項数の相関属性が、選択された相関の程度に関してあらかじめ決定された閾 値を上回る値を持つことがこの過程によって決定されたNA個の属性のkの集合で ある、k項数の相関属性の集合の報告。 2.多数の属性を有する対象のデータセットとともに用いるための一致検出法で あって、下記の段階を含む方法: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセットの 部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記 録の前、同時または後に行われる、データセットのサンプリングされた各部分集 合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告。 3.観測数と期待数との比較が尾部確率に関するチャーノフ境界を用いて計算さ れる、請求項2記載の一致検出法。 4.数がサンプリングされた部分集合のすべてにわたって各一致の数の連続的な 合計を保存することによって記録される、請求項2記載の一致検出法。 5.多数の属性を有する対象のデータセットの視覚的表示のための方法であって 、下記の段階を含む方法: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセットの 部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の、グラフィカル イン ターフェースを通じてのユーザーに対する報告。 6.多数の属性を有する対象のデータセットの高次相互作用を捕捉してデータモ デル化ユニットに報告するための、データモデル化ユニットとともに用いるため の予備処理の方法であって、下記の段階を含む方法: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセットの 部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の、データモデル 化ユニットへの報告。 7.多数の属性を有する対象のデータセットとともに用いるための相関消去の方 法であって、下記の段階を含む方法: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセットの 部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記 録の前、同時または後に行われる、データセットのサンプリングされた各部分集 合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の消去。 8.対象が、各トランザクションが1つまたは複数の購入された製品を含む販売 トランザクションであって、属性が特定の製品または特定の種類の製品の販売の 事例である、請求項2記載の方法。 9.対象が時間刻みであって属性がシステムにおける要素の状態である、請求項 2記載の方法。 10.対象が時間刻みであって属性が金融証書または商晶の価格または価格の変動 である、請求項2記載の方法。 11.方法の段階が以下の疑似コードによって表現される請求項2記載の方法: 0.begin 1.read(MATRIX); 2.read(R,T); 3.compute_first_order_marginals(MATRIX); 4.csets:={}; 5.for iter=l to T do 6.sampled_rows:=rsample(R,MATRIX): 7.attributes:=get_attributes(sampled_rows); 8.all_coincidences:=find_all_coincidences(attributes); 9.for coincidence in all_coincidences do 10.if cset_already_exists(coincidence,csets) 11.then update_cset(coincidence,csets); 12.else add_new_cset(coincidence,csets); 13.endif 14.endfor 15.endfor 16.for cset in csets do 17.expected:=compute_expected_match_count(cset); 18.observed:=get_observed_match_count(cset); 19.stats:=update_stats(cset,hypoth_test(expected,observed)); 20.endfor 21.print_final_stats(csets,stats); 22.end。 12.各対象が多数の属性を有する、対象のデータセットとともに用いるための一 致検出システムであって、下記の手段を含むシステム: ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性の 同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセットの 部分集合のサンプリングのための手段、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録のための手段、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定のための手段、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定のための手段、ならび に ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告のための手 段。 13.集合体(aggregate)におけるシステムの手段が以下の疑似コードによって 表 現される方法を実施する、請求項12記載の一致検出システム: 0.begin 1.read(MATRIX); 2.read(R,T); 3.compute_first_order_marginals(MATRIX); 4.csets:={}; 5.for iter=l to T do 6.sampled_rows:=rsample(R,MATRIX): 7.attributes:=get_attributes(sampled_rows); 8.all_coincidences:=find_all_coincidences(attributes); 9.for_coincidence in all_coincidences do 10.if cset_already-exists(coincidence,csets) 11.the nupdate_cset(coincidence,csets); 12.else add_new_cset(coincidence,csets); 13.endif 14.endfor 15.endfor 16.for cset in csets do 17.expected:=compute_expected_match_count(cset); 18.observed:=get_observed_match_count(cset); 19.stats:=update_stats(cset,hypoth_test(expected,observed)); 20.endfor 21.print_final_stats(csets,stats); 22.end。 14.データセットの部分集合のサンプリングのための手段がデータセットを分割 してサンプリング用の部分集合にするための手段を含む、請求項12記載の一致検 出システム。 15.一致の検出および数の記録のための手段が、それぞれのプロセッシングノー ドが一致の検出および各サブカウントの記録をするプロセッシングノードのアレ イを含むことができ、関心対象の各一致に関して該一致の観測数と前記一致の期 待数とを比較するための手段が、該サブカウントをマージして該観測数を提供す るための手段を含む、請求項14記載の一致検出システム。 16.プロセッシングノードの少なくとも1つがそれぞれの一致のサブサブカウン トを検出および記録するそれぞれのプロセッシングノードのサブアレイを含み、 マージのための手段が該サブサブカウントをマージしてサブカウントおよび/ま たは観測数を提供する、請求項15記載の一致検出システム。 17.各プロセッシングソードが、データセットの受け取られた部分集合を保存す るための入力バッファーおよびサブカウントまたはサブサブカウントを保存する ための出力バッファーを含むメモリ、ならびにメモリとの間でデータをやり取り するメモリバスを含む、請求項15または16記載の一致検出システム。 18.コンピュータと、対象対属性の行列の形式で表現された多数の属性を有する 対象のデータセットと共に用いるための一致検出プログラム媒体であって、 そのコンピュータと互換性がある保存媒体上に保存されたコンピュータプロ グラムであって、 ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性 の同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセット の部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数 の対象における複数の属性値の同時出現であって、複数の属性値が各出現に関し て同一であって、データセットのサンプリングされた各部分集合における一致の 検出および数の記録が他の部分集合における一致のサンプリング、検出および数 の記録の前、同時または後に行われる、データセットのサンプリングされた各部 分集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の 各一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこ の比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定 さ れた閾値を上回る複数の属性である、k項数の相関属性の報告 のためにコンピュータを指向させる指示を含むコンピュータプログラムを含む 媒体。 19.多数の属性を有する対象のデータセットとともに用いるための一致検出シス テムであって、 コンピュータ、ならびに そのコンピュータと互換性のある媒体上のコンピュータプログラムであって、 ・各反復でデータセットのサンプリングされた部分集合が各対象に関して属性 の同じ部分集合を有する、あらかじめ決定された数の反復にわたるデータセット の部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数 の対象における複数の属性値の同時出現であって、複数の属性値が各出現に関し て同一であって、データセットのサンプリングされた各部分集合における一致の 検出および数の記録が他の部分集合における一致のサンプリング、検出および数 の記録の前、同時または後に行われる、データセットのサンプリングされた各部 分集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の 各一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこ の比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定 された閾値を上回る複数の属性である、k項数の相関属性の集合の報告 のためにコンピュータを指向させるコンピュータプログラム を含むシステム。 20.データセットのサンプリングの前に、データセットがその行列のサンプリン グによってサンプリングされる、対象と属性からなる行列の形で対象および属性 を提示する段階をさらに含む、請求項2記載の一致検出法。 21.・各反復でデータセットのサンプリングされた部分集合が、各対象に関して 属性の同じ部分集合を有する、あらかじめ決定された数の反復に関する対象対属 性を表現するデータセットの部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告 によって選択される属性の集合を有する製品。 22.・各反復でデータセットのサンプリングされた部分集合が各対象に関して属 性の同じ部分集合を有する、あらかじめ決定された数の反復に関する対象対属性 を表現するデータセットの部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告 によって生成される一組の規則を適用するこによって規定される製品。 23.・請求項2記載の方法、および ・報告された相関属性によって規定される規則の適用 の段階をさらに含む方法。 24.残基A18/Q31/H33の空間座標を含むHIVエンベロープ蛋白質のV3ループの構造 モチーフを含むペプチドまたは疑似ペプチド。 25.請求項2の方法を用いて同定される構造モチーフを有する蛋白質と相互作用 するリガンドと、その薬学的に許容される担体または賦形剤とを含む薬学的組成 物。 26.リガンドが、適した実体を有し且つその成分が対応するモチーフの残基また は部分と相互作用するような位置に互いにある化学的成分を含む、請求項25記載 の薬学的組成物。 27.リガンドがモチーフとの相互作用によってモチーフを含む蛋白質の領域の機 能を妨げる、請求項26記載の薬学的組成物。 28.請求項2記載の方法を用いて同定される構造モチーフを有する蛋白質と相互 作用するリガンド、およびそのリガンドと結合した検出可能な標識を含む診断薬 。 29.残基A18/Q31/H33の空間座標を有するV3ループの構造モチーフを含むエンベ ロープ蛋白質であって、該モチーフと相互作用する官能基を少なくとも1つ含む リガンドとその薬学的に許容される担体または賦形剤とを含む、ヒト免疫不全ウ イルス(HIV)のエンベロープ蛋白質と相互作用する薬学的組成物。 30.リガンドが、残基18との結合能を有していて前記リガンド中の残基18との結 合のための有効部分に存在する少なくとも1つの官能基、残基31との結合能を有 していて前記リガンド中の残基31との結合のための有効部分に存在する少なくと も1つの官能基、および残基33との結合能を有していて前記リガンド中の残基33 との結合のための有効部分に存在する少なくとも1つの官能基を含む、請求項29 記載の薬学的組成物。 31.ヒト免疫不全ウイルス(HIV)のエンベロープ蛋白質の構造モチーフと相互 作用するリガンドを設計する方法であって、HIVエンベロープ蛋白質のV3ループ 内の残基A18、Q31およびH33の空間座標を有するテンプレートの提供、ならびに 空間的 拘束を有する有効なアルゴリズムを用いての化学的リガンドの計算的な展開(ev olving)であって該展開されたリガンドがモチーフと結合する官能基を少なくと も1つ含むような展開の段階を含む方法。 32.リガンドが、残基18との結合能を有していて前記リガンド中の残基18との結 合のための有効部分に存在する少なくとも1つの官能基、残基31との結合能を有 していて前記リガンド中の残基31との結合のための有効部分に存在する少なくと も1つの官能基、および残基33との結合能を有していて前記リガンド中の残基33 との結合のための有効部分に存在する少なくとも1つの官能基を含む、請求項31 記載の方法。 33.ヒト免疫不全ウイルス(HIV)のエンベロープ蛋白質の構造モチーフと結合 するリガンドを同定する方法であって、HIVエンベロープ蛋白質のV3ループ内の 残基A18、Q31およびH33の空間座標を有するテンプレートの提供、分子の構造お よび配向性を含むデータベースの提供、ならびにその成分がモチーフと相互作用 するように互いに対して配置された有効成分を該分子が含むかどうかを決定する ための該分子のスクリーニングの段階を含む方法。 34.分子の第1の成分が残基18と相互作用し、分子の第2の成分が残基31と相互作 用し、分子の第3の成分が残基33と相互作用する、請求項33記載の方法。 35.本明細書に記載される共変するk項数を具現化した抗原およびワクチン。 36.・各反復でデータセットのサンプリングされた部分集合が各対象に関して属 性の同じ部分集合を有する、あらかじめ決定された数の反復に関する対象対属性 を表現するデータセットの部分集合のサンプリング、 ・一致がデータセットのサンプリングされた部分集合における1つまたは複数の 対象における複数の属性値の同時出現であって、複数の属性値が各出現に関して 同一であって、データセットのサンプリングされた各部分集合における一致の検 出および数の記録が他の部分集合における一致のサンプリング、検出および数の 記録の前、同時または後に行われる、データセットのサンプリングされた各部分 集合における一致の検出および数の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れた閾値を上回る複数の属性である、k項数の相関属性の集合の報告 によって選択される一組の属性との相互作用によって規定される製品。 37.対象が化合物であって属性が特定の化学成分を含む、請求項2記載の方法。 38.対象がペプチドまたは蛋白質であって属性がモチーフの特定の構造または下 部構造のパターンを含む、請求項2記載の方法。 39.対象が化合物、分子構造、ヌクレオチド配列およびアミノ酸配列からなる群 より選択され、属性が選択された対象の特徴である、請求項2記載の方法。 40.対象が時間刻みであって属性が遺伝子または遺伝子産物の生物的パラメータ 一である、請求項2記載の方法。 41.対象が電子的に保存されるおよび/または電子的に索引が付けられた(inde xed)文書であって属性が題目である、請求項2記載の方法。 42.対象が消費者であって属性が該消費者によって購入された、または購入され なかった製品を含む、請求項2記載の方法。 43.属性が、消費者に対して郵送されたこと、またはされなかったことをさらに 含む、請求項42記載の方法。 44.対象が製品を含み、属性がそれらの製品を購入した、または購入しなかった 消費者を含む、請求項2記載の方法。 45.属性が消費者の人口統計変数をさらに含む、請求項44記載の方法。 46.対象が特定の疾患または障害を有する人々であり、属性が疾患または障害に 対する寄与因子の可能性があるものである、請求項2記載の方法。 47.対象が多数の異なる疾患または障害を有する人々であって属性が該疾患また は障害に対する寄与因子の可能性があるものである、請求項2記載の方法。 48.対象が疾患または障害に対する寄与因子の可能性があるものを含み属性がそ れらの因子を持つ人々または持たない人々であって、該疾患または障害に対する 実質的に等価なリスクを持つ人々の群を関連づける、請求項2記載の方法。 49.対象が時間刻みであって属性がシステムの故障前の時間刻みでのシステム内 の要素の状態を含み、システムの故障を潜在的に引き起こしうる要素の状態を関 連づける、請求項2記載の方法。 50.riがすべての反復に関して同一である、請求項1記載の一致検出法。 51.第1に、システム状態が選択された時間量にわたる状態変数の値によって提 示されるシステム状態間の移行のデータベースを作成する段階、および各状態か ら状態への移行の集合がM個の対象の一つに対応し、このため各状態変数がある 属性に対応するようなデータセットとして全体的または部分的にデータベースを 提示する段階をさらに含む、請求項2記載の方法。 52.第1に、選択された時間量にわたる状態および作用のデータベースを作成す る段階、および各状態/作用/状態の3つ組がM個の対象の一つに対応し、このた め各状態変数または作用のタイプがある属性に対応するようなデータセットとし て全体的または部分的にデータベースを提示する段階をさらに含む、請求項2記 載の方法。 53.対象対属性という行列の形式で表現された多数の属性を有する対象のデータ セットとともに用いるための一致検出法であって、下記の段階を含む方法: ・各反復で行列のサンプリングされた部分集合が各対象に関して属性の同じ部分 集合を有する、あらかじめ決定された数の反復にわたる行列の部分集合のサンプ リング、 ・一致が行列のサンプリングされた部分集合における1つまたは複数の対象にお ける複数の属性値の同時出現であって、複数の属性値が各出現に関して同一であ って、サンプリングされた各部分集合における一致の検出および数の記録が他の 部分集合における一致のサンプリング、検出および数の記録の前、同時または後 に行われる、行列のサンプリングされた各部分集合における一致の検出および数 の記録、 ・サンプリング、検出および記録の前、同時または後に行われる、関心対象の各 一致に関する期待数の決定、 ・関心対象の各一致に関する一致の観測数と一致の期待数との比較、およびこの 比較による、一致に関する複数の属性の相関の程度の決定、ならびに ・k項数の相関属性が、それに関する相関の程度がそれぞれにあらかじめ決定さ れ た閾値を上回る複数の属性である、k項数の相関属性の集合の報告。 54.数値的相関値がk項数の相関属性の集合とともに報告される、請求項1記載の 方法。
JP54459998A 1997-03-24 1998-03-23 一致検出の方法、製品および装置 Withdrawn JP2001519070A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US4147297P 1997-03-24 1997-03-24
US60/041,472 1997-03-24
PCT/CA1998/000273 WO1998043182A1 (en) 1997-03-24 1998-03-23 Coincidence detection method, products and apparatus

Publications (2)

Publication Number Publication Date
JP2001519070A true JP2001519070A (ja) 2001-10-16
JP2001519070A5 JP2001519070A5 (ja) 2005-11-10

Family

ID=21916696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54459998A Withdrawn JP2001519070A (ja) 1997-03-24 1998-03-23 一致検出の方法、製品および装置

Country Status (7)

Country Link
US (2) US6493637B1 (ja)
EP (1) EP0968477A1 (ja)
JP (1) JP2001519070A (ja)
AU (1) AU6816998A (ja)
CA (1) CA2285058C (ja)
IL (1) IL131843A (ja)
WO (1) WO1998043182A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004095021A1 (ja) * 2003-04-23 2004-11-04 Eisai Co. Ltd. 疾患予後モデルの作成方法、このモデルを用いた疾患予後予測方法、このモデルによる予後予測装置、ならびにそのプログラム・記憶媒体
US20230053344A1 (en) * 2020-02-21 2023-02-23 Nec Corporation Scenario generation apparatus, scenario generation method, and computer-readablerecording medium

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
AU2002301721B2 (en) * 1997-03-24 2006-05-18 Queen's University At Kingston Coincidence detection method, products and apparatus
US6654761B2 (en) * 1998-07-29 2003-11-25 Inxight Software, Inc. Controlling which part of data defining a node-link structure is in memory
US7769620B1 (en) 1998-09-01 2010-08-03 Dennis Fernandez Adaptive direct transaction for networked client group
CA2360347C (en) 1998-12-31 2013-05-07 Chiron Corporation Improved expression of hiv polypeptides and production of virus-like particles
WO2000039304A2 (en) 1998-12-31 2000-07-06 Chiron Corporation Polynucleotides encoding antigenic hiv type c polypeptides, polypeptides and uses thereof
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US6532458B1 (en) * 1999-03-15 2003-03-11 Microsoft Corporation Sampling for database systems
GB2351572B (en) * 1999-06-26 2002-02-06 Univ York Data procesors
US6721719B1 (en) * 1999-07-26 2004-04-13 International Business Machines Corporation System and method for classification using time sequences
US6912508B1 (en) * 1999-08-16 2005-06-28 American Management Systems, Inc. Method and apparatus for promoting taxpayer compliance
US6735580B1 (en) * 1999-08-26 2004-05-11 Westport Financial Llc Artificial neural network based universal time series
US7424439B1 (en) * 1999-09-22 2008-09-09 Microsoft Corporation Data mining for managing marketing resources
US20020052858A1 (en) * 1999-10-31 2002-05-02 Insyst Ltd. Method and tool for data mining in automatic decision making systems
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
EP1252596A2 (en) * 2000-01-25 2002-10-30 Cellomics, Inc. Method and system for automated inference of physico-chemical interaction knowledge
CA2396495A1 (en) 2000-01-25 2001-08-02 Cellomics, Inc. Method and system for automated inference creation of physico-chemical interaction knowledge from databases of co-occurrence data
SE516343C2 (sv) * 2000-02-22 2001-12-17 Johan Trygg Metod och anordning för kalibrering av indata
US7428554B1 (en) * 2000-05-23 2008-09-23 Ocimum Biosolutions, Inc. System and method for determining matching patterns within gene expression data
GB0013010D0 (en) * 2000-05-26 2000-07-19 Ncr Int Inc Method and apparatus for predicting whether a specified event will occur after a specified trigger event has occurred
ATE406627T1 (de) * 2000-06-19 2008-09-15 Correlogic Systems Inc Heuristisches klassifikationsverfahren
US7020587B1 (en) * 2000-06-30 2006-03-28 Microsoft Corporation Method and apparatus for generating and managing a language model data structure
US7085726B1 (en) * 2000-11-01 2006-08-01 Ita Software, Inc. Robustness and notifications in travel planning system
US20020133498A1 (en) * 2001-01-17 2002-09-19 Keefer Christopher E. Methods, systems and computer program products for identifying conditional associations among features in samples
JP2002259889A (ja) * 2001-03-01 2002-09-13 Toshiba Corp ダイレクトメール発送支援システム
AU2002234853A1 (en) * 2001-03-07 2002-09-19 Sheer Networks Inc. Method for correlating behavior between two elements of a system to determine the presence of mutual interaction between the elements
MXPA02011835A (es) * 2001-03-29 2003-10-06 Matsushita Electric Industrial Co Ltd Sistema de proteccion de datos que proteje datos al encriptar los datos.
FR2825168A1 (fr) * 2001-05-23 2002-11-29 France Telecom Procede de discretisation d'attributs d'une base de donnees
EP2412242A3 (en) 2001-07-05 2012-06-13 Novartis Vaccines and Diagnostics, Inc. Polynucleotides encoding antigenic HIV Type C polypeptides, polypeptides and uses thereof
US20030170614A1 (en) 2001-08-31 2003-09-11 Megede Jan Zur Polynucleotides encoding antigenic HIV type B polypeptides, polypeptides and uses thereof
WO2003042857A1 (en) * 2001-11-01 2003-05-22 Gene Network Sciences, Inc. Network ingerence methods
US6810333B2 (en) * 2002-02-12 2004-10-26 General Electric Company Method, system, storage medium, and data signal for supplying a multi-component composition
US7441194B2 (en) * 2002-02-20 2008-10-21 Microsoft Corporation Calendar-based user interface system
US7370021B2 (en) * 2002-03-15 2008-05-06 Pacific Edge Biotechnology Ltd. Medical applications of adaptive learning systems using gene expression data
US7046248B1 (en) 2002-03-18 2006-05-16 Perttunen Cary D Graphical representation of financial information
WO2003091421A2 (en) * 2002-03-25 2003-11-06 University Of North Carolina At Charlotte Methods and systems for the prediction of the biological function of biopolymers
AU2003268031A1 (en) * 2002-07-29 2004-02-16 Correlogic Systems, Inc. Quality assurance/quality control for electrospray ionization processes
EP1535042A2 (en) * 2002-08-13 2005-06-01 Discovery Partners International Spotting pattern for placement of compounds in an array
US6993516B2 (en) * 2002-12-26 2006-01-31 International Business Machines Corporation Efficient sampling of a relational database
US20040166940A1 (en) * 2003-02-26 2004-08-26 Rothschild Wayne H. Configuration of gaming machines
US7930301B2 (en) * 2003-03-31 2011-04-19 Microsoft Corporation System and method for searching computer files and returning identified files and associated files
US20050198043A1 (en) * 2003-05-15 2005-09-08 Gruber Harry E. Database masking and privilege for organizations
JP4014160B2 (ja) * 2003-05-30 2007-11-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、プログラム、及び記録媒体
US20040255301A1 (en) * 2003-06-13 2004-12-16 Andrzej Turski Context association schema for computer system architecture
US20050028168A1 (en) * 2003-06-26 2005-02-03 Cezary Marcjan Sharing computer objects with associations
EP1649281A4 (en) * 2003-08-01 2007-11-07 Correlogic Systems Inc MULTIPLE HIGH RESOLUTION PROTEOMIC SERUM FEATURES FOR IDENTIFYING EGG CANCER
US7640232B2 (en) * 2003-10-14 2009-12-29 Aol Llc Search enhancement system with information from a selected source
US7165119B2 (en) * 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter
US7096154B1 (en) * 2003-12-30 2006-08-22 The Mathworks, Inc. System and method for visualizing repetitively structured Markov models
US20050216525A1 (en) * 2004-03-26 2005-09-29 Andre Wachholz-Prill Defining target group for marketing campaign
US7636742B1 (en) 2004-04-01 2009-12-22 Intuit Inc. Automated data retrieval
WO2006025963A2 (en) * 2004-07-16 2006-03-09 New York University Method, system and storage medium which includes instruction for analyzing anatomical structures
US10862994B1 (en) 2006-11-15 2020-12-08 Conviva Inc. Facilitating client decisions
US9549043B1 (en) 2004-07-20 2017-01-17 Conviva Inc. Allocating resources in a content delivery environment
US7860763B1 (en) * 2004-09-07 2010-12-28 Intuit Inc. Proactive tax preparation
US20060089812A1 (en) * 2004-10-25 2006-04-27 Jacquez Geoffrey M System and method for evaluating clustering in case control data
US8974304B2 (en) * 2004-12-22 2015-03-10 Wms Gaming Inc. System, method, and apparatus for detecting abnormal behavior of a wagering game machine
JP2008530555A (ja) * 2005-02-09 2008-08-07 コレロジック システムズ,インコーポレイテッド 細菌及び芽胞の同定
US20060242914A1 (en) * 2005-04-29 2006-11-02 Harbison-Walker Refractories Company Refractory block and refractory wall assembly
US20080312514A1 (en) * 2005-05-12 2008-12-18 Mansfield Brian C Serum Patterns Predictive of Breast Cancer
JP5032477B2 (ja) * 2005-08-19 2012-09-26 フォースウォール・メディア・インコーポレーテッド ユーザに関心を引くアイテムを推奨するシステムおよび方法
US8170889B2 (en) * 2005-09-22 2012-05-01 Ubc Late Stage, Inc. Methods and systems for evaluating interaction of medical products and dependence on demographic variables
US20070143216A1 (en) * 2005-12-16 2007-06-21 Benaloh Josh D Data Signal with a Database and a Compressed Key
EP2025762A3 (en) 2006-01-17 2009-09-30 Health Research Inc. Heteroduplex tracking assay
US7779016B2 (en) * 2006-09-14 2010-08-17 International Business Machines Corporation Parallel execution of operations for a partitioned binary radix tree on a parallel computer
US20080082364A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US10068303B2 (en) * 2006-09-29 2018-09-04 Gearbox Llc Computational systems for biomedical data
US7853626B2 (en) * 2006-09-29 2010-12-14 The Invention Science Fund I, Llc Computational systems for biomedical data
US20080082306A1 (en) * 2006-09-29 2008-04-03 Searete Llc Computational systems for biomedical data
US20080082359A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of State Of Delaware Computational systems for biomedical data
US20080091730A1 (en) * 2006-09-29 2008-04-17 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US20080082584A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US20080082583A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US8122073B2 (en) * 2006-09-29 2012-02-21 The Invention Science Fund I Computational systems for biomedical data
US10503872B2 (en) * 2006-09-29 2019-12-10 Gearbox Llc Computational systems for biomedical data
US20080082271A1 (en) * 2006-09-29 2008-04-03 Searete Llc Computational systems for biomedical data
US10546652B2 (en) * 2006-09-29 2020-01-28 Gearbox Llc Computational systems for biomedical data
US20080109484A1 (en) * 2006-09-29 2008-05-08 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US10095836B2 (en) * 2006-09-29 2018-10-09 Gearbox Llc Computational systems for biomedical data
US20080082367A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US8713582B2 (en) * 2006-10-26 2014-04-29 International Business Machines Corporation Providing policy-based operating system services in an operating system on a computing system
US8656448B2 (en) * 2006-10-26 2014-02-18 International Business Machines Corporation Providing policy-based application services to an application running on a computing system
US8032899B2 (en) 2006-10-26 2011-10-04 International Business Machines Corporation Providing policy-based operating system services in a hypervisor on a computing system
US9264780B1 (en) 2006-11-15 2016-02-16 Conviva Inc. Managing synchronized data requests in a content delivery network
US8874725B1 (en) 2006-11-15 2014-10-28 Conviva Inc. Monitoring the performance of a content player
US9124601B2 (en) 2006-11-15 2015-09-01 Conviva Inc. Data client
US8751605B1 (en) 2006-11-15 2014-06-10 Conviva Inc. Accounting for network traffic
US8874964B1 (en) 2006-11-15 2014-10-28 Conviva Inc. Detecting problems in content distribution
US8489923B1 (en) 2006-11-15 2013-07-16 Conviva Inc. Detecting problems in content distribution
US8290800B2 (en) * 2007-01-30 2012-10-16 Google Inc. Probabilistic inference of site demographics from aggregate user internet usage and source demographic information
US20080228699A1 (en) * 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
WO2008118800A1 (en) 2007-03-23 2008-10-02 Wms Gaming, Inc. Using player information in wagering game environments
US20090024050A1 (en) * 2007-03-30 2009-01-22 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational user-health testing
US8296430B2 (en) 2007-06-18 2012-10-23 International Business Machines Corporation Administering an epoch initiated for remote memory access
US7958274B2 (en) * 2007-06-18 2011-06-07 International Business Machines Corporation Heuristic status polling
CA2691980C (en) 2007-06-29 2022-05-10 Correlogic Systems, Inc. Predictive markers for ovarian cancer
US20090043752A1 (en) * 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
US9065839B2 (en) 2007-10-02 2015-06-23 International Business Machines Corporation Minimally buffered data transfers between nodes in a data communications network
US20090113308A1 (en) * 2007-10-26 2009-04-30 Gheorghe Almasi Administering Communications Schedules for Data Communications Among Compute Nodes in a Data Communications Network of a Parallel Computer
US8204840B2 (en) * 2007-11-09 2012-06-19 Ebay Inc. Global conduct score and attribute data utilization pertaining to commercial transactions and page views
US7984450B2 (en) * 2007-11-28 2011-07-19 International Business Machines Corporation Dispatching packets on a global combining network of a parallel computer
US8046324B2 (en) 2007-11-30 2011-10-25 Ebay Inc. Graph pattern recognition interface
US20090249046A1 (en) * 2008-03-31 2009-10-01 Mips Technologies, Inc. Apparatus and method for low overhead correlation of multi-processor trace information
US8230202B2 (en) * 2008-03-31 2012-07-24 Mips Technologies, Inc. Apparatus and method for condensing trace information in a multi-processor system
US10699297B2 (en) * 2008-07-11 2020-06-30 Taguchimarketing Pty Ltd Method, system and software product for optimizing the delivery of content to a candidate
US7895260B2 (en) * 2008-07-28 2011-02-22 International Business Machines Corporation Processing data access requests among a plurality of compute nodes
US8200509B2 (en) 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US7917438B2 (en) 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US20100076950A1 (en) * 2008-09-10 2010-03-25 Expanse Networks, Inc. Masked Data Service Selection
US20100063830A1 (en) * 2008-09-10 2010-03-11 Expanse Networks, Inc. Masked Data Provider Selection
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US20100169313A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Item Feedback System
US8255403B2 (en) * 2008-12-30 2012-08-28 Expanse Networks, Inc. Pangenetic web satisfaction prediction system
US20100169262A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Mobile Device for Pangenetic Web
US8386519B2 (en) * 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
EP3276526B8 (en) 2008-12-31 2025-01-15 23andMe, Inc. Finding relatives in a database
US20100179838A1 (en) * 2009-01-15 2010-07-15 Nitin Basant Healthcare service provider insurance claim fraud and error detection using co-occurrence
US8402494B1 (en) 2009-03-23 2013-03-19 Conviva Inc. Switching content
US20110246255A1 (en) * 2009-12-11 2011-10-06 James Gilbert System and method for advancing marketing opportunities to sales
US8365186B2 (en) 2010-04-14 2013-01-29 International Business Machines Corporation Runtime optimization of an application executing on a parallel computer
US8504730B2 (en) 2010-07-30 2013-08-06 International Business Machines Corporation Administering connection identifiers for collective operations in a parallel computer
US20120150626A1 (en) * 2010-12-10 2012-06-14 Zhang Ruofei Bruce System and Method for Automated Recommendation of Advertisement Targeting Attributes
US8565120B2 (en) 2011-01-05 2013-10-22 International Business Machines Corporation Locality mapping in a distributed processing system
US9317637B2 (en) 2011-01-14 2016-04-19 International Business Machines Corporation Distributed hardware device simulation
US20210018335A1 (en) * 2011-07-13 2021-01-21 Verdafero, Inc. Utility monitoring and analytics security management system and method
US8689228B2 (en) 2011-07-19 2014-04-01 International Business Machines Corporation Identifying data communications algorithms of all other tasks in a single collective operation in a distributed processing system
US8620804B2 (en) 2011-08-16 2013-12-31 International Business Machines Corporation Allocating research funding
US9250948B2 (en) 2011-09-13 2016-02-02 International Business Machines Corporation Establishing a group of endpoints in a parallel computer
US9047558B2 (en) * 2012-01-17 2015-06-02 International Business Machines Corporation Probabilistic event networks based on distributed time-stamped data
US9026506B2 (en) * 2012-04-02 2015-05-05 University Of North Texas System and method for multi-residue multivariate data compression
US9613042B1 (en) 2012-04-09 2017-04-04 Conviva Inc. Dynamic generation of video manifest files
KR101350782B1 (ko) * 2012-06-13 2014-01-16 포항공과대학교 산학협력단 데이터 샘플링 방법 및 장치
US10182096B1 (en) 2012-09-05 2019-01-15 Conviva Inc. Virtual resource locator
US9246965B1 (en) 2012-09-05 2016-01-26 Conviva Inc. Source assignment based on network partitioning
US9516089B1 (en) * 2012-09-06 2016-12-06 Locu, Inc. Identifying and processing a number of features identified in a document to determine a type of the document
US9483740B1 (en) 2012-09-06 2016-11-01 Go Daddy Operating Company, LLC Automated data classification
US9110949B2 (en) 2013-02-11 2015-08-18 Oracle International Corporation Generating estimates for query optimization
US9471545B2 (en) 2013-02-11 2016-10-18 Oracle International Corporation Approximating value densities
US9135280B2 (en) * 2013-02-11 2015-09-15 Oracle International Corporation Grouping interdependent fields
US10049334B2 (en) * 2014-02-24 2018-08-14 International Business Machines Corporation Providing support to human decision making
US10305955B1 (en) 2014-12-08 2019-05-28 Conviva Inc. Streaming decision in the cloud
US10178043B1 (en) 2014-12-08 2019-01-08 Conviva Inc. Dynamic bitrate range selection in the cloud for optimized video streaming
US10303697B1 (en) * 2015-06-25 2019-05-28 National Technology & Engineering Solutions Of Sandia, Llc Temporal data system
US10381108B2 (en) * 2015-09-16 2019-08-13 Charles Jianping Zhou Web search and information aggregation by way of molecular network
US20170109443A1 (en) * 2015-10-16 2017-04-20 Fujitsu Limited Providing cloud-based health-related data analytics services
CN113454638A (zh) * 2018-12-19 2021-09-28 艾奎菲股份有限公司 用于使用计算机视觉进行复杂视觉检查任务的联合学习的系统和方法
US11468148B2 (en) 2019-06-29 2022-10-11 Wipro Limited Method and system for data sampling using artificial neural network (ANN) model
CN111813964B (zh) * 2020-09-14 2020-12-11 平安国际智慧城市科技股份有限公司 基于生态环境的数据处理方法及相关设备
US11537594B2 (en) 2021-02-05 2022-12-27 Oracle International Corporation Approximate estimation of number of distinct keys in a multiset using a sample
US12437848B2 (en) 2021-03-26 2025-10-07 Vydiant, Inc. Personalized health system, method and device having a physical activity function
EP4478260A4 (en) * 2022-02-10 2025-04-02 Fujitsu Limited INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US20250124052A1 (en) * 2023-10-12 2025-04-17 International Business Machines Corporation Generating an artificial data set

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2283840B (en) * 1993-11-12 1998-07-22 Fujitsu Ltd Genetic motif extracting method and apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004095021A1 (ja) * 2003-04-23 2004-11-04 Eisai Co. Ltd. 疾患予後モデルの作成方法、このモデルを用いた疾患予後予測方法、このモデルによる予後予測装置、ならびにそのプログラム・記憶媒体
US20230053344A1 (en) * 2020-02-21 2023-02-23 Nec Corporation Scenario generation apparatus, scenario generation method, and computer-readablerecording medium
US12039253B2 (en) * 2020-02-21 2024-07-16 Nec Corporation Scenario generation apparatus, scenario generation method, and computer-readable recording medium

Also Published As

Publication number Publication date
AU6816998A (en) 1998-10-20
WO1998043182A1 (en) 1998-10-01
CA2285058A1 (en) 1998-10-01
IL131843A (en) 2004-06-20
EP0968477A1 (en) 2000-01-05
US6493637B1 (en) 2002-12-10
IL131843A0 (en) 2001-03-19
CA2285058C (en) 2004-06-01
US20030074142A1 (en) 2003-04-17

Similar Documents

Publication Publication Date Title
JP2001519070A (ja) 一致検出の方法、製品および装置
WO1998043182A9 (en) Coincidence detection method, products and apparatus
Ding et al. Interpretable dimensionality reduction of single cell transcriptome data with deep generative models
EP1304627A2 (en) Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects
US20140025358A1 (en) Systems and methods for modeling and analyzing networks
Jacob et al. Data mining in clinical data sets: a review
Chen et al. Data mining from 1994 to 2004: an application-orientated review
Liu et al. Discriminative pattern mining and its applications in bioinformatics
JP2000357204A (ja) 消費者の財政的挙動の予測モデル化方法及びシステム
Mackinnon et al. Applications: data mining and knowledge discovery in databases–an overview
Amiri et al. Clustering categorical data via ensembling dissimilarity matrices
Xiao et al. An MCEM framework for drug safety signal detection and combination from heterogeneous real world evidence
Chen et al. A gene profiling deconvolution approach to estimating immune cell composition from complex tissues
Putra et al. Optimizing Sentiment Analysis on Imbalanced Hotel Review Data Using SMOTE and Ensemble Machine Learning Techniques
Ciacco et al. Review of quantum algorithms for medicine, finance and logistics
Boersma et al. Measure cross-sectoral structural similarities from financial networks
JP2004535612A (ja) 遺伝子発現データの管理システムおよび方法
Sripada et al. Classification and clustering of gene expression in the form of microarray and prediction of cancersusceptibilit, cancerrecurrence and cancersurvival
Liyaqat et al. A machine learning strategy with clustering under sampling of majority instances for predicting drug target interactions
Pauly et al. Simplified detection of genetic background admixture using artificial intelligence
Chauhan et al. Deviation-Based Marked Temporal Point Process for Marker Prediction
MXPA99008824A (es) Metodo, productos y aparatos de deteccion de coincidencia
Ferragut et al. Nonparametric bayesian modeling for automated database schema matching
Baghbanzadeh et al. deepBreaks identifies and prioritizes genotype–phenotype associations using machine learning
Welsh et al. Toxicoinformatics: an introduction

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050323

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050323

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080416