インシリコスクリーニング装置、 および、 インシリコスクリーニング方法
技術分野
この発明は、 インシリコスクリーニング装置、 および、 インシリコスクリ一二 ング方法に関するものである。
明
1
糸
背景技術
書
従来、 試薬提供会社等から発売される医薬品該当化合物や試薬化合物等の化合 物が存在する。 また、 化合物と相互作用する高分子として、 質量分析を主体とす る各種実験等で確かめられた高分子や、 例えば Na t u r eや S c i e n c eに 代表される雑誌に収録された文献などにより社会で認知された高分子等のように、 創製された医薬品等の化合物と相互作用して、 動植物の病気状態や疾患状態を治 癒、 症状軽減または現状維持等をもたらす、 薬物標的タンパク質や薬物標的核酸 や薬物標的糖質や薬物標的脂質等の標的高分子が存在する : '·. '
標的高分子に对する低分子化合物ドッキングとインシリコスクリーニングを行 うに当たっては、 従来、 上述のような医薬品候補化合物等の化合物の膨大な数が 納められた化合物データベースの各化合物を、 例えば、 タンパク質を主体とする 標的高分子タンパク質にドッキング相互作用をさせ、 現実に存在する何十万個に 相当する化合物が標的タンパク質と直接相互作用する座標配置 (コンフオメーシ ョン)を決定し、相互作用エネルギーやそれに相当するスコア値を獲得していた。 そして、 当該スコア値を安定さの指標にして大きな方から小さい方に並べ、 化合 物一薬物標的タンパク質の相互作用の順番を決定していた。
伊】えば、 Ku n t zらの D o c k (E w i n g e t a l著 J C o m p u t A i d e d Mo 1 De s. 2001 15 (5) 41 1— 28参 照、) や、 G o o d s e 1 1 らの Au t oDo c k (Go o d s e l l e t a
1著 J. Mo 1 - Re c o gn i t 1996 9 1—5参照) や、 G a r e t hらの GOLD (J o n e s e t a l著 J. Mo 1. B i o 1. 1997 267, 727— 748参照)、 R a r e yらの F 1 e x X、 N i c o l a sらの F 1 a g m e n t P o t e n t i a l等の従来方法におい ては、 上述のスコア値の計算のために、 それぞれの方法に標的高分子である標的 タンパク質のリガンド結合環境の格子情報や、 化合物と標的高分子間のベク トル を重視する化合物の多点情報を用いて計算を行っていた。
すなわち、 標的タンパク質の生物学的環境等の何らかの工夫があるにしても、 格子情報や多点情報等の情報に基づいて、 化合物の原子と標的高分子タンパク質 を構成する原子との古典物理学的原子間ポテンシャル式から相互作用エネルギー 等を計算して、 化合物のコンフオメ一シヨンや相互作用の結合の強さに関係する 順番をスコア値で決定していた。 また、 相互作用の順番を決めるために相互作用 している種々の化合物のコンフオメーシヨンをクラスタリング等の手法を用いて 順番を決める工夫等を行っていた。
しかしながら、 従来のインシリコスクリーニング方法においては、 タンパク質 一リガンド複合体を精度よく予測することに着目されており、 直接、 ヒツ-ドする - 化合物を数多く選出することとは一致しないという問題点を有していた。
また、 従来のインシリコスクリーニング方法においては、 古典物理学的なポテ ンシャル関数を用いて非経験的な予測を行っており、 生物化学的な実験等の情報 を考慮に入れた予測効率の高いスクリーニングができないという問題があった。 本発明は、 上記に鑑みてなされたもので、 タンパク質と化合物との結合を精度 よく予測することができる一方で、 ヒッ卜する化合物を数多く選出することがで き、 また、 予測効率を高めることができる、 インシリコスクリーニング装置、 お よび、 インシリコスクリーニング方法を提供することを目的とする。 発明の開示
本願発明者は、 X線解析、 NMR、 電子線解析、 高分解能電子顕微鏡写真等の
実験によつて得られた、 化合物と標的高分子との相互作用を示す膨大な三次元座 標情報が公開データベースに登録されていることや、 近年のコンピュータの性能 向上とバイオインフォマティクスの進歩等に鑑み、 従来のような一般的で古典物 理学的なインシリコスクリーニング方法を行う代わりに、 標的高分子タンパク質 に結合した種々の化合物の集団的重なり状態等のバイォインフォマティタス情報 を利用して、 人の歙智を基礎にした半経験的な化合物のインシリコスクリーニン グを実行することが可能であるとの着想を得た。
本発明は、 上記着想に基づいて本願発明者により鋭意検討された結果、 完成し たものであり、 標的タンパク質に結合する候補化合物のスクリーニングを行う、 記憶部と制御部を少なくとも備えたインシリコスクリーニング装置であって、 上 記記憶部は、 化合物中の複数個の原子に係る化合物指紋として、 原子タイプと原 子間結合規則とを含む化学記述子を、 上記候補化合物ごとに抽出して作成された 化合物データベース、 を備え、 上記制御部は、 上記標的タンパク質と立体構造が 同一または類似するフアミリータンパク質に結合することが既知の結合化合物に ついて、 上記標的タンパク質の座標系に変換した三次元座標とともに上記化合物 指紋を抽出して結合化合物指紋セットを作成する化合物指紋作成手段と、—上記化 合物データベースに記憶された上記候補化合物について、 上記結合化合物指紋セ ットの上記三次元座標を基底として算出した上記化合物指紋単位の二乗平均偏差 を基礎とする相互作用スコアが最適化されるように、 当該候補化合物の上記標的 タンパク質に対する上記立体構造を演算する最適化手段と、 を備えたことを特徴 とする。
すなわち、 本発明によれば、 タンパク質と化合物との結合を精度よく予測する ことができる一方で、 ヒットする化合物を数多く選出することができ、 また、 生 物化学的な実験等の情報を考慮に入れた半経験的なスクリーニングを行うことが でき、 さらに、 予測効率を高めることができる。
以上のように、 本発明は、 三次元の化合物指紋セットを用いるバイオインフォ マテイクス技術を、 古典物理学的エネルギー手法を用いた低分子化合物と高分子
タンパク質とのドッキングと同等の' 14能を発揮させるようにした点で従来手法と は異なっている。 特に、 X線解析、 NMR、 電子線解析、 高分解能電子顕微鏡解 析などの技術が格段に進歩していることを考えると、 標的高分子タンパク質に結 合した化合物の分子の数は膨大に増加すると予測されるため、 本発明は高い効果 を発揮する。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 化合物 に結合したタンパク質の立体構造およびァミノ酸配列を記憶するタンパク質デ一 タベース装置に接続され、 上記制御部は、 上記標的タンパク質の上記アミノ酸配 列との相同性に基づいて、 上記フアミリータンパク質および上記結合化合物を上 記タンパク質データベース装置から検索する相同性検索手段、 を更に備え、 上記 化合物指紋作成手段は、 上記相同性検索手段により検索された上記フアミリータ ンパク質に結合する上記結合化合物について、 上記標的タンパク質の座標系に変 換した上記三次元座標とともに上記化合物指紋を抽出して上記結合化合物指紋セ ットを作成すること、 を特徴とする。
ここで、本発明の一例として具体例を示すと、本発明は、標的高分子の中でも、 標的タンパク質の立体構造に類似しているブァミリ一高分子セットに種々.め低分 子化合物が結合した集団的コンフオメーシヨンを抽出するときの条件として、 フ ァミリ一高分子セットを取り出すときに、 当該標的タンパク質の配列を照会 (ク エリー) 配列として、 P S I — B 1 a s t等による相同性. (H o m o 1 o g y ) 検索によって検出する。 そして、 本発明は、 検出されたタンパク質の中で、 該当 するとして検索され、 タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c o m p l e x ) として低分子リガンドを含んでいた場合、 C E (原子の 種類を意識しないタンパク質同士の構造の重ね合わせ操作) 等を用いて、 標的タ ンパク質に重ね合わせる。 そして、 本発明は、 その構造の類似性を表す Z— S c o r eが所定の値 (例えば 3 . 7以上) となった場合、 検索された類似タンパク 質に結合したリガンドを類似タンパク質の座標系から標的タンパク質の座標系に リガンド座標と共に変換して、 リガンドだけ抜き出すことができるようになる。
ここで、 CEは、 原子の種類を意識しないタンパク質同士の構造の重ね合わせ 操作を行うが、 同様の機能を持つプログラムでも代用可能である。 また、 本発明 は、 当該標的タンパク質の配列を照会 (クエリー) 配列として、 PS I _B 1 a s t等による相同' 検索によつて高レ、ホモ口ジーを持つ配列のみが得られた場合 は、 原子の種類を意識したタンパク質同士の構造の重ね合わせ操作のプログラム を使用してもよい。 また、 本発明は、 相同性検索において、 PS I— B 1 a s t に限らず、 配列をクエリーとして相同性検索ができ、 その配列類似性の評価を定 量的にできるソフトプログラムなら、 どのような相同性検索プログラムを適用し てもよい。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記化 合物指紋作成手段は、 上記フアミリータンパク質と上記標的タンパク質との構造 重ね合わせにより、 当該ファミリータンパク質に結合する上記結合化合物の上記 三次元座標を上記標的タンパク質の座標系に変換し、 変換された上記三次元座標 とともに上記化合物指紋を抽出して上記結合化合物指紋セットを作成すること、 を特徴とする。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記化 合物指紋作成手段は、 上記結合化合物と異なる他の上記化合物を参照して構造重 ね合わせを行い、 当該結合化合物と当該他の上記化合物の原子間をまたがる上記 化合物指紋を抽出して上記結合化合物指紋セットに追加する新規化合物指紋追加 手段、 を更に備えたことを特徴とする。
本発明の一例として具体例を示すと、結合化合物指紋セットの具体例としては、 標的高分子の中でも標的タンパク質の立体構造に類似しているファミリー高分子 タンパク質セッ卜に結合した種々低分子化合物データベースである 「CE 1 i b 」 (FP (r i n g e r p r i n t) s e t e x t r a c t e d f r om c o l l e c t e d 1 i g a n d s i n t h e b i n d i n g s i t e (結合部位のリガンド集合から抽出された化合物指紋セット) ) として構成して もよレ、。 この CE 1 i bには、 標的タンパク質の座標系における座標と S y b y
1原子タイプ (a t o m— t y p e ) および、 単結合、 二重結合、 芳香環結合等 といった結合規則情報を含んでいる。 ここで、 本発明は、 標的タンパク質に対す る低分子化合物の探索の狙いの必要に応じて、 C E 1 i bに任意の F P ( f i n g e r p r i n t : 「化合物指紋」 のことをいう。 以下に同じ。 ) を加えても良 レ、。
すなわち、 既存の標的タンパク質の立体構造に類似しているフアミリー高分子 セットに集団的に結合した種々低分子化合物から F Pを抽出する代わりに、 本発 明では、 普通の一般に存在する化合物分子と F Pの類似性を保持したまま、 種々 低分子化合物の中で原子の種類を入れ替える。 そして、 本発明は、 「c i r c 1 e」 等のような安定性を評価できるプログラムを用いて標的タンパク質との相互 作用エネルギーを計算し、 相互作用をより安定にする少し構造の違った "M o d i f i e d F P " (改正 F P ) を得る。 そして、 本発明は、 標的タンパク質に 対して局所エネルギー的に安定な改正 F Pを使って、 あたかもタンパク質同士の 構造の重ね合わせ操作の結果として得られた集団的に結合した種々低分子化合物 から得た F Pのように捕らえ、 それを新たな F Pとして、 上述の発明において行 われたように、 F Pの重ね合わせにその対象 Pどして採用ずる。
上記発明では、 タンパク質とリガンドとのドッキングにおいて、 従来使用され てきた物理化学的相互作用関数の代わりに、 三次元座標を含む化合物指紋セット というバイオインフォマティクスを用いたリガンドコンフオメーションを得る。 そして、 本発明では、 既存の標的タンパク質の立体構造に類似しているファミリ 一高分子タンパク質セッ卜に集団的に結合した種々低分子化合物から F Pを抽出 する代わりに、 種々低分子化合物の中で違う分子化合物を参照して、 普通の一般 に存在する分子の F Pに似た複数化合物結合三次元化合物指紋セットを創作する。 そして、 本発明は、 創作した化合物指紋セットを、 あたかもタンパク質同士の構 造の重ね合わせ操作の結果として得られた集団的に結合した種々低分子化合物か ら得た F Pのように捕らえ、 それを新たな F Pとして、 上記発明において行われ たように、 F Pの重ね合わせにその対象 F Pを採用する。
すなわち、 上記発明は、 ファミリー高分子セットに集団的に結合した種々低分 子化合物を完全に分解して、 従来なら物理学的公式が基底となるドッキング計算 の代わりに、 ばらばらにした種々低分子化合物 F Pをドッキングの基底としたも のである。 本発明は、 さらに、 既存の標的タンパク質の立体構造に類似している フアミリー高分子タンパク質セットに集団的に結合した種々低分子化合物のコン フオメーシヨンの存在は標的タンパク質のフアミリータンパク質と相互作用した 最安定構造に近レ、という事実の熟慮から生まれたものであり、 従来手法と異なり 高い効果を有し有用である。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記化 合物指紋作成手段は、 タニモト係数に基づき上記結合化合物と類似する上記化合 物について、 当該結合化合物と当該化合物の原子間で原子の種類を入れ替え、 上 記標的タンパク質に対する相互作用エネルギーを算出して当該結合化合物の上記 化合物指紋よりも局所エネルギー的に安定な上記化合物指紋を作成して上記結合 化合物指紋セットに追加する新規化合物指紋追加手段、 を更に備えたことを特徴 とする。
本発明の一例として具体例を示すと、 本発明は、 C E i i tがら、' 檫的タンパ ク質ファミリ一高分子タンパク質セットと結合した種々低分子化合物にっレ、て、 各々のフアミリー高分子タンパク質とリガンドの複合体を対象にして、 リガンド との相互作用が安定になるように、 C i r c 1 eプログラム等の相互作用算出プ ログラムを利用する。 本発明は、 f i n g e r p r i n t ( f p ) 単位、 すなわ ち化学記述子単位に原子の種類や結合の種類を改良変更し、 それを新たな f i n g e r p r i n t ( f p ) 単位、 即ち化学記述子単位として、 それを新たな F P として、 上記発明において行われたように、 F Pの重ね合わせにその対象 F Pと して採用するものとする。
また、 標的高分子の中でも、 標的タンパク質の立体構造に類似しているフアミ リ一高分子タンパク質セットに結合した種々低分子化合物データベースである C E 1 i bの F Pがドッキング s c o r e (スコア) を決めるのに大きな貢献をし
ている。 そこで、 本発明では、 上記発明において、 標的高分子タンパク質に結合 する理想的な低分子リガンドのドッキング構造が実験的に解析済みである場合、 その結合に理想的な低分子リガンドをリード化合物として、 相互作用エネルギー がよくなるようにいろいろな置換基を付カ卩したり、 理想的な低分子リガンドに化 合物指紋の定量化関数であるタニモト係数が非常に似た、 すなわち 1に近い任意 の低分子リガンドを見つけたりする場合に、 F P領域をその実験的に解析済みの 理想的な低分子リガンドの周りの領域 (例えば 4または 5オングストロ一ム) に 限定する。 これにより、 本発明は、 それら化学構造が似ているタニモト係数が非 常に似た化合物のドッキング構造とその s c o r e (スコア) を容易に計算でき る。 これは、 結合化合物のリ一ド最適ィ匕 (l e a d o p t i m i z a t i o n ) または化合物の新規 ( d e n o v o ) デザィンであり、 上述の発明での F P の役割との組み合わせにおいて、 従来手法と異なり高レ、効果を有し有用である。 また、 従来、 標的タンパク質に種々低分子化合物の部分的なものであるベンゼ ン環等の官能基を結合させ、 物理学的に安定な部分的構造を得て、 それらの結果 を標的タンパク質と分子内自由回転を多く含有する種々低分子化合物との相互作 用を計算するときに、 そのドッキングコンフ;;一メイショシの—発生を少なくする ことが一般的に行われていた。 本発明では、 バイオインフォマティクスの手法で ある 「c i r c 1 e」 のような安定性を評価できるプログラムを用いて標的タン パク質との相互作用エネルギーを計算して、 改正 F Pを創作している。 この点に 関し、 文献等の公知物は発見できず、 本発明のように、 ドッキングの計算の基底 として、 F Pの重ね合わせを採用するときに、 ドッキングの計算の改正 F Pを基 底にすることを報告している従来手法はなく、 従来手法と異なり高レ、効果を有し ¾用でめる。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記結 合化合物は、 公知のドッキングアルゴリズムにより上記標的タンパク質に対して 安定なコンフオメーシヨンを持つと予測された化合物であること、を特徴とする。 本発明の一例として具体例を示すと、 本発明では、 従来一般的に行われている
方法である水素結合や疎水性相互作用ゃ静電相互作用といった物理的なポテンシ ャル関数を用いた第一原理的アプローチ (Ab— i n i t i o Ap p r o a c h) を採用する。 例えば、 本発明は、 正解構造を隠したブラインド 'テスト (b 1 i n d t e s t) によって正解構造に rms d 2. 0以下で予測できる割合 が保証されているような、 DOCKや Au t o D o c kや GOLDなど既存のド ッキングソフトを使ってドッキング計算で安定コンフオメーシヨンが高いスコア を持つと予測された低分子化合物の三次元座標から抽出した FP (f i n g e r p r i n t) を追加する。
また、 本発明は、 標的タンパク質と種々低分子化合物の相互作用のスコア化に よって得られたコンフオメーシヨンを、 DOCKや Au t o D o c kや GOLD など既存のドッキングソフ卜の初期コンフオメーションとして用いてもよい。 こ れにより、 上記発明において、 得られた初期コンフオ 一シヨンが簡便に得られ るのに加えて、 実験を再現する精度が高いので、 他のソフトプログラムとの aみ 合わせによって、 有用な結果を得られる。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記最 - 適化手段は、 上記化合物指紋単位に上記二乗平均偏差を基礎どした、 上記候補化- 合物の、 上記標的タンパク質との衝突具合、 上記標的タンパク質の相互作用領域 における存在割合、 および、 上記標的タンパク質との直接相互作用割合を考慮に 入れた関数に基づいて、上記相互作用スコアを計算する相互作用スコア計算手段、 を更に備えたことを特徴とする。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記最 適化手段は、 上記相互作用スコアをメ トロポリス法に基づいて判定し、 判定結果 にしたがって基底となる上記化合物指紋を変更、 増加、 または減少させることに より、 上記相互作用スコアを最適化させること、 を特徴とする。
本発明の一例として具体例を示すと、 本発明のメ トロポリス判定は、 前回のス コアより、 今回のスコアが大きいならば候補リガンドの構造を採用し、 スコアが 小さいならば、 採用確率 P a c c e p tを計算して、 P a c c e p tに従って棄
却する力採用するかを決定してもよい。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記最 適化手段は、 上記相互作用スコアの最適化過程において、 上記候補化合物のコン フオメ一シヨンを繰り返し変化させ、 シミュレテイツドアニーリング法に基づい て、 当該候補ィ匕合物の上記コンフオメーシヨン毎に当該候補化合物を剛体として 繰り返し並進または回転させる構造変換手段、 を更に備え、 上記最適化手段は、 上記構造変換手段により並進または回転された上記コンフオメーシヨン毎の上記 候補化合物について上記相互作用スコアを計算すること、 を特徴とする。
本発明の一例として具体例を示すと、 標的タンパク質の立体構造に類似してい るファミリ一高分子セットに結合した種々低分子化合物の幾つかの三次元座標情 報を含んだ FPに、 仮想化合物ライブラリーから、 標的タンパク質にライブラリ 一低分子化合物をドッキングして、 相互作用の最適なコンフオメーシヨンを探す ために、 繰り返し、 モンテカルロ的シミュレティ ド ·ァニーリング ( s i mu 1 a t e d a nn e a l i n g) によって、 スコアが最高になるように数学的計 算を行う。
… さらに具体的には、 まず、 本発明は、 候補リガンドの回転可能な二面角をラン ダムに変更することにより、 コンフオメーシヨンを変化させ、 そのコンフオメ一 シヨンの変化した候補リガンドの座標を用いる。 そして、 本発明は、 標的タンパ ク質のフアミリータンパク質に結合した結合化合物セット由来の FPバンドから ランダムに 10個の FPを選ぶ。 そして、 本発明は、 選択された f pバンドから 候補リガンドおよび、 ライブラリーリガンドから F P原子座標セットをランダム に選択する。 そして、 本発明は、 この状態をフィンガープリント (FP) ァライ メントとし、 その対応関係で、 最小二乗フィッティングを行う。 本発明は、 その ときの重ね合わせの二乗平均偏差 (rms d) と重ね合わせ後の候補リガンドの 原子座標を用いて相互作用スコアを計算する。 そして、 本発明は、 二回目以降は 前回の状態を記憶しておき、 リガンド原子のコンフオメーションを保ったまま、 すなわち剛体並進、 回転を行う。 そして、 本発明は、 一つの FPの増加、 減少、
および、 原子座標セッ トの対応関係の変更、 追加を行う。 本発明は、 このステツ プを例えば 10000回行う。ここで、シミュレテイツドアニーリングの温度は、 30Kからはじめ、 0. 07Kまで下げてもよい。 このように、 本発明は、 一つ のコンフオメーシヨンのスコアの最大値を計算し、 初期に発生した 1000個の コンフオメーションについて比較し、 スコアが最大の構造をタンパク質一リガン ド複合体構造として予測し出力する。 このとき、 1000個のコンフオメ一ショ ンを当該スコア順位付けする過程は、 遺伝的アルゴリズム等を使用することによ り、 計算時間や、 最大値の探索において工夫してもよい。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記最 適化手段は、 上記相互作用スコアを以下の数式 (1) に基づいて算出すること、 を特徴とする。
[数 1]
FPAacore - F^aligned fp,fp_ rmsd, molecule )
= BaseScore(aligned p,fp rmsd)
x fp volume(molecule)
x fp _ contact _ surface molecule) ( i )
(ここで、 上記 F PAS c o r eは上記相互作用スコアを表し、 上記 F (a 1 i g n e d— f p, f p— r m s d, mo l e c u l e) は、 上記結合化合物と上 記候補化合物間の上記化合物指紋単位のァライメント度および上記二乗平均偏差、 ならびに、 上記候補化合物の上記標的タンパク質に対する上記立体構造を変数と する関数であり、 上記 B a s e S c o r e (a 1 i g n e d_f p, f p_r m s d) は、 上記化合物指紋単位の一致度および密集度を示す指標であり、 上記 f p_v o 1 ume (mo l e c u l e) は、 上記結合化合物指紋セッ トの上記三 次元座標からなる空間を上記候補化合物が占める割合、 および、 上記標的タンパ ク質との衝突具合を示す指標であり、 上記 f p— c o n t a c t_s u r f a c e (mo l e c u l e) は、 上記候補化合物の上記標的タンパク質との接触度、 および、 上記結合化合物指紋セットの上記三次元座標への帰属度を示す指標であ
る。 )
以上のように、 これら上記に述べた発明における数学的計算は、 従来における 物理学的相互作用関数で標的タンパク質と仮想化合物ライブラリ一低分子化合物 の相互作用を計算していたところを、 バイオインフォマティクスの情報を使って 半経験的に計算している点が従来手法と異なり、 さらに構造予測の成功率は世界 で認められているドッキングソフトプログラムに優れるとしても、 決して劣るこ とはないという高い効果を発揮する。 また、 情報の蓄積が、 半経験的バイオイン フォマテイクス手法の相互作用計算の結果を良いほうに導くので、 従来手法と異 なり有用である。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記数 式 、丄) における、 上目己 B a s e S c o r e (a l i g n e d一 f p , f ρ― r m s d) は、 以下の数式 (2) に基づいて算出され、
[数 2]
RawScorey aligned fp)
Base^coreK aligned一 fp,fp rmsd) =
\ + ln( Jp rmsd +1) (2)
(ここで、 上記 R a wS c o r e ( a 1 i g n e d— f p ) は、 上記結合化合物 と上記候補化合物間でァライメントされた上記化合物指紋における原子の数に基 づく指標であり、 上記 f p— r m s dは、 上記二乗平均偏差である。 )
上記 f P— V o 1 ume (mo l e c u l e) は、 以下の数式 (6) に基づい て算出され、
[数 3] fp _ volume(molecule) = In プ-
- \.0 + ηαρ" ( 6 )
(ここで、 上記 n a f pは、 上記結合化合物指紋セッ 卜の上記三次元座標に基づ く固有格子点領域に上記候補化合物の上記三次元座標が占有する格子点の数であ り、 上記 n a pは、 上記標的タンパク質の上記立体構造における原子の固有格子 点領域に上記候補化合物の上記三次元座標が属する格子点の数であり、 上記 k 2
および上記 k 3は、 任意の定数である。 )
_hsd f p一 c o n t a c t _ s u r i a c e (mo l e c u l e f¾、 ζλΎの 数式 (7) に基づいて算出されること、 を特徴とする。
[数 4]
^ density of atom^atom i))
τρ contact surjace(molecule) =——―
一 total _ density of _ atom(molecule) (7)
(ここで、上記 nは、上記候補化合物の原子の数であり、上記 a t om ( i )は、 上記候補化合物の i番目の原子の上記三次元座標であり、 上記 d e n s i t y_ o f— a t om (a t om ( i ) ) は、 当該原子の上記三次元座標が上記結合化 合物指紋セットの上記化合物指紋に属している場合に、 当該化合物指紋の上記原 子と所定の距離で接触している上記標的タンパク質の原子の数と、 当該化合物指 紋の同一格子点に属する上記結合化合物の原子の数との和を返す関数であり、 上 己 t o t a l一 d e n s i t y一 o 1一 a t om (mo l e c u l e) ίま、 上 d e n s i t y_o f_a t o mの分布を降順に並べ換えたものを上記候補化合 物の原子の数だけ順に足し合わせた数である。 )
本発明の一例として具体例を示すと、 本発明は、 上記の内容の中で k 2、 k 3 の値を明確にするために、 E G F Rや V E G F Rなどの固有の標的タンパク質に 対して既知活'性化合物を探し、 k 2, k 3を最適化する。 そして、 本発明は、 そ の値がたとえば、 EGFRの阻害剤のインシリコスクリーニングにおいて、 k 2 =2. 0, k 3 = 1. 0、 となるようなインシリコスクリーニングを行う方法で ある。 上記発明に係るインシリコスクリーニングによって、 EGFRや VEGF Rなどの固有の標的タンパク質に適合する化合物を的確にリストアップすること は、 杭がん剤の新薬開発に直結するので、 従来手法と異なり高い効果を有し有用 である。
従来、 GOLDのようなドッキングソフトプログラムは、 生物学的に重要な水 素結合に参加する原子を点やベク トルとして、 遺伝子アルゴリズムにおいて、 良
いセットを選ぶ工夫をしている。 このような点やベクトルは、 上記発明で記載の ような標的タンパク質の立体構造に類似しているフアミリー高分子セットに種々 低分子化合物が結合した集団的コンフオメーションを抽出するときの条件として の部品である三次元化学記述子の F Pとは違っている。 この発明では、 上述の発 明において、 相互作用しているコンフオメーシヨンにおいて生物学的に重要な水 素結合等を構成する原子点やべクトルのセットを取り込む場合に、 f p— rm s d値を以下の式とすれば、 生物学的に重要な水素結合または疎水結合またはファ ンデルヮ一ルス相互作用に参加する原子を上述の発明に矛盾なく含ませることが 出来ることを特^ [とする。
すなわち、 本発明では、 f p— r m s d + d i s t a n c e rms d i n d i c a t i v e a t om s e t c omp o s e d o f i mp o r t a n t p o i n t s v e c t o r sの式を f p r ms d * * k l + d i s t a n c e_r m s d * * k 4 (* * k l <<* * k 4は F Pの寄与が小さレヽ : * * k l〉>* * k 4は FPの寄与を重視) の形に拡張してもよく、 d i s t a n c e一 rm s d * * k 4としてもよレヽ。 ここで、 d i s t a n c e _ r m s dは、 標的タンパク質とドッキングする低分子化合物どの相互作用において、 ― リガンド原子が標的タンパク質のリガンド結合部位における生物学的に重要な水 素結合または疎水結合またはファンデルワールス相互作用する場合、 標的タンパ ク質のリガンド結合部位における理想座標、 標的タンパク質の生物学的に重要な 原子、 もしくは、 その近傍の原子から発生させたベクトルの終点座標との最小二 乗誤差として定義される。
また、 本発明では、 種々低分子化合物において、 化合物の殆どがアミノ酸残基 のつながったペプチドの場合、 ペプチド基が多いために、 f pの対応関係が複雑 になるので、 スコアの計算過程で過小評価して、 上記発明における R awS c o r eについての上記数式において、 ペプチドの部分の F Pの式に該当する部分を ゼロ等の過小評価の数字にしてもよい。
すなわち、 本発明は、 FPを基底にレて、 標的タンパク質とドッキングする低
分子化合物との相互作用を計算する方法に、 標的高分子である標的タンパク質の リガンド結合環境の格子情報、 化合物と標的高分子間のベタトルを重視する化合 物の多点情報、 標的タンパク質の生物学的環境を表す化合物から標的タンパク質 に向かうベクトル等の何らかの工夫を行う。 その上で、 本発明は、 化合物の種々 原子と標的高分子タンパク質を構成する種々原子との古典物理学的原子間ポテン シャル式から相互作用エネルギー等を計算する方法を包含して、 融合させるよう な、 上記発明の拡張発明であり、 化合物のコンフオメーシヨンや相互作用の結合 の強さに関係する順番をスコァ値で決めることに関して、 従来手法と異なり高い 効果を有し有用である。
また、 本発明は、 記憶部と制御部を少なくとも備えたインシリコスクリ一ニン グ装置において実行される、 標的タンパク質に結合する候補化合物のスクリー二 ングを行うインシリコスクリーニング方法であつて、 上記記憶部は、 化合物中の 複数個の原子に係る化合物指紋として、 原子タイプと原子間結合規則とを含む化 学記述子を、 上記候補化合物ごとに抽出して作成された化合物データベースを備 えており、 上記制御部において実行される、 上記標的タンパク質と立体構造が同 '―一または類似するフアミリ一タンパク質に結合することが既知め結合化合物につ' レ、て、 上記標的タンパク質の座標系に変換した三次元座標とともに上記化合物指 紋を抽出して結合化合物指紋セットを作成する化合物指紋作成ステップと、 上記 化合物データベースに記憶された上記候補化合物について、 上記結合化合物指紋 セットの上記三次元座標を基底として算出した上記化合物指紋単位の二乗平均偏 差を基礎とする相互作用スコアが最適化されるように、 当該候補化合物の上記標 的タンパク質に対する上記立体構造を演算する最適化ステツプと、 を含むことを 特徴とする。
以上、 この発明によれば、 タンパク質と化合物との結合を精度よく予測するこ とができる一方で、 ヒットする化合物を数多く選出することができ、 また、 生物 化学的な実験等の情報を考慮に入れた半経験的なスクリ一二ングを行うことがで き予測効率を高めることができるという効果を奏する。
図面の簡単な説明
第 1図は、 本発明が適用される本インシリコスクリーニング装置の構成の一例 を示すブロック図であり、 第 2図は、 インシリコスクリーニング装置 100の処 理の一例を示すフローチャートであり、 第 3図は、 従来のドッキングソフトと、 タンパク質一リガンド複合体の多数の X線構造や NMR構造を効果的に用いたバ ィォインフォマテイクスによる本実施例に係るドッキング方法を示す状況図であ り、 第 4図は、 本実施例 (Ch o o s e LD) によるタンパク質一リガンド' ド ッキングの原理構成図であり、 第 5図は、 FP (f i n g e r p r i n t) の作 り方を一例として示す図であり、 第 6図は、 本実施例で用いた原子の文字列一覧 を示す図表であり、 第 7図は、 タニモト係数による化合物間の類似性算出方法を 示す模式図であり、 第 8図は、 標的タンパク質の結合部位にリガンドをドッキン グさせる場合の F Pを一例として示す模式図であり、 第 9図は、 たどった経路か ら原子座標を得て、 FPバンドに登録する過程を一例として示す図であり、 第 1 0図は、 本実施例における F Pバンドの絞り込みステップ (me t h o d s t e p o f s H r i nk i n g f i n g e r p r i n t b a n d) ¾一例 として示す図であり、 第 1 1図は、 座標べクトル同士に对応関係を与える過程を 一例として示す模式図であり、 第 12図は、 n a f pと n a pの具体例を原子数 が 31のリガンドを用いて示した図であり、 第 13図は、 標的タンパク質の活性 部位近傍における F Pライブラリ一由来のリガンドの位置を一例として示した図 であり、 第 14図は、 シミュレテイツドアニーリング過程を一例として示す概念 図であり、 第 15図は、 FPAS c o r eを算出するための F Pァライメントぉ よび最小自乗フィッティングを模式的に示した図であり、 第 16図は、 EGFR インシリコスクリーニングにおける計算時間の分布を示す図であり、第 1 7図は、 ベンチマークの概要を一例として示す図であり、 第 18図は、 PDBへの登録数 の年度分布を表す図であり、 第 19図は、 予測と実験結果間での rms dを要約 したテーブルであり、 第 20図は、 85セッ卜における予測成功率一覧 (k 1 と
T c Ra n g eの関係) を示す図表であり、 第 21図は、 10位までに r m s d 2. 0以下で予測できる割合を示す図表であり、 第 22図は、 10位までに r m s d 2. 5 (C l o s e) 以下で予測できる割合を示す図表であり、 第 23図 は、 成功とみなす正解構造との rms dを 2. OA以外でも行った場合を示す図 表であり、 第 24図は、 Ch o o s e LDと比較して、 Do c k, Au t oDo c kおよび GOLDのベンチマークの結果を示す図表であり、 第 25図は、 85 セットにおける F PAS c o r eの予測構造と実験構造との rms d力 ^ 2. 0 A 以下における各々標的タンパク質との衝突個数の分布を示す図であり、 第 26図 は、 85セットベンチマークにおける予測成功構造の個数分布を示す図であり、 第 27図は、 各ターゲットにおける全 10回のドッキング試行における成功個数 を示す図であり、 第 28図は、 133セットのベンチマークにおける DOCK, Au t oDo c k, GOLD予測構造の r m s d分布の結果と、 Ch o o s e L D法の結果を示す図であり、 第 29図は、 1 33セッ卜のベンチマークにおける DOCK, Au t oDo c k, G O L D予測構造の r m s d分布の結果と、 Ch o o s e LD法の結果を示す図であり、 第 30図は、 各ターゲットにおける全 1 0回のドッキング試行における成功個数を示す図であり、 第 31図は、 各ターゲ ットにおける全 10回のドッキング試行における成功個数を示す図であり、 第 3 2図は、 Tc範囲で限定された FPライブラリーにおいて F PAS c o r eで順 位付けされた分布内に実験構造との rms dが 2. OA以下の構造が得られる確 率を示す図であり、 第 33図は、 Tc範囲で限定された FPライブラリ一におい て FPAS c o r eで順位付けされた分布内に実験構造との rms dが 2. 0 A 以下の構造が得られる確率を示す図であり、 第 34図は、 予測成功構造の衝突個 数の分布を示す図であり、 第 35図は、 FPライブラリーに用いるリガンドの T c範囲の上限値をさらに低くし、 0. 16, 0. 24, 0. 36に下限値を 0. 08にした場合の性能および、前述した T c範囲、すなわち上限値 0. 56, 0. 76, 0. 96、 下限値 0. 08の予測成功率を示す図であり、 第 36図は、 1 DR 1.について予測されたタンパク質一リガンド構造を示す図であり、 第 37図
は、 4 ESTについて予測されたタンパク質一リガンド構造を示す図であり、 第 38図は、 GOLDが失敗したが Ch o o s e L Dは予測に成功したターゲット を示す 1 CDGについての図であり、 第 39図は、 GOLDが失敗したが Ch o o s e LDは予測に成功したターゲットを示す 1 DR 1についての図であり、 第 40図は、 GOLDが失敗したが Ch o o s e LDは予測に成功したターゲット を示す 1 L DMについての図であり、 第 41図は、 GOLDが失敗したが C h o o s e LDは予測に成功したターゲットを示す 4 E STについての図であり、 第 42図は、 133セット中における 90ターゲッ卜における予測成功率を示す図 表であり、 第 43図は、 ドッキングソフト間の予測に成功した標的タンパク質の ?0810の類似度を丁(: (タニモト係数)で算出した図表であり、第 44図は、 90ターゲット中の一つの標的タンパク質に対する各ドッキングソフトの予測の 成否分布を示す図表であり、 第 45図は、 DOCKが失敗したが Ch o o s e L Dは予測に成功したターゲットを示す 1 HYTについての図であり、第 46図は、 DOCKが失敗したが Ch o o s e LDは予測に成功したターゲットを示す 1 P HGについての図であり、 第 47図は、 DOCKが失敗したが Ch o o s e LD は予測に成功したターゲットを示す ΓΤΜΝ'に いての図であり、 第 48図は、 1位だけではなく 10位までに r m s d 2. 0の構造が採取できる割合を示す図 であり、 第 49図は、 1位だけではなく 10位までに r ms d 2. 5 (C 1 o s e) の構造が採取できる割合を示す図であり、 第 50図は、 成功と定義する rm s dを変化させた場合を示す図表であり、 第 51図は、 本実施例による処理の結 果を示す図表であり、 第 52図は、 EG FRからの細胞内シグナル伝達経路を示 した図であり、 第 53図は、 EG FRのアミノ酸配列のァライメントを示す図で あり、 第 54図は、 構築された EG FRのモデルを示す図であり、 第 55図は、 入手した 1 1個の阻害剤の平面構造を示す図であり、 第 56図は、 FPAS c o r eで定義された k 2値を 0. 5から 5. 0の範囲に変更した際の収穫率折れ線 グラフを示す図であり、 第 57図は、 FPAS c o r eにおける k 3値を 0. 5 から 2. 0の範囲に変更した際の収穫率折れ線グラフを示す図であり、 第 58図
は、 T c上限値を 1. 00とし、 T c下限値の範囲を 0. 08から 0. 32まで、 0. 08刻みで変化させた場合の、 それぞれの T c範囲におけるインシリコスク リーニングの結果を示す図であり、 第 59図は、 PDBに登録されているタンパ ク質ーリガンド複合体構造既知の PDB I Dとそのリガンドの順位付けを示す図 であり、第 60図は、第 59図のリガンド I Dと化合物名を対応付ける図であり、 第 6 1図は、 K i n a s eのインシリコスクリーニングによる絞り込みの結果の 上位 1 0位のタンパク質一リガンド複合体を示す図であり、 第 62図は、 第 6 1 図を別角度から見た図であり、 第 63図は、 TGF— c結合ドメイン近傍を表し た図であり、 第 64図は、 MD L C omp r e h e n s i v e Me d i c i n a 1 Ch em i s t r y (MD L CMC) し丄 1) 3 1 7を用ぃた£ GFRの TGF— α結合ドメインに対するインシリコスクリーユングの結果を示 す図であり、 第 65図は、 MDL ACD L i b r a r yを用いた同インシリ コスクリーニングの結果を示す図であり、 第 66図は、 KRN633 ( I C 50 = 1. 1 6 nm/L) の平面構造を示す図であり、 第 6 7図は、 KRN95 1 ( I C 50 = 0. 1 6 nm/L) の平面構造を示す図であり、 第 68図は、 K RN633の VE-GFR 2活性部位近傍へのドッキングに用いた F Pライブラリ 一に所属するリガンドにおいてドッキングに使用されたリガンドの上位 1 0個を 示した図であり、 第 69図は、 KRN633について、 Ch o o s e LD法を 1 0回実行し、 予測された構造 10個を V E G F R 2の活性部位近傍の立体構造と ともに示した図であり、 第 70図は、 KRN95 1の VEGFR 2活性部位近傍 へのドッキングに用いた F Pライブラリーに所属するリガンドにおいてドッキン グに使用されたリガンドの上位 1 0個を示した図であり、 第 7 1図は、 KRN9 5 1について、 Ch o o s e LD法を 1 0回実行し、 予測された構造 1 0個を V EGFR 2の活性部位近傍の立体構造とともに示した図であり、 第 72図は、 1 33セットを用いた Ch o o s e LD法のドッキング性能試験の結果得られた T c下限値を 0.08に固定し、 T c上限値を変化させた時の予測成功率について、 横軸に T c 上限値、 縦軸に成功率としたグラフを示す図であり、 第 73図は、
e n o y 1 a c y 1 c a r r i e r p r o t e i nの立体構造を示した図 であり、 第 74図は、 MDL Comp r e h e n s i v e Me d i c i n a 1 Ch em i s t r y (MDL CMC) L i b r a r yを用いて、 e n o y l a c y 1 c a r r. i e r p r o t e i nのィンシリコスクリ一ニン グを行った結果の F PAS c o r eの上位 10構造を示す図であり、第 75図は、 AMPKh o mo GAMMA 1と 2 V9 J—Eのアミノ酸配列のァライメントを 示した図であり、 第 76図は、 リガンドが受容体全体に結合した CMC医薬品の 結果リストを示す図であり、 第 77図は、 1位から 10位までの 2 V9 J— E受 容体への結合状態を図に示した図である。 発明を実施するための最良の形態
以下に、 本発明にかかるインシリコスクリーニング装置およびインシリコスク リーユング方法の実施の形態を図面に基づいて詳細に説明する。 なお、 この実施 の形態によりこの発明が限定されるものではない。
[本発明の概要]
:以下、 本発明の概要について説明じ、 その後、 本発明め構成および処理等につ レ、て詳細に説明する。
現在、 X線解析、 NMR実験、 電子線解析実験、 高分解能電子顕微鏡写真等の 実験によって、 ぺプチドゃ低分子化合物や金属等の種々の化合物が標的高分子と 直接相互作用をしている状態を示す、 約四万に至る数の三次元座標が PDB (P r o t e i n Da t a B a n k) に登録されている。 また、 コンピュータの 性能とバイオインフォマティクスの進歩により、 種々化合物が結合した、 標的高 分子タンパク質に立体構造が類似しているファミリー高分子タンパク質セットは、 SCOP等のゥェブサイ トゃ C A S Pで優秀な成績を示している本出願人が製作 したプログラム等により容易に得られ、 抽出できる。
この状態をふまえ、 本願発明者は、 従来一般的に古典物理学的に決められてい る標的高分子タンパク質に対する直接結合する当該化合物のコンフオメーシヨン
やその時得られるスコア値を利用した当該相互作用エネルギーの結果から化合物 のインシリコスクリーニングの順番を決める手法の代わりに、 標的高分子タンパ ク質に結合した種々化合物の集団的重なり状態を利用して、 バイオインフォマテ イクスを代用できれば、 人の敦智を基礎にした化合物のコンフオメーションやそ の時得られるスコア値を利用した相互作用エネルギーの結果から化合物のィンシ リコスクリーニングにより順番を決めることが可能となるはずであるとの着想を 得た。
本発明は、 上記着想に基づいて本願発明者により鋭意検討された結果完成され たものであり、 概略的に、 以下の基本的特徴を有する。 すなわち、 本発明は、 記 憶部と制御部を少なくとも備えた、 標的タンパク質に結合する候補化合物のスク リーニングを行うインシリコスクリーニング装置であって、 記憶部は、 化合物中 の複数個の原子に係る化合物指紋として、 原子タイプと原子間結合規則とを含む 化学記述子を、 候補化合物ごとに抽出して作成された化合物データベースを備え る。
ここで、 「化合物指紋」 (フィンガープリント : F P ) とは、 より具体的には、 化合物中の原子 2個、 3個ないじ 4個等の原子の原子ダイプと原子聞結合規則を 内包した化学記述子である。 「原子タイプ」 は、 一例として、 S y b y l原子タ ィプ (a t o m - t y p e ) や 「原子価タイプ」 (V a 1 e n c e— t y p e ) 等である。 「原子間結合規則」 は、 原子間の化学結合の状態を表すものであり、 例えば、 単結合や二重結合や芳香環結合等の結合規則や、 分子軌道法による分類 等を示すものである。
つづいて、 本発明のスクリーニング装置は、 標的タンパク質と立体構造が同一 または類似するフアミリータンパク質に結合することが既知の結合化合物につい て、 標的タンパク質の座標系に変換した三次元座標とともに化合物指紋を抽出し て結合化合物指紋セットを作成する。 すなわち、 標的タンパク質の座標系におい て、 その立体構造に結合した化合物集団の集団的コンフオメーシヨンを収集し、 三次元座標を対応付けて化合物指紋を抽出する。
ここで、 「標的タンパク質と立体構造が同一または類似するフアミリータンパ ク質」は、標的タンパク質自体でもよく、標的タンパク質の一部の構造(例えば、 活性部位やリガンド結合部位など) と同一または類似するタンパク質でもよく、 標的タンパク質の立体構造を解析して活性部位を指定することなく同一または類 似するタンパク質を用いてもよい。 安定コンフオメーシヨンが高いスコアを持つ ようにするために、 従来の D O C Kや A u t o D o c kや G O L Dなど既存のド ッキングソフトを使ってのドッキング計算では、 予め当該標的タンパク質の立体 構造を解析して活性部位を指定する必要があった。 しかし、 本発明では、 これら に比べて、 従来手法とは異なり高い効果を有し、 文献等の学習を通じて活性部位 を指定する必要がないので有用である。
また、 標的タンパク質のアミノ酸配列をクエリー配列として、 化合物に結合し たタンパク質の立体構造およびアミノ酸配列を記憶するタンパク質デ一タベース 等から相同性検索を行って、 標的タンパク質との構造重ね合わせにより構造の類 似性を表す指標が一定値以上となったタンパク質をフアミリータンパク質として もよい。 また、 ここで、 「タンパク質に結合することが既知の結合化合物」 には、 :X線構造解析や NMR構造解析等により実験的にタンパク質一化合物複合体の立 体構造が確認されたものでもよレ、。 また、 結合化合物は、 単にタンパク質に結合 することが既知であればよく、 公知のドッキングアルゴリズム (D O C K A u t o D o c kや G O L D等) や任意の座標発生プログラム (C o r i n aなど) 等により標的タンパク質に対して安定なコンフオメーシヨンを持つと予測された 化合物でもよい。
また、 ここで、 本インシリコスクリーニング装置は、 結合化合物の三次元座標 を標的タンパク質の座標系に変換するために、 フアミリータンパク質と標的タン パク質との構造重ね合わせ操作を行い、 フアミリータンパク質に結合した結合化 合物をフアミリータンパク質の座標系から標的タンパク質の座標系に結合化合物 の座標と共に変換してもよい。 例えば、 構造重ね合わせ操作は、 原子の種類を考 慮しないタンパク質同士の構造の重ね合わせアルゴリズム (C E等) によって実
行してもよく、 標的タンパク質とフアミリータンパク質との相同性が高い場合に は、 原子の種類を考慮した構造重ね合わせを行ってもよレ、。
また、 化合物指紋の抽出は、 結合化合物から直接抽出することに限らず、 標的 タンパク質に対する候補化合物の探索の狙レ、の必要に応じて任意の化合物指紋を 加えてもよレ、。 例えば、 結合化合物と異なる他の化合物を参照して構造重ね合わ せを行レ、、 結合化合物と他の上記化合物の原子間をまたがる新たな化合物指紋を 作成して結合化合物指紋セッ小に加えてもよく、 タニモト係数に基づき結合化合 物と類似する化合物について、 結合化合物と当該化合物の原子間で原子の種類を 入れ替え、 安定性を評価できるプログラム ( 「c i r c 1 e」 等) を用いて標的 タンパク質に対する相互作用エネルギーを算出して結合化合物の化合物指紋より も局所エネルギー的に安定な化合物指紋を 「改正化合物指紋 (Mo d i f i e d
FP) 」 として新たに作成して結合化合物指紋セットに追加してもよレ、。 すな わち、 標的タンパク質との結合に理想的な低分子化合物をリード化合物として、 相互作用エネルギーがよくなるようにいろいろな置換基を付加したり、 理想的な 低分子化合物に化合物指紋の定量化関数であるタニモト係数が非常に似た、 すな わち 1に近い任意の低分子化合物を見つける場合に、 化合物指紋領域を、 実験的 に解析済みの理想的な低分子化合物の周りの領域である 4または 5オングスト口 ームに限定する。 これにより、 それら化学構造が似ているタニモト係数が非常に 似た化合物のドッキング構造とその相互作用スコアを容易に計算できる。
つづいて、 本発明のインシリコスクリーニング装置は、 化合物データベースに 記憶された候補化合物について、 座標固定の結合化合物指紋セットの三次元座標 を基底として算出した化合物指紋単位の二乗平均偏差 (rms d : r o o t— m e a n— s q u a r e— d e v i a t i o n) を基礎とする相互作用スコアが最 適化されるように、 候補化合物の標的タンパク質に対する立体構造を演算する。 すなわち、 この最適化過程において、 本インシリコスクリーニング装置は、 一 例として、 候補化合物のコンフオメーシヨンを繰り返し変化させ、 候補化合物の コンフオメ一ション毎に候補化合物を剛体として繰り返し並進または回転させ、
二乗平均偏差を基礎として算出した相互作用スコアをメ トロポリス法に基づいて 判定し、 判定結果にしたがって候補化合物の化合物指紋を変更、 増加、 または減 少させる。 ここで、 化合物指紋をいくつかランダムに抽出して、 基底となる座標 固定の結合化合物指紋セットを選択してもよい。 また、 候補化合物の回転可能な 二面角をランダムに変更することによりコンフオメーシヨンを変化させる代わり に、 遺伝子ァルゴリズム等のように以前のコンフオメーションを記憶して候補化 合物の構造を変化させてもよレ、。
また、 上記最適化過程における相互作用スコアの計算は、 一例として、 化合物 指紋単位に二乗平均偏差を基礎とした、 候補化合物の、 標的タンパク質との衝突 具合、 標的タンパク質の相互作用領域における存在割合、 および、 標的タンパク 質との直接相互作用割合を考慮に入れた関数に基づいて計算される。 相互作用ス コアは、 より具体的には、 以下の数式 (1) に基づいて算出される。
[数 5]
tPAScore = F aligned fp, jp rmsa, molecule )
= BaseScore{aligned fp,Jp rmsd)
x jp volume{molecule)
y- fp _ contact _ surface molecule) ' (1) (ここで、 FPAS c o r eは相互作用スコアであり、 F (a 1 i g n e d_f p, f p_rms d, mo l e c u l e) は、 結合化合物と候補化合物間の化合 物指紋単位のァライメント度および二乗平均偏差、 ならびに、 候補化合物の標的 タンパク質に対する立体構造を変数とする関数であり、 B a s e S c o r e (a 1 i g n e d_f p, f p_rms d) は、 化合物指紋単位の一致度および密集 度を示す指標であり、 f p— V o 1 ume (mo l e c u l e) は、 結合化合物 指紋セットの三次元座標からなる空間を候補化合物が占める割合、 および、 標的 タンパク質との衝突具合を示す指標であり、 f p— c o n t a c t_s u r f a c e (mo 1 e c u 1 e)は、候補化合物の標的タンパク質との接触度、および、 結合化合物指紋セットの三次元座標への帰属度を示す指標である。 )
以上が、 本発明の処理の概要である。 このように、 最適化手法に従って計算さ れた相互作用スコアに基づいて、 候補化合物の標的タンパク質に対する相互作用 の順位が決定され、化合物データベースから有意な候補化合物が推定できるので、 タンパク質と化合物との結合を精度よく予測することができる一方で、 ヒットす る化合物を数多く選出することができ、 また、 生物化学的な実験等の情報を考慮 に入れた半経験的なスクリーニングを行うことができ予測効率を高めることがで さる。
すなわち、 本発明は、 標的タンパク質の立体構造に同一または類似しているフ アミリータンパク質に集団的に結合した種々の低分子化合物 (結合化合物) のコ ンフオメーシヨンが、 標的タンパク質と相互作用した最安定構造に近いことを考 察した結果なされたものである。 ざらに、 本発明は、 結合化合物と候補化合物と を对比する際に取り扱いやすい化合物指紋を単位として適切な相互作用スコアの スコア付けを行って最適化することにより、 従来手法よりも予測効率を高めた半 経験的なインシリコスクリーニングを行うことができる。
[インシリコスクリーニング装置の構成]
まず、 本インシリコスクリーニング装置の構成に いて説明する。 図 1は、 本 発明が適用される本インシリコスクリーニング装置の構成の一例を示すブロック 図であり、 該構成のうち本発明に関係する部分のみを概念的に示している。
図 1においてインシリコスクリーニング装置 1 0 0は、 概略的に、 インシリコ スクリーニング装置 1 0 0の全体を統括的に制御する C P U等の制御部 1 0 2、 通信回線等に接続されるルータ等の通信装置 (図示せず) に接続される通信制御 インターフェース部 1 0 4、 入力装置 1 1 2や出力装置 1 1 4に接続される入出 力制御インターフェース部 1 0 8、 および、 各種のデータベースやテーブルなど を格納する記憶部 1 0 6を備えて構成されており、 これら各部は任意の通信路を 介して通信可能に接続されている。 更に、 このインシリコスクリーニング装置 1 0 0は、 ルータ等の通信装置および専用線等の有線または無線の通信回線を介し て、 ネットワーク 3 0 0に通信可能に接続されている。
記憶部 1 0 6に格納される各種のデータベースやテーブル (候補化合物 D B 1 0 6 a〜医薬品化合物 D B 1 0 6 c ) は、 固定ディスク装置等のストレージ手段 であり、 各種処理に用いる各種のプログラムやテーブルやファイルやデータべ一 スゃゥェブベージ等を格納する。
これら記憶部 1 0 6の各構成要素のうち、 候補化合物 D B 1 0 6 aは、 インシ リコスクリーニングの候補となる化合物 ( 「候補化合物」 と呼ぶ。 ) ごとに化合 物指紋を抽出して作成された候補化合物データベース手段である。
また、 結合化合物指紋セット 1 0 6 bは、 標的タンパク質と立体構造が同一ま たは類似するタンパク質 ( 「ファミリ一タンパク質」 と呼ぶ。 ) に結合すること が既知の化合物 ( 「結合化合物」 と呼ぶ。 ) について、 標的タンパク質の座標系 に変換した三次元座標とともに化合物指紋を抽出して作成された結合化合物指紋 セットを記憶する結合化合物指紋記憶手段である。
また、 医薬品化合物 D B 1 0 6 cは、 既知の医薬品化合物について化合物指紋 を抽出して作成された医薬品化合物指紋セットを記憶する、 MD L CMC L i b r a r y等の医薬品化合物データベースである。 すなわち、 医薬品化合物 D B 1 0 6 cは、 医薬品データベースを使って化合物情報を引き出すために、'薬物 吸収や薬物代謝や薬物排泄や薬物毒性等を指標にして、 化合物指紋の整理の基底 としての基礎データ単位を使って、 予め整理した薬物吸収や薬物代謝や薬物排泄 や薬物毒性に特化した結合化合物指紋セット 1 0 6 bを作成するために用いられ る。
また、 図 1において、 通信制御インターフェース部 1 0 4は、 インシリコスク リーニング装置 1 0 0とネットワーク 3 0 0 (またはルータ等の通信装置) との 間における通信制御を行う。 すなわち、 通信制御インターフヱース部 1 0 4は、 他の端末と通信回線を介してデータを通信する機能を有する。
また、 図 1において、 入出力制御インターフェース部 1 0 8は、 入力装置 1 1 2や出力装置 1 1 4の制御を行う。 ここで、 出力装置 1 1 4としては、 モニタ ( 家庭用テレビを含む) の他、 スピーカを用いることができる (なお、 以下におい
ては出力装置 1 1 4をモニタとして記載する場合がある) 。 また、 入力装置 1 1 2としては、 キーボード、 マウス、 記録媒体読取装置等を用いることができる。 この入力装置 1 1 2を介して、 インシリコスクリ一ニングの対象となる標的タン パク質や候補化合物が入力される。
また、 図 1において、 制御部 1 0 2は、 O S (O p e r a t i n g S y s t e m) 等の制御プログラム、 各種の処理手順等を規定したプログラム、 および所 要データを格納するための内部メモリを有し、 これらのプログラム等により、 種 々の処理を実行するための情報処理を行う。 制御部 1 0 2は、 機能概念的に、 化 合物指紋作成部 1 0 2 a、 最適化部 1 0 2 b、 スクリ一ユング結果出力部 1 0 2 c、 相同性検索部 1 0 2 dを備えて構成されている。
化合物指紋作成部 1 0 2 aは、 候補化合物や結合化合物や医薬品化合物等の化 合物から化合物指紋を抽出する化合物指紋作成手段である。 例えば、 化合物指紋 作成部 1 0 2 aは、 入力装置 1 1 2を介して入力された候補ィヒ合物について化合 物指紋を抽出して候補化合物指紋セットを作成し候補化合物 D B 1 0 6 aに格納 する。 また、 化合物指紋作成部 1 0 2 aは、 取得した医薬品化合物から化合物指 紋を抽出して医薬品化合物指紋セットを作成し医薬品化合物 D B 1 0 6 cに格納 する。
また、 化合物指紋作成部 1 0 2 aは、 ファミリータンパク質に結合することが 既知の結合化合物について、 原子の三次元座標を標的タンパク質の座標系に変換 し、 変換した三次元座標とともに化合物指紋を抽出して結合化合物指紋セット 1 0 6 bを作成する。 すなわち、 化合物指紋作成部 1 0 2 aは、 標的タンパク質の 座標系において、 その立体構造に結合した化合物集団の集団的コンフオメーショ ンを収集し、 三次元座標に対応付けて化合物指紋を抽出する。 換言すれば、 化合 物指紋作成部 1 0 2 aは、 標的タンパク質に結合した化合物集団から化合物指紋 と呼ばれる原子 2個、 3個、 または 4個等の原子の原子タイプと原子間の結合規 則を内包した化学記述子を化合物記述子の三次元座標を伴って、 できる限り多く 抽出し、 それらを記憶部 1 0 6の中にデータベースの表として収納することによ
り結合化合物指紋セット 1 0 6 bを作成する。
ここで、 化合物指紋作成部 1 0 2 aは、 結合化合物の三次元座標を標的タンパ ク質の座標系に変換するために、 ファミリータンパク質と標的タンパク質との構 造重ね合わせ操作を行い、 フアミリータンパク質に結合した結合化合物の三次元 座標を、 (ファミリータンパク質の座標系から) 標的タンパク質の座標系に変換 してもよい。 例えば、 化合物指紋作成部 1 0 2 aは、 原子の種類を考慮しないタ ンパク質同士 (標的タンパク質とファミリータンパク質) の構造重ね合わせアル ゴリズム (C E等) によって構造重ね合わせ操作を行ってもよく、 標的タンパク 質とフアミリータンパク質との相同性が高い場合には、 原子の種類を考慮した構 造重ね合わせを行ってもよい。
また、 化合物指紋作成部 1 0 2 aは、 結合化合物から直接、 化合物指紋を抽出 することに限らず、 標的タンパク質に対する候補化合物の探索の狙いの必要に応 じて任意の化合物指紋を結合化合物指紋セット 1 0 6 bに加えてもよレ、。ここで、 化合物指紋作成部 1 0 2 aは、 図 1に示すように、 新規化合物指紋追加部 1 0 2 eを備えて構成される。 すなわち、 新規化合物指紋追加部 1 0 2 eは、 結合化合 物から直接抽出される化合物指紋以外の新規な化合物指紋を作成し結合化合物指 紋セット 1 0 6 bに追加する新規化合物指紋追加手段である。 例えば、 新規化合 物指紋追加部 1 0 2 eは、 結合化合物と異なる他の化合物を参照して構造重ね合 わせを行い、 結合化合物と他の上記化合物の原子間をまたがる新たな化合物指紋 を作成して結合化合物指紋セット 1 0 6 bに加えてもよい。 また、 新規化合物指 紋追加部 1 0 2 eは、 タニモト係数に基づき結合化合物と類似する化合物につい て、 結合化合物と当該化合物の原子間で原子の種類を入れ替え、 安定性を評価で きるプログラム ( 「c i Γ c 1 e」 等) を用いて標的タンパク質に対する相互作 用エネルギーを算出して結合化合物の化合物指紋よりも局所エネルギー的に安定 な化合物指紋を改正化合物指紋 (M o d i f i e d F P ) として新たに作成し て結合化合物指紋セット 1 0 6 bに追加してもよレ、。
最適化部 1 0 2 bは、 候補化合物 D B 1 0 6 aに記憶された候補ィヒ合物につい
て、 結合化合物指紋セット 1 0 6 bに記憶された化合物指紋の三次元座標を基底 として化合物指紋単位の二乗平均偏差 (r m s d ) を算出し、 当該二乗平均偏差 を基礎とする相互作用スコアが最適化されるように、 候補化合物の標的タンパク 質に対する立体構造を演算する最適化手段である。例えば、最適化部 1 0 2 bは、 生成した候補化合物の当該コンフオメーシヨンおよび標的タンパク質に対する三 次元座標ごとに、 二乗平均偏差を基礎として算出した相互作用スコアをメ トロポ リス法に基づいて判定し、判定結果にしたがって候補化合物の化合物指紋を変更、 増加、 または減少させる。 ここで、 最適化部 1 0 2 bは、 結合化合物指紋セット 1 0 6 bから化合物指紋をいくつかランダムに抽出して、 基底となる座標固定の 結合化合物指紋セットを選択してもよい。 ここで、 最適化部 1 0 2 bは、 図 1に 示すように、 相互作用スコア計算部 1 0 2 f 、 構造変換部 1 0 2 gを備えて構成 されている。
相互作用スコア計算部 1 0 2 f は、 最適化部 1 0 2 bによる最適化過程におい て、 化合物指紋単位に二乗平均偏差を基礎とした、 候補化合物の、 標的タンパク 質との衝突具合、 標的タンパク質の相互作用領域における存在割合、 および、 標 的タンパク質との直接相互作用割合を考慮に入れた関数に基づレ、て、 相互作用ス . コアを計算する相互作用スコア計算手段である。 なお、 相互作用スコア計算部 1 0 2 f による相互作用スコアの計算の具体例については、 以下の処理の説明で詳 細に述べる。
また、 構造変換部 1 0 2 gは、 最適化部 1 0 2 bによる最適化過程において、 候補化合物のコンフオメーシヨンを繰り返し変化させ、 シミュレティッドア二一 リング法に基づいて、 当該候補化合物のコンフオメーション毎に当該候補化合物 を剛体として繰り返し並進または回転させる構造変換手段である。 また、 構造変 換部 1 0 2 gは、 候補化合物の回転可能な二面角をランダムに変更することによ りコンフオメーシヨンを変化させる代わりに、 遺伝子アルゴリズム等のように以 前のコンフオメーシヨンを記憶して候補化合物の構造を変化させてもよレ、。
スクリーニング結果出力部 1 0 2 cは、 最適化部 1 0 2 bにより最適化された
相互作用スコアに基づいて、 候補化合物の標的タンパク質に対する相互作用順位 を決定して、 インシリコスクリーニング結果を出力する結果出力手段である。 相同性検索部 1 0 2 dは、 標的タンパク質のアミノ酸配列との相同性に基づい て、 フアミリータンパク質および結合化合物をタンパク質データベース装置から 検索する相同性検索手段である。 すなわち、 相同性検索部 1 0 2 dは、 結合化合 物を取得するために、 標的タンパク質のアミノ酸配列をクエリー配列として、 外 部システム 2 0 0等のタンパク質データベースに照会することにより相同性検索 を行い、 標的タンパク質に対して相同性を有するタンパク質に結合した構造が既 知の結合化合物を取得する。
図 1に示すように、 本インシリコスクリーニング装置 1 0 0は、 アミノ酸配列 情報ゃタンパク質立体構造情報に関する外部データベースや、 配列や立体構造の ァライメント等を行う外部プログラム等を提供する外部システム 2 0 0と、 ネッ トワーク 3 0 0を介して通信可能に接続して構成されてもよい。 なお、 ネットヮ ーク 3 0 0は、 インシリコスクリーニング装置 1 0 0と外部システム 2 0 0とを 相互に接続する機能を有し、 例えば、 インターネット等である。
すなわち、 図 1において、 外部システム 2 CTOは、7ネヅトワーク 3 0 0を介し て、 インシリコスクリーニング装置 1 0 0と相互に接続され、 アミノ酸配列情報 やタンパク質立体構造情報に関するタンパク質データベース等の外部データベー ス (P D B P S I— B 1 a s t等) や、 配列や立体構造のァライメント等を行 う外部プログラム等を提供する機能を有する。 ここで、 タンパク質データベース には、 X線構造解析や NMR構造解析等により実験的にタンパク質一化合物複合 体の立体構造が確認されたものに限らず、 単にタンパク質に結合することが既知 の化合物が保存されてもよい。 この場合、 上述の化合物指紋作成部 1 0 2 aは、 公知のドッキングアルゴリズム (00 1^ゃ八11 1: 0 0 0。 1^ゃ00 1^ 0等) や 任意の座標発生プログラム (C o r i n aなど) 等により、 標的タンパク質に対 して安定なコンフオメーションを持つ結合化合物の構造を予測して結合化合物指 紋セット 1 0 6 bの作成に利用する。
[インシリコスクリーユング装置 1 0 0の処理]
次に、 このように構成された本実施の形態における本インシリコスクリーニン グ装置 1 0 0の処理の一例について、 以下に図 2を参照して詳細に説明する。 図 2は、 インシリコスクリーユング装置 1 0 0の処理の一例を示すフローチヤ一ト である。
図 2に示すように、 まず、 相同性検索部 1 0 2 dは、 入力装置 1 1 2を介して 入力された標的タンパク質のアミノ酸配列に基づいて、 外部システム 2 0 0等の タンパク質データベースから特定の化合物 (結合化合物) と結合した立体構造が 既知のファミリータンパク質を相同性検索する (ステップ S A— 1 ) 。
そして、 化合物指紋作成部 1 0 2 aは、 標的タンパク質の構造と、 結合化合物 を伴ったファミリータンパク質の構造とを重ね合わせる (ステップ S A—2 ) 。 ここで、 化合物指紋作成部 1 0 2 aは、 原子の種類を考慮しないタンパク質同士 の構造重ね合わせを行ってもよく、 標的タンパク質とフアミリータンパク質との 相同性が所定値以上で高い場合には、 原子の種類を考慮した構造重ね合わせを行 つてもよい。
そして、 化合物指紋作成部 1 0 2 aは、 結合化合物の三次元座標を、 ファミ 一タンパク質の座標系から標的タンパク質の座標系に変換する (ステップ S A—
3 )。
そして、 化合物指紋作成部 1 0 2 aは、 標的タンパク質の座標系に変換した結 合化合物の三次元座標とともに、 結合化合物から化合物指紋を抽出して記憶部 1 0 6に格納することにより結合化合物指紋セット 1 0 6 bを作成する (ステップ S A- 4 ) 。 ここで、 新規化合物指紋追加部 1 0 2 eは、 標的タンパク質に対す る候補化合物の探索の狙いの必要に応じて任意の化合物指紋 ( 「M o d i f i e d F P」 等) を加えてもよい。 また、 化合物指紋作成部 1 0 2 aは、 結合化合 物指紋セット 1 0 6 bに記憶された化合物指紋セットと医薬品化合物 D B 1 0 6 cに記憶された化合物指紋セットとの積集合を求めることにより医薬品化合物に 似た構造の絞り込みをかけてもよい。
そして、 最適化部 1 0 2 bは、 候補化合物 D B 1 0 6 aに記憶された候補化合 物についての相互作用スコアの計算の基底となる座標固定の化合物指紋を結合化 合物指紋セット 1 0 6 bから選出する (ステップ S A— 5 ) 。
そして、 最適化部 1 0 2 bは、 候補化合物について、 選出した化合物指紋の座 標固定の三次元座標を基底として化合物指紋単位の二乗平均偏差を算出して最小 自乗フィッティングを行い、 当該二乗平均偏差を基礎とする相互作用スコアが最 適化されるように、 候補化合物の標的タンパク質に対する立体構造を演算する ( ステップ S A— 6 ) 。 すなわち、 最適化部 1 0 2 bは、 相互作用スコア計算部 1 0 2 f の処理により、 結合化合物指紋セット 1 0 6 bから任意に選ばれた、 標的 タンパク質の座標固定の化合物指紋を基底として化合物指紋同士の三次元座標の 二乗平均偏差を基礎とした相互作用スコアを算出する。 そして、 最適化部 1 0 2 bは、 相互作用スコアを指標として、 構造変換部 1 0 2 gの処理により変換され た候補化合物のコンフオメーションおよび標的タンパク質に対する構造が最適化 されるように、 メ トロポリス法を基本にしたシミュレティッドアニーリング法を 実行する。
そして、 スクリーニング結果出力部 1 0 2 cは、 最適化部 1 0 2 bにより最適 . 化された相互作用スコアに基づいて、候補ィヒ合物 D B 1 0 6 a中の候補化合物の、 標的タンパク質に対する相互作用順位を決定して、 インシリコスクリーニングの 結果を出力装置 1 1 4に出力する (ステップ S A—7 ) 。 例えば、 スクリーニン グ結果出力部 1 0 2 cは、 最適化部 1 0 2 bにより各候ネ翁ィヒ合物ごとに得られた 最高点の相互作用スコアについて降順に候補化合物群を並べ替えて出力する。
以上で、 インシリコスクリーニング装置 1 0 0の処理が終了する。
[相互作用スコアの算出]
つぎに、 相互作用スコア計算部 1 0 2 f による相互作用スコアの計算方法の一 例を以下に説明する。 相互作用スコア計算部 1 0 2 f は、 化合物指紋単位に二乗 平均偏差を基礎とした、 候補化合物の、 標的タンパク質との衝突具合、 標的タン ノ、"ク質の相互作用領域における存在割合、 および、 標的タンパク質との直接相互
作用割合を考慮に入れた関数に基づいて相互作用スコアを計算する。 より具体的 には、 相互作用スコアは、 以下の数式 (1) に基づいて算出される。
[数 6]
FPAScore = F^aligned fp,fp rmsa , molecule)
= BaseScore{aligned fp,fp rmsdヽ
x fp volume(molecule)
x fp _ contact _ surface(molecule) ( i ) (ここで、 F PAS c o r eは相互作用スコアであり、 F (a 1 i g n e d_f p, f p_r m s d, mo l e c u l e) は、 結合化合物と候補化合物間の化合 物指紋単位のァライメント度および二乗平均偏差、 ならびに、 候補化合物の標的 タンパク質に対する立体構造を変数とする関数であり、 B a s e S c o r e (a 1 i g n e d_f p, f p— r m s d) 〖ま、 化合物指紋単位の一致度および密集 度を示す指標であり、 f p— v o l um e (m o 1 e c u 1 e ) は、 結合化合物 指紋セットの三次元座標からなる空間を候補化合物が占める割合、 および、 標的 タンパク質との衝突具合を示す指標であり、 f p_c o n t a c t_s u r f a c e (mo 1 e c u 1 e)は、候補化合物の標的タンパク質との接触度;および; 結合化合物指紋セットの三次元座標への帰属度を示す指標である。 )
更に具体的には、 上記数式 (1) における各項は、 本実施の形態において以下 の数式に基づいて算出される。
^B a s e ^ c o r e 、 a l i g n e d― ι p , i p― r m s d) の項
この項は、 化合物指紋単位の一致度および密集度を考慮した関数である。
[数 7]
BaseScore(aligned _fp,fp_ rmsd) = ~ ^
~ \ + \n(fp_rmsd +1) (2)
(ここで、 R a wS c o r e (a l i g n e d— f p) は、 結合化合物と候補化 合物間でァライメントされた化合物指紋における原子の数に基づく指標であり、 f p— r m s dは、 二乗平均偏差である。 )
上式の R a w S c o r e i g n e d f p) は、 具体的には以下の数式 (3) により算出される。
[数 8]
RawScore(aligned fp) = > assigned _ score{i)
(3)
(ここで、 a s s i g n e d—s c o r e ( i ) は、 i番目にァライメントされ た化合物指紋にあらかじめ与えられた以下の式に基づくスコアである。 ) 更に詳細には、 a s s i g n e d— s c o r e ( i ) は、 以下の数式 (4) で 求められる。
[数 9]
^Casel S + ln(« neignbor _ atom{i) + 1) assigned scores 11 = 〉 Case! S + ln(n _ neighbor― atom(i) + 1)
7=1
^ Case3 S + ln(n neighbor _ atom(i) +1)
7=1 (4)
(ここで、 t o t a l _a t om ( i ) はその i番目にァライメントされた化合 物指紋を構成する原子の数であり、 例えば、 4原子からなる化合物指紋の場合は 4である。 C a s e 1— S, C a s e 2_S, C a s e 3— Sは、 下記で述べる 条件を満たした場合与えられるスカラー値である。 n_n e i g h b o r_a t o m ( i ) は後述するが i番目の原子セットに近接する同じ化合物指紋に属する 原子の数である。 )
例えば、 C a s e 1_Sについては、 結合化合物指紋セットに存在する一つの 結合化合物に対して、 深さ優先探索 (d e p t h— f i r s t s e a r c h) ( "Cアルゴリズム全科 基礎からグラフィクスまで I S BN4— 764 9 - 0 2 3 9 - 7 近代科学社" 参照) を 4原子まで行う (例えば、 C. a r -N. a r -C. a r -C. a r等の化合物指紋) 。 本実施の形態では、 4原子までで探
索を終えているので、 環構造の数は考慮されない。 すなわちベンゼン環とナフタ レン環は区別されない。 探索に成功した場合、 化合物指紋を構成する各原子にス コア (C a s e 1_S) が与えられる。 ここでは、 一つの原子あたりのスカラー 値を 5. 0とする。 すなわち、 4原子で構成される化合物指紋には 20. 0、 3 原子なら 1 5. 0と与えられる。
また、 C a s e 2— Sは、 C a s e 1で得られた化合物指紋を用いて新たな化 合物指紋が作成された場合であって、 ある一定の距離で重なり合う任意の二つの 化合物指紋をえらび、 原子を仮想的な結合で結び、 新たな化合物指紋を作成し、 各原子にある一定のスコアのことである。 デフォルトは 2. 5を用いてもよい。 また、 C a s e 3— Sは、 生物化学的情報や、 エネルギー計算により原子の存 在の可能性がある場合に与えられる任意のスカラー値である。 ここで、 C a s e 3— Sは、 トレーニングセットを使用した検証計算では用いていない。
ここで、 上記の C a s e 1_S, C a s e 2 _Sの作成過程で得られた化合物 指紋は結合規則情報と原子タイプの識別できる既知医薬品データベースから得ら れる化合物指紋セッ卜に属していなければならない。 また、 C a s e 1— Sと C a s e 2— S, C a s e 3— Sの作成過程において、 同一化合物指紋に属する座 標間において、 原子座標セットとそのほかの原子との距離が d i s t (デフオル トは 1. OA) 以内にある原子の個数の自然対数を f pの座標のスコアに加算す る。 なお、 結合化合物において、 化合物の殆どがアミノ酸残基のつながったぺプ チドの場合、 ペプチド基が多く化合物指紋の対応関係が複雑になるので、 その対 応関係を相互作用スコアの計算過程で過小評価して、 R a wS c o r eについて の上記の数式において、 ペプチドの部分の化合物指紋の数式 (3) に該当する部 分をゼロ等の過小評価の数字にしてもよレ、。
上記数式 (2) の右辺分母は、 以下の数式 (5) で求められる。
[数 1 0]
1.0 + ln(fp_rmsd**kl + 1.0 ) (5)
(ここで、 1 nは、 ログナチュラルである。 k lは、 最適化した結果として 4. 0を用いる。 f p— r m s dは、 最小二乗重ね合わせの時の r m s dである。 k 1は、 f pの重ね合わせの精度をどこまで厳密にするかをきめるスケール因子で あり、 大きくした場合に、 rms dが大きく (悪く) 、 すなわち数式 (3) の R awS c o r e (スコア) が小さくなるような定数である。 )
、 f p一 V o 1 u m e (m o 1 e c u 1 e ) の項
この項は、 結合化合物指紋セットの三次元座標からなる空間を候補化合物が占 める割合、 すなわち結合化合物指紋セットより得られた化合物指紋からなる空間 をどの程度満たしている力 \ お び、 標的タンパク質との衝突を評価する関数で ある。
[数 1 1]
fp _ volumei molecule) = In ^ττ
一 \.0 + napk3 (6)
(ここで、 n a f p (Numb e r o f L i g a n d A t om c o v e r i n g F i n g e r p r i n t) は、 結合化合物指紋セッ卜の三次元座標に 基づく固有格子点領域に候補化合物の三次元座標が占有する格子点の数であり、 n a p (Numb e r o i L i g a n d At om c o v e r i n g P r o t e i n) は、 標的タンパク質の立体構造における原子の固有格子点領域に 候補化合物の三次元座標が属する格子点の数であり、 k 2および k 3は、 それぞ れ係数であり、 標的タンパク質の生物化学的情報、 誘導適合の程度等によって変 更可能な任意の定数であり、 本実施の形態では、 デフォルトに 1. 0を用いる。 )
、 f p― c o n t a c t s u r f a c e (m o 1 e c u 1 e ) の項
この項は、 候補化合物の標的タンパク質との接触度、 および、 結合化合物指紋 セットの三次元座標への帰属度を考慮した関数である。
(ここで、 nは、 候補化合物の原子の数であり、 a t om ( i) は、 候補化合物 の i番目の原子の三次元座標であり、 d e n s i t y— o f _a t orn (a t o m (i) ) は、 当該原子の三次元座標が結合化合物指紋セッ トの化合物指紋に属 している場合に、 化合物指紋の原子と所定の距離で接触している標的タンパク質 の原子の数と、 化合物指紋の同一格子点に属する結合化合物の原子の数との和を 返す関数であり、 t o t a l― d e n s i t y一 o f― a t orn (mo 1 e c u
1 e) は、 d e n s i t y— o f _a t o mの分布を降順に並べ換えたものを候 補化合物の原子の数だけ順に足し合わせた数である。 )
更に詳細には、 d e n s i t y_o f— a t o m ( a t o m ( i ) ) は、 以下 の数式 (8) で表される。
[数 13]
この式において、 もし、 候補化合物を構成する原子の座標が、 結合化合物指紋 セット由来の化合物指紋に属していない場合は 0となり、 属している場合は上記 の式に従い、 スコアが計算される。
すなわち、 n f p c o n t a c tは、 化合物指紋に属している原子とある一定 の距離(デフォルトは、 3. 8)で接触している候補化合物の原子の個数である。 また、 n a t omは、 同一格子点に属する結合化合物セット由来の化合物を構成 する原子の数となる。 同じ結合化合物であって、 PDBの I Dコードが違う場合 について、適宜変更可能となるが、本実施の形態では重複を許して数える。また、 h iは、 特に重要な生化学的情報がある場合に使用するものであり、 デフオノレト では 0を用いる。 すなわち、 「C i r c 1 e」 などの 3 D— 1 D法によって、 標
的タンパク質との安定的な接触が示唆された場合に導入される Mo d i f i e d FP (改正 FP) によって生じる。
次に、 t o t a 1― d e n s i t y― o f一 a t o m (mo 1 e c u 1 e ) の 数式にっレ、て以下に記述する。
[数 14] total aensity of atom(molecule) =〉 sort density of atom{i)
― — ― (9)
(ここで、 t o t a 1は、 化合物の原子 (mo l e c u l eの a t om) 数であ 0。 また、 s o r t― d e n s i t y― o f― a t omは、 d e n s i t y一 o f_a t omの分布を大きい方から順に並べ替えたものである。 つまり、 分子が 大きいと大きい数値が加算されるので t o t a 1— d e n s i t y_o f— a t omは大きくなる。 )
以上で、 相互作用スコア計算部 102 f による相互作用スコアの計算方法の一 例の説明を終える。
[シミュレティッドアニーリングによる相互作用スコアの最大化]
つづいて、 上述した相互作用スコアの計算方法により計算された相互作用スゴ ァに基づいて、 最適化部 102 bによるシミュレティッドアニーリングに従って 候補化合物のコンフオメーシヨンおよび配置を最適化する処理の一例について以 下に説明する。
最初に、 構造変換部 102 gは、 候補化合物の回転可能な二面角をランダムに 変更することにより、 コンフオメ一シヨンを変化させる。 本実施の形態では、 コ ンフオメーシヨン変化は、 1000回行う。 この数は多ければ多いほど良い結果 が得られる可能性があるが、 バ一チャルな候補化合物 DB 106 aに含まれる多 くの低分子化合物についてドッキング計算を行う必要があるので、 有限な回数の 大きさとする必要があり、 候補化合物の回転自由度に依存するとしても予備計算 ではこの回数で十分と考える。 なお、 初期のコンフオメーシヨンは、 候補化合物 DB 106 aに登録された、 ファミリータンパク質に対する結合コンフオメーシ
ヨンとしてもよレ、。 最適化部 1 02 bは、 この変化させたコンフオメーシヨン毎 に、 以下の処理で候補化合物の座標を用いる。
そして、 最適化部 1 02 bは、 結合化合物指紋セット 1 06 bの化合物指紋バ ンド (f p b a n d s) から、 ランダムに 1 0個の化合物指紋を選ぶ。 なお、 1 0個に満たない場合は、 化合物指紋バンドの最大数の半分を用いる。 より具体 的には、 選択された化合物指紋バンドから、 候補化合物および結合化合物指紋セ ット 1 06 bの化合物指紋の原子座標をランダムに選択する。 この状態を、 フィ ンガ一プリント ·ァライメント ( f i n g e r p r i n t a 1 i g nme n t ) と呼ぶ。 そして、 その対応関係で、 最小二乗フィッティングを行い、 そのとき の重ね合わせの自乗平均偏差 (rms d) と重ね合わせ後の候補化合物の原子座 標を用いて、 上記の式により相互作用スコアを計算する。
そして、 構造変換部 1 02 gは、 繰り返し二回目以降は前回の状態を記憶部 1 06に記憶しておき、 候補化合物のコンフオメーシヨンを保ったまま、 すなわち 候補化合物を剛体として、 並進、 回転を行い、 一つの化合物指紋の増加、 減少、 および、 原子座標セッ トの対応関係の変更、 追加を行う。 本実施の形態では、 こ のステップを 1 0000回おこなう。
この過程において、 最適化部 1 02 bは、 メ トロポリス (Me t r o p o l i s) 判定を行う。 すなわち、 最適化部 1 02 bは、 前回の相互作用スコアより、 今回の相互作用スコアが大きいならば、 当該候補化合物の配置を採用 (a c c e p t) し、 反対に、 相互作用スコアが小さいならば、 以下の数式に基づき採用確 率 (P a c c e p t) を計算する。
[数 1 5]
△Score = Score (今回) ― Score (前回) AScore
Paccept = exp
T
すなわち、 採用確率 P a c c e p tの範囲は、 0く P a c c e p tく = 1とな
るので、 最適化部 102 bは、 このとき同時に 0 < = r < = 1の範囲の一様乱数 を発生させ、 rく P a c c e p tならば、 相互作用スコアが前回よりも小さい場 合も採用する。 なお、 シミュレティッドアニーリング (焼きなまし) 過程におい て、 T (温度) は、 30Kからはじめ、 0. 07Kまで下げる。
このようにして、 最適化部 102 bは、 一つのコンフオメーシヨンの相互作用 スコアの最大値を計算し、 初期に発生させた 1000個のコンフオメーシヨンに ついて比較し、 相互作用スコアが最大の構造を、 最適な標的タンパク質一候補化 合物複合体 (P r o t e i n— L i g a n d c omp l e x) 構造として予測 する。このとき、 1000個のコンフオメーシヨンを順位付けする過程において、 ランダムにコンフオメーションを発生させる代わりに遺伝的アルゴリズム等を利 用するなどして、 以前のコンフオメーションを記憶して何らかのアルゴリズムで リガンド構造を変えていき、 計算時間や最大値の探索において工夫を行ってもよ い。 1000回の計算過程で、 リガンドコンフオメーシヨンの順番を決めるため に、 G O L Dプログラムで採用されているような遺伝子アルゴリズム等を使って、 計算時間の短縮やリガンドコンフオメーションがより真実に近づく可能性のある 最小スコアを得ることできる。
以上で、 シミュレテイツドアニーリングによる相互作用スコアの最大化の説明 を終える。
[タニモト指数]
化合物指紋セットを作る際に、 化合物間の類似を計る尺度として、 たとえば、 タニモト係数 (T c) が 0. 08以上の低分子化合物のセットを用いてもよい。 S y b y 1原子タイプのような各々の化合物の化合物指紋である化学記述子から 化合物指紋 (f p) を決める場合、 タニモト係数 (Tc) は下記のように算出す る。
[数 16 ]
Tc =
(ここで、 aは、 化合物指紋が、 結合化合物と候補化合物の両方の FPバンド ( f p b a n d s) に存在する個数であり、 b, cは、 f pが片方の FPバンド にのみ存在する個数である。 )
同じことを集合 (a s s emb 1 y) を使って説明すると、 A, Bをそれぞれ の FPバンドが持つ化合物指紋の集合とするならば、以下の式になるともいえる。
[数 1 7]
T number of fp^ A B)
number oj Jp(A B)
(ここで、 numb e r一 o f一 f p (a s s emb l y) は、 ある集' 5、 ( a s s emb 1 y) に所属する化合物指紋の数である。 )
以上で、 タニモト指数の説明を終える。
[実施例 1 ]
次に、 本発明が適用される本実施の形態の実施例 1について、 以下に図 3〜図 29を参照しながら詳細に説明する。 なお、 以下の実施例においては、 結合化合 物指紋セット 106 bを 「CE l i bJ (FP (f i n g e r p r i n t) s e t e x t r a c t e d f r om c o l l e c t e d 1 ι g a ri d s ι n t h e b i n d i n g s i t e) という名称で呼ぶことがある。
[リガンドドッキングについての生物学的情報を半経験的に選択する方法の開発 (De v e l o pme n t o f c h o o s i n g b i o l o g i c a l i n f o rma t i o n s em i— emp i r i c a l l y o n t e L i g a n d Do c k i n g) ]
近年、 計算機の速度の向上により、 医薬品開発の分野においてタンパク質の立 体構造予測法、およびその立体構造の評価 [参考文献: T e r a s h i G, T a k e d a— Sh i t a k a M, K a n o u K, I w a d a t e M, Ta k a y a D, Ho s o i A, O h t a K, Um e y a m a H P r o t e i n s, 2007, 69 (S 8) : 98- 107] は改良されて いる。 例えば、 タンパク質の立体構造の予測法の一つであるホモロジ一モデリン
グ (Homo l o g y Mo d e l i n g) は、 PDB (P r o t e i n Da t a Ba nk) [参考文献: We s t b r o o k e t a 1 Nu c l e i c Ac i d s Re s. 2003 J a n 1 ; 31 (1) : 489— 91 ] へ登録される構造の増加と、 膜タンパク質を除いて参照する铸型 (Temp i a t e) の増カ卩と、 および、 CASP (t h e C r i t i c a l As s e s s m e n t o f Te c hn i qu e s i o r P r o t e i n o t r u c t u r e P r e d i c t i o n)におけるブラインドテスト(b 1 i n d t e s t) によって、 その予測精度は上昇している [参考文献: T a k e d a— S h i t a k a, M. , Te r a s h i , G. , Ta k a y a, D, K a n o u , K. , I wa d a t e, M. , Ume y ama, H. P r o t e i n s t r u c t u r e p r e d i c t i o n i n CASP 6 u s i n g CH IMERA a n d F AMS. P r o t e i n s 61, 122- 127 (2005) ] 。 そして、 当該ホモロジーモデリングは、 立 体構造予測法の適用範囲は変異 (mu t a t i o n) の影響による活性変化の予 測 [参考文献:中町祐司, 河野誠司, 矩ロ眞理子, 野口依子, 木下承皓, 加納和 彦, 寺師玄記, 竹田一志鷹真由子, 近藤信一, 熊谷俊一, P04 08 "A 1 a 54Th rおよび A 1 a 249 G 1 u変異 An t i t h r omb i nのコンビ ユータ .モデリング解析" ] 、 ドラッグデザィン [参考文献: Ta k e d e— S h i t a k a, M. , Ta k a y a, D. , Ch i b a, C. , T a n a k a , H. , & Ume y ama, H. Cu r r. Me d. C h em. 1 1, 551— 558 ( 2004 ) ] などに広がっている。 また、 PDBへ登録されるタンパク質の立体構造の増加と共に、 タンパク質一 リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の X線構造 解析結果も増加しており、 一つのファミリ一タンパク質内において、 解析済の複 数の X線構造が存在することも多い [参考文献: Ed g a r R. Wo o d e t a 1 CANCER RESEARCH 2004 64 6652-66 59 , 参考文献: J e nn i f e r e t a 1 J. B i o. C h e m.
2002 Vo l . 277, No. 48, 46265— 46272]。 また、 前述の CAS Pにおいても、 タンパク質の結合部位 (b i n d i n g s i t e) の残基を予測する試験を行うなど [参考文献: L o p e Z, G, R o j a s , A, T r e s s, M, Va l e n c i a, A P r o t e i n s, 2007, 69 (S 8) : 165— 1 74] 、 タンパク質一リガン ド複合体 (P r o t e i n— L i g a n d c omp l e x) の予測精度の向上 の重要性は高まりつつある。
一方で、 近年、 疾病原因タンパク質の実験的決定が盛んであり (参考文献: N a t u r eなど) 、 そのタンパク質を阻害する阻害剤の設計の必要性はますます 高まっている。
阻害剤の設計のための有力な方法として、 標的タンパク質の立体構造に基づい た阻害剤設計 (SBDD) があり、 タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) 予測ソフト (いわゆるドッキングソフト) を用いたインシリコ (I n— s i l i c o) スクリ一ニングが行われている。 こ こで、 図 3は、 従来のドッキングソフトと、 タンパク質一リガンド複合体の多数 の X線構造や NMR構造を効果的に用いたバイオインフォ ティグスによる本実 施例に係るドッキング方法を示す状況図である。
図 3に示すように、 既存のドッキングソフトにおいては、 Au t oDo c k [ 参考文献: Go o d s e l l e t a 1 J - Mo 1. Re c o g n i t 1996 9 1 -5] , DOCK [参考文献: Ew i n g e t a 1 J Comp u t A i d e d Mo 1 De s. 2001 15 (5) 41 1-28] , GOLD [参考文献: Ga r e t h e t a 1 J. Mo 1.
B i o l . 1997 267, 727— 748] などは水素結合、 疎水性 相互作用、 静電相互作用といった古典物理的なポテンシャル関数を用いた第一原 理的アプローチ (Ab_ i n i t i o Ap p r o a c h) を採用している。 さ まざまな検証によって、 これらの既存のソフトはよい精度でドッキングできてい る (たとえば正解構造を隠したブラインドテスト (b 1 i n d t e s t) によ
つて正解構造に rm s d 2. 0以下で予測できる割合を検証されている) [参考 文献: O n o d e r a e t a 1 J . Ch em. I n f . Mo d e 1.
2007, 4 7, 1 609— 1 6 1 8, 参考文献: M i c h a e 1 e t a 1 J . Me d. Ch em. 200 7, 50, 726— 74 1] 。 また、 回転可能な結合が多い化合物を精度よく ドッキングするために、 リガン ド結合部位 (l i g a n d b i n d i n g s i t e) に予め化合物のフラグ メントを、 ポテンシャル関数をもちいて配置しておくといった方法も考案されて いる [参考文献 ·· B u d i n e t a 1 B i o l Ch em. 200 1 3 82 (9) , 1 365— 72] 。
既存のドッキングソフトを用いて仮想化合物ライブラリーから、 標的タンパク 質に阻害剤候補化合物をドッキングし、 タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の構造を予測した後、 ヒット化合物 ( H i t C omp o u n d) を選ぶために、 既知のタンパク質—リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の構造からタンパク質とリ ガンド間の距離、 古典物理学的エネルギーの計算などを行い、 相互作用情報を抽 出し; ヒット化合物を数多く選ぶための再評価を行う試みも多く報告されている [参考文 : S u k uma r a n e t a 1 Eu r . J . Me d. し h em. 2007, 42, 966— 9 76, 参考文献: Z h a n e t a 1 J . Me d. Ch em. 2004, 47, 337— 344] 。 し力 し、 上記一連の研究が示していることは、 既存のドッキングソフトはよい 精度でタンパク質—リガンド複合体 (P r o t e i n— L i g a n d c o m p l e x) を予測できるものの、 そのことが直接にヒッ ト化合物 (H i t C om p o u n d) を数多く仮想化合物ライブラリーから選ぶこととは一致しない (直 結しない) ことを意味している。
すなわち、 現在、 タンパク質一リガンド複合体 (p r o t e i n— l i g a n d c omp l e x) の構造を精度よく予測できる一方で、 なおかつ、 バーチヤ ルライブラリからヒット化合物 (H i t C omp o u n d) を多く検出できる
システムを開発することが非常に要請されており、 創薬において必要不可欠であ る。
そのような状況の中、 本願発明者は、 タンパク質一リガンド複合体 (P r o t e i n-L i g a n d c omp l e x) 相互作用の評価に古典物理学的なポテ ンシャル関数を用いず、 PDBに登録されている相互作用既知のタンパク質ーリ ガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の生物化学的 情報から効率的に有効な情報を選び出し、 ドッキングを行いタンパク質一リガン ド複合体 (P r o t e i n— L i g a n d c omp l e x) の構造を予測し、 かつ、 ヒット化合物 (H i t Comp o un d) を多く検出できるシステム C h o o s e LD (CHOO s e i n i o rma t i o n s em i— Emp i r i c a l l y on t h e L i g a n d Do c k i n g) を 発した。 また、 本願発明者の方法では、 タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の相互作用評価において、 古典物理学的ポテン シャル関数を使用していない。 したがって、 本発明の方法は、 相互作用の物理学 的エネルギーが最適化されているとは言えないタンパク質一リガンド複合体 (P r o t e i n-L i g a n d c omp l e x) 構造の最適化において物理的な アプローチである CHARMM [参考文献: B r o o k s, R. B, B r u c c o l e r i , E. R. , O l a f s o n, D. B. , S t a t e s, J . D. , Swam i n a t h a n, S . & K a r p 1 u s , M. CHARMM: A p r o g r am f o r ma c r omo l e c u l a r e n e r g y , m i n i m i z a t i o n, a n d d y n am i e s c a l c u l a t i o n s J . C omp. Ch em. 4 1 87- 217 (1983) ] , AMBER [参考文献: C a s e, A. D. , Ch e a t h am I I I, E . T. , D a r d e n , T. , o h l k e, H. , Lu o, R. , Me r z J r . , M. K. , On u f r i e v, A. , S i mm e r 1 i n g , C. , Wa n g, B. & Wo o d s, J. R. Th e Amb e r B i omo l e
c u 1 a r S i mu l a t i o n P r o g r ams J C o m p u t C h em 26 1668— 1688 ( 2005 ) ] および、 量子化学 [参考文 献: F e d o r o v, G. D. & K i t a u r a, K. Ex t e n d i n g t h e Powe r o f Qu a n t um Ch em i s t r y t o La r g e Sy s t ems w i t h t h e F r a gme n t M o l e c u l a r Or b i t a l Me t h o d J . Phy s. Ch e m. I l l 6904— 6914 ( 2007 ) ] が有効に機能すると期待し ている。
[本実施例 1の概要]
ここで、 本実施例の概要について、 以下に図 4を用いて説明を行う。 図 4は、 本実施例 (Ch o o s e LD) によるタンパク質一リガンド ' ドッキングの原理 構成図である。 ここで、 本実施例において、 ライブラリーリガンド (L I BRA RY L I GANDS) は結合化合物の集合に相当し、 CEL i bは結合化合物 指紋セット 106 bに相当する。
ここで、 図 4において、 各円柱は、 データの集合を表しており、 楕円は入力情 報、 長方形は出力構造を示している。 平行四辺形は、 化学記述子としての化合物 指紋 (FP : f i n g e r p r i n t) である。 すべての過程は計算機 (インシ リコスクリーニング装置 100) 上でおこなわれるため、 入力する情報は電子情 報としてのファイルである。 すなわち、 PDB形式に代表されるような形式で記 載された標的タンパク質の三次元座標ファイル、 ドッキングされるリガンドの三 次元座標ファイルを想定している。
図 4におレ、て、 矢印はおもにデータの集合の絞り込みや入力情報の修飾といつ た変換操作を意味しており、 変換操作には詳細な条件を指定することができる。 ただし、 これらの変換操作には既定の値を定めており、 入力情報がファイル形式 的に、 かつ、 入力されたタンパク質の座標が物理化学的に正常であるならば、 全 自動で出力を得ることができる。 すなわち、 標的タンパク質の三次元座標フアイ ルとドッキングされる候補リガンドの三次元座標フアイルを入力したならば、 タ
ンパク質一リガンド複合体構造の三次元座標ファイルが出力されるということで ある。 タンパク質の三次元座標および、 アミノ酸配列は、 ホモロジ一検索、 結合 化合物指紋セット 1 06 bに相当する F Pライブラリ一の構築、 ドッキング計算 のためのタンパク質立体構造の三次元座標として用いられ、 ターゲットの候補リ ガンドは、 候補化合物に相当し、 候補タンパク質特異的 FPバンド、 リガンドの 三次元コンフオメーシヨン探索に使用される。
すなわち、 図 4に示すように、 まず、 本実施の形態に係るインシリコスクリー ユング装置 1 00は、 相同性検索部 1 02 dの処理により、 標的タンパク質につ いて PDB等のタンパク質構造データベースに対して、 相同性検索を行い、 化合 物指紋作成部 102 aの処理により、 相同なタンパク質と構造ァライメントによ り重ね合わせ (f i t t i n g) を行い、 標的タンパク質の座標系に変換した三 次元座標とともに化合物指紋を抽出して、 結合化合物指紋セット 106 bに相当 する標的タンパク質指向性リガンド群 (C) を作成する。
そして、 インシリコスクリーニング装置 1 00は、 標的タンパク質指向性リガ ンド群 (C) を、 医薬品化合物 DB 1 06 cに相当する医薬品的 (d r u g g a b 1 e)- F Pデータベース (D) に照会し、 積集合 Λ '(D) として標的タ ンパク質特異的 FPバンド (L) を得る。 ここで、 標的タンパク質指向性リガン ド群 (C) には、 新規化合物指紋追加部 1 02 eの処理により、 Mo d i f i e d F P等の仮想 F Pを追加していてもよレ、。
つづいて、 インシリコスクリーニング装置 1 00は、 仮想リガンドライブラリ 一またはベンチマークセットの、 標的タンパク質とドッキングを行うリガンド ( d o c k e d l i g a n d) である候補リガンドから化合物指紋を抽出し、 候 補化合物 DB 106 aに相当する候補リガンドの F Pバンド (R) を作成する。 そして、 インシリコスクリーニング装置 1 00は、 構造変換部 1 02 gの処理 により、 候補リガンドのコンフオメ一シヨンを変化させ、 標的タンパク質指向性 リガンド(C) と候補リガンドの FPバンド(R)間で F Pァライメントを行う。 そして、 インシリコスクリーニング装置 1 00は、 最適化部 1 02 bの処理に
より、 相互作用スコア関数を用いて標的タンパク質の結合部位に候補リガンドを ドッキングさせる場合に、 シミュレティッドアニーリング (SA) 法を用いて相 互作用スコアを最適化させながら、 標的タンパク質一候補リガンド複合体の三次 元構造予測を行う。 以上が本実施例の概要である。
[ライブラリーリガンド]
ライブラリーリガンド (L I BRARY L I GANDS) とは、 結合化合物 の集合に相当するものである。 すなわち、 インシリコスクリーニング装置 100 は、 P S I— B 1 a s t [参考文献: A l t s c hu l e t a 1 Nu c 1 e i c Ac i d s Re s. 1997 27 (1 7) 3389— 402] による相同性 (Homo l o g y) 検索によって検出されたタンパク質の中で、 それがタンパク質—リガンド複合体 (P r o t e i n— l i g a n d c omp l e x) であった場合、 立体構造ァライメント発生プログラムである CE [参考 文献: Sh i n d y a l o v e t a 1 P r o t e i n En g i n e e r i n g 1998 1 1 (9) 739— 747 ] を用いて、 標的タンパク質と 相同タンパク質間のァライメントを行い、 最小二乗法 ( 1 e a s t s q u a r e f i t t i n g) により標的タンパク質に重ね合わせる。 そして、 ライブラ リーリガンドは、 その最小自乗フィッティングによる Z_S c o r eが 3. 7以 上となった場合、 結合リガンドを標的タンパク質の座標系に変換し、 結合リガン ドだけを抜き出したものである。
なお、 本実施例では、 Z— S c o r e 3. 7未満は、 結合化合物として使用 されない。 この数値の根拠は CEによると、 ' 3. 7— 4. 0 - tw i l i g h t z o n e wh e r e s ome s im i l a r i t i e s o f b i o l o g i c a l s i gn i f i c a n c e c a n b e s e e n ; " (生物学的意義の共通性を見出せるか中間的な領域) とあるためであり 3. 7 以上を採用した。 ホモロジ一検索の最低ホモロジ一は、 本実施例では、 相同性 ( Homo l o g y) 0. 1 %以上とした。 つまりホモロジ一検索で検出された類 似タンパク質のほとんどが CEによって重ね合わされることになる。
[ F Pの定義および F Pバンドの構築]
FPバンド (f p b a n d) の作り方について、 以下に図 5を参照して詳細 に説明する。 ここで、 本実施例で使用する化合物指紋 (f p : f i n g e r p r i n t) を定義する前に、 化合物指紋の解釈について説明する。 化合物指紋 (f i n g e r p r i n t, 以下、 「FP」 とレヽう。 ) は、 ケムインフォマテイクス の分野において、 化合物の特徴を表すべクトルや化合物間の類似性算出のために 使用される計算機上の表現法の一つである (Swam i d a s s, S. J.
& B a l d i , P. Ma t h ema t i c a l Co r r e c t i o n f o r F i n g e r p r i n t S im i l a r i t y Me a s u r e s t o Imp r o v e Ch em i c a l Re t r i e v a l J . C h em. I n f . Mo d e l . 47, 952— 964 (2007) ) 。 本実施例では、 FPの正確な解釈を目的としていないが、 混乱をさけるために 下記の用語に統一する。 一つの分子を原子型 (または原子タイプ) 、 原子結合の 順番などを考慮した組み合わせを要素に持つべク トルで表現した場合、 べク トル の要素を 「FP」 、 べクトルを 「FPベクトル」 とした。 本実施例では、 べク ト ルの要素に、単に原子型の文字列表記以上の情報が付加されている場合がある力 その付加情報も分子を表現する特徴の一つであると解釈し、 そのべクトルの要素 を意味する場合も 「FP」 とし、 その F Pを要素に持つベクトルを通常の 「FP ベクトル」 と区別して 「FPバンド」 とした。 このことは、 「FPバンド」 力 S 「 FPベクトル」 における各要素が原子型であるといった性質も併せて持つことに なる事を意味する。 ここで、 図 5は、 F P (f i n g e r p r i n t) の作り方 を一例として示す図である。
本実施例である Ch o o s e LD法では、 相互作用が既知のタンパク質一リガ ンド複合体構造を用いて、 自由エネルギーの最小化を満たすようにドッキングす る未知のリガンド構造を予測することを目的として、この目的を達成するために、 相互作用が既知のリガンドから部分的な結合自由エネルギーを保持した部品であ る FP (f i n g e r p r i n t) を定義した。 図 5に一例として示す化学物質
の物質名は、 AZD 21 71 (Ca n c e r Re s 2005 ; 65 : ( 10) , Ma y 15, 2005) である。 図 5に示すように、 与えられた 結合規則情報を用いて原子をたどることにより FPを作成する。 たどる原子の数 は、 2, 3, 4個である (この数には理由があるので後述する) 。 各々の囲んだ 線は算出される F Pを意味している。 aで示す FPは、 2個の原子をたどった場 合であり、 bで示す FPは、 3個の原子をたどった例である。 cと dで示す FP は、 それぞれ 4個の場合であり、 同じ原子を通過しているが、 この場合も許容さ れる。 eで示す FPは、 異なる座標であるが同じ原子種をたどっており、 後述の 相互作用スコア関数の F Pの重複度が加算される。
すなわち、 図 5の化合物の結合上の線を囲んだ部分は、 Ch o o s e LD法お よび、 化合物の類似性の比較でも用いられる F Pの原子型表記を意味する。 化合 物の上の任意の原子を基点として深さ優先探索法を用い (Ch i b a e t a 1 C a l g o r i t hm Z ENKA 1995 I SBN4-7649- 0239一 7)、与えられたリガンドの原子間結合情報に従い原子を通過するが、 通過する結合の数は、 1, 2, 3本とした。 すなわち、 ベンゼン環とナフタレン 環からは同じ原子型表記が構築されることになり、' 環構造違いは区別されない。'' 一つの原子は、 Sy b y l At om Ty p e (T r i p o s I n c. , 1 699 S o u t h Ha n l e y Ro a d, S t Lo u i s, MO 6 3144-2913, USA (h t t p : //www. t r i p o s, c o m) ) を用いて表現され、 これらには AMBER 99 (J . Comp u t. C h em. 26, 1668— 1688 ( 2005 ) ) を参考にした原子量、 原子半径、 結合可能数が定義されている。 この時点では、 FPの原子型のみを考 慮しており、 通過した原子座標は考慮していない。 ここで、 図 6は、 本実施例で 用いた原子の文字列一覧を示す図表である。
[タニモト係数による化合物間の類似性算出]
タニモト係数による化合物間の類似性算出方法について以下に説明する。 ここ で、図 7は、タニモト係数による化合物間の類似性算出方法を示す模式図である。
本実施例では、 化合物間の類似性を算出するためにタニモト係数 (以下、 Tc ) を導入した (J. Ch em. I n f . C omp u t . S c i . 40,
163— 166 (2000) ) 。 一般に、 Tcは二つのビット、 すなわち 0 もしくは 1、 からなるベク トルの類似度を数値化したものである。 図 7に示すよ うに、 本実施例では、 対象となる一つの低分子化合物に対して、 上記で導入した FP構築法を用いて FPべク トルを作成し、 べクトル上に定義された FPが存在 するなら 1を、 存在しないなら 0を与えた。 このようにして作成された同じ長さ で、 かつ、 対応する成分は同じ F Pを意味する二つのベクトルから化合物間の類 似性を評価した。
Tcは、 下記の数式によって算出した。 ここで、 両方のベクトルの対応するビ ットが共に onの場合、 aに 1が加算され、 片方のベクトルのみビットが o nな らば bもしくは cに 1が加算される。 すなわち、 お互いに o f f の場合の dは加 算されず、 T c算出において考慮しないことになる。 例えば、 図 7に示した 2つ のビット列間では、 a = 9, b + c = 7であり、 Tc = 9Z (9 + 7) =0. 5 625となる。
[数 1.8 ] ·
fc =
a + b + c 本実施例では、 F Pバンド ( f p b a n d s ) は、 結合化合物のライブラリ —リガンド (L I BRARAY L I GANDS) に属する低分子化合物の集合 力 ら得て、集合を形成する低分子化合物由来の、ある二つの FPバンド(f p b a n d s) を比較する際は、 タニモト係数 (Tc) が 0. 08以上でなければな らないこととした。 換言すれば、 上記数式において、 aは、 FPが両方のFPバ ンドに仔在する fli致 t h e numb e r o f f p e x i s t i n g i n e a c h f p b a n d s) である。 また、 b, cは、 F Pが片方の F
Pバンドにのみ存在する個数 ( t h e numb e r o f f p e x i s t i n g i n t h e o t h e r f p b a n d) でめる。
同じことを集合 (a s s emb 1 y) を使って説明すると、 A, Bをそれぞれ のバンドが持つ F Pの集合とするならば、 以下のように表せる。
[数 19 ]
„ number oj fp(A n B)
lc = =— =
number of fp(Aリ B) ここで、 numb e r一 o f一 f p (a s s emb l y) ίまある集合 a s s e mb 1 yに所属する f pの数である。
[FPライブラリーの構築]
FPライブラリーとは、 結合化合物の集合に相当し、 本実施例の Ch o o s e
L D法で用いられる F Pの原子型表記の入手源であり、 さらに構築された F Pに 登録される原子座標の起源となるリガンド群のことである。 通常、 標的タンパク 質の一次構造、 すなわちアミノ酸配列をク: £:リーどじたホモ'口ジニ検索等で検出 されたファミリータンパク質から収集するが、 フアミリ一タンパク質に限らず標 的タンパク質の活性部位等の標的部位に結合すると考えられるリガンド、 もしく はタンパク質、 ペプチド等であっても、 必要であれば追加可能である。
本実施例の Ch o o s e LD法では、 主にフアミリータンパク質から F Pライ ブラリ一を構築した。 PS I— B l a s t (Nu c l e i c Ac i d s Re s . 27, 3398— 3402 ( 1997 ) ) によるホモロジ一検索によ つて検出された三次元座標構造が既知のタンパク質において、 タンパク質一リガ ンド複合体であった場合、 CE (P r o t e i n En g i n e e r i n g 1 1, 739-747 (1998) ) を用レヽ、 標的タンパク質とファミリータ ンパク質との立体構造ァライメントをおこなう。 CEは、 二つのタンパク質をァ ミノ酸配列類似性によらず、 立体構造的に類似した部分を用いてァライメントを
おこなうアルゴリズムを実装したプログラムであり、 他の立体構造ァライメント のプログラムには、 Da 1 i (J. Mo 1. B i o l . 233, 123 — 138 (1993) ) , TOPOF I T (P r o t e i n S c i e n c e 13, 1865-1874 ( 2004 ) ) 等が存在する。 これらの主な違 いを記述すると、 CEはアミノ酸配列を N末端から順に重ね合わせる等の改良に より、 高速に結果を得ることが可能であるが、 対象タンパク質にドメインスヮッ ビング等が存在する場合には精度よくァライメントすることが難しく、 その場合 アミノ酸配列の順番に依存しないァライメントを行う Da 1 i等をもちいた方が 精度がよい。
本実施例の Ch o o s e LD法では、 P S I— B 1 a s tで検出されたフアミ リータンパク質を主に重ね合わせることから、 計算時間が短い CEをもちいた。 CEが出力するァライメントを用い、 最小自乗フィッティングにより標的タンパ ク質に重ね合わせた。 CEのァライメントの Z— S c o r eが 3. 7以上となつ た場合、 結合リガンドを標的タンパク質の座標系に変換し、 結合リガンドだけ抜 き出した。 すなわち、 本実施例では、 標的タンパク質と構造的に類似しているタ - ンパク質のみがフアミリータンパク質どして使用されることになる。
[FPバンドの構築]
F Pバンドは付加情報として、 一つもしくは複数の原子座標を関連付けた F P のベク トルであり、 FPライブラリーに属する結合リガンドの集合から得る。 得 られた集合 (FPライブラリー) に属する結合リガンドには、 標的タンパク質の 座標系における座標、 および、 S y b y 1原子タイプ (At om T y p e ) で 表現される原子型および、 単結合、 二重結合、 芳香環結合といった結合規則情報 を含む。 ここで、 図 8は、 標的タンパク質の結合部位にリガンドをドッキングさ せる場合の FPを一例として示す模式図である。 図 8において、 幾つかの幾何学 的図形 (長方形や菱形や楕円) で構成された半透明の部分は、 各種の FPを表し ている。
"I n t r a -mo l e c u l e F P" (図 8の長方形) は、 リガンド分子
内の情報のみを用いて構築された FPのことであり、 FPライブラリーに属する 一つのリガンドの内部のみから得られた原子型情報と結合情報をもちいて作成さ れた FPのことである。 一つの FPは、 リガンド分子内の一つの原子を起点とし て前述した FPの原子型表記の構築法に基づき、 結合している原子を 1, 2また は 3回通過して、 図 8のような分岐のしない最大 4つの原子を構成する。 本実施 例で最も小さい F Pは 2原子からなる。 一回の F P構築の試行の中で、 一度たど つた原子はその試行中に二回通過することは無く、 通過する結合が無くなつた場 合は、 その時点での FPの原子型表記と原子座標を FPバンドに登録する。 その F Pがすでに F Pバンドに登録されている場合は除外するのではなく、 一つの F Pに複数の原子座標を登録する。 ここで、 図 9は、 たどった経路から原子座標を 得て、 F Pバンドに登録する過程を一例として示す図である。
図 9において、 下の行列は原子座標を意味しており、 その行数は FPを構成す る原子の個数を表現している。 例えば、 4行 3列からなる行列ならば、 その FP に 4つの原子座標を含んでいることを表す。
"Mo d i f i e d FP" (図 8の菱形) は、 与えられた結合情報と近接す る原子同士を仮想的な結合と仮定して作成ざれる F Pのことである。 結合してい- る原子および、 実際には結合していないが、 特に指定が無い限りは 1 A以内に原 子が存在すれば仮想的な結合と判定し、 結合を 1, 2もしくは 3回通過して、 分 岐のしない最大 4つの原子からなる FPを構築する。 本実施例では、 最も小さい FPは 2原子からなる。 " I n t r a _mo 1 e c u 1 e FP" の構築の操作 と同様に一回の F P作成の試行の中で、 一度たどった原子は二度通過することは なく、 通過する結合が無くなった場合は、 その時点での FPの原子型表記と原子 座標を FPバンドに登録する。 これにより、 リガンド分子内の結合に加え、 リガ ンド分子間の結合を含んだ F Pを作成しているため、 実際には存在しないような FPが得られる。 すなわち、 物理化学的に存在し得ないような結合の FP (例え ば、 N. am, N. am, N. a m, N. amのような FP) が構築されること が考えられる。
そこで、 本実施例では、 物理化学的に存在する医薬品の三次元座標データべ一 スでめる MDL Comp r e h e n s i v e Me d i c i n a l Ch em i s t r y (MDL CMC) L i b r a r y (医薬品化合物 D B 106 c に相当する。 ) から、 ドラッグライクな FPベクトルを作成し、 FPライブラリ 一より得た F Pバンドの F Pベク トル部分と比較し、 両方に含まれている FPの 原子型表記が標的タンパク質特異的 FPバンドに残るようにする。 任意の FP ( f i n g e r p r i n t) を使う計算の過程で、 医薬品データベースや化合物デ —タベースを使って、 化合物情報を引き出すことにより、 この元になるデータべ ースを薬物吸収や薬物代謝や薬物排泄や薬物毒性等を指標にして、 f i n g e r p r i n t (FP) 等を整理の基底としての基礎データ単位を使って、 予め整理 した薬物吸収や薬物代謝や薬物排泄や薬物毒性に特ィヒした医薬品データベースや 化合物データベースを作成して、 同じ一連の操作を行う。
具体的には、 リガンドライブラリー由来の FPベクトルと、 医薬品ライブラリ 一由来の F Pべクトルとの積集合を求めることにより、 医薬品化合物 DB 106 cに存在する FPのみが FPバンドに登録され、 医薬品化合物 DB 106 cに存 在しない FPは本実施例では無視されて、 結合化合物指紋セッド Ϊ 0'6 bが¾築 される。 ここで、 図 10は、 本実施例における F Pバンドの絞り込みステップ ( me t h o d s t e p o f s h r i nk i n g f i n g e r p r i n t b a n d) を一例として示す図である。
図 10に示すように、 MDL CMC L i b r a r yより得た F Pバンド ( A) と、 標的タンパク指向性リガンド群より得た FPバンド (B) を比較し、 両 方に F Pが存在する場合以外は、 (A) あるいは (B) の FPバンドから取り除 く (図 10の X印で表される) 。 この結果、 ライブラリ一リガンド由来の FP ( L i b r a r y L i g a n d FP) には、 必ず座標が存在することになる。 以上で、 本実施例における FPバンドの構築方法の説明を終える。 なお、 本実 施例においては、 すべての F Pバンド構築の過程において、 一つの原子が複数の FPに所属することは許容される。 また、 FPバンドに得られた FPがすでに登
録されていたなら、 FPの座標が追加され、 存在しない場合は、 FPバンドに新 たな FPを追加し、 座標を追加する。 また、 一つの原子が複数の FPに所属する ことは許容される。 ドッキングのターゲットとなる候補リガンド (d o c k e d 1 i g a n d) に対しても同様の操作を行い、 候補リガンド由来の F Pバンド ( f p b a n d s o f d o c k e d l i g a n d) 力 s作成される。
[FPバンドのァライメント]
FPバンドには原子セッ卜の座標が関連付けられており、 二つの FPバンドを 比較する際は、単に原子型だけを用いるのではなく関連付けられた座標も用いる。 すなわち、 FPバンドのァライメントは、 候補リガンドから得られた FPバンド と、 結合リガンドの FPライブラリーから得られた FPバンドとの比較を行うこ とを意味する。 比較は、 以下の (1) , (2) の過程を経ておこなわれる。
(1) FPを構成する原子型表記の文字列の完全一致の比較
ドッキングさせる候補リガンドから得られた FPバンド由来の FPベタトル ( ビット列 (1) ) と、 結合化合物を含む F Pライブラリーから得られた F Pバン ド由来の FPベク トル (ビット列 (2) ) において、 FPの有無をビット化し、 双方のビットが o nである組み合わせを選択する (図 7参照) 。
(2) 選択された FPに登録されている原子の座標べクトル同士に対応関係を 与える過程
図 1 1は、 座標べクトル同士に対応関係を与える過程を一例として示す模式図 である。 一つの FPは、 ドッキングされる候補リガンド分子由来の原子座標べク トル (1) と、 FPライブラリーの結合リガンド由来の原子座標ベクトル (2) からなり、 この原子座標間に対応関係を与える。
これら二つの過程 (1) , (2) を行うこと力 本実施例における FPのァラ ィメントである。 また、 「F Pァライメントが異なる j とは、
1. 二つのビットが共に o nである F Pの総数
2. 対応させる FPの種類
3. FP内部における座標の対応関係
のうち少なくとも一つが異なることを意味する。 すなわち、 「FPァライメント を変化させる」とは、これらのうち少なくとも一つを変化させることを意味する。
「少なくとも一つ」 という意味は、 FPの原子型が変化した場合、 変化前の F P の座標の対応関係が消失し、 変更後の F Pにおいて対応関係を与え直すため、 必 然的に座標の対応関係も変化するからである。
[相互作用スコア (FPAS c o r e) ]
本実施例における相互作用スコア F PAS c o r eについて、 以下に詳細に説 明する。 F PAS c o r e ( f i n g e r p r i n t a l i g nme n t s c o r e) は、 本実施例において、 FPが部分結合自由エネルギーの集合である という Ch o o s e LD法の仮定に基づき、 F P A S c o r eが高いほど、 相互 作用が既知のフアミリータンパク質一結合リガンド複合体構造を満たすように定 義した。 F PAS c o r eは、 F Pの重ね合わせの精度と、 ァライメントに用い た FPの数、 FPの密集度、 および、 タンパク質一リガンド複合体相互作用を同 時に考慮し、 標的タンパク質"^補リガンド複合体構造を評価する。 本実施例で は、 前述の操作で得られた F Pバンドの最適なァライメントを探索することによ り、 最適な標的タンパク質一候補リガンド複合体を予測じだ。
すなわち、 本実施例において、 相互作用スコア F PAS c o r eは、 以下の数 式として定義した。ここで、 a 1 i g n e d— f pは、ァライメントされた F P、 f p_r m s dは、 そのァライメントを用いた最小自乗フィッティングによって 算出された rms d、 mo 1 e c u 1 eは、 候補リガンドが標的タンパク質にド ッキングした後の複合体の座標を意味する。 各項については以下に詳細に説明す る。
[数 20]
FPA score = F、a丄 igned— fp, fp_rmsd, molecule coordinate. ) = BaseScore (fp_rmsd, aligned一 fp)
* f p_volume (molecule)
* fp— contact一 surface (molecule)
< 1 - B a s e S c o r e ( f p一 r m s d , a l i g n e d― f p ) の項
>
この項は、 F Pの一致度および密集度を考慮した関数として定義されたもので あり、 すなわち、 既知の FPの使用強度を評価する関数であり、 以下の数式で表 せる。
[数 2 1]
raw— score (aligned— ιρノ
BaseScore (fp_rmsd, aligned— fp)
1.0 + ln(fp_rmsd**kl + 1.0 ) ここで、 I nは、 ログナチュラル (自然対数) である。 また、 k lは、 FPの 重ね合わせの精度をどこまで厳密にするかをきめるスケール因子である。 ァライ メントされた FPの重ね合わせの rm s dが大きい場合、 分母が大きくなり B a s e S c o r eが小さくなる。 FPの一致度が大きくとも、 その FPに登録され ている F Pの原子座標の重なりの精度を示す r m s dが大きレヽ(悪レ、)場合を排除 することを意味する。 本実施例では、 k lを 4. 0とした。 f p— rms dは、 そのァライメントを用いた最小自乗フィッティングによって算出された r ms d である。 a l i g n e d_f pは、 そのときの f pの対応関係、 すなわちァライ メントされた FPである。
ここで、上 数式 ίこおレヽて、 r a w― s c o r e (, a 1 i g n e d一 f p) iま、 以下の式で表せる。 ここで、 a s s i n g e d— s c o r e ( i ) は、 i番目に ァライメントされた F Pにあらかじめ与えられるスコアである。 nは、 ァラィメ ントされた F Pの総数である。 ァライメントされた FPとは、 標的タンパク質特 異的 FPバンドにおける原子型と原子座標のセットを意味している (上記 「FP
バンドのァライメント」 および図 1 1参照) 。 すなわち、 FPのァライメントに おいて FPが同じ原子型であっても、 原子座標が異なっていれば異なる FPを意 味する。
[数 22]
n
raw— score、a丄 igned— fpゾ = ∑ assinged_score )
i = 0
ここで、 上記数式にぉレヽて、 a s s i g n e d― s c o r e ( i) iま、 i番目 にァライメントされた FPにあらかじめ与えられたスコアであり、 以下の数式で 表せる。 このスコアは、 CE 1 i b等のリガンドライブラリーより得られた F P に対して下記のように与えられる。
[数 23]
(total—atom
( ∑ Casel— S + In (N+l) ... easel
( j=0
assinged_score (i) = {
(total_atom
( ∑ Case2_S + In (Neighbor— atom + 1) ... case2 ( j=0 ここで、 上記数式の t o t a l— a t om ( i ) は、 FPを構成する原子座標 の個数を表す。 Ca s e l— S, Ca s e 2— S, Ca s e 3— S (上記せず) は、 あらかじめ FPを構成する原子に与えられるスコアであり、 それぞれ下記の 場合に用いられる。
Ca s e 1— Sは、 前述の "I n t r a—mo 1 e c u 1 e F P" を構成し た場合に各原子に与えられるスコアである。 特に指定が無い場合は 5. 0を用い る。 例えば、 探索に成功した場合は、 FPを構成する各原子にスコア C a s e 1
S (デフォルト 5. 0を用いた) が与えられ、 4原子で構成される FPには 2
0. ◦、 3原子なら 15. 0点が与えられる。
次に、 C a s e 2— Sについて述べる。 前述の "Mo d i f i e d F P" を 構築した場合に各原子に与えられるスコアである。 特に指定が無い場合は 2. 5 を用いる。
最後に、 C a s e 3— Sについて記述すると; 生物化学的情報やエネルギー計 算 ( 「c i r c 1 e」 など) により原子の存在の可能性がある場合に与えられる 任意のスカラー値のことである。 C a s e 3— Sは、本実施例では用いておらず、 ベンチマークセットを使用したドッキング性能 (結合モード予測性能)検証計算、 およびインシリコスクリーニング性能で用いていない。
本実施例では、 C a s e 1— S, C a s e 2_S, C a s e 3— Sの和のスコ ァに加え、 FPライブラリーに属する原子の密集度の自然対数値をスコアに加え た。 これは F Pに属する原子座標セットの原子と 1. OA以内にあるその他の F Pに属する原子座標セッ トの原子個数 (n— n e i g h b o r— a t o m ( i ) ) の自然対数を FPのスコアに加算するものであり、 この項は密集している FP を優遇する項であるといえる。 すなわち、 e a s e lと c a s e 2において、 同 一 F Pに属する座標間において、 距離が d i s t (デフォルト Γ. OA) 以内 にある原子座標セットの原子個数 (Ne i g h b o r_a t o m) の自然対数を FPの座標のスコアに加算することとした。
< 2. f p― v o l ume (mo l e c u l e) の項 >
この項は、 ァライメントされた F Pを用いて候補リガンドが標的タンパク質に ドッキングした後、 その複合体構造を評価する関数である。 すなわち、 ドッキン グ後の候補リガンドの分子座標が F Pライブラリ一の結合リガンドから得られた FPからなる空間を占有する個数 (すなわち、 FPライブラリー由来の F Pから なる空間をどの程度満たしている力 と標的タンパク質との衝突を評価する関数 であり、 以下の数式で表せる。 ここで、 mo 1 e c u 1 eは、 候補リガンドのド ッキング後の原子座標を表す。
[数 24]
1.0 + nafp ** k2
fp— volume (molecule) = In
1.0 + nap ** k3 ここで、 n a f p (Numb e r o f L i g a n d A t om c o v e r i n g F i n g e r p r i n t) は、 ライブラリーリガンド (L I BRAR AY L I GAND) を構成する低分子の原子を用いて作成された固有格子点領 域に分子 (mo 1 e c u 1 e) の座標が占有する個数、 すなわち候補リガンドが F Pライブラリ一を構成する結合リガンド原子を用いて作成された固有格子点領 域の座標を占有する個数である。 n a f pにより、 候補リガンド分子 (mo 1 e c u 1 e) が座標固定の FP (f i n g e r p r i n t) をどれだけ満たしてい る力、表してレヽる。 n a p (Numb e r o f L i g a n d A t om c o v e r i n g P r o t e i n) tt, 標的タンパク質の原子座標より作成される 固有格子点領域に mo 1 e c u 1 e (ドッキング後の候補リガンド分子) の座標 が属する数であり、 標的タンパク質の構成原子との衝突具合を表現している。 また、 k 2,. k 3は、 それぞれ係数であり、一特に指定のない場合 (デフォルト )では、それぞれ 1. 0を用いるが、それぞれ標的タンパク質の生物化学的情報、 誘導適合の程度によって変更可能である。 すなわち、 k 2は、 その標的タンパク 質のフアミリータンパク質の結合リガンド集団の空間を占有する領域を重視する 定数であり、 係数が増大するならば、 大きなリガンドが大きなスコアを得ること ができるようになる。 k 2値は、標的タンパク質の結合領域の大きさによっても、 グループィ匕できる可能性がある。 また、 k 3は、 その標的タンパク質の占有する 領域に候補リガンドが衝突することの許容度因子であり、 候補リガンド原子と標 的タンパク質原子の衝突を重視する係数である。 k 3値が大きくなれば、 標的タ ンパク質と候補リガンドとの衝突を許さないことになる。 k 3について、 タンパ ク質 (p r o t e i n) の活性部位の柔らかさなどをグループィ匕できる可能性が ある。 ここで、 図 1 2は、 n a f pと n a pの具体例を原子数が 3 1のリガンド
を用いて示した図である。
図 12に示すように、 候補リガンドにおいて標的タンパク質と衝突する原子数 が 10個、 F Pライブラリー由来の格子点に原子が 21個所属し、 k 2値、 k 3 値が 1. 0であるならば、 f p— v o l ume (m o 1 e c u 1 e ) の項は 1 n (22/1 1) =0. 693という値になる。 この項の関数の性質上、 n a f p が 31から 30、 即ち衝突の個数が 0個から 1個における変化率がもっとも大き い。 またリガンド原子の半分近くが衝突している場合は、 負値となるため非常に 採用されにくくなる。 すなわち、 FPAS c o r eにおいて、 経験的物理関数で ある分子間引カー反発項を表現するレナ一ドジヨーンズポテンシャルに対応する ものとして定義されている。 なお、 EGFRを標的タンパク質として用いたイン シリコスクリーニング性能についての項で、 k 2値、 k 3値の最適化の一例の結 果を後述する。
< ύ . I ρ― c on t a c t― s u r i a c e (m o l e c u l e) の¾ 次に、 f P_c o n t a c t_s u r f a c eの項は、 候補リガンドのドツキ ング後の構造に対してその原子座標の標的タンパク質への接触度、 および、 その 座標の F Pライブラリ一への帰属度を考慮する関数であり、'以下の数式で表せる。 ここで、 mo 1 e c u 1 eは候補リガンドのドッキング後の原子座標、 a t om ( i) は、 そのドッキング後の i番目の原子座標、 nは原子数を意味する。 すな わち、 この式は、 上述の f p_v o 1 u meの数式と同様に、 候補リガンドが標 的タンパク質へドッキングした後の複合体構造に対して計算され、 候補リガンド 原子座標の標的タンパク質の表面との接触度、 および FPライブラリ一から得ら れた F P原子に対しての候補リガンド原子座標の帰属度を考慮する関数である。
[数 25]
n
∑ aensity_of_atom (atom(i )
i = 0
fp— contact一 surface (molecule) =
total— dense— of— atom (molecule)
上記数式において、 d e n s i t y— o f— a t o mは、以下の数式で表せる。 ここで、 n f p c o n t a c tは、 F Pライブラリーに属している F Pの原子座 標と、 特に指定が無い限り (デフォルトでは) 3. 8A以下で接触している標的 タンパク質の原子の個数であり、 n a t omは同一格子点に属する F Pライブラ リー由来の結合リガンド化合物の原子の数となる。 このとき、 同じ原子型のリガ ンド分子が複数に存在していてもよく、 同じリガンド分子であって、 08の 1 Dコードが違う場合についても、 本実施例ではすべて取り込む。 h iは特に重要 な生化学的情報がある場合は使用する変数であり、 .特に指定の無い場合は (デフ オルトでは) 0を用いるが、 C I RCLE (T e r a s h i G, Ta k e d a— S h i t a k a M, K a n o u K, I wa d a t e M, T a k a y a D, Ho s o i A, O h t a K, Um e y a m a H P r o t e i n s, 2007, 69 (S 8) : 98— 1 0 7) 等の 3D— I Dスコ ァ値によってファミリータンパク質に依存しない F P (Mo d i f i e d FP や C r e a t i v e F P等) をいれた場合に使用されることを想定している。 下記の数式は、 リガンド原子座標 Xが FPライブラリーから得られた FPに属し ていない (3. 3 A以下で接触していない) 場合は 0となり、 属している場合は 上記の式に従い、 スコアが計算される。
[数 26]
dens 1 ty_of _atom (x) = 0 or ln nhpcontact + natom + hiノ 図 1 3は、 標的タンパク質の活性部位近傍における FPライブラリ一由来のリ ガンドの位置を一例として示した図である。 図 1 3に示すように、 標的タンパク 質近傍で楕円 (一点鎖線の円) に囲まれた付近の FPは、 標的タンパク質に接し ているので、 n f p c o n t a c tが優遇される。 さらに、 黒円付近は、 FPラ イブラリー由来の結合リガンド原子が密集しており n a t ornが優遇される。 す なわち、 これらの部分に、 ドッキングされた候補リガンドの原子座標が近接した 場合、 上記数式によりスコアが優遇されることになる。
ま 7こ、 上 ti f p — c o n t a c t s u r f a c eの数式 ίこおレヽて、 t o t a
1一 d e n s e一 o f一 a t o m (m o 1 e c u 1 e)は、以下の数式で表せる。 ここで、 t o t a 1は、 候補リガンド分子の原子数である。 また、 s o r t_d e n s l t y― o f一 a t omは、 上目ビ数式の d e n s i t y― o f― a t orn のスカラー値の分布を大きい方から順に並べ替えたものである。 つまり、 候補リ ガンド分子が大きいと t o t a 1— d e n s e_o f— a t omは大きくなる。
[数 27]
total
total— dense— of— atom (molecule) = ∑ sort— density— of一 atom (i)
i = 0 以上で、 本実施例における相互作用スコア F PAS c o r eの説明を終える。
[シミュレティッドアニーリングによる相互作用スコアの最大化およびコンフォ メーシヨンチェンジ]
つぎに、 上記のとおり定義された F PAS c o r e関数を最大化するために、 本実施例におけるシミュレティッドアニーリング (以下、 「SA」 とよぶ。 ) の 実行方法について、 図 14を参照して説明する ( J / Mo 1. G r a p h i c s Mo d. 18, 258-272, 305— 306 (2000) )。 図 14は、 シミュレテイツドアニーリング過程を一例として示す概念図である。 最初に、 候補リガンドのコンフオメーシヨン変化から、 その構造における FP AS c o r eが最大となるドッキング構造を得るまでのステップ 1. 〜3. の 1 サイクルについて述べる。
くステップ 1. >
まず、 ドッキング対象となる候補リガンド (d o c k e d l i g a n d) に 存在する回転可能な二面角をランダムに変更することにより、 コンフオメ一ショ ンを変化させる。 本実施例では、 候補リガンド原子のファンデルワールス半径は AMBER 99を参考にした値を使用した。
<ステップ 2. >
コンフオメーシヨンの変化した候補リガンドを剛体として用いて、 リガンド結 合部位 (t h e b i n d i n g s i t e) にドッキングさせる。 以下の並進 回転操作は、 ステップ 1. で発生させた一つのコンフオメーシヨンについて行わ れる。
まず、 前述した F Pバンドからランダムに 10個の F Pの原子型を選ぶ。 10 個に満たない場合は、 FPバンドの FPべクトルのサイズの最大数の半分を用い た。 そして、 選択された FPに登録されている原子座標セットをランダムに選択 する。 これをァライメントされた FPとし、 その対応関係で最小自乗フイツティ ングをおこなレ、候補リガンドの原子座標と F Pライブラリ一由来の原子座標間の rms dを計算し、 このとき得られる並進および回転行列を標的リガンドに対し て作用させ、ひとつの標的タンパク質" 補リガンド複合体構造を得る。そして、 ァライメントされた FP、 rms d、 標的タンパク質"^補リガンド複合体構造 を用いて F PAS c o r eを算出する。 ここで、 図 15は、 FPAS c o r eを 算出するための FPァライメントおよび最小自乗フィッティングを模式的に示し た図である。
図 1 5に示すように、 F Pバンドのァライメントの項で上述したように F Pァ ライメントは (D) , (E) の各 FPの型ごとの座標行列の間で行われ、 く 1〉 リガンドライブラリー由来の FPベクトル (D) と、 候補リガンド由来の FPベ クトル (E) において、 双方のビットが o nである組み合わせが選択される。 こ の選択過程で一致しなかった F Pはァライメントから除力れる。 く 2〉そして、 1つの FPにおいて、 候補リガンド分子由来の原子座標ベク トル (1) と、 FP ライブラリ一の結合リガンド由来の原子座標べクトル ( 2 ) との座標間の対応付 けを行い、 最小自乗フィッティングに基づいて相互作用スコアを計算する。 シミュレテイツドアニーリングによる状態変化は、 F Pの変更、 増加、 減少過 程である。 すなわち、 当該状態変化は、 その FPに属する座標を、 ドッキングさ せる候補リガンド由来の FP、 および、 リガンドライブラリー由来の FPから選 ぶ過程を繰り返すことによって行われる。 そして、 シミュレテイツドアニーリン
グは、 ァライメントされた FPに対して、 FPの原子型を一つ増加もしくは保持 し、 FPに登録されている原子座標セットの対応関係の変更もしくは追加と、 F Pの減少を行い、 ァライメントを変化し F PAS c o r eを最大化する。 一つの FPから一つ以上の原子座標セットが選ばれること、 もしくは座標があるのにも 関わらず、 F P Aスコアが減少した場合は、 メ トロポリス判定が行われ、 採用さ れれば状態を保つ。 すなわち、 S A過程においてメ トロポリス判定が行われ、 前 回のスコアより、 今回のスコアが大きいならば採用し、 そうでない場合は、 以下 の数式に基づき採用確率 P a c c e p tを計算する。 このとき同時に 0< = r < = 1の範囲の一様乱数を発生させ r <P a c c e p tならば、 スコアが低い場合 も採用する。 本実施例では、 T (温度) は 30. 0K力 らはじめ、 0. 0 7Kま で下げた。 このようにして、 一つのコンフオメーシヨンに対して F PAS c o r eの最大値を計算する。
[数 28] AScore = score rafter; ― Score (berore
Paccept = ex (AScore/T) このように得られた F Pバンドを用いて S A法により FPAS c o r eを最適 化する。 なお、 本実施例において、 SAは 1 0, 000回行った。
<ステップ 3. >
一つのコンフオメーションに対して上記ステップ 2で得られた最大の F PAS c o r eを、 その構造とともに記憶部の構造プールに保存する。
以上が、 一つのコンフオメーションについての F PAS c o r e最大化のため の 1サイクルの処理である。
ぐステップ 4. >
本実施例においては、 コンフオメーシヨンの変化を 1 000回行うことと設定 したので、 1 000回に満たない場合、 上述のステップ 1. 〜3. を再試行する
よう制御する。 なおコンフオメーション発生回数は多ければ多いほど良い結果が 得られる可能性があるが、 バーチャルな化合物データベースに含まれる多くの低 分子化合物についてドッキング計算をする必要があり、 有限な回数の大きさで止 めねばならず、 化合物の回転自由度に依存するとしても本実施例の予備計算では この回数で十分であった。
発生させた 1000個のコンフオメーシヨンのそれぞれについて、 相互作用ス コア FPAS c o r eの最大値が計算された場合、 サイクルの繰り返し処理を終 了し、 構造プールに保存された 1000個のコンフオメーションの最大 F PAS c o r eを比較し、 スコアが最大のドッキング構造を、 当該候補リガンドについ ての最適なコンフオメーシヨンとして標的タンパク質一候補リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の予測構造を出力する。
[結果と考察 (材料) 、 方法関連]
本実施例について以下に 「結果と考察 (材料) 」 を述べる。 本実施例で記述し た FPライブラリーの構築には、 P e r 1 (h t t p : //www. p e r l . c o m ) x Ru b y (h t t p : //www. r u b y— 1 a n g. o r g ) , b a s h (h t t p : / / w w w . g nu. o r gZ s o f twa r e b a s h/) 等のシェル、 スクリプト言語を組み合わせて開発した。 また、 本実施 例の方法で記述したドッキングされる候補リガンドのコンフオメーシヨンを変化 し、 FPAS c o r eを最大化するようなタンパク質一リガンド複合体構造を探 索するアルゴリズムは C/C + +で記述した。 コンパイラ一は I n t e 1 (登録 商標) C + + Comp i l e r 10. 0を用いた。 使用した計算機の構成 について述べると、 O Sは R e d Ha t L i nu x、 S c i e n t i f i c L i nu x、 CPUは P e n t i um4, Co r e 2Du o, Op t e r o n、 メモリーは 512M, 1024 M, 2048Mと計算機の構成の異な るメモリー非共有型計算機クラスターを最大 200台用いた。 参考に計算時間を 記述すると、 後述する EGFRの k i n a s e ドメインに対して、 MDL A v a i l a b l e Ch em i c a l s D i r e c t o r y (MD L A CD)
L i b r a r y (Symy x Te c hn o 1 o g i e s, I n c. Co r p o r a t e Ad d r e s s : 3100 Ce n t r a l Ex p r e s swa y, S a n t a C l a r a, CA 95051) の 20, 000化 合物のインシリコスクリーユングを行った場合、 一つの標的タンパク質に対して 一つ候補リガンドをドッキングする 1 C P Uあたりの計算実行時間の中央値は 1 0. 2分、 平均値は 18. 6分であった。 最小計算時間は、 4. 8分、 最長計算 時間は 1077分であった。 ここで、 図 16は、 EGFRインシリコスクリ一二 ングにおける計算時間の分布を示す図である。
図 16の EGFRインシリコスクリーユングにおける計算時間の分布に示すよ うに、 ドッキングされるリガンドによっては非常に時間がかかる場合がある。 こ の原因の一つには、 内部衝突をさけるようなコンフオメーシヨンの探索が難しい リガンドをドッキングする場合が考えられ、 これは回転可能な結合をランダムで 選択していることが原因であり、 分子内衝突が起こりにくいように回転する必要 があることがわかゥた。 また、 本実施例の Ch o o s e LDの計算時間は、 標的 タンパク質の大きさ、 F Pライブラリーに含まれるリガンドの数および、 リガン ドの分子量、 候補リガンドの分子量、 回転可能な結合の数に依存し、 標的タンパ ク質のリガンド結合部位を絞り込み、 F Pライブラリ一の絞り込みを行えば、 よ り速く予測構造を得ることが可能であった。
本実施例では、 Ch o o s e LDのドッキング性能を試験するために、 P r o t e i n Da t a B a n k(Nu c 1 e i c Ac i d s Re s. 31, 489-491 (2003) ) からタンパク質一リガンド複合体構造を入手 した。 用いたベンチマークについて図 1 7および図 18を参照して説明する。 図 1 7は、 ベンチマークの概要を一例として示す図である。 また、 図 18は、 PD Bへの登録数の年度分布を表す図である。
図 1 7に示すように、 使用したベンチマークセッ トの数は、 それぞれリガンド を有する 218種のタンパク質である。 85種の 08構造 (図 17の左) は、 スコア方程式 (s c o r e e q u a t i o n) を作成するために使用された。
また、 133種の PDB構造 (図 1 7の右) は、 他のドッキング法 (DOCK, AUTODOCK, GOLDなど) と比較するために使用された (以下に PDB
1 Dを示す) 。
85 PDB s t r u c t u r e s ; 1G9V 1 GKC 1 GM8 1 G PK 1H匪 1 HP 0 1 HQ 2 1 HVY 1 HW I 1 HWW 1 I A 1 1 I G 3 1 J 3 J 1 J D 0 1 J J E 1 J LA 1 K3U 1 KE5
1 KZK 1 L 2 S 1 L 7F 1 LPZ 1 LRH 1M2 Z 1MEH 1MMV 1MZC 1N1M 1 N2 J 1 N2 V 1 N46 1 NAV 1 OF 1 1 OF 6 1 OPK 1 OQ 5 1 OWE 1 OYT 1 P2Y I P 62 1 PM 1 Q 1 G 1 Q41 1 Q4G 1 R 1 H 1 R 55 1 R 5 8 1 R90 1 S 19 1 S 3 V 1 SG0 1 S J 0 1 SQ 5 1 SQN
1 T 40 1 T 46 1 T 9 B IT OW 1TT 1 1 TZ 8 1 U 1 C 1 U4 D 1 UML 1 UNL 1 UOU 1 VO P 1 V48 1 V4 S 1 VCJ 1W1 P 1 W2 G 1 X 8 X 1XM6 1 XOQ 1XOZ 1 Y 6 B lYGC 1 YQY 1 YV 3 1 YVF 1 YWR 1 Z 95 2 BM
2 2 BR 1 2 B SM
133 PDB s t r u c t u r e s ; 1 AAQ 1 ABE 1 AC J 1 ACK 1 ACM 1ACO 1 AEC 1 AHA 1 APT 1 AS E 1 A TL 1AZM 1 B AF 1 BBP 1 BLH 1 BMA 1 BYB 1 CB S 1 CBX 1 CDG 1 C I L 1 COM 1 COY 1 CP S 1 CTR 1 DBB 1 DB J 1D I D 1 D I E 1DR1 1 DWD 1 E AP 1 EED 1 EPB 1 ETA 1 ETR 1 FEN 1 FKG 1 FK I 1 FRP 1 GHB 1GLP 1 GLQ 1HDC 1 HDY 1HEF 1 H F C 1HR I 1HSL 1HYT 1 I CN 1 I DA 1 I G J 1 IM B 1 I VE 1 L AH 1 LCP 1 LDM 1 L I C 1 LMO 1 LNA 1 LPM 1 L ST 1MCR 1MDR 1 MMQ 1MRG 1MRK 1MUP 1NCO 1N I S 1 PBD 1 PHA 1 PHD 1 PHG 1
POC 1 RDS 1 RNE 1 ROB 1 S LT 1 SNC 1 S R J I S TP 1TDB 1 TKA 1 TMN 1 TNG 1 TN I 1 TNL 1TP H 1 TP P 1 TRK 1 TYL 1 UKZ 1 ULB 1 WA P 1 X I D 1 X I E 2 ADA 2 AK3 2 CGR 2 CHT 2 CMD 2 CTC 2 DB L 2GBP 2 LGS 2MC P 2MTH 2 PHH 2 PK4 2 P L V 2 R 07 2 S I M 2 YHX 3 AAH 3 C L A 3 C P A 3 G CH 3HVT 3 PTB 3 TP I 4CTS 4DFR 4 E ST 4 FA B 4 PHV 5 P 2 P 6 AB P 6 RNT 6 R S A 7 T I M 8 GCH 図 1 7の 2つの円は、 PDB I Dをタンパク質"^リガンド複合体の特徴ごとに 分類したものであり、 それらすベての PDB I Dを示している。 図中の右の円の 集合は、 医薬品開発の標的タンパク質となりえるが、 結合しているリガンドは医 薬品的な化合物、 ペプチド、 糖鎖等と多様性に富んでいる。 一方、 左の円の PD B I Dは、 右の円と同様に医薬品開発のターゲットとなるタンパク質が選ばれて いる力 右の円の PDB I Dとは異なり、医薬品的なリガンドで構成されている。 より詳しぐ記述すると、 右の円の集合は、 リガンドの分子構造を用いて、 ヘテロ アトムの有無、 水素供与体、 受容体、 および疎水基等の^ "無, リピンスキーのル —ルォブファイブ (Ad v D r u g De l i v Re v 46 (1— 3 ) , 3-26. ) を満たしているかといった判定基準で医薬品的であるリガン ドと判定されたものを最終的には手動で選定したというものである (J. Me d. Ch em. 50, 726— 741 (2007) ) 。
すなわち、 これらベンチマークセットの内訳は、 85ベンチマークセットは、 PDBに 2000年 8月 1 1日より後に登録されたものの中から創薬のターゲッ 卜になる標的タンパク質を選び、 ドッキングするべきリガンドもヘテロァトムを 有するか、 水素供与体、 受容体、 および疎水基等を有するか、 ピンスキーの 5ル ールを満たしているかといった判定基準で医薬品的なリガンドと判定されたもの を最終的には手動で選んだものを集めたものである。 また、 一方、 理研ベンチマ ーク [参考文献: O n o d e r a e t a 1 J . Ch em. I n f . M
o d e l . 2007, 47, 1609— 1618 ] は、 G O L D [参考文 献: Ga r e t h e t a 1 J . Mo 1 - B i o l . 1997 26 7, 727-748] のベンチマークを使っている。 このベンチマークは、 上 述したように、 2000年 8月以前に PDBに登録された標的タンパク質を用い ている。 し力、し、 このベンチマークでは、 GOLD以外に, Au t oDo c k, DOCKを比較しているため、 このベンチマークの結果と比較することは、 Ch o o s e LDのドッキングソフトの中における位置づけを知るには非常に有用で あると考えた。 上述した二つのベンチマークにおいては PDB I Dに重複はな い。 そこで、 85セットで C h o o s e LDのデフォルトパラメータの決定を行 い、 理研ベンチマークで、 そのパラメータにおける C h o o s e LDの性能評価 を行った。 ここで、 図 18は、 85セット (左の円) および、 133セット (右 の円) で提案された PDB I Dが登録された年を横軸に、 その年の合計登録数を 縦軸にプロットした図である。
これらのベンチマークセッ卜への登録年は図 18に示すように分布している。 図 18の 2つのベンチマークセットのタンパク質一リガンド複合体の集団の色が 示す事柄を記述すると、 グラフの左側の山は、 標的タンパク質が医薬品的 (d r u g g a b 1 e:薬剤開発の対象となりうる標的タンパク質という意味)であり、 リガンドは、 種々の低分子化合物である場合の登録年の分布を表している (G r e e n p l a n e : 133 b e n c hma r k s e t Go l d B e n c hma r k (J o n e s e t a 1. J - Mo 1. B i o l . 1 9 97, 267, 727- 748) (On o d e r a e t a 1. J .
Ch em. I n f . Mo d e l . 2007, 47, 1609— 16 18) ) 。 また、 グラフの右側の山は、 標的タンパク質とリガンドは共に医薬品 的な (d r u g g a b l e) 化合物である場合の登録年の分布を表している (B 1 u e p 1 a n e : 85 b e n c hma r k s e t (Ha r t s n om e t a 1. J . Ch em. 2007, 50, 726— 741) ) 。 黒ラインは、 それぞれの平均 PDB数を表しており、 平均値は、 緑で 9. 5、 青
で 14. 2である (B l a c k l i n e : a v e r a g e o f numb e r o f PDB o f e a c h (g r e e n, b l u e) p 1 a n e. A v e r a g e v a l u e a r e 9. 5 a n d 14. 2 f o r t h e g r e e n a n d b l u e p l a n e, r e s p e c t i v e l y. ) 0
ここで、 図 19は、 予測と実験結果間での r m s dを要約したテ一ブノレである (Ί a b 1 e . Summa r y o f r . m. s d e v i a t i o n b e twe e n p r e d i c t i o n s a n d e x p e r ime n t a l r e s u 1 t s) 。 結合モード予測構造の精度を評価するために、 予測構造と実 験構造の r m s dを計算した。 r m s dが大きい場合、 予測構造と実験構造との ずれが大きいことを意味しており、 すなわち予測の失敗を意味する。 そこで、 予 測構造を正解と見なす r m s dの上限値を設定した。 図 19の表は J o n e sら によって行われた結合モード予測構造と実験構造の r m s dと人間の感覚、 すな わち G o o d, C l o s e, E r r o r s, Wr o n gの関係を示したものであ る。 rms dが 2. 0 A以下なら予測構造が実験構造にくらべて良い、 すなわち G Q o dとなる。 r m s d力 S 2. 5 A以下なら実験構造に近レ、予測構造を含んで おり、 かつ、 よい予測構造が含まれているということになる。 すなわち C I o s eとなる。 そこで、 rms dが 2. 0 A以下の予測構造が得られた場合を予測の 成功と定義した。 rms dが、 2. 0以上 2. 5以下なら、 ビジュアルでの評価 Cxo o d, C l o s e, E r r o r s, Wr o n gで ¾>る (J o n e s e t a 1. J. Mo 1. B i o l . 1997 267, 727— 748より 抜粋) 。 すなわち、 rms dが 2. OA以下ならリガンドモデルとして正解に比 ベて良い。 rms dが 2. 5 A以下ならリガンドモデルとして正解に比べて似て いる (C l o s e) と良い (Go o d) の両方を含む。
[結果と考察 (1) : F PA関数における k 1最適化 (Op t i m i z e d k 1 i n F P A S c o r e f un c t i o n) ]
上述したように、 FPAS c o r eの k 1値は F Pライブラリーに登録されて
いる原子座標と候補リガンドの原子座標の一致度を調節する係数である。 k 1値 はターゲットに応じて変更可能であるが、 大量の標的タンパク質に対してインシ リコスクリーニングを行う場合や、 他の研究者に使用されることを考慮すると最 適なパラメ一ターを決定することは本手法を採用する判断材料の一つとなること から、 Ch o o s e LD法のドッキング性能試験においては最適値を 85セット [参考文献: Mi c h a e l e t a 1 J. Me d. Ch e m. 20 07, 50, 726-741] を使レヽ、 FPAS c o r e関数の k 1の最適 値を決定した。
85セットはドラッグライクな標的タンパク質を多く集めており、 GOLD [ 参考文献: Ga r e t h e t a 1 J . Mo 1 - B i o l . 1997 267, 727— 748] の性能評価を行っている。 これは、 85セットは PDB I Dが 133セットと重複しないため、 すなわち、 この最適化の過程にお いて、 85セットは、 133セットの情報を使用していないためである。 また 8 5セットは GOLDのベンチマークのみを行っており、 GOLDの成功率は C o r i n aの構造を標的タンパク質にドッキングさせた場合、 75. 2±0. 4% であり、 実験構造のリガンド構造を用レ、結合部位を 6 Aと定義した場合 8ひ . 5 ±0. 5%であり、 実験構造のリガンド構造を用い、 結合部位を 4 Aと定義した 場合 86. 9 ± 0. 3 %であり、 X線結晶構造中に存在する結晶水を含めた場合 98. 6±0. 1%であった (J. Me d. Ch em. 50, 726— 741 (2007) ) 。 すなわち、 GOLDだけの評価を行っている場合、 既 存のドッキングソフ卜の中における Ch o o s e LDの位置づけを知ることがで きないので、 85セットは k 1値の最適化に使用した。 ここでは、 FPAスコア (S c o r e) で記述した k 1の最適化をおこなった。
ドッキングの条件は下記に述べる通りである。 他のベンチマークと同様に、 リ ガンド結合部位の探索範囲を狭める等の利点があるため、 リガンド結合部位を定 義した。 すなわち、 Ch o o s e LDのドッキング性能試験のベンチマークは、 タンパク質のリガンド結合部位のァミノ酸残基を予測するものではなく、 リガン
ド結合部位における候補リガンドの配座の正確性を試験することである。 結合部 位 (b i n d i n g s i t e) の大きさは、 タンパク質一リガンド複合体 (P r o t e i n-L i g a n d c omp l e x) の正解構造のリガンドの各原子 から 4Aとした。 また、 FPライブラリーに含まれているリガンドの候補リガン ドとの類似性の及ぼす影響を試験するため FPライブラリーに属するリガンドと の Tcを計算し、 FPライブラリーに含まれるリガンドを限定した。 ドッキング するリガンドとライブラリ一リガンド (L I BRARAY L I GANDS) に 属するリガンドとの Ta n i mo t o係数を薬剤様 FP (D r u g L i k e F i n g e r p r i n t ) を用いて計算し、 f p b a n d sの T c Ra n g eは、 最大値を 0. 96, 0. 76そして、 0. 56、 最小値を 0. 08とし た。
初期コンフオメーシヨンは二面角をランダムに回転させ、 初期リガンドからも つとも rms dの大きい構造を結合部位 (b i n d i n g s i t e) から十分 に離したものを使用した。 そのリガンドを用いて、 一つのターゲットに対して 1 0回のドッキングをおこなった。 85セットのうち、 84セットをドッキングす ることができた。 ここで、 図 20は、 85セットにおける予測成功率一覧 (k 1 と Tc Ra n g eの関係) 'を示す図表である。
図 20の表の k lは、 F PAS c o r eで述べた係数のことである。 その下の 数値は、 計算をおこなった k 1値である。 T c R a n g eは、 最大値を 0. 9 6, 0. 76, そして 0. 56、 最小値を 0. 08とした。 カラムの中の数値は 成功率 (%) であり、 平均 (a v e r a g e) は、 上記の範囲の平均値である。 この結果、 k l=4. 0の時の平均値が最も成功率が 62. 1%と最も高く、 次に 6. 0, 3. 0, 5. 0, 2. 0の順で成績がよかった。 k 1値が 1. 0の 場合は、 すべての TC Ra n g eにおいて、 そのほかの k 1値の成功率より悪 かった。 k l値が 4. 0と 6. 0の場合はほぼ同等であつたが、 わずかに平均値 においてまさる 4. 0を最適値として 133種 [参考文献: On o d e r a e t a 1 J . C h e m. I n f . Mo d e l . 2007, 47, 1
609-1 618] のベンチマークはこの数値を用いた。
ここで、 図 21は、 10位までに rms d 2. 0以下で予測できる割合を示す 図表である。 図 21の右図は、 その時の成功率をプロットしたものであるが、 採 用される F PAS c o r eによる順位を増やすにつれ、 予測成功構造を得られる 確率が上昇することが示された。 すなわち、 FPAS c o r e上位の予測構造を 一つ用いるのではなく複数用いる場合、 正解に近 、構造を得られる確率が上がる ことになる。 すなわち、 FPAS c o r e上位の予測構造を分子動力学計算や量 子化学計算による複合体構造の最適化における初期構造にも複数用いた方がよい と考えられる。 成功とみなす実験構造との rms dを 2. OAとした場合、 10 位までに最大 82. 9%予測に成功することが示された。
また、 図 22は、 10位までに rms d 2. 5 (C l o s e) 以下で予測でき る割合を示す図表である。 図 22に示すように、 成功とみなす実験構造との rm s dを 2. 5 Aとした場合、 10位までに最大 87. 6%予測に成功することが 示された。
また、 図 23は、 成功とみなす正解構造との rms dを 2. 0 A以外でも行つ た場合を示す図表である。 図 23の右図は、 横軸に成功と見なす実験構造との r m s d、 縦軸に予測成功率をプロットしたものである。
上述のように、 2. 5 Aでは、 約 7割成功としたが、 85セットベンチマーク における GOLDの予測成功率の一つである C o r i n aで発生させたリガンド、 すなわち、 実験構造のコンフオメーシヨンを用いない場合の結合モード予測の成 功率 75. 2% (参考文献 (Mi c h a e l e t a 1 J. Me d. C h em. 2007, 50, 726— 741 ) ) と同等の成功率を得るには、 T c Ra n g eを 0. 56— 0. 08では 3. 2〜3. 3、 0. 76— 0. 0 8ならば 2. 8を、 0. 96〜0. 08ならば 2. 6〜2. 7を用いる必要があ ることが示された。 なお、 一般的な共有結合長である 1. 5 Aを成功と定義した 場合では、 約 4割の予測に成功したことになる。 ファンデルワールス相互作用の 限界値にちかい 3. 5 A以内では約 8割の予測に成功したことになる。 ここで、
図 24は、 Ch o o s e LDと比較して、 Do c k、 Au t oDo c kおよび G OLDのベンチマークの結果を示す図表である。
図 24は、 On o d e r a e t a 1 [参考文献 : O n o d e r a e t a 1 J . C h e m. I n f . Mo d e l . 200 7, 4 7, 1 60 9- 1 6 1 8] によるベンチマークで C o r i n aによる座標発生に失敗したタ ーゲット、 DOCKまたは GOLDで失敗したターゲットをのぞいた 1 1 6種の PDB I Dの結果を示す図である。 図 24の成功率 (s u c c e s s r a t e ) は、 rm s d 2. OAか、 それより良い構造の割合を示している。
ここで、 ドッキング方法 (Do c k i n g me t h o d) は、 各ドッキング ソフト (D o c k i n g s o f t) の名前を意味している。 Ch o o s e LD は、 3つの T c R a n g eについて性能評価をおこなっている。 GOLD G OLDS c o r e STD, GOLDS c o r e L i b, GOLD C h e m S c o r e STD, Au t oD o c k、 そして DOCKの値は、 C o r i n a と MI N Iの平均値とし、 各ドッキングソフトの成功率において標準偏差を細い 棒で示している。
図 24_のグラフに示すように、 本実施例の Ch ό o s e LDの rm s d 2. 0 A力、 それより良い構造を予測する性能 (成功率) は、 T c 1^ & 1 8 6が0. 96から0. 08の場合、 GOLDとほぼ対等である。 T c R a n g eが 0. 76から0. 08の場合、 GOLDとほぼ対等か少し劣る。 T c Ra n g eが 0. 56から0. 08の場合、 GOLDには及ばないが、 DOCK, Au t o D o c kよりよレ、、 ということが示された。
ここで、 図 25は、 85セットにおける F P A S c o r eの予測構造と実験構 造との rm s dが 2. OA以下における各々標的タンパク質との衝突個数の分布 を示す図である。 衝突 0個の構造が 75. 0 %であり、 衝突 1個の構造が 1 7. · 3%であるため合計が、 計 9 2. 3%となっていることから、 FPAS c o r e の衝突判定関数は、 経験的物理関数であるレナ一ドジヨーンズ型関数の衝突判定 に相当するものとして機能していることが示された。
図 26および図 27は、 各ターゲットにおける全 10回のドッキング試行にお ける成功個数を記したものである。 図 26は、 85セットベンチマークにおける 予測成功構造の個数分布を示している。 なお、 図 26の 「* 1」 は、 予測成功個 数が 5から 10個の PDB I Dの個数の全体に占める割合を表している。 すべて の Tc範囲において、 10回成功と 10回失敗の割合が大きい。 また、 10回中 5回成功したターゲットは 62. 7〜65. 5%であった。 また、 Tc範囲の上 限値を小さくしていくと、 10回とも失敗する個数が増える傾向が示された。 こ れは Ch o o s e LD法が、 FPライブラリ一として既知のタンパク質一リガン ド複合体構造に依存しているため、 F Pライブラリ一に属するリガンドが減ると 精度が落ちるためと考えられる。
[結果と考察 (2) (Re s u l t a n d D i s c u s s i o n (2) ) : 133種のベンチマークの結果]
On o d e r a e t a 1 [参考文献 : O n o d e r a e t a 1 J - Ch em. I n f . Mo d e l . 2007, 47, 1609— 16 18] によって、 各ドッキングソフトを提供されている状態に近い状態でベンチ マークが行われている。 彼らによると標的タンパク質は、 GOLD [参考文献 : Ga r e t h e t a 1 J . Mo 1. B i o l . 1997 267,
727- 748] のベンチマークに使用されているタンパク質一リガンド複合 体 (P r o t e i n— L i g a n d c omp l e x) は、 133種の中で GO LD, DOCKでドッキングすることができなかったターゲット、 および、 Co r i n aで三次元座標を発生できなかったターゲットをのぞいた計 1 16種を用 いられている。 なお、 除かれた PDB I Dは、 1TPH, 1 TRK, 1 X 1 D, 4FAB, 6RSA, 1 BBP, 1 CTR, 1HYT, 1 PHG, 1 POC, 1 SNC, 1 TMN, 1 CDG, 1DR 1, 1 LDM, 4 CT S, 4 E STである(V i r t u a 1 S c r e e n i n g J. C h em. I n f . Mo d e l . 47, 1609— 1618 (2007
) ) o
各々のドッキングソフトのパラメータは各々 ドッキングソフトで提供されてい るパラメータを使用しており、 パラメータをターゲット用に最適化していない。 パラメータの最適化を行えば、もちろん成功率は変わると考えられる力 S、それは、
Ch o o s e LDにおいても同様であり、 Ch o o s e LD法においても、 標的 タンパク質に応じて変更可能パラメータ k 1, k 2, k 3値が定義されているの で、 最適化の余地が残っている。 そこで、 Ch o o s e LDの性能評価には方法 の項で述べられた値と 85セットで最適化をおこなった k 1値、 すなわち 4. 0 を用いた。
ここで、 Ch o o s e LDが使用するドッキングの条件は各ターゲットにおい て、 以下のように定めた。
1. 結合部位 (b i n d i n g s i t e)
結合部位 (b i n d i n g s i t e) は、 従来のベンチマーク [参考文献: On o d e r a e t a 1 J . C h e m. I n f . Mo d e l . 2 007, 47, 1609— 1618] に類似してネイティブ (Na t i v e ) のタンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) のリガンド (1 i g a n d) の各原子から半径 5. 0 A以内の距離に存在 する P r o t e i nの原子の球とした。
2. リガンドのコンフオメ一シヨン変化
133セッ卜のベンチマークではドッキングするリガンドを 3つ用意している。 すなわち、 C o r i n aで発生させたリガンドと、 C o r i n aで発生したリガ ンドのうちエネルギー最小構造 (以下 MI N Iとする) のものと、 そして PDB に登録されている状態の構造との 3つであり、 これらをそれぞれ 1 16の標的タ ンパク質に対して 1000個の予測を行っている (V i r t u a l S c r e e n i n g J . Ch em. I n f . Mo d e 1. 47, 1609— 1 618 (2007) ) 。 Ch o o s e LD法のドッキング性能試験においては コンフオメーシヨンをランダムに変化させ、 実験構造のタンパク質ーリガンド複 合体のリガンドから最も rms dが大きい構造で、 かつ上記で定義されたリガン
ド結合部位から十分に離れた状態のリガンドを使用した。 すなわち、 実験構造を そのまま用いずに各 1 16の標的タンパク質に対して 10回の予測を行ったこと になり、 133セットを用いたベンチマークとほぼ同条件で行ったことになる。 これらの過程においてリガンドに水素が存在した場合は取り除かれる。
3. リガンドとのタニモト係数の範囲
使用するライブラリーリガンド (L I BRARY L I GAND) は、 候補リ ガンド (d o c k e d l i g a n d) と T cの範囲で、 その最大値である 0. 96, 0. 76および 0. 56は、 それぞれ、 ドッキングリガンドと非常によく 似ている化合物が存在するもの、 似ている化合物が存在するもの、 少し似ている 化合物が存在するものとに該当する。 そこで、 Tcの範囲には、 0. 96— 0. 08 (つまり答えを含まない) , 0. 76— 0. 08および 0. 56— 0. 08 に該当するものを用いた。
4. On o d e r a e t a 1は、 一つのリガンドに対して 1000回ド ッキングを行っている [参考文献: On o d e r a e t a 1 J. Ch e m. I n f . Mo d e l . 2007, 47, 1609— 1618] 。 今回の C h o o s e LDの性能評価では、 候補リガンド (d o c k e d : 1 i g a n d) を 10回ドッキングした。 すなわち 1 160回のドッキングを各々の T c R a n g eで行い計 3480回のドッキングをおこなった。 一回のドッキン グ試行において予測されたドッキング構造とネイティブなタンパク質一リガンド 複合体 (Na t i v e P r o t e i n-L i. g a n d Comp l e x) のリ ガンドとの rms dが 2. OA力、 それより良いならば成功とした。
図 28および図 29は、 133セッ トのベンチマークにおける DOCK, Au t oDo c k, GOLD予測構造の r m s d分布の結果と、 Ch o o s e LD法 の結果を示す図である。 Do c k i n g m e t h o dは各ドッキングソフトの 名前を意味している。 Ch o o s e LDは 3つの T c範囲について性能評価をお こなっている。 GOLDは、 GOLDS c o r e STD ( ' S t a n d a r d D e f a u 1 t S e t t i n g s ' w i t h GOLD S c o r e) , GO L
DS c o r e L i b ( ' L i b r a r y S c r e e n i n g S e t t i n g s ' w i t h GOLD S c o r e) , GOLDCh emS c o r e STD ( S t a n d a r d D e f a u l t S e t t i n g s ' w i t h Ch e m S c o r e)の 3つのノ ラメーター (V i r t u a l S c r e e n i n g J · Ch em. I n f . Mo d e l . 4 7, 1 609— 1 6 1 8 (2 007) ) , Au t oD o c kそして DOCKの値は、 C o r i n aと M I N I の平均値とした。 このグラフより C h o o s e LDの r m s dが 2. 0 A以下 の構造を予測する性能は、 T c範囲が 0. 96〜0. 08なら GOLDとほぼ対 等である。 丁(;範囲が0. 76〜0. 08なら GOLDとほぼ対等力少し劣り、 T c範囲が 0. 56〜0. 08ならば、 DOCK, A u t o D o c kよりよいこ とが示された。
図 30および図 31は、 各ターゲットにおける全 1 0回のドッキング試行にお ける成功個数を記したものである。 なお、 図 30中の 「* 1」 は、 予測成功個数 が 5から 1 0個の PDB I Dの個数の全体に占める割合を示している。 85セッ トと同様に、 1 0回成功と 1 0回失敗の割合の二極化がおきているが、 1 0回失 敗の数がもっとも多いごとが示された。 また、 85セットに比べて、 10回成功 率が 20%近く下がっている。 これらのことから、 1 33セットは 85セットに 比べて、 ドッキングが難しいターゲットが多く含まれているものと考えられる。 85セットの医薬品的な化合物は分子量、 回転可能な結合数、 水素供与体、 水素 受容体の数がリピンスキーの 5ルール等で限定されているので、 その絞り込みの 影響により ドッキングしゃすレ、化合物が多く含まれるためであると考えられる。 図 32および図 33は、 T c範囲で限定された F Pライブラリーにおいて F P AS c o r eで順位付けされた分布内に実験構造との r m s dが 2. 0 A以下の 構造が得られる確率を示す図である。 すなわち、 順位が 1の場合は前述したその 他のドッキングソフトとの比較の成功率と一致する。 この結果も 85セットと同 様に全体の成功率が低下している。
図 34は、 予測成功構造の衝突個数の分布を示す図であり、 1 33セットにお
ける予測構造と実験構造との rms dが 2. OA以下の構造における各々標的タ ンパク質との衝突個数の分布を示す。 衝突 0個の構造が 56. 0%で衝突 1個の 構造が 28. 7%であり、 計 84. 6%となっており、 FPAS c o r eの衝突 判定関数は経験的物理関数であるレナ一ドジヨーンズ型関数の衝突判定に相当す るものとして機能していることが示された。 85セット、 133セットとも同様 の傾向を示したことから、 衝突判定は十分機能していると考えられる。
図 35は、 FPライブラリ一に用いるリガンドの Tc範囲の上限値をさらに低 くし、 0. 16, 0. 24, 0. 36に下限値を 0. 08にした場合の性能およ び、 前述した Tc範囲、 すなわち上限値 0. 56, 0. 76, 0. 96、 下限値 0. 08の予測成功率を示す図である。 Tcの上限値を低くした場合は、 0. 2 4-0. 08で 133セットベンチマークにおける DOCK (21. 1%) と同 程度の予測精度であり、 0. 36— 0. 08で 133セットベンチマークにおけ る Au t oDo c k (26. 6%) と同程度の予測精度であることが示された。 (GOLDとの比較)
理研ベンチマークで GOLDが失敗したが、 本願発明者の方法ではドッキング でき、 かつ、 rms d 2. 0以下であった例を 2例示す。
ここで、 図 36は、 1DR 1について予測されたタンパク質一リガンド構造を 不す l≤dでめる (P r e d i c t e d p r o t e i n— l i g a n d c o m p l e x s t r u c t u r e f o r 1DR丄) 。
図 36における条件や値等は以下のとおりである。
PDB I D : 1 DR 1
T I TLE : CH I CKEN L I VER D I HYDROFOL ATE R EDUCTAS E
DOCKED L I GANSD : NADP
RMS D : 1. 743
F PA: S c o r e 1295. 553
CYAN (図中央のシアン (淡い水色) ) :実験 (X線結晶解析) 構造 (An s
we r) (以下も同じ。 )
GREEN (図中央の濃い緑) :予測のリガンド構造 (P r e d i c t e d 1 i g a n d S t r u c t u r e) (以下も同じ。 )
Th e o t h e r (その他) :結合部位 (t h e b i n d i n g s i t e ) (以下も同じ。 )
すなわち図 36は、 PDB I D ; 1 DR 1に対する本実施例の予測構造を示し ている。 これは GOLDが予測に失敗した標的タンパク質、 すなわち 133セッ トのベンチマークから除外されたターゲットである (V i r t u a l S e r e e n i n g J . C h e m. I n f . Mo d e 1. 47, 1609— 1618 (2007) ) 。 本実施例の Ch o o s e LDは、 予測構造と実験構 造の rm s dが 1. 74 Aであり、 予測に成功した。 これは、 リガンドに存在す る環構造が FPライブラリーにも多く含まれていたためであると考えられる。 また、 図 37は、 4 ESTについて予測されたタンパク質一リガンド構造を示 す図でめる ^P r e d i c t e d p r o t e i n— 1 i g a n d c omp l e x s t r u c t u r e f o r 4EST) 。
図 37における条件や値等は以下のとおりである。 - PDB I D : 4 E ST
T I TLE : CRYSTAL STRUCTURE OF THE COVA LENT COMPLEX FORMED BY A PEPT I DYL ALPHA, AL PHA-D I F LUORO
-BETA-KETO AMI DE WI TH PORC I NE
PANCREAT I C E LAS TAS E AT 1. 78— A
NGSTROMS RESOLUT I ON DOCKED L I GAND : I NH I B I TOR ACE-* ALA-* P RO-* VAL-*D I F LUORO- *N-* PHE YL ETHYL ACE
T AM I DE
RMSD: 1. 729
F PAS CORE : 451. 291
すなわち、 図 37は、 PDB I D ; 4 E STに対する本実施例の予測構造を示 しており、 これは GOLDが予測に失敗した標的タンパク質であり、 133セッ トのベンチマークから除外されたターゲットである (V i r t u a l S e r e e n i n g J . C h e m. I n f . Mo d e l . 47, 1609— 1618 (2007) ) 。 Ch o o s e LDは、 予測構造と実験構造の r m s dが 1. 73 Aであり予測に成功した。 これはドッキングするリガンドがぺプチ ド性リガンドであったこともあり、 F Pライブラリ一に含まれるぺプチド性リガ ンドの主鎖の炭素、 窒素、 酸素が主に使用されたためであると考えられる。
[結果と考察 (2) (Re s u l t a n d D i s c u s s i o n (2. 1) ) :予測された構造結果 (r e s u l t o f p r e d i c t e d s t r u c t u r e )
既存のドッキングソフト (GOLD, DOCK) が失敗したすべてのドッキン グの例を 4例示す。
ここで、 図 38〜図 41は、 GOLDが失敗したが C h o o s e LDは予測に 成功したターゲットを示す図である。
図 38における条件等は以下のとおりである。
1 CDG
T I TLE :
NUCLEOT I DE SEQUENCE AND X— RAY STRUCT URE OF
CYCLODEXTR I GLYCOSYLTRANSFERASE FR OM BAC I LLUS C I RCULANS STRA I N
251 I N A MA L T O S E— D E P E ND E NT CRYSTAL
FORM
また、 図 39における条件等は以下のとおりである
1 DR 1
2. 2 ANGSTROMS CRYSTAL STRUCTURE OF C H I CKEN L I VER D I HYDRO FOLATE
REDUCTASE COMP LEXED WI TH NADP+ AND B I OPTER I N
また、 図 40における条件等は以下のとおりである。
1 LDM
REF I NED CRYSTAL STRUCTURE OF DOGF I SH
M4 APO— LACTATE DEHYDROGENASE
また、 図 41における条件等は以下のとおりである。
4 E ST
T i t l e CRYSTAL STRUCTURE OF THE COVA LENT COMP LEX FORMED
BY A PEPT I DYL ALPHA, AL PHA-D I FLUORO-B ETA-KETO AMI DE WI TH PORC I NE
PANCREAT I C E L AS TAS E AT 1. 78— ANGSTROM
5 RESOLUT I ON
(GL I DEを含めた比較)
G l i d e (J. Me d. Ch em. 47, (2004) 1 739 - 1749) はフレツキシブルリガンドドッキングソフトであり、 本実施例の方 法の内で GOLD等との予測精度の比較を行っている。 図 42は、 133セット 中における 90ターゲットにおける予測成功率を示す図表である。 但し、 上表の 予測成功率の算出法は各ドッキングソフトによって異なる。 すなわち、 GOLD は各ターゲッ卜に対して遺伝的アルゴリズムによる最適化を 20回行った場合の 結果( t h e b e s t o f GA 20 r un) (h t t p : / / www. c e d e. c am. a c - u k/p r o du c t s/1 i f e一 s c i e n c e s/v a l i d a t e/g o l d v a l i d a t i o n/v a l u e, h tm
1) であり、 Ch o o s e LDは各ターゲットに対して 10回ドッキングを行い FPAS c o r e上位 2個選び、 べストの構造を選択した。 G 1 i d eのドツキ ング性能の検証には記載が無いので GOLDに準ずると考えられる。 133セッ トのベンチマークの結果において、 GOLDの予測成功率が 45%程度であった 事実からドッキング条件および予測構造の選択法によつて予測成功率が大幅に変 動すると考えられる。
(予測成功標的タンパク質の分布)
図 43は、 ドッキングソフト間の予測に成功した標的タンパク質の PDB I D の類似度を Tc (タニモト係数) で算出した図表である。 ここで、 133セット の中における 90セットにおける、 それぞれの標的タンパク質に関して、 両方の ドッキングソフトが予測に成功した場合、 Tc計算式の aを加算し、 片方のみが 予測に成功したのなら bもしくは cを加算する。
図 43に示すように、 G 1 i d e, GOLD, F 1 e xX (J. Mo 1. B i o 1. 261, 470-489 ( 1996 ) ) ) 間の T cが 0. 61〜 0. 65であるのに対して Ch o o s e LDとその他のドッキングソフト間では 0. 47〜0. 55程度であった。 予測成功率は GOLD, G 1 i d e, C h o o s e LD間で顕著な差が無いことも考えると Ch o o s e LDはその他のドッ キングソフ卜に比較し、 予測が成功する標的タンパク質の分布に独自性があるこ とが示された。
また、 図 44は、 90ターゲット中の一つの標的タンパク質に対する各ドツキ ングソフ卜の予測の成否分布を示す図表である。 一方のドッキングソフ卜が予測 可能なターゲットは多く存在し、 現状では、 すべての標的タンパク質の予測に成 功するドッキングソフトは無いと言うことになつた。 このような背景のもと、 複 数のドッキングソフトを用いることを前提に、 ドッキングソフトのスコアによつ て予測構造を選択するのではなく、 予測された標的タンパク質一リガンド複合体 構造から、 水素結合等のタンパク質との相互作用情報をもちいて、 より実験構造 に近い予測構造を選択する研究が多く行われている (Eu r o p e a n J o u
r n a 1 o f Me d i c i n a l Ch em i s t r y 42, 966 -976 (2007) 、 J . Me d. C h e m. 47, 337— 34 4 (2004) ) 。
ここで、 図 45〜図 47は、 DOCKが失敗したが Ch o o s e LDは予測に 成功したターゲットを示す図である。
ここで、 図 45における条件等は以下のとおりである。
1 HYT
RE-DETERM I NAT I ON AND REF I NEMENT OF T HE COMPLEX OF BENZYL SUCC I N I C AC I D WI TH THERMOLYS I
N AND I TS RELAT I ON
TO THE COMPLEX WI TH CARBOXYPEPT I DAS E A
また、 図 46における条件等は以下のとおりである。
1 PHG
CRYSTAL STRUCTURES OF ME T Y R A P ON E— AND
PHENYL IMI DAZOLE- I H I B I TED
COMPLEXES OF CYTOCHROME P 450 -CAM
また、 図 47における条件等は以下のとおりである。
1 TMN
B I ND I NG OF N- C A R B O X YME T H Y L D I PEPET I D E I NH I B I TORS TO THERMOLYS I N DETERMI NED BY X-RAY CRYSTALLOGRAPHY. A NOVEL CLAS S OF TRANS I T I ON-STATE AN ALOGUES FOR Z I NC PEPT I DASES
[結果と考察 (3) (Re s u l t a n d D i s c u s s i o n (3) ) : 許可された r a n k r a n g eの結果 (r e s u l t o f a c c e p t e d
r a nk r a n g e) ]
図 48は、 1位だけではなく 1◦位までに r m s d 2. 0の構造が採取できる 割合を示す図である。 図 48に示すように、 10位まで採取すると、 6割以上が r m s d 2. 0以下でドッキング可能である。
また、 図 49は、 1位だけではなく 10位までに r m s d 2. 5 (C l o s e ) の構造が採取できる割合を示す図である。
[結果と考察 (4) (Re s u l t a n d D i s c u s s i o n (4) ) : 成功とみなせる r m s dの結果 (r e s u l t一 rms d一 r e g a r d一 a s ― s u c e e s s) 」
成功と定義する r m s dを変化させる。 理研ベンチマークとの比較の際には、 成功と定義する予測構造の正解構造との rms dを 2. OAとしたが、 そのほか の数値 (1. 5, 2. 5, 3. 0, そして 3. 5) を示す。 3. 5 Aであれば、 その予測リガンド構造はほぼリガンド結合部位の近傍に存在すると考え、 その構 造を分子動力学や、 量子化学計算の初期構造として用いることができるためであ る。 図 50は、 成功と定義する rms dを変化させた場合を示す図表である。 図 50に示すように、 3. 5 A以内に予測できた構造は、 T c Ra n g e 0 . 56-0. 08 (即ち少し似ているリガンドがライブラリーに存在する場合) において 68. 9 %であった。つまり、類似した化合物の実験構造が存在すれば、 この精度でドッキング構造が少なくともリガンド結合部位近傍に予測可能である ことを意味している。
また、 Tc Ra n g e 0. 96-0. 08 (即ち、 かなり似たリガンドが ライブラリ一に存在する場合) においては、 7割の程度がリガンド結合部位に存 在することを示している。
ここで、 ドッキングの成功の定義としての r m s d 2. 0という数値は、 様々 なベンチマーク [参考文献: Ga r e t h e t a 1 J. Mo 1. B i o 1. 1997 267, 727- 748] , [参考文献: M i c h a e 1 e t a 1 J . Me d. C h e m. 2007, 50, 726— 7
4 1] , [参考文献: On o d e r a e t a 1 J . C h e m. I n f .
Mo d e 1. 200 7, 4 7, 1 609— 1 6 1 8 ] などにおける基本 的な評価基準である。 し力 し、 実際には、 rm s dが 2. 0より大きいケースで も、 MD, QMなどの最適化を行えば、 精度よくタンパク質一リガンド複合体 (P r o t e i n— L i g a n d c o m p 1 e x )の構造を予測し得る。即ち、 これらの成功と定義する rm s dを示すことは、 MD, QM研究者が複合体構造 の最適化のための初期構造を選ぶ際の、 有用なデータとなる。 つまり、 最適化に 力、力、る時間 s h o t t i me 1 00 p s , l o n g t i me I n s a n d s o o n)または最適化するリガンド結合部位の範囲( 5 A, 1 OA a n d s o o n) を見積もる場合の参考になると考える。
[結果と考察 (5) (R e s u l t a n d D i s c u s s i o n (5) ) : 理想的な方法 (m e t h o d一 i d e a 1 ) ]
主に考察(D i s c u s s i o n)を以下に再び図 8を参照しながら記述する。 すなわち、 本実施例では、 リガンドのパーツである F Pのコンフオメーシヨン が相互作用した構造として最も安定であるとの仮定をたてる。 本実施例の FPの 標的タンパク質との相互作用とは、 タンパク質と近い距離にある FPを疎水性相 互作用、 水素結合相互作用および、 ファンデルワールス相互作用といったェンタ ルビー的相互作用と解釈し、 また、 タンパク質と遠い距離にある F Pを溶媒との 相互作用といったェントロピー的相互作用と解釈する。
つまり、 本実施例においては、 最終的に F Pのコンフオメーシヨンを使って、 基底として化合物 (Ch em i c a 1. C o m p o u n d ) が最も安定なドツキ ング構造をとる場合、 タンパク質リガンド相互作用において最も安定な自由エネ ルギーをとると言うことに相当すると仮定されている。
すなわち、 重なりのよい類似タンパク質由来の結合リガンド (1 i g a n d) 群から抽出した F P配置は、 タンパク質との相互作用の自由エネルギーを含んで いる。
ここで、 一つの標的タンパク質がある場合、 多くのリガンドを集めるためにホ
モロジ一または、 e— V a 1 u eの低い類似タンパク質を利用するが、 これら機 能的分類に縛られない広義のフアミリータンパク質は活性部位近傍が少しの構造 変化と、 アミノ酸残基の変化を伴い、 7アミリータンパク質から抽出した FPが 自由エネルギー安定の仮定を満たされない可能性も当然考えられる。
そのため、 この欠点を補う必要があり、 ファミリータンパク質から抽出した F Pを、 標的タンパク質との相互作用においてより自由エネルギーが安定になる F Pに変えて、 "Mo d i f i e d F P" とし信頼性の少し落ちた F Pとして採 用する。 これには 3D— 1 D法の P r o g r amを修正して対応する。 この Mo d i f i e d F Pの作成を標的タンパク質に対して行えば、 まだ見つかつてい ない新規骨格のリガンドを考慮したことに相当し、 標的タンパク質に結合した既 知のリガンドょりも活性の高い化合物を見つけられる可能性がある。
一方、 複数の結合化合物の原子相互作用の共通領域の F Pは、 ファミリータン パク質が似たような複数の化合物と結合するという重なりを重視しており、 生物 化学的情報やエネルギー計算により原子の存在の可能性がある場合に与えられる "C r e a t i v e F P " よりも実験情報を反映した F Pを得ることができる —と考える。
[他の方法 (MD, QM) のタンパク質一リガンド複合体の最適化 (P r o t e i n— L i g a n d Comp l e x Op t im i z e f o r o t h e r me t h o d (MD, QM) ) ]
従来の古典物理学的エネルギーによって予測されたタンパク質一リガンド複合 体 (P r o t e i n— L i g a n d c omp l e ) の構造に対して、 既知の タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x ) の構造の情報を用いて、 上記の方法で得られたドッキング構造の順位付け、 ク ラスタリングが行われている [参考文献: Z h a n e t a 1 J. Me d. Ch em. 2004, 47, 337— 344] 。 これらのことは、 既存 のドッキングソフトによる出力は、 実験情報を確実には反映していない構造を出 力することを意味している。
一方で、 予測されたタンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の構造を AMBER, CHARMMを用いた MD (参 考文献:それぞれ、 C a s e, A. D. , Ch e a t h am I I I, E . T. , Da r d e n, T. , Go h l k e, H. , L u o, R. , Me r z J r. , M. K. , O n u f r i e v , A. , S i m me r l i n g, C. , Wa n g, B. & Wo o d s, J. R.
Th e Amb e r B i omo l e c u l a r S i mu l a t i o n P r o g r ams J C o m p u t C h e m 26 1668— 1688 ( 2005) , B r o o k s, R. B, B r u c c o l e r i , E. R . , O l a f s on, D. B. , S t a t e s, JL D. , S w am i n a t h a n, S. & Ka r p l u s, M. CHARMM: A p r o g r am f o r ma c r omo 1 e c u l a r e n e r g y, m i n i m i z a t i o n, a n d d yn am i c s c a l c u l a t i o n s J. Comp. C h e m. 4 187— 21 7 (1983) ) または QM (参考文献: Kam i y a K, Su g awa r a Y, Urn e y a m a ~H. J . Comp u t. C h e m. 2003, 24, 8 26-841) で最適化する試みもなされている。 これらの MDや QMなどの方 法では、 ドッキングやインシリコスクリー;ングを行うのは計算量が大きすぎる ため、 真 (Na t i v eと言う意味で) のタンパク質一リガンド複合体 (P r o t e i n-L i g a n d c o m p 1 e x ) の構造からある程度近い位置にリガ ンドをドッキングし、 それを初期構造とする必要がある。
その初期構造を得るために既存のドッキングソフトを用いるのだが、 前に述べ た物理エネルギーを主体にしているため、 物理エネルギーによる最適化を繰り返 すことになる。
一方、 本実施例による手法は、 既知のタンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の情報を主に使用しておりバイオイン フォマテイクスの観点と物理エネルギーによる観点を考慮することが可能であり、
また、 本実施例で用いた P D Bの構造情報といったバイオインフォマティクス情 報は、 年ごとに蓄積されるものなので、 医学的に興味あるタンパク質一リガンド 複合体 (P r o t e i n— L i g a n d Comp l e x) は多くの研究者によ つて研究され、 これらの予測構造の最適化にも有用であると考える。
[結論 (Con c l u s i o n) :本手法の性能]
図 51は、本実施例による処理の結果を示す図表である。図 51に示すように、 本実施例による手法を用いれば、 T 85 s e tをドラッガブルタンパク質 (D r u g g a b l e— p r o t e i n) に対して、 ドラッグ様リガンド (D r u g g l i k e l i g a n d) をドッキングした場合、 T c Ra n g eが 0. 5 6-0. 08, 0. 76-0. 08, 0. 96— 0. 08の場合それぞれ、 G o o dの構造を得る確率は、 58. 9, 62. 1そして 65. 2%であり、 C l o s eの構造を得る確率は、 それぞれ、 68. 6, 72. 1, 72, 4%であった。 また、 ドラッガブル標的タンパク質 (Dr u g g a b 1 e_Ta r g e t P r o t e i n) に对して、 様々なリガンド ( 1 i g a n d) をドッキングした場 合の性能は、 Tc Ra n g eが 0. 56— 0. 08, 0. 76— 0. 08, 0. 96-0. 08の場合それぞれ、 G o o dの構造を得る確率は、 40. 1, 44. 8, そして 46. 4%であり、 C 1 o s eの構造を得る確率はそれぞれ、 53. 2, 57. 8そして 59. 3%であった。 そしてこれらの性能は既存のドッキン グソフ卜とほぼ同等の' 14能であることを示した。
標的タンパク質とリガンドが共に医薬品的な (d r u g g a b 1 e) 化合物を 含んだトレーニング計算の結果から、 標的タンパク質と任意のリガンドの相互作 用スコアが 10番目までのコンフオメーシヨンを考察すれば、 標的タンパク質全 体の 83% (図 21の◦. 96— 0. 08、 10位までの値) に対して、 正解に 対して良いモデルを与えるという 2. 0Aの範囲の答えを含んだリガンド構造が 一つは見つかるので、 目視をして良い構造を探す価値があるということになる。 —方、 標的タンパク質と任意のリガンドの相互作用スコアが 10番目までのコ ンフオメーシヨンを考察すれば、 標的タンパク質全体の 88% (図 22の 0. 9
6-0. 08、 10位までの値) に対して、 正解に対して良いモデルと似ている モデルを与えるという 2. 5 Aの範囲の答えを含んだリガンド構造が一つは見つ かるので、 目視をして良い。 構造または似ているモデル構造を探す価値があると いうことになる。
また、 標的タンパク質はドラッガブル (d r u g g a b l e) であり、 リガン ドは種々の低分子化合物を含んだトレーニング計算の結果から、 標的タンパク質 と任意のリガンドの相互作用スコアが 10番目までのコンフオメーシヨンを考察 すれば、 標的タンパク質全体の 65% (図 48の 0. 96— 0. 08、 10位ま での値) に対して、 正解に対して良いモデルを与えるという 2. OAの範囲の答 えを含んだリガンド構造が一つは見つかるので、 目視をして良い構造を探す価値 があるということになる。
一方、 標的タンパク質と任意のリガンドの相互作用スコアが 10番目までのコ ンフオメーシヨンを考察すれば、 標的タンパク質全体の 76% (図 49の 0. 9 6-0. 08、 10位までの値) に対して、 正解に対して良いモデルと似ている モデノレを与えるという 2. 5 Aの範囲の答えを含んだリガンド構造が一つは見つ かるので、 目視をして良い構造または似ているモデル構造を探す価値があるとい うことになる。
従来、 物理学的相互作用関数で当該標的タンパク質と仮想化合物ライブラリー 低分子化合物の相互作用を計算していたところ、 本実施例は、 バイオインフォマ テイクスの情報を使つて半経験的に計算している点で従来手法と異なっており、 さらに構造予測の成功率は世界で認められているドッキングソフトプログラム G OLDと比べて優れる高い効果もあり、 また、 年々高まっている情報の蓄積が、 半経験的バイオインフォマテイクス手法の当該相互作用計算の結果を良いほうに 導くので、 有用性も大きく従来手法と異なる効果を奏する。
また、 本実施例は、 標的タンパク質と種々の低分子化合物との相互作用のスコ ァ化によって得られたコンフオメーシヨンを、 分子動力学計算式を内包したドッ キングプログラムである DOCKや Au t o D o c kや GOLDにおいて、また、
分子動力学計算プログラムである Am b e rや Ch a rmなど既存のドッキング ソフトの初期コンフオメーシヨンとして用いることができる。 これは、 本実施例 において得られた初期コンフオメーションが簡便に得られるのに加えて、 実験を 再現する精度が高いので、 他のソフトプログラムとの組み合わせによって、 有用 な結果を得られる。
また、 本実施例は、 標的タンパク質の立体構造に類似しているファミリ一高分 子タンパク質セッ卜に結合した種々の低分子化合物データベースである CE 1 i D (F P (f i n g e r p r i n t) s e t e x t r a c t e d f r om c o l l e c t e d l i g a n d s i n t h e b i n d i n g s i t e (結合部位のリガンド集合から抽出された化合物指紋セット) ) を基に、 任意の F P ( f i n g e r p r i n t) を使う計算の過程で、 標的タンパク質の立体構 造を解析して活性部位を指定することを必要としない方法とすることができる。 従来手法では、 安定コンフオメーシヨンが高いスコアを持つようにするために、 DOCKや Au t o D o c kや GOLDなど既存のドッキングソフトを使っての ドッキング計算において、 予め標的タンパク質の立体構造を解析して活性部位を 指定することをする必要があつたが、 これらに比べて、 本実施例は、 従来手法と 異なる高い効果を有し、 文献等の学習を通じて活性部位を指定する必要がなく有 用である。 本実施例による方法は、 バイオインフォマティクスの観点から既知のタンパク 質リガンド複合体 (P r o t e i n— L i g a n d C omp l e x) の相互作 用情報を定義したスコアを用いて的確にドッキングシミュレーションに反映する ことに成功した。
従来からも既存のドッキングソフ卜の出力を既知のタンパク質リガンド複合体 (P r o t e i n-L i g a n d C omp l e x) の情報をドッキングシミュ レーシヨンに加えることにより、 精度を上げるこころみは行われているが、 これ らの方法では、 研究者の歙智と実践に依存しており一般性がない。
本実施例による手法は、 相同性 (Homo l o g y) 検索および立体構造重ね 合わせを自動でおこない、 さらに、 本手法で提示されたスコア関数を用いること により、 精度よく ドッキング構造を得ることができた。
これらのことにより、 研究者によるヒューマンインタべーシヨンを多く必要と せず広く使用できる。 また、 本手法で提示されたスコア関数は既存のドッキング ソフトと組み合わせることも可能である。
すなわち、 本実施例による方法は下記の三点においてきわめて有用である。 本実施例による手法は、 バイオインフォマティクスの観点から既知のタンパク 質一リガンド複合体 (P r o t e i n— L i g a n d Comp l e x) の相互 作用情報を的確にドッキングシミュレーシヨンに反映できるところが従来手法と は異なる。 更に、 本実施例による手法は、 リガンドに適切な物理量、 距離拘束と いったパラメータを受容体との相補性、 および既知リガンドのコンフオメーショ ンおよび原子種を考慮して自動的に付カ卩できるという高い効果を発揮し、 当然こ れらのことは新医学的、 生物学的に重要な標的タンパク質とリガンドの相互作用 のバイオインフォマティクス情報は年ごとに蓄積するので新規骨格医薬品もしく は類似骨格の探索にきわめて有用である。 さらにテニラーメイ :ド医療時代の到来 で実験情報が豊富な標的タンパク質のドラッグデザィン (D r u g De s i g n) が必要になるので、 本実施例による方法は、 きわめて有用である。
[実施例 2]
実施例 2として、 EGFR (Ep i d e rma l g r owt h f a c t o r r e c e p t o r) を標的タンパク質とした場合の k 2と k 3の最適化とィ ンシリコスクリーニングについて以下に説明する。 ここで、 図 52は、 EGFR からの細胞内シグナル伝達経路を示した図である。
上記実施例 1の C h o o s e LD法において定義された F PAS c o r eスコ ァの k 2, k 3値は標的タンパク質に応じて最適化可能な係数として定義した。 そこで、 標的タンパク質に対して有効に機能するかどうか検証を行った。 上皮増 殖因子受容体フアミリーである EGFRは癌治療において、 重要な阻害標的とな
つている (J. B i o l . C h e m. 277 46265-46272 ( 2002) , Ce l l 125 1 137— 1 149 (2006) ) 。 そのた め、 EGFRを標的タンパク質として用いて、 インシリコスクリーニングをおこ なった。
(EGFRの立体構造構築)
EGFRのアミノ酸配列は NCB I (Wh e e 1 e r , D. L. e t a 1. , Nu c l e i c Ac i d s Re s. (2007) No v 27 ) ACCESS I ON I D P 00533を使用し、 铸型を P D B I D 1M 17の A鎖とした。 ァライメントは図 53に示すものを使用した。 図 53は、 E GFRのアミノ酸配列のァライメントを示す図である。
ホモ口ジ一は約 99 %であり、 立体構造を予測するよりはむしろ、 1 M 1 7の C末端の残基欠損を補うことを目的としている。 上記ァライメントを用いてホモ ロジーモデリングソフト FAMS L i g a n d & Comp l e x (P r o t e i n s, S u p p 1 7 122- 127 ( 2005 ) ) を用いてモデ ノレを構築した。ここで、図 54は、構築された EGFRのモデルを示す図である。
C I RC LEスコア (T e r a s h i , G. e t a 1. P r o t e in s, (2007) ) は 71. 367であった。 なお、 铸型の 1M17一 Aの スコア 82. 1 10はであった。 C I RCLEスコアは PDB等から得られた実 験構造座標データベースに所属するタンパク質の X線構造から得られた統計的ポ テンシャルであり、 スコアが正の方向に大きいほど既知のタンパク質 X線構造の 環境を満たしていることになり、 すなわち、 X線構造に近いモデルであると言え る。
(EGFR特異的 F Pライブラリ一の構築)
実施例 2の Ch o o s e LD法に従い得られた FPライブラリーとして用いた リガンドの PDB I Dは下記の通りである。
1AD5, 1 AGW, 1 BYG, 1 E 9 H, 1 FG I, 1 F I N, 1 FPU, 1 FVV, 1 GAG, 1H1 P, 1 H 1 Q, 1 H 24, 1H25, 1 H 26 , 1 H
2 7, 1 1 44, 1 I EP, 1 I R 3, 1 J P A, 1 J QH, 1 K 3 A, I KS W, 1M1 7, 1M52, IMP 8, 1MQB, l OEC, 1 OGU, 10 I 9, 1 O I U, 1 OP J , 1 OPK, 1 OP L, 1 PF 8, 1 PKG, 1 QC F, 1 QMZ, 1 QPC, 1 Q PD, 1 QPE, 1 QP J, 1 R 0 P, 1 RQQ, I S M2, 1 SNU, 1 T46, 1 U4D, 1 U 54, 1 U 59, 1 UWH, 1 UW 】, 1 VYW, 1 XB B, 1 XBC, 1 XKK, 1 Y 5 7, 1 Y 6 A, 1 Y6 B, 1 YKR, 1 YOL, 1 YOM, 1 YV J , 1 YWN, 2 B 54, 2 B 7 A, 2 BDF, 2 BD J , 2 BKZ, 2 B PM, 2 C 0 I , 2 C 0 O, 2 C 0 T, 2 C 4 G, 2 C 5 N, 2 C 5 O, 2 C 5 P, 2 C 5 T, 2C 5V, 2 C 5 X, 2DQ 7, 2 E 2 B, 2 ETM, 2 EVA, 2 EXM, 2 F 4 J , 2 FB 8, 2 FG I , 2 FO 0, 2 G 1 T, 2 G 2 F, 2G 2H, 2 G 2 I , 2 G 9 X, 2 GNF, 2 GNG, 2 GNH, 2 GN I , 2 GQG, 2GS 6, 2GS 7, 2H8H, 2H CK, 2HEN, 2H IW, 2HK5, 2HWO, 2HWP, 2HYY, 2HZ 0, 2HZ 4, 2HZ I , 2 HZN, 2 I OV, 2 I OY, 2 I 1 M, 2 1 40, 2 I TN, 2 I TO, 2 I TP, 2 I TQ, 2 I TT, 2 I TU, 2 I TV, 2
1 TW, 2 I TX, 2 I TY, 2 I TZ, 2 I VS, 2 I VT, 2 I VU, 2 I VV, 2 IW6, 2 I W8, 2 I W9, 2 J 0 J , 2 J OK, 2 J 0 L, 2 J 0 M, 2 J 5 F, 2 J 6M, 2NRU, 2NRY, 2 OF 2, 20F4, 2 OFU,
2 OF V, 2 OG 8, 2 O I Q, 20 J 9, 2008, 2 OS C, 20ZO, 2 P OC, 2 P 2H, 2 P 2 I , 2 P 4 I , 2 SRC, 2UUE
( I C 50既知化合物の入手)
B I OMOL (h t t p : //www. b i o m o 1. c o m/) の We bサ ィトから EG FRを競合的に阻害し、 I C 50値が既知の化合物の平面構造を 1 1個入手した。 図 55は、 入手した 1 1個の阻害剤の平面構造を示す図である。 図 55において、その化合物の平面構造に対応付けて、 I C 50値を示している。 これらの化合物の三次元座標は、 Ch em3Dを用いて立体構造を発生させたの ち、 C h e m 3 D付属のエネルギー最小化計算を行ったものを使用した。
(EGFRのインシリコスクリーニングのための k 2, k 3値を最適化) F P AS c o r eの k 2値を 0. 5から 5. 0の範囲で変更し、 MDL Co mp r e h e n s i v e Me d i c i n a l し h em i s t r y (MD L CMし) L i b r a r y (Symy x Te c hn o l o g i e s, I n c. Co r p o r a t e Ad d r e s s : 3100 Ce n t r a 1 Ex p r e s swa y, S a n t a C l a r a, CA 95051) を EGFR に活性のないダミー化合物と仮定し、 既知の阻害剤がそれらの化合物に比べて上 位に順位付けされるかといつた実験を行った。
図 56は、 F PAS c o r eで定義された k 2値を 0. 5から 5. 0の範囲に 変更した際の収穫率折れ線グラフを示す図である。 このとき k 3値は 1. 0とし た。 r a n d omの直線は、 ランダムに母集団から化合物を選択した場合に既知 阻害剤が得られる推定順位の直線であり、 この直線からより下位に折れ線が描け るのならば、 FPAS c o r eでの順位付けにおいて上位に阻害剤を検出できる 能力が高いということになり、 すなわちインシリコスクリーユングの性能がよい ことを意味する。 1^ 2値が0. 5, 1. 0, 5. 0の場合、 化合物の出現順位が 6から折れ線が上昇を始めている。 k 2値が 2. 0, 3. 0の折れ線を比較する と、 9, 10位において 2. 0の線がより、 収穫率が良好であった。 そこで、 k 2値を 2. 0とした。
図 57は、 F P AS c o r eにおける k 3値を 0. 5から 2. 0の範囲に変更 した際の収穫率折れ線グラフを示す図である。 このとき k 2値は 1. 0とした。 どの k 3値においても、おおむね同様の直線を得られた力 k 3値が 0. 5, 2. 0の場合は、 順位が 10, 1 1において、 折れ線が上昇しているため k 3値 1. 0を最適 ί直とした。
(T c 下限値の最適化)
F Ρライブラリーにふくめるリガンドの T cの下限値を設定した。 Tcの下限 値を限定することにより、ドッキングリガンドに類似しない化合物を除外できる。 収穫率折れ線が最適になるような T c下限値を決定じた。
図 58は、 丁 0:上限値を1. 00とし、 Tc下限値の範囲を 0. 08から0. 32まで 0. 08刻みで変化させた場合の、 それぞれの T c範囲におけるインシ リコスクリーニングの結果を示す図であり、 活性既知化合物の出現個数が横軸、 F PAS c o r eによる順位が縦軸となっている。 T c下限値が 0. 24の場合 において、 出現個数 1から 6個において X軸に這うような良好な折れ線となって いることから、 この値を最適な T c下限値とした。 なお、 丁。下限値0. 32時 における折れ線は出現個数 2個付近から急激に上昇している。 これは、 Tc下限 値による絞り込みで FPライブラリ一に使用すべきリガンドを除外してしまった ためであると考えられ、 インシリコスクリーニングにおいて、 単にドッキングリ ガンドと類似している F Pをもったリガンドだけを含めたとしても成功しないと いうことを意味していると考える。
図 59は、 PDBに登録されているタンパク質一リガンド複合体構造既知の P DB I Dとそのリガンドの順位付けを示す図である。 図 60は、 図 59のリガン ド I Dと化合物名を対応付ける図である。 図 59に示すように、 順位付けを行つ たリガンドには、 EG FR阻害剤も含まれる。 これらのリガンドは F Pライブラ リーに含まれているので、 これら由来の FPが FPァライメントの際に主に使用 され、 FPAS c o r eが高くなり上位にランクインしたと考えられる。 Tc下 限値が 0. 24のインシリコスクリーニングにおいて、 0. 08の場合と比較し て、 これらのリガンド出現順位が分散しているが、 タンパク質一リガンド複合体 構造が解明されていない EGFRに対する I C 50既知の化合物は T c下限値 0.
24の時が良好な収穫率カーブを描いていたことから、 丁 0下限値0. 24が最 適であると考えた。
(インシリコスクリーニングの結果)
k 2 = 2. 0, k 3値 = 1. 0, 丁。下限値=0. 24とした時の EGFRィ ンシリコスクリーニングの結果を以下に示す。 上位 100構造において、 97構 造がリン酸原子を含む A TP誘導体であった。 そこで、 下記の絞り込みをおこな つた。
(1) 分子量 350以上 800以下の分子、 リンを含む分子を除外
(2) 重要な水素結合をしない分子を除外 (METの主鎖の窒素)
(3) タンパク質原子とリガンド原子の衝突 2. OA以下が存在するドッキング リガンド分子を除外
図 61および図 62は、 K i n a s eのインシリコスクリーニングによる絞り 込みの結果の上位 10位のタンパク質一リガンド複合体を示す図である。 なお図 62は図 61を別角度から見たものである。 キナーゼ (K i n a s e) ドメイン の空間内における立体構造相補性を満たし、 かつ、 相互作用に重要な水素結合を 満たす構造が F PAS c o r eによるランキングに存在したことになり、 本実施 例の Ch o o s e LD法がインシリコスクリーニングによる阻害剤探索にも有用 であることが示された。 なお、 これらの試薬は購入可能であり、 活性値を測定す ることが可能である。 し力 しながら、 FPAS c o r eによる順位付けは、 標的 タンパク質の活'性阻害の強さを直接あらわしているスコアではないため、 FPに 与えるスコアを F P構築法に依存して一律に与えるのではなく、 結合定数の大き さも反映できるようなスコアに改良することも可能であると考える。
[適用例]
上記実施例 1, 2にかかる Ch o o s e LD法を様々な標的タンパク質に対し て適用した結果を以下に示す。 これらの結果は、 実験による証明が必要である。 一例目は、 EG FRの二量体形成阻害剤探索に関するものである。 二例目は、 V EGF 2に対する KRN633, KRN 951の複合体構造の予測に関し、 タン パク質ーリガンド複合体構造の予測は X線構造解析による証明が必要である。 三 例目は、 マラリアに対するインシリコスクリーニングに関しても、 結合実験によ る証明が必要である。
(EGFRの TGF α結合ドメイン阻害剤のインシリコスクリーニング) 図 52で示したように、 EG FRは二量体を形成することにより、 シグナルを 伝達することが知られている (Na t. Re v. Ca n c e r. 4, 3 61 -370 (2004) ) 。 リガンドとして E G F Rに結合する T r a n s
f o rm i n g Gr owt h F a c t o r a (T G F— a ) fま EGFR力 s 複合体を形成するために必要なペプチドである。 すなわち、 EGFRのTGF— a結合ドメインの阻害剤開発は創薬のターゲットとなる。 そこで、 Ch o o s e LD法を用いて、 EGFRの TGF— a結合ドメインに対するインシリコスクリ 一二ングを行った。 EGFRの立体構造は PDB I D; 1MOXをもちいた。 T GF-a結合ドメィン近傍に T G F類似体のぺプチドを F AM S L i g a n d & Comp l e x (P r o t e i n s 61, 122- 127 (200 5) ) を用いてモデリングしその側鎖を切り出した。
図 63は、 TGF— α結合ドメイン近傍を表した図であり、 黄色は TG Fa類 似体のペプチドから側鎖のみを切り出したものであり、 これを Ch o o s e LD 法の FPライブラリ一として用いた。 これは、 ペプチド性の阻害剤が F PAS c o r e上位に出現することを防ぐ目的で行われた。
図 64は、 MDL Comp r e h e n s i v e Me d i c i n a l C h em i s t r y (MDL CMC) L i b r a r yを用いた E G F Rの T G F— ct結合ドメインに対するインシリコスクリーニングの結果を示す図であり、 図 65は、 MDL ACD L i b r a r yを用いた同インシリコスクリーニン グの結果を示す図である。 これにより、 本実施例によって、 タンパク質一タンパ ク質相互作用の情報を用いたドッキングが可能であることが示された。
(VEGFR2 (Va s c u l a r e n d o t h e l i a l g r ow t h f a c t o r Re c e p t o r - 2) に対する KRN633, KRN951の 複合体構造の予測)
VEGFR2は、 血管新生に関与するキナーゼ (k i n a s e) であり、 肺癌 などの癌発症時に異常発現するタンパク質の一つであり、 このタンパク質を特異 的に阻害する化合物は癌の治療薬となる。 阻害剤として KRN633 (Mo 1. Ca n c e r. Th e r. 3, 1639— 1649 (2004) ) ,
KRN951 (Ca n c e r Re s. 66, 9134— 9142 (2 006) ) が知られている。 し力、し、 これらの複合体構造は 2007年 12月時
点において、 X線結晶構造解析がなされていない。 そこで、 VEGFR2と KR N633の複合体、 および、 VEGFR2と KRN951の複合体構造を予測し た。 ここで、 図 66は、 KRN633 ( I C 50 = 1. 16 nm/L) の平 面構造を示す図であり、 図 67は、 KRN951 ( I C 50 = 0. 16 nm /L) の平面構造を示す図である。
VEGFR 2の立体構造は PDB I D 2 P 2Hの A鎖を用いた。 KRN63 3, KRN 951のドッキングについての条件を記載すると、 FPライブラリー に用いたリガンドは PS I— B 1 a s tによるホモロジ一検索により入手し、 ド ッキングに使用された F Pライブラリーの上位 10個は KRN633では、 PD B I D : 2HZN_A, 1 YWN— A, 2 J 5 F_A, 2 I VU— A, 2 H8H— A, 20H4— A, 1GAG一 A, 1 FPU一 A, 2 C 0 I_ A, 2 P 4 I_Aであり、 KRN951においては、 2 I 0 V_A, 2HZ N— A, 2 OH 4— A, 1 FG I— A, 1 YWN—A, 1 FPU一 A, 20FU—A, 2 CO I一 A, 2H8H— A, 2 FG I— Aとなった。 図 68〜図 71は、 VEGFR 2の活性近傍の立体構造を示した図である。 タ ンパク質側の赤いリボンは α ^リックス、 シアンのリボンは ]3シートを意味す る。 図 68は、 KRN 633の VEGFR 2活性部位近傍へのドッキングに用い た F Pライブラリ一に所属するリガンドにおいてドッキングに使用されたリガン ドの上位 10個の集合を表しており、 図 70は、 同様に、 KRN951の FPラ イブラリーに用いた F Pライブラリーに所属するリガンドにおいて VEGFR 2 活性部位近傍へのドッキングに使用されたリガンドの上位 10個の集合を表して いる。 図 69は、 KRN633について、 C h o o s e L D法を 10回実行し、 予測された構造 10個を VEGFR2の活性部位近傍の立体構造とともに示して レヽる。 FPライブラリーのリガンドの中で KRN 633との類似度に Tcを用い た場合、 最高値は 0. 45であった。 10回の試行において、 ほぼ同様の構造を 得ることができた。 図 71は、 同様に KRN951について、 Ch o o s e LD 法を 10回実行し、 予測された構造 10個を VEGFR2の活性部位近傍の立体
構造とともに示している。 予測構造の 10個中 8個がほぼ同じ構造であった。 F Pライブラリーのリガンドの中で KRN 951との類似度に T cを用いた場合、 最高値は 0. 29であった。
(VEGFR—2のドッキング予測成功率の算出)
KRN633, KRN951の予測複合体構造の信頼性を評価するために、
F Pライブラリーに含まれるドッキングリガンドの T c最大値を用いて、 133 セットから算出された統計的な成功率を算出した。 図 72は、 133セットを用 いた C h o o s e L D法のドッキング性能試験の結果得られた T c下限値を 0. 08に固定し、 T c上限値を変化させた時の予測成功率について、 横軸に T c上 限値、 縦軸に成功率としたグラフを示す図である。
すなわち、 グラフに T c上限値を内挿することによって Ch o o s e LD法適 用時の予測成功精度を統計的に算出することが可能である。 ただし、 この統計的 予測成功率は、 標的タンパク質の立体構造、 アミノ酸配列を考慮していない。 K RN633のドッキングで用いた FPライブラリーに含まれるリガンドの中、 T cが最大のものは、 0. 45であったことから、 0. 36と 0. 56の時の予測 成功率を用いて予測成功率を内挿すると、 34. 7%となった。 KRN951も 同様に、 0. 24と 0. 36の時の予測成功率から、 推定予測成功率は、 24. 3%となった。 133セットでの予測成功率で最も予測成功率が高かった GO L D S c o r e STDが 46. 0%、 DOCKは 21. l%、 Au t oDo c kは 26. 6%であり、 KRN633は Au t oDo c kよりょく、 GOLDに は及ばない精度で予測でき、 KRN 951に関しては、 Au t o D o c kと同程 度の精度で予測できたと考えられた。
(P l a smo d i um f a l c i p a r um e n o y 1 a c y 1 c a r r i e r p r o t e i n r e du c t a s e に対する低分子 (NAD) が介在した状態でのドッキング)
P l a smo d i um f a l c i p a r umの e n o y l a c y 1 c a r r i e r p r o t e i n はマラリア熱の病原タンパク質の一つであり、 月旨
質合成に関与するタンパク質であるが、 この脂質合成経路はヒ トには存在しない ため、 このタンパク質の機能を阻害することはマラリア熱治療につながると考え られている (J . B i o l . C h e m. 2 7 7, 1 3 1 06— 1 3 1 1 4 (2 00 2) ) 。
図 7 3は、 e n o y l a c y l c a r r i e r p r o t e i nの:^体構 造を示した図である。 また、 図 7 3に示すように、 このタンパク質を阻害する化 合物としてトリク口サン等が存在し、 複数の阻害剤との X線結晶構造解析が行わ れており (J . B i o l . C h em. 2 7 7, 1 3 1 0 6— 1 3 1 1 4 (200 2) ) 、 これらの阻害剤は NADを介して結合する。 これらを F Pラ イブラリーとして用いることにより、 新規阻害剤のリード化合物探索のためのィ ンシリコスクリ一ユングを実行した。
図 74は、 MDL C omp r e h e n s i v e Me d i c i n a l C h e m i s t r y (MDL CMC) L i b r a r yを用いて、 e n o y 1 a c y 1 c a r r i e r p r o t e i nのインシリコスクリーニングを行った 結果の F PAS c o r eの上位 1 0構造を示す図である。 上側の円で囲まれてい る部分がインシリコスクリーユングによる結果であり、 下側の円で示す NADの 占める空間を考慮したドッキングが行われている。 なお、 MD L Av a i 1 a b l e C h em i c a l s D i r e c t o r y (MD L A CD) L i b r a r yに対してもインシリコスクリーニングを実行しているが、 本実施例の C h o o s e LD法によれば、 NADや H 2 O等の標的タンパク質の活性部位近 傍に存在する低分子を考慮したドッキングが可能であることを示すことができた。
( ロ ^m)
本実施例では、 新しく定義した F P A S c o r eをシミュレテイツドアニーリ ングで最適化する方法を用いるバイオインフォマテイクスに基づいたリガンドド ッキングとインシリコスクリーニング法、 C h o o s e LD法を開発した。また、 8 5セットにおける k 1値の最適化を行うことにより、 ハイスループットスクリ 一二ング等に用いられることを想定した最適値を 4. 0に決定した。 この k l値
をもちいた場合で、 133セットにおいて、 rm s d力 2. ◦ A以下で実験構造 を予測できる割合を指標としたとき、 本実施例の Ch o o s e LD法のドッキン グ性能は既存の古典的物理関数を用いてドッキングを行う GO L Dと同程度であ り、 T c上限値が低い場合は DOCK, Au t o D o c kと同程度であった。 こ のことは、 ファミリータンパク質由来のリガンドから構築した FPライブラリ一 に含まれるリガンドから F P構築法によって得られた F Pが、 自由エネルギーの 低くなるような座標であるという仮定が正しかったことを示している。
し力 し、 従来の既存のドッキングソフトが自由エネルギー最小の構造を必ずし も探索できないことから、従来手法にはまだ改良の余地があることも示している。 また、 133セットにおいて、 予測に成功した PDB I Dの分布の観点から C h o o s e LD法と G 1 i d e, GOLD, F i e xXと比較をおこない、 PDB I Dの分布の類似度を T cによって算出した結果、 予測に成功するターゲットに 独自性があり、 本実施例である Ch o o s e LD法と従来法との併用でインシリ コスクリーニングの精度が上昇する可能性を示した。 さらに、 上述のように、 本 実施例 2では、 FPAS c o r eの k 2値, k 3値が標的タンパク質に応じて、 最適化可能な変数であることを EGFRの k i n a s e ドメインを標的タンパク 質として用いて示した。 これらの結果から、 本実施例 2の Ch o o s e LD法に おける FPAS c o r eの k 1, k 2, k 3値は標的タンパク質に応じて最適化 することにより、 より多くの阻害剤、 およびリード化合物が、 インシリコスクリ 一二ングスクリーニングされると考えられた。
[実施例 3]
実施例 3について以下に説明する。 実施例 3では、 AMPKh omoGAMM A1酵素の阻害薬 (アンタゴニスト) 並びに作動薬 (ァゴ二ス ト) を開発する目 的で、 インシリコスクリーニングを行った。
まず、 AMPKh omoGAMMAl酵素を標的タンパク質として、 そのアミ ノ酸配列の相同性検索を行ない 99. 7%のホモロジ一をもつ 2 V9 J_E (2 9】の£鎖) を鎵型として次のリガンドを含めて FAMS L i g a n dを用
いて AMPKh omoGAMMA 1をモデリングした。 ここで、 図 75は、 AM PKh o mo GAMMA 1と 2 V9 J—Eのアミノ酸配列のァライメントを示し た図である。 その結果、 結合リガンドは、 2 V8Q— Eの 3個のリガンド AMP — E— 1327、 AMP一 E— 1328、 AMP— E— 1329、 2 V 92— E の 3個のリガンド ATP— E—l 327、 ATP— E— 1328、 AMP—E一 1329、 2 V9 J—Eの 3個のリガンドと 2個のマグネシウム AT P— E— 1 327、 ATP— E—l 328、 AMP一 E—l 329、 MG—E一 1330、 MG_E_1331、 2QRE— Eの 1個のリガンド AMZ— E— 1002であ つた。
つぎに、 2V9 J—E以外のリガンドは、 CEによるフィッティング (原子の 種類を意識しないタンパク質同士の構造重ね合わせ) で 2V9 J— Eの座標系に 重ね合わせた。 2 V9 J— Eモデルの 3ケ所の ATP (AMP) 結合部位の中か ら MGイオンに依存しない AMP— E— 1329サイ卜に絞って阻害剤並びに作 動薬のスクリーニングを実施することにした。
本実施例の Ch o o s e LDを実施するに当たり、 AMP— E— 1329の結 合部位から 18 A以内のァミノ酸残基を切り出し 2 V 9 J— Eの受容体モデルと した。 また Ch o o s e LDスクリーユング時には、 受容体結合サイト以外のリ ガンドと MGイオンは補欠分子 (Co f a c t o r) として受容体に含めた。 ま た、 本実施例の Ch o o s e LDのFPには、 受容体結合部位のリガンド分子か らリン酸基 (PO 3) を除いた 3個の Ad e n o s i n eと 1_ (5— Am i n o— 4— c a r b o x am i d e— 1H— i m i d a z o l e— y l) — r i b o s eを使うことにしたが、 リン酸基部分は候補化合物の官能基には向かない。 そのため、 リン酸をそのまま FPにするのではなく、 リン酸基の酸素原子と水素 結合している H i s 151と H i s 298 (铸型タンパク質の 2V9 J— Eでは H i s l 50と H i s 297) ペアの相対的な距離を計算し、 構造的なずれを G DT—TS (0. 5 A, 1. OA, 1. 5 A, 2. 0 A) で計算し 70%以上 ( 変更可能) GDT— TSの残基ペアであり、 残基ペアから 3. OA以内 (変更可
能)に存在するリガンドを 95%NR— PDBから HETATMとして抽出した。 なお、 このとき 2アミノ酸残基ではなく 3アミノ酸残基を指定することも可能で ある。
G D T— T Sはネィティブ構造に対して X A以下で重ねられる残基の割合を示 す。 その結果 1061個のリガンドを取り出すことができた。 これらのリガンド について、 2V9 J—E受容体との衝突をチェックすることにより 18個のリガ ンドあるいはリガンドの一部分を F Pに追加して合計 22個の FPにより CMC (し omp r e h e n s i v e Me d i c i n a l し h em i s t r y, 2006. 1, E l s e v i wr MD L) データベースのスクリーニングを 行った。
受容体側とリガンドとの原子衝突(2. OA 1原子以下、 2. 2 A 3原子以下、 2. 4 A 5原子以下) 、 リガンド分子量 200から 500まで、 リガンド L o g P - 1から 5まで、 リガンドの環の数、 水素供与原子、 水素受容原子、 それぞれ 0から 5などに設定した。 ここで、 図 76は、 リガンドが受容体全体に結合した CMC医薬品の結果リストを示す図である。
ここで、 図 77は、 この中の 1から 10位までの 2 V9 J— E受容体への結合 状態を集合的に表した図である。 緑色のボールアンドスティックモデルは 2つの H I S残基を、 黄色のスティックモデルは、 3個の Ad e n o s i n eと 1— ( 5— Am i n o— 4— c a r b o x am i d e— 1 H— i m i d a z o 1 e— y 1) — r i b o s eを示す。 その間に 10個の医薬品がドッキングされている。 さらに 3個の Ad e n o s i n eと 1— (5— Am i n o— 4— c a r b o x a m i d e— ΙΗ— im i d a z o 1 e— y l) - r i b o s eにカ卩えて CMCス クリーユングで取れてきた医薬品化合物 27個を F i n g e r P r i n tとして 計 31個の F Pを用いて ACD (Av a i l a b l e Ch em i c a l s D i r e c t o r y, 2008. 1, E l s e v i wr MDL) のスクリー ニングを行い AMPKh omo GAMMA 1酵素の阻害薬 (アンタゴニスト) 並 びに作動薬 (ァゴ二スト) の候補化合物を得ることもできる。
[他の実施の形態]
さて、 これまで本発明の実施の形態について説明したが、 本発明は、 上述した 実施の形態以外にも、 上記特許請求の範囲および本願発明の概要に記載した技術 的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。 例えば、 インシリコスクリーニング装置 100がスタンドアローンの形態で処 理を行う場合を一例に説明したが、 インシリコスクリーニング装置 100とは別 筐体で構成されるクライアント端末からの要求に応じて処理を行い、 その処理結 果を当該クライアント端末に返却するように構成してもよい。
また、 実施の形態において説明した各処理のうち、 自動的に行われるものとし て説明した処理の全部または一部を手動的に行うこともでき、 あるいは、 手動的 に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行 うこともできる。
このほ力 \ 上記文献中や図面中で示した処理手順、 制御手順、 具体的名称、 各 処理の登録データや検索条件等のパラメータを含む情報、 画面例、 データベース 構成については、 特記する場合を除いて任意に変更することができる。
また、 インシリコスクリーニング装置 100に関して、 図示の各構成要素は機 能概念的なものであり、 必ずしも物理的に図示の如く構成されていることを要し ない。
例えば、 インシリコスクリーニング装置 100の各装置が備える処理機能、 特 に制御部 102にて行われる各処理機能については、 その全部または任意の一部 を、 CPU (Ce n t r a l P r o c e s s i n g Un i t) および当該 C PUにて解釈実行されるプログラムにて実現することができ、 あるいは、 ワイヤ ードロジックによるハードウェアとして実現することも可能である。 また、 外部 システム 200は、 WE Bサーバや AS Pサーバ等として構成していてもよく、 そのハードウェア構成は、 一般に市販されるワークステーション、 パーソナルコ ンピュータ等の情報処理装置およびその付属装置により構成していてもよい。 ま た、 外部システム 200の各機能は、 外部システム 200のハードウヱァ構成中
の CPU、 ディスク装置、 メモリ装置、 入力装置、 出力装置、 通信制御装置等お よびそれらを制御するプログラム等により実現される。
尚、 プログラムは、 後述する記録媒体に記録されており、 必要に応じてインシ リコスクリーニング装置 100に機械的に読み取られる。 すなわち、 ROMまた は HDなどの記憶部 106などは、 OS (Op e r a t i n g Sy s t em) として協働して CPUに命令を与え、 各種処理を行うためのコンピュータプログ ラムが記録されている。 このコンピュータプログラムは、 RAMにロードされる ことによって実行され、 CPUと協働して制御部を構成する。 また、 このコンビ ユータプログラムは、 ィンシリコスクリーニング装置 100に対して任意のネッ トワーク 300を介して接続された外部システム 200等のアプリケーションプ ログラムサーバに記憶されていてもよく、 必要に応じてその全部または一部をダ ゥンロードすることも可能である。
また、 本発明に係るプログラムを、 コンピュータ読み取り可能な記録媒体に格 納することもできる。 ここで、 この 「記録媒体」 とは、 フレキシブルディスク、 光磁気ディスク、 ROM、 E PROM, EEPROM、 CD-ROM, MO、 D VD等の任意の 「可搬用の物理媒体」 、 あるいは、 LAN、 WAN, インターネ ッ卜に代表されるネットワークを介してプログラムを送信する場合の通信回線や 搬送波のように、 短期にプログラムを保持する 「通信媒体」 を含むものとする。 また、 「プログラム」 とは、 任意の言語や記述方法にて記述されたデータ処理 方法であり、 ソースコードやバイナリコード等の形式を問わない。 なお、 「プロ グラム」 は必ずしも単一的に構成されるものに限られず、 複数のモジュールゃラ イブラリとして分散構成されるものや、 OS (Op e r a t i n g Sy s t e m)に代表される別個のプログラムと協働してその機能を達成するものをも含む。 なお、 実施の形態に示した各装置において記録媒体を読み取るための具体的な構 成、 読み取り手順、 あるいは、 読み取り後のインストール手順等については、 周 知の構成や手順を用いることができる。
記憶部 106に格納される各種のデータベース等は、 RAM、 ROM等のメモ
リ装置、 ハードディスク等の固定ディスク装置、 フレキシブルディスク、 光ディ スク等のストレージ手段であり、 各種処理やウェブサイ ト提供に用いる各種のプ ログラムゃテ一ブルゃデータベースゃゥェブベージ用ファイル等を格納する。 また、 インシリコスクリーニング装置 1 0 0は、 既知のパーソナルコンビュ一 タ、 ワークステーション等の情報処理装置を接続し、 該情報処理装置に本発明の 方法を実現させるソフトウェア (プログラム、 データ等を含む) を実装すること により実現してもよい。
更に、 装置の分散 ·統合の具体的形態は図示するものに限られず、 その全部ま たは一部を、 各種の負荷等に応じた任意の単位で、 機能的または物理的に分散 · 統合して構成することができる。 産業上の利用可能性
標的高分子タンパク質にどのような当該化合物が有意に相互作用して、 ドツキ ングするかの情報は新しい医薬品開発の要であり、 またテーラ一メイ ド医療とい うのは少なくとも、 一つのアミノ酸残基の置換に対応して、 従来ではきかなかつ た医薬品の開発をすることなので、 標的高分子タンパク質に結合した化合物の情 報は実験決定済み化合物数においてその数が豊富であり、 新薬の開発は非常に加 速されるので、 本願発明において述べたインシリコスクリーニング装置およびィ ンシリコスクリーニング方法の産業上利用可能性は非常に大きい。