WO1998033900A1

WO1998033900A1 - Method and apparatus for predicting protein function site, method for improving protein function, and function-improved protein

Info

Publication number: WO1998033900A1
Application number: PCT/JP1998/000430
Authority: WO
Inventors: Hirofumi Doi; Hideaki Hiraki; Akio Kanai
Original assignee: Japan Science and Technology Corp
Current assignee: Japan Science and Technology Agency
Priority date: 1997-01-31
Filing date: 1998-02-02
Publication date: 1998-08-06
Anticipated expiration: 1999-07-31
Also published as: EP1013759A4; EP1013759B1; EP1564288A1; DE69836971T2; DE69841602D1; EP1013759A1; EP1564288B1; DE69836971D1

Description

明綑書蛋白質機能部位の予測方法と予測装置、並びに

蛋白質の機能改良方法と機能改良蛋白質技術分野

この発明は、蛋白質の機能部位を予測する方法と、この機能予測を行なうための装置、ならびに蛋白質の機能改良方法と機能改良蛋白質に関するものである。さらに詳しくは、この発明は、ゲノム解析や cDNA解析により得られた機能未知の蛋白質の機能部位の予測や、機能が既知である蛋白質であってもその蛋白質のもつ新規の機能と機能部位の予測およびの機能向上のための改変部位の予測と、この予測に基づいて機能を改良した蛋白質に関するものである。背景技術

病原微生物を含む種々の生物のゲノム解析や cDNA解析の進展にともない、機能未知の新規遺伝子やそれによってコードされる蛋白質の数が急速に増加している。たとえば、これまでにマイコプラズマ■ジェニタリウム [Mycoplasma genitalium] (Fraser et al., Science 270, 397-403, 1995)、へモフィラス■ィンフゾレエンザ工 [Heamophilus influenzae] (Fleischmann et. al., Science 269, 496— 512, 1995)、メタノコッカス-ャナシィ [Methonococcus jannashcii](Bult et. al., Science 273, 1058-1073, 1996)などの微生物の全ゲノムの核酸配列が解析され、遺伝子から予測される新規の蛋白質が数多く発見されている。またヒトゃマウスでは cDNA解析がゲノム解析と同時に進行しており新規の蛋白質が多く発見されている。

このような状況において、機能未知の蛋白質の機能または機能部位を予測することが重要な課題となってきている。また、新規の蛋白質のみならず、機能が既知の蛋白質についても、新規の機能あるいは機能部位が発見されれれぱ、その蛋白質の産業上あるいは医療上の利用価値が判断可能となる。また、このような機能予測は、機能をさらに向上させた改変型蛋白質の作成をも可能とする。

従来より、ゲノム解析や cD NA解析によって明らかにされた遺伝子がコードする蛋白質が新規であるか機能既知であるかは、 Swiss- Prot 等の蛋白質データベースを用いたホモロジ一検索によって行なわれてきた。また機能部位を予測するには、同じ機能をもった種々の生物由来の蛋白質を蛋白質データべ一スから抽出してァライメントを行い、両者に共通して保存されている領域を機能部位として予測していた。

しかしながら、ゲノム解析や cD NA解析から得られた蛋白質が全く新規の蛋白質であった場合、ァライメント法は使えないという問題があった。また蛋白質データベース中の既知の蛋白質とホモロジ—があったとしても、近縁生物種の蛋白質とのホモロジ一であった場合、保存領域がその蛋白質のアミノ酸配列のほとんどを占め、機能部位の予測が行えないという問題があった。さらに、機能が既知あるいは未知に関わらず、蛋白質の改変に関しては、ァライメントによって機能部位の予測が行えたとしても、保存領域を変異させると一般的に機能が低下することが予想され、保存領域外のアミノ酸を変異させることにより機能向上を計らなければならない。すなわち、改変したい蛋白質において新規の機能部位を見い出す必要がリ、新規の機能部位の発見やどのアミノ酸を変異させればよいかは従来のァライメント法では予測できないという問題があった。

この発明は、以上のとおりの事情に鑑みてなされたものであって、ゲノム解析や c D NA解析から得られた機能未知の蛋白質について、その機能部位を予測するための新しい方法を提供することを目的としている。

また、この発明は、この機能予測を行なうための装置を提供することを目的としている。

さらにこの発明は、機能未知または既知の蛋白質について、その新たな機能部位を予測し、その機能部位を変異させることによって改変型の蛋白質を作成する方法を提供することを目的としている。

さらにまた、この発明は、上記の方法で機能を改変させた蛋白質を提供することを目的としてもいる。発明の開示

この出願によって提供される第 1の発明は、ゲノムデータまたは cDNA解析データが既知である生物種 aの予想される全蛋白質から、その生物種 aの任意の蛋白質の機能部位を予測する方法であって、

(1) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さ n;

長さ nのオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも少なく、長さ（ n + 1 )のオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも多い；

を確定し、

(2) 機能部位予測対象の蛋白質のアミノ酸配列（長さ L)の N末端から j番目ァミノ酸残基を Aj(n+1≤j≤L— n)とし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Ajを含む長さ（n+1 )の Ajオリゴペプチド；

aj1 aj2....Aji ..... ajnaj(n + 1 )( 1≤ i≤ n + 1； Aj = Ajiで

Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、長さ（n+1 )の Xiオリゴペプチド；

aj1aj2..... Xi ..... ajnaj(n + 1 )(Xi は任意のアミノ酸残基を示す）の出現頻度とを生物種 aの全蛋白質中で求め、 (3) Ajオリゴぺプチドと Xiォリゴペプチドの出現頻度の比 Yj iを求め、

(4) Yjiの平均値 Yj;

Yj=∑YjiZn+1 (1≤i≤n + 1 )

を求め、

(5) Yjの関数値 Zj;

¾=f(Yj) (関数 fは単調減少関数または単調増加関数）

を求め、この Zjの値をアミノ酸配列（長さ L)の j番目のアミノ酸残基の機能代表 fitとし、

(6) 以下、上記ステップ (2) から（5) を順次繰り返し、アミノ酸配列（長さ L)の n +1≤j≤L_nの位置にある全アミノ酸残基 Ajについて各々の Zj値を求める、ことによって、蛋白質の機能に対する各アミノ酸残基の責任の程度を Zj値の大きさを指標として予測すること特徴とする蛋白質の機能部位予測方法である。

第 2の発明は、ゲノムデータまたは cDNA解析データが既知である生物種 a の予想される全蛋白質から、その生物種 aの任意の蛋白質の機能部位を予測する方法であって、

(1) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、

(2) 生物種 aの任意の蛋白質について、

(2') アミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Ajとし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Aj(n≤j≤L— n+1 )を含む任意の長さ n(1≤n≤M、ただし Mは最初に以下の基準に合致するオリゴぺプチドの長さ M;長さ Mのオリゴペプチドはすべて、出現頻度 1である）の Ajオリゴぺプチド；

aj1aj2....aji....ajn( 1≤i≤n+ 1； Aj = aj ίで Ajはこのオリゴペプチドの i番目の残基を示す）の出現頻度と、

Ajオリゴペプチドに対応する長さ nの Xiオリゴペプチド；

aj1aj2....Xi....ajn(Xiは任意のアミノ酸残基を示す）

の出現頻度とを生物種 aの全蛋白質中で求め、

(3) Ajオリゴペプチドと Xiオリゴペプチドの出現頻度の比 Yjiを求め、

(4) Yjiの平均値 Y(j,n);

YO,n)=∑ YjiZn( 1≤i≤n)

を求め、

(5) Y(j,n)の関数値 ZG,n);

ZG,n) = -log(YO,n))

を求め、

(6) 以下、上記ステップ (2')から (5)を順次繰り返し、アミノ酸配列（長さ L)の j番目（n≤j≤L— n + 1 )の位置にあるアミノ酸残基 Ajについて各々の Z(j,n) 値を求め、

(7) 生物種 aの全蛋白質について上記ステップ (2)から（6)を順次繰り返し、ァミノ酸残基の種類毎の ZG,n)値の分布を求め、この分布に基づいて各アミノ酸 Aaに対する Z(j,n)値の平均値 Av(Aa)と標準偏差値 Sd ( Aa)を求め、アミノ酸残基の種類による分布の違いを標準化する関数 g;

Aj) =に (j,n)— Av(Aa)}ノ Sd(Aa) (ただし Aj=Aa) を求め、

(8) アミノ酸配列（長さ L)の j番目（n≤j≤L— n+1 )の位置にある全アミノ酸残基 Ajについてステップ (7)で得られた関数 gの値 DG.n);

を求め、

(9) アミノ酸配列（長さ L)の j番目のアミノ酸残基の機能代表値を Z(j,n)値と D (j,n)値の関数値 Wj; Wj = h(ZG,D, ZG.2) , Z(j,M), D(j,1), DC, 2) , D(j,M)) とする、

ことによって、蛋白質の機能に対する各アミノ酸残基の責任の程度を Wj値の大きさを指標として予測すること特徴とする蛋白質の機能部位予測方法である。

第 3の発明は、上記第 1発明の方法を自動的に行なう装置であって、少なくとも以下の（a)から（h)の装置、

(a) ゲノムデータまたは cDNA解析データが既知である生物種 aの予想される全蛋白質のアミノ酸配列データ、および既存の蛋白質データベースを記憶する外部記憶装置、

(b) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を計算する CPUと、その計算結果を記憶する記憶装置とからなる計算 Z記憶装置、

(c) 装置（b)に出現頻度が記憶された各オリゴペプチドの中から、最初に以下の基準に合致するオリゴペプチドの長さ n;

長さ nのオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも少なく、長さ（n+ 1 )のオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも多い；

を計算する CPUと、 nを記憶する記憶装置とからなる計算記憶装置、

(d) 機能部位予測対象の蛋白質のアミノ酸配列（長さ L)の N末端から j番目ァミノ酸残基を Aj(n + 1≤」≤ !_ー门）とし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Ajを含む長さ（n+1 )の Ajオリゴペプチド；

aj1 aj2..... Aji..ajnaj(n + 1 )( 1≤ i≤ n + 1； Aj = Ajiで

Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、長さ（n+1 )の Xiオリゴペプチド；

aj1aj2..... Xi ....ajnaj(n+1 ) ( Xiは任意のアミノ酸残基を示す）の出現頻度とをこの生物種の全蛋白質中で求める CPUと、その計算結果を記憶する記憶装置とからなる計算記憶装置、

(e) Ajオリゴペプチドと Xiオリゴペプチドの出現頻度の比 Yjiを求める CPUと、 Yji を記憶する記憶装置とからなる計算 Z記憶装置、

(f) Yjiの平均値 Yj;

Yj=∑YjiZn + 1 (1≤i≤n+1)

を求める CPUと、 Yjを記憶する記憶装置とからなる計算/記憶装置、

(g) Yjの関数値 ¾;

¾=f(Yj) (関数 fは単調減少関数または単調増加関数）

を求める CPUと、 ¾を記憶する記憶装置とからなる計算/記憶装置、

を備えていることを特徴とする蛋白質の機能部位予測装置である。

第 4の発明は、上記第 2発明の方法を自動的に行なう装置であって、少なくとも以下の (a)から (i)の装置、

(b) この生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を計算する CPUと、その計算結果を記憶する記憶装置とからなる計算記憶装置、

(c) この生物種 aの任意の蛋白質について、アミノ酸配列（長さし）の N末端から j 番目アミノ酸残基を Ajとし、この蛋白質のアミノ酸配列の部分配列で j番目のァミノ酸残基 Aj(n≤j≤L-n + 1 )を含む任意の長さ n(1≤n≤M、ただし Mは最初に以下の基準に合致するオリゴペプチドの長さ M;長さ Mのオリゴペプチドはすべて、出現頻度 1である）の Ajオリゴペプチド；

aj1aj2....aji....ajn( 1≤i≤n+ 1； Aj = aj iで Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、

Ajオリゴペプチドに対応する長さ nの Xiオリゴペプチド；

aj1aj2....Xi....ajn(Xiは任意のアミノ酸残基を示す）

の出現頻度とを生物種 aの全蛋白質中で求める CPUと、その計算結果を記憶する記憶装置とからなる計算記憶装置、

(d) Ajオリゴペプチドと Xiオリゴペプチドの出現頻度の比 Yjiを求める CPUと、 Yji を記憶する記憶装置とからなる計算 Z記憶装置、

(e) Yjiの平均値 Y(j,n);

YG,n)=∑ Yji/n(1≤i≤n)

を求める CPUと、 YG,n)を記憶する記憶装置とからなる計算記憶装置、

(f) Y(j,n)の関数値 ZG，n);

を求める CPUと、 Z(j,n)を記憶する記憶装置とからなる計算記憶装置、 (g) 生物種 aの全蛋白質のアミン酸配列について、各アミノ酸残基の Z(j,n) を求め、アミノ酸残基の種類毎の Z(j,n)値の分布を求め、この分布に基づいて各アミノ酸 Aaに対する Z(j,n)値の平均値 Av(Aa)と標準偏差値 Sd(Aa)を求め、アミノ酸残基の種類による分布の違いを標準化する関数 g;

g=(ZG,n), Aj) = {ZG,n)-Av(Aa)}/Sd(Aa) (ただし Aj=Aa) を求める CPUと、 gを記憶する計算装置とからなる計算記憶装置、

(h) アミノ酸配列（長さ L)の j番目（n≤j≤L— n+1 )の位置にある全アミノ酸残基 Ajについて、装置 (g)に記憶された関数 gの値 D(j,n);

を求める CPUと、 DG,n)値を記憶する記憶装置とからなる計算ノ記憶装置、 (i) アミノ酸配列について、各アミノ酸残基の Z(j，n)値 gと DCj.n)値の任意の関数値 Wj; Wj = h(ZG,D, ZG,2) , .·., Z(j，M), D(j,1), DQ, 2) , D(j，M)) を求める計算装置と、 Wj値を記憶する記憶装置とからなる計算記憶装置、を備えていることを特徴とする蛋白質の機能部位予測装置である。

第 5の発明は、ゲノムデータまたは cDN A解析データが既知である生物種 a の全蛋白質から、機能が既知である蛋白質 Aの機能を改良する方法であって、

(1) 蛋白質 Aと近縁の蛋白質を既存の蛋白質データベースから抽出してァラインメントを行い、

(2) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さ n;

長さ nのオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも少なく、長さ（n+1 )のオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも多い；

を確定し、

(3) 蛋白質 Aのアミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Aj (n+1 ≤』≤しーとし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Ajを含む長さ（n + 1 )の Ajオリゴペプチド；

aj1 aj2....Aji....ajnaj(n+1 )( 1≤ i≤ n + 1； Aj = Ajiで

Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、長さ（n+1)の Xiオリゴペプチド；

aj1aj2....Xi....ajnaj(n+1)(Xiは任意のアミノ酸残基を示す）

の出現頻度とを生物種 aの全蛋白質中で求め、

(4) Ajオリゴぺプチドと Xiオリゴぺプチドの出現頻度の比 Yj iを求め、

(5) Yjiの平均値 Yj;

Yj=∑Yji/n+1 (1≤i≤n+1)

を求め、 (6) Yjの関数値 Zj ;

Zj = f(Yj ) (関数 fは単調減少関数または単調増加関数）

を求め、この Zjの値を蛋白質 Aのアミノ酸配列（長さ L)の j番目のアミノ酸残基の機能代表値とし、

(7) ステップ (3)から (6)を順次繰り返し、アミノ酸配列（長さ L)の（n + 1≤j≤L- nの位置にある全アミノ酸残基について各々の Zj値を求め、

(8) 蛋白質 Aのアミノ酸配列（長さ L)について、ステップ (1 )で行なったァラインメントのデータをもとに変異させるアミノ酸残基を 1種以上選択し、それらのァミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から (6)を順次繰り返し、変異アミノ酸残基の Zj 値を求め、

(9) ステップ (8)で求めた変異アミノ酸残基の Zj値が、ステップ (7)で求めた元のァミノ酸残基の Zj値より大きいか小さい変異型アミノ酸配列を選択し、

( 1 0) このアミノ酸配列をコードする蛋白質 Aの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する、

ことを特徴とする蛋白質の機能改良方法である。

第 6の発明は、ゲノムデータまたは c D NA解析データが未知である生物種 b の蛋白質 Bの機能を改良する方法であって、

(1 ) ゲノムデータまたは c D NA解析データが既知である生物種 aの全蛋白質から、蛋白質 Bと最も近縁の蛋白質 Aを抽出してアラインメントを行ない、また蛋白質 Bと近縁の蛋白質を既存の蛋白質データベースから抽出してアラインメントを行い、

(2) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さ n ;

長さ nのオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも少な《長さ（ n + 1 )のオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも多い；

を確定し、

(3) 蛋白質 Aのアミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Aj(n+1 ≤』≤!_ーとし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基

Ajを含む長さ（n+1 )の Ajオリゴペプチド；

aj1aj2....Aji....ajnaj(n+1)( 1≤ i≤ n + 1； Aj = Ajiで

Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、長さ（n+1 )の Xiオリゴペプチド；

aj1aj2....Xi....ajnaj(n+1)(Xiは任意のアミノ酸残基を示す）

の出現頻度とを生物種 aの全蛋白質中で求め、

(4) Ajオリゴペプチドと Xiオリゴペプチドの出現頻度の比 Yjiを求め、

(5) Yjiの平均値 Yj;

Yj=∑YjiZn+1 (1≤i≤n + 1)

を求め、

(6) Yjの関数値 Zj;

¾=f(Yj) (関数 fは単調減少関数または単調増加関数）

(7) ステップ (3)から（6)を順次繰り返し、アミノ酸配列（長さ L)の（n+1≤j≤L— nの位置にある全アミノ酸残基について各々の ¾値を求め、

(8) 蛋白質 Aのアミノ酸配列（長さ L)について、ステップ（1)で行なったァラインメン卜のデータをもとに変異させるアミノ酸残基を 1種以上選択し、それらのァミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から (6)を順次繰り返し、変異アミノ酸残墓の Zj 値を求め、 (9) ステップ (8)で求めた変異アミノ酸残基の Zj値が、ステップ (7)で求めた元のァミノ酸残基の ¾値より大きいか小さい変異位置と変異アミノ酸残基を選択し、

(10)この位置でこの変異アミノ酸残基を実現する蛋白質 Bの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する、

ことを特徴とする蛋白質の機能改良方法である。

第 7の発明は、ゲノムデータまたは cDNA解析データが既知である生物種 a の全蛋白質から、機能が既知である蛋白質 Aの機能を改良する方法であって、 (1) 蛋白質 Aと近縁の蛋白質を既存の蛋白質データベースから抽出してァラインメントを行い、

(2) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、

(3) 蛋白質 Aについて、

(3') アミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Ajとし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Aj(n≤j≤L— n+1 )を含む任意の長さ n(1≤n≤M、ただし Mは最初に以下の基準に合致するオリゴぺプチドの長さ M;長さ Mのオリゴペプチドはすべて、出現頻度 1である）の Ajオリゴぺプチド；

aj1aj2....aji....ajn( 1≤i≤n+ 1； Aj = aj ίで Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、

Ajオリゴペプチドに対応する長さ nの Xiオリゴペプチド；

aj1aj2....Xi....ajn(Xiは任意のアミノ酸残基を示す）

の出現頻度とを生物種 aの全蛋白質中で求め、

(5) Yjiの平均値 YG，n); Y(j,n)=∑ YjiZn(1≤i≤n)

を求め、

(6) Y(j,n)の関数値 Z(j，n);

ZG,n) = -log(YG,n))

を求め、

(7) 以下、上記ステップ (3')から (6)を順次繰り返し、アミノ酸配列（長さ L)の j番目（n≤j≤L—n + 1 )の位置にあるアミノ酸残基 Ajについて各々の Z(j,n)値を求め、

(8) 生物種 aの全蛋白質について上記ステップ (2)から（7)を順次繰り返し、ァミノ酸残基の種類毎の Z(j,n)値の分布を求め、この分布に基づいて各アミノ酸 Aaに対する Z(j，n)値の平均値 Av(Aa)と標準偏差値 Sd ( Aa )を求め、アミノ酸残基の種類による分布の違いを標準化する関数 g;

g=(Z(j,n), Aj) =に (j,n)— Av(Aa) }ノ Sd(Aa) (ただし Aj = Aa) を求め、

(9) アミノ酸配列（長さの j番目（n≤j≤L— n+1)の位置にある全アミノ酸残基 Ajについてステップ (8)で得られた関数 gの値 DG,n);

DG,n) = g(ZG,n), Aj)

を求め、

(10) アミノ酸配列（長さ L)の j番目のアミノ酸残基の機能代表値を Z(j,n)値と D G,n)値の関数値 Wj;

Wj = h(Z0,D, ZG,2) , ..., ΖΟ,Μ), D(j,1), D(j,2), ..., D(j,M))

とし、

(11) ステップ (3)から（10)を順次繰り返し、アミノ酸配列（長さ L)の（n + 1≤j≤L 一 nの位置にある全アミノ酸残基について各々の Wj値を求め、

(12) 蛋白質 Aのアミノ酸配列（長さ L)について、ステップ (1)で行なったァラインメントのデータをもとに変異させるアミノ酸残基を 1種以上選択し、それらのァミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から（10)を順次繰り返し、変異アミノ酸残基の Wj値を求め、

(13) ステップ（12)で求めた変異アミノ酸残基の Wj値力、ステップ（10)で求めた元のアミノ酸残基の Wj値より大きいか小さい変異型アミノ酸配列を選択し、

(14)このアミノ酸配列をコードする蛋白質 Aの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する、

ことを特徴とする蛋白質の機能改良方法である。

第 8の発明は、 1本鎖 DNAに相補的な DNA鎖の合成を触媒するに際して合成 DNA鎖の伸長を途中で停止させることのないよう PfuDNA合成酵素のァミノ酸配列を人為的に改変したことを特徴とする耐熱性 DNA合成酵素であり、具体的には、配列番号 1のアミノ酸配列からなる耐熱性 DNA合成酵素である。

またこの第 8発明に関連して、この出願は、配列番号 1のアミノ酸配列をコードする DNA酉己列と、この DNA配列を含む組換え体べクタ一を提供する。このような組換え体べクタ一としては、大腸菌 HMS174(DE3)/pDP320 (FERM P-

16052)が保有する組換え体プラスミド _PDP320も提供する。

さらにまた、この発明は、上記の DNA配列を含む発現ベクターにより形質転換した細胞を培養し、培地中に産生された目的酵素を単離，精製することを特徴とする耐熱性 DNA合成酵素の製造方法を提供する。

第 9の発明は、 1本鎖 DNAに相補的な DNA鎖の合成を触媒するに際して合成 DNA鎖がより長く伸長するように RfuDNA合成酵素のアミノ酸配列を人為的に改変したことを特徴とする耐熱性 DNA合成酵素であり、具体的には、配列番号 6のアミノ酸配列からなる DNA合成酵素または配列番号 7のアミノ酸配列からなる DNA合成酵素である。

またこの出願は、この第 9発明に関連して、配列番号 6またはフのアミノ酸配列をコードする DN A配列と、これらの DNA配列を含む組換え体ベクターを提供する。このようなベクターとしては、大腸菌 HMS174(DE3)/pDP5b17 (FERM BP- 6189)が保有する組換え体プラスミド pDP5b17(配列番号 1のアミノ酸配列をコードする DNA配列を保有するベクター）、および大腸菌 HMS174(DE3)/pD P5C4(FERM BP- 6190)が保有する組換え体プラスミド pD P5C4 (配列番号 1のアミノ酸配列をコードする DNA配列を保有するベクター）をも提供する。

さらにまた、上記 DNA配列を含む発現ベクターにより形質転換した細胞を培養し、培地中に産生された目的酵素を単離 ·精製することを特徴とする DNA合成酵素の製造方法を提供する。第 1発明の蛋白質機能部位予測方法は、以下のとおりの考えに立脚してなされたものである。すなわち、蛋白質は 20種類のアミノ酸残基の配列によって構成されているが、その並びはランダムではない。従って、任意の生物種において、アミノ酸配列の部分配列である特定のオリゴペプチドがゲノムでコードされる全蛋白質中に出現する頻度は均一ではな種々の蛋白質に高頻度で出現するオリゴペプチドや、まれにしか出現しないオリゴペプチドが存在する。このうち種々の蛋白質に共通して高頻度に出現するオリゴペプチドは、個々の蛋白質の独自性、すなわち機能を決める能力がな一方、低頻度で出現するオリゴぺプチドが個々の蛋白質の独自性や機能を決定していると考えることができる。

つまり、蛋白質の機能部位は低頻度で出現するオリゴペプチドで構成されていると考えられる。また、才リゴペプチドの長さが長くなるほどまれに出現するオリゴペプチドが多くなる。すなわち、第 1発明の方法におけるステップ (3)において示されている長さ（n+ 1 )のオリゴペプチドは、多くのものが低頻度で出現する最短のオリゴペプチドであり、このオリゴペプチドに含まれる任意の位置のアミノ酸残基 Ajについて算出された関数値 Zj値が、その位置にあるアミノ酸残基 Ajの出現指数（すなわち、その機能代表値）となる。

また、第 2発明の蛋白質機能部位予測方法においては、ステップ (3)において示されている Ajオリゴペプチドと Xiオリゴペプチドの出現頻度の比 Yj iによって、ァミノ酸残基 Ajが Ajオリゴペプチドの出現頻度に寄与している程度が評価され、従って蛋白質の任意の位置のアミノ酸残基 Ajについて算出された関数値 Z(j,n) 値力、その位置にあるアミノ酸残基 Ajの出現指数（すなわち、その機能代表値となる）。

また、この Z(j,n)値はアミノ酸残基 Ajの種類によって異なっている。この発明の方法におけるステップ (7)において、ある生物種 aの全蛋白質における ZG,n)値の分布を 20種類のアミノ酸毎に求め、これらの分布より求めたアミノ酸毎の平均値と標準偏差値に基づいて Z(j,n)値を標準化した D(j,n)値が、アミノ酸残基の種類によるバイアスを補正した機能代表値となる。

さらにまた、オリゴペプチドの長さが長くなるほど、まれに出現するオリゴぺプチドが多くなる。従って、一般に長さ nによっても ZG,n)値や D(j,n)値は異なるため、様々な長さ nで求めた ZCi.n)値と D(j,n)値の関数値 Wj値が機能代表値となる。第 3発明および第 4発明の蛋白質機能部位予測装置は、各々、上記第 1発明および第 2発明の方法を自動的に行うための装置であり、第 5発明および第 6発明の蛋白質改良方法は、上記第 1発明の方法によって予測した機能部位のアミノ酸残基を他のアミノ酸残基に置換して変異蛋白質を作成する方法である。また、第 7発明の蛋白質改良方法は、上記第 2発明の方法によって予測した機能部位のアミノ酸残基を他のアミノ酸残基に置換して変異蛋白質を作成する方法である。この発明では、このような改良蛋白質として新規の耐熱性 D NA 合成酵素（第 8発明および第 9発明）を提供する。

D NA合成酵素（D NA polymerase )は 1本鎖 D N Aに相補的な D N A鎖の合成を触媒する酵素の総称である、 D NAの塩基配列決定や試験管内での D NA 増幅などには必須の酵素であるが、特に PCR(Polymerase chain reaction)においては、その一連の反応サイクルを自動化する上で「耐熱性 D NA合成酵素」は不可欠である。

このような耐熱性 D NA合成酵素としては Taq、 Pfu、 KOD 等が知られており、それぞれの特性に応じて使い分けられている。特に、 Pfu D NA合成酵素は D NA 鎖合成時における読み違いが極めて少ない（忠実性が高い）酵素として知られている。しかしながら、この Pfu D NA合成酵素は、合成量が少なく、また合成鎖に対する伸長活性が不十分であるために、ゲノム D NA等の高分子 D NAを増幅するには不適当であった。そこでこの出願は、第 5発明の方法によって作成した新しい Pfu D NA合成酵素を提供する。図面の簡単な説明

第 1図は、第 1発明の方法において、長さ 3の才リゴペプチド、長さ 4のオリゴペプチド、長さ 5のオリゴペプチドの各々の出現頻度を求め、それぞれの長さについてある回数出現するオリゴペプチドの頻度分布である。

第 2図は、長さ 20のアミノ酸配列、この配列の 5番目のアミノ酸残基 Met を含む長さ 4の Aj才リゴペプチド、および Xiオリゴペプチドの例である。

第 3図は、第 2発明の方法において、長さ 2のオリゴペプチド、長さ 3のオリゴペプチド、長さ 4のオリゴペプチド、長さ 5のオリゴペプチドの各々の出現頻度を求め、それぞれの長さについてある回数出現するオリゴペプチドの頻度分布でめる。

第 4図は、第 2発明方法のステップ (1 )を実施するためのフローチヤ一卜の例で第 5図は、第 2発明方法のステップ (2')〜（3)を実施するためのフローチャートの例である。

第 6図は、第 2発明方法のステップ (4)〜（5)を実施するためのフローチャートの例である。

第 7図は、第 2発明方法におけるアミノ酸の種類毎の ZG.3)値の頻度分布である。実線はイソロイシン（lle)、破線はァラニン (Ala)、一点鎖線はメチォニン（Met) における分布を示している。

第 8図は、第 2発明方法のステップ (7)を実施するためのフローチャートの例である。

第 9図は、第 2発明方法のステップ (8)を実施するためのフローチャートの例である。

第 10図は、第 2発明方法のステップ (9)を実施するためのフローチャートの例で第 11図は、第 3発明の装置を例示した構成図である。

第 12図は、第 3発明の装置を例示した構成図である。

第 13図は、従来の Pfu DNA合成酵素と KOD DNA合成酵素のプライマ一伸長活性を示す電気泳動の結果である。

第 14図は、 MJ0885 でコードされるひ型 DNA合成酵素をコードする全アミノ酸配列について、第 1発明の方法により算出した ¾ニ- log Yjの値をプロットした分布図である。

第 15図は、第 14図に分布図を示したアミノ酸配列の部分配列（モチーフ Aおよびモチーフ C)について、 Zj=- logYjの値をプロットした分布図である。

第 16図は、 MJ0885でコードされるな型 DNA合成酵素のアミノ酸配列から算出した Zj=- logYjの値の頻度分布図である。

第 17図は、 α型 DNA合成酵素 Pfu、 K0D、 MJ の各々のモチーフ Cのアミノ酸配列のァライメント図である。

第 18図は、メタノコッカス-ャナシィ（Methanococcus ja議 schii)のゲノムデ一タをもとに、 α型 DNA合成酵素 Pfu、 KODおよび MJの各々のモチーフ Cにおける Zj=-log Yjの値をプロットした分布図である。 530〜550は Pfuにおけるアミノ酸残基の位置である。

第 19図は、 MJ0885でコードされる α型 DNA合成酵素をコードする全ァミノ酸配列の N末から 100残基について、第 2発明の方法により算出した Wj = Z(j, 3) 一 ZG，1)値（実線）、 Wj = Z(J,4)— Z(j,3)値（破線）、 Wj二 Z(j,5)— Z(j,3)値（一点鎖線）をプロットした分布図である。

第 20図は、 MJ0885 でコードされる型 DNA合成酵素のアミノ酸配列の部分配列（ェクソ I (exol)、ェクソ Π (exoll),モチーフ A(motif A)、モチーフ B(motif B)およびモチーフ C(motif C)を含む領域）について、 Wj = Z(j,5)— Z(j,3)の値をプロットした分布図である。

第 21図は、 MJ0885 でコードされる α型 DNA合成酵素のアミノ酸配列の部分配列（ェクソ I (exol)、ェクソ Π (exoll)、モチーフ ACmotif A)、モチーフ B(motif B)およびモチーフ C(motif C)を含む領域）について、 Wj = D(j,3)値（濃色）と Wj = D(j,5)値（淡色）をプロットした分布図である。

第 22図は、 MJ0232 でコードされるエノラ一ゼのアミノ酸配列について、 Wj = D(j，3)値が 2以上または 2以下になっているアミノ酸残基の立体構造における位置を、立体構造モデル上に濃色で示した分布図である。

第 23図は、従来の PfuDNA合成酵素（野性型）とこの発明の改変型 PfuDN A合成酵素 Iのプライマー伸長活性を示す電気泳動の結果である。

第 24図は、従来の PfuDNA合成酵素（野性型）とこの発明の改変型 PfuDN A合成酵素 Πおよび ΠΙプライマー伸長活性を示す電気泳動の結果である。発明を実施するための最良の形態

第 1発明の蛋白質機能部位予測方法は、ゲノムデータまたは cDNA解析データが既知である生物種 aの予想される全蛋白質から、その生物種 aの任意の蛋白質の機能部位を予測する方法であって、以下のステップ（1)から（6)を構成要件としている。

ステップ（1):

生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、オリゴペプチドの長さ nを確定する。

このとき、長さ nは以下の基準を満たす最小の数として決定される。

「長さ nのオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも少な、長さ（n+ 1 )のオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも多くなる」

たとえば、第 1図は、メタノコッカス■ャナシィ [Methanococcus jannaschii] (Bult et. al., Science 273, 1058-1073, 1996)のゲノムデ一タをもとに、この微生物のゲノムがコードする全蛋白質中での長さ 3のオリゴペプチド、長さ 4のオリゴペプチド、長さ 5のオリゴペプチドの出現頻度を求め、それぞれの長さについてある回数出現するオリゴペプチドの頻度分布をとつたものである。この第 1図に示した 3種類のオリゴぺプチドの場合、このステップ（1 )における最初の nは 3となる。

ステップ (2):

機能部位予測対象の蛋白質のアミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Aj(n+1≤j≤L— n)とし、この蛋白質のアミノ酸配列の部分配列で j 番目のアミノ酸残基 Ajを含む長さ（n+1 )の Ajオリゴペプチド；

aj1 aj2....Aji....ajnaj(n+1)( 1≤ i≤ n + 1； Aj = Aj iで Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、長さ（n+1 )の Xiオリゴペプチド；

aj1aj2....Xi....ajnaj(n + 1)(Xiは任意のアミノ酸残基を示す）

の出現頻度とを生物種 aの全蛋白質中で求める。

このような Ajオリゴペプチドと Xiオリゴぺプチドは、例えば第 2図のように例示することができる。この第 2図の上段 { 1 } は、メタノコッカス 'ャナシィ [Methanococcus jannaschii] ( Bult et. al., Science 273, 1058 - 1073, 1996)の、 α型 DNA合成酵素をコードしていると考えられる遺伝子 MJ0885 によって予想されるアミノ酸配列について、 N末（ァミノ端末）から 20 番目のアミノ酸残基までの部分配列をシングルレター 'コードで表記したもので、中段 {2}は、 5番目のァミノ酸残基 Met(M)を含む長さ 4の Ajオリゴペプチドの例を示し、さらにその下 {3} 〜{6}に 5番目のアミノ酸残基 Mを含む Xiオリゴペプチドの例を示している。

ステップ (3):

Ajオリゴペプチドと Xiオリゴペプチドの出現頻度の比 Yj iを求める。

ステップ (4):

Yjiの平均値 Yjを以下のとおりに求める。

Yj=∑YjiZn+1 (1≤i≤n+1)

ステップ（5):

Yjの単調減少関数値または単調増加関数値 Zjを以下のとおりに求める。

Zj=f(Yj)

そしてこの Zjの値を、アミノ酸配列（長さ L)の j番目のアミノ酸残基の機能代表値とする。

ステップ (6):

以下、上記ステップ (2)から (5)を順次繰り返し、アミノ酸配列（長さ L)の n+1 ≤j≤L一 nの位置にある全アミノ酸残基について各々の Zj値を求めことによって、蛋白質の機能に対する各アミノ酸残基の責任の程度を ¾値の大きさを指標として予測する。すなわち、各々のアミノ酸残基の出現頻度は Yjの関数値 Zjとして表されるため、 Zjが単調減少関数値の場合には、この Zj値が大きいほどそのァミノ酸残基の出現頻度が小さく、従って、機能発現に対して大きな責任を有すると考えられる。また、 Zjが単調増加関数の場合には、 ¾値が小さいアミノ酸残基ほど機能に対する責任が大きいと考えられる。

なお、各アミノ酸残基の ¾値は、例えば、 X軸にアミノ酸配列を、 Y軸に Zj値をプロットしたような分布図として表示することによって、一目で機能部位を確認することができ、この発明を実施する形態としては好ましい。第 2発明の蛋白質機能部位予測方法は、ゲノムデータまたは cDNA解析デ一夕が既知である生物種 aの予想される全蛋白質から、その生物種 aの任意の蛋白質の機能部位を予測する方法であって、以下のステップ (1)から (9)を構成要件としている。

ステップ（1):

生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求める。

たとえば、第 3図は、メタノコッカス-ャナシィ [Methanococcus jannaschii]

(Bult et. al., Science 273, 1058-1073, 1996)のゲノムデータをもと（こ、この微生物のゲノムがコードする全蛋白質中での長さ 3の才リゴペプチド、長さ 4のオリゴペプチド、長さ 5のオリゴペプチドの頻度を求め、それぞれの長さについてある回数出現するオリゴぺプチドの頻度分布をとつたものである。

第 4図は、このステップ（1) を実施するためのフローチャートの例である。

ステップ (2):

生物種 aの任意の蛋白質について、

ステップ (2')：

アミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Ajとし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Aj(n≤j≤L— n+ 1 )を含む任意の長さ n(1≤n≤M、ただし Mは最初に以下の基準に合致する才リゴペプチドの長さ M;長さ Mのオリゴペプチドはすべて、出現頻度 1である）の Ajオリゴぺプチド；

aj1aj2....aji....ajn( 1≤ i≤ n + 1； Aj = aj iで Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、 Ajオリゴぺプチドに対応する長さ nの Xiオリゴペプチド； aj1aj2....Xi....ajn(Xiは任意のアミノ酸残基を示す）

の出現頻度とを生物種 aの全蛋白質中で求める。

このような Ajオリゴペプチドと Xiオリゴペプチドは、第 1発明方法と同様に、例えば第 2図のように例示することができる。

ステップ (3):

Ajオリゴペプチドと Xiオリゴペプチドの出現頻度の比 Yjiを求める。

第 5図は、以上のステップ (2')〜（3)を実施するためのフローチャートの例である。

ステップ (4):

Yjiの平均値 YG,n)を以下のとおりに求める。

YG,n)=∑ Yji/n(1≤i≤n)

ステップ (5):

Y(j，n)の対数値 Z i,n)を以下のとおりに求める。

ZG,n) = - log(Y(j,n))

第 6図は、以上のステップ (4)〜（5)を実施するためのフローチャートの例である。

ステップ (6):

以下、上記ステップ (2)から（5)を順次繰り返し、アミノ酸配列（長さ L)の n≤j ≤L—n+1の位置にある全アミノ酸残基について各々の ZG,n)値を求める。

ステップ（7):

生物種 aの全蛋白質について上記ステップ (2)から (6)を順次繰り返し、ァミノ酸残基の種類毎の Z(j,n)値の分布を求め、この分布に基づいて各アミノ酸 Aaに対する Z(j,n)値の平均値 Ad(Aa)と標準偏差値 Sd ( Aa)を求め、アミノ酸残基の種類による分布の違いを標準化する関数 g;

g=(Z(j,n), Aj)= Z(j,n)— Ad(Aa)}ノ Sd(Aa) (ただし Aj=Aa) を求める。 ljえ (ま、第フ図（ま、メタノコッカス -ャナシィ [Methanococcus jannaschii] ( Bult et. aし Science 273, 1058— 1073, 1996)のゲノム力《コードする全蛋白質における Z(j,n)値の分布を 3種類のアミノ酸：イソロイシン（lle)、ァラニン (Ala)、メチォニン (Met)について示している。この分布から例えば、アミノ酸イソロイシン（lie)における ZG,n)値の平均値 Ad(lle)=3.16、標準偏差値 Sd(lle)=0.17などが求められ、 Aj = lleの場合の関数 gが以下のとおり求められる。

g=(Z(j,n), Aj) = (ZG,n)_3.16)Z0.17

第 8図は、このステップ (7)を実施するためのフローチャートの例である。

ステップ (8):

アミノ酸配列（長さ L)の n≤j≤L— n + 1の位置にある全アミノ酸残基 Ajについてステップ (7)で得られた関数 gの値；

を求める。

第 9図は、ステップ (8)を実施するためのフローチヤ一卜の例である。

ステップ（9):

Ζα,η) 値と D(j,n) 値の関数値 Wjを以下のとおりに求める。

Wj = Wj = h(Z0,1), ZG,2) , ZG,M), D(j,1), DO, 2) , D(j,M)) そしてこの Wjの値を、アミノ酸配列（長さ L)の j番目のアミノ酸残基の機能代表値とし、蛋白質の機能に対する各アミノ酸残基の責任の程度を Wj値の大きさを指標として予測する。

第 10図は、ステップ (9) を実施するためのフローチヤ一卜の例である。

なお、各アミノ酸残基の Wj値は、例えば、 X軸にアミノ酸配列を、 Y軸に Wj値をプロットしたような分布図として表示することによって、一目で機能部位を確認することができ、この発明を実施する形態としては好ましい。

また、機能部位予測対象の蛋白質の立体構造が既知である場合、または公知の方法（例えば、ホモロジ一モデリング法： Peitsch, Proceedings of the fifth international cinference on intelligent systems for molecular biology 1997, 5, 234- 2³6)等によって立体構造モデルが作成できる場合には、立体構造上で分布を表示することによって、新規の機能部位の候補となるアミノ酸残基の空間的な配置を確認することができ、この発明を実施する形態として好ましい。第 3発明に係る蛋白質機能部位予測装置は、上記第 1発明の機能部位予測方法を自動的に行うための装置であって、例えば第 11図に構成例を示したように、第 1発明方法のステップ（1)から (6)を処理するための、少なくとも以下の (a)から (g)の装置を備えている。

外部記憶装置（a):

ステップ（1)において利用する蛋白質のアミノ酸配列デ一タまたは既存の蛋白質データベースを記憶する装置。

計算記憶装置（b):

ステップ (1)において求める各オリゴペプチドの出現頻度を計算する CPUと、その計算結果を記憶する記憶装置とからなる装置。

計算記憶装置 (c):

ステップ（1)において求めるオリゴペプチドの長さ nを計算する CPUと、 nを記憶する記憶装置とからなる装置。

計算記憶装置（d):

ステップ (2)において求める Ajオリゴペプチドおよび Xiオリゴペプチドの各々の出現頻度を全蛋白質中で計算する CPUと、その計算結果を記憶する記憶装置とからなる装置。

計算記憶装置 (e):

ステップ (3)で求める Yji値を計算する CPUと、 Yji値を記憶する記憶装置とからなる装置。計算記憶装置 (f) :

ステップ (4)で求める Yj値を計算する CP Uと、 Yj値を記憶する記憶装置とからなる装置。

計算記憶装置（g) :

ステップ (5)で求める Zj値を計算する CP Uと、 Zj値を記憶する記憶装置とからなる装置。

また、この機能部位予測装置は、

ディスプレー装置（h) :

計算ノ記憶装置 (g)で得た各アミノ酸残基の Zj値を分布図として表示する装置

を備えることを好ましい態様としている。

さらに、これらの装置（a) ~ (h)以外にも、この発明の装置は、第 1 1図にも例示したようなキーボード (ί)および制御装置 (j)等を備えるようにしてもよい。第 4発明に係る蛋白質機能部位予測装置は、上記第 2発明の機能部位予測方法を自動的に行うための装置であって、例えば第 1 2図に構成例を示したように、第 2発明方法のステップ（1 )から（9)を処理するための、少なくとも以下の (a)から (i)の装置を備えている。

外部記憶装置（a) :

ステップ (1 )において利用する蛋白質のアミノ酸配列データまたは既存の蛋白質データベースを記憶する装置。

計算 Z記憶装置（b) :

ステップ (1 )において求める各オリゴペプチドの出現頻度を計算する CP Uと、その計算結果を記憶する記憶装置とからなる装置。

計算ノ記憶装置（c) :

ステップ (2')において求める Ajオリゴペプチドおよび Xiオリゴペプチドの各々の出現頻度を全蛋白質中で計算する CPUと、その計算結果を記憶する記憶装置とからなる装置。

計算記憶装置 (d):

ステップ (3)において求める Yjiを計算する CPUと、 Yji値を記憶する記憶装置とからなる装置。

計算 Z記憶装置 (e):

ステップ (4)において求める Y(j,n)値を計算する CPUと、 Y(j,n)値を記憶する記憶装置とからなる装置。

計算記憶装置 (f):

ステップ (5)(6)において求める ZG,n)値を計算する CPUと、 ZG,n)値を記憶する記憶装置とからなる装置。

計算記憶装置 (g):

ステップ (7)において求める g値を計算する CPUと、 g値を記憶する計算装置とからなる装置。

計算ノ記憶装置（h):

ステップ (8)において求める DG,n)値を計算する CPUと、 DG,n)値を記憶する記憶装置とからなる装置。

計算記憶装置（i):

ステップ (9)において求める Wj値を計算する CPUと、 Wj値を記憶する記憶装置とからなる装置。

さらに、この第 4発明の機能部位予測装置においては、以下の j)〜（l)の装置を適宜に組み合わせて備えるようにすることもできる。

ディスプレー装置 (j):

装置（i)で得られた各アミノ酸残基の Wj値を分布図として表示する装置。計算記憶装置 (k):

既存の蛋白質立体構造データベースを記憶し、または公知の方法に従ってアミノ酸配列から立体構造モデルを作成し記憶する装置。

ディスプレー装置（I) ：

アミノ酸配列について、各アミノ酸残基の Wj値を装置（k)に記憶されている立体構造データベースまたは立体構造モデル上に分布図として表示する装置。

なお、これらの装置（a)〜（l)以外にも、この発明の装置は、第 1 2図にも例示したようなキーボード (m)および制御装置（n)等を備えるようにしてもよい。次に、第 5発明に係る蛋白質機能改良方法について説明する。この方法は、ゲノムデータまたは c D NA解析データが既知である生物種 aの予想される全蛋白質から、機能が既知である蛋白質 Aの機能を改良する方法であって、以下のステップ（1 )から（1 0)を構成要件とするものである。

ステップ (1 ) :

蛋白質 Aと近縁の蛋白質を既存の蛋白質データベースから抽出してァラインメントを行う。

ステップ (2)〜（7)：

生物種 aの全蛋白質のアミノ酸配列について、上記第 1発明の方法におけるステップ（1 ) ~ (6)を行なう。

ステップ (8) :

蛋白質 Aのアミノ酸配列について、ステップ ( 1 )で行なったアラインメントのデータをもとに変異させるアミノ酸残基を 1種以上選択し、それらのアミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から（6)を順次繰り返し、変異アミノ酸残基の Zj値を求める。

ステップ (9) :

ステップ (8)で求めた変異アミノ酸残基の Zj値が、ステップ (7)で求めた元のァミノ酸残基の ¾値より大きいか小さい変異型アミノ酸配列を選択する。ステップ（10):

ステップ (9)で選択したアミノ酸配列をコードする蛋白質 Aの改変型遺伝子を公知の方法に従って作成し、この遺伝子を適当な宿主一ベクター系で発現させて改良型蛋白質 Aを作成する。第 6発明の蛋白質機能改良方法は、ゲノムデータまたは cDNA解析データが未知である生物種 bの蛋白質 Bの機能を改良する方法であって、以下のス亍ップ (¹)~(10)を構成要件としている。

ステップ 0)·.

ゲノムデータまたは cDNA解析データが既知である生物種 aの予想される全蛋白質から、蛋白質 Bと最も近縁の蛋白質 Aを抽出してアラインメントを行ない、また蛋白質 Bと近縁の蛋白質を既存の蛋白質データベースから抽出してァラインメン卜を行なう。

ステップ (2)〜（8)：

生物種 aの全蛋白質のアミノ酸配列について、上記の第 3発明の方法のス亍ップ (2)から (8)を行う。

ステップ (9):

ステップ (8)で求めた変異アミノ酸残基の Zj値が、ステップ (7)で求めた元のァミノ酸残基の Zj値より大きいか小さい変異位置と変異アミノ酸残基を選択する。ステップ（10):

ステップ (9)で選択した位置とそのアミノ酸残基を実現する蛋白質 Bの改変型遺伝子を公知の方法に従って作成し、この遺伝子を適当な宿主—ベクタ一系で発現させて改良型蛋白質 Bを作成する。以上のとおりの、この発明の第 5および第 6発明である機能改良方法は、第 1発明の機能部位予測方法を組み込むことにより、蛋白質の未知機能部位を新たに見出し、この部位を変異させることを特徴とするものである。

また、第フ発明の蛋白質機能改良方法も、第 2発明の機能予測方法を利用することによって、第 5発明と同様にして実施することができる。第 8発明および第 9発明の耐熱性 DNA合成酵素は、具体的には、ピロコッカスフリオサス（Pyrococcus furiosus)由来の耐熱性 PfuDNA合成酵素を公知の変異遺伝子作成法（Strategies, vol.9, p3- 4, 1996)によって遺伝子工学的に改変した酵素である（以下、この発明の耐熱性 DNA合成酵素を「改変型 PfuDNA 合成酵素」と記載することがある）。この酵素の作成は以下のとおりに行なうことができる。すなわち、 PfuDNA合成酵素の遺伝子は塩基配列が公知（Nucleic Acids Research, vol.21, p259— 265, 1993)であるため、その両端 Iニキ目補的な才リゴヌクレオチドを合成し、これをプライマ一として、上記細菌のゲノム DNAを錶型とする PCR法により PfuDNA合成酵素の遺伝子を調製する。この遺伝子 DNA 断片をべクタ一にクローニングし、上記文献に記載の方法により変異させる。特にこの発明では、遺伝子の変異は、 PfuDNA合成酵素のアミノ酸配列の一部が KODDNA合成酵素のアミノ酸配列に置き変わるように塩基を置換させた。 PfuD NA合成酵素と KODDNA合成酵素は、アミノ酸配列が約 80<½相同であり、 PC Rの際に同様の合成停止を生じさせるが（第 13図）、 KODDNA合成酵素の伸長速度は PfuDNA合成酵素の約 6倍である。そこで、 PfuDNA合成酵素のアミノ酸残基を KODDNA合成酵素のアミノ酸残基に置換することによって、伸長鎖の合成停止が改善され、または伸長速度が速従って合成 DNA鎖をより長く伸長させることのできる酵素が得られる可能性があるからである。そして、このようにして変異させた遺伝子を大腸菌で発現させ、その発現産物を回収し、精製することによってこの発明の改変型 PfuDNA合成酵素を得た。

第 8発明の耐熱性 DNA合成酵素（改変型 PfuDNA合成酵素 I )は、具体的には、配列番号 1アミノ酸配列を有する酵素である。このアミノ酸配列は、従来公知の PfuDNA合成酵素のアミノ酸配列から、この発明に機能部位予測方法によってその機能を変化させうるアミノ酸残基を特定し、表 1に示すとおりにアミノ酸残基を置換した新規な配列である。そして、この新規酵素を用いて PCR等の DNA合成を行なった場合には、下記の実施例に示すように、従来の DNA合成酵素を用いた場合に生じる合成停止がほぼ完全に解消される。もちろん、従来酵素によって効率良く増幅される錶型 DNA鎖は同様に効率良く増幅される。

また、第 9発明の耐熱性 DNA合成酵素（改変型 PfuDNA合成酵素 Πおよび m)は、具体的には、配列番号 6および 7のアミノ酸配列を有する酵素であり、同じく PfuDNA合成酵素のアミノ酸配列から、この発明の機能部位予測方法によつてその機能を変化させうるアミノ酸残基を特定し、表 2に示すとおりにアミノ酸残基を置換した新規な配列である。そして、この新規酵素を用いて PCR等の D NA合成を行なった場合には、下記の実施例に示すように、大量かつ高分子の合成産物を得ることが可能となる。

表 1

改変型 DNA 野生型改変型

合成酵素位アミノ酸 => アミノ酸

2 I le Val

533 Phe Ty r

538 し eu I le

I 540 I le Ser

545 し eu Phe

546 Ty r Phe

2 I le Val

710 Pro Arg

Π 712 Ser Arg

713 Asn Asp

717 し eu Pro

m 2 I le Va I

717 し eu Pro

.れらの改変型 PfuDNA合成酵素をコードする DNA配列としては、上記の酵素作成過程で得られた PfuDNA合成酵素遺伝子の変異遺伝子を例示することができる。これらの変異遺伝子は、例えば配列番号 1、 6または 7のアミノ酸配列をコードする DNA配列については、それぞれ組換え体プラスミド p320、 pDP 5b17および pDP5C4にクロ一ニングされており、これらの組換え体プラスミドは大腸菌 HMS174(DE3)に導入され、工業技術院生命工学工業技術研究所に寄託されている（各々、寄託番号 FERMP_16052、 FERMBP-6189 および FERM BP - 6190)。

また、この発明の DNA配列は、例えば配列番号 1、 6または 7の各アミノ酸残基に対応する塩基コドンをつなぎ合わせた DNA配列として適宜にデザインすることもできる。

この発明の耐熱性 DNA合成酵素は、大腸菌などの微生物で発現させて得ることができる。例えば、微生物中で複製可能なオリジン、プロモータ一、リボソーム結合部位、 cDNAクローニング部位、ターミネータ一等を有する発現べクタ一に、上記 DNA配列を挿入結合して発現べクタ一を作成し、この発現べクタ一で宿主細胞を形質転換したのち、得られた形質転換体を培養してやれば、 DN A配列にコードされている酵素を微生物内で大量生産することができる。実施例

以下、実施例を示してこの発明のさらに詳細かつ具体的に説明するが、この発明は以下の例によって限定されるものではない。実施例 1

タノコッカス-ャナンィ [Methanococcus jannaschii] ( Bult et.al., Science 273, 1058- 1073, 1996)のゲノムデータをもとに、 or型 DN A合成酵素をコードしていると考えられるこの微生物の遺伝子 MJ0885によって予想される DNA合成酵素のアミノ酸配列（N末から C末）の各アミノ酸残基について、第 1発明の方法で ¾二 logYjを算出した（fニ- log)。第 14図は、この結果を分布図としてプロットしたものである。

さらに、 α型 DNA合成酵素の機能部位として知られているモチーフ部分のうち、モチーフ A(motif A)およびモチーフ C(motif C)を抜粋し、それぞれのァミノ酸残基の Zj値を第 15図にプロットした。この第 15図と次の第 16図から、機能に責任のあるアミノ酸残基の Zj=-logYjの値は他のアミノ酸残基のそれに比較して大きいことが分かる。

第 16図は、 MJ0885 でコードされる α型 DNA合成酵素のアミノ酸配列についての、 Zj=-logYj の値の頻度分布図である。この図から、この分布図において ¾ =-logYjの値が 4.8以上のアミノ酸残基が、蛋白質の機能に責任のあるアミノ酸残基である可能性が高いことが確認された。実施例 2

ピロコッカス.フリオサス [Pyrococcus furiosus]由来の α型 DNA合成酵素 Pfu ( DDBJ ァクセッション番号 D12983 )の性質を、ピロコッカス.エスピー [Pyrococcus sp.]由来の α型 D N A合成酵素 KOD(DDBJ ァクセッション番号 D29671 )のアミノ酸配列およびメタノコッカス -ャナシィ [Methanococcus jannaschii](Bult et al., Science 273, 1058 - 1073,1996)のゲノムデータおよび MJ0885 でコードされる α型 DNA合成酵素（MJ)のアミノ酸配列をもとに、実施例 1の第 15図に基づいて改良した。

第 1フ図は Pfu、 K0D、 MJの各々のモチーフ Cのアミノ酸配列のァライメント図であり、 531 から 544までの領域では Pfuと MJには差はない。

第 18図は、 Pfu、 K0Dおよび MJ のモチーフ Cのアミノ酸配列について、メタノコッカス■ャナシィ [Methanococcus jannaschiijのケノム丁一タをもとに、この発明の方法で機能部位を予測した結果である。この結果から、 lle540Se_r、 Leu545Phe、 Tyr546Phe、 lle568Thrの変異力《あると、これらのアミノ酸残基の Zi =-logYjの値が大きくなることがわかる。さらに Asp541 や Ala547でも Zj=_logYj の値が大きくなつている。すなち、これらの変異をメタノコッカス 'ャナシィ [Methanococcus jannaschii]の型 D N A合成酵素 M J Iこっし、て亍ぅと、全蛋白質の中でこの配列はより特殊となり、何らかの機能が向上することが期待される。実施例 3

メタノコッカス-ャナン Lliethanococcus jannaschii] ( Bult et aに， Science 273, 1058-1073, 1996)のゲノムデータをもとに、ひ型 DNA合成酵素をコードしていると考えられるこの微生物の遺伝子 MJ0885によって予想される DNA合成酵素のアミノ酸配列（N末から C末）の各アミノ酸残基について、第 2発明の方法で Z(j,1)=- l。gYG,1)、 Z(j，3)=— lo_gY(j,3)、 Z(j,4)=- logY(j,4)、 Z(j,5)=- logYG,5)を算出し、 Wj = Z(j,3)— Z(j,1)を算出した（h = Z(j,3)— ZG，1))。同様に、 Wj = Z(j,4)— Z Cj，3)(h = Z(j,4)— ZG,3))、 \^ = 2(],5) ヱ(],3)( =2 ,5)—ヱ( 3))を算出した。

第 19図は、 N末から 100残基についてこれらの結果を分布図としてプロットしたものでである。 h = Z(j,5)— Z(j,3)の場合、他の二つの場合と比べて大き〈分布が異なる領域が N末から 35残基目から 60残基目にかけての領域等に存在している。この分布から Wj = Z(j, 5)— Z(j, 3)が小さくなることによってアミノ酸配列が特徴づけられることが分かる。

さらに、 α型 DN A合成酵素の機能部位として知られているモチーフ部分のうち、ェクソ I (exol)、ェクソ n(exoll)、モチーフ A(motif A), モチーフ B(motif B)およびモチーフ C(motif C)を含む領域を抜粋し、それぞれのアミノ酸残基の Wj値を第 20図にプロットした。この第 20図に示したように、 Wj値が小さくなることによつて特徴づけられる部分と機能部位が対応していることが分かる。実施例 4 第 21図は、 or型 DNA合成酵素の機能部位として知られているモチーフ部分のうち、ェクソ I (exol)、ェクソ Π (exoll)、モチーフ A(motif A),モチーフ B(motif B)およびモチーフ C(motif C)を含む領域を抜粋し、それぞれのアミノ酸残基の W j = D(j,3)値と Wj = D(j,5)値をプロットしたものである（h = D(j,3)と h = D(j,5))。 Wj =DG,n)が 2以上または 2以下になっているアミノ酸残基がモチーフ部分以外にも存在しており、これらのアミノ酸残基が新たな機能部位の候補となる。実施例 5

第 22図は、メタノコッカス-ャナシィ [Methanococcus ja固 schii]のエノラ一ゼであると予想される MJ0232 のアミノ酸配列について、 Wj = D(J,3)値が 2以上または 2以下になっているアミノ酸残基の立体構造における位置を、出芽酵母菌のエノラーゼを基に公知の方法で作成した立体構造モデル上に濃色で表示したものである。アミノ酸配列上では離れた位置にある残基が立体構造では近くにあることが分かる。実施例 6

実施例 2において、 DNA合成酵素 M Jについて予想された機能改良のためのアミノ酸残基の変異を、 PfuDNA合成酵素に適用して、改良型 PfuDNA合成酵素 Iを作成した。

(1)改変型 PfuDNA合成酵素遺伝子の作成

PfuDNA合成酵素遺伝子のクロ一ニング：

PfuDNA合成酵素遺伝子の塩基酉己列（Nucleic Acids Research, vol.21 , P259-265, 1993)に従って PCRプライマ一を合成し、ピロコッカスフリオサス（P. furiosus)のゲノム DNAを錶型とする PCRによって目的遺伝子を増幅し、これを大腸菌用の発現ベクターにクローニングした。詳細は以下のとおりである。

P.furiosus DSM3638 を上記文献に記載された方法で培養した。先ず、文献記載の培地を調製し、高温加圧滅菌ののち、蜜素ガスを吹き込み、植菌して 95°Cで 15時間静置培養した。 200mlの培養掖から遠心分離により約 0.5mgの菌体を得た。集菌体を緩衝液 A(10 mMトリス一 HCL, pH8.0, 1 mMEDTA, 100 mM Nacl)に懸濁し、 10% SDSを 1 ml 加え、撹拌の後、プロティナ一ゼ Kを 0.5mg加えて 55°Cで 60分反応させた。反応液を順次フエノール抽出、フエノールクロ口ホルム抽出、クロ口ホルム抽出し、エタノールを加えて DNAを不溶化し、回収した。得られた DNAを 1 mlの TEバッファ一（10 mMトリスー HCI, pH8.0, 1 mMEDTA)に溶解し、 0.5mgの RNase Aを加えて 37°Cで 60分反応させたのち、再度フヱノール抽出、フ: I：ノールクロロホルム抽出、クロ口ホルム抽出し、エタノール沈殿で DNAを回収して TEバッファ一に溶解させ、約 0.3mgの DNAを得た。

次いで、目的の DNA合成酵素遺伝子を PCR増幅するために、既知の配列データをもとに配列番号 2および 3に示す 2種のプライマー DNAを合成した。すなわち、フォア一ドプライマ一配列中には目的遺伝子の開始コドン ATGおよび制限酵素 Ncol酉己列（5'-CCATGG- 3')を導入し、リバ一スプライマ一は終止コドンの下流の適当な位置に結合するように設計した。 PCRは、 P.furiosusDNA2 u g とプライマー各 10pmol を用し、、 LATaq (宝酒造）と添付のバッファ一条件で、 50 I の反応系で行った。サイクル条件は、酵素を加える前に 93°CZ3分を行い、 94°CZ0.5分、 55°CZ0.5 分、 72°CZ1.0分を 30サイクルした。増幅した DNA断片を精製し、 Ncol で処理した後、同じく Ncol で切断後に平滑末端化し、さらに Ncol 処理した発現べクタ一 pET15— bの T7プロモータ一下流に組み込んだ。この発現ベクターを PDPWT100とし、挿入遣伝子の塩基配列を確認した。

PfuDNA合成酵素遺伝子の改変：

クローン化した PfuDNA合成酵素遺伝子を組み込んだ発現べクタ一 pDPWT 100 に対して、期待する変異を含んだオリゴヌクレオチド（配列番号 4および 5)とプロメガ社の突然変異導入キットを用い、公知の方法（Strategies, vol.9, _P3- 4, 1996)に従って改変型 PfuDNA合成酵素の遺伝子を、発現べクタ一 pDPWT 100上で作成し、発現べクタ一 pDP320を構築した。なお、この改変型遺伝子の塩基配列を決定することにより、改変型 PfuDNA合成酵素のアミノ酸配列（配列番号 1 )を確認した。

(2)改変型 PfuDNA合成酵素の大腸菌での発現と精製

作成した改変型 PfuDNA合成酵素 I の遺伝子を次のとおりに大腸菌で発現させ、精製した。

改変型 PfuDNA合成酵素遺伝子をもつ発現べクタ一_PDP320 を大腸菌 HM S173(DE3)株に導入し、終濃度 0.1 mMの I PTGを含んだ LB培地で 14時間培養し、酵素を大腸菌体内に発現誘導した。遠心して菌体を集めた後、 150 mM Tris/HCI(pH7.5)、 2 mM EDTA、 0.24 mM APMSFおよび 0.2%の Tween20を含む緩衝液で超音波処理を行いながら、改変型 PfuDNA合成酵素を抽出した。この粗抽出液を 80°C、 15 分の熱処理を行うことで大腸菌由来の DNA合成酵素を失活させると共に、この発明の DNA合成酵素の部分精製を行なった。部分精製画分は 50 mM Tris/HCI(pH7.5)、 1 mMEDTA、 0.2% Tween20、 7 mM 2- mercaptoethanolおよび 10% glycerolの緩衝液に対し透析した。この段階で改変型 PfuDNA合成酵素 Iに特異的な DNA合成活性を検出した。実施例 7

実施例 6で部分精製した改変型 PfuDNA合成酵素 Iを用い、錶型 DNAに相補的な DNA鎖のプライマー伸長反応を試験した。

20 m Tris/HCI(pH8.0)、 2 mM MgCI₂ 50 μ g/ml BS A、 0.1 % Triton X— 100、

1 mM の各 cold dNTPs(0.1 mM for dCTP) [ a -³²P]dCTP の 10 Ci と

M13(- 21)のプライマ一をァニールさせた 0.63 gの pBLUESCRIPT プラスミドを含む反応液 20 1 に、上記の部分精製酵素画分 1 gを入れ、 75°Cで 1分および 3分間反応させた。伸長した DNA鎖を 8M urea を含んだポリアクリルアミドゲル電気泳動で分離した後、イメージアナライザ一によりそのパターンを解析した。また、対照として、従来の野性型 PfuDNA合成酵素を用いて、同様の DNA合成を行なった。

結果は第 23図に示したとおりである。従来の野性型 PfuDNA合成酵素を用いた場合には、合成停止による不完全は DNA鎖の存在を示すバンドが少なくとも 10個観察されたが、この発明の改変型 PfuDNA合成酵素 Iによる DNA合成では、これらのバンドは消失した。一方、 1000ベース近傍の良く伸長した DNA 鎖の蓄積には差は見られなかった。実施例 8

PfuDNA合成酵素 Πおよび mを作成した。

(1)改変型 PfuDNA合成酵素遺伝子の作成

実施例 6(1)と同様にして PfuDNA合成酵素遺伝子をクローニングしたのち、改変型遺伝子 Πおよび mを以下のとおりに作成した。

改変型 PfuDNA合成酵素 Π遺伝子の作成：

クローン化した PfuDNA合成酵素遺伝子を組み込んだ発現べクタ一pDPWT 100 に対して、期待する変異を含んだオリゴヌクレオチド（配列番号 8および 9)とプロメガ社の突然変異導入キットを用い、公知の方法（Strategies, vol 9, p3- 4,1996)に従って改変型 PfuDNA合成酵素 Πの遺伝子を、発現べクタ一 pDPW T100上で作成し、発現ベクター pDP5b17を構築した。なお、この改変型遺伝子の塩基配列を決定することにより、改変型 PfuDNA合成酵素 Πのアミノ酸配列 (配列番号 6)を確認した。

改変型 PfuDNA合成酵素 ΠΙ遺伝子の作成：

配列番号 10および 11のオリゴヌクレオチドを用いたことを除き、上記と同一の方法により、改変型 PfuDNA合成酵素 ΠΙの遺伝子を作成し、発現ベクター p DP5C を構築した。この改変型遺伝子の塩基配列を決定することにより、改変型 PfuDNA合成酵素 ΙΠのアミノ酸配列（配列番号 7)を確認した。

(2)改変型 PfuDNA合成酵素 Πおよび ΠΙの大腸菌での発現と精製

作成した改変型 PfuDNA合成酵素 Πおよび ΙΠの遺伝子を次のとおりに大腸菌で発現させ、精製した。

発現べクタ一 pDP5b17および発現べクタ一 pDP5C4をそれぞれ大腸菌 HMS 174(DE3)株に導入し、終濃度 0.1 mMの I PTGを含んだ LB培地で 14時間培養し、酵素を大腸菌体内に発現誘導した。遠心して菌体を集めた後、 150 mM Tris/HCI(pH7.5)、 2 mM EDTA、 0.24 mM APMSFおよび 0.2%の Tween20を含む緩衝液で超音波処理を行いながら、改変型 PfuDNA合成酵素 Πおよび m を抽出した。この粗抽出液を 80° (：、 15分の熱処理を行うことで大腸菌由来の D NA合成酵素を失活させると共に、改変型 PfuDNA合成酵素 Πおよび ΙΠの部分精製を行なった。部分精製画分は 50 mM Tris/HCI(pH7.5)、 1 mM EDTA、 0.2% Tween20 7mM 2- mercaptoethanolおよび 10% glycerolの緩衝液に対し透析した。この段階で改変型 PfuDNA合成酵素 Πおよび mに特異的な DNA合成活性を検出した。

実施例 9

実施例 8でそれぞれ部分精製した改変型 PfuDNA合成酵素 Πおよび Ktを用い、錶型 DNAに相補的な DNA鎖のプライマー伸長反応を試験した。

20 mM Tris/HCI(pH8.0)_% 2 mM MgCI₂, 50 μ g/mlBSA, 0.1% Triton X— 100、 1 mM の各 cold dNTPs(0.1 mM for dCTP)、 [ —³² P]dCTP の 10A< Ci と M13(- 21)のプライマ一をァニールさせた 0.63 Aigの pBLUESCRIPT プラスミドを含む反応液 20AH に、上記の部分精製酵素画分 1 を入れ、 75°Cで 1分および 3分間反応させた。伸長した DNA鎖を 8M urea を含んだポリアクリルアミドゲル電気泳動で分離した後、イメージアナライザ一によりそのパターンを解析した。また対照として、従来の野性型 PfuDNA合成酵素を用いて同様の DNA合成を行なった。

結果は第 24図に示したとおりである。従来の野性型 PfuDNA合成酵素を用いた場合には、約 1000 ベースに大きな合成停止領域が存在し、このことによる不完全な DNA鎖の存在を示すバンドが観察された。一方、この発明の改変型 PfuDNA合成酵素 Πおよび mによる DNA合成では、約 1000 ベースのバンドも含めて合成量が増大し、しかもより高分子の（すなわち、より伸長した） PCR産物の存在を示すバンドも観察された。

以上の結果から、この発明の DNA合成酵素は、 PCR法による DNA合成において、合成 DNA鎖のより長い伸長が可能であることが確認された。産業上の利用可能性

この発明によって、ゲノム解析や cDNA解析から得られた機能未知の蛋白質について、その機能部位を予測するが可能となる。また、機能既知の蛋白質についても、その新たな機能部位を予測することも可能となる。

また、この発明によて提供される耐熱性 DNA合成酵素は、高分子 DNAを P CR等によって増幅する場合、その全長を効率よく合成、増幅することができる。これによつて、 DNA鎖の試験管内での合成や増幅、塩基配列の決定等を簡便かつ高精度で行なうことが可能となる

配列表

配列番号： 1

配列の長さ： 775

配列の型：アミノ酸

配列の種類：タンパク質

配列

Met Va I Leu Asp Va I Asp Ty r I I e 「hr Glu G I u G I y Lys Pro Va I l ie

1 5 10 15

Ar g Leu Phe Lys Lys Glu Asn G I y Lys Phe Lys I I e Glu Hi s Asp Ar g

20 25 30

Th r Phe Ar g Pro Ty r I I e Tyr Ala Leu Leu A g Asp Asp Ser Lys I I e

35 40 45

Glu Glu Va I Lys Lys l ie Thr G I y Glu Ar g His G I y Lys l ie Va I Ar 50 55 60

l ie Va I Asp Va I Glu Lys Va I Glu Lys Lys Phe Leu G I y Lys Pro l ie 65 70 75 80

Thr Va I T r p Lys Leu Tyr Leu Glu Hi s Pro Gin Asp Va I Pro Thr I I e

85 90 95

Arg Glu Lys Va I Arg Glu Hi s Pro A I a Va I Va I Asp l ie Phe Glu Tyr

100 105 110

Asp I I e Pro Phe A I a Lys Ar Tyr Leu I I e Asp Lys G I y Leu I I e Pro

115 120 125

Met Glu G I y Glu Glu Glu Leu Lys l ie Leu A I a Phe Asp l ie Glu Thr 130 135 140

Leu Tyr Hi s Glu G I y Glu Glu Phe G I y Lys G I y Pro l ie l ie Met l ie 145 150 155 160 6i一6 OAV

、 o 3 05 寸 ( a> 0)

1— 」一 1— 」」く

C LO o o リ LO c

一 m _c (0

> <c < Q- 」 CD H- CO く >

o >» 〇

05 in

」一 < 」 CM D CO

LO LO C LO

_ o 0) > CO 0) a) w O

I— ― CSJ 」 O 」 < 」 CM O _ 1 _ 1 1— * CO

(0 ◦ o c

as o Q>

< < < CSi > ― D CO < C

D •J o -J Q. LO 0

(U CO

」 < CL CO

o o

0 O Π3 LO c >>

> 00 < 1— < > ( < ― < D CO 1 ~

U J LO +J LO 03 ω CO O Q) a> 寸

」 CO 」 CL 1— CsJ 」 CO <i

CM

寸 o o o

o _C 二 CO の (0 O

> Q_ 一一 CD < < C Q- > 」 CO

LO L Q.

CD 03 σ> a>

> < < e > ― 1— 」 < く

"j 〇 a) Q.

_c C _c a)

< 一 Q_ 」 CN > 」 CO Q_ 1 ~ 」

LO LO D Q. 3 LO つ

O 0 寸 to a>

> CO 」 SJ h- < ■ D CO _ 1 」

o Q< O ω o o ①

00 (0 O (0 寸 _c

<

3 c O c の o >.

Q a>

」 Q_ < CM 」 a. I— > CSJ e? 」

Q. LO -H LO

W > SJ 0) > o

の < < SJ 」」 CO !3 > > σ 〇

Pro Asn Lys Pro Se r Glu G I u G I u Ty r Gin Arg Arg Leu Arg G I u Ser

370 375 380

Tyr Thr G I y G I y Phe Va I Lys Glu Pro Glu Lys G I y Leu Trp Glu Asn 385 390 395 400 I I e Va I Tyr Leu Asp Phe Arg Ala Leu Tyr Pro Ser l ie l ie l ie Thr

405 410 415

His Asn Va I Ser Pro Asp Thr Leu Asn Leu Glu G I y Cys Lys Asn Tyr

420 425 430

Asp l ie A I a Pro Gin Va I G I y Hi s Lys Phe Cys Lys Asp l ie Pro G I y

435 440 445

Phe l ie Pro Ser Leu Leu G I y His Leu Leu Glu Glu Arg Gin Lys l ie

450 455 460

し ys Thr し ys Met Lys Glu Thr Gin Asp Pro I I e Glu Lys I I e Leu し eu 465 470 475 480 Asp Tyr Arg Gin Lys Ala l ie Lys Leu Leu A I a Asn Ser Phe Tyr G I y

485 490 495

Tyr Tyr G I y Tyr A I a Lys A I a Arg Trp Tyr Cys Lys Glu Cys Ala Glu

500 505 510

Ser Va I Thr Ala Trp G I y Ar Lys Tyr l ie Glu Leu Va I Trp Lys Glu

515 520 525

Leu Glu Glu し ys Tyr G I y Phe Lys Va I I I e Tyr Ser Asp Thr Asp G I y

530 535 540

Phe Phe Ala Thr l ie Pro G I y G I y Glu Ser Glu Glu l ie Lys Lys Lys 545 550 555 560 A I a Leu Glu Phe Va I Lys Tyr I I e Asn Ser Lys Leu Pro G I y Leu Leu

565 570 575 〇

O LO 〇 in

配列番号： 2

配列の長さ： 35

配列の型：核酸

鎖の数 ·. 1本鎖

トポロジー：直鎖状

配列の種類：他の核酸（合成 D NA)

配列

GTGGGGAGCA CCATGGTTTT AGATGTGGAT TACAT 35 配列番号：3

配列の長さ： 35

配列の型：核酸

鎖の数： 1本鎖

トポロジー：直鎖状

配列の種類：他の核酸（合成 D NA)

配列

GCATGCAGAT AGACCATTTC TAACGAAGGC GTTTG 35 配列番号： 4

配列の長さ： 66

配列の型：核酸

鎖の数： 1本鎖

トポロジー：直鎖状

配列の種類：他の核酸（合成 D NA)

配列

CTCGAAGAAA AGTATGGATT TAAAGTCATC TACAGTGACA CTGATGGTTT CTTTGCAACT ATCCCA 66 配列番号： 5 配列の長さ： 66

配列の型：核酸

鎖の数： 1本鎖

トポロジー：直鎖状

配列の種類：他の核酸（合成 DNA)

配列

TGGGATAGTT GCAAAGAAAC CATCAGTGTC ACTGTAGATG ACTTTAAATC CATACTTTTC TTCGAG 66 配列番号：6

配列の長さ： 775

配列の型：アミノ酸

配列の種類：タンパク質

配列

Met Va I Leu Asp Va I Asp Ty r l ie Thr G I u G I u G I y Lys Pro Va I l ie 1 5 10 15

Arg Leu Phe Lys Lys G I u Asn G I y Lys Phe Lys I I e G I u Hi s Asp Ar

20 25 30

Thr Phe Arg Pro Ty r I I e Ty r A I a Leu Leu Arg Asp Asp Ser Lys I I e

35 40 45 G I u Glu Va I Lys Lys l ie Thr G I y G I u Arg Hi s G I y Lys l ie Va I Arg 50 55 60

Thr Va I Tr p Lys Leu Ty r Leu Glu Hi s Pro Gin Asp Va I Pro Thr I I e

85 90 95

Arg Glu Lys Va I Arg Glu His Pro Ala Va I Va I Asp l ie Phe Glu Tyr -)Λ丄丄 e|v δΛ e | y dsy n | 5

n | g ηθ

00ε 962 062

usv n I g Λ | g

εΛη

982 OQZ LZ

n I 3 sA-] o Jd εΛη Λ | 3 ai^d 9 | | e | y n | g 」Λ丄 | ΒΛ B | y n | 3 ns 丄」Λ丄

OLZ 992 092

a I I v Λ I 0 sA-| I ΒΛ n | 9 | ΒΛ B |V 丄 |« dsy Λ | 3 s | | ^u I D ^Vi

022 1Z 01Z 51 n I 9 B I v 3 jy ^S/^1 B | V ^nal ⁰」d ^slHd dsy 9L|d jas dsy Λ | g usy Λ丄

902 002 96 [ jq丄 I e/ a I I a I I dsy dsy εΛ n 19 3 jy ³1 I ^a I I 3-<V ^nal ^aiJid 3」v

061 581 08 L

sA-| 9 | I .9W n I 9 3JV ⁿ I Ό ^J3S ^J3S I ^ΒΛ I ^ΒΛ ⁿ I D I ^ΒΛ 丄 ns， dsy 01

QLl OLl 991

3 | I a I I 3 | I Λ I 5 εΛη Λ | g aqd n | g n | 3 Λ | g n | g s！ H 丄 n9，

cm get οει g

JL|丄 n|9 a I I dsy aL|d e I V ^η3Ί ^ I I sA"| na-| n | g n | g n | 3 Λ | 3 n | 3 ^

031 9

ojd θ I I ηθ"ΐ Λ|3 εΛ dsy 91 |

Λ丄 3 εΛ B | y stjd o a | | dsy

CHI SOL 001

LV

S6t7 06t7 S8

08t^ QL OL^ S9 ηθ ηθ s | | s八， n | g a | | o dsv u | Q 丄 n | ) εΛ εΛ 丄 sA，

09 SS^ OS

S Ofrfr QGt' 八 19 ^ΟΛά ³1 I dsy ^δΛΊ ^δΛ0 ⁹Md ^δΛΊ ^s！ H 八 13 I ^ΒΛ ^u 13 ^ΟΛά ^B I V ⁹| | dsj

OS QZ OZ Ql

-(Λ丄 usv sA"| sA〇 Λ 13 n | g ns-] usy ηθ"| 丄 dsy o jag |

S I |-|

Stセ 01 SOセ

JL|丄 9 | I I I a I | j eg o 」Λ丄（13"| B | v 3 Jy ³Md dsy ηθ"| Λ丄 | e/ s | |

00 96C 06S 988 usv n I D ^dj丄 ^η3Ί ^Λ I D ^δΛΊ ⁿ I E) ^OJd ⁿ I 3 δΛ | ΒΛ 3Md 八 I E) 八 13 M丄 ·<八丄 CH

08C 9/.C ο/.ε

JSS n I 9 3 JV "^S1 v 3 jy ^U I 3 丄 ⁿ|£) n | 9 n | 9 jgg o εΛ usy o

999 098 99£

B I v I ey n|3 usy 3 ⁿ I 9 」八丄 εΛ 3 jy ⁿ9， ηΘ dj丄 n|3 | e/y

oss Q^e ot^e g na-j usy Λ I Q JL)丄 _i3s J9$ 3 jy jag | e/ dsy 丄 ns") o u 19 Λ| 3 | B/ gee οεε g^c

ns-| 3 jy -^^SS ⁿ³l ^u I 3 ³| | n | 0 ¾.9^| o ηθ SLIJ n | 9 εΛ Λ | g Π9 n | 9 02E QIC OLC QOe

OefOO/86df/I3d 006€C/86 OAV 515 520 525

Leu G I u G I u Lys Phe G I y Phe Lys Va I Leu Tyr I I e Asp Thr Asp G I y

530 535 540

Leu Tyr A I a Thr l ie Pro G I y G I y G I u Ser G I u Glu l ie Lys Lys Lys 545 550 555 560

A I a Leu Glu Phe Va I Lys Tyr I I e Asn Ser Lys Leu Pro G I y Leu Leu

565 570 575

Glu Leu Glu Tyr Glu G I y Phe Tyr Lys Arg G I y Phe Phe Va I Thr Lys

580 585 590

Lys Arg Tyr Ala Va I l ie Asp Glu Glu G I y Lys Va I l ie Thr Ar G I y

595 600 605

Leu Glu l ie Va I Arg Arg Asp Trp Ser Glu l ie Ala Lys Glu Thr Gin

610 615 620

A I a Arg Va I Leu Glu Thr l ie Leu Lys Hi s G I y Asp Va i Glu Glu A I a 625 630 635 640

Va I Arg I I e Va I Lys Glu Va I I I e Gin Lys Leu A I a Asn Tyr Glu I I e

645 650 655

Pro Pro Glu Lys Leu A I a l ie Tyr Glu Gin l ie Thr Arg Pro Leu His

660 665 670

Glu Tyr Lys Ala l ie G I y Pro Hi s Va I Ala Va I Ala Lys Lys Leu Ala

675 680 685

Ala Lys G I y Va I Lys I I e Lys Pro G I y Met Va I I I e G I y Tyr I I e Va I

690 695 700

Leu Arg G I y Asp G I y Arg l ie Arg Asp Arg A I a l ie Pro Ala Glu Glu 705 710 715 720

Tyr Asp Pro Lys Lys Hi s Lys Tyr Asp A I a Glu Tyr Tyr l ie Glu Asn 725 730 735

Gin Va I Leu Pro A I a Va I Leu Arg l ie Leu G I u G I y Phe G I y Tyr Arg

740 745 750

Lys G I u Asp Leu Arg Tyr Gin Lys Thr Arg Gin Va I G I y Leu Thr Ser

755 760 765

Tr p Leu Asn I I e し ys Lys Ser

770 775

配列番号：7

配列の長さ： 775

配列の型：アミノ酸

配列の種類：タンパク質

配列

Met Va I Leu Asp Va I Asp Tyr l ie Thr G I u Glu G I y Lys Pro Va I I I e 1 5 10 15 Arg Leu Phe Lys Lys Glu Asn G I y Lys Phe Lys I I e Glu His Asp Ar

20 25 30

Thr Phe Ar Pro \ r I I e Tyr Ala Leu Leu Ar Asp Asp Ser Lys I I e

35 40 45

Glu Glu Va I Lys Lys l ie Thr G I y Glu Ar Hi s G I y Lys l ie Va I Arg 50 55 60

I I e Va I Asp Va I Glu Lys Va I Glu Lys Lys Phe Leu G I y Lys P o I I e 65 70 75 80

Thr Va I Tr p Lys Leu Tyr Leu Glu His Pro Gin Asp Va I Pro Thr I I e

85 90 95 Arg Glu Lys Va I Arg Glu Hi s Pro Ala Va I Va I Asp l ie Phe Glu Tyr

100 105 110 Asp I I e Pro Phe Ala Lys Arg Tyr Leu I I e Asp Lys G I y Leu I I e Pro

115 120 125

Met G I u G I y Glu Glu G I u Leu Lys l ie Leu Ala Phe Asp l ie Glu Thr 130 135 140

leu Tyr His Glu G I y Glu Glu Phe G I y Lys G I y Pro l ie l ie Met l ie 145 150 155 160

Ser Tyr A I a Asp Glu Asn Glu Ala Lys Va I l ie Thr Tr p Lys Asn l ie

165 170 175

Asp Leu Pro Tyr Va I Glu Va I Va I Ser Ser Glu Arg Glu Met l ie Lys

180 185 190

Arg Phe Leu Arg l ie l ie Arg Glu Lys Asp Pro Asp l ie l ie Va I Thr

195 200 205

Tyr Asn G I y Asp Ser Phe Asp Phe Pro Tyr Leu A I a Lys Arg A I a Glu 210 215 220

Lys Leu G I y I I e Lys Leu Thr I I e G I y Arg Asp G I y Ser Glu Pro Lys 225 230 235 240

Met Gin Arg l ie G I y Asp Met Thr Ala Va I Glu Va I Lys G I y Arg l ie

245 250 255

Hi s Phe Asp Leu Tyr Hi s Va I l ie Thr Arg Thr l ie Asn Leu Pro Thr

260 265 270

Tyr Thr Leu Glu Ala Va I Tyr Glu Ala l ie Phe G I y Lys Pro Lys Glu

275 280 285

Lys Va I Tyr A I a Asp Glu l ie A I a Lys A I a Tr p Glu Ser G I y Glu Asn 290 295 300

Leu Glu Arg Va I A I a Lys Tyr Ser Met Glu Asp A I a Lys A I a Thr Tyr 305 310 315 320 929 029 919

n I 0 εΛ dj丄 | e/ na"i n | g θ| | Λ丄 δΛη S J / ^Λ I 9 ^dj丄 ^EIV ^JLI丄 I 6八 -OS Z

019 90S oog

n I g B I v SAQ n | g εΛη sAg -iA丄上 3」ν e I V sA-] e | 」八丄 Λ|3 」Λ丄 -ΐΛ丄

96^ 06^ 98fr

OQP S OL 99V 02 ηΘ na-) a | | βΛ n | g Θ | | O J,-) dsy u | g 丄 n | ξ) sA-] ^ay^ δΛ 丄 sA，

09fr SS OS

0 ャ SS

八 13 ^OJd ^s I I ds sA"i SAQ 8Hd ^δΛΊ ^S!H ^Λ I 3 I ^eA ^u I 3 ^OJd ^B I V ³ I I ^dsV 91

OZ QZV OZV

■ΙΛ丄 usy δΛ s八 o Λ | g n | g ng-j usy na-) -it)丄 dsy o j (； j jag | e/ usy S!H

01V QOfr

JL(丄 9 | I a I I 9 I I jas o 」Λ丄 Π3"| B | y 3

a | |

usv n I 9 dj丄 ns-| Λ | g sA， n | 5 o n | 9 εΛη | ΒΛ sqd ^Λ I 3 Λ | g 」リ上」Λ丄

08ε ς/.ε ο乙 ε

Jas η I ο 3 JV nsつ § jy 2 jy u | 9 丄 π|ξ) n | 0 n | Q jog o J,J sA~] usv o -<d

99ε 09ε see

B I v I e/ n I 9 usy 3 jy n | 9 -)Λ丄 e!v εΛ 3 jy ^η3Ί ^η3Ί ^SLld ^{d j} l ⁿ I E) I ^eA S

oss st^e 0セ ε

na-| usy Λ | 9 丄 JSS JSS 3 -<^SS I ^ΒΛ dsy dj丄 ns， o u | 9 Λ | 9 | e/

ςεε οεε 93ε

ns"! 3 J ^jaS ^nal ^u I 9 a I I n | 9 na") atjd n | 9 sA") Λ | 9 ηθ n | 9

0ef00/86df/XDd 006£e/86 OAV N5

ο 〇厂

> o < > 「厂 > Γ"

CD

0)

厂 —1 「

! y厂 rD > > 「

*< *< CD CO

匚

)

厂 ω ― < 一 Jl CD >

*

CJl CD 匚でgg Ar一で Ar ぐ > 「 < < > で「

― *< »<

o (> CD

—— r* 「 > < < ―

*< 一 CD *<

CD c l CD 工 ― > > 一 o 「

CD *< 一 u o

「「一 < ― C3> >

―' CO O CD CD

Ό o> ェ — < 一「 —1 一「

， CO *< en

O o (0 C o f CD

< 厂「 > <

00

コ

> 「ェ > Jl O CO 「

CD ― 一 *< CD CD CD

< < 一一

― 「厂 — 1

CD

CD C CD \<

― >一 > > > < 「

3~

o CD u) Ό ( w CD CD

「 > < 「 Oi 一 ― >

CO *<

一 O CD CD で Jl

「

—1 ― < 广

， ·< 0)

， ω o ，〇 <

Γ" — 1 Jl 「 Γ" >

CO CD CD zr 了 CD

Jl CD C CJl ， OQ CTt C

く > ェ > 「厂「

N5 fl)

O CD o 0) 3 C o O

Gin Va I Leu Pro Ala Va I Leu Arg l ie Leu G I u G I y Phe G I y Ty r Arg

740 745 750

Lys G I u Asp Leu Arg Ty r Gin Lys Thr Ar Gin Va I G I y Leu Thr Ser

755 760 765

T r p Leu Asn I I e Lys Lys Ser

770 775

配列番号： 8

配列の長さ： 49

配列の型：核酸

鎖の数： 1本鎖

トポロジー：直鎖状

配列の種類：他の核酸（合成 DNA)

配列

AGAGGCGATG GTCGAATTCG CGATAGGGCA ATTCCAGCTG AGGAATACG 49 配列番号： 9

配列の長さ： 49

配列の型：核酸

鎖の数： 1本鎖

トポロジー：直鎖状

配列の種類.他の核酸（合成 DNA)

配列

CGTATTCCTC AGGTGGAATT GCCCTATCGC GAATTCGACC ATCGCCTCT 49 配列番号： 10

配列の長さ： 40

配列の型：核酸

鎖の数： 1本鎖トポロジー：直鎖状

配列の種類：他の核酸（合成 D NA)

配列

CCAATTAGCA ATAGGGCAAT TCCAGCTGAG GAATACGATC 40 配列番号： 1 1

配列の長さ： 40

配列の型：核酸

鎖の数： 1本鎖

トポロジー：直鎖状

配列の種類：他の核酸（合成 D NA)

配列

GATCGTATTC CTCAGCTGGA ATTGCCCTAT TGCTAATTGG 40

Claims

請求の範囲

1. ゲノムデータまたは cDNA解析データが既知である生物種 aの予想される全蛋白質から、その生物種 aの任意の蛋白質の機能部位を予測する方法であつて、

(1) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致する才リゴペプチドの長さ n;

長さ nのオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも少な長さ（n+ 1 )のオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも多い；

を確定し、

(2) 機能部位予測対象の蛋白質のアミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Aj(n+ 1≤j≤L-n)とし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Ajを含む長さ（n+1 )の Ajオリゴペプチド；

a j1 a j2....Aji ..... a jn aj(n+1)( 1≤ i≤ n + 1； Aj=Ajiで

Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、長さ（n+1)の Xiオリゴペプチド；

aj1 aj2..... Xi ..... ajn aj(n+1)(Xiは任意のアミノ酸残基を示す）の出現頻度とを生物種 aの全蛋白質中で求め、

(4) Yjiの平均値 Yj;

Yj=∑Yji/n+1 (1≤i≤n+1)

を求め、

(5) Yjの関数値 ¾;

¾=f(Yj) (関数 fは単調減少関数または単調増加関数）を求め、この ¾の値をアミノ酸配列（長さ L)の j番目のアミノ酸残基の機能代表値とし、

(6) 以下、上記ステップ (2)から（5)を順次繰り返し、アミノ酸配列（長さ L)の n+1 ≤j≤L_nの位置にある全アミノ酸残基 Ajについて各々の Zj値を求める、ことによって、蛋白質の機能に対する各アミノ酸残基の責任の程度を ¾値の大きさを指標として予測すること特徴とする蛋白質の機能部位予測方法。

2. アミノ酸配列（長さ L)について、各アミノ酸残基の ¾値（n + 1≤j≤L— r>) を分布図として表示する請求項 1の方法。

3. ゲノムデータまたは cDNA解析データが既知である生物種 aの予想される全蛋白質から、その生物種 aの任意の蛋白質の機能部位を予測する方法であつて、

(2) 生物種 aの任意の蛋白質について、

(2') アミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Ajとし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Aj(n≤j≤L- n+1)を含む任意の長さ n(1≤n≤M、ただし Mは最初に以下の基準に合致するオリゴペプチドの長さ M;長さ Mのオリゴぺプチドはすべて、出現頻度 1である）の Ajオリゴペプチド； aj1 aj2....aji....ajn( 1≤ i≤ n + 1； Aj = aj ίで Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、

Ajオリゴペプチドに対応する長さ nの Xiオリゴペプチド；

aj! aj2....Xi....ajn(Xiは任意のアミノ酸残基を示す）の出現頻度とを生物種 aの全蛋白質中で求め、

(3) Ajオリゴペプチドと Χίオリゴペプチドの出現頻度の比 Yjiを求め、

(4) Yjiの平均値 YG,n);

Y0,n)=∑ Yji/n( 1≤i≤n)

を求め、

(5) Y(j,n)の関数値 ZG,n);

を求め、

(6) 以下、上記ステップ (2')から (5)を順次繰り返し、アミノ酸配列（長さし）の j番目 (n≤j≤L— n+1 )の位置にあるアミノ酸残基 Ajについて各々の Z(j,n)値を求め、

(7) 生物種 aの全蛋白質について上記ステップ (2)から (6)を順次繰り返し、アミノ酸残基の種類毎の Z(j,n)値の分布を求め、この分布に基づいて各アミノ酸 Aaに対する Z(j,n)値の平均値 Av(Aa)と標準偏差値 Sd(Aa)を求め、アミノ酸残基の種類による分布の違いを標準化する関数 g;

g=(Z(i，n), Aj)= ZG,n)— Av(Aa)} Sd(Aa) (ただし Aj = Aa)

を求め、

(8) アミノ酸配列（長さ L)の j番目（n≤j≤L— n+1 )の位置にある全アミノ酸残基 Ajについてステップ (7)で得られた関数 gの値 DG,n);

DG,n) = g(ZG,n), Aj)

を求め、

(9) アミノ酸配列（長さ L)の j番目のアミノ酸残基の機能代表値を Z(j,n)値と D(j,n) 値の関数値 Wj;

Wj = h(Za,1), Z(j，2) , Z(j,M), D(j,1), DG,2) , D(j,M))

とする、

ことによって、蛋白質の機能に対する各アミノ酸残基の責任の程度を Wj値の大きさを指標として予測すること特徴とする蛋白質の機能部位予測方法。

4. 各アミノ酸残基の Wj値を 2次元的な分布図として表示する請求項 3の方法。

5. 各アミノ酸残基の Wj値を、蛋白質の立体構造モデル上に分布図として表示する請求項 3の方法。

6. 請求項 1記載の方法を自動的に行なう装置であって、少なくとも以下の（a) から (g)の装置、

(a) ゲノムデータまたは cDN A解析データが既知である生物種 aの予想される全蛋白質のアミノ酸配列データ、および既存の蛋白質データベースを記憶する外部記憶装置、

(b) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を計算する CPUと、その計算結果を記憶する記憶装置とからなる計算記憶装置、

(c) 装置 (b)に出現頻度が記憶された各オリゴペプチドの中から、最初に以下の基準に合致するオリゴペプチドの長さ n;

長さ πのオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも少なく、長さ（n+ 1 )のオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも多い；

を計算する CPUと、 nを記憶する記憶装置とからなる計算 Z記憶装置、

(d) 機能部位予測対象の蛋白質のアミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Aj(n+1≤j≤L_r>)とし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Ajを含む長さ（n+1)の Ajオリゴペプチド；

a j1 a j2..... Aji..a jn a j(n + 1 ) ( 1≤ i≤ n + 1 ; Aj = Aj i"C

Ajはこのオリゴペプチドの i番目の残基を示す）の出現頻度と、長さ（n+1 )の Xiオリゴペプチド；

aj1 aj2..... Xi ....a jn a j(n + 1 )(Xiは任意のアミノ酸残基を示す）の出現頻度とをこの生物種の全蛋白質中で求める CPUと、その計算結果を記憶する記憶装置とからなる計算記憶装置、

(e) Ajオリゴペプチドと Xiオリゴペプチドの出現頻度の比 Yjiを求める CPUと、 Yji を記憶する記憶装置とからなる計算記憶装置、

(f) Yjiの平均値 Yj;

Yj=∑Yji/n+1 (1≤i≤n+1)

を求める CPUと、 Yjを記憶する記憶装置とからなる計算記憶装置、

(g) Yjの関数値 Zj;

=f(Yj) (関数 fは単調減少関数または単調増加関数）

を求める CPUと、 Zjを記憶する記憶装置とからなる計算記憶装置、

を備えていることを特徴とする蛋白質の機能部位予測装置。 7. アミノ酸配列（長さ L)について、各アミノ酸残基の Zj値（n+1≤j≤L— n) を分布図として表示するディスプレー装置を備えた請求項 6の装置。

8. 請求項 3記載の方法を自動的に行なう装置であって、少なくとも以下の (a) から (i)の装置、

(b) この生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を計算する CPUと、その計算結果を記憶する記憶装置とからなる計算記憶装置、 (c) この生物種 aの任意の蛋白質について、アミノ酸配列（長さ L)の N末端から j番目アミノ酸残基をとし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Aj(n≤j≤L— n+1 )を含む任意の長さ n(1≤n≤M、ただし Mは最初に以下の基準に合致するオリゴペプチドの長さ M;長さ Mのオリゴペプチドはすべて、出現頻度 1である）の Ajオリゴペプチド；

aj1 aj2....aji....ajn( 1≤i≤n+ 1； Aj = aj iで Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、

Ajオリゴペプチドに対応する長さ nの Xiオリゴペプチド；

aj1 aj2....Xi....ajn(Xiは任意のアミノ酸残基を示す）

(d) Ajオリゴペプチドと Xiオリゴペプチドの出現頻度の比 Yjiを求める CPUと、 Yji を記憶する記憶装置とからなる計算記憶装置、

(e) Yjiの平均値 Y(j,n);

Y(j,n)=∑ YjiZn(1≤i≤n)

を求める CPUと、 Y(j,n)を記憶する記憶装置とからなる計算記憶装置、

(f) Y(j，n)の関数値 ZG,n);

Z(j,n) = - log(Y(j，n))

を求める CPUと、 ZG,n)を記憶する記憶装置とからなる計算記憶装置、

(g) 生物種 aの全蛋白質のアミン酸配列について、各アミノ酸残基の ZG,n) を求め、アミノ酸残基の種類毎の Z(j,n)値の分布を求め、この分布に基づいて各ァミノ酸 Aaに対する Z(j,n)値の平均値 Av(Aa)と標準偏差値 Sd( Aa)を求め、アミノ酸残基の種類による分布の違いを標準化する関数 g;

Aj) =に (j,n)— Av(Aa)}ZSd(Aa) (ただし Aj=Aa)

を求める CPUと、 gを記憶する計算装置とからなる計算記憶装置、 (h) アミノ酸配列（長さ L)の j番目（n≤j≤L—n + 1 )の位置にある全アミノ酸残基 Ajについて、装置 (g)に記憶された関数 gの値 D(j,n);

DO.n) =g(ZG,n), Aj)

を求める CPUと、 D(j,n)値を記憶する記憶装置とからなる計算ノ記憶装置、

(i) アミノ酸配列について、各アミノ酸残基の Z(j,n)値 gと D(j,n)値の任意の関数値 Wj;

Wj = h(ZG,1), ZG.2) , ..., ΖΟ,Μ), D(j,1)， DG.2) , ..., D(j,M))

を求める計算装置と、 Wj値を記憶する記憶装置とからなる計算記憶装置、を備えていることを特徴とする蛋白質の機能部位予測装置。

9. アミノ酸配列について、各アミノ酸残基の Wj値を 2次元的な分布図として表示するディスプレー装置を備えている請求項 8の装置。

10. 既存の蛋白質立体構造データベースを記憶し、または公知の方法に従つてアミノ酸配列から立体構造モデルを作成し記憶する計算記憶装置と、アミノ酸配列について、各アミノ酸残基の Wj値を上記計算記憶装置に記憶されている立体構造データベースまたは立体構造モデル上に分布図として表示するディスプレ一装置を備えた請求項 8の装置。

11. ゲノムデータまたは cDNA解析データが既知である生物種 aの全蛋白質から、機能が既知である蛋白質 Aの機能を改良する方法であって、

(2) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さ n; 長さ nのオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよリも少な長さ（n+1)のオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも多い；

を確定し、

(3) 蛋白質 Aのアミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Aj(n+1≤ 】≤!_ー。）とし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Ajを含む長さ（n+1 )の Ajオリゴペプチド；

a j1 a j2....Aji....a jn a j(n+1)( 1≤ Ί≤ n + 1； Aj = Ajiで

Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、長さ（n+1)の Xiオリゴペプチド；

aj1 aj2....Xi....ajn aj(n+1)(Xiは任意のアミノ酸残基を示す）

の出現頻度とを生物種 aの全蛋白質中で求め、

(5) Yjiの平均値 Yj;

Yj=∑Yji/n+1 (1≤i≤n+1)

を求め、

(6) Yjの関数値 Zj;

¾=f(Yj) (関数 fは単調減少関数または単調増加関数）

(7) ステップ (3)から (6)を順次繰り返し、アミノ酸配列（長さ L)の（n+1≤j≤L— n の位置にある全アミノ酸残基について各々の Zj値を求め、

(8) 蛋白質 Aのアミノ酸配列（長さ L)について、ステップ (1)で行なったァラインメン卜のデータをもとに変異させるアミノ酸残基を 1種以上選択し、それらのアミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から (6)を順次繰り返し、変異アミノ酸残基の Zj値を求め、

(9) ステップ (8)で求めた変異アミノ酸残基の Zj値が、ステップ (7)で求めた元のアミノ酸残基の ¾値より大きいか小さい変異型アミノ酸配列を選択し、

(10) このアミノ酸配列をコードする蛋白質 Aの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する、

ことを特徴とする蛋白質の機能改良方法。

12. ゲノムデータまたは cDNA解析データが未知である生物種 bの蛋白質 B の機能を改良する方法であって、

(1) ゲノムデータまたは cDNA解析データが既知である生物種 aの全蛋白質から、蛋白質 Bと最も近縁の蛋白質 Aを抽出してアラインメントを行ない、また蛋白質 Bと近縁の蛋白質を既存の蛋白質データベースから抽出してアラインメントを行い、 (2) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、最初に以下の基準に合致するオリゴペプチドの長さ n;

長さ nのオリゴぺプチドのうち、出現頻度 1のものが出現頻度 2のものよりも少な長さ（n+1 )のオリゴペプチドのうち、出現頻度 1のものが出現頻度 2のものよりも多い；

を確定し、

(3) 蛋白質 Aのアミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Aj(n+1≤ j≤L— n)とし、この蛋白質のアミノ酸配列の部分配列で j番目のアミノ酸残基 Ajを含む長さ（n+1)の Ajオリゴペプチド；

a j1 a j2....Aji....a jn a j(n + 1)( 1≤ i≤ n + 1 ; Aj = Aji"

Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、長さ（n+1)の Xiオリゴペプチド；

aj1 aj2....Xi....ajn aj(n+1)(Xiは任意のアミノ酸残基を示す）の出現頻度とを生物種 aの全蛋白質中で求め、

(5) Yjiの平均値 Yj;

Yj=∑ YjiZn+ 1 ( 1≤ί≤η+ 1 )

を求め、

(6) Yjの関数値 Zj;

¾=f(Yj) (関数 fは単調減少関数または単調増加関数）

(7) ステップ (3)から (6)を順次繰り返し、アミノ酸配列（長さ L)の（n+1≤j≤L— n の位置にある全アミノ酸残基について各々の ¾値を求め、

(8) 蛋白質 Aのアミノ酸配列（長さ L)について、ステップ (1)で行なったァラインメン卜のデータをもとに変異させるアミノ酸残基を 1種以上選択し、それらのアミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から（6)を順次繰り返し、変異アミノ酸残基の Zj値を求め、

(9) ステップ (8)で求めた変異アミノ酸残基の Zj値が、ステップ (7)で求めた元のアミノ酸残基の ¾値より大きいか小さい変異位置と変異アミノ酸残基を選択し、

(10) この位置でこの変異アミノ酸残基を実現する蛋白質 Bの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する、

ことを特徴とする蛋白質の機能改良方法。

13. ゲノムデータまたは cDNA解析データが既知である生物種 aの全蛋白質から、機能が既知である蛋白質 Aの機能を改良する方法であって、

(1) 蛋白質 Aと近縁の蛋白質を既存の蛋白質データベースから抽出してァラインメントを行い、 (2) 生物種 aの全蛋白質のアミノ酸配列について、各アミノ酸残基の出現頻度および各アミノ酸残基を組み合わせて順に長さを長くした各オリゴペプチドの出現頻度を求め、

(3) 蛋白質 Aについて、

(3') アミノ酸配列（長さ L)の N末端から j番目アミノ酸残基を Ajとし、この蛋白質のァミノ酸配列の部分配列で』番目のァミノ酸残基^ ( 0≤_|≤1_—。+1)を含む任意の長さ n(1≤n≤M、ただし Mは最初に以下の基準に合致するオリゴペプチドの長さ M;長さ Mのオリゴペプチドはすべて、出現頻度 1である）の Aj才リゴペプチド； aj1 aj2....aji....ajn( 1≤i≤n+ 1； Aj = ajiで Ajはこのオリゴペプチドの i番目の残基を示す）

の出現頻度と、

Ajオリゴペプチドに対応する長さ nの Xiオリゴペプチド；

aj1 aj2....Xi....ajn(Xiは任意のアミノ酸残基を示す）

の出現頻度とを生物種 aの全蛋白質中で求め、

(5) Yjiの平均値 YG,n);

YG,n)=∑ YjiZn(1≤ί≤η)

を求め、

(6) YG,n)の関数値 Z(j,n);

ZG,n) = -log(YG,n))

を求め、

(7) 以下、上記ステップ (3')から (6)を順次繰り返し、アミノ酸配列（長さ L)の j番目 (n≤j≤L— n+1 )の位置にあるアミノ酸残基 Ajについて各々の Z(j,n)値を求め、

(8) 生物種 aの全蛋白質について上記ステップ (2)から (6)を順次繰り返し、アミノ酸残基の種類毎の Z(j,n)値の分布を求め、この分布に基づいて各アミノ酸 Aaに対する Z(j,n)値の平均値 Av(Aa)と標準偏差値 Sd(Aa)を求め、アミノ酸残基の種類による分布の違いを標準化する関数 g;

g=(ZG,n), Aj) = {ZG,n)-Av(Aa)}/'Sd(Aa) (ただし Aj=Aa)

を求め、

(9) アミノ酸配列（長さ L)の j番目（n≤j≤L— n+1)の位置にある全アミノ酸残基 Ajについてステップ (7)で得られた関数 gの値 D(j，n);

D(j,n) = g(Z(j,n), Aj)

を求め、

(10) アミノ酸配列（長さ L)の j番目のアミノ酸残基の機能代表値を Z(j,n)値と D (j，n)値の関数値 Wj;

Wj = h(Za,D, ZG.2), ..., ΖΟ,Μ), D(j,D, D(j,2)， ·..， D(j，M))

とし、

(11) ステップ (3)から（10)を順次繰り返し、アミノ酸配列（長さ L)の（n+1≤j≤L— nの位置にある全アミノ酸残基について各々の Wj値を求め、

(12) 蛋白質 Aのアミノ酸配列（長さ L)について、ステップ（1)で行なったァラインメントのデータをもとに変異させるアミノ酸残基を 1種以上選択し、それらのアミノ酸残基が別のアミノ酸残基に変異した種々の変異型アミノ酸配列における変異アミノ酸残基についてステップ (3)から（10)を順次繰り返し、変異アミノ酸残基の Wj値を求め、

(13) ステップ（12)で求めた変異アミノ酸残基の Wj値が、ステップ (10)で求めた元のアミノ酸残基の Wj値より大きいか小さい変異型アミノ酸配列を選択し、

(14) このアミノ酸配列をコードする蛋白質 Aの改変型遺伝子を作成し、この遺伝子の発現産物として改良型蛋白質を作成する、

ことを特徴とする蛋白質の機能改良方法。 14. 1本鎖 DNAに相補的な DNA鎖の合成を触媒するに際して合成 DNA鎖の伸長を途中で停止させることのないように Pfu DNA合成酵素のアミノ酸配列を人為的に改変したことを特徴とする耐熱性 DNA合成酵素。

15. 配列番号 1のアミノ酸配列からなる請求項 14の耐熱性 DNA合成酵素。

16. 1本鎖 DNAに相補的な DNA鎖の合成を触媒するに際して合成 DNA鎖がより長く伸長するように RfuDNA合成酵素のアミノ酸配列を人為的に改変したことを特徴とする耐熱性 DNA合成酵素。

17. 配列番号 6のアミノ酸配列からなる請求項 16の DNA合成酵素 <

18. 配列番号 7のアミノ酸配列からなる請求項 16の DNA合成酵素 (

19. 配列番号 1のアミノ酸配列をコードする DNA配列。

20. 配列番号 6のアミノ酸配列をコードする DNA配列。

21. 配列番号 7のアミノ酸配列をコードする DNA配列。

22. 請求項 19の DNA配列を含む組換え体ベクター。

23. 大腸菌 HMS 174(DE 3)/p DP 320(FERM P-16052)が保有する組換え体プラスミド p DP 320である請求項 22の組換え体ベクター。

24. 請求項 20の DNA配列を含む組換え体べクタ一。

25. 大腸菌 HMS 174(DE 3)/p DP 5b17(FERM BP- 6189)が保有する組換え体プラスミド pDP 5b17である請求項 24の組換え体べクタ一。

26. 請求項 23の DNA配列を含む組換え体べクタ一。

27. 大腸菌 HMS 174(DE 3)/p DP 5C4(FIRM BP- 6190)が保有する組換え体プラスミド pDP 5C4である請求項 26の組換え体べクタ一。

28. 請求項 19の DNA配列を含む発現ベクターにより形質転換した細胞を培養し、培地中に産生された目的酵素を単離'精製することを特徴とする耐熱性 DN0 A合成酵素の製造方法。

29. 請求項 20または 21の DNA配列を含む発現ベクターにより形質転換した細胞を培養し、培地中に産生された目的酵素を単離 ·精製することを特徴とする D NA合成酵素の製造方法。