[go: up one dir, main page]

JP5419145B2 - Aptamer classification device, aptamer classification method, program, and recording medium - Google Patents

Aptamer classification device, aptamer classification method, program, and recording medium Download PDF

Info

Publication number
JP5419145B2
JP5419145B2 JP2009173011A JP2009173011A JP5419145B2 JP 5419145 B2 JP5419145 B2 JP 5419145B2 JP 2009173011 A JP2009173011 A JP 2009173011A JP 2009173011 A JP2009173011 A JP 2009173011A JP 5419145 B2 JP5419145 B2 JP 5419145B2
Authority
JP
Japan
Prior art keywords
aptamer
cluster
classification
clusters
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009173011A
Other languages
Japanese (ja)
Other versions
JP2011024473A (en
Inventor
穣 秋冨
信太郎 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2009173011A priority Critical patent/JP5419145B2/en
Publication of JP2011024473A publication Critical patent/JP2011024473A/en
Application granted granted Critical
Publication of JP5419145B2 publication Critical patent/JP5419145B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、アプタマー分類装置、アプタマー分類方法、プログラムおよび記録媒体に関する。   The present invention relates to an aptamer classification device, an aptamer classification method, a program, and a recording medium.

アプタマーは、標的物質に特異的に結合する核酸リガンドである。アプタマーは、1990年に、GOLDらによって初めてその概念が報告された(特許文献1、非特許文献1)。アプタマーは、医薬品およびセンサへの応用が期待されており、例えば、アプタマー医薬として、血管新生型加齢黄斑変性症(AMD)の治療薬であるペガプタニブ・ナトリウム注射剤が開発され実用化されている。   Aptamers are nucleic acid ligands that specifically bind to a target substance. The concept of aptamers was first reported in 1990 by GOLD et al. (Patent Document 1, Non-Patent Document 1). Aptamers are expected to be applied to pharmaceuticals and sensors. For example, pegaptanib sodium injection, which is a therapeutic agent for angiogenic age-related macular degeneration (AMD), has been developed and put to practical use as an aptamer drug. .

変異の蓄積によって配列の多様性を獲得した天然の核酸分子を分類するためには、既知の核酸配列から何らかのデータを学習させた判別機械による核酸配列分類方法が有効である。   In order to classify natural nucleic acid molecules that have acquired sequence diversity by accumulating mutations, a nucleic acid sequence classification method using a discriminating machine that has learned some data from known nucleic acid sequences is effective.

特許第2763958号Japanese Patent No. 2763958

Science.(1990)249,505−510.Science. (1990) 249, 505-510.

しかしながら、以下に述べるように、人工的に多様な配列が合成されたアプタマーの場合、前述の一般的な核酸配列分類方法は使用できない。第1には、アプタマーの機能は、配列の一部分のみで実現される場合が多いため、塩基配列の全体的な類似性を基準とする核酸配列分類方法によっては、標的分子との結合様式等の機能に一致する高精度の分類は困難なためである。第2には、分類するアプタマーが多数の場合、メモリ容量、計算時間等の分類時の計算コストが、著しく増大するからである。また、第3には、核酸配列分類方法をアプタマー分類に適用した場合、アプタマーの機能に重要な領域が絞り込みきれず、アプタマー配列中の重要な領域が、分類後も明確にならないからである。   However, as described below, in the case of an aptamer in which various sequences are artificially synthesized, the above-described general nucleic acid sequence classification method cannot be used. First, since aptamer functions are often realized by only a part of the sequence, depending on the nucleic acid sequence classification method based on the overall similarity of the base sequence, the binding mode with the target molecule, etc. This is because it is difficult to classify highly accurately according to the function. Second, when there are a large number of aptamers to be classified, the calculation cost at the time of classification such as memory capacity and calculation time is remarkably increased. Third, when the nucleic acid sequence classification method is applied to aptamer classification, regions important for aptamer function cannot be narrowed down, and important regions in aptamer sequences are not clarified after classification.

そこで、本発明は、高精度にアプタマーを分類し、アプタマーの重要な特徴を絞り込み、多数のアプタマーを低コストで分類することが可能なアプタマー分類装置、アプタマー分類方法、プログラムおよび記録媒体を提供することを目的とする。   Therefore, the present invention provides an aptamer classification device, an aptamer classification method, a program, and a recording medium that can classify aptamers with high accuracy, narrow down important features of aptamers, and classify a large number of aptamers at low cost. For the purpose.

前記目的を達成するために、本発明のアプタマー分類装置は、
アプタマー配列を入力する入力手段と、アプタマー配列の特徴を抽出する特徴抽出手段と、アプタマー配列を分類する配列分類手段と、アプタマー配列の分類結果を出力する出力手段とを備え、
前記特徴抽出手段は、下記(A)のクラスター形成工程を実行し、
(A)予め設定された特徴抽出方法によって前記入力手段によって入力されたアプタマー配列の特徴を抽出し、前記特徴毎にアプタマー配列のクラスターを複数形成するクラスター形成工程
前記配列分類手段は、下記(B)のクラスター統合工程および(C)のアプタマー配列分類工程を実行し、
(B)前記特徴の類似度が最も高い前記クラスター間の類似度を算出し、
前記類似度が最も高いクラスター同士を一つのクラスターに統合し、
統合された一つのクラスターにおいて、共通する特徴をそのクラスターの特徴とすると共に、他の特徴は削除するクラスター統合工程
(C)前記(B)工程で統合されたクラスターを一つのアプタマー配列と見做し、前記工程(B)を繰り返し実行し、予め設定した終了条件を満たした場合、前記工程(B)を終了し、得られたクラスターのアプタマー配列および前記アプタマー配列の特徴を決定するアプタマー配列分類工程
前記出力手段は、前記(B)工程で決定されたアプタマー配列および前記アプタマー配列の特徴を出力する、
ことを特徴とする。
In order to achieve the above object, the aptamer classification device of the present invention comprises:
An input means for inputting the aptamer sequence, a feature extraction means for extracting the feature of the aptamer sequence, a sequence classification means for classifying the aptamer sequence, and an output means for outputting the classification result of the aptamer sequence,
The feature extraction means executes the cluster formation step (A) below,
(A) Cluster formation step of extracting features of aptamer sequences inputted by the input means by a preset feature extraction method, and forming a plurality of clusters of aptamer sequences for each feature. ) Cluster integration step and (C) aptamer sequence classification step,
(B) calculating the similarity between the clusters with the highest similarity of the features;
Merge the clusters with the highest similarity into one cluster,
In one integrated cluster, a common feature is a feature of the cluster, and other features are deleted. Cluster integration step (C) The cluster integrated in the step (B) is regarded as one aptamer sequence. Then, when the step (B) is repeatedly executed and a preset termination condition is satisfied, the step (B) is terminated and the aptamer sequence of the obtained cluster and the aptamer sequence classification for determining the characteristics of the aptamer sequence are determined. Step The output means outputs the aptamer sequence determined in the step (B) and the characteristics of the aptamer sequence.
It is characterized by that.

また、本発明のアプタマー分類方法は、
下記(A)工程、(B)工程および(C)工程を含むことを特徴とする。
(A)予め設定された特徴抽出方法によって、入力されたアプタマー配列の特徴を抽出し、前記特徴毎にアプタマー配列のクラスターを複数形成するクラスター形成工程
(B)前記特徴の類似度が最も高い前記クラスター間の類似度を算出し、
前記類似度が最も高いクラスター同士を一つのクラスターに統合し、
統合された一つのクラスターにおいて、共通する特徴をそのクラスターの特徴とすると共に、他の特徴は削除するクラスター統合工程
(C)前記(B)工程で統合されたクラスターを一つのアプタマー配列と見做し、前記工程(B)を繰り返し実行し、予め設定した終了条件を満たした場合、前記工程(B)を終了し、得られたクラスターのアプタマー配列および前記アプタマー配列の特徴を決定するアプタマー配列分類工程
Moreover, the aptamer classification method of the present invention includes:
It includes the following steps (A), (B) and (C).
(A) A cluster forming step of extracting features of the input aptamer sequence by a preset feature extraction method, and forming a plurality of clusters of aptamer sequences for each feature (B) The feature similarity is highest Calculate the similarity between clusters,
Merge the clusters with the highest similarity into one cluster,
In one integrated cluster, a common feature is a feature of the cluster, and other features are deleted. Cluster integration step (C) The cluster integrated in the step (B) is regarded as one aptamer sequence. Then, when the step (B) is repeatedly executed and a preset termination condition is satisfied, the step (B) is terminated and the aptamer sequence of the obtained cluster and the aptamer sequence classification for determining the characteristics of the aptamer sequence are determined. Process

また、本発明のプログラムは、
前記本発明のアプタマー分類方法を、アプタマー分類装置に実行させることを特徴とする。
The program of the present invention is
The aptamer classification method of the present invention is executed by an aptamer classification apparatus.

また、本発明の記録媒体は、
前記本発明のプログラムを記録していることを特徴とする。
The recording medium of the present invention is
The program of the present invention is recorded.

本発明によれば、高精度にアプタマーを分類し、アプタマーの重要な特徴を絞り込み、多数のアプタマーを低コストで分類することが可能なアプタマー分類装置、アプタマー分類方法、プログラムおよび記録媒体を提供することができる。   According to the present invention, an aptamer classification device, an aptamer classification method, a program, and a recording medium that can classify aptamers with high accuracy, narrow down important features of aptamers, and classify a large number of aptamers at low cost are provided. be able to.

図1は、本発明のアプタマー分類装置の実施形態を示すブロック図である。FIG. 1 is a block diagram showing an embodiment of an aptamer classification device of the present invention. 図2は、本発明のアプタマー分類方法およびアプタマー分類プログラムの実施形態を示すフローチャートである。FIG. 2 is a flowchart showing an embodiment of the aptamer classification method and aptamer classification program of the present invention. 図3は、本発明のアプタマー分類方法およびアプタマー分類プログラムの実施形態を示すフローチャートである。FIG. 3 is a flowchart showing an embodiment of the aptamer classification method and aptamer classification program of the present invention. 図4は、本発明のアプタマー分類装置の実施形態を示すブロック図である。FIG. 4 is a block diagram showing an embodiment of the aptamer classification device of the present invention. 図5は、本発明のアプタマー分類方法およびアプタマー分類プログラムの実施形態を示すフローチャートである。FIG. 5 is a flowchart showing an embodiment of the aptamer classification method and aptamer classification program of the present invention. 図6は、本発明のアプタマー分類方法およびアプタマー分類プログラムの実施形態を説明するための図である。FIG. 6 is a diagram for explaining an embodiment of the aptamer classification method and the aptamer classification program of the present invention. 図7は、本発明のアプタマー分類方法およびアプタマー分類プログラムの実施例を示すフローチャートである。FIG. 7 is a flowchart showing an embodiment of the aptamer classification method and aptamer classification program of the present invention. 図8は、本発明のアプタマー分類方法およびアプタマー分類プログラムの実施例において、アプタマー配列分類の過程で形成されるクラスター数と、そのときのクラスター間のハミング距離の平均を示すグラフである。FIG. 8 is a graph showing the number of clusters formed in the process of aptamer sequence classification and the average hamming distance between the clusters in the aptamer classification method and aptamer classification program of the present invention. 図9は、本発明のアプタマー分類方法およびアプタマー分類プログラムの実施例において、クラスター数とアプタマー配列の分類能の評価結果との関係、および、クラスター数とクラスター間のハミング距離の平均との関係を示すグラフである。FIG. 9 shows the relationship between the number of clusters and the evaluation results of the ability to classify aptamer sequences, and the relationship between the number of clusters and the average of the Hamming distance between clusters in the examples of the aptamer classification method and the aptamer classification program of the present invention. It is a graph to show.

以下、図面を参照しながら本発明のさらに具体的な実施形態について説明する。ただし、本発明は、以下の実施形態に限定されない。   Hereinafter, more specific embodiments of the present invention will be described with reference to the drawings. However, the present invention is not limited to the following embodiments.

[実施形態1]
図1(a)に、本実施形態のアプタマー分類装置の一例の構成を示す。図示のとおり、このアプタマー分類装置10は、入力手段11と特徴抽出手段12と配列分類手段13と出力手段14とを備える。前記特徴抽出手段12と前記配列分類手段13とは、例えば同図に示すように、ハードウェアであるデータ処理装置15に組み込まれていてもよい。データ処理装置15は、例えば、CPU等を備えていてもよい。
[Embodiment 1]
FIG. 1A shows a configuration of an example of an aptamer classification device according to this embodiment. As shown in the figure, the aptamer classification device 10 includes an input unit 11, a feature extraction unit 12, a sequence classification unit 13, and an output unit 14. The feature extraction unit 12 and the array classification unit 13 may be incorporated in a data processing device 15 that is hardware as shown in FIG. The data processing device 15 may include a CPU, for example.

前記入力手段11は、前記特徴抽出手段12に電気的に接続されている。前記特徴抽出手段12は、前記配列分類手段13に電気的に接続されている。前記配列分類手段13は、前記出力手段14に電気的に接続されている。   The input means 11 is electrically connected to the feature extraction means 12. The feature extraction unit 12 is electrically connected to the array classification unit 13. The array classification unit 13 is electrically connected to the output unit 14.

前記入力手段11は、前記特徴抽出手段12にアプタマー配列を入力する手段である。前記入力手段11は、その他の点では特に制限されないが、例えば、キーボード、マウス等のコンピュータに備わる通常の入力装置、入力ファイル、および他のコンピュータ等を用いることができる。また、前記入力手段11は、例えば、図1(b)に示すように、データベースに格納されたアプタマー配列を読み出す手段であってもよい。この場合、例えば、同図に示すように、予めサーバ16に格納されたアプタマー配列が、回線網17を通じて、前記入力手段11に呼び出される。また、前記入力手段11は、例えば、同図に示すように、通信インターフェース111を含んでいてもよい。   The input means 11 is a means for inputting an aptamer sequence to the feature extraction means 12. The input means 11 is not particularly limited in other respects, and for example, a normal input device, an input file, and another computer provided in a computer such as a keyboard and a mouse can be used. Further, the input means 11 may be means for reading an aptamer sequence stored in a database, for example, as shown in FIG. In this case, for example, as shown in the figure, the aptamer sequence stored in the server 16 in advance is called to the input means 11 through the network 17. The input means 11 may include a communication interface 111 as shown in FIG.

前記特徴抽出手段12は、分類するアプタマー配列の情報を取り出す。前記特徴抽出手段12は、前記アプタマー配列の特徴を抽出して関連付ける。この際に抽出される特徴は、特に制限されないが、例えば、塩基配列の並び方、出現頻度、推定二次構造、各塩基の含有率、連続する塩基の出現頻度等があげられる。前記特徴を抽出する方法は、特に制限されず、従来公知の方法によって行うことができる。例えば、既存の核酸配列解析ソフトウェア、二次構造予測ソフトウェアを使用する方法等があげられる。   The feature extraction unit 12 extracts information on aptamer sequences to be classified. The feature extraction means 12 extracts and associates the features of the aptamer sequence. The characteristics extracted at this time are not particularly limited, and examples thereof include the arrangement of base sequences, the appearance frequency, the estimated secondary structure, the content of each base, the appearance frequency of consecutive bases, and the like. The method for extracting the feature is not particularly limited, and can be performed by a conventionally known method. Examples thereof include a method using existing nucleic acid sequence analysis software and secondary structure prediction software.

前記特徴抽出手段12が、前記特徴に基づいて形成する、アプタマー配列のクラスター(初期クラスター)は、特に制限されないが、例えば、前記アプタマー配列のうち、全ての特徴が一致するアプタマー集団をクラスターとしてもよい。   The cluster (initial cluster) of aptamer sequences formed by the feature extraction unit 12 based on the features is not particularly limited. For example, an aptamer group in which all the features of the aptamer sequences match can be used as a cluster. Good.

前記配列分類手段13は、前記特徴抽出手段12から、前記初期クラスターの情報を取り出す。次に、それぞれのクラスター間で類似度を決定する。類似度は抽出された特徴を用いて決定されればよく、特に制限されないが、例えば、二つのクラスター間で共通する特徴の個数、それぞれのクラスターが元々持っていた特徴の総数に対する共通する特徴の総数の割合等があげられる。また、この際にクラスター間の分離度も合わせて決定してもよい。分離度とは、クラスターがどの程度分類できているかを表す指標であり、最もよく分類されているときに分離度が最高になる。分離度は、特に制限されないが、例えば、クラスター間の特徴の距離の平均、特徴の相関の平均等があげられる。前記特徴の距離は、特に制限されないが、例えば、ハミング距離、マンハッタン距離、レーベンシュタイン距離、ユークリッド距離等があげられる。前記平均は、特に制限されないが、例えば、重みをかけたものの平均、重みをかけずに均一に扱ったものの平均等があげられる。前記重みをかけたものの平均は、特に制限されないが、例えば、クラスターに含まれる配列数の重みをかけたものの平均、配列ごとの結合力の強さの重みをかけたものの平均等があげられる。類似度と分離度が決定されると、クラスター間の類似度が最も高い組を、共通した特徴のみを新たな特徴として引き継ぐ新たなクラスターとしてまとめる。この際、クラスター間で共通していなかった特徴は削除される。前記削除とは、前記クラスター間において、前記特徴は無いものとみなすことをいう。新たなクラスターが形成されると、再びクラスター間の類似度決定の手順に戻り、同様の手順を繰り返す。これは、クラスター間で共通の特徴が無くなるまで繰り返される。繰り返しが終わると、最後に配列の分類結果が出力手段14に出力される。この際に出力される分類結果は、ユーザーが入力する条件に従う。ユーザーが入力する条件には、分離度が最大であるときの分類結果や、クラスター数が一定数以下になったときの分類結果や、クラスターの類似度が一定以下になったときの分類結果などが挙げられる。   The array classification unit 13 extracts information on the initial cluster from the feature extraction unit 12. Next, the similarity is determined between each cluster. The similarity may be determined using the extracted features, and is not particularly limited. For example, the number of features common to two clusters, the number of features common to the total number of features that each cluster originally had, The ratio of the total number is given. At this time, the degree of separation between clusters may also be determined. The degree of separation is an index indicating how well the cluster is classified, and the degree of separation is the highest when the classification is the best. The degree of separation is not particularly limited, and examples thereof include an average of feature distances between clusters and an average of feature correlations. The distance of the feature is not particularly limited, and examples thereof include a Hamming distance, a Manhattan distance, a Levenstein distance, and an Euclidean distance. The average is not particularly limited, and examples thereof include an average of weighted items, an average of uniformly treated items without applying weights, and the like. The average of the weights is not particularly limited, and examples thereof include an average of weights of the number of sequences included in the cluster, an average of weights of the strength of binding force for each sequence, and the like. When the degree of similarity and the degree of separation are determined, the group having the highest degree of similarity between clusters is collected as a new cluster in which only common features are inherited as new features. At this time, features that are not common between clusters are deleted. The term “deletion” means that the feature is not considered between the clusters. When a new cluster is formed, the procedure returns again to the similarity determination procedure between clusters, and the same procedure is repeated. This is repeated until there is no common feature between the clusters. When the repetition is completed, the array classification result is finally output to the output unit 14. The classification result output at this time follows the conditions input by the user. Conditions entered by the user include classification results when the degree of separation is maximum, classification results when the number of clusters falls below a certain number, classification results when the degree of cluster similarity falls below a certain level, etc. Is mentioned.

前記配列分類手段13としては、前記特徴に基づいて前記クラスター相互の類似度を決定し、前記類似度が最も高いクラスター間に共通の特徴を決定し、前記共通の特徴に基づきクラスターを再形成する手段であればよい。前記配列分類手段13は、その他の点では特に制限されないが、例えば、中央演算処理回路(CPU)を備えていてもよいし、プログラム制御により動作してもよい。なお、本実施形態のアプタマー分類装置が、例えば、操作部、表示部、メモリ等を備える場合には、前記配列分類手段13は、例えば、これらの部材と電気的に接続されていてもよい。   The sequence classification means 13 determines the similarity between the clusters based on the features, determines a common feature among the clusters having the highest similarity, and reshapes the cluster based on the common features. Any means may be used. The array classification unit 13 is not particularly limited in other respects, but may include, for example, a central processing circuit (CPU) or may be operated by program control. In addition, when the aptamer classification apparatus of this embodiment is provided with an operation part, a display part, a memory, etc., the said arrangement | sequence classification means 13 may be electrically connected with these members, for example.

前記配列分類手段13が、前記特徴に基づいて決定する、前記クラスター相互の類似度は、クラスター相互の類似の程度を表す指標であって、抽出された特徴を用いて決定されていればよい。前記配列分類手段13は、特に制限されないが、例えば、二つのクラスターに共通する特徴の個数、各クラスターの有する特徴の総数に対する共通する特徴の割合等があげられる。   The similarity between clusters determined by the sequence classification unit 13 based on the features is an index representing the degree of similarity between clusters, and may be determined using the extracted features. The arrangement classification means 13 is not particularly limited, and examples thereof include the number of features common to two clusters, the ratio of common features to the total number of features of each cluster, and the like.

前記配列分類手段13は、前記共通の特徴に基づいて、アプタマー配列のクラスターを再形成する。前記アプタマー配列のクラスターは、特に制限されないが、例えば、前記クラスターのうち、前記共通の特徴の全てが一致するクラスター集団を、新たなクラスターとしてもよい。前記配列分類手段13は、このクラスター再形成により、元のクラスターを統合する。   The sequence classification means 13 reforms a cluster of aptamer sequences based on the common feature. The cluster of the aptamer sequence is not particularly limited. For example, a cluster group in which all of the common features match among the clusters may be a new cluster. The sequence classification means 13 integrates the original cluster by this cluster reformation.

また、前記配列分類手段13は、例えば、クラスター間の分離度を決定する機能等を備えていてもよい。前記分離度は、クラスターの分類の程度を表す指標であればよく、特に制限されないが、例えば、各クラスター間の特徴の距離の平均や、特徴の相関の平均等があげられる。前記アプタマーが最もよく分類されているときに、前記分離度が最高になる。   Moreover, the said sequence classification | category means 13 may be provided with the function etc. which determine the isolation | separation degree between clusters, for example. The degree of separation is not particularly limited as long as it is an index representing the degree of cluster classification, and examples thereof include an average of feature distances between clusters and an average of feature correlations. The resolution is highest when the aptamers are best classified.

また、前記配列分類手段13は、例えば、クラスターに含まれる配列中の優先順位を重心からの距離で判別する機能を備えていてもよい。   In addition, the array classification unit 13 may have a function of discriminating the priority order in the array included in the cluster based on the distance from the center of gravity.

前記出力手段14は、アプタマー配列の分類結果を出力する手段であればよく、その他の点では特に制限されないが、例えば、ディスプレイ装置、印刷装置等のコンピュータに備わる通常の出力装置、出力ファイル、および他のコンピュータ等を用いることができる。   The output unit 14 may be any unit that outputs the classification result of the aptamer sequence and is not particularly limited in other respects. For example, a normal output unit provided in a computer such as a display device or a printing device, an output file, and Other computers or the like can be used.

つぎに、図2および図3のフローチャートを参照し、本実施形態のアプタマー分類方法を説明する。本実施形態のアプタマー分類方法は、クラスター形成工程(ステップA21)と、クラスター統合工程(ステップA22)と、アプタマー配列分類工程(ステップA23)とを含む。   Next, the aptamer classification method of the present embodiment will be described with reference to the flowcharts of FIGS. The aptamer classification method of this embodiment includes a cluster formation step (step A21), a cluster integration step (step A22), and an aptamer sequence classification step (step A23).

〔クラスター形成工程〕
前記特徴抽出手段12は、予め設定された特徴抽出方法によって、入力されたアプタマー配列の特徴を抽出し、前記特徴毎にアプタマー配列のクラスターを複数形成する(ステップA21)。
[Cluster formation process]
The feature extraction unit 12 extracts features of the input aptamer sequence by a preset feature extraction method, and forms a plurality of clusters of aptamer sequences for each feature (step A21).

〔クラスター統合工程〕
前記配列分類手段13は、前記特徴の類似度が最も高い前記クラスター間の類似度を算出し、前記類似度が最も高いクラスター同士を一つのクラスターに統合し、統合された一つのクラスターにおいて、共通する特徴をそのクラスターの特徴とすると共に、他の特徴は削除する(ステップA22)。以下、図3に基づき、ステップA22の詳細を述べる。前記配列分類手段13は、特徴に関連付けられた配列を初期クラスターとして取り出す(ステップA301)。次に、取り出された前記初期クラスターから、比較元クラスターを選択し、同じく選択した比較先クラスターとの類似度を決定する(ステップA302、A303、A304)。決定の結果得られた類似度が比較元クラスターの最大類似度よりも大きかった場合、ここで得た類似度が比較元クラスターの最大類似度として登録され、比較先クラスターがその際の比較先クラスターとして登録される(ステップA305、A306)。ここで、比較元クラスターとの類似度を決定していないクラスターが存在する場合は、そのクラスターを新たな比較先クラスターとして選択し、ステップA303以下の手順を繰り返す(A307)。比較元クラスターに対して、他の全てのクラスターの類似度の決定が終わった場合、比較元クラスターとして選択していないクラスターがある場合は、そのクラスターを新たな比較元クラスターとして選択してA302以下の手順を繰り返す(ステップA308)。次に、比較元クラスターと比較先クラスターの類似度が最大になる組み合わせについて、その類似度(最大類似度)が条件を満たす場合、二つのクラスターに共通する特徴を抽出し、その共通する特徴を特徴とする新たなクラスターとして、二つのクラスターをまとめる(ステップA309、A310、A311、A312)。前記条件は、特に制限されないが、前記最大類似度が、基準値以上であること、基準値を超えること等があげられる。また、本工程は、さらに、クラスター間の分離度を決定する工程を含んでいてもよい。
[Cluster integration process]
The sequence classification means 13 calculates the similarity between the clusters with the highest similarity of the features, integrates the clusters with the highest similarity into one cluster, and is common in the integrated cluster. The feature to be made is the feature of the cluster, and other features are deleted (step A22). Details of step A22 will be described below with reference to FIG. The sequence classification means 13 takes out the sequence associated with the feature as an initial cluster (step A301). Next, a comparison source cluster is selected from the extracted initial clusters, and the similarity with the selected comparison destination cluster is determined (steps A302, A303, A304). If the similarity obtained as a result of the determination is greater than the maximum similarity of the comparison source cluster, the similarity obtained here is registered as the maximum similarity of the comparison source cluster, and the comparison destination cluster is the comparison destination cluster at that time. (Steps A305 and A306). Here, when there is a cluster whose similarity with the comparison source cluster is not determined, the cluster is selected as a new comparison destination cluster, and the procedure from step A303 is repeated (A307). When the similarity of all other clusters has been determined for the comparison source cluster, if there is a cluster that has not been selected as the comparison source cluster, that cluster is selected as the new comparison source cluster, and A302 or lower The above procedure is repeated (step A308). Next, for the combination that maximizes the similarity between the comparison source cluster and the comparison target cluster, if the similarity (maximum similarity) satisfies the condition, the features common to the two clusters are extracted, and the common features are extracted. Two clusters are collected as new feature clusters (steps A309, A310, A311, and A312). The condition is not particularly limited, and examples include that the maximum similarity is not less than a reference value and exceeds the reference value. In addition, this step may further include a step of determining the degree of separation between clusters.

〔アプタマー配列分類工程〕
前記配列分類手段13は、前記クラスター統合工程で統合されたクラスターを一つのアプタマー配列と見做し、前記クラスター統合工程を繰り返し実行し、予め設定した終了条件を満たした場合、前記クラスター統合工程を終了し、得られたクラスターのアプタマー配列および前記アプタマー配列の特徴を決定する(ステップA313)。前記終了条件を満たさない場合、前記配列分類手段13は、前記クラスター統合工程で統合されたクラスターを一つのアプタマー配列と見做し、A301以下の手順を繰り返す。前記予め設定した終了条件については、特に制限されないが、最大類似度が基準値未満または基準値以下である場合、クラスター総数が基準値未満または基準値以下である場合、クラスターに含まれる配列数が最大の基準値以上である場合、クラスターの特徴の数が基準値未満または基準値以下である場合等があげられる。以上の工程により、アプタマー配列の分類が完了する。
[Aptamer sequence classification process]
The sequence classifying unit 13 regards the cluster integrated in the cluster integration step as one aptamer sequence, repeatedly executes the cluster integration step, and satisfies the preset termination condition, the cluster integration step is performed. The aptamer sequence of the cluster obtained and the characteristics of the aptamer sequence are determined (step A313). If the termination condition is not satisfied, the sequence classification unit 13 regards the cluster integrated in the cluster integration step as one aptamer sequence, and repeats the procedure from A301 onward. The preset termination condition is not particularly limited, but when the maximum similarity is less than the reference value or less than the reference value, when the total number of clusters is less than the reference value or less than the reference value, the number of sequences included in the cluster is For example, the number of cluster features is less than the reference value or less than the reference value. The above steps complete the classification of aptamer sequences.

分類が終了したアプタマーの配列は、ユーザーが指定した条件に従って、前記出力手段14で出力されてもよい。前記出力手段14が、分類結果を出力する前記条件は任意であり、特に制限されないが、例えば、分離度が最大時の分類結果、クラスター数が一定未満または一定以下になったときの分類結果、クラスターの類似度が一定未満または一定以下になったときの分類結果、クラスターの特徴の数が基準値未満または基準値以下になったときの分類結果等があげられる。さらに、前記出力手段14は、例えば、前記特徴、前記クラスター、前記類似度、前記優先順位および前記分離度等を出力する機能を備えていてもよい。   The aptamer sequences that have been classified may be output by the output means 14 in accordance with conditions specified by the user. The condition for the output means 14 to output the classification result is arbitrary and is not particularly limited. For example, the classification result when the degree of separation is maximum, the classification result when the number of clusters is less than or below a certain value, Examples include classification results when the cluster similarity is less than or below a certain level, classification results when the number of cluster features is below or below a reference value, and the like. Further, the output unit 14 may have a function of outputting the features, the cluster, the similarity, the priority, the separation, and the like, for example.

本実施形態によれば、第1に、複数のアプタマーを、ある特定の特徴を共有するという条件に基づいて高精度で分類することができる。その理由は、アプタマーの配列そのものではなく、塩基の出現頻度や二次構造等の特徴を抽出し、その特徴が類似である配列同士にクラスターを形成させるためである。アプタマーの性質は、配列そのものではなく、その配列が形成する二次構造や一部の特定の塩基の並びによって影響を受けることが多いため、単純な配列類似性を評価するよりも分類精度が高くなる。   According to the present embodiment, first, a plurality of aptamers can be classified with high accuracy based on the condition of sharing a specific feature. The reason is that not the aptamer sequence itself but features such as base frequency and secondary structure are extracted and clusters are formed between sequences having similar features. Aptamer properties are often influenced not by the sequence itself, but by the secondary structure formed by the sequence and the arrangement of some specific bases, so classification accuracy is higher than simple sequence similarity evaluation. Become.

また、本実施形態によれば、第2に、分類時のコストが、削減できる。コストが削減できる理由として、例えば、メモリ容量が削減できること、計算時間が短縮できること等があげられる。本発明のアプタマー分類方法によって、メモリ容量が削減できる理由は、例えば以下の通りである。すなわち、一般的な核酸配列分類方法の場合、全ての配列ペアに対するペアワイズアラインメントを実行し、結果を保持する必要がある。この場合、配列の数nに対して、必要なメモリは、=n×(n+1)/2となる。一方、本発明のアプタマー分類方法の場合、各クラスターについて、そのクラスターと最も類似度が高いクラスターのIDと、その類似度を保持すれば足り、必要なメモリは、n+n=2nになる。したがって、一般的な核酸配列分類方法が、配列数nに対してnの2乗のオーダーのメモリを必要とするのに対し、本発明のアプタマー分類方法は、配列数nに対してnの1乗のオーダーのメモリで充分である。したがって、本発明のアプタマー分類方法によれば、必要とするメモリ容量を削減でき、この傾向は、配列数が多い場合に特に顕著になる。また、本発明のアプタマー分類方法によって、計算時間が短縮できる理由は、例えば以下の通りである。すなわち、一般的な核酸配列分類方法の場合、配列を厳密に直接比較する必要がある。一方、本発明のアプタマー分類方法において類似度を決定する場合、抽出した特徴のみが比較の対象であり、前記特徴の重複を判定するのみの単純な処理で足りる。しかも、分類が進むほど、前述のように特徴が削除され、類似度を決定する際に考慮が必要な特徴の数が少なくなる。したがって、本発明のアプタマー分類方法によれば、配列比較一度当たりの計算時間を短縮できる。 According to the present embodiment, secondly, the cost for classification can be reduced. Reasons for reducing the cost include, for example, a reduction in memory capacity and a reduction in calculation time. The reason why the memory capacity can be reduced by the aptamer classification method of the present invention is as follows, for example. That is, in the case of a general nucleic acid sequence classification method, it is necessary to perform pair-wise alignment for all sequence pairs and hold the results. In this case, the required memory for the number n of arrays is n C 2 = n × (n + 1) / 2. On the other hand, in the aptamer classification method of the present invention, for each cluster, it is sufficient to hold the ID of the cluster having the highest similarity to the cluster and the similarity, and the required memory is n + n = 2n. Therefore, a general nucleic acid sequence classification method requires a memory in the order of the square of n with respect to the number of sequences n, whereas the aptamer classification method of the present invention is 1 for n with respect to the number of sequences n. A memory of order of power is sufficient. Therefore, according to the aptamer classification method of the present invention, the required memory capacity can be reduced, and this tendency is particularly remarkable when the number of sequences is large. The reason why the calculation time can be shortened by the aptamer classification method of the present invention is as follows, for example. That is, in the case of a general nucleic acid sequence classification method, it is necessary to directly compare the sequences. On the other hand, when determining the degree of similarity in the aptamer classification method of the present invention, only extracted features are to be compared, and simple processing that only determines the duplication of the features is sufficient. Moreover, as the classification progresses, the features are deleted as described above, and the number of features that need to be taken into consideration when determining the similarity is reduced. Therefore, according to the aptamer classification method of the present invention, the calculation time per sequence comparison can be shortened.

また、本実施形態によれば、第3に、アプタマー配列の有する特徴のうち、重要な特徴が絞り込まれる。その理由は、アプタマーを分類する過程において類似度の高い配列間で共通していない特徴が削ぎ落とされることにより、各クラスターにおける重要な特徴が絞り込まれるためである。重要な特徴が絞り込まれた結果、アプタマー配列中の不要な領域の除外や、修飾核酸への置換等の、アプタマーを加工する作業が容易となる。   Further, according to the present embodiment, third, important features are narrowed down among the features of the aptamer sequence. The reason is that, in the process of classifying aptamers, important features in each cluster are narrowed down by removing features that are not common between sequences with high similarity. As a result of narrowing down the important features, it becomes easy to process aptamers such as removing unnecessary regions in aptamer sequences and replacing them with modified nucleic acids.

本発明のプログラムは、前述の本発明のアプタマー分類装置の使用方法を、同装置に実行させるプログラムである。本発明のプログラムは、例えば、記録媒体に記録されていてもよい。前記記録媒体は、特に制限されず、例えば、HDD、CD−ROM(CD−R、CD−RW)、DVD、メモリーカード等があげられる。また、本発明のプログラムは、例えば、予め、前述の本発明のアプタマー分類装置にインストールされていてもよいし、前記記録媒体またはインターネット等の回線網を介して、インストールされてもよい。なお、本発明のプログラムは、必ずしも、前述の本発明のアプタマー分類装置にインストールされている必要はなく、例えば、サーバに格納されている本発明のプログラムにより、前述の使用方法を、前述の装置に実行させてもよい。   The program of the present invention is a program that causes the apparatus to execute the above-described method of using the aptamer classification device of the present invention. The program of the present invention may be recorded on a recording medium, for example. The recording medium is not particularly limited, and examples thereof include an HDD, a CD-ROM (CD-R, CD-RW), a DVD, and a memory card. The program of the present invention may be installed in advance in the above-described aptamer classification apparatus of the present invention, or may be installed via the recording medium or a network such as the Internet. Note that the program of the present invention does not necessarily have to be installed in the aptamer classification apparatus of the present invention described above. For example, the above-described usage method can be changed according to the program of the present invention stored in a server. May be executed.

[実施形態2]
図4に、本実施形態のアプタマー分類装置40の一例の構成を示す。同図において、図1と同一部分には同一符号を付している。図4に示すとおり、このアプタマー分類装置40は、配列記憶手段41および特徴記憶手段42をさらに備えること以外は、実施形態1のアプタマー分類装置と同様の構成を有する。すなわち、このアプタマー分類装置40は、入力手段11と特徴抽出手段12と配列分類手段13と出力手段14と配列記憶手段41と特徴記憶手段42とを備える。前記特徴抽出手段12と前記配列分類手段13とは、例えば同図に示すように、ハードウェアであるデータ処理装置15に組み込まれていてもよい。前記特徴抽出手段12と前記配列分類手段13とは、例えばソフトウェアそのものでも良いし、ハードウェアにソフトウェアが組み込まれたものでもよい。データ処理装置15は、例えば、CPU等を備えていてもよい。前記配列記憶手段41と前記特徴記憶手段42とは、例えば同図に示すように、ハードウェアである記憶装置43に組み込まれていてもよい。
[Embodiment 2]
FIG. 4 shows a configuration of an example of the aptamer classification device 40 of the present embodiment. In this figure, the same parts as those in FIG. As shown in FIG. 4, this aptamer classification device 40 has the same configuration as the aptamer classification device of Embodiment 1 except that it further includes sequence storage means 41 and feature storage means 42. That is, the aptamer classification device 40 includes an input unit 11, a feature extraction unit 12, a sequence classification unit 13, an output unit 14, a sequence storage unit 41, and a feature storage unit 42. The feature extraction unit 12 and the array classification unit 13 may be incorporated in a data processing device 15 that is hardware as shown in FIG. The feature extraction unit 12 and the arrangement classification unit 13 may be software, for example, or may be software in which software is incorporated. The data processing device 15 may include a CPU, for example. The array storage unit 41 and the feature storage unit 42 may be incorporated in a storage device 43 that is hardware as shown in FIG.

図示の通り、前記配列記憶手段41は、前記入力手段11および前記特徴抽出手段12に電気的に接続されている。また、前記特徴記憶手段42は、前記特徴抽出手段12および前記配列分類手段13に電気的に接続されている。   As shown in the figure, the array storage means 41 is electrically connected to the input means 11 and the feature extraction means 12. The feature storage means 42 is electrically connected to the feature extraction means 12 and the arrangement classification means 13.

前記配列記憶手段41は、前記入力手段11から入力された、分類するアプタマーの配列の情報を記憶し、前記特徴抽出手段12に前記情報を出力する。   The sequence storage unit 41 stores information on the sequence of aptamers to be classified, which is input from the input unit 11, and outputs the information to the feature extraction unit 12.

前記特徴記憶手段42は、前記特徴抽出手段12で抽出されたアプタマーの配列の特徴を、それぞれの配列に関連付けたものを記憶し、前記配列分類手段13に前記特徴を出力する。   The feature storage means 42 stores the features of the aptamer sequences extracted by the feature extraction means 12 in association with the respective sequences, and outputs the features to the sequence classification means 13.

本実施形態では、例えば、アプタマー配列A、B、C、Dの分類を行うことができる。以下にその詳細を説明する。   In this embodiment, for example, the aptamer sequences A, B, C, and D can be classified. Details will be described below.

まず、入力手段11は、特徴抽出手段12に、アプタマー配列A、B、C、Dのデータを出力する(ステップA1)。   First, the input unit 11 outputs the data of the aptamer sequences A, B, C, and D to the feature extraction unit 12 (Step A1).

前記特徴抽出手段12は、前記アプタマー配列A、B、C、Dから特徴を抽出する(ステップA2)。前記抽出の結果、特徴a、b、c、d、eが抽出された場合、図6(a)のように、前記特徴抽出手段12は、配列分類手段13に、前記アプタマー配列A、B、C、Dを、それぞれクラスターA、B、C、Dとして出力する。図6において、特徴が存在することを1、特徴が存在しないことを0と表す。   The feature extraction unit 12 extracts features from the aptamer sequences A, B, C, and D (step A2). When the features a, b, c, d, and e are extracted as a result of the extraction, the feature extraction unit 12 sends the aptamer sequences A, B, C and D are output as clusters A, B, C, and D, respectively. In FIG. 6, the presence of a feature is represented by 1 and the absence of a feature is represented by 0.

以下、図5および6に基づき、本実施形態のアプタマー分類方法を説明する。配列分類手段13は、図6(a)の特徴に関連付けられた配列をクラスターの情報として読み込む(ステップA301、図5、以下図番号省略)。次に、最初の比較元としてクラスターAを選択し、その最初の比較先としてクラスターBを選択し、クラスターA、B間の類似度を決定する(ステップA302、A303、A304)。本実施形態において、類似度を二つのクラスターに共通する特徴の数と定義する。この場合、クラスターA、B間には特徴a、b、eという3つの特徴が共通するため、類似度は3となる。この値は現時点の比較元クラスターAの最大類似度として登録され、その比較先としてクラスターBも登録される(ステップA305、A306)。これでクラスターAに対するクラスターBの評価は終了する。   Hereinafter, the aptamer classification method of the present embodiment will be described with reference to FIGS. The array classification means 13 reads the array associated with the feature of FIG. 6A as cluster information (step A301, FIG. 5, hereinafter, the figure number is omitted). Next, cluster A is selected as the first comparison source, cluster B is selected as the first comparison destination, and the similarity between clusters A and B is determined (steps A302, A303, and A304). In the present embodiment, similarity is defined as the number of features common to two clusters. In this case, since the three features a, b, and e are common between the clusters A and B, the similarity is 3. This value is registered as the maximum similarity of the current comparison source cluster A, and cluster B is also registered as the comparison destination (steps A305 and A306). This completes the evaluation of cluster B with respect to cluster A.

比較元クラスターAの比較先クラスターとして未評価のクラスターC、Dがあるので、比較元クラスターをA、比較先クラスターをCまたはDとしたステップA303〜A306の評価手順を同様に繰り返す(ステップA307)。この際、比較元クラスターAに対する比較先クラスターC、Dの類似度は、それぞれ2、1であるため、最大類似度は更新されない。これでクラスターAを比較元クラスターとする評価は終了する。   Since there are unevaluated clusters C and D as comparison destination clusters of the comparison source cluster A, the evaluation procedure of steps A303 to A306 with the comparison source cluster being A and the comparison destination cluster being C or D is similarly repeated (step A307). . At this time, since the similarities of the comparison destination clusters C and D with respect to the comparison source cluster A are 2 and 1, respectively, the maximum similarity is not updated. This completes the evaluation using the cluster A as the comparison source cluster.

クラスターAを比較元クラスターとする評価が終了すると、比較元クラスターとして未評価のクラスターB、C、Dを比較元クラスターとしたステップA302〜A306の評価手順を同様に繰り返す(ステップA308)。これで全てのクラスターの評価は終了する。   When the evaluation using the cluster A as the comparison source cluster is completed, the evaluation procedure of Steps A302 to A306 using the unevaluated clusters B, C, and D as comparison source clusters as the comparison source cluster is similarly repeated (Step A308). This completes the evaluation of all clusters.

ステップA308の後に、クラスターの分離度を決定することとした(ステップA501)。本実施形態において、分離度は、クラスター間のハミング距離にクラスターに含まれる配列数の重みをかけたものの平均と定義する。例えば、図6(a)において、クラスターA−B間、A−C間、A−D間、B−C間、B−D間、C−D間のハミング距離は、それぞれ1、3、3、2、4、4であり、各クラスターには配列が1つずつ含まれるので、各クラスターの配列数の重みは、1/4となる。したがって、この場合、
分離度=(1×(1/4+1/4)+3×(1/4+1/4)+3×(1/4+1/4)+2×(1/4+1/4)+4×(1/4+1/4)+4×(1/4+1/4))/=1.42
と決定される。
After step A308, the degree of cluster separation was determined (step A501). In this embodiment, the degree of separation is defined as the average of the Hamming distance between clusters multiplied by the weight of the number of sequences included in the cluster. For example, in FIG. 6A, the hamming distances between clusters A-B, A-C, A-D, B-C, B-D, and C-D are 1, 3, 3 respectively. 2, 4 and 4, and each cluster contains one sequence, so the weight of the number of sequences in each cluster is 1/4. So in this case,
Separation degree = (1 × (1/4 + 1/4) + 3 × (1/4 + 1/4) + 3 × (1/4 + 1/4) + 2 × (1/4 + 1/4) + 4 × (1/4 + 1/4) +4 × (1/4 + 1/4)) / 4 C 2 = 1.42
Is determined.

図6(a)において、クラスターA−B間、A−C間、A−D間、B−C間、B−D間、C−D間の類似度は、それぞれ4、2、2、3、1、1である。したがって、同図(a)において、最大類似度が最大の比較元クラスターと比較先クラスターは、クラスターAとBになる。本実施形態において、最大類似度の条件を、基準値である1以上であることとする(ステップA502)。クラスターAとBとの類似度は3であり、前記基準値である1以上であるので、クラスターAとBとに共通の特徴a、b、c、eを決定する(ステップA311、A312)。前記共通の特徴a、b、c、eにより、クラスターを再形成した結果、クラスターAおよびBは、クラスターABとして一つに統合され、結果として図6(b)に示す状態になる。なお、クラスターAとBとで共通しなかった特徴dについては、クラスターAB内において、0であるものとする。   In FIG. 6 (a), the similarity between clusters A-B, A-C, A-D, B-C, B-D, and C-D is 4, 2, 2, 3 respectively. 1, 1. Therefore, in FIG. 9A, the comparison source cluster and the comparison destination cluster having the maximum maximum similarity are clusters A and B. In the present embodiment, it is assumed that the maximum similarity condition is 1 or more which is a reference value (step A502). Since the similarity between the clusters A and B is 3, which is 1 or more, which is the reference value, the features a, b, c, and e common to the clusters A and B are determined (steps A311 and A312). As a result of re-forming the cluster by the common features a, b, c, and e, the clusters A and B are merged into one as a cluster AB, resulting in the state shown in FIG. 6B. Note that the feature d not common to the clusters A and B is 0 in the cluster AB.

本実施形態において、終了条件を、クラスター数が基準値である2未満であることとする(ステップA503)。図6(b)において、クラスターの数は、AB、CおよびDの3つであり、前記基準値である2未満でないので、ステップA301以下の手順を同様に繰り返す。   In the present embodiment, the end condition is that the number of clusters is less than 2 which is a reference value (step A503). In FIG. 6B, the number of clusters is three, AB, C, and D, and is not less than 2, which is the reference value. Therefore, the procedure after step A301 is similarly repeated.

図6(b)において、クラスターAB−C間、AB−D間、C−D間のハミング距離は、それぞれ2、4、4であり、クラスターAB、C、Dの配列重みは、それぞれ2/4、1/4、1/4である。したがって、この場合、
分離度=(2×(2/4+1/4)+4×(2/4+1/4)+4×(1/4+1/4))/=2.17
と決定される(ステップA501)。
In FIG. 6B, the Hamming distances between clusters AB-C, AB-D, and CD are 2, 4, and 4, respectively, and the array weights of clusters AB, C, and D are 2 / 4, 1/4, and 1/4. So in this case,
Degree of separation = (2 × (2/4 + 1/4) + 4 × (2/4 + 1/4) + 4 × (1/4 + 1/4)) / 3 C 2 = 2.17
Is determined (step A501).

また、図6(b)において、クラスターAB−C間、AB−D間、C−D間の類似度は、それぞれ2、1、1である。したがって、同図(b)において、最大類似度が最大の比較元クラスターと比較先クラスターは、クラスターABとCになる(ステップA309)。クラスターABとCとの類似度は、2であり、ステップA311における最大類似度の基準値である1以上であるので、クラスターABとCとに共通の特徴a、bを決定する(ステップA311、A312)。前記論理積である特徴a、bにより、クラスターを新たに形成した結果、クラスターABおよびCは、クラスターABCとして一つに統合され、結果として同図(c)に示す状態となる。なお、クラスターABとCとで共通しなかった特徴cおよびeについては、クラスターABC内において、0であるものとする。   Further, in FIG. 6B, the similarities between clusters AB-C, AB-D, and CD are 2, 1, and 1, respectively. Therefore, in FIG. 6B, the comparison source cluster and comparison destination cluster having the maximum maximum similarity are clusters AB and C (step A309). Since the similarity between the clusters AB and C is 2, which is 1 or more, which is the reference value of the maximum similarity in Step A311, the features a and b common to the clusters AB and C are determined (Step A311, A312). As a result of newly forming clusters based on the features a and b which are the logical products, the clusters AB and C are integrated into a single cluster ABC, resulting in the state shown in FIG. Note that the features c and e that are not common to the clusters AB and C are 0 in the cluster ABC.

図6(c)において、クラスターの数は、ABCおよびDの2つであり、ステップA314におけるクラスター数の基準値である2未満でないので、A301以下の手順を同様に繰り返す(ステップA503)。   In FIG. 6C, the number of clusters is two, ABC and D, and is not less than 2, which is the reference value of the number of clusters in step A314, and thus the procedure from A301 is repeated in the same manner (step A503).

図6(c)において、クラスターABC−D間のハミング距離は3であり、クラスターABC、Dの配列重みは、それぞれ3/4、1/4である。したがって、この場合、
分離度=3×(3/4+1/4)/=3
と決定される(ステップA501)。
In FIG. 6C, the Hamming distance between the clusters ABC-D is 3, and the array weights of the clusters ABC and D are 3/4 and 1/4, respectively. So in this case,
Degree of separation = 3 × (3/4 + 1/4) / 2 C 2 = 3
Is determined (step A501).

図6(c)において、クラスターABCとクラスターDには共通する特徴が存在しないため、最大類似度が0になり、ステップA502における最大類似度の基準値である1以上でないため、配列の分類が終了する(ステップA502)。   In FIG. 6C, since there is no common feature between the cluster ABC and the cluster D, the maximum similarity is 0, and is not 1 or more, which is the reference value of the maximum similarity in step A502. The process ends (step A502).

分類が終了すると、前記出力手段14は、分類結果を出力する(ステップA4)。ユーザーの指定する分類結果の出力条件は、任意であり、特に制限されないが、例えば、クラスターの分離度が最大時の分類結果を前記出力条件とした場合、A3の分類中に分離度が最大となった図6(c)の結果が、分類結果として出力される。   When the classification is completed, the output means 14 outputs the classification result (step A4). The classification condition output condition specified by the user is arbitrary and is not particularly limited. For example, when the classification result when the cluster separation degree is maximum is the output condition, the separation degree is maximum during the classification of A3. The result shown in FIG. 6C is output as the classification result.

以上の結果、本実施形態により、アプタマー配列A、B、C、Dが分類された。   As a result, aptamer sequences A, B, C, and D were classified according to this embodiment.

つぎに、本発明の実施例について説明する。ただし、本発明は、下記の実施例により制限されない。   Next, examples of the present invention will be described. However, the present invention is not limited by the following examples.

[実施例1]
本実施例では、17ターゲットについての594のアプタマー配列を正解データセットとして用い、アプタマー配列の分類能の評価を行った。前記アプタマー配列は、ランダム領域の長さが30塩基であるアプタマーデータベースN30に登録されており、前記アプタマーデータベースN30は、インターネット上(http://aptamer.icmb.utexas.edu/)でEllington研究室により公開されている。本実施例における具体的な分類方法を以下に述べる。まず、本実施例において、アプタマーから抽出する特徴として、ウィンドウサイズ7塩基に対して4塩基のミスマッチを許容する3塩基の組み合わせの有無を用いた。また、図7に示すように、終了条件を追加し、ステップA503の後に、ステップA701を設け、特徴数が最小のクラスターの特徴数が、基準値(最小内包個数)未満の場合、分類を終了することとし、前記特徴数が前記基準値である最小内包個数以上の場合、分類を継続することとした。それ以外は、実施形態2と同様に分類を行った。以下にその詳細を説明する。
[Example 1]
In this example, 594 aptamer sequences for 17 targets were used as a correct data set, and the classification ability of aptamer sequences was evaluated. The aptamer sequence is registered in the aptamer database N30 having a random region length of 30 bases. The aptamer database N30 is available on the Internet (http://aptamer.icmb.utexas.edu/). Published by A specific classification method in this embodiment will be described below. First, in this example, the presence or absence of a combination of 3 bases allowing a 4 base mismatch to a 7 base window size was used as a feature extracted from the aptamer. In addition, as shown in FIG. 7, an end condition is added, and step A701 is provided after step A503. When the number of features of the cluster having the smallest number of features is less than the reference value (minimum inclusion number), the classification is finished. If the number of features is equal to or greater than the minimum inclusion number that is the reference value, the classification is continued. Other than that, classification was performed in the same manner as in the second embodiment. Details will be described below.

(ターゲット判定方法)
以下に述べる、定義(A)に従って、分類されたクラスターの属するターゲットを判定した。
(A)各ターゲットがただ一つのクラスターを形成すると仮定し、各ターゲット配列が最も多く属するクラスターが、唯一そのターゲットに属すると定義した。
(Target judgment method)
According to the definition (A) described below, the target to which the classified cluster belongs was determined.
(A) Assuming that each target forms only one cluster, it is defined that the cluster to which each target sequence belongs most belongs to only that target.

(分類結果の評価方法)
分類結果は、以下の規則に従って、特異度、感度、精度を決定することにより、評価した。例えば、標的Aに着目した場合、
真陽性(True Positive):標的Aのアプタマーが、標的Aのクラスターに所属する
偽陰性(False Negative):標的Aのアプタマーが、標的A以外のクラスターに所属する
偽陽性(False Positive):標的A以外のアプタマーが、標的Aのクラスターに所属する
偽陰性(False Negative):標的Aのアプタマーが、どのクラスターにも所属しない
として、各クラスターにつき、真陽性の件数をTP、偽陰性の件数をFN、偽陽性の件数をFPとして、以下の計算式および定義により、分類結果の特異度、感度、精度を決定した。
特異度=(TP/TP+FP)
感度=(TP/TP+FN)
精度:特異度と感度との相乗平均
(Evaluation method of classification results)
The classification results were evaluated by determining specificity, sensitivity, and accuracy according to the following rules. For example, when focusing on target A,
True Positive: Target A aptamer belongs to cluster of target A False False: Target A aptamer belongs to cluster other than target A (False Positive): target A Aptamers other than those belonging to the cluster of target A (False Negative): Assuming that the aptamer of target A does not belong to any cluster, the number of true positives is TP and the number of false negatives is FN. The number of false positives was defined as FP, and the specificity, sensitivity, and accuracy of the classification result were determined by the following calculation formula and definition.
Specificity = (TP / TP + FP)
Sensitivity = (TP / TP + FN)
Accuracy: geometric mean of specificity and sensitivity

表1に、前記最小内包個数を変化させ、上述の定義(A)に従って、17ターゲットの594配列全てを含むデータセットについてアプタマー配列分類を行い、ターゲットごとに配列の分類結果を評価した場合の、アプタマー配列分類の評価結果を示す。   In Table 1, when the minimum inclusion number is changed, aptamer sequence classification is performed on a data set including all 594 sequences of 17 targets according to the above definition (A), and the sequence classification result is evaluated for each target. The evaluation result of aptamer sequence classification is shown.

Figure 0005419145
Figure 0005419145

表1によって、このデータセットにおいて、アプタマー配列分類の精度は、最小内包個数が3〜20程度であれば、ほぼ同様の精度となることが示された。   Table 1 shows that in this data set, the accuracy of aptamer sequence classification is almost the same as long as the minimum inclusion number is about 3 to 20.

図8は、アプタマー配列分類の過程で形成されるクラスター数と、そのときのクラスター間のハミング距離の平均との関係を示すグラフである。前記グラフの横軸は、アプタマー配列分類の過程で形成されるクラスター数を示し、前記グラフの縦軸は、クラスター間のハミング距離の平均を示す。同グラフに示すとおり、近隣結合法による統合で徐々にクラスター数が絞り込まれていく過程で、クラスター数200〜140付近でクラスター間のハミング距離の平均が最大となることが確認された。この時の最小内包個数は、70個〜200個程度であり、表1によると、この時の予測精度は、特異度は高いものの感度は低い。しかし、今回の評価は、上述の定義(A)に基づいているため、各ターゲットが複数のクラスターを形成するという実際の解析時においては、このクラスター数200〜140の時に予測精度が最も良い状態にある可能性が考えられる。   FIG. 8 is a graph showing the relationship between the number of clusters formed in the process of aptamer sequence classification and the average Hamming distance between the clusters at that time. The horizontal axis of the graph shows the number of clusters formed in the process of aptamer sequence classification, and the vertical axis of the graph shows the average of the Hamming distance between clusters. As shown in the graph, in the process of gradually narrowing down the number of clusters by integration by the neighborhood coupling method, it was confirmed that the average of the Hamming distances between the clusters was maximized around the number of clusters of 200 to 140. The minimum number of inclusions at this time is about 70 to 200. According to Table 1, the prediction accuracy at this time is high in specificity but low in sensitivity. However, since this evaluation is based on the above definition (A), in the actual analysis that each target forms a plurality of clusters, the prediction accuracy is the best when the number of clusters is 200 to 140. There is a possibility that

[実施例2]
各ターゲットが複数のクラスターを形成するという仮定に基づく、以下の定義(B)に従って、分類されたクラスターの属するターゲットを判定した以外は、実施例2と同様にアプタマー配列の分類能の評価を行った。
(B)各ターゲットが複数のクラスターを形成すると仮定し、各クラスターの半数以上のアプタマー配列が、単独のターゲット配列で占められている場合には、そのクラスターはそのターゲットに属すると定義した。
[Example 2]
Based on the assumption that each target forms a plurality of clusters, according to the following definition (B), the classification ability of aptamer sequences is evaluated in the same manner as in Example 2 except that the target to which the classified cluster belongs is determined. It was.
(B) Assuming that each target forms a plurality of clusters, when more than half of the aptamer sequences of each cluster are occupied by a single target sequence, the cluster is defined as belonging to the target.

図9は、上述の定義(B)に従った場合の、クラスター数とアプタマー配列の分類能の評価結果との関係、および、クラスター数とクラスター間のハミング距離の平均との関係を示すグラフである。前記グラフの横軸は、アプタマー配列分類の過程で形成されるクラスター数を示し、前記グラフの縦軸は、クラスター間のハミング距離の平均、または、アプタマー配列の分類能の評価結果である特異度、感度および精度を示す。   FIG. 9 is a graph showing the relationship between the number of clusters and the evaluation result of the aptamer sequence classification ability, and the relationship between the number of clusters and the average of the Hamming distance between clusters when the above definition (B) is followed. is there. The horizontal axis of the graph indicates the number of clusters formed in the process of aptamer sequence classification, and the vertical axis of the graph indicates the average Hamming distance between clusters or the specificity that is the evaluation result of the ability to classify aptamer sequences. Shows sensitivity and accuracy.

図9に示すとおり、本実施例においてクラスターを分類した場合、クラスター間のハミング距離の平均が最大になるクラスター数200付近において、予測精度も最大になった。したがって、本発明の方法を用いて正解クラスターが分かっていない未知のアプタマー配列を分類する際にも、ハミング距離が最大になるクラスター数で分割することによって、最良のクラスタリング結果が得られることが示唆された。また、これらの解析の結果、各ターゲットが複数のクラスターに所属すると考えた方が妥当な結果が得られたため、以下の解析には、各ターゲットが複数のクラスターを形成するという仮定に基づく上述の定義(B)を採用する。   As shown in FIG. 9, when the clusters are classified in the present example, the prediction accuracy is also maximized in the vicinity of the number of clusters of 200 where the average of the Hamming distance between the clusters is maximum. Therefore, even when classifying unknown aptamer sequences for which the correct cluster is not known using the method of the present invention, it is suggested that the best clustering result can be obtained by dividing by the number of clusters with the maximum Hamming distance. It was done. In addition, as a result of these analyses, it was found that each target belongs to multiple clusters. Therefore, the following analysis is based on the assumption that each target forms multiple clusters. The definition (B) is adopted.

また、定義(B)に基づいて、本発明の方法を用いてアプタマー配列を分類すれば、同じ標的分子に対するアプタマーが、異なるクラスターに分類されることがある。この場合、クラスターが異なる配列は、同じ標的分子に対するアプタマーであっても、結合様式が異なる等、特徴が異なることが明らかになり、アプタマー配列の性質に関して新たな情報が得られるという効果が生じる。その結果、取得された配列の性質の調査のための実験の効率が上がり、機能が異なるアプタマーを取得することが容易になる。   Further, if aptamer sequences are classified using the method of the present invention based on the definition (B), aptamers for the same target molecule may be classified into different clusters. In this case, even when aptamers for the same target molecule are different in the clusters, it is clear that the features are different, such as different binding modes, and an effect is obtained that new information on the properties of the aptamer sequences can be obtained. As a result, the efficiency of the experiment for investigating the properties of the acquired sequence increases, and it becomes easy to acquire aptamers with different functions.

[比較例1]
以下、比較例1として、塩基配列解析ソフトウェアとして広く知られているClustalW(Julie D. Thompson et al. Nucleic Acids Research, 1994, 22, 22 4673-4680)を用いた解析を行った。ClustalWは、階層的クラスタリングを行うツールであるため、アプタマーを個別のクラスターに分類するためには何らかの基準で系統樹を分割する必要がある。分割する基準となるパラメーターとして、今回は各配列の遺伝的距離に注目し、それを変化させることによって予測精度が最高になるパラメーターを推定した。
[Comparative Example 1]
Hereinafter, as Comparative Example 1, analysis using ClustalW (Julie D. Thompson et al. Nucleic Acids Research, 1994, 22, 22 4673-4680) widely known as base sequence analysis software was performed. Since ClustalW is a tool for performing hierarchical clustering, in order to classify aptamers into individual clusters, it is necessary to divide the phylogenetic tree on some basis. This time, we focused on the genetic distance of each sequence, and estimated the parameter with the highest prediction accuracy by changing it.

以下の表2に、実施例2および比較例1の、最も高精度だったときの各ターゲットに対するアプタマー分類の特異度、感度および精度を示す。表2中、平均とは、各ターゲットに対するアプタマー分類の特異度、感度および精度の、配列数で重み付けしたものの平均(加重平均)を意味する。表2によると、全てのターゲットに関して、実施例2は、比較例1よりも優れた精度を示すことが分かった。また、精度の平均値は、比較例1に対して26ポイント(比較例1の46%)上昇した。この結果から、本実施例の方法は、配列解析ソフトウェアを使用する方法よりも、アプタマー分類の精度が優れていることが示された。   Table 2 below shows the specificity, sensitivity, and accuracy of aptamer classification for each target when Example 2 and Comparative Example 1 were the most accurate. In Table 2, the average means the average (weighted average) of the aptamer classification specificity, sensitivity, and accuracy for each target, weighted by the number of sequences. According to Table 2, it turned out that Example 2 shows the precision superior to the comparative example 1 about all the targets. Moreover, the average value of accuracy increased by 26 points (46% of Comparative Example 1) with respect to Comparative Example 1. From this result, it was shown that the method of this example is more accurate in aptamer classification than the method using sequence analysis software.

Figure 0005419145
Figure 0005419145

実施例2および比較例1におけるアプタマー配列分類における計算コストを以下の表3に示す。   The calculation costs in aptamer sequence classification in Example 2 and Comparative Example 1 are shown in Table 3 below.

Figure 0005419145
Figure 0005419145

表3によると、比較例1において、アプタマー配列分類に必要なメモリ容量は、配列数の2乗に比例して増加する。一方、実施例2において必要なメモリ容量は、配列数の1乗に比例して増加する。したがって、実施例2の方が、より大量の配列を解析可能であることが示された。また、実施例2において、アプタマー配列分類に必要な計算時間は、比較例1において必要な計算時間の1/5程度であり、計算時間も大幅に短縮されたことが示された。この結果から、本発明の方法は、配列解析ソフトウェアを使用する方法よりも、計算コストが大幅に削減されていることが示された。   According to Table 3, in Comparative Example 1, the memory capacity required for aptamer sequence classification increases in proportion to the square of the number of sequences. On the other hand, the memory capacity required in the second embodiment increases in proportion to the first power of the number of arrays. Therefore, it was shown that Example 2 can analyze a larger amount of sequences. Moreover, in Example 2, the calculation time required for aptamer sequence classification was about 1/5 of the calculation time required in Comparative Example 1, indicating that the calculation time was also significantly reduced. From this result, it was shown that the calculation cost of the method of the present invention is significantly reduced as compared with the method using the sequence analysis software.

本発明により、アプタマーの分類を効率良く行うことができる。また、本発明により、アプタマーの機能に重要な特徴を選択することができ、新たなアプタマーの設計に重要な情報が得られる。   According to the present invention, aptamers can be classified efficiently. In addition, according to the present invention, it is possible to select features that are important for the function of an aptamer, and information that is important for designing a new aptamer can be obtained.

10、40 アプタマー分類装置
11 入力手段
12 特徴抽出手段
13 配列分類手段
14 出力手段
15 データ処理装置
16 サーバ
17 回線網
41 配列記憶手段
42 特徴記憶手段
43 記憶装置
111 通信インターフェース
10, 40 Aptamer classification device 11 Input means 12 Feature extraction means 13 Array classification means 14 Output means 15 Data processing device 16 Server 17 Line network 41 Array storage means 42 Feature storage means 43 Storage device 111 Communication interface

Claims (15)

アプタマー配列を入力する入力手段と、アプタマー配列の特徴を抽出する特徴抽出手段と、アプタマー配列を分類する配列分類手段と、アプタマー配列の分類結果を出力する出力手段とを備え、
前記特徴抽出手段は、下記(A)のクラスター形成工程を実行し、
(A)予め設定された特徴抽出方法によって前記入力手段によって入力されたアプタマー配列の特徴を抽出し、前記特徴毎にアプタマー配列のクラスターを複数形成するクラスター形成工程
前記配列分類手段は、下記(B)のクラスター統合工程および(C)のアプタマー配列分類工程を実行し、
(B)前記特徴の類似度が最も高い前記クラスター間の類似度を算出し、
前記類似度が最も高いクラスター同士を一つのクラスターに統合し、
統合された一つのクラスターにおいて、共通する特徴をそのクラスターの特徴とすると共に、他の特徴は削除するクラスター統合工程
(C)前記(B)工程で統合されたクラスターを一つのアプタマー配列と見做し、前記工程(B)を繰り返し実行し、予め設定した終了条件を満たした場合、前記工程(B)を終了し、得られたクラスターのアプタマー配列および前記アプタマー配列の特徴を決定するアプタマー配列分類工程
前記出力手段は、前記(B)工程で決定されたアプタマー配列および前記アプタマー配列の特徴を出力する、
ことを特徴とするアプタマー分類装置。
An input means for inputting the aptamer sequence, a feature extraction means for extracting the feature of the aptamer sequence, a sequence classification means for classifying the aptamer sequence, and an output means for outputting the classification result of the aptamer sequence,
The feature extraction means executes the cluster formation step (A) below,
(A) Cluster formation step of extracting features of aptamer sequences inputted by the input means by a preset feature extraction method, and forming a plurality of clusters of aptamer sequences for each feature. ) Cluster integration step and (C) aptamer sequence classification step,
(B) calculating the similarity between the clusters with the highest similarity of the features;
Merge the clusters with the highest similarity into one cluster,
In one integrated cluster, a common feature is a feature of the cluster, and other features are deleted. Cluster integration step (C) The cluster integrated in the step (B) is regarded as one aptamer sequence. Then, when the step (B) is repeatedly executed and a preset termination condition is satisfied, the step (B) is terminated and the aptamer sequence of the obtained cluster and the aptamer sequence classification for determining the characteristics of the aptamer sequence are determined. Step The output means outputs the aptamer sequence determined in the step (B) and the characteristics of the aptamer sequence.
An aptamer classification device characterized by that.
前記類似度が、二つのクラスターに共通する特徴の数であることを特徴とする請求項1記載のアプタマー分類装置。   The aptamer classification device according to claim 1, wherein the similarity is the number of features common to two clusters. 前記配列分類手段が、さらに、クラスター間の分離度を決定する工程を実行することを特徴とする請求項1または2記載のアプタマー分類装置。   The aptamer classification apparatus according to claim 1, wherein the sequence classification unit further executes a step of determining a degree of separation between clusters. 前記分離度が、各クラスター間の特徴の距離の平均であることを特徴とする請求項3記載のアプタマー分類装置。   The aptamer classification device according to claim 3, wherein the degree of separation is an average of feature distances between clusters. 前記距離が、ハミング距離であることを特徴とする請求項4記載のアプタマー分類装置。   The aptamer classification device according to claim 4, wherein the distance is a Hamming distance. 前記平均が、クラスターに含まれる配列数の重みをかけたものの平均であることを特徴とする請求項4または5記載のアプタマー分類装置。   The aptamer classification apparatus according to claim 4 or 5, wherein the average is an average of weights of the number of sequences included in the cluster. さらに、前記アプタマー配列を記憶する配列記憶手段と、前記アプタマー配列情報に関連付けて前記アプタマー配列の特徴を記憶する特徴記憶手段とを備えることを特徴とする請求項1から6のいずれか一項に記載のアプタマー分類装置。   The apparatus according to any one of claims 1 to 6, further comprising: a sequence storage unit that stores the aptamer sequence; and a feature storage unit that stores the feature of the aptamer sequence in association with the aptamer sequence information. The aptamer classification device described. 下記(A)工程、(B)工程および(C)工程を含むことを特徴とするアプタマー分類方法。
(A)予め設定された特徴抽出方法によって、入力されたアプタマー配列の特徴を抽出し、前記特徴毎にアプタマー配列のクラスターを複数形成するクラスター形成工程
(B)前記特徴の類似度が最も高い前記クラスター間の類似度を算出し、
前記類似度が最も高いクラスター同士を一つのクラスターに統合し、
統合された一つのクラスターにおいて、共通する特徴をそのクラスターの特徴とすると共に、他の特徴は削除するクラスター統合工程
(C)前記(B)工程で統合されたクラスターを一つのアプタマー配列と見做し、前記工程(B)を繰り返し実行し、予め設定した終了条件を満たした場合、前記工程(B)を終了し、得られたクラスターのアプタマー配列および前記アプタマー配列の特徴を決定するアプタマー配列分類工程
An aptamer classification method comprising the following steps (A), (B) and (C):
(A) A cluster forming step of extracting features of the input aptamer sequence by a preset feature extraction method, and forming a plurality of clusters of aptamer sequences for each feature (B) The feature similarity is highest Calculate the similarity between clusters,
Merge the clusters with the highest similarity into one cluster,
In one integrated cluster, a common feature is a feature of the cluster, and other features are deleted. Cluster integration step (C) The cluster integrated in the step (B) is regarded as one aptamer sequence. Then, when the step (B) is repeatedly executed and a preset termination condition is satisfied, the step (B) is terminated and the aptamer sequence of the obtained cluster and the aptamer sequence classification for determining the characteristics of the aptamer sequence are determined. Process
前記類似度が、二つのクラスターに共通する特徴の数であることを特徴とする請求項8記載のアプタマー分類方法。   The aptamer classification method according to claim 8, wherein the similarity is the number of features common to two clusters. 前記(B)工程が、さらに、クラスター間の分離度を決定する工程を含むことを特徴とする請求項8または9記載のアプタマー分類方法。   The aptamer classification method according to claim 8 or 9, wherein the step (B) further includes a step of determining a degree of separation between clusters. 前記分離度が、各クラスター間の特徴の距離の平均であることを特徴とする請求項10記載のアプタマー分類方法。   The aptamer classification method according to claim 10, wherein the degree of separation is an average of feature distances between clusters. 前記距離が、ハミング距離であることを特徴とする請求項11記載のアプタマー分類装方法。   The aptamer classification method according to claim 11, wherein the distance is a Hamming distance. 前記平均が、クラスターに含まれる配列数の重みをかけたものの平均であることを特徴とする請求項11または12記載のアプタマー分類方法。   The aptamer classification method according to claim 11 or 12, wherein the average is an average of weights of the number of sequences included in the cluster. 請求項8から13のいずれか一項に記載のアプタマー分類方法を、コンピュータ上で実行可能なことを特徴とするプログラム。   A program capable of executing the aptamer classification method according to any one of claims 8 to 13 on a computer. 請求項14記載のプログラムを記録していることを特徴とする記録媒体。   15. A recording medium on which the program according to claim 14 is recorded.
JP2009173011A 2009-07-24 2009-07-24 Aptamer classification device, aptamer classification method, program, and recording medium Active JP5419145B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009173011A JP5419145B2 (en) 2009-07-24 2009-07-24 Aptamer classification device, aptamer classification method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009173011A JP5419145B2 (en) 2009-07-24 2009-07-24 Aptamer classification device, aptamer classification method, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2011024473A JP2011024473A (en) 2011-02-10
JP5419145B2 true JP5419145B2 (en) 2014-02-19

Family

ID=43633985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009173011A Active JP5419145B2 (en) 2009-07-24 2009-07-24 Aptamer classification device, aptamer classification method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP5419145B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2012002541A1 (en) * 2010-07-01 2013-08-29 独立行政法人産業技術総合研究所 Target molecule detection method
JP6465190B2 (en) * 2017-10-31 2019-02-06 株式会社島津製作所 Mass spectrometry method and mass spectrometer
JP7652355B2 (en) 2020-01-15 2025-03-27 Necソリューションイノベータ株式会社 DESIGN APPARATUS, DESIGN METHOD, APTAMER PRODUCTION METHOD, AND PROGRAM
CN111310834B (en) * 2020-02-19 2024-05-28 深圳市商汤科技有限公司 Data processing method and device, processor, electronic equipment and storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4940396B2 (en) * 2006-02-27 2012-05-30 独立行政法人産業技術総合研究所 RNA sequence information processing equipment
JP4841396B2 (en) * 2006-10-18 2011-12-21 Necソフト株式会社 Base sequence identification device, nucleic acid molecule secondary structure acquisition device, base sequence identification method, nucleic acid molecule secondary structure acquisition method, program and recording medium
JP5007803B2 (en) * 2007-03-09 2012-08-22 独立行政法人農業生物資源研究所 Gene clustering apparatus, gene clustering method and program
JP4873486B2 (en) * 2007-05-21 2012-02-08 Necソフト株式会社 Method for predicting secondary structure of nucleic acid sequence, apparatus for predicting secondary structure of nucleic acid sequence, and program for predicting secondary structure of nucleic acid sequence

Also Published As

Publication number Publication date
JP2011024473A (en) 2011-02-10

Similar Documents

Publication Publication Date Title
CN111695626B (en) High-dimensionality unbalanced data classification method based on mixed sampling and feature selection
Rannala The art and science of species delimitation
Wu et al. MUSTER: improving protein sequence profile–profile alignments by using multiple sources of structure information
Liu et al. Protein remote homology detection by combining Chou’s distance-pair pseudo amino acid composition and principal component analysis
Sims et al. Alignment-free genome comparison with feature frequency profiles (FFP) and optimal resolutions
Naim et al. SWIFT—scalable clustering for automated identification of rare cell populations in large, high‐dimensional flow cytometry datasets, Part 1: Algorithm design
Liu et al. ProtDec-LTR3. 0: protein remote homology detection by incorporating profile-based features into learning to rank
Deng et al. Boosting prediction performance of protein–protein interaction hot spots by using structural neighborhood properties
Lebatteux et al. Toward an alignment-free method for feature extraction and accurate classification of viral sequences
JP5419145B2 (en) Aptamer classification device, aptamer classification method, program, and recording medium
Jing et al. Sorting protein decoys by machine-learning-to-rank
Shen et al. WITCH: improved multiple sequence alignment through weighted consensus hidden Markov model alignment
Adhikari et al. Protein contact prediction by integrating deep multiple sequence alignments, coevolution and machine learning
Niu et al. Predicting DNA binding proteins using support vector machine with hybrid fractal features
JP5194818B2 (en) Data classification method and data processing apparatus
Bornot et al. A new prediction strategy for long local protein structures using an original description
Bezerra et al. Bioinformatics data analysis using an artificial immune network
Kurniawan et al. Combining PSSM and physicochemical feature for protein structure prediction with support vector machine
Liu et al. Improving the orientation‐dependent statistical potential using a reference state
Esmat et al. A parallel hash‐based method for local sequence alignment
Kumar et al. Application of genetic algorithms for the prioritization of association rules
WO2023123023A1 (en) Method and device for screening molecules and application thereof
JP5732697B2 (en) Prediction device, prediction method, program, and recording medium
Geurts et al. Segment and combine approach for biological sequence classification
Zhang et al. A multilayer evaluation approach for protein structure prediction and model quality assessment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131114

R150 Certificate of patent or registration of utility model

Ref document number: 5419145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350