KR20190032847A - miRNA and mRNA ASSOCIATION ANALYSIS METHOD AND GENERATING APPARATUS FOR miRNA and mRNA ASSOCIATION NETWORK - Google Patents
miRNA and mRNA ASSOCIATION ANALYSIS METHOD AND GENERATING APPARATUS FOR miRNA and mRNA ASSOCIATION NETWORK Download PDFInfo
- Publication number
- KR20190032847A KR20190032847A KR1020170121201A KR20170121201A KR20190032847A KR 20190032847 A KR20190032847 A KR 20190032847A KR 1020170121201 A KR1020170121201 A KR 1020170121201A KR 20170121201 A KR20170121201 A KR 20170121201A KR 20190032847 A KR20190032847 A KR 20190032847A
- Authority
- KR
- South Korea
- Prior art keywords
- mirna
- mrna
- association
- expression data
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
miRNA-mRNA 연관도 분석 방법은 컴퓨터 장치가 복수의 miRNA의 발현 데이터 및 복수의 mRNA의 발현 데이터를 포함하는 샘플 데이터를 생성하는 단계, 상기 컴퓨터 장치가 상기 복수의 miRNA 중 적어도 하나와 상기 복수의 mRNA 중 적어도 하나에 대한 복수의 제1 연관도 모델을 생성하는 단계 및 상기 컴퓨터 장치가 상기 복수의 제1 연관도 모델을 통합하여 제2 연관도 모델을 생성하는 단계를 포함한다.The miRNA-mRNA association assay method comprises the steps of: generating a sample data including a plurality of miRNA expression data and expression data of a plurality of mRNAs, wherein the computer device is operable to detect at least one of the plurality of miRNAs and the plurality of mRNAs Generating a plurality of first association models for at least one of the plurality of first association models and the computer device combining the plurality of first association models to generate a second association model.
Description
이하 설명하는 기술은 miRNA와 mRNA의 연관성을 분석하는 기법에 관한 것이다.The technique described below relates to a technique for analyzing the relationship between miRNA and mRNA.
mRNA(messenger RNA)는 mRNA는 DNA 원형으로부터 전사되고, 유전정보에 암호(codon)를 부여하여 단백질 합성이 일어나는 장소인 리보솜으로 운반한다. mRNA는 단백질 합성을 위한 정보를 전달하여 단백질 합성에 직접 관여한다. 마이크로 RNA(miRNA)는 식물, 동물, 바이러스 등에서 발견되며 약 22개의 뉴클레오타이드로 구성된 작은 비발현 RNA 분자이다. miRNA는 특정 mRNA에 대한 번역(translation) 과정을 억제(제어)한다. 즉 miRNA는 단백질 합성을 위한 코돈 정보를 제공하지 않지만, 단백질 합성을 일정하게 제어하는 기능을 수행한다. miRNA는 세포분화, 세포간 신호 전달 또는 특정 종양과 같은 생물학적 과정에 광범위하게 관여한다고 알려졌다. miRNA는 유전자 발현을 제어하는 과정에서 중요한 역할을 한다. 따라서 특정 miRNA와 특정 mRNA 사이의 기능적 연관성을 갖는다고 하겠다. miRNA와 mRNA 사이의 연관성에 대한 연구가 수행되고 있다.mRNA (messenger RNA), mRNA, is transcribed from a DNA prototype and carries it to the ribosomes where the protein synthesis takes place by giving a codon to the genetic information. mRNA is directly involved in protein synthesis by transmitting information for protein synthesis. MicroRNAs (miRNAs) are small non-expressed RNA molecules that are found in plants, animals, viruses, and are composed of about 22 nucleotides. miRNAs inhibit (control) the translation process for specific mRNAs. In other words, miRNA does not provide codon information for protein synthesis, but it functions to control protein synthesis constantly. miRNAs are known to be involved extensively in biological processes such as cell differentiation, intercellular signaling or specific tumors. miRNA plays an important role in the process of controlling gene expression. Therefore, we have a functional relationship between a specific miRNA and a specific mRNA. Studies are underway on the relationship between miRNA and mRNA.
miRNA는 mRNA의 3'-UTR(3'-untranslated regions)에 있는 상보적 서열에 결합하여 특정 mRNA에 대한 전사후 조절을 한다. 이러한 특성에 기반하여 서열의 상보성 또는 구조적 안정성을 기준으로 서열 데이터를 이용한 miRNA와 mRNA 사이의 연관성 연구가 있었다. miRNA binds to complementary sequences in the 3'-untranslated regions of mRNA to regulate post-transcription to specific mRNAs. Based on these properties, there was a correlation between miRNA and mRNA using sequence data based on the complementarity or structural stability of the sequence.
특정 miRNA가 특정 mRNA를 제어하기 위하여, 해당 miRNA의 발현 수준이 변경될 수 있다. 즉, miRNA의 발현과 mRNA의 발현 사이에 일정한 상관 관계가 있다. 이러한 특성에 기반하여 miRNA와 mRNA 사이의 연관성을 확인하기 위한 네트워크 구축을 위한 연구가 있었다.In order for a particular miRNA to control a particular mRNA, the level of expression of that miRNA may be altered. That is, there is a certain correlation between miRNA expression and mRNA expression. Based on these properties, there has been research into network construction to confirm the association between miRNA and mRNA.
(1) 서열 데이터 기반한 분석방법은 특정 miRNA와 mRNA 사이의 연관성을 분석하는데 적합할 수 있지만, 높은 위양성(false positive) 및 위음성(false negative)을 갖는다. (2) miRNA과 mRNA의 발현의 상관성을 이용한 분석 방법은 (i)유전자 발현 데이터를 이용하여 miRNA가 mRNA에 간접적으로 영향을 주는 것을 배제하기 어렵다. 즉 miRNA과 mRNA의 네트워크에 잘못된 에지(edge)가 존재할 가능성이 높다. (ii) 또한 마이크로 어레이 데이터는 기본적으로 한정된 표본으로부터 추출된다. 따라서 miRNA과 mRNA의 연관성에 대한 신뢰성에 문제(High-dimension Low-sample size problem)가 있다. (iii) 나아가 miRNA과 mRNA의 연관성 분석을 위한 특정한 발현 데이터에 대하여 어떤한 분석 기법이 더욱 유효한지 사전에 알기 어려울 수도 있다. 예컨대, 다양한 실험 환경에서 하나의 기법을 적용하면 실험 결과가 일관되지 않을 수 있다.(1) Sequence data-based analytical methods may be suitable for analyzing the association between specific miRNAs and mRNAs, but have high false positives and false negatives. (2) The analysis method using the correlation between the expression of miRNA and mRNA (i) It is difficult to exclude that miRNA indirectly affects mRNA by using gene expression data. In other words, there is a high probability that there is a false edge in the network of miRNA and mRNA. (ii) Microarray data is also basically extracted from a limited sample. Therefore, there is a high-dimensional low-sample size problem in the relationship between miRNA and mRNA. (iii) Further, it may be difficult to predict in advance whether an analysis technique is more effective for specific expression data for miRNA-mRNA association analysis. For example, if one technique is applied in various experimental environments, the experimental results may be inconsistent.
이하 설명하는 기술은 종래 문제점을 해결하고 miRNA와 mRNA 사이의 연관성을 분석할 수 있는 기법을 제공하고자 한다.The techniques described below attempt to solve the conventional problems and provide a technique for analyzing the relationship between miRNA and mRNA.
miRNA-mRNA 연관도 분석 방법은 컴퓨터 장치가 복수의 miRNA의 발현 데이터 및 복수의 mRNA의 발현 데이터를 포함하는 샘플 데이터를 생성하는 단계, 상기 컴퓨터 장치가 상기 복수의 miRNA 중 적어도 하나와 상기 복수의 mRNA 중 적어도 하나에 대한 복수의 제1 연관도 모델을 생성하는 단계 및 상기 컴퓨터 장치가 상기 복수의 제1 연관도 모델을 통합하여 제2 연관도 모델을 생성하는 단계를 포함한다.The miRNA-mRNA association assay method comprises the steps of: generating a sample data including a plurality of miRNA expression data and expression data of a plurality of mRNAs, wherein the computer device is operable to detect at least one of the plurality of miRNAs and the plurality of mRNAs Generating a plurality of first association models for at least one of the plurality of first association models and the computer device combining the plurality of first association models to generate a second association model.
miRNA-mRNA 네트워크 생성 장치는 복수의 miRNA의 발현 데이터 및 복수의 mRNA의 발현 데이터를 입력받는 입력 장치, miRNA-mRNA 네트워크 구축을 위한 프로그램을 저장하는 저장 장치 및 상기 복수의 miRNA의 발현 데이터 및 복수의 mRNA의 발현 데이터를 입력데이터로 사용하는 상기 프로그램을 실행하여 상기 복수의 miRNA의 발현 데이터 및 복수의 mRNA의 발현 데이터를 입력데이터를 포함하는 샘플 데이터를 생성하고, 상기 샘플 데이터를 이용하여 상기 복수의 miRNA 중 적어도 하나와 상기 복수의 mRNA 중 적어도 하나에 대한 복수의 제1 연관도 모델을 생성하고, 상기 복수의 제1 연관도 모델을 통합하여 제2 연관도 모델을 생성하고, 상기 제2 연관도 모델을 기준으로 상기 복수의 miRNA 중 적어도 하나와 상기 복수의 mRNA 중 적어도 하나에 대한 연관도를 나타내는 miRNA-mRNA 네트워크를 생성하는 연산 장치를 포함한다.The miRNA-mRNA network generating apparatus includes an input device for receiving expression data of a plurality of miRNAs and expression data of a plurality of mRNAs, a storage device for storing a program for building a miRNA-mRNA network, the method comprising: executing the program using mRNA expression data as input data to generate sample data including input data and expression data of the plurality of miRNAs and expression data of a plurality of mRNAs; generating a plurality of first association models for at least one of the miRNAs and the plurality of mRNAs, integrating the plurality of first association models to generate a second association model, A miRNA-m < / RTI > indicating a degree of association of at least one of the plurality of miRNAs with at least one of the plurality of mRNAs And an arithmetic unit for generating an RNA network.
이하 설명하는 기술은 적은 샘플 데이터를 이용하는 경우에도 miRNA와 mRNA의 직접적 연관성을 신뢰도 높게 나타내는 miRNA- mRNA 네트워크를 제공한다.The techniques described below provide a miRNA-mRNA network that reliably correlates miRNAs with mRNA even when using small sample data.
도 1은 miRNA-mRNA 네트워크를 구축하는 과정에 대한 예이다.
도 2는 miRNA-mRNA 네트워크에 대한 예이다.
도 3은 miRNA-mRNA 네트워크 구축을 위한 절차 흐름도의 예이다.
도 4는 miRNA-mRNA 네트워크 구축 장치에 대한 예이다.
도 5는 제안 기법의 효과를 검증한 실험 결과의 예이다.Figure 1 is an example of a process for constructing a miRNA-mRNA network.
Figure 2 is an example of a miRNA-mRNA network.
Figure 3 is an example of a procedure flow diagram for miRNA-mRNA network construction.
4 is an example of a miRNA-mRNA network construction apparatus.
FIG. 5 shows an example of an experimental result that verifies the effect of the proposed technique.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.The following description is intended to illustrate and describe specific embodiments in the drawings, since various changes may be made and the embodiments may have various embodiments. However, it should be understood that the following description does not limit the specific embodiments, but includes all changes, equivalents, and alternatives falling within the spirit and scope of the following description.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.The terms first, second, A, B, etc., may be used to describe various components, but the components are not limited by the terms, but may be used to distinguish one component from another . For example, without departing from the scope of the following description, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.As used herein, the singular " include " should be understood to include a plurality of representations unless the context clearly dictates otherwise, and the terms " comprises & , Parts or combinations thereof, and does not preclude the presence or addition of one or more other features, integers, steps, components, components, or combinations thereof.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.Before describing the drawings in detail, it is to be clarified that the division of constituent parts in this specification is merely a division by main functions of each constituent part. That is, two or more constituent parts to be described below may be combined into one constituent part, or one constituent part may be divided into two or more functions according to functions that are more subdivided. In addition, each of the constituent units described below may additionally perform some or all of the functions of other constituent units in addition to the main functions of the constituent units themselves, and that some of the main functions, And may be carried out in a dedicated manner.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.Also, in performing a method or an operation method, each of the processes constituting the method may take place differently from the stated order unless clearly specified in the context. That is, each process may occur in the same order as described, may be performed substantially concurrently, or may be performed in the opposite order.
이하 설명하는 기술은 마이크로 RNA(micro RNA, miRNA)와 mRNA의 연관성을 분석하는 기법에 관한 것이다. 이하 설명하는 기술은 마이크로어레이(micro array) 데이터를 이용하여 분석 대상인 miRNA와 mRNA의 연관성을 분석한다.The technique described below relates to a technique for analyzing the relationship between microRNA (miRNA) and mRNA. The technique described below analyzes the relationship between miRNA and mRNA to be analyzed using microarray data.
이하 설명하는 기술은 유전자 발현 데이터로부터 miRNA와 mRNA의 연관성을 나타내는 miRNA-mRNA 네트워크를 구축한다. miRNA-mRNA 네트워크는 miRNA와 mRNA의 연관성을 나타내기 위한 그래프 자료 구조를 의미한다. The technique described below establishes a miRNA-mRNA network that shows the association of miRNA and mRNA from gene expression data. The miRNA-mRNA network refers to a graphical data structure to show the relationship between miRNA and mRNA.
도 1은 miRNA-mRNA 네트워크를 구축하는 과정에 대한 예이다. 먼저 miRNA의 발현 데이터 및 mRNA의 발현 데이터를 획득한다(A). 유전자 발현 데이터는 예컨대, 마이크로어레이 실험의 결과물일 수 있다. 유전자 발현 데이터는 도 1과 같이 마이크로어레이 실험을 수행한 출력 데이터 내지 영상 데이터일 수 있다. 연구자가 유전자 발현 데이터를 이용하여 특정 유전자의 발현 상태를 도출할 수 있다. 또는 컴퓨터 장치가 자동으로 마이크로어레이 실험 결과 데이터를 읽고 분석하여 특정 유전자의 발현 상태를 도출할 수 있다. 이후 컴퓨터 장치가 miRNA-mRNA 네트워크를 구축하므로 유전자 발현 데이터는 디지털 데이터 형태로 변환된다고 전제한다. 이후 컴퓨터 장치가 miRNA 및 mRNA의 상관성을 나타내는 모델(행렬)을 도출한다(B). 마지막으로 miRNA 및 mRNA의 상관성을 나타내는 모델을 이용하여 컴퓨터 장치가 miRNA-mRNA 네트워크를 구축한다. 자세한 과정에 대해서는 후술한다. Figure 1 is an example of a process for constructing a miRNA-mRNA network. First, miRNA expression data and mRNA expression data are obtained (A). The gene expression data may be, for example, the result of a microarray experiment. The gene expression data may be output data or image data on which the microarray experiment is performed as shown in FIG. Researchers can derive the expression status of a specific gene using gene expression data. Or the computer device can automatically read and analyze the microarray experiment result data to derive the expression state of a specific gene. Since the computer device constructs the miRNA-mRNA network, it is assumed that the gene expression data is converted into digital data. Then, the computer device derives a model (matrix) representing the correlation of miRNA and mRNA (B). Finally, a computer device constructs a miRNA-mRNA network using a model that shows the correlation of miRNA and mRNA. The detailed process will be described later.
도 2는 miRNA-mRNA 네트워크에 대한 예이다. 도 2는 도 1(C)에서 생성되는 결과물에 해당한다. 도 2에서 원은 mRNA를 나타내고, 사각형은 miRNA를 나타낸다. 분석 결과 도출되는 그래프에서 노드(miRNA와 mRNA)가 에지로 연결되면, 해당 miRNA와 mRNA는 직접적 연관성을 갖는다는 의미이다. 도 2의 miRNA-mRNA 네트워크에서 에지로 연결된 miRNA와 mRNA는 직접적 연관성을 갖는다. 예컨대, miRNA a는 4개의 mRNA 1, 2, 3 및 4와 연관성을 갖는다. 즉 miRNA a는 mRNA 1, 2, 3 및 4의 제어 기작에 관여한다. mRNA 4는 3개의 miRNA a, b 및 d와 연관성을 갖는다. 즉, miRNA a, b 및 d는 mRNA 4의 제어 기작에 관여한다.Figure 2 is an example of a miRNA-mRNA network. Figure 2 corresponds to the result produced in Figure 1 (C). In Figure 2, the circle represents mRNA and the square represents miRNA. When the nodes (miRNA and mRNA) are connected to the edge in the resulting graph, it means that the miRNA and mRNA are directly related to each other. In the miRNA-mRNA network of FIG. 2, the edge-linked miRNA and mRNA are directly related. For example, miRNA a is associated with four
이하 설명하는 기술은 직접적 연관성을 갖는 miRNA-mRNA 네트워크를 구축하기 위하여 몇 가지 기법을 사용한다. 간략하게 설명하면 (1) 직접적 연관성을 식별하기 위한 기법, (2) 부트스트래핑(Bootstrapping) 기법 및 (3) 앙상블(Ensemble) 기법을 사용한다. 첫 째, 발현 데이터로부터 예측되는 간접적 연관성을 배제한다. 직접적 연관성만을 식별하기 위하여 ①부분상관계수 추정법(Partial correlation estimation), ②희박 부분상관계수 추정법(Sparse PArtialCorrelation Estimation, SPACE) 및 ③ 네트워크 디컨볼루션(Network deconvolution) 중 적어도 하나를 사용할 수 있다. 이 방법은 miRNA와 mRNA의 직접적인 상관성을 유추하기 위한 것이다. 둘 째, 적은 샘플로 인한 문제(High-dimension Low-sample size problem)를 해결하기 위하여 실험에서 서로 다른 양상으로 발현된 miRNA와 mRNA에 대한 데이터를 식별하여 데이터 세트의 차원을 줄인다. 또한 한정된 샘플 크기를 최대한 활용하고자 부트스트래핑 기법을 사용한다. 셋 째, 유추된 miRNA와 mRNA의 연관성의 신뢰도를 높이기 위하여, 비모수 앙상블(non-parametric Ensemble) 기법을 사용한다. 부트스트래핑 기법과 서로 다른 직접 연관성 식별 결과를 통합적으로 사용하기 위하여 순위 기반 비모수 앙상블 기법(rank-based non-parametric Ensemble)을 사용한다.The techniques described below use several techniques to construct a miRNA-mRNA network with direct association. Briefly, (1) techniques for identifying direct associations, (2) bootstrapping techniques, and (3) ensemble techniques are used. First, we exclude indirect associations predicted from expression data. At least one of (1) Partial correlation estimation, (2) Sparse Partial Correlation Estimation (SPACE), and (3) Network deconvolution may be used to identify only direct associations. This method is intended to infer the direct correlation between miRNA and mRNA. Second, in order to solve the problem of high-dimension low-sample size problem, the experiment identifies miRNAs and mRNAs expressed in different aspects to reduce the size of the data set. We also use bootstrapping techniques to maximize the limited sample size. Third, non-parametric Ensemble techniques are used to increase the reliability of the relationship between miRNA and mRNA inferred. A rank-based non-parametric Ensemble is used to integrate the bootstrapping technique and the different direct association identification results.
도 3은 miRNA-mRNA 네트워크 구축을 위한 절차 흐름도의 예이다. 이하 miRNA-mRNA 네트워크 구축 과정은 컴퓨터 장치에 수행된다고 전제한다.Figure 3 is an example of a procedure flow diagram for miRNA-mRNA network construction. Hereinafter, it is assumed that the miRNA-mRNA network construction process is performed on a computer device.
먼저 miRNA와 mRNA의 연관성을 분석하기 위하여 매칭되는 miRNA와 mRNA의 발현 데이터가 필요하다. 이후 분석 대상은 매칭된 miRNA와 mRNA의 발현 데이터라고 전제한다. 컴퓨터 장치는 miRNA의 발현 데이터 및 mRNA의 발현 데이터를 입력 받는다(110, 120). 컴퓨터 장치는 발현 데이터를 이용하여 특정 유전자의 발현 상태를 확인할 수 있다고 전제한다. 한편 컴퓨터 장치는 입력된 발현 데이터를 일정하게 전처리할 수 있다. 전처리는 이후 분석을 위하여 발현 데이터를 정규화하는 과정이다.First, miRNA and mRNA expression data are required to analyze the relationship between miRNA and mRNA. It is assumed that the target of the analysis is the expression data of matched miRNA and mRNA. The computer device receives the expression data of the miRNA and the expression data of the mRNA (110, 120). The computer device is presumed to be able to confirm the expression status of a specific gene using expression data. On the other hand, the computer device can constantly pre-process the input expression data. Pretreatment is the process of normalizing expression data for later analysis.
컴퓨터 장치는 miRNA의 발현 데이터와 mRNA의 발현 데이터에서 차별 발현 유전자(differentially expressed gene)를 식별하여 데이터의 차원을 줄인다(115, 125). 차별 발현 유전자는 대조검체에 비하여 실험검체에서 유의하게 발현이 증가하거나 감소하는 유전자를 의미한다. 통상적으로 마이크로어레이 데이터에서 평균치와 비교하면서 차별 발현 유전자를 식별한다. 예컨대, SAM(Significance Anlysis of Microarray) 방법 등을 사용할 수 있다.The computer device identifies the differentially expressed genes in miRNA expression data and mRNA expression data to reduce the dimensionality of the data (115, 125). The differentially expressed gene means a gene whose expression is significantly increased or decreased in the test sample as compared with the control sample. Generally, differentially expressed genes are identified by comparing them with the average values in microarray data. For example, a SAM (Significant Anlysis of Microarray) method or the like can be used.
이는 활성적인 miRNA와 mRNA의 연관성에 집중하기 위한 것이다. miRNA 발현 데이터와 mRNA 발현 데이터는 서로 다른 플랫폼에서 획득하기 때문에, 선택된 발현 데이터는 통합 되어야 한다. 컴퓨터 장치는 miRNA와 mRNA 발현 데이터 중 선택된 데이터를 통합(integration)한다(130). 도 3에서 발현 데이터를 나타내는 테이블에서 가장 위에 위치하는 숫자는 유전자의 식별자에 해당한다. 또한 컴퓨터 장치는 miRNA 발현 데이터와 mRNA 발현 데이터의 스케일링(scaling)을 수행할 수도 있다.This is to focus on the association of active miRNA with mRNA. Since miRNA expression data and mRNA expression data are obtained on different platforms, the selected expression data must be integrated. The computer device integrates the selected data of miRNA and mRNA expression data (130). In FIG. 3, the highest number in the table representing the expression data corresponds to the identifier of the gene. The computer device may also perform scaling of miRNA expression data and mRNA expression data.
나아가 컴퓨터 장치는 샘플의 크기가 작은 문제를 해결하기 위하여 통합된 miRNA와 mRNA 발현 데이터에 대한 부트스트래핑을 수행한다(140). 부트스트래핑은 m개의 새로운 훈련 데이터 세트를 생성한다. 부트스트래핑은 하나의 모델에 대한 다양한 버젼(version)을 생성하는 기법이다. 부트스트래핑은 널리 알려진 기법이므로 자세한 설명은 생략한다. 부트스트래핑은 모집단 샘플에서 표본 데이터를 반복적으로 추출하여 새로운 데이터 세트를 생성한다. 새로운 데이터 세트에 포함된 데이터는 본래의 표본 데이터에 값으로 구성된다. 전술한 통합된 miRNA와 mRNA 발현 데이터에 대해 m번 부트스트래핑을 수행하면 m개의 새로운 데이터 세트가 생성된다. Further, the computer device performs bootstrapping (140) on the integrated miRNA and mRNA expression data to solve the small sample size problem. Bootstrapping generates m new training data sets. Bootstrapping is a technique for generating various versions of a model. Bootstrapping is a well-known technique, so a detailed description is omitted. Bootstrapping repeatedly extracts sample data from a population sample to generate a new data set. The data contained in the new data set is composed of values in the original sample data. Performing m-times bootstrapping on the integrated miRNA and mRNA expression data described above produces m new data sets.
컴퓨터 장치는 직접적 miRNA와 mRNA의 연관성을 도출하기 위하여 통합된 miRNA 발현 데이터와 mRNA 발현 데이터에 3가지 직접적 상관도 유추 기법을 적용한다(150, 160 및 170). 직접적 연관성을 도출하기 위한 추론 기법은 표현형 데이터로부터 직접적 상관 모델을 생성한다. 상관 모델은 miRNA와 mRNA 사이에서 가능한 모든 조합을 포함하는 행렬 형태를 갖는다. 컴퓨터 장치는 3가지 직접적 상관도 유추 기법 각각에 대하여 부트스트래핑 결과인 m개의 샘플을 이용하여 직접적 상관도를 유추한다. 각 상관도 유추 기법은 m개의 샘플을 이용하여 m개의 모델을 생성한다. 컴퓨터 장치는 각 상관도 유추 기법이 생성한 m개의 모델은 순위 기반 통합 기법(rank-based aggregation)을 사용하여 하나의 모델을 생성한다(155, 165 및 175). 도 3에서는 3가지 기법을 모두 사용하는 예를 도시하였다. 다만 경우에 따라서는 도 3에서 설명한 3가지 기법(부분상관계수 추정법, 희박 부분상관계수 추정법 및 네트워크 디컨볼루션) 중 적어도 하나 이상을 이용할 수도 있다.The computer device applies three direct correlation inference techniques (150, 160 and 170) to the integrated miRNA expression data and mRNA expression data to derive the direct miRNA-to-mRNA association. Inference techniques to derive direct associations generate direct correlation models from phenotypic data. The correlation model has a matrix form containing all possible combinations between miRNA and mRNA. The computer device derives a direct correlation using m samples from the bootstrapping results for each of the three direct correlation inference techniques. Each correlation inference method generates m models using m samples. In the computer device, m models generated by each correlation inference technique generate a single model using rank-based aggregation (155, 165, and 175). FIG. 3 shows an example in which all three techniques are used. In some cases, however, at least one of the three techniques described in FIG. 3 (partial correlation coefficient estimation, lean partial correlation estimation and network deconvolution) may be used.
서로 다른 상관도 유추 기법이 생성한 모델을 통합하기 위하여, 컴퓨터 장치는 순위 기반 앙상블 기법을 사용한다(180). 이를 통해 컴퓨터 장치는 최종적으로 하나의 직접 상관 모델을 생성한다. In order to integrate models generated by different correlation inference techniques, computer devices use rank-based ensemble techniques (180). Whereby the computer device eventually generates one direct correlation model.
최종적인 직접 상관 모델(행렬)의 값에 대하여 일정한 임계값을 적용하여 직접 miRNA-mRNA 네트워크를 구축할 수 있다(190). 예컨대, 임계값이 50이라면, 컴퓨터 장치는 직접 상관 모델에서 50 미만은 필터링(무시)하고, 50 이상인 값을 갖는 행렬이 직접적 상관관계를 갖는다고 판단한다. 컴퓨터 장치는 행렬의 값이 50 이상인 miRNA와 mRNA 쌍에 대하여 에지를 연결하여 miRNA-mRNA 네트워크를 구축할 수 있다.A direct miRNA-mRNA network can be constructed by applying a constant threshold to the value of the final direct correlation model (matrix) (190). For example, if the threshold is 50, then the computer device will filter (ignore) less than 50 in the direct correlation model and determine that the matrix with values greater than 50 has a direct correlation. A computer device can construct an miRNA-mRNA network by linking edges to miRNA and mRNA pairs with a matrix value of 50 or greater.
3가지 직접적 상관도 유추 기법에 대해 구체적으로 설명한다. 직접적 상관도 유추 기법은 전술한 바와 같이 miRNA-mRNA 네트워크에 나타날 수 있는 간접적 상관을 배제하기 위한 것이다. The three direct correlation inference methods are explained in detail. The direct correlation inference technique is intended to exclude the indirect correlation that may appear in the miRNA-mRNA network as described above.
①부분상관계수 추정법(Partial correlation estimation)① Partial correlation estimation method
부분상관계수 추정법은 무작위 변수 세트의 효과를 억제하여 두 개의 무작위 변수 사이의 연관성 가중치를 측정한다. 부분상관에 기반한 방법은 공분산 행렬의 역행렬인 집중행렬(concentration matrix)에서 0(zero)이 아닌 항목을 통해 조건부 종속성(conditional dependency)을 유추할 수 있다. 부분상관계수 추정법을 적용하여 유전자 네트워크를 분석하면, 0인 항목은 두 개의 노드 사이에 직접적인 영향이 없는 관계를 의미한다. 즉 0이 아닌 항목은 두 개의 노드 사이에 직접적 연관성이 있다는 것을 의미한다. 부분상관계수 추정을 위하여 종래 연구된 기법을 이용할 수도 있다(예컨대, Schafer J, Strimmer K. A shrinkage approach to large-scale covariance matrix estimation and implications for functional genomics. Statist Appl Genet Mol Biol. 2005;4:32). 부분상관계수 추정법을 이용하여 miRNA 발현 데이터와 mRNA의 발현 데이터에서 직접적 연관성을 갖는 하나 이상의 miRNA와 mRNA를 추정할 수 있다.The partial correlation estimator measures the association weights between two random variables by suppressing the effect of a set of random variables. The method based on partial correlation can infer conditional dependency through nonzero entries in the concentration matrix, which is an inverse of the covariance matrix. Analysis of the gene network using the partial correlation estimation method indicates that the zero item has no direct effect between the two nodes. That is, a nonzero entry means that there is a direct association between the two nodes. (See, for example, Schafer J, Strimmer K. A shrinkage approach to large-scale covariance matrix estimation and implications for functional genomics. Statist Appl Genet Mol Biol. 2005; 4: 32 ). The partial correlation estimator can be used to estimate one or more miRNAs and mRNAs that are directly related to miRNA expression data and mRNA expression data.
②희박 부분상관계수 추정법(SPACE) ② Lean partial correlation estimation method (SPACE)
SPACE는 적은 샘플을 갖는 상황에서 부분상관계수를 연산하는 다른 기법이다(Peng J, Wang P, Zhou N, Zhu J. Partial correlation estimation by joint sparse regression models. J Am Stat Assoc - Theory and Methods. 2009;104(486):735-46. 참조). SPACE는 부분상관을 나타내는 행렬이 희소(spase)하고, 대부분의 변수 쌍이 조건부 독립성을 갖는다고 가정한다. SPACE는 행렬의 요소가 대부분 0인 희소 행렬을 산출한다. SPACE는 결국 0이 아닌 부분의 상관관계를 추정하는데 도움이 된다. SPACE는 희소 회귀기법을 사용하여 희소 부분상관을 추정한다. SPACE is another technique for calculating partial correlation coefficients in the presence of small samples (Peng J, Wang P, Zhou N, Zhu J. J Am Stat Assoc - Theory and Methods. 2009; 104 (486): 735-46). SPACE assumes that the matrix representing the partial correlation is sparse and that most pairs of variables have conditional independence. SPACE yields a sparse matrix whose elements are mostly zero. SPACE eventually helps to estimate the nonzero correlation. SPACE uses sparse regression techniques to estimate sparse partial correlation.
③ 네트워크 디컨볼루션(Network deconvolution)(3) Network deconvolution
네트워크 디컨볼루션 기법은 입력 데이터로부터 종속성 네트워크의 간접적 가중치를 제거하여 직접적 종속성 네트워크를 추론하는 기법이다(Feizi S, Marbach D, Medard M, Kellis M. Network deconvolution as a general method to distinguish direct dependencies in networks. Nat Biotechnol. 2013;31:726-33. 참조). 네트워크 디컨볼루션 기법은 입력 데이터로부터 측정된 연관성 가중치가 직접 및 간접 가중치의 합이라고 가정한다. 나아가 네트워크 디컨볼루션 기법은 간접 정보 흐름이 직접 연관성 가중치로부터 추정할 수 있다고 가정한다.The network deconvolution technique is a technique for inferring a direct dependency network by removing the indirect weight of the dependency network from the input data (Feizi S, Marbach D, Medard M, Kellis M. Network deconvolution as a general method to distinguish direct dependencies in networks Nat Biotechnol. 2013; 31: 726-33). The network deconvolution technique assumes that the relevance weights measured from the input data are the sum of the direct and indirect weights. Furthermore, the network deconvolution technique assumes that the indirect information flow can be estimated directly from the association weights.
Gobs를 관측된 독립성 네트워크, Gtru를 진정한 독립성 네트워크, Gind를 간접적 독립성 네트워크라고 하자. Gobs를 아래의 수학식 1과 같이 표현할 수 있다.Let G obs be the observed independence network, G tru be the true independence network, and G ind be the indirect independence network. G obs can be expressed as
따라서 네트워크 디컨볼루션 기법은 모든 가능한 간접적 경로를 지나가는 경유 정보의 효과를 역으로 구성하여 진정한 직접 종속성 네트워크를 도출한다. 결국 진정한 직접 종속성 네트워크는 아래의 수학식 2와 같다.Therefore, the network deconvolution technique derives a true direct dependency network by reversing the effect of passing information across all possible indirect paths. As a result, the true direct dependency network is given by
컴퓨터 장치는 상호적 정보를 사용하는 miRNA와 mRNA 표현 데이터 사이에서 관측된 상관을 추정한다. 그리고 컴퓨터 장치는 디컨볼루션 기법을 miRNA와 mRNA 사이의 상관 모델에 적용하여 간접적 상관을 배제한다.The computer device estimates the observed correlation between miRNA and mRNA expression data using reciprocal information. The computer device then applies deconvolution techniques to the correlation model between miRNA and mRNA to exclude indirect correlation.
전술한 3가지 직접적 상관도 유추 기법은 각각 하나의 모델(행렬로 표현)을 생성한다. 이제 서로 다른 기법으로 miRNA와 mRNA의 상관성을 유추한 모델을 통합하기 위한 절차를 설명한다. 컴퓨터 장치는 전술한 순위 기반 앙상블 기법을 사용하여 서로 다른 모델을 통합한다. 이하 컴퓨터 장치가 순위 기반 비모수 앙상블 기법을 사용한다고 전제한다.Each of the three direct correlation inference techniques described above generates one model (represented by a matrix). We now describe procedures for integrating miRNA-mRNA-correlated models with different techniques. The computer device incorporates different models using the rank-based ensemble technique described above. It is assumed that the computer system uses the rank - based nonparametric ensemble technique.
전통적인 순위 기반 통합 기법은 순위 합계 기반(rank-sum-based) 접근, 평균 순위 기반(average-rank-based) 접근 또는 보르다 카운트 기법(Borda count election)을 사용한다. 이하 전술한 3 가지 직접적 상관도 유추 기법의 결과물을 통합하기 위하여 역 순위 기반 방법을 사용한다.Traditional rank-based integration techniques use a rank-sum-based approach, an average-rank-based approach, or a Borda count election. In order to integrate the results of the three direct correlation inference techniques described below, a reverse rank based method is used.
직접 연관성 유추 기법을 통해 생성된 각 행렬은 전체 miRNA-mRNA 조합에 대한 직접적 상관관계를 표현하며 이는 miRNA-mRNA 연관 네트워크 상에서의 에지의 가중치 값을 의미한다. 직접적 상관도 유추 기법을 통해 얻은 결과물을 비모수적으로 통합하기 위해, 각 결과 행렬들의 연관 수치값을 내림차순 순위로 변환하고 값이 작은 순위에 높은 가중치를 부여하기 위해 역 순위 값을 연관성 가중치로 사용한다. 한편 통합 네트워크에서의 특정 miRNA와 mRNA 사이의 가중치는 해당 miRNA-mRNA 쌍의 모든 직접 연관성 유추 기법의 결과물에서의 역순위의 곱으로 계산한다. 즉 특정한 miRNA와 mRNA 사이의 에지는 3가지 직접 연관성 유추 결과 중 동일한 에지에 대한 역순위를 곱한 값으로 결정한다. 예컨대, 3개의 유추 결과가 모두 동일한 에지를 포함한다면, 3개의 역 순위를 모두 곱한 값이 해당 에지의 가중치가 된다. 또는 3개의 유추 결과 중 두 개의 결과(모델)가 동일한 에지를 포함한다면, 2개의 역 순위를 곱한 값이 해당 에지의 가중치가 된다.Each matrix generated by the direct association inference technique represents a direct correlation to the total miRNA-mRNA combination, which is the weight value of the edge on the miRNA-mRNA-related network. In order to integrate the results obtained by the direct correlation inference method non-parametrically, the associative numerical values of the result matrices are converted into the descending order, and the reverse rank value is used as the relevance weight in order to assign a high weight to the small . On the other hand, the weight between a specific miRNA and mRNA in the integrated network is calculated as the product of the reverse rankings of the results of all direct association inference techniques of the corresponding miRNA-mRNA pair. That is, the edge between a specific miRNA and mRNA is determined by multiplying the reverse rank of the same edge among the three direct association inference results. For example, if all three inference results include the same edge, the value obtained by multiplying all three reverse rankings is the weight of the edge. Or if two of the three inference results (the model) contain the same edge, then the product of the two reverse ranks is the weight of that edge.
G가 통합된 네트워크의 연관성 집합, rij가 노드 i와 노드 j 사이의 연관도 가중치 순위라고 하자. 역 순위 기반 전략을 사용하는 통합된 그래프의 연관성 가중치 r'ij는 아래의 수학식 3과 같이 나타낼 수 있다. 아래 수학식 3은 log 연산으로 곱셈 연산을 덤셈으로 변환하여 연산 복잡도를 줄였다.Let r ij be the associative weight set of nodes i and j. The relevance weight r ' ij of the integrated graph using the rank-based strategy can be expressed as
한편 하나의 직접 연관성 유추 기법에서 생성한 m개의 결과물을 통합할 때도 역 순위 접근 기법을 사용할 수 있다. On the other hand, it is also possible to use the reverse ranking approach when merging the m results generated by one direct associative analogy.
전술한 설명에서 컴퓨터 장치가 miRNA-mRNA 네트워크를 구축한다고 하였다. 이하 miRNA-mRNA 네트워크를 구축하는 컴퓨터 장치에 대하여 설명한다. 도 4는 miRNA-mRNA 네트워크 구축 장치에 대한 예이다. 도 4에서 설명하는 구축 장치가 전술한 컴퓨터 장치에 해당한다.In the foregoing description, it has been stated that the computer device constructs the miRNA-mRNA network. Hereinafter, a computer apparatus for constructing a miRNA-mRNA network will be described. 4 is an example of a miRNA-mRNA network construction apparatus. The construction apparatus described in Fig. 4 corresponds to the computer apparatus described above.
도 16(A)는 네트워크 단에 위치한 객체로부터 유전자 발현 데이터를 전달받아 miRNA-mRNA 네트워크를 구축하는 장치(200)에 대한 예이다. miRNA-mRNA 네트워크를 구축 장치(200)는 유전자 발현 DB(210) 및 컴퓨터 장치(220)를 포함한다. 16A is an example of an
유전자 발현 DB(expression DB, 210)는 특정 생물체의 유전자 발현과 관련된 데이터를 저장한다. 전술한 바와 같이 유전자 발현 데이터는 마이크로어레이 등과 같은 기법을 이용하여 마련된다. 유전자 발현 데이터는 miRNA 발현 데이터 및 mRNA 발현 데이터를 포함한다. The gene expression DB (expression DB, 210) stores data related to gene expression of a specific organism. As described above, the gene expression data is prepared using a technique such as a microarray. Gene expression data includes miRNA expression data and mRNA expression data.
컴퓨터 장치(220)는 유전자 발현 DB(210)에 저장된 발현 데이터를 수신한다. 전술한 바와 같이 컴퓨터 장치(220)는 유전자 발현 데이터에 통계적 기법을 적용하여 차별 발현 유전자를 선택하고, 선택한 유전자 발현 데이터를 통합한다. 컴퓨터 장치(220)는 부트스트래핑을 통해 통합된 데이터의 샘플을 증가시킨다. 컴퓨터 장치(220)는 샘플 데이터를 기준으로 직접적 연관도 분석을 위한 3가지 기법을 적용하여 상관도 모델을 생성한다. 컴퓨터 장치(220)는 3가지 기법의 결과물을 통합하여 최종적인 상관도 모델을 생성한다. 마지막으로 컴퓨터 장치(220)는 최종적인 상관도 모델을 기반으로 miRNA-mRNA 네트워크를 구축한다. miRNA-mRNA 네트워크를 구축을 위한 각 과정은 전술한 바와 같다.The
도 4(B) miRNA-mRNA 네트워크를 구축하는 컴퓨터 장치(300)에 대한 예이다. miRNA-mRNA 네트워크를 구축하는 컴퓨터 장치(300)는 입력 장치(310), 연산장치(320), 저장장치(330) 및 출력장치(340)를 포함한다.Fig. 4 (B) is an example of a
입력장치(310)는 유전자 발현 데이터를 입력받는다. 입력장치(310)는 키보드, 마우스, 터치패드 와 같은 물리적인 인터페이스 장치일 수 있다. 또는 입력장치(310)는 외부 저장매체(USB 등)로부터 저장된 유전자 발현 데이터를 전달받은 장치일 수도 있다. 또는 입력장치(310)는 외부 네트워크로부터 유전자 발현 데이터를 수신하는 통신 모듈일 수도 있다.The
저장장치(330)는 miRNA-mRNA 네트워크를 구축을 위한 프로그램을 저장한다. 또한 저장장치(330)는 구축된 miRNA-mRNA 네트워크를 저장할 수도 있다.The
연산장치(320)는 입력되는 유전자 발현 데이터와 저장장치(330)에 저장된 프로그램을 이용하여 miRNA-mRNA 네트워크를 구축하는 연산을 수행한다. miRNA-mRNA 네트워크를 구축 과정은 전술한 컴퓨터 장치(220)가 수행한 과정과 동일하다. 나아가 연산장치(320)는 저장장치(330)에 저장된 분석 프로그램을 이용하여 구축된 miRNA-mRNA 네트워크를 분석하는 과정을 수행할 수도 있다. The
출력장치(340)는 miRNA-mRNA 네트워크 내지 분석 결과를 출력하는 장치이다. 출력장치(340)는 영상을 출력하는 디스플레이 장치, 텍스트를 출력하는 프린터 등일 수 있다. 나아가 출력장치(340)는 생성한 miRNA-mRNA 네트워크 내지 분석 데이터를 다른 장치에 전달하는 통신 모듈일 수도 있다.The
이하 전술한 miRNA-mRNA 연관도를 분석하는 기법에 대한 효과를 설명한다. 이하 전술한 miRNA-mRNA 연관도를 분석하는 기법을 제안 기법이라고 명명한다. 제안 기법에 대한 효과 검증을 위하여 널리 알려진 매칭되는 miRNA와 mRAN의 발현 데이터를 사용한다. 먼저 제안 기법에서 miRNA와 mRAN의 직접적 연관도를 추정하는 기법과 함께 사용된 부트스트래핑과 앙상블 기법의 효과를 살펴보고, 제안 기법과 현재 가장 좋은 성능을 가졌다고 알려진 앙상블 기법의 효과를 비교한다.Hereinafter, the effect on the technique of analyzing miRNA-mRNA association described above will be described. Hereinafter, the technique for analyzing the miRNA-mRNA association is referred to as the proposed technique. To verify the effectiveness of the proposed method, we use widely known miRNA and mRNA expression data. First, we examine the effect of the bootstrapping and ensemble technique, which is used in conjunction with the technique of estimating the direct association between miRNA and mRAN in the proposed scheme, and compare the effectiveness of the proposed technique with the ensemble technique known to have the best performance at present.
종래 연구에서 사용되었던 3개의 매칭되는 miRNA와 mRAN의 발현 데이터 세트를 사용하였다(Le TD, Zhang J, Liu L, Li J. Ensemble methods for miRNA target prediction from expression data. PLoS One. 2015;10(6):e0131627 및 Le TD, Zhang J, Liu L, Liu H, Li J. miRLAB: an R based dry lab for exploring miRNA-mRNA regulatory relationships. PLoS One. 2015;10(12):e0145386. 참조). 3개의 발현 데이터 세트는 EMT(Epithelial to Mesenchymal Transition) 데이터, MCC(Multi-Class Cancer) 데이터 및 BR(Breast Cancer) 데이터이다. EMT 데이터는 11개 샘플의 상피(epithelia) 및 36개 샘플의 중간엽(mesenchymal)에 대한 매칭된 miRNA-mRNA 발현 데이터이다. MCC 데이터는 60개 샘플에서 8개 기관의 정상 조직과 종양 조직에서 획득한 매칭된 miRNA-mRNA 발현 데이터이다. BR 데이터는 50개 샘플의 유방암 조직에서 획득한 매칭된 miRNA-mRNA 발현 데이터이다. Three matched miRNAs and mRNA expression data sets used in previous studies were used (Le TD, Zhang J, Liu L, Li J. Ensemble methods for miRNA target prediction expression data. PLoS One. ): e0131627 and Le TD, Zhang J, Liu L, Liu H, Li J. MiRLAB: an R based dry lab for exploring miRNA-mRNA regulatory relationships. The three expression data sets are EMT (Epithelial to Mesenchymal Transition) data, MCC (Multi-Class Cancer) data, and BR (Breast Cancer) data. EMT data is the matched miRNA-mRNA expression data for 11 samples of epithelia and 36 samples of mesenchymal. MCC data are matched miRNA-mRNA expression data obtained from normal tissues and tumor tissues of eight organs in 60 samples. BR data is the matched miRNA-mRNA expression data obtained in 50 samples of breast cancer tissues.
상용 프로그램을 사용하여 차별 발현 데이터를 선별할 수 있다. 차별 발현을 구분하기 위한 기준으로 p 값을 사용한다. p값을 0.05 미만으로 제한하여 EMT 데이터에서 35개의 miRNA와 1,154개의 mRNA를 선별하였고, MCC 데이터에서 108개의 miRNA와 1,860개의 mRNA를 선별하였다. BR 데이터에서 p값을 0.2 미만으로 제한하여 92개의 miRNA 선별하였고, p값을 0.0001 미만으로 제한하여 1,500개의 mRNA를 선별하였다. 선별한 차별 발현 데이터는 통합되었고, 이후 과정을 위해 일정하게 전처리(표준화)하였다.A commercial program can be used to screen differential expression data. The p value is used as a criterion for distinguishing differentiation expression. 35 miRNAs and 1,154 mRNAs were selected from the EMT data by limiting the p value to less than 0.05, and 108 miRNAs and 1,860 mRNAs were selected from the MCC data. In the BR data, 92 miRNAs were selected by limiting the p value to less than 0.2, and 1,500 mRNAs were selected by limiting the p value to less than 0.0001. Selected differential expression data were integrated and regularly preprocessed (normalized) for further processing.
miRNA와 mRNA의 상관도는 현재까지 실험적 결과로 유추되고 있다. 따라서 종래 연구된 결과에 따른 상관도를 진정한 상관도라고 가정하고, 제안 기술의 효과를 검증하였다. 종래 실험적 결과(진정한 상관도 판단 기준)는 4개의 데이터 베이스인 Tarbase v.6.0 (Vergoulis T, Vlachos IS, Alexiou P, Georgakilas G, Maragkakis M, Reczko M, et al. TarBase 6.0: capturing the exponential growth of miRNA targets with experimental support. Nucleic Acids Res. 2012;40(D1):D222-9.), miRecords v2013(Xiao F, Zuo Z, Cai G, Kang S, Gao X, Li T. miRecords: an integrated resource for microRNA target interactions. Nucleic Acids Res. 2009;37 suppl 1:D105-10.), miRWalk v2.0(Dweep H, Sticht C, Pandey P, Gretz N. miRWalk database: prediction of possible miRNA binding sites by walking the genes of three genomes. J Biomed Inform. 2011;44(5):839-47.) 및 miRTarBase v.4.5(Hsu SD, Tseng YT, Shrestha S, Lin YL, Khaleel A, Chou CH, et al. miRTarBase update 2014: an information resource for experimentally validated miRNAtarget interactions. Nucleic Acids Res. 2014;42(D1):D78-85.)를 통합하여 검증 데이터로 사용하였다. 제안 기법의 정확도는 연관도를 추정한 모든 miRNA와 mRNA 쌍에서 각 miRNA에 대해 순위가 높은 k개의 mRNA 쌍들을 모은 집합과 검증 데이터와의 교집합 원소의 수를 기준으로 판단하였다.The correlation between miRNA and mRNA has been extrapolated to the present experimental results. Therefore, it is assumed that the correlation according to the results of the conventional research is a true correlation, and the effect of the proposed technology is verified. Conventional experimental results (true correlation criterion) are based on four databases Tarbase v.6.0 (Vergoulis T, Vlachos IS, Alexiou P, Georgakilas G, Maragkakis M, Reczko M, Tarbase 6.0: capturing the exponential growth of miRecords v2013 (Xiao F, Zuo Z, Cai G, Kang S, Gao X, and Li T. miRecords: an integrated resource for miRNA targets with experimental support. Nucleic Acids Res. 2012; 40 (D1): D222-9. microRNA target interactions. Nucleic Acids Res. 2009; 37 suppl 1: D105-10.), miRWalk v2.0 (Dweep H, Sticht C, Pandey P, Gretz N. miRWalk database: prediction of possible miRNA binding sites by walking the genes of three genomes. J Biomed Inform. 2011; 44 (5): 839-47) and miRTarBase v.4.5 (Hsu SD, Tseng YT, Shrestha S, Lin YL, Khaleel A, Chou CH, et al. : an information resource for experimentally validated miRNA target interactions. Nucleic Acids Res. 2014; 42 (D1): D78-85.) were used as validation data. The accuracy of the proposed method was evaluated based on the number of intersection elements between the collection of k mRNA pairs ranked high for each miRNA and the verification data in all miRNA and mRNA pairs estimated for association.
도 5는 제안 기법의 효과를 검증한 실험 결과의 예이다. 도 5(A)는 miRNA와 mRNA의 직접적 연관도를 추정을 위하여 제안 기법에서 제안한 다양한 실시예의 효과를 나타낸 예이다. 3개의 유전자 발현 데이터(EMT, MCC 및 BR)에 대하여 효과를 검증하였다. 각 miRNA에 대하여 상위 100개의 miRNA-mRNA 쌍을 기준으로 효과를 분석하였다. FIG. 5 shows an example of an experimental result that verifies the effect of the proposed technique. FIG. 5 (A) shows an example of the effect of various embodiments proposed in the proposed method for estimating the direct association of miRNA with mRNA. The effects of three gene expression data (EMT, MCC and BR) were verified. For each miRNA, the effect was analyzed based on the top 100 miRNA-mRNA pairs.
샘플 데이터는 발현 데이터를 전체를 그대로 이용한 경우(Whole)과 부트스트래핑을 통해 샘플 데이터를 증폭한 경우(Bootstrap)로 구분된다. 단일 기법(Single method)는 직접적 연관도 유추를 위한 하나의 기법을 사용한 경우이다. 3가지 기법은 각각 부분상관계수 추정법(Corpcor(C)), SPACE(S) 및 네트워크 디컨볼루션(ND(N))이다. 앙상블 기법(Ensemble Method)는 C 와 S를 통합한 경우(C&S), C 와 N을 통합한 경우(C&N), S 와 N을 통합한 경우(S&N), 3가지를 모두 통합한 경우(C&S&N)으로 구분한다.The sample data is divided into the case where the entire expression data is used as it is (Whole) and the case where the sample data is amplified through bootstrapping (Bootstrap). A single method is one that uses one technique for direct correlation inference. The three techniques are partial correlation coefficient estimation (Corpcor (C)), SPACE (S) and network deconvolution (ND (N)). The ensemble method is the combination of C and S (C & S), C and N (C & N), S and N (S & N) .
먼저 전체 발현 데이터(Whole)에 단일 기법을 적용한 경우를 살펴보면 유전자 발현 데이터 종류에 따라 서로 다른 기법이 효과적인 것을 알 수 있다. 예컨대, EMT는 S가, MCC는 N이, BR은 C가 가장 효과적이었다. 즉, 입력 데이터의 종류(실험의 조건 등에도 영향을 받음)에 따라 효과적인 기법이 상이한 것이다. 나아가 단일 기법을 사용한 경우 부트스트래핑을 사용하여도 부트스트래핑을 사용하지 않은 경우에 비하여 항상 효과가 뛰어난 것은 아니었다. 예컨대, MCC의 N 기법의 경우 부트스트래핑을 사용한 경우 오히려 성능이 떨어졌다.First, when a single technique is applied to whole expression data (Whole), it can be seen that different techniques are effective depending on the types of gene expression data. For example, EMT was the most effective, S was the MCC, N was the MCC, and C was the BR. That is, the effective technique differs depending on the type of input data (which is also influenced by experimental conditions). Furthermore, even when using a single technique, bootstrapping is not always effective compared to the case where bootstrapping is not used. For example, in the case of MCC's N scheme, bootstrapping results in poor performance.
앙상블 기법을 적용한 경우를 살펴보면, 단일 기법을 사용한 경우에 비하여 정확도가 높아진 것을 알 수 있다. 전반적으로 3가지 기법을 모두 통합한 경우(C&S&N)에서 단일 기법에 비하여 성능이 향상되었고, 부트스트래핑을 활용한 경우가 사용하지 않은 경우에 비하여 성능이 향상되었다. 특정 샘플 데이터에 대하여 단일 기법을 사용하거나, 어느 두 개의 기법을 통합한 경우가 더 성능이 좋은 것으로 나타났으나, 입력 데이터의 종류에 따라 어떤 기법이 유효한지 사전에 알 수 없으므로, 3가지 기법을 통합한 분석 기법이 전반적으로 유의하다고 할 수 있다.In the case of applying the ensemble technique, it can be seen that the accuracy is higher than that of the single technique. In general, when all three techniques are integrated (C & S & N), performance is improved compared to a single technique, and bootstrapping performance is improved compared to the case where no bootstrapping is used. Although it is shown that a single technique is used for a specific sample data or a combination of two techniques is better, there are three techniques that can not be known beforehand depending on the type of input data. The integrated analysis technique is generally regarded as significant.
도 5(B)는 제안 기법과 종래 분석 기법의 효과를 비교한 예이다. 종래 앙상블 기법은 Pearson, IDA 및 Lasso(Le TD, Zhang J, Liu L, Li J. Ensemble methods for miRNA target prediction from expression data. PLoS One. 2015;10(6):e0131627. 참조)를 사용하였다. Pearson(P), IDA(I) 및 Lasso(L)를 통합(ensemble)한 결과와 제안 기법을 비교하였다. 제안 기법에서 직접적 연관도 추정 기법을 어느 하나를 사용한 경우(Single)은 종래 기법보다 성능이 떨어졌다. 그러나 단일기법이라고 부트스트래핑을 적용한 경우(Bootstrap), 3가지 기법의 결과를 통합한 경우(Ensemble), 부트스트래핑과 함께 3가지 기법의 결과를 통합한 경우(Bootstrap & Ensemble)은 종래 기법에 비하여 성능이 뛰어나다. 특히 부트스트래핑과 앙상블을 같이 적용한 경우의 효과가 가장 높은 것을 알 수 있다.FIG. 5 (B) shows an example of a comparison between the effects of the proposed technique and the conventional analysis technique. Conventional ensemble techniques were performed using Pearson, IDA and Lasso (see Le TD, Zhang J, Liu L, Li J. Ensemble methods for miRNA target prediction from expression data. PLoS One. The proposed method is compared with the results of ensemble of Pearson (P), IDA (I) and Lasso (L). In the proposed scheme, the performance of single direct correlation estimation (Single) is lower than that of the conventional scheme. However, in the case of bootstrapping with a single technique (Bootstrap), in the case of integrating the results of three techniques (Ensemble), when combining the results of three techniques together with bootstrapping (Bootstrap & Ensemble) This is excellent. Especially, the effect of applying bootstrapping and ensemble is the highest.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.The present embodiment and drawings attached hereto are only a part of the technical idea included in the above-described technology, and it is easy for a person skilled in the art to easily understand the technical idea included in the description of the above- It will be appreciated that variations that may be deduced and specific embodiments are included within the scope of the foregoing description.
200 : miRNA-mRNA 네트워크 구축 장치
210 : 유전자 발현 DB
220 : 컴퓨터 장치
300 : miRNA-mRNA 네트워크 구축 장치
310 : 입력장치
320 : 연산장치
330 : 저장장치
340 : 출력 장치200: miRNA-mRNA network construction device
210: gene expression DB
220: Computer device
300: miRNA-mRNA network construction device
310: input device
320:
330: Storage device
340: Output device
Claims (12)
상기 컴퓨터 장치가 상기 복수의 miRNA 중 적어도 하나와 상기 복수의 mRNA 중 적어도 하나에 대한 복수의 제1 연관도 모델을 생성하는 단계; 및
상기 컴퓨터 장치가 상기 복수의 제1 연관도 모델을 통합하여 제2 연관도 모델을 생성하는 단계를 포함하는 miRNA-mRNA 연관도 분석 방법.The computer device generating sample data including expression data of a plurality of miRNAs and expression data of a plurality of mRNAs;
The computer device generating a plurality of first association models for at least one of the plurality of miRNAs and at least one of the plurality of mRNAs; And
And the computer device integrating the plurality of first association models to generate a second association model.
상기 컴퓨터 장치는 상기 miRNA의 발현 데이터 및 상기 mRNA의 발현 데이터에서 차별 발현한 정보를 식별하고, 식별한 miRNA의 발현 데이터 및 mRNA의 발현 데이터를 통합하여 상기 샘플 데이터를 생성하는 miRNA-mRNA 연관도 분석 방법.The method according to claim 1,
Wherein the computer device identifies information differentiated from the expression data of the miRNA and the expression data of the mRNA, and performs miRNA-mRNA association analysis to generate the sample data by integrating expression data of the identified miRNA and expression data of the mRNA Way.
상기 컴퓨터 장치는 부분상관계수 추정법, SPACE(Sparse PArtialCorrelation Estimation) 및 네트워크 디컨볼루션(deconvolution) 중 적어도 하나를 사용하여 상기 제1 연관도 모델을 생성하는 miRNA-mRNA 연관도 분석 방법.The method according to claim 1,
Wherein the computer device generates the first association model using at least one of a partial correlation coefficient estimation method, SPACE (Sparse Parental Correlation Estimation) and network deconvolution.
상기 컴퓨터 장치는 상기 샘플 데이터에 부분상관계수 추정법, SPACE(Sparse PArtialCorrelation Estimation) 및 네트워크 디컨볼루션(deconvolution)을 각각 적용하여 상기 복수의 제1 연관도 모델을 생성하는 miRNA-mRNA 연관도 분석 방법.The method according to claim 1,
Wherein the computer apparatus applies the partial correlation coefficient estimation method, SPACE (Sparse Parental Correlation Estimation) and network deconvolution to the sample data to generate the plurality of first association degree models.
상기 컴퓨터 장치는 상기 샘플 데이터에 대한 부트스트래핑(bootstraping)을 수행하여 복수의 샘플 데이터 세트를 생성하고,
상기 복수의 샘플 데이터 세트에 각각 연관도 추정 기법인 부분상관계수 추정법, SPACE(Sparse PArtialCorrelation Estimation) 및 네트워크 디컨볼루션(deconvolution) 중 적어도 하나를 적용하여 복수의 연관도 모델을 생성하고, 동일한 연관도 추정 기법으로 생성한 복수의 연관도 모델을 역 순위 기반 앙상블(ensemble) 기법을 사용하여 복수의 연관도 모델을 하나의 모델로 통합하는 단계를 더 포함하는 miRNA-mRNA 연관도 분석 방법.The method according to claim 1,
Wherein the computer device performs bootstraping of the sample data to generate a plurality of sets of sample data,
A plurality of correlation models are generated by applying at least one of a partial correlation coefficient estimation method, SPACE (Sparse Parental Correlation Estimation), and network deconvolution, which is an association degree estimation technique, to the plurality of sample data sets, Further comprising merging a plurality of association models generated by the estimation technique into a single model using a reverse rank based ensemble technique.
상기 컴퓨터 장치는 역 순위 기반 앙상블(ensemble) 기법을 사용하여 상기 복수의 제1 연관도 모델을 상기 제2 연관도 모델로 통합하는 miRNA-mRNA 연관도 분석 방법.The method according to claim 1,
Wherein the computer device integrates the plurality of first association models into the second association model using a reverse order based ensemble technique.
상기 컴퓨터 장치는 상기 제2 연관도 모델을 이용하여 miRNA-mRNA 네트워크를 생성하는 단계를 더 포함하는 miRNA-mRNA 연관도 분석 방법.The method according to claim 1,
Wherein the computer device further comprises generating a miRNA-mRNA network using the second association model.
miRNA-mRNA 네트워크 구축을 위한 프로그램을 저장하는 저장 장치; 및
상기 복수의 miRNA의 발현 데이터 및 복수의 mRNA의 발현 데이터를 입력데이터로 사용하는 상기 프로그램을 실행하여 상기 복수의 miRNA의 발현 데이터 및 복수의 mRNA의 발현 데이터를 입력데이터를 포함하는 샘플 데이터를 생성하고, 상기 샘플 데이터를 이용하여 상기 복수의 miRNA 중 적어도 하나와 상기 복수의 mRNA 중 적어도 하나에 대한 복수의 제1 연관도 모델을 생성하고, 상기 복수의 제1 연관도 모델을 통합하여 제2 연관도 모델을 생성하고, 상기 제2 연관도 모델을 기준으로 상기 복수의 miRNA 중 적어도 하나와 상기 복수의 mRNA 중 적어도 하나에 대한 연관도를 나타내는 miRNA-mRNA 네트워크를 생성하는 연산 장치를 포함하는 miRNA-mRNA 네트워크 생성 장치.An input device for receiving expression data of a plurality of miRNAs and expression data of a plurality of mRNAs;
a storage device for storing a program for building a miRNA-mRNA network; And
Executing the program using expression data of the plurality of miRNAs and expression data of a plurality of mRNAs as input data to generate expression data of the plurality of miRNAs and expression data of a plurality of mRNAs and sample data including input data , Generating a plurality of first association models for at least one of the plurality of miRNAs and at least one of the plurality of mRNAs using the sample data, integrating the plurality of first association models, MRNA network comprising at least one miRNA-mRNA network that generates a miRNA-mRNA network representing at least one of the plurality of miRNAs and at least one of the plurality of mRNAs based on the second association model, Network generating device.
상기 연산 장치는 상기 miRNA의 발현 데이터 및 상기 mRNA의 발현 데이터에서 차별 발현한 정보를 식별하고, 식별한 miRNA의 발현 데이터 및 mRNA의 발현 데이터를 통합하여 상기 샘플 데이터를 생성하는 miRNA-mRNA 네트워크 생성 장치.10. The method of claim 9,
The arithmetic unit identifies information differentiated from the miRNA expression data and the expression data of the mRNA and integrates expression data of the identified miRNA and expression data of the mRNA to generate the sample data. .
상기 연산 장치는 상기 샘플 데이터에 부분상관계수 추정법, SPACE(Sparse PArtialCorrelation Estimation) 및 네트워크 디컨볼루션(deconvolution)을 각각 적용하여 상기 복수의 제1 연관도 모델을 생성하는 miRNA-mRNA 네트워크 생성 장치.10. The method of claim 9,
Wherein the computing device applies partial correlation coefficient estimation, SPACE, and network deconvolution to the sample data to generate the plurality of first association models.
상기 연산 장치는 상기 컴퓨터 장치는 역 순위 기반 앙상블(ensemble) 기법을 사용하여 상기 복수의 제1 연관도 모델을 상기 제2 연관도 모델로 통합하되, 상기 복수의 제1 연관도 모델에서 동일한 에지에 대한 역 순위를 곱한 값을 상기 동일한 에지의 최종 가중치로 설정하고, 상기 제2 연관도 모델로 통합하는 miRNA-mRNA 네트워크 생성 장치.10. The method of claim 9,
Wherein the computing device is further configured to integrate the plurality of first association models into the second association model using a reverse rank based ensemble technique, wherein the plurality of first association models are associated with the same edge in the plurality of first association models. To a final weight of the same edge, and integrates into the second association model.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170121201A KR102000832B1 (en) | 2017-09-20 | 2017-09-20 | miRNA and mRNA ASSOCIATION ANALYSIS METHOD AND GENERATING APPARATUS FOR miRNA and mRNA ASSOCIATION NETWORK |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170121201A KR102000832B1 (en) | 2017-09-20 | 2017-09-20 | miRNA and mRNA ASSOCIATION ANALYSIS METHOD AND GENERATING APPARATUS FOR miRNA and mRNA ASSOCIATION NETWORK |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20190032847A true KR20190032847A (en) | 2019-03-28 |
| KR102000832B1 KR102000832B1 (en) | 2019-07-16 |
Family
ID=65908270
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020170121201A Active KR102000832B1 (en) | 2017-09-20 | 2017-09-20 | miRNA and mRNA ASSOCIATION ANALYSIS METHOD AND GENERATING APPARATUS FOR miRNA and mRNA ASSOCIATION NETWORK |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR102000832B1 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020231184A1 (en) * | 2019-05-14 | 2020-11-19 | 한양대학교 산학협력단 | Sample analysis method and device based on kernel module in genome module network |
| KR20200131750A (en) * | 2019-05-14 | 2020-11-24 | 한양대학교 산학협력단 | Sample data analysis method based on kernel modules in genomic module network and analysis apparatus |
-
2017
- 2017-09-20 KR KR1020170121201A patent/KR102000832B1/en active Active
Non-Patent Citations (4)
| Title |
|---|
| Joung JG, Hwang KB, Nam JW, Kim SJ, Zhang BT. Discovery of microRNA-mRNA modules via population-based probabilistic learning. Bioinformatics. 2007;23:1141-7p. |
| L Breiman, "Bagging Predictors", Technical Report No.421, Dep. of Statistics, UC.Berkely, pp.1-19, 1994.09.* * |
| R. Zhong 외, "Ensemble-Based Network Aggregation Improves the Accuracy of Gene Network Reconstruction", PLOS ONE 9(11), pp.1-10, 2014.12.12.* * |
| T. D. Le 외, "Ensemble Methods for MiRNA Target Prediction from Expression Data", PLOS ONE 10(6), pp.1-19, 2015.06.26.* * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020231184A1 (en) * | 2019-05-14 | 2020-11-19 | 한양대학교 산학협력단 | Sample analysis method and device based on kernel module in genome module network |
| KR20200131750A (en) * | 2019-05-14 | 2020-11-24 | 한양대학교 산학협력단 | Sample data analysis method based on kernel modules in genomic module network and analysis apparatus |
Also Published As
| Publication number | Publication date |
|---|---|
| KR102000832B1 (en) | 2019-07-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Cao et al. | Ensemble deep learning in bioinformatics | |
| Hie et al. | Computational methods for single-cell RNA sequencing | |
| Pasquier et al. | Prediction of miRNA-disease associations with a vector space model | |
| US12385899B2 (en) | Nanopore sequencing base calling | |
| Zuo et al. | Biological network inference using low order partial correlation | |
| Schäfer et al. | Reverse engineering genetic networks using the GeneNet package | |
| WO2019210695A1 (en) | Model training and service recommendation | |
| CN104063631B (en) | A kind of metabolism group characteristic analysis method and its system towards big data | |
| Noor et al. | An Overview of the Statistical Methods Used for Inferring Gene Regulatory Networks and Protein‐Protein Interaction Networks | |
| CN110782948A (en) | Predicting potential associations of miRNAs with diseases based on constrained probability matrix factorization | |
| Zheng et al. | An ensemble method to reconstruct gene regulatory networks based on multivariate adaptive regression splines | |
| KR102000832B1 (en) | miRNA and mRNA ASSOCIATION ANALYSIS METHOD AND GENERATING APPARATUS FOR miRNA and mRNA ASSOCIATION NETWORK | |
| Chen et al. | Highly sensitive inference of time-delayed gene regulation by network deconvolution | |
| Colombo et al. | FastMotif: spectral sequence motif discovery | |
| Wong et al. | Unsupervised learning in genome informatics | |
| Gómez-Vela et al. | Gene network coherence based on prior knowledge using direct and indirect relationships | |
| Kuzmanovski et al. | Extensive evaluation of the generalized relevance network approach to inferring gene regulatory networks | |
| Vrahatis et al. | Single-cell regulatory network inference and clustering from high-dimensional sequencing data | |
| JP2016194912A (en) | Method and device for selecting mixture model | |
| Hero et al. | 15 Large-scale correlation mining for biomolecular network discovery | |
| Zhao et al. | Mambacpg: an accurate model for single-cell DNA methylation status imputation using mamba | |
| Radu et al. | Node fingerprinting: an efficient heuristic for aligning biological networks | |
| Schäfer et al. | Reverse engineering genetic networks using the GeneNet package | |
| Kao et al. | naiveBayesCall: An efficient model-based base-calling algorithm for high-throughput sequencing | |
| Li et al. | Simultaneous estimation of number of clusters and feature sparsity in clustering high-dimensional data |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20170920 |
|
| PA0201 | Request for examination | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20190225 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20190708 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20190710 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20190710 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration | ||
| PR1001 | Payment of annual fee |
Payment date: 20220621 Start annual number: 4 End annual number: 4 |
|
| PR1001 | Payment of annual fee |
Payment date: 20230620 Start annual number: 5 End annual number: 5 |
|
| PR1001 | Payment of annual fee |
Payment date: 20240624 Start annual number: 6 End annual number: 6 |
|
| PR1001 | Payment of annual fee |
Payment date: 20250701 Start annual number: 7 End annual number: 7 |