WO2016068627A1 - Method for analyzing absolute copy number variation based on single sample - Google Patents
Method for analyzing absolute copy number variation based on single sample Download PDFInfo
- Publication number
- WO2016068627A1 WO2016068627A1 PCT/KR2015/011515 KR2015011515W WO2016068627A1 WO 2016068627 A1 WO2016068627 A1 WO 2016068627A1 KR 2015011515 W KR2015011515 W KR 2015011515W WO 2016068627 A1 WO2016068627 A1 WO 2016068627A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sample
- copy number
- purity
- sequence information
- target region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B99/00—Subject matter not provided for in other groups of this subclass
Definitions
- the present invention relates to a method for analyzing an absolute copy number variation based on a single sample, and relates to a method for analyzing an absolute copy number in at least one target region for an experimental sample using only an experimental sample without a control sample.
- Copy number variation is a structural
- CNV structural variation
- CNV refers to amplification or deletion of DNA fragments of lkb or more.
- CNV is present at a very high frequency of more than 10 percent in the human population, and the average size of CNV in an individual's genome is 3.5 ⁇ 0.5 Mbp (0.1 percent).
- Many studies have demonstrated that CNV is associated with complex diseases such as autism, schizophrenia, Alzheimer's disease, and cancer.
- NGS Next Generation Sequencing
- Non-Patent Document 1 Alkan C et al., Nature Genetics 41: 1061-1067; JL Hayes et al., Genomics, vol. 102, Issue 3, pp. 174-181, 2013; Chiang DY et al., Nature Methods 6: 677-681 [Content of invention]
- One example of the present invention is to provide a method for analyzing an absolute copy number in at least one target region for a test sample using only a test sample without a control sample.
- Another example of the invention provides at least one target for a test sample
- a computer readable method for analyzing absolute copy numbers in a region is provided.
- Another example of the invention provides a computer program or computer executable instruction stored on a computer readable storage medium for carrying out a method of analyzing absolute copy numbers in at least one target area for an experimental sample. It provides a computer-readable storage medium (or recording medium) recorded.
- Another example of the invention provides at least one target for a test sample
- a computer readable storage medium (or recording medium) containing a computer program stored on a computer readable storage medium or a computer executable instruction for executing a computer readable method for analyzing an absolute copy number in an area.
- the read count by reading the mapping of the test sample sequence data to the standard reference sequence data for each chromosomal position (Chromosomal Position) (Read Count) ), Calculating a target region ratio (TRR) based on the read count, estimating the purity of the test sample and the average number of replicates of the test sample in at least one target region, calculating and estimated parameters Predicting an absolute number of replicates of at least one target region in the experimental sample based on.
- one example of the present invention is a sample sequence information on the chromosome
- TRR sample target region ratio
- It relates to a method for determining the absolute copy number variation of a sample based on a single sample.
- TRR target region ratio
- the present invention and another example provide a computer program stored in a computer readable storage medium for carrying out the steps of the computer readable method.
- a further example of the present invention provides a computer readable storage medium (or recording medium) containing computer executable instructions for executing the steps of the computer readable method.
- the number of copies of the test sample can be determined without the process of lead mapping of the control sample, the control sample sequence data, and the control sample of the control sample.
- the absolute number of copies in at least one target region can be known, thus providing accurate replication in the desired target region. The number can be determined, and even if no control sample is present, it can be useful for discovering somatic cell clone variation.
- FIG. 1 is a block diagram illustrating an analysis system for copy number variation based on a single sample according to an embodiment of the present invention.
- FIG. 2 is a block diagram for explaining an apparatus for analyzing copy number variation illustrated in FIG. 1.
- FIG. 3 is a block diagram illustrating a method for analyzing copy number variation performed in the apparatus for analyzing copy number variation shown in FIG. 1.
- FIG. 4 is a diagram for describing lead mapping performed in the apparatus for analyzing copy number variation illustrated in FIG. 1.
- FIG. 5 is a diagram comparing a simulation result graph when using the copy number predictor shown in FIG. 1 and using the existing copy number predictor.
- FIG. 6 is a flowchart illustrating a method of analyzing absolute copy number variation based on a single sample according to an embodiment of the present invention.
- FIG. 7 illustrates a computer readable storage medium for executing the method for analyzing sample sequence information according to an embodiment of the present invention.
- FIG. 8 is a sample sequence executed in the analysis device for copy number variation shown in FIG. It is a block diagram for demonstrating the information analysis method.
- FIG. 9 is a diagram for describing a method of calculating a frequency rate performed by the apparatus for analyzing copy number variation shown in FIG. 1.
- FIG. 10 is a diagram for describing a segmentation method performed in the apparatus for analyzing copy number variation shown in FIG. 1.
- FIG. 1 is a diagram for describing a node definition method for candidate extraction performed in the apparatus for analyzing copy number variation shown in FIG. 1.
- FIG. 12 is a diagram for describing a filtering method performed in the apparatus for analyzing copy number variation illustrated in FIG. 1.
- FIG. 13 is a view for explaining an estimation method performed in the analysis apparatus for copy number variation shown in FIG. 1.
- FIG. 14 is a diagram comparing graphs of sample purity simulation values with respect to sample estimate values estimated by the apparatus for analyzing copy number variation shown in FIG. 1.
- 15 is a flowchart illustrating a method of estimating sample purity and number of copies according to an embodiment of the present invention.
- a target region and a target base sequence mean a selected region (target region) and a base sequence (target base sequence) of the region, respectively, to be analyzed in the genome or chromosome.
- the target region and target base sequence may be present in one or more for one sample.
- the target region may be an arbitrary section to be analyzed in full-length genome analysis, and may be a region for designing and selecting probes for sequencing at library prep in targeted sequencing. .
- the analysis system 1 for copy number variation may include a genome decoder 100 and an analysis apparatus 300 for copy number variation.
- the analysis system (1) of the copy number variation of FIG. 1 is only an embodiment of the present invention, the present invention is not limitedly interpreted through FIG. 1.
- each component of FIG. 1 is generally connected through a network 200.
- the genome decoder 100 and the copy number analysis device 300 may be connected through the network 200.
- the genome reader 100 and the analysis device 300 for copy number variation may be directly connected.
- the network 200 refers to a connection structure capable of exchanging information between respective nodes such as terminals and servers.
- An example of such a network 200 is WCDMA, Internet, or LAN (Local).
- the genome decoder 100 and the analysis apparatus 300 for copy number variation disclosed in FIG. 1 are not limited to those shown in FIG. 1.
- the genome decoder 100 may amplify DNA sequences, photograph fluorescent labels, and the like by photographing means, and perform image processing to parallelize DNA genetic information.
- the genome decoder 100 may be applied to a field for determining gene mutation, DNA copy number, and chromosome rearrangement.
- the genome decoder 100 may read a single DNA several times. The number of reads may be defined as a read count, and the read count may also be defined as a depth.
- the copy number variation analysis device 300 read-maps the experimental sample sequence data to standard reference sequence data to calculate a read count, and calculates a target region ratio (TRR) based on the read count. Can be calculated.
- TRR target region ratio
- the analysis apparatus 300 for copy number variation does not require the control sample sequence data of a control sample of a control sample in the process of calculating the TRR, which will be described in detail through the following equation.
- the apparatus 300 for analyzing the copy number variation estimates TRR, which is a predetermined number of purity, average number of copies, and number of copies of the experimental sample, and calculates and estimates the parameters, namely, TRR, purity, average number of copies, and average number of copies.
- the absolute number of replicates of the experimental sample can be predicted based on parameters including the number TRR.
- a parameter including TRR in which purity, average number of copies, and average number of copies are preset numbers, may borrow a prediction value from the outside.
- the analysis apparatus 300 for copy number variation may be implemented as a computer that can access a server or a terminal at a remote location through the network 200.
- the computer may include, for example, a notebook, a desktop, a laptop, and the like.
- FIG. 2 is a block diagram illustrating an apparatus for analyzing copy number variation shown in FIG. 1
- FIG. 3 illustrates a method for analyzing copy number variation performed in the apparatus for analyzing copy number variation shown in FIG. 1.
- FIG. 4 is a block diagram for explaining lead mapping performed in the apparatus for analyzing copy number variation shown in FIG. 1
- FIG. 5 illustrates a case where the copy number predictor shown in FIG. It is a figure which compared the simulation result graph in the case of using a number prediction apparatus.
- the copy number predicting apparatus 300 includes a receiver 310, a calculator 330, an estimator 350, and a predictor 370. can do.
- the receiver 310 may receive the experiment sample sequence data generated by the genome decoder 100 (S3 100).
- the test sample sequence data may be data having a plurality of read counts by reading the test sample in the genome reader 100 a plurality of times.
- the test sample may be a cancer sample.
- the calculation unit 330 converts the received experimental sample sequence data onto chromosomes.
- a target region ratio may be calculated based on the read count of read mapping of standard reference sequence data for each position (S3200, S3300) (S3400).
- a read count is calculated by (a) assuming that the test sample sequence data and the control sample sequence data are present, and (b) lead mapping the control sample sequence data to standard reference sequence data which is a human standard sequence.
- the TRR of the target area may be obtained based on the obtained read count.
- the TRR is the ratio of the read count of at least one target region located in the experimental sample data and the control sequence data, which is the ratio of the read count in the target region ⁇ .
- the target region ratio (TRR) may be expressed by Equation 1 below.
- TRR is the ratio of the read count of the test sample and the control sample in the specific target area
- ⁇ is the mapped read count of the test sample and the control sample in the target area
- ⁇ is the mapped control Is the total read count of the sample
- ⁇ is the total read count of the mapped test samples, which is the sum of ti in at least one target area.
- the test sample may be a cancer sample and the control sample may be a normal sample.
- TRR is calculated for at least one target region, and TRR may be derived as in Equation 2 and Equation 3 below.
- the TRR according to the present invention is at least lead mapped. It may be calculated based on the read count in one target area and the ratio of the total sum of the read counts.
- d can be divided into dt (test sample) and dn (control sample) according to the sample.
- T is the total read count of the test sample, and L is the total number of target areas.
- d n is the unit read count of the control sample
- T is the total lead count of the mapped test samples, which is the sum of ti in at least one target region i.
- Equation 3 control sample sequence data of the control sample is not required. That is, the final 11 is required only t b T, L value, because ti, T, L are all obtained from the test sample as described above.
- the method for analyzing absolute copy number variation based on a single sample calculates the TRR using only the experimental sample and replicates the present invention, even if there is no control sample sequence data of a control sample which is a control of the experimental sample. The number variation can be predicted.
- T which is the sum of ⁇ in at least one target region, may be summarized as in Equation 4 below.
- the total read count ⁇ can be calculated as follows. Where ⁇ is the total lead count of the target region of the test sample and Lj is the total number of target regions with the number of copies j. Since the average copy number J of a pure experimental sample, for example, a dark sample, can be expressed by Equation 5 below, ⁇ can be expressed by Equation 6 below. Like ⁇ , ti can be expressed as equation (7). At least one target area, ie .
- the lead count of the test sample sequence data in the at least one target area is represented by the following equation. It can be defined as 7.
- Equation 8 Equation 8
- Equation 8 Equation 8 + g ⁇ 2) a 2 + 0-2)
- Equation 9 Equation 9
- ⁇ is the purity of the test sample
- J is the average copy number of the test sample
- j is the number of copies of the i th target region of the test sample.
- J and ⁇ can be expressed by Equation 10 by arranging them as A as in Equation 8.
- J and ⁇ can receive input from the outside. That is, an estimate may be received from an external pathology specialist, estimated using a micro array, or received through another method (S350O).
- the prediction unit 370 may predict the absolute copy number of the experimental sample based on the calculated and estimated parameters.
- the calculated parameter may be TRR
- the estimated parameters may be J and ⁇ . That is, if the prediction unit 370 defines S and J as an absolute copy number score as in Equation 1 1 based on the calculated and estimated parameters, the equation 10 may be converted as shown in Equation 12, and the absolute copy number ji in the i th target region may be calculated.
- S and J are absolute copy scores where the i th target region of the test sample has a copy number j
- A is as defined in Equation 9, can be calculated through the estimated parameters J and ⁇ ,
- TRR J is a TRR having a copy number j in the i-th target region of the test sample
- TRR 1 is a TRR of the test sample having a read count of 1 in at least one target area.
- TRR is calculated using a test sample, for example, a read count measured from a cancer sample, and a value obtained by dividing A by subtracting A (TRR j -A) by (TRR'-A) is obtained. The number could be determined.
- TRR 1 means the TRR of a test sample having a read count of 1 in at least one target region, and A can be calculated through the estimated parameters J (average number of copies of the test sample) and ⁇ (purity of the test sample). have.
- a TRR which is a preset number of copies in at least one target region, may be estimated.
- the preset copy number may be 1 and may be represented by TRR 1 , where TRR 1 may mean a TRR having 1 copy number in at least one target region.
- the absolute copy number of the test sample may be the absolute copy number of the test sample in at least one target region.
- the method for analyzing absolute copy number variation based on a single sample according to an embodiment of the present invention may be performed even if the control sample sequence data other than the control sample does not exist, that is, only the test sample is used. It is possible to predict an absolute copy number in at least one target region. At this time, if the absolute number of copies in the at least one target region can be identified through the method for analyzing the absolute number of copies variation based on a single sample according to an embodiment of the present invention, accurate treatment and clinical experiment of the patient may be possible.
- FIG. 5 shows the results of the simulation of the TRR according to the chromosomal position
- (b) shows the results of simulating S and j according to the chromosomal position according to an embodiment of the present invention do.
- (a) shows a simulation result of 50% of the cancer sample purity, and since only the TRR is shown, the absolute number of copies cannot be known, but
- (b) shows that each segment is listed according to the absolute number of copies. It can be seen that the absolute number of copies in the target area can be identified.
- the method of analyzing the absolute copy number variation based on the single sample of FIGS. 2 to 5 may be easily inferred from the same or described contents, and thus descriptions thereof will be omitted.
- FIG. 6 is a flowchart illustrating a method of analyzing absolute copy number variation based on a single sample according to an embodiment of the present invention.
- the apparatus for analyzing copy number variation receives experimental sample sequence data generated by a genome sequencer (S6100).
- the apparatus for analyzing the copy number variation is based on a read count in which the received test sample sequence data is read mapped to standard reference sequence data for each chromosomal position. Region Ratio) is exported (S6200).
- the analysis apparatus for copy number variation estimates the purity of the test sample and the average copy number of the test sample in the at least one target region (S6300).
- the analysis apparatus for copy number variation predicts the absolute copy number of the experimental sample based on the calculated and estimated parameters (S6400). Such matters that are not described for the analysis of the absolute copy number variation based on the single sample of FIG. 6 are the same as those described above for the method for analyzing the absolute copy number variation based on the single sample through FIGS. 1 to 5. Since it can be easily inferred from the description, it will be omitted.
- Another example of the invention relates to a method for analyzing absolute copy number variation based on a single sample.
- the method for analyzing absolute copy number variation based on a single sample according to the present invention may comprise the following steps:
- TRR target region ratio
- the sample sequence information is read by read mapping to reference sequence information for each chromosome position.
- the step of obtaining the count can be performed.
- the sample sequence information and the reference sequence information can be obtained by a conventional sequence information analysis method. For example, as a method of analyzing through a sequencer, large-scale parallel sequencing such as next-generation sequencing can be performed on a test sample.
- the obtained sequence information may be prepared in a form stored in a data storage medium or obtained through a network data transmission / reception apparatus. In one embodiment of the invention, it may be received using the genome sequencer 100 shown in the sequence information analysis system 1 of FIG. 1, provided that the sample sequence information analysis system 1 of FIG. Since only one embodiment of the present invention, the present invention is not limited to FIG. 1.
- the sample sequence information means sequence information of a sample to be analyzed, and the reference sequence information is a reference genome sequence, which is a genome sequence representing one species.
- a reference genome of a human may now be constructed based on published (eg, UCSC, NCBI, etc.) reference genomic sequences such as build 37 (GRCh37), hgl 8, hgl9, hg38.
- the sample sequence information or the reference sequence information may be obtained by, for example, a large-scale parallel sequencing method in the next-generation sequencing method, and the sequence information, the read depth, or the read count number may be obtained by using the next-generation sequencing method.
- the polynucleotide fragment is a rea d used for next generation sequencing
- the number of polynucleotide fragments is read count or read depth
- the average polynucleotide fragment number is It may be an average number of leads.
- sequencing means that a single genome is innumerable polynucleotides
- sequence of each fragment is randomly decomposed into fragments, the sequences of each fragment are read simultaneously, and the sequence data thus obtained are combined using bioinformatics to collectively decipher a large amount of genomic information.
- the next-generation sequencing method is, for example, 454 platform (Margulies, et al., Nature (2005) 437: 376-380), Illumina Genome Analyzer (or Solexa TM platform), Illumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, or SOLiD (Applied Biosystems) or Helicos True Single Molecule DNA Sequencing Technology (Harris, et al., Science (2008) 320: 106 109), single molecule from Pacific Biosciences, and And / or by real-time (SMRT TM) technology or the like.
- large-scale parallel sequencing that is possible on nanopore sequencing (Soni and Meller, Clin Chem (2007) 53: 1996-2001) has been carried out by the
- Sequencing is possible with high order multiplexing in a parallel fashion (Dear, Brief Funct Genomic Proteomic (2003) 1: 397-416). Each of these platforms sequences single molecules that are either clonally expanded or not amplified of nucleic acid fragments. Sequence information of polynucleotide fragments can be obtained using commercially available sequencing instruments. In addition, the sequencing may be performed by various other known sequencing methods and / or modifications thereof.
- the sample sequence information may be whole genome sequence information or sequence information of a selected target region.
- a target region and a target base sequence mean a selected region (target region) and a base sequence (target base sequence) of the region, respectively, to be analyzed in the genome or chromosome.
- the target region and target base sequence may be present in one or more for one sample.
- the target region is an arbitrary region to be analyzed in whole genome sequencing, and in target sequencing, a region for designing and selecting probes for sequencing at library prep. Can mean come.
- the sample sequence information or reference sequence information may be obtained by, for example, a large-scale parallel sequencing method in the next generation sequencing method, and sequence information, read depth, or read count number may be obtained using the next generation sequencing method.
- Sample sequence information through the next generation sequencing method The entire genome sequence information or a specific selection region, that is, a target region may be selected to perform next generation sequencing, and the sequence information of the target region may be used as sample sequence information.
- the targeted sequencing method using the NGS method is, for example
- the sample sequence information for example, the sample sequence information obtained from the genome sequencer 100 may be mapped to the reference sequence information for each position on the chromosome (S3200). For example, it may be performed by the calculation unit 330 of the analysis device 300 of the sample sequence information of FIG.
- the sample sequence information may be data having a plurality of read counts by reading a plurality of test samples from the genome sequencer 100.
- the test sample may be a cancer sample.
- the number of read counts for each target region of the sample sequence information may be calculated while reading the 250 test sample sequence information.
- the read count may be calculated in at least one target region located in the sample sequence information.
- the purity of the test sample in at least one target region and the average copy number of the test sample can be estimated.
- a method for estimating the purity of an experimental sample and an average copy number of a test sample in a single sample may be performed by measuring at least one parameter including the purity of the test sample and the average copy number, and using the parameters to detect somatic mutations.
- a method for estimating the purity of an experimental sample and an average copy number of a test sample in a single sample may be performed by measuring at least one parameter including the purity of the test sample and the average copy number, and using the parameters to detect somatic mutations.
- step (2) it will be described in detail by dividing step (2) into detailed steps.
- the step (i) is based on an allele having the same sample sequence information and reference sequence information and a different allele frequency (BAF: B Allele Frequency) based on the frequency of alleles having different sample sequence information and reference sequence information.
- BAF B Allele Frequency
- the sample may be a cancer cell sample modified with cancer cells. If the number of copies of the same allele between the sample sequence information and the reference sequence information is n, the number of copies of alleles different from the sample sequence information and the reference sequence information is m, and the purity of the sample is ⁇ , different from the same allele ( ⁇ ).
- the frequency of the allele ⁇ can be defined as in Equation 13 and Equation 14, respectively.
- Equations 13 and 14 ⁇ is the number of copies of the same allele, m is the number of copies of the different alleles and m and n are each 0 or natural numbers,
- ⁇ is the purity of the sample
- Fb is the frequency of different alleles (B).
- the purity of a sample can be expressed in terms of the purity (tumor purity or tumor cellularity) of the total number of cells in the sample. Can be.
- a biopsy of the cancer sample means a ratio of only cancer-derived cells excluding normal cells (stroma cells, white blood cells, etc.) contained in the sample.
- Equation 3 the definitions of ⁇ , 1 ⁇ , 01, 13 ⁇ 4 and Fb are the same as Equations 13 and 14.
- the frequency rate of different alleles can be calculated based on the number of copies of the same allele, the number of copies of the different alleles, and the purity of the experimental sample.
- step (ii) may segment the sample sequence information based on BAFs of different alleles of the sample sequence information.
- the division of sequence information has a region in which the average of the frequencies of different alleles differs from each other.
- Finding and dividing a segment for example, grabbing a random area and t-testing the mean.
- the division of the sequence information may be performed by various methods, and the division method includes, for example, a circular binary segmentation (CBS) method, but is not limited thereto.
- CBS circular binary segmentation
- the segment refers to a group of sequence information, in which the average of different allele BAFs in the sequence information of the sample is the same, and refers to the black bar portion shown in FIG. 10 (c).
- FIG. 10 (a) is a BAF graph of a control sample
- (b) is a BAF graph of an experimental sample.
- the BAF graph may be segmented using CBS (CircuIar Binary Segmentation) or another segmentation method.
- Step (iii) in the information analysis method of the sample sequence according to the present invention by applying at least one segment to the copy number model of the frequency rate for the sample purity, it is possible to extract the copy number and sample purity candidate of the sample. have.
- the copy number model of the frequency rate with respect to the sample purity may be a nm plot model.
- each node ( ⁇ ) £ 161,) (162 ... 0 (6) can be defined, where nodes are (n, m, a, F a , Since the value of F b ) is included, when candidate nodes are selected, copy numbers and sample purity candidates of different alleles can be extracted.
- Equation 15 may be converted as shown in Equation 16. Substituting each segment into the n-m plot model, an ⁇ candidate may be derived, and this is defined as a node candidate or a sample purity candidate. Further, candidate values of the copy number (m, n) can also be obtained from the sample purity candidate values.
- Equation 14 For example, assuming that ⁇ is 0, m is 1, and the BAF of a segment is 0.7, and each parameter is substituted into Equation 4, 0.5 is obtained, and ⁇ , ⁇ , and ⁇ are represented by Equations 13 and 14 If the above parameter is substituted, Fa is 0.3 and Fb is 1.0, so the node in this case is (0,1,0.57,0.3, 1.0).
- the step (iv) may include testing the sample purity and the number of copies filtered through at least one filter among candidates for the sample purity and the number of copies extracted in the step (Hi). It can be estimated by setting the sample purity and the number of copies of the sample, respectively.
- the at least one filter may include at least one filter selected from the group consisting of a ratio filter, a copy number filter, and a unit filter.
- the filter may be filtered using all of the ratio filter, the copy number filter, and the unit filter. Can be.
- the ratio filter may be a filter for filtering whether or not the TRR ratio based on the read count in at least one target region with respect to a target region ratio (TRR) having a predetermined number of read counts is equal to the following equation. Can be defined as 17.
- TRR is a measured value obtained from lead mapping of sequence information of an experimental sample.
- the copy number filter may filter whether the average copy number of the test sample is the same and may be defined as in Equation 18 below.
- the estimating step includes all candidates having the same average number of copies (J) in Equation 18 among the sample candidates obtained in the extraction step using the copy number filter.
- the unit filter may be a filter for filtering whether the read count of the unit region is the same among at least one target region, and may be defined as in Equation 19 below.
- d may mean a unit read count, and may be a read count of a unit area in which at least one target area has a copy number of 1. That is, the estimating step may filter out all of the sample candidate certificates obtained in the extraction step by using the unit filter, leaving all of the candidates having the same number (d) of Equation 19 left behind.
- the candidate extracted in the extraction step is defined as nodes 1 to 6 (nodel, ..., node6), and at least one filter is simultaneously or sequentially used.
- the obtained sample candidate may be removed, i.e. the node may be removed.
- three filters may be used. It is not meant to be written sequentially.
- the remaining nodes may be identified through filtering. That is, when nodes 3 and 5 are finally selected, it can be seen that the segments correspond to the case where the purity of the test sample corresponds to 0.7 purity.
- the sample purity, Fa, Fb, the number of copies of the same allele n, the number of copies of different alleles based on the information of the last remaining node m can be found.
- FIG. 15 is a flowchart illustrating a method of analyzing sample sequence information according to an embodiment of the present invention.
- the apparatus for analyzing sample sequence information receives sample sequence information generated by a genome sequencer and read-maps reference sequence information for each chromosome position (SI). 100).
- the analyzer for analyzing the sample sequence information includes different alleles based on the frequency of the allele (A Allele) having the same sample sequence information and the reference sequence information and the allele (B Allele) having different sample sequence information and the reference sequence information.
- the analyzer for analyzing sample sequence information divides the sample sequence information based on BAF (S 1300).
- the apparatus for analyzing sample sequence information applies the divided at least one segment to a copy number model having a frequency ratio to sample purity to extract copy numbers and sample purity candidates of different alleles (S 1400).
- the apparatus for analyzing sample sequence information estimates the purity and average copy number of the experimental sample using at least one filter (S1500).
- Absolute copy number variation based on a single sample of the sample sequence according to the invention the number of read counts per target region of the sample sequence information can be calculated while reading the sequence information of the experimental sample.
- the read count may be calculated in at least one target region located in the sample sequence information.
- the calculation unit 330 may read the received test sample sequence data to read counts that are read mapped to standard reference sequence data for each chromosomal position. Based on (S3200, S3300), a target region ratio (TRR) may be calculated (S3400).
- TRR target region ratio
- control sample sequence data which is a control of the experimental sample
- the control sample sequence data is not required in the analysis apparatus 300 for copy number variation according to an embodiment of the present invention.
- the TRR of the target area may be obtained based on the obtained read count.
- TRR is the ratio of the read count of at least one target region located in the experimental sample data and the control sequence data, which is the ratio of the read count in target region i.
- the target region ratio (TRR) may be expressed by Equation 1 below.
- TRR is the ratio of the read count of the test sample and the control sample in the specific target area i, is the mapped read count of the test sample and the control sample in the target area i, ⁇ is the total of the mapped control sample Is the read count and ⁇ is the total read count of the mapped samples, the sum of ⁇ in the at least one target region.
- the test sample may be a cancer sample and the control sample may be a normal sample.
- TRR is calculated for at least one target region, and TRR may be derived as in Equation 2 and Equation 3 below. Therefore, as shown in Equation 2 or Equation 3, the TRR according to the present invention is based on the ratio of the total sum of the read count and the read count in the at least one lead-mapped target region. Can be calculated based on this.
- d can be divided into dt (test sample) and dn (control sample) according to the sample.
- T is the total read count of the target region of the test sample, and Lj is the total number of target regions with the copy number j.
- TRRr 1 means TRR when the i th target region has a copy number j, and the definitions of ti, n b N, T are the same as in Equation 1,
- d n is the unit read count of the control sample
- L is the total number of target areas.
- Equation 3 control sample sequence data of the control sample is not required. That is, TRRf ⁇ finally requires only the values of t T, L, because ti, T, L are values obtained from the test sample as described above.
- the method for analyzing absolute copy number variation based on a single sample calculates the TRR using only the experimental sample and replicates the present invention, even if there is no control sample sequence data of the control sample which is a control of the experimental sample. The number variation can be predicted.
- T which is the sum of ti in at least one target region, may be summarized as in Equation 4 below.
- the total read count ⁇ can be calculated as follows. Is the total read count of the target region of the test sample, and Lj is the total number of the target region having the number of copies j. Since the average copy number J of a pure experimental sample, for example, a dark sample, can be expressed by Equation 5 below, ⁇ can be expressed by Equation 6 below. Like ⁇ , ti can be expressed as equation (7). If the at least one target region, i.e.
- the target region has a number of copies of the test sample with j, the number of copies is represented by ji, and if the purity of the test sample is ⁇ , reading of the experimental sample sequence data in the at least one target region
- the count ti may be defined as shown in Equation 7 below.
- Equation 8 the TRR of Equation 2 can be summarized as in Equation 8 below in the i-th target region having the number of j copies.
- Equation 10 may be expressed.
- ⁇ is the purity of the test sample
- J is the average copy number of the test sample
- j is the number of copies of the i th target region of the test sample.
- J and ⁇ can be expressed by Equation 10 by arranging them as A as in Equation 8.
- J and ⁇ can receive input from the outside. That is, an estimate may be received from an external pathologist, or may be estimated using a micro army, or may be received through another method (S3500).
- an example of the method of obtaining the average copy number J and the sample purity ⁇ is an experiment. Estimating the purity of the sample and the average number of copies of the sample, (i) from the read mapping result, the allele (A Allele) having the same sample sequence information and reference sequence information, and the sample sequence information and reference sequence information Calculating a frequency of B allele frequency (BAF) based on the frequency of different alleles (B Allele); (ii) segmenting the sample sequence information based on the frequency rate of the different alleles; (iii) the divided at least one
- the method for estimating the purity of the test sample and the average copy number of the test sample in the single sample may include measuring at least one parameter including the purity of the test sample and the average copy number, and using the parameters to improve the accuracy of the discovery of the somatic mutation. In addition, even in the absence of a control sample, it may be useful for discovering somatic cell copy number variation.
- the experiment based on the calculated and estimated parameters The absolute copy number of the sample can be determined.
- the calculated parameter may be TRR
- the estimated parameters may be J and a. That is, on the basis of the calculated and estimated parameters, if 8 is defined as the absolute copy number score as shown in Equation 1 1, Equation 10 may be converted as shown in Equation 12 below.
- the absolute copy number j can be calculated.
- the absolute copy score is a score that can be calculated using a simple formula, and has a negative relationship with the absolute copy number.
- the clinical significance of the absolute copy score is that the absolute copy number can be expressed as an integer such as 0, 1, 2, 3 than the previous threshold method, which allows more accurate definition of the copy variation. There is an advantage.
- the TRR 'having the number of copies 1 can be theoretically calculated and the TRR value of the target region can be obtained from the measured value, so the following s value in the target region can be calculated. That is, by dividing the TRR value, only j desired to be calculated remains and the remaining variables are canceled out.
- S and J are absolute copy scores in which the i th target region of the test sample has a copy number j, A is as defined in Equation 9, and can be calculated through the estimated parameters J and ⁇ ,
- TRR 'is a TRR having a copy number j in the i-th target region of the test sample
- TRR 1 is a TRR of the test sample having a read count of 1 in at least one target region.
- TRR is calculated from the test sample, for example, a cancer sample, and the value obtained by dividing A by subtracting A (TRR J -A) by (TRR'-A) is obtained. The number can be determined.
- TRR 1 is the number of test samples with a lead count of 1 in at least one target area.
- TRR A can be calculated through the estimated parameters J (average number of replicates of the test sample) and ⁇ (purity of the test sample).
- Number of copies in at least one target region TRR which is a preset number, may be estimated.
- the group may be a copy number set to 1, can be expressed as 1 TRR, 1, TRR can mean a number TRR of replication in at least one of a target area.
- the absolute copy number of the test sample may be the absolute copy number of the test sample in at least one target region.
- the methods and information described herein provide a computer program stored in a computer readable storage medium for carrying out the steps of the method capable of executing the steps described above.
- the computer program stored in the computer readable storage medium may be combined with hardware.
- a computer program stored in the computer readable storage medium is a program for executing the steps in a computer, wherein all the above steps are executed by one program or by two or more programs executing one or more steps. Can be.
- Programs or software stored on the computer readable storage medium may be any, including, for example, on a communication channel such as a telephone line, the Internet, a wireless connection, or the like, or on a portable medium such as a computer readable disk, a flash drive, or the like. It can be delivered to a computer device through known delivery methods.
- Another example also provides a computer readable storage medium (or recording medium) containing computer executable instructions for executing the steps of the method.
- the computer readable medium may include both computer storage media and communication media.
- Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
- Computer storage media may include RAM, ROM, EEPROM, flash memory (eg, USB memory, SD memory, SSD, CF memory, xD memory, etc.), magnetic disks, laser disks, or other Can be used to store memory, CD-ROM, digital versatile disk or other optical disk, magnetic cassette, magnetic tape, magnetic disk storage or other magnetic storage device or desired information and accessible by computer
- RAM random access memory
- ROM read only memory
- EEPROM electrically erasable programmable read-only memory
- flash memory e.g, USB memory, SD memory, SSD, CF memory, xD memory, etc.
- Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.
- the communication medium may be selected from one or more of a wired medium such as a wired network or a direct-wired connection, and a wireless medium such as an acoustic medium, an RF, an infrared ray, and other wireless mediums. .
- Combinations of one or more of the above may also be included within the scope of computer readable media.
- FIG. 7 An example of a computer readable medium according to one embodiment of the present invention is shown in FIG. 7, for example as one component of computer system 500, the computer system comprising one or more processors 510, one or more computer readable storage. May include a medium 530 and a memory 520
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
Description
【명세서】 【Specification】
【발명의 명칭】 [Name of invention]
단일 시료에 기반한 절대 복제수 변이를 분석하는 방법 【기술분야】 How to analyze absolute copy number variation based on a single sample
본 발명은 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에 관한 것으로, 대조군 시료없이 실험 시료만을 이용하여 실험 시료에 대한 적어도 하나의 타겟 영역에서의 절대적인 복제수를 분석하는 방법에 관한 것이다. 【발명의 배경이 되는 기술】 The present invention relates to a method for analyzing an absolute copy number variation based on a single sample, and relates to a method for analyzing an absolute copy number in at least one target region for an experimental sample using only an experimental sample without a control sample. [Technique to become background of invention]
복제수 변이 (copy number variation; CNV)는 유전체에서의 구조적 Copy number variation (CNV) is a structural
변이 (structural variation; SV)의 한 형태이다. 일반적으로, CNV는 lkb 이상의 DNA 절편의 증폭 또는 결실을 가리킨다. CNV는 인간 집단에서 10퍼센트가 넘는 매우 높은 빈도로 존재하며, 개인의 유전체 내에서 CNV의 평균 크기는 3.5±0.5 Mbp(0.1 퍼센트)이다. 많은 연구들은 CNV가 자폐증, 정신분열증, 알츠하이머병, 암 등과 같은 복잡한 질환과 연관되어 있음을 입증해왔다ᅳ It is a form of structural variation (SV). In general, CNV refers to amplification or deletion of DNA fragments of lkb or more. CNV is present at a very high frequency of more than 10 percent in the human population, and the average size of CNV in an individual's genome is 3.5 ± 0.5 Mbp (0.1 percent). Many studies have demonstrated that CNV is associated with complex diseases such as autism, schizophrenia, Alzheimer's disease, and cancer.
최근에는, 차세대 서열분석 (Next Generation Sequencing; NGS) 기술이 발전됨에 따라, 서열분석기기에서 생성된 리드 (read, 서열조각)를 이용하여 높은 해상도 (<10kbp)로 CNV를 검출하게 되었다 (Alkan C et al., Nature Genetics Recently, with the development of Next Generation Sequencing (NGS) technology, CNV has been detected at high resolution (<10kbp) using reads generated by sequencing devices (Alkan C). et al., Nature Genetics
41 :1061-1067; J.L. Hayes et al, Genomics, vol. 102, Issue 3, pp.174-181 , 2013; Chiang DY et al., Nature Methods 6:677-681 참조 ). 41: 1061-1067; J.L. Hayes et al, Genomics, vol. 102, Issue 3, pp. 174-181, 2013; Chiang DY et al., Nature Methods 6: 677-681).
다만, 암 시료를 대규모 병렬 서열분석기기를 이용하여 분석할 경우, 암 시료에 정상 세포가 섞여 있어 암 시료에 대한 정확한 CNV를 분석하기 위해서는 암 시료에 대한 사전 지식을 필요로 한다. 또한, 대부분의 임상 시료의 경우 대조군인 정상 시료가 존재하지 않으므로, 암 시료의 결과만으로 CNV를 However, when a cancer sample is analyzed using a large scale parallel sequencing device, normal cells are mixed in the cancer sample, and thus, prior knowledge of the cancer sample is required to analyze accurate CNV of the cancer sample. In addition, since most of the clinical samples do not have a normal sample as a control group, the CNV may be obtained only by the results of the cancer sample.
정확하게 분석하기 쉽지 않다. 따라서 , 정상 시료 없이 암 시료만으로도 CNV를 분석할 수 있는 새로운 방법의 개발이 요구된다. It is not easy to analyze correctly. Therefore, there is a need for the development of a new method for analyzing CNV with only cancer samples without normal samples.
(비특허문헌 l)Alkan C et al., Nature Genetics 41 : 1061-1067; J.L. Hayes et al., Genomics, vol. 102, Issue 3, pp.174-181, 2013; Chiang DY et al., Nature Methods 6:677-681 【발명의 내용】 (Non-Patent Document 1) Alkan C et al., Nature Genetics 41: 1061-1067; JL Hayes et al., Genomics, vol. 102, Issue 3, pp. 174-181, 2013; Chiang DY et al., Nature Methods 6: 677-681 [Content of invention]
【해결하고자 하는 과제】 Problem to be solved
본 발명의 일예는, 대조군 시료없이 실험 시료만올 이용하여 실험 시료에 대한 적어도 하나의 타겟 영역에서의 절대적인 복제수를 분석하는 방법을 제공하는 것이다. One example of the present invention is to provide a method for analyzing an absolute copy number in at least one target region for a test sample using only a test sample without a control sample.
본 발명의 또 다른 예는 실험 시료에 대한 적어도 하나의 타겟 Another example of the invention provides at least one target for a test sample
영역에서의 절대적인 복제수의 분석을 위한 컴퓨터 판독 방법을 제공한다. A computer readable method for analyzing absolute copy numbers in a region is provided.
본 발명의 또 다른 일예는 실험 시료에 대한 적어도 하나의 타겟 영역에서의 절대적인 복제수의 분석 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램 또는 또는 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)을 제공하는 것이다. Another example of the invention provides a computer program or computer executable instruction stored on a computer readable storage medium for carrying out a method of analyzing absolute copy numbers in at least one target area for an experimental sample. It provides a computer-readable storage medium (or recording medium) recorded.
본 발명의 또 다른 예는 실험 시료에 대한 적어도 하나의 타겟 Another example of the invention provides at least one target for a test sample
영역에서의 절대적인 복제수의 분석을 위한 컴퓨터 판독 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램 또는 또는 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공하는 것이다. A computer readable storage medium (or recording medium) containing a computer program stored on a computer readable storage medium or a computer executable instruction for executing a computer readable method for analyzing an absolute copy number in an area. To provide.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다. However, the technical problem to be achieved by the present embodiment is not limited to the technical problem as described above, and other technical problems may exist.
【과제의 해결 수단】 [Measures of problem]
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 실험 시료 서열 데이터를 염색체상 위치 (Chromosomal Position)별 표준 참조 서열 데이터에 리드 매핑 (Read Mapping)하여 리드 카운트 (Read Count)를 얻는 단계, 상기 리드 카운트에 기반하여 TRR(Target Region Ratio)을 산출하는 단계, 적어도 하나의 타겟 영역에서의 실험 시료의 순도 및 실험 시료의 평균 복제수를 추정하는 단계, 산출 및 추정된 파라미터에 기초하여 실험 시료내 적어도 하나의 타겟 영역의 절대 복제수를 예측하는 단계를 포함한다. As a technical means for achieving the above-described technical problem, an embodiment of the present invention, the read count by reading the mapping of the test sample sequence data to the standard reference sequence data for each chromosomal position (Chromosomal Position) (Read Count) ), Calculating a target region ratio (TRR) based on the read count, estimating the purity of the test sample and the average number of replicates of the test sample in at least one target region, calculating and estimated parameters Predicting an absolute number of replicates of at least one target region in the experimental sample based on.
구체적으로, 본 발명의 일예는 시료 서열정보를 염색체상 Specifically, one example of the present invention is a sample sequence information on the chromosome
위치 (Chromosomal Position)별 표준 참조 염기서열 정보에 리드 매핑 (Read Mapping)하여 , 리드 카운트 (Read Count)를 얻는 단계; Read Mapping to Standard Reference Sequence Information by Chromosomal Position Mapping to obtain a read count;
상기 리드 카운트 (Read Count)에 기반하여 시료 TRR(Target Region Ratio)을 산출하는 단계; Calculating a sample target region ratio (TRR) based on the read count;
상기 시료의 순도 및 시료의 평균 복제수를 추정하는 단계; 및 Estimating the purity of the sample and the average number of copies of the sample; And
상기 산출 TRR 및 추정된 순도와 평균 복제수에 기초하여 상기 시료의 절대 복제수를 결정하는 단계 Determining an absolute copy number of the sample based on the calculated TRR and estimated purity and mean copy number
를 포함하는, 단일 시료에 기반한 시료의 절대 복제수 변이를 결정하는 방법에 관한 것이다. It relates to a method for determining the absolute copy number variation of a sample based on a single sample.
상기 실험 시료의 순도 및 실험 시료의 평균 복제수를 추정하는 단계는, (i)상기 리드 매핑 결과로부터, 시료 서열정보와 참조 서열정보가 동일한 대립 유전자 (A Allele)와, 상기 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자 (B Allele)의 빈도수에 기초하여, 상기 상이한 대립 유전자의 빈도율 (B allele frequency, BAF)을 산출하는 단계; Estimating the purity of the test sample and the average copy number of the test sample, (i) from the read mapping results, the allele (A Allele) having the same sample sequence information and reference sequence information, and the sample sequence information and reference Calculating a B allele frequency (BAF) of the different alleles based on the frequency of alleles having different sequence information;
(ii)상기 상이한 대립 유전자의 빈도율에 기초하여, 상기 시료 서열정보를 분할 (Segmentation)하는 단계; (ii) segmenting the sample sequence information based on the frequency rate of the different alleles;
(iii)상기 분할된 적어도 하나의 세그먼트를, 시료 순도에 대한 상기 빈도율의 복제수 모델에 적용하여, 상기 시료의 순도 후보 및 복제수 후보를 추출하는 단계; 및 (iii) applying the divided at least one segment to a copy number model of the frequency ratio with respect to sample purity to extract a purity candidate and a copy number candidate of the sample; And
(iv) 필터링 파라미터를 이용하여, 상기 시료의 순도 후보 및 복제수 후보를 필터링하여 상기 시료의 순도 및 평균 복제수를 결정하는 단계를 포함하는 방법으로 수행하는 할 수 있다. (iv) filtering the purity candidate and the copy number candidate of the sample by using the filtering parameter to determine the purity and the average copy number of the sample.
실험 시료 서열 데이터를 표준 참조 서열 데이터에 리드 매핑하여 리드 카운트 (Read Count)를 얻고, 상기 리드 카운트에 기반하여 TRR(Target Region Ratio)을 산출하고, 적어도 하나의 타겟 영역에서 실험 시료의 순도 및 평균 복제수를 추정함으로써, 실험 시료의 대조군인 대조 시료 서열 데이터 및 리드 매핑 없이도 적어도 하나의 타겟 영역에서 실험 시료의 절대적인 복제수를 파악할 수 있는 단일 시료에 기반한 절대 복제수 변이의 분석 방법을 제공할 수 있다. Read mapping of test sample sequence data to standard reference sequence data to obtain a read count, calculating a target region ratio (TRR) based on the read count, and purity and average of the test sample in at least one target region. By estimating the number of copies, it is possible to provide an analysis method of absolute copy number variation based on a single sample that can determine the absolute number of copies of the test sample in at least one target region without the control sample sequence data and lead mapping as the control of the test sample. have.
본 발명와 다른 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다. 본 발명의 추가 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공한다. 【발명의 효과】 The present invention and another example provide a computer program stored in a computer readable storage medium for carrying out the steps of the computer readable method. A further example of the present invention provides a computer readable storage medium (or recording medium) containing computer executable instructions for executing the steps of the computer readable method. 【Effects of the Invention】
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 실험 시료 (sample)의 대조군인 대조 시료 (control), 대조 시료 서열 데이터 및 대조 시료의 리드 매핑의 작업 과정 없이도, 실험 시료의 복제수를 파악할 수 있을 뿐만 아니라, 암 시료에 정상 세포가 섞여 있는 상황이거나 대조군인 정상 시료 또는 정상 세포가 존재하지 않는 경우일지라도, 적어도 하나의 타겟 영역에서의 절대적인 복제수를 알 수 있으므로, 원하는 타겟 영역에서 정확한 복제수를 파악할 수 있고, 대조군 시료가 존재하지 않더라도 체세포 복제수 변이 발굴에 유용하게 사용될 수 있다. [도면의 간단한 설명】 According to any one of the above-described means for solving the problems of the present invention, the number of copies of the test sample can be determined without the process of lead mapping of the control sample, the control sample sequence data, and the control sample of the control sample. In addition, even if the cancer sample is mixed with normal cells, or if the control sample or normal cells do not exist, the absolute number of copies in at least one target region can be known, thus providing accurate replication in the desired target region. The number can be determined, and even if no control sample is present, it can be useful for discovering somatic cell clone variation. [Brief Description of Drawings]
도 1은 본 발명의 일 실시예에 따른 단일 시료에 기반한 복제수 변이의 분석 시스템을 설명하기 위한 구성도이다. 1 is a block diagram illustrating an analysis system for copy number variation based on a single sample according to an embodiment of the present invention.
도 2는 도 1에 도시된 복제수 변이의 분석 장치를 설명하기 위한 블록 구성도이다. FIG. 2 is a block diagram for explaining an apparatus for analyzing copy number variation illustrated in FIG. 1.
도 3은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 복제수 변이의 분석 방법을 설명하기 위한 블록 구성도이다. FIG. 3 is a block diagram illustrating a method for analyzing copy number variation performed in the apparatus for analyzing copy number variation shown in FIG. 1.
도 4는 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 리드 매핑을 설명하기 위한 도면이다. FIG. 4 is a diagram for describing lead mapping performed in the apparatus for analyzing copy number variation illustrated in FIG. 1.
도 5는 도 1에 도시된 복제수 예측 장치를 사용한 경우와 기존의 복제수 예측 장치를 사용한 경우의 시물레이션 결과 그래프를 비교한 도면이다. FIG. 5 is a diagram comparing a simulation result graph when using the copy number predictor shown in FIG. 1 and using the existing copy number predictor.
도 6은 본 발명의 일 실시예에 따라 단일 시료에 기반한 절대 복제수 변이의 분석 방법을 설명하기 위한 동작 흐름도이다. 6 is a flowchart illustrating a method of analyzing absolute copy number variation based on a single sample according to an embodiment of the present invention.
도 7은 본 발명의 일 실시예에 따른 시료 서열 정보 분석 방법을 실행하기 위한 컴퓨터 판독 가능한 저장 매체를 도시한 도면이다. 7 illustrates a computer readable storage medium for executing the method for analyzing sample sequence information according to an embodiment of the present invention.
도 8은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 시료 서열 정보 분석 방법을 설명하기 위한 블록 구성도이다. 8 is a sample sequence executed in the analysis device for copy number variation shown in FIG. It is a block diagram for demonstrating the information analysis method.
도 9는 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 빈도율 산출 방법을 설명하기 위한 도면이다. FIG. 9 is a diagram for describing a method of calculating a frequency rate performed by the apparatus for analyzing copy number variation shown in FIG. 1.
도 10는 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 분할 방법을 설명하기 위한 도면이다. FIG. 10 is a diagram for describing a segmentation method performed in the apparatus for analyzing copy number variation shown in FIG. 1.
도 1 1은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 후보 추출을 위한 노드 정의 방법을 설명하기 위한 도면이다. FIG. 1 is a diagram for describing a node definition method for candidate extraction performed in the apparatus for analyzing copy number variation shown in FIG. 1.
도 12은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 필터링 방법을 설명하기 위한 도면이다. FIG. 12 is a diagram for describing a filtering method performed in the apparatus for analyzing copy number variation illustrated in FIG. 1.
도 13은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 추정 방법을 설명하기 위한 도면이다. FIG. 13 is a view for explaining an estimation method performed in the analysis apparatus for copy number variation shown in FIG. 1.
도 14는 도 1에 도시된 복제수 변이의 분석 장치에서 추정한 시료 추정값에 대한 시료 순도 시물레이션 값의 그래프를 비교한 도면이다. FIG. 14 is a diagram comparing graphs of sample purity simulation values with respect to sample estimate values estimated by the apparatus for analyzing copy number variation shown in FIG. 1.
도 15은 본 발명의 일 실시예에 따른 시료 순도 및 복제수 추정 방법을 설명하기 위한 동작 흐름도이다. 15 is a flowchart illustrating a method of estimating sample purity and number of copies according to an embodiment of the present invention.
【발명을 실시하기 위한 구체적인 내용】 [Specific contents to carry out invention]
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다ᅳ DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted for simplicity of explanation, and like reference numerals designate like parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. Throughout the specification, when a part is "connected" to another part, this includes not only "directly connected" but also "electrically connected" with another element in between. . In addition, when a part is said to "include" a certain component, which means that it may further include other components, except to exclude other components, unless specifically stated otherwise, one or more other features It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, parts, or combinations thereof. do.
본 명세서에서, 다른 정의가 없는 한, 타겟 영역 및 타겟 염기 서열은 게놈 또는 염색체 내의 분석하고자 하는 선택 영역 (타겟 영역) 및 상기 영역의 염기 서열 (타겟 염기 서열)을 각각 의미한다. 상기 타겟 영역 및 타겟 염기 서열은 하나의 시료에 대하여 하나 이상 존재할 수 있다. 예를 들면, 상기 타켓 영역은 전장 유전체 분석에서는 분석하고자 하는 임의의 구간이 되며 타겟 서열분석 (targeted sequencing)에서는 library prep 시에 서열분석을 하기 위해 probe등을 설계하여 선별하는 영역을 의미할 수 있다. In this specification, unless otherwise defined, a target region and a target base sequence mean a selected region (target region) and a base sequence (target base sequence) of the region, respectively, to be analyzed in the genome or chromosome. The target region and target base sequence may be present in one or more for one sample. For example, the target region may be an arbitrary section to be analyzed in full-length genome analysis, and may be a region for designing and selecting probes for sequencing at library prep in targeted sequencing. .
본 명세서에서 수치 앞에 기재된 "약"은, 다른 정의가 없는 한, 기재된 수치의 10%, 5%, 또는 3%의 변동폭 (증감분)을 포함하기 위하여 사용된 것일 수 있다. In the present specification, "about" described before the numerical value may be used to include a variation (incremental) of 10%, 5%, or 3% of the numerical value unless otherwise defined.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 단일 시료에 기반한 복제수 변이의 분석 시스템을 설명하기 위한 구성도이다. 도 1을 참조하면, 복제수 변이의 분석 시스템 (1)은, 유전체 해독기 (100)와 복제수 변이의 분석 장치 (300)를 포함할 수 있다. 다만, 이러한 도 1의 복제수 변이의 분석 시스템 (1)은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아나다. 1 is a block diagram illustrating an analysis system for copy number variation based on a single sample according to an embodiment of the present invention. Referring to FIG. 1, the analysis system 1 for copy number variation may include a genome decoder 100 and an analysis apparatus 300 for copy number variation. However, since the analysis system (1) of the copy number variation of FIG. 1 is only an embodiment of the present invention, the present invention is not limitedly interpreted through FIG. 1.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크 (network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 네트워크 (200)를 통하여 유전체 해독기 (100)와 복제수 변이의 분석 장치 (300)가 연결될 수 있다. 이때, 유전체 해독기 (100)와 복제수 변이의 분석 장치 (300)가 직접 연결될 수도 있다. 또한, 유전체 해독기 (100)에서 생성된 실험 시료 서열 데이터만을 복제수 변이의 분석 장치 ( 0)가 수신하면 되므로, 직접 또는 간접적인 연결을 모두 포함할 수 있다. 여기서, 네트워크 (200)는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크 (200)의 일 예는, WCDMA, 인터넷 (Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), ATM 방식을 활용한 El 망, 3G, 4G, LTE, Wi-Fi 등이 포함되나 이에 한정되지는 않는다. 또한, 도 1에 개시된 유전체 해독기 (100)와 복제수 변이의 분석 장치 (300)는 도 1에 도시된 것들로 한정 해석되는 것은 아니다. 유전체 해독기 (100)는 DNA 서열을 증폭시킨 후 형광 표식 등을 촬영 수단으로 촬영하고, 이미지 처리를 수행함으로써 DNA 유전 정보를 병렬 데이터화할 수 있다. 이때, 유전체 해독기 (100)는 유전자 변이, DNA 복제수 (Copy Number) 및 염색체 재배열을 파악하는 분야에도 적용될 수 있으며, 이를 위하여 유전체 해독기 (100)는 하나의 DNA를 여러 번 읽을 수 있는데, 여기서 읽은 횟수를 리드 카운트 (Read Count)라 정의하고, 리드 카운트는 깊이 (Depth)라고도 정의될 수 있다. In this case, each component of FIG. 1 is generally connected through a network 200. For example, as shown in FIG. 1, the genome decoder 100 and the copy number analysis device 300 may be connected through the network 200. At this time, the genome reader 100 and the analysis device 300 for copy number variation may be directly connected. In addition, since only the experimental sample sequence data generated by the genome decoder 100 needs to be received by the analysis device (0) of copy number variation, it may include both direct and indirect connections. Here, the network 200 refers to a connection structure capable of exchanging information between respective nodes such as terminals and servers. An example of such a network 200 is WCDMA, Internet, or LAN (Local). Area Network (Wireless LAN), Wireless Local Area Network (WLAN), Wide Area Network (WAN), Personal Area Network (PAN), El network using ATM, 3G, 4G, LTE, Wi-Fi, etc. It doesn't work. In addition, the genome decoder 100 and the analysis apparatus 300 for copy number variation disclosed in FIG. 1 are not limited to those shown in FIG. 1. The genome decoder 100 may amplify DNA sequences, photograph fluorescent labels, and the like by photographing means, and perform image processing to parallelize DNA genetic information. In this case, the genome decoder 100 may be applied to a field for determining gene mutation, DNA copy number, and chromosome rearrangement. For this purpose, the genome decoder 100 may read a single DNA several times. The number of reads may be defined as a read count, and the read count may also be defined as a depth.
복제수 변이의 분석 장치 (300)는, 실험 시료 서열 데이터를 표준 참조 서열 데이터에 리드 매핑 (Read Mapping)하여 리드 카운트 (Read Count)를 계산하고, 리드 카운트에 기반하여 TRR(Target Region Ratio)을 산출할 수 있다. 이때, 복제수 변이의 분석 장치 (300)는, TRR을 산출하는 과정에서 실험 시료의 대조군인 대조 시료의 대조 시료 서열 데이터가 요구되지 않는데, 이는 이하의 수학식을 통하여 상세히 서술하기로 한다. 그리고, 복제수 변이의 분석 장치 (300) 실험 시료의 순도, 평균 복제수 및 복제수가 기 설정된 수인 TRR을 추정하고, 산출 및 추정된 파라미터, 즉 TRR, 순도, 평균 복제수 및 평균 복제수가 기 설정된 수인 TRR을 포함한 파라미터에 기초하여 실험 시료의 절대 복제수를 예측할 수 있다. 여기서 순도, 평균 복제수 및 평균 복제수가 기 설정된 수인 TRR을 포함한 파라미터는 예측값을 외부로부터 차용할 수 있다. 이때, 복제수 변이의 분석 장치 (300)는, 네트워크 (200)를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 노트북, 데스크톱 (Desktop), 랩톱 (Laptop) 등을 포함할 수 있다. The copy number variation analysis device 300 read-maps the experimental sample sequence data to standard reference sequence data to calculate a read count, and calculates a target region ratio (TRR) based on the read count. Can be calculated. In this case, the analysis apparatus 300 for copy number variation does not require the control sample sequence data of a control sample of a control sample in the process of calculating the TRR, which will be described in detail through the following equation. In addition, the apparatus 300 for analyzing the copy number variation estimates TRR, which is a predetermined number of purity, average number of copies, and number of copies of the experimental sample, and calculates and estimates the parameters, namely, TRR, purity, average number of copies, and average number of copies. The absolute number of replicates of the experimental sample can be predicted based on parameters including the number TRR. In this case, a parameter including TRR, in which purity, average number of copies, and average number of copies are preset numbers, may borrow a prediction value from the outside. In this case, the analysis apparatus 300 for copy number variation may be implemented as a computer that can access a server or a terminal at a remote location through the network 200. Here, the computer may include, for example, a notebook, a desktop, a laptop, and the like.
도 2는 도 1에 도시된 복제수 변이의 분석 장치를 설명하기 위한 블록 구성도이고, 도 3은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 복제수 변이의 분석 방법을 설명하기 위한 블록 구성도이고, 도 4는 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 리드 매핑을 설명하기 위한 도면이고, 도 5는 도 1에 도시된 복제수 예측 장치를 사용한 경우와 기존의 복제수 예측 장치를 사용한 경우의 시물레이션 결과 그래프를 비교한 도면이다. FIG. 2 is a block diagram illustrating an apparatus for analyzing copy number variation shown in FIG. 1, and FIG. 3 illustrates a method for analyzing copy number variation performed in the apparatus for analyzing copy number variation shown in FIG. 1. FIG. 4 is a block diagram for explaining lead mapping performed in the apparatus for analyzing copy number variation shown in FIG. 1, and FIG. 5 illustrates a case where the copy number predictor shown in FIG. It is a figure which compared the simulation result graph in the case of using a number prediction apparatus.
도 2 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 복제수 예측 장치 (300)는, 수신부 (310), 산출부 (330), 추정부 (350) 및 예측부 (370)를 포함할 수 있다. 수신부 (310)는, 유전체 해독기 (100)에서 생성된 실험 시료 서열 데이터를 수신할 수 있다 (S3 100). 이때, 실험 시료 서열 데이터는, 유전체 해독기 (100)에서 실험 시료를 복수회 읽어들여 복수회의 리드 카운트 (Read Count)를 가진 데이터일 수 있다. 이때, 실험 시료는 암 시료일 수 있다. 2 and 3, the copy number predicting apparatus 300 according to an embodiment of the present invention includes a receiver 310, a calculator 330, an estimator 350, and a predictor 370. can do. The receiver 310 may receive the experiment sample sequence data generated by the genome decoder 100 (S3 100). In this case, the test sample sequence data may be data having a plurality of read counts by reading the test sample in the genome reader 100 a plurality of times. In this case, the test sample may be a cancer sample.
산출부 (330)는, 수신된 실험 시료 서열 데이터를 염색체상 The calculation unit 330 converts the received experimental sample sequence data onto chromosomes.
위치 (Chromosomal Position)별 표준 참조 서열 데이터에 리드 매핑 (Read Mapping)한 리드 카운트 (Read Count)에 기반하여 (S3200, S3300) TRR(Target Region Ratio)을 산출할 수 있다 (S3400). A target region ratio (TRR) may be calculated based on the read count of read mapping of standard reference sequence data for each position (S3200, S3300) (S3400).
본 발명의 일 실시예에 따른 복제수 변이의 분석 장치 (300)에서 실험 시료의 대조군인 대조 시료 서열 데이터가 요구되지 않는 이유를 설명하기로 한다. 도 4를 참조하면, (a) 실험 시료 서열 데이터와, 대조 시료 서열 데이터를 있는 경우를 가정하여 (b) 대조 시료 서열 데이터를 인간 표준 서열인 표준 참조 서열 데이터에 리드 매핑하여 리드 카운트를 계산하고, 상기 얻어진 리드 카운트를 기반하여 타겟 영역의 TRR을 얻을 수 있다. The reason why the control sample sequence data, which is a control of the experimental sample, is not required in the analysis apparatus 300 for copy number variation according to an embodiment of the present invention will be described. Referring to FIG. 4, a read count is calculated by (a) assuming that the test sample sequence data and the control sample sequence data are present, and (b) lead mapping the control sample sequence data to standard reference sequence data which is a human standard sequence. The TRR of the target area may be obtained based on the obtained read count.
실험 시료 데이터와 대조 서열 데이터를 모두 사용하는 종래의 분석 방법에서는, TRR은 실험 시료 데이터와 대조 서열 데이터에 위치한 적어도 하나의 타겟 영역의 리드 카운트의 비율로서, 타겟 영역 ί에서의 리드 카운트의 비율인 Target region ratio (TRR)은 다음 수학식 1과 같이 표현될 수 있다. In a conventional analysis method using both experimental sample data and control sequence data, the TRR is the ratio of the read count of at least one target region located in the experimental sample data and the control sequence data, which is the ratio of the read count in the target region ί. The target region ratio (TRR) may be expressed by Equation 1 below.
【수학식 1】 [Equation 1]
TRR = TRR =
nj T 수학식 1에서, TRR은 특정 타켓 영역 에서 실험시료와 대조시료의 리드 카운트의 비율이며, ^ 는 타겟 영역 ί에서의 실험 시료와 대조 시료의 매핑된 리드 카운트이며, Ν은 매핑된 대조군 시료꾀 총 리드 카운트이고, Τ는 매핑된 실험시료의 총 리드 카운트로서, 적어도 하나의 타겟 영역에서의 ti의 총합이다. 예를 들면 실험시료는 암 시료이고 대조 시료는 정상 시료일 수 있다ᅳ n j T In Equation 1, TRR is the ratio of the read count of the test sample and the control sample in the specific target area, ^ is the mapped read count of the test sample and the control sample in the target area ί, Ν is the mapped control Is the total read count of the sample, and Τ is the total read count of the mapped test samples, which is the sum of ti in at least one target area. For example, the test sample may be a cancer sample and the control sample may be a normal sample.
본 발명에서는, TRR을 적어도 하나의 타겟 영역마다 계산을 하게 되는데, TRR은 아래 수학식 2 및 수학식 3과 같이 유도될 수 있다. 따라서, 수학식 2 또는 수학식 3에 나타낸 바와 같이, 본 발명에 따른 TRR은, 리드 매핑된 적어도 하나의 타겟 영역에서의 리드 카운트 및 상기 리드 카운트의 총 합의 비율에 기초하여 산출될 수 있다. In the present invention, TRR is calculated for at least one target region, and TRR may be derived as in Equation 2 and Equation 3 below. Thus, as shown in Equation 2 or Equation 3, the TRR according to the present invention is at least lead mapped. It may be calculated based on the read count in one target area and the ratio of the total sum of the read counts.
구체적으로, 실험 시료 데이터와 대조 서열 데이터를 모두 사용하는 종래의 분석 방법에서 정의된 수학식 1의 TRR에서, d는 단위 리드 카운트, 즉 복제수 1인 타겟 영역에서의 sequencing depth라고 하면, 타겟 영역 i의 복제수가 j 일 때 기대 리드 카운트 Ri 는 Rj=jd 가 된다. 여기서 d는 시료에 따라 dt (실험 시료) 및 dn (대조군 시료)고 구분할 수 있다 . 는 대조 시료 서열 데이터의 기반인 대조군의 i 번째 타켓 영역에 매핑된 리드 카운트로서 대조군의 2 과 같이 표현될 수 있으며 ,Ν은 대조군의 총 리드 카운트로 타겟 영역 1 부터 L 까지의 η의 합을 의미하며, 2(1 과 같이 표현될 수도 있다. Τ는 실험 시료의 총 리드 카운트이고, L은 타겟 영역의 총 개수이다. Specifically, in the TRR of Equation 1 defined in the conventional analytical method using both the experimental sample data and the control sequence data, d is the unit read count, that is, the sequencing depth in the target region with the number of copies 1, the target region When the number of copies of i is j, the expected read count Ri is R j = jd. Where d can be divided into dt (test sample) and dn (control sample) according to the sample. Is a read count mapped to the i th target region of the control which is the basis of the control sample sequence data, and can be expressed as 2 of the control, where Ν is the total read count of the control, where Ν is the sum of η from the target region 1 to L 2 may be expressed as 1. T is the total read count of the test sample, and L is the total number of target areas.
【수학식 2】 [Equation 2]
TRR =^-L TRR = ^-L
τ τ
【수학식 3】 [Equation 3]
2dn T 2d n T
L L
T T
상기 수학식 2 및 3에서, In Equations 2 and 3,
丁1!^는 i 번째 타겟 영역이 복제수 j를 가질 때의 TRR을 의미하며, ti,nbN,T의 정의는 수학식 1과 동일하며, 丁 1! ^ Means TRR when the i th target region has a copy number j, and the definition of ti, n b N, T is the same as Equation 1,
dn 은 대조군 시료의 단위 리드 카운트이고, d n is the unit read count of the control sample,
T는 매핑된 실험시료의 총 리드 카운트로서 적어도 하나의 타켓 영역 i에서 ti의 합계이다. T is the total lead count of the mapped test samples, which is the sum of ti in at least one target region i.
수학식 3으로부터 대조 시료의 대조 시료 서열 데이터가 요구되지 않음을 알 수 있다. 즉,丁11 는 최종적으로 tbT,L 값만 요구되게 되는데, ti,T,L은 모두 상술한 바와 같이 실험 시료로부터 얻어지는 값이기 때문이다. 따라서, 본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법은, 실험 시료의 대조군인 대조 시료의 대조 시료 서열 데이터가 존재하지 않더라도, 실험 시료만을 이용하여 TRR을 산출하고 본 발명의 복제수 변이를 예측할 수 있다. It can be seen from Equation 3 that control sample sequence data of the control sample is not required. That is, the final 11 is required only t b T, L value, because ti, T, L are all obtained from the test sample as described above. Thus The method for analyzing absolute copy number variation based on a single sample according to an embodiment of the present invention calculates the TRR using only the experimental sample and replicates the present invention, even if there is no control sample sequence data of a control sample which is a control of the experimental sample. The number variation can be predicted.
적어도 하나의 타겟 영역에서의 ^의 합계인 T는 하기 수학식 4와 같이 정리될 수 있다. 일반적으로 실험 시료는 정상 세포와 같은 대조군 세포가 섞여있기 때문에 실험 시료 (예, 암 세포)의 순도를 α라고 하면 총 리드 카운트 Τ는 다음과 같이 계산할 수 있다. 여기서 , τ은 실험시료의 타켓 영역의 총 리드 카운트로서 Lj는 복제수 j를 갖는 타겟 영역의 총 개수이다. 순수한 실험시료, 예를 들면 암시료의 평균 복제수 J는 하기 수학식 5로 표현할 수 있으므로 , Τ를 정리하면 수학식 6으로 표시할 수 있다. Τ와 마찬가지로 ti로 정리하면 수학식 7로 표시할 수 있다. 적어도 하나의 타켓 영역, 즉. i 번째 타겟 영역이 실험 시료의 복제수가 j를 가질 때 복제수를 j, 로 표시하고, 실험 시료의 순도가 α라면 적어도 하나의 타겟 영역에서의 실험 시료 서열 데이터의 리드 카운트인 ti는 하기 수학식 7와 같이 정의될 수 있다. T, which is the sum of ^ in at least one target region, may be summarized as in Equation 4 below. In general, since the test sample is mixed with control cells such as normal cells, assuming that the purity of the test sample (eg, cancer cells) is α, the total read count Τ can be calculated as follows. Where τ is the total lead count of the target region of the test sample and Lj is the total number of target regions with the number of copies j. Since the average copy number J of a pure experimental sample, for example, a dark sample, can be expressed by Equation 5 below, Τ can be expressed by Equation 6 below. Like Τ, ti can be expressed as equation (7). At least one target area, ie . When the i th target region has the number of copies of the test sample, j is the number of copies, and when the purity of the test sample is α , ti, the lead count of the test sample sequence data in the at least one target area, is represented by the following equation. It can be defined as 7.
【수학식 4】 [Equation 4]
【수학식 6】 [Equation 6]
Γ = 2(1 — a)Ldt + aJL dt Γ = 2 (1 — a) Ld t + aJL d t
【수학식 7】 [Equation 7]
tt- = 2(1 — a)dt + jidt 상술한 수학식 6 및 수학식 7를 이용하면, 수학식 2의 TRR을 j 복제수를 번째 타겟 영역에서의 TRR를 하기 수학식 8과 같이 정리할 수 있다. 【수학식 8】 t t- = 2 (1 — a) d t + jid t Using Equation 6 and Equation 7, the TRR of Equation 2 is represented by j replication number and the TRR at the first target area is expressed by Equation 8 below. It can be arranged together. [Equation 8]
TRR TRR
쒜 쒜
2(1 - a)L - ajl 2 (1-a) L-ajl
2 丄 (jᅳ 2 丄 (j ᅳ
2 + g ~ 2)a 2 + 0 - 2) 여기서, 수학식 8의 우측 좌항을 하기 수학식 9와 같이 A로 정의하고, A를 수학식 8에 대입하면, 하기 수학식 10으로 표시할 수 있다. 2 + g ~ 2) a 2 + 0-2) Here, if the right left term of Equation 8 is defined as A as shown in Equation 9 below, and A is substituted into Equation 8, it can be expressed as have.
【수학식 9】 [Equation 9]
= 2 = 2
^ 一 -+ _ ^ 一- + _
【수학식 10】 TRR = A + Vl Equation 10 TRR = A + Vl
1 " ' 2 + (J - 2)a 1 "' 2 + (J-2) a
수학식 9 및 10에서, In Equations 9 and 10,
α는 실험 시료의 순도, α is the purity of the test sample,
J는 실험 시료의 평균 복제수, 및 J is the average copy number of the test sample, and
j,는실험 시료의 i 번째 타겟 영역 복제수이다. j is the number of copies of the i th target region of the test sample.
J와 α 수치값에 대한 정보를 수학식 8와 같이 Α로서 정리하면 수학식 10로 표시할 수 있다. 여기서, J와 α는 외부로부터 입력을 받을 수 있다. 즉, 외부 병리과 전문의로부터 추정값을 받거나, 마이크로 어레이 (Micro array)를 이용하여 추정하거나, 다른 방법을 통하여 추정값을 수신할 수 있다 (S350O). The information on the numerical values of J and α can be expressed by Equation 10 by arranging them as A as in Equation 8. Here, J and α can receive input from the outside. That is, an estimate may be received from an external pathology specialist, estimated using a micro array, or received through another method (S350O).
예측부 (370)는, 산출 및 추정된 파라미터에 기초하여 실험 시료의 절대 복제수를 예측할 수 있다. 여기서, 산출된 파라미터는 TRR일 수 있고, 추정된 파라미터는 J와 α일 수 있다. 즉, 예측부 (370)는, 산출 및 추정된 파라미터에 기초하여, 수학식 1 1과 같이 절대 복제수 점수로 S,J를 정의하면, 상기 수학식 10을 하기 수학식 12와 같이 변환할 수 있으며, 이에 i 번째 타겟 영역에서의 절대 복제수 ji가 계산될 수 있다. The prediction unit 370 may predict the absolute copy number of the experimental sample based on the calculated and estimated parameters. Here, the calculated parameter may be TRR, and the estimated parameters may be J and α. That is, if the prediction unit 370 defines S and J as an absolute copy number score as in Equation 1 1 based on the calculated and estimated parameters, the equation 10 may be converted as shown in Equation 12, and the absolute copy number ji in the i th target region may be calculated.
【수학식 1 1】 [Equation 1 1]
2 - j 2-j
【수학식 12][Equation 12]
, = 2 - s , = 2-s
수학식 1 1 및 12에서, In Equations 1 1 and 12,
S,J는 실험 시료의 i 번째 타겟 영역이 복제수 j를 갖는 절대 복제수 점수,S and J are absolute copy scores where the i th target region of the test sample has a copy number j,
A는 수학식 9에서 정의한 바와 같고, 추정된 파라미터인 J와 α를 통하여 산출할 수 있으며, A is as defined in Equation 9, can be calculated through the estimated parameters J and α,
TRR,J 는 실험 시료의 i 번째 타켓 영역에서의 복제수 j을 갖는 TRR이고, TRR1은 적어도 하나의 타겟 영역에서 리드 카운트가 1 인 실험 시료의 TRR이다. TRR, J is a TRR having a copy number j in the i-th target region of the test sample, and TRR 1 is a TRR of the test sample having a read count of 1 in at least one target area.
본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법에서, 궁극적으로 ji, 즉 i 번째 타겟 영역에서의 절대 복제수 j 를 알고자 하는 것인데, 산출 TRR과 추정된 및 추정된 J와 α에 의하여 절대 복제수 점수 Si1는 산출될 수 있다. 실험시료, 예를 들면 암 시료로부터 측정된 리드 카운트를 이용하여 TRR를 계산하고 A를 빼준 값 (TRRj -A)을, (TRR'-A)으로 나누어 준 값을 구하면, 타겟 영역의 절대 복제수를 결정할 수 았다. In the analysis method of absolute copy number variation based on a single sample according to an embodiment of the present invention, it is ultimately to know ji, that is, the absolute copy number j in the i th target region, and the calculated TRR and the estimated and estimated The absolute copy number score Si 1 can be calculated by J and α. TRR is calculated using a test sample, for example, a read count measured from a cancer sample, and a value obtained by dividing A by subtracting A (TRR j -A) by (TRR'-A) is obtained. The number could be determined.
TRR1은 적어도 하나의 타겟 영역에서 리드 카운트가 1 인 실험 시료의 TRR을 의미하고, A는 추정된 파라미터인 J (실험 시료의 평균 복제수)와 α(실험 시료의 순도)를 통하여 산출할 수 있다. 적어도 하나의 타겟 영역에서의 복제수가 기 설정된 수인 TRR을 추정할 수 있다. 여기서, 기 설정된 복제수는 1일 수 있고, TRR1로 표현될 수 있는데, TRR1은 적어도 하나의 타겟 영역에서의 복제수가 1인 TRR을 의미할 수 있다. 여기서, 실험 시료의 절대 복제수는, 적어도 하나의 타겟 영역에서의 실험 시료의 절대 복제수일 수 있다. TRR 1 means the TRR of a test sample having a read count of 1 in at least one target region, and A can be calculated through the estimated parameters J (average number of copies of the test sample) and α (purity of the test sample). have. A TRR, which is a preset number of copies in at least one target region, may be estimated. Here, the preset copy number may be 1 and may be represented by TRR 1 , where TRR 1 may mean a TRR having 1 copy number in at least one target region. Here, the absolute copy number of the test sample may be the absolute copy number of the test sample in at least one target region.
상술한 바와 같이, 본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법은, 실험 시료 이외의 대조군인 대조 시료 서열 데이터가 존재하지 않을지라도, 즉, 실험 시료만을 이용하여도 적어도 하나의 타겟 영역에서의 절대 복제수를 예측할 수 있다. 이때, 본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법을 통하여 적어도 하나의 타겟 영역에서 절대적인 복제수를 파악할 있다면, 환자의 정확한 치료 및 임상 실험이 가능해질 수 있다. As described above, the method for analyzing absolute copy number variation based on a single sample according to an embodiment of the present invention may be performed even if the control sample sequence data other than the control sample does not exist, that is, only the test sample is used. It is possible to predict an absolute copy number in at least one target region. At this time, if the absolute number of copies in the at least one target region can be identified through the method for analyzing the absolute number of copies variation based on a single sample according to an embodiment of the present invention, accurate treatment and clinical experiment of the patient may be possible.
도 5를 참조하면, (a)는 염색체상 위치에 따른 TRR을 시물레이션한 결과를 도시하고, (b)는 본 발명의 일 실시예에 따른 염색체상 위치에 따른 S 및 j를 시물레이션한 결과를 도시한다. (a)는 암 시료 순도 50%의 시뮬레이션 결과를 도시하는데, TRR만이 나타나게 되므로 절대적인 복제수를 알 수 없지만, (b)는 절대적인 복제수에 따라 각각의 세그먼트가 나열된 것을 알 수 있고, 적어도 하나의 타겟 영역에서의 절대적인 복제수를 파악할 수 있다는 것을 알 수 있다. 이와 같은 도 2 내지 도 5의 단일 시료에 기반한 절대 복제수 변이의 분석 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다. Referring to Figure 5, (a) shows the results of the simulation of the TRR according to the chromosomal position, (b) shows the results of simulating S and j according to the chromosomal position according to an embodiment of the present invention do. (a) shows a simulation result of 50% of the cancer sample purity, and since only the TRR is shown, the absolute number of copies cannot be known, but (b) shows that each segment is listed according to the absolute number of copies. It can be seen that the absolute number of copies in the target area can be identified. The method of analyzing the absolute copy number variation based on the single sample of FIGS. 2 to 5 may be easily inferred from the same or described contents, and thus descriptions thereof will be omitted.
도 6은 본 발명의 일 실시예에 따라 단일 시료에 기반한 절대 복제수 변이의 분석 방법을 설명하기 위한 동작 흐름도이다. 도 6을 참조하면, 복제수 변이의 분석 장치는, 유전체 해독기 (Sequencer)에서 생성된 실험 시료 서열 데이터를 수신한다 (S6100). 6 is a flowchart illustrating a method of analyzing absolute copy number variation based on a single sample according to an embodiment of the present invention. Referring to FIG. 6, the apparatus for analyzing copy number variation receives experimental sample sequence data generated by a genome sequencer (S6100).
그리고 나서, 복제수 변이의 분석 장치는, 수신된 실험 시료 서열 데이터를 염색체상 위치 (Chromosomal Position)별 표준 참조 서열 데이터에 리드 매핑 (Read Mapping)한 리드 카운트 (Read Count)에 기반하여 TRR(Target Region Ratio)을 출한다 (S6200). Then, the apparatus for analyzing the copy number variation is based on a read count in which the received test sample sequence data is read mapped to standard reference sequence data for each chromosomal position. Region Ratio) is exported (S6200).
또한, 복제수 변이의 분석 장치는, 적어도 하나의 타겟 영역에서의 실험 시료의 순도 및 실험 시료의 평균 복제수를 추정한다 (S6300). In addition, the analysis apparatus for copy number variation estimates the purity of the test sample and the average copy number of the test sample in the at least one target region (S6300).
마지막으로, 복제수 변이의 분석 장치는, 산출 및 추정된 파라미터에 기초하여 실험 시료의 절대 복제수를 예측한다 (S6400). 이와 같은 도 6의 단일 시료에 기반한 절대 복제수 변이의 분석 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 5를 통해 단일 시료에 기반한 절대 복제수 변이의 분석 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다. Finally, the analysis apparatus for copy number variation predicts the absolute copy number of the experimental sample based on the calculated and estimated parameters (S6400). Such matters that are not described for the analysis of the absolute copy number variation based on the single sample of FIG. 6 are the same as those described above for the method for analyzing the absolute copy number variation based on the single sample through FIGS. 1 to 5. Since it can be easily inferred from the description, it will be omitted.
본 발명의 또 다른 일예는, 단일 시료에 기반한 절대 복제수 변이의 분석 방법에 관한 것이다. 구체적인 일예에서, 본 발명에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법은 하기 단계를 포함할 수 있다: Another example of the invention relates to a method for analyzing absolute copy number variation based on a single sample. In a specific embodiment, the method for analyzing absolute copy number variation based on a single sample according to the present invention may comprise the following steps:
(1) 시료 서열 정보를, 염색체상 위치 (Chromosomal Position)별 참조 서열 정보에 리드 매핑 (Read Mapping)하여 리드 카운트 (Read Count)를 얻는 단계; (1) reading mapping the sample sequence information to reference sequence information for each chromosome position to obtain a read count;
(2) 상기 리드 카운트 (Read Count)에 기반하여, 시료내 적어도 하나의 타겟 영역에서의 TRR(Target Region Ratio)을 산출하는 단계; (2) calculating a target region ratio (TRR) in at least one target region in a sample based on the read count;
(3) 상기 적어도 하나의 타겟 영역에서의 시료의 순도 및 시료의 평균 복제수를 추정하는 단계; 및 (3) estimating the purity of the sample in the at least one target region and the average number of copies of the sample; And
(4) 상기 산출 TRR 및 추정된 순도와 평균 복제수에 기초하여 상기 시료내 적어도 하나의 타겟 영역의 절대 복제수를 결정하는 단계. (4) determining an absolute copy number of at least one target region in the sample based on the calculated TRR and the estimated purity and average copy number.
이하, 상기 각 단계별로 단일 시료에 기반한 시료 서열정보의 분석방법을 자세히 설명하고자 한다. Hereinafter, an analysis method of sample sequence information based on a single sample for each step will be described in detail.
(1)실험 시료의 리드 카운트를 얻는 단계 (1) obtaining a lead count of an experimental sample
본 발명에 따른 시료 서열의 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에서, 상기 (1) 시료 서열 정보를, 염색체상 위치 (Chromosomal Position)별 참조 서열 정보에 리드 매핑 (Read Mapping)하여 리드 카운트를 얻은 단계를 수행할 수 있다. In the method for analyzing absolute copy number variation based on a single sample of a sample sequence according to the present invention, (1) the sample sequence information is read by read mapping to reference sequence information for each chromosome position. The step of obtaining the count can be performed.
상기 시료 서열 정보와 참조 서열 정보는 통상의 서열정보 분석 방법으로 얻을 수 있으며, 예를 들면, 서열분석기를 통해 분석하는 방법으로서 시험 시료에 대하여 차세대 염기서열 분석과 같은 대규모 병렬 염기 서열 분석을 수행할 수 있고, 또는 얻어진 서열 정보를 데이터 저장 매체에 저장된 형태로 준비하거나 또는 네트워크 데이터 송수신 장치를 통하여 얻을 수도 있다. 본 발명의 일예에서, 도 1의 서열 정보 분석 시스템 (1)에 도시된 유전체 서열분석기 (100)를 이용하여 수신될 수도 있으며, 다만, 이러한 도 1의 시료 서열 정보 분석 시스템 (1)은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니다. The sample sequence information and the reference sequence information can be obtained by a conventional sequence information analysis method. For example, as a method of analyzing through a sequencer, large-scale parallel sequencing such as next-generation sequencing can be performed on a test sample. Alternatively, the obtained sequence information may be prepared in a form stored in a data storage medium or obtained through a network data transmission / reception apparatus. In one embodiment of the invention, it may be received using the genome sequencer 100 shown in the sequence information analysis system 1 of FIG. 1, provided that the sample sequence information analysis system 1 of FIG. Since only one embodiment of the present invention, the present invention is not limited to FIG. 1.
상기 시료 (sample) 서열정보는 분석하고자 하는 시료의 서열 정보를 의미하며, 상기 참조 (reference) 서열 정보는 표준 게놈 염기 서열 (reference genome sequence)"로서, 한가지 종 (species)을 대표하는 게놈 염기 서열 데이터베이스를 지칭한다. 현재 인간의 reference genome은 빌드 37(build 37: GRCh37), hgl 8, hgl9, hg38과 같은 간행된 (예컨대, UCSC, NCBI 등) 기준 게놈 서열에 근거하여 구축된 것일 수 있다. The sample sequence information means sequence information of a sample to be analyzed, and the reference sequence information is a reference genome sequence, which is a genome sequence representing one species. A reference genome of a human may now be constructed based on published (eg, UCSC, NCBI, etc.) reference genomic sequences such as build 37 (GRCh37), hgl 8, hgl9, hg38.
상기 시료 서열정보 또는 참조 서열정보는 예컨대, 차세대 서열 분석법중 대규모 병렬형 염기 서열 분석 방법에 의하여 얻어진 것일 수 있으며, 차세대 서열 분석 방법을 이용하여 서열정보와 리드 깊이 또는 리드 카운트 수를 얻을 수 있다. 이 경우, 상기 폴리뉴클레오타이드 단편은 차세대 염기서열 분석에 사용되는 리드 (read)이며, 상기 폴리뉴클레오타이드 단편 수는 리드 수 (read count) 또는 리드 깊이 (read depth)이며, 상기 평균 폴리뉴클레오타이드 단편 수는 평균 리드 수일 수 있다. 용어, "대규모 병렬 염기서열분석 (massively parallel The sample sequence information or the reference sequence information may be obtained by, for example, a large-scale parallel sequencing method in the next-generation sequencing method, and the sequence information, the read depth, or the read count number may be obtained by using the next-generation sequencing method. In this case, the polynucleotide fragment is a rea d used for next generation sequencing, the number of polynucleotide fragments is read count or read depth, and the average polynucleotide fragment number is It may be an average number of leads. The term, "massively parallel sequencing
sequencing)"은 하나의 유전체 (genome)을 무수히 많은 폴리뉴클레오타이드 "sequencing" means that a single genome is innumerable polynucleotides
단편으로 랜덤하게 분해하여 각 조각의 서열을 동시에 읽어낸 뒤, 이렇게 얻은 서열 데이터를 생물 정보학적 기법 (bioinformatics)을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하는 염기서열 분석 방법을 총칭한다. The sequence of each fragment is randomly decomposed into fragments, the sequences of each fragment are read simultaneously, and the sequence data thus obtained are combined using bioinformatics to collectively decipher a large amount of genomic information.
상기 차세대 염기서열 분석법은, 예컨대 454 풀랫품 (platform) (Margulies, 등, Nature (2005) 437:376-380), Illumina Genome Analyzer (또는 Solexa™ platform), Illumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, 또는 SOLiD (Applied Biosystems) 또는 Helicos True Single Molecule DNA 서열분석 기술 (Harris, 등, Science (2008) 320: 106 109), Pacific Biosciences의 단일 분자, 및 /또는 실시간 (SMRTTM) 기술 등에 의하여 수행될 수 있다. 또한 나노포어 서열 분석 (Soni and Meller, Clin Chem (2007) 53: 1996-2001 ) 상에서 가능한 대규모 병렬 염기서열분석은 표본으로부터 분리된 많은 핵산 분자들의 The next-generation sequencing method is, for example, 454 platform (Margulies, et al., Nature (2005) 437: 376-380), Illumina Genome Analyzer (or Solexa ™ platform), Illumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, or SOLiD (Applied Biosystems) or Helicos True Single Molecule DNA Sequencing Technology (Harris, et al., Science (2008) 320: 106 109), single molecule from Pacific Biosciences, and And / or by real-time (SMRT ™) technology or the like. In addition, large-scale parallel sequencing that is possible on nanopore sequencing (Soni and Meller, Clin Chem (2007) 53: 1996-2001) has been carried out by the
서열분석을 병렬 방식의 높은 차수의 멀티플렉싱 (multiplexing)으로 가능하게 한다 (Dear, Brief Funct Genomic Proteomic (2003) 1 :397-416). 이들 플랫품들 각각은 핵산 단편들의 클론적으로 확장된 또는 증폭되지 않은 단일 분자들을 서열화한다. 상업적으로 입수 가능한 서열분석 기기를 사용하여 폴리뉴클레오타이드 단편들의 서열정보를 수득할 수 있다. 이 외에도 상기 서열 분석이 다른 다양한 공지된 서열분석 방법들 및 또는 이들의 변형 방법들에 의하여 수행될 수 있다. Sequencing is possible with high order multiplexing in a parallel fashion (Dear, Brief Funct Genomic Proteomic (2003) 1: 397-416). Each of these platforms sequences single molecules that are either clonally expanded or not amplified of nucleic acid fragments. Sequence information of polynucleotide fragments can be obtained using commercially available sequencing instruments. In addition, the sequencing may be performed by various other known sequencing methods and / or modifications thereof.
상기 시료 서열정보는 전체 게놈 서열정보 또는 선택된 타겟 영역의 서열정보일 수 있다. 본 명세서에서, 다른 정의가 없는 한, 타겟 영역 및 타겟 염기 서열은 게놈 또는 염색체 내의 분석하고자 하는 선택 영역 (타겟 영역) 및 상기 영역의 염기 서열 (타겟 염기 서열)을 각각 의미한다. 상기 타켓 영역 및 타겟 염기 서열은 하나의 시료에 대하여 하나 이상 존재할 수 있다. 예를 들면, 상기 타켓 영역은 전장 유전체 분석 (whole genome sequencing)에서는 분석하고자 하는 임의의 구간이 되며 타켓 서열분석 (targeted sequencing)에서는 library prep 시에 서열분석을 하기 위해 probe등을 설계하여 선별하는 영역올 의미할 수 있다. 상기 시료 서열정보 또는 참조 서열정보는 예컨대, 차세대 염기서열 분석법중 대규모 병렬 염기 서열 분석 방법에 의하여 얻어진 것일 수 있으며, 차세대 서열 분석 방법을 이용하여 서열정보와 리드 깊이 또는 리드 카운트 수를 얻을 수 있다. 차세대 염기서열 분석법을 통해 시료 서열정보가. 전체 게놈 서열정보 또는 특정 선택 영역, 즉 타켓 영역을 선정하여 차세대 염기서열 분석법을 수행하여 (targeted sequencing) 타겟 영역의 서열정보를 시료 서열정보로 사용할 수 있다. NGS 방법을 활용한 targeted sequencing 방법은, 예를 들면 The sample sequence information may be whole genome sequence information or sequence information of a selected target region. In this specification, unless otherwise defined, a target region and a target base sequence mean a selected region (target region) and a base sequence (target base sequence) of the region, respectively, to be analyzed in the genome or chromosome. The target region and target base sequence may be present in one or more for one sample. For example, the target region is an arbitrary region to be analyzed in whole genome sequencing, and in target sequencing, a region for designing and selecting probes for sequencing at library prep. Can mean come. The sample sequence information or reference sequence information may be obtained by, for example, a large-scale parallel sequencing method in the next generation sequencing method, and sequence information, read depth, or read count number may be obtained using the next generation sequencing method. Sample sequence information through the next generation sequencing method. The entire genome sequence information or a specific selection region, that is, a target region may be selected to perform next generation sequencing, and the sequence information of the target region may be used as sample sequence information. The targeted sequencing method using the NGS method is, for example
Sequence Capture'라는 기술을 활용하여 특정 유전체의 일부분을 선택적으로 분석을 할 수 있다. Using a technique called Sequence Capture, you can selectively analyze parts of specific genomes.
구체적으로, 상기 리드 카운트를 얻는 단계는, 상기 시료 서열 정보, 예를 들면 유전체 서열분석기 (100)에서 얻어진 시료 서열 정보를 염색체상 위치별 참조 서열 정보에 리드 매핑할 수 있으며 (S3200), 예를 들면 도 2의 시료 서열 정보의 분석 장치 (300)의 산출부 (330)에서 수행될 수 있다. 이때, 시료 서열 정보는 유전체 서열분석기 (100)에서 실험 시료를 복수회 읽어 들여 복수회의 리드 카운트 (Read Count)를 가진 데이터일 수 있다. 이때, 실험 시료는 암 시료일 수 있다. 예를 들어, 유전체 서열분석기 (100)에서 250회의 리드 카운트를 가졌다고 가정하면, 250회 실험 시료 서열 정보를 읽어 들이면서 시료 서열 정보의 타겟 영역별 리드 카운트의 수를 계산할 수 있다. 이때, 리드 카운트는, 시료 서열 정보에 위치한 적어도 하나의 타겟 영역에서 계산될 수 있다. (2) 시료의 순도 및 평균 복제수를 추정하는 단계 Specifically, in the obtaining of the read count, the sample sequence information, for example, the sample sequence information obtained from the genome sequencer 100 may be mapped to the reference sequence information for each position on the chromosome (S3200). For example, it may be performed by the calculation unit 330 of the analysis device 300 of the sample sequence information of FIG. In this case, the sample sequence information may be data having a plurality of read counts by reading a plurality of test samples from the genome sequencer 100. In this case, the test sample may be a cancer sample. For example, assuming that the genome sequencer 100 has 250 read counts, the number of read counts for each target region of the sample sequence information may be calculated while reading the 250 test sample sequence information. In this case, the read count may be calculated in at least one target region located in the sample sequence information. (2) estimating the purity of the sample and the average number of copies
본 발명에 따른 시료 서열의 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에서, 적어도 하나의 타겟 영역에서의 실험 시료의 순도 및 실험 시료의 평균 복제수를 추정할 수 있다. In the method for analyzing the absolute copy number variation based on a single sample of the sample sequence according to the present invention, the purity of the test sample in at least one target region and the average copy number of the test sample can be estimated.
실험 시료의 순도 및 시료의 평균 복제수를 추정하는 단계는, Estimating the purity of the test sample and the average number of copies of the sample,
(i)상기 리드 매큉 결과로부터, 시료 서열정보와 참조 서열정보가 동일한 대립 유전자 (A Allele)와, 상기 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자 (B Allele)의 빈도수에 기초하여, 상기 상이한 대립 유전자의 빈도율 (B allele frequency, BAF)을 산출하는 단계; (i) From the read-mapped result, based on the allele (A Allele) having the same sample sequence information and the reference sequence information and the frequency of the allele (B Allele) having different sample sequence information and the reference sequence information, the different Calculating a frequency of allele (B allele frequency, BAF);
(ii)상기 상이한 대립 유전자의 빈도율에 기초하여, 상기 시료 서열정보를 분할 (Segmentation)하는 단계; (ii) segmenting the sample sequence information based on the frequency rate of the different alleles;
(iii)상기 분할된 적어도 하나의 세그먼트를, 시료 순도에 대한 상기 빈도율의 복제수 모델에 적용하여, 상기 시료의 순도 후보 및 복제수 후보를 추출하는 단계; 및 ' (iii) applying the divided at least one segment to a copy number model of the frequency ratio with respect to sample purity to extract a purity candidate and a copy number candidate of the sample; And '
(iv) 필터링 파라미터를 이용하여, 상기 시료의 순도 후보 및 복제수 후보를 필터링하여 상기 시료의 순도 및 평균 복제수를 결정하는 단계를 (iv) filtering the purity candidate and the copy number candidate of the sample by using the filtering parameter to determine the purity and the average copy number of the sample.
포함하는 방법으로 수행하는 할 수 있다. It can be done by including the method.
본 발명에 따론 단일 시료에 실험 시료의 순도 및 실험 시료의 평균 복제수 추정방법은, 실험 시료의 순도 및 평균 복제수를 포함하는 적어도 하나의 파라미터를 측정하고, 상기 파라미터를 이용하여 체세포 변이 발굴의 정확성을 향상시킬 수 있을 뿐만 아니라, 대조군 시료가 존재하지 않더라도 체세포 복제수 변이 발굴에 유용하게 사용될 수 있다. According to the present invention, a method for estimating the purity of an experimental sample and an average copy number of a test sample in a single sample may be performed by measuring at least one parameter including the purity of the test sample and the average copy number, and using the parameters to detect somatic mutations. In addition to improving accuracy, even if no control sample exists, it can be useful for discovering somatic cell copy variation.
하기, (2) 단계를 세부 단계로 나누어 자세히 설명하고자 한다. In the following, it will be described in detail by dividing step (2) into detailed steps.
ii) 상이한 대립 유전자의 빈도율 산출단계 ii) calculating frequency rates of different alleles
본 발명에서 (i) 단계는, 시료 서열 정보와 참조 서열 정보가 동일한 대립 유전자와, 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자의 빈도수에 기초하여 상이한 대립 유전자의 빈도율 (BAF: B Allele Frequency)을 산출할 수 있다. 구체적으로, 도 9를 참조하면, 시료는 정상 세포에서 복제 결실, 중복, 전좌, 역위 등이 발생하면, 암 세포로 변형된 암세포 시료일 수 있으며, 암 세포의 시료 서열정보와 참조 서열정보간에 동일한 대립 유전자의 복제수를 n, 시료 서열정보와 참조 서열정보간에 상이한 대립 유전자의 복제수를 m, 시료의 순도를 α라고 하면, 동일한 대립 유전자 (Α)와 상이한 대립 유전자 (Β)의 빈도수는 각각 수학식 13 및 수학식 14와 같이 정의될 수 있다. In the present invention, the step (i) is based on an allele having the same sample sequence information and reference sequence information and a different allele frequency (BAF: B Allele Frequency) based on the frequency of alleles having different sample sequence information and reference sequence information. ) Can be calculated. Specifically, referring to FIG. 9, when a replication deletion, duplication, translocation, inversion, etc. occurs in normal cells, the sample may be a cancer cell sample modified with cancer cells. If the number of copies of the same allele between the sample sequence information and the reference sequence information is n, the number of copies of alleles different from the sample sequence information and the reference sequence information is m, and the purity of the sample is α, different from the same allele (Α). The frequency of the allele β can be defined as in Equation 13 and Equation 14, respectively.
【수학식 13 ] [Equation 13]
Fa = n a + 1(1― )― 1 + (ri― 1)« F a = na + 1 (1―) ― 1 + (ri― 1) «
【수학식 14】 [Equation 14]
Ff, = m + 1(1.ᅳ «) '= 1 + (雄― 1)α Ff, = m + 1 (1. ᅳ «) '= 1 + (雄 ― 1) α
수학식 13 및 14에서 , η은 동일한 대립 유전자의 복제수를, m은 상이한 대립 유전자의 복제수이고 m과 n은 각각 0 또는 자연수이고, In Equations 13 and 14, η is the number of copies of the same allele, m is the number of copies of the different alleles and m and n are each 0 or natural numbers,
α는 시료의 순도이고, α is the purity of the sample,
Fa는 동일한 대립 유전자 (A)의 빈도수이고, Fa is the frequency of the same allele (A),
Fb는 상이한 대립 유전자 (B)의 빈도수이다. Fb is the frequency of different alleles (B).
예를 들면, 시료의 순도는 분석대상 .실험 시료에 분석대상 종양세포와 정상시료가 포함된 경우, 전체 시료 세포수중에서 종양 세포수의 비율 (fraction)을 순도 (tumor purity 또는 tumor cellularity)라고 표현할 수 있다. 또한, 암시료의 조직검사를 수행할 때 시료 내에 포함된 정상 세포 (stroma cell, 백혈구 등)들을 제외한 암유래 세포들만의 비율을 의미한다. For example, the purity of a sample can be expressed in terms of the purity (tumor purity or tumor cellularity) of the total number of cells in the sample. Can be. In addition, when performing a biopsy of the cancer sample means a ratio of only cancer-derived cells excluding normal cells (stroma cells, white blood cells, etc.) contained in the sample.
이때, 참조 서열정보와 비교하여, 실험 시료의 서열정보에서 상이한 대립 유전자의 빈도율을 BAF라고 하면, BAF는 하기 수학식 15과 같이 정의될 수 있다. 즉, 시료중 상이한 대립 유전자의 빈도율 (BAF)는 전체 대립 유전자의 빈도수로서 시료와 참조 시료간에 동일한 대립 유전자의 빈도수와 상이한 대립 유전자의 빈도수의 합계에 대해, 상이한 대립 유전자의 빈도수의 비율 (BAF=(Fb)/(Fa+Fb))을 의미한다. 수학식 15에 기재된 Fa 및 Fb에 각각 수학식 13 및 14의 수식을 대입하면 수학식 15의 오른쪽 식과 같이 표현될 수 있다. In this case, when the frequency ratio of the different alleles in the sequence information of the test sample is compared with the reference sequence information, BAF, BAF may be defined as shown in Equation 15 below. That is, the frequency of different alleles (BAF) in a sample is the frequency of the total alleles, and the ratio of the frequency of different alleles (BAF) to the sum of the frequency of the same allele and the frequency of the different alleles between the sample and the reference sample. = (Fb) / (Fa + Fb)). Substituting the formulas of Equations 13 and 14 into Fa and Fb described in Equation 15, respectively, it can be expressed as shown in Equation 15's right formula.
【수학식 15】 Fh 1 + Cm― l) [Equation 15] F h 1 + Cm― l)
BAF = = · ■ ,„ ,, BAF = = · ■ , „,,
Fa + Fb 2 + (H + m - 2)a F a + F b 2 + (H + m-2) a
수학식 3에서^, 1^, 01,1¾ 및 Fb의 정의는 수학식 13 및 14와 같다. In Equation 3, the definitions of ^, 1 ^, 01, 1¾ and Fb are the same as Equations 13 and 14.
따라서, 상이한 대립 유전자의 빈도율은, 동일한 대립 유전자의 복제수, 상이한 대립 유전자의 복제수 및 실험 시료의 순도에 기초하여 산출될 수 있다. Thus, the frequency rate of different alleles can be calculated based on the number of copies of the same allele, the number of copies of the different alleles, and the purity of the experimental sample.
(ii) 시료 서열 정보의 분할 (Segmentation) 단겨 1 (ii) segmentation of sample sequence information;
본 발명에 따른 시료 서열의 정보 분석 방법에서 상기 (ii) 단계는 시료 서열 정보의 상이한 대립 유전자의 BAF에 기초하여, 상기 시료 서열 정보를 분할 (Segmentation)할 수 있다. In the method of analyzing information of a sample sequence according to the present invention, step (ii) may segment the sample sequence information based on BAFs of different alleles of the sample sequence information.
본 발명의 일 예에서 도 10(c)에 있는 것과 같이, 서열 정보의 분할은 상이한 대립 유전자의 빈도수의 평균이 서로 달라지는 영역을 갖는 In an example of the present invention, as shown in FIG. 10 (c), the division of sequence information has a region in which the average of the frequencies of different alleles differs from each other.
세그먼트 (segment)를 찾아서 나누는 것이며, 예를 들면 임의의 영역을 잡고 평균에 대한 t-test를 하는 것이다. 상기 서열정보의 분할은 다양한 방법으로 수행될 수 있으며 , 상기 분할방법은 예를 들면 circular binary segmentation (CBS) 방법 등이 있으나 이에 한정되는 것은 아니다. Finding and dividing a segment, for example, grabbing a random area and t-testing the mean. The division of the sequence information may be performed by various methods, and the division method includes, for example, a circular binary segmentation (CBS) method, but is not limited thereto.
본 명세서에서 세그먼트 (segment)라 함은, 시료의 서열정보 중에서 상이한 대립 유전자 BAF의 평균이 같은,서열 정보 그룹을 의미하며 도 10(c) 에서 나와있는 검정색 막대 부분을 말하는 것이다. 도 10을 참조하면, (a)는 대조 시료의 BAF 그래프이고, (b)는 실험 시료의 BAF 그래프이다. 여기서, 상기 시료 서열정보의 분할은 CBS(CircuIar Binary Segmentation) 또는 다른 분할 방법을 이용하여 BAF 그래프를 분할할 수 있다. In the present specification, the segment refers to a group of sequence information, in which the average of different allele BAFs in the sequence information of the sample is the same, and refers to the black bar portion shown in FIG. 10 (c). Referring to FIG. 10, (a) is a BAF graph of a control sample, and (b) is a BAF graph of an experimental sample. Here, in order to divide the sample sequence information, the BAF graph may be segmented using CBS (CircuIar Binary Segmentation) or another segmentation method.
(iii 상이한 대립 유전자의 복제수 및 시료 순도 후보 추출 단계 (iii) copy number and sample purity candidate extraction of different alleles
본 발명에 따른 시료 서열의 정보 분석 방법에서 상기 (iii) 단계는, 시료 순도에 대한 빈도율의 복제수 모델에, 적어도 하나의 세그먼트를 적용하여, 시료의 복제수 및 시료 순도 후보를 추출할 수 있다. Step (iii) in the information analysis method of the sample sequence according to the present invention, by applying at least one segment to the copy number model of the frequency rate for the sample purity, it is possible to extract the copy number and sample purity candidate of the sample. have.
여기서, 시료 순도에 대한 빈도율의 복제수 모델은 n-m plot model일 수 있다. 상기 분할단계에서 정의된 세그먼트를 , n-m plot model에 적용함으로써, 각각의 노드(^)£161, )(162... 0( 6)를 정의할 수 있다. 여기서, 노드는 (n,m,a, Fa, Fb)의 값을 포함하므로, 후보 노드가 선정되면, 상이한 대립 유전자의 복제수 및 시료 순도 후보도 추출할 수 있게 된다. 여기서,! !! ,!^,^의 값은 상기 수학식Here, the copy number model of the frequency rate with respect to the sample purity may be a nm plot model. By applying the segment defined in the partitioning step to the nm plot model, each node (^) £ 161,) (162 ... 0 (6) can be defined, where nodes are (n, m, a, F a , Since the value of F b ) is included, when candidate nodes are selected, copy numbers and sample purity candidates of different alleles can be extracted. Here ,! !! ,! ^ , ^ The value of the above formula
13 및 14에서 정의한 바와 같다. As defined in 13 and 14;
상기 수학식 15은 하기 수학식 16와 같이 변환될 수 있는데, 각각의 세그먼트를 n-m plot model에 대입하면 , α 후보를 도출할 수 있고, 이를 노드 후보 또는 시료 순도 후보라고 정의하기로 한다. 또한 상기 시료 순도 후보 값으로부터 복제수 (m,n)의 후보 값도 얻을 수 있다. Equation 15 may be converted as shown in Equation 16. Substituting each segment into the n-m plot model, an α candidate may be derived, and this is defined as a node candidate or a sample purity candidate. Further, candidate values of the copy number (m, n) can also be obtained from the sample purity candidate values.
【수학식 16] [Equation 16]
1 - 2BAF 1-2BAF
1 - m 4- (n 4- in - 2)BAF 1-m 4- (n 4- in-2) BAF
예를 들어 , η이 0, m이 1 , 세그먼트의 BAF가 0.7이라고 가정하고, 수학식 4에 각각의 파라미터를 대입하는 경우 α는 0.57이 얻어지며 , η, ηι, α을 수학식 13 및 14에 상기 파라미터를 대입하면 Fa는 0.3, Fb는 1.0이므로, 이 경우의 노드는 (0,1 ,0.57,0.3, 1.0)이 된다. For example, assuming that η is 0, m is 1, and the BAF of a segment is 0.7, and each parameter is substituted into Equation 4, 0.5 is obtained, and α, ηι, and α are represented by Equations 13 and 14 If the above parameter is substituted, Fa is 0.3 and Fb is 1.0, so the node in this case is (0,1,0.57,0.3, 1.0).
(iv 시료의 순도 및 평균 복제수 추정 단계 (iv estimating purity and mean copy number of samples
본 발명에 따른 시료 서열의 정보 분석 방법에서 상기 (iv) 단계는, 상기 (Hi)단계에서 추출된 시료 순도 및 복제수의 후보중에서, 적어도 하나의 필터를 통하여 필터링된 시료 순도 및 복제수를 실험 시료의 시료 순도 및 복제수로 각각 설정함으로써 추정될 수 있다. In the method of analyzing information of a sample sequence according to the present invention, the step (iv) may include testing the sample purity and the number of copies filtered through at least one filter among candidates for the sample purity and the number of copies extracted in the step (Hi). It can be estimated by setting the sample purity and the number of copies of the sample, respectively.
여기서, 적어도 하나의 필터는, 비율 필터, 복제수 필터 및 단위 필터로 이루어지는 군에서 선택된 1종 이상의 필터를 포함할 수 있으며, 바람직하게는 비율 필터, 복제수 필터 및 단위 필터를 모두 사용하여 필터링할 수 있다. Here, the at least one filter may include at least one filter selected from the group consisting of a ratio filter, a copy number filter, and a unit filter. Preferably, the filter may be filtered using all of the ratio filter, the copy number filter, and the unit filter. Can be.
이때, 비율 필터는, 기 설정된 수의 리드 카운트를 가지는 TRR(Target Region Ratio)에 대한, 적어도 하나의 타겟 영역에서의 리드 카운트에 기반한 TRR 비율의 일치 여부를 필터링하는 필터일 수 있고, 하기 수학식 17와 같이 정의될 수 있다. In this case, the ratio filter may be a filter for filtering whether or not the TRR ratio based on the read count in at least one target region with respect to a target region ratio (TRR) having a predetermined number of read counts is equal to the following equation. Can be defined as 17.
【수학식 17] [Equation 17]
상기 추정 단계는, 비율 필터를 이용하여 추출단계에서 얻어진 시료 순도의 후보 중에서 수학식 75의 비율 (r)이 동일한 후보만을 남기고 모두 In the estimating step, all of the candidates for sample purity obtained in the extracting step using the ratio filter leave only candidates having the same ratio (r) in Equation 75.
필터링하여 제외할 수 있다. TRR은 실험 시료의 서열 정보의 리드 매핑으로부터 얻어지는 실측 수치이다 Can be filtered out. TRR is a measured value obtained from lead mapping of sequence information of an experimental sample.
복제수 필터는, 실험 시료의 평균 복제수의 동일 여부를 필터링할 수 있고, 하기 수학식 18과 같이 정의될 수 있다. The copy number filter may filter whether the average copy number of the test sample is the same and may be defined as in Equation 18 below.
【수학식 18】 [Equation 18]
ᅳ 2(1ᅳ TRR) + (/一 2 + 2TRR)a ᅳ 2 (1 ᅳ TRR) + (/ 一 2 + 2TRR) a
ᅳ TRR 상기 추정 단계는, 복제수 필터를 이용하여 추출단계에서 얻어진 시료 후보 중에서 수학식 18의 평균 복제수 (J)가 동일한 후보만을 남기고 모두 ᅳ TRR The estimating step includes all candidates having the same average number of copies (J) in Equation 18 among the sample candidates obtained in the extraction step using the copy number filter.
필터링하여 제외할 수 있다. Can be filtered out.
단위 필터는, 적어도 하나의 타겟 영역 중 단위 영역의 리드 카운트의 동일 여부를 필터링하는 필터일 수 있고, 하기 수학식 19과 같이 정의될 수 있다. The unit filter may be a filter for filtering whether the read count of the unit region is the same among at least one target region, and may be defined as in Equation 19 below.
【수학식 19】 [Equation 19]
, _ Fa + Fb , _ F a + F b
{2 +■ w + — Z)tx] (2 + ■ w + — Z) tx]
여기서, d는 단위 리드 카운드를 의미하고, 적어도 하나의 타겟 영역의 복제수가 1인 단위 영역의 리드 카운트일 수 있다. 즉, 상기 추정 단계는, 단위 필터를 이용하여, 추출단계에서 얻어진 시료 후보 증에서 수학식 19의 단위 복제수 (d)가 동일한 후보만을 남기고 모두 필터링하여 제외할 수 있다. Here, d may mean a unit read count, and may be a read count of a unit area in which at least one target area has a copy number of 1. That is, the estimating step may filter out all of the sample candidate certificates obtained in the extraction step by using the unit filter, leaving all of the candidates having the same number (d) of Equation 19 left behind.
구체적으로서 필터링 과정을 도 12를 참조하면, 추출단계에서 추출한 후보를 노드 1 내지 노드 6(nodel,...,node6)로 정의하고, 적어도 하나의 필터를 동시에 또는 순차적으로 이용하는 과정에서 추출단계에서 얻어진 시료 후보가 제거, 즉 노드가 제거될 수 있다. 여기서, 도 12에 도시된 세 번의 필터링 과정은, 적어도 하나의 필터가 반복하여 사용될 수도 있기 때문에 , 3 개의 필터가 순차적으로 쓰인 것을 의미하는 것은 아니다. Specifically, referring to FIG. 12, in the extraction step, the candidate extracted in the extraction step is defined as nodes 1 to 6 (nodel, ..., node6), and at least one filter is simultaneously or sequentially used. The obtained sample candidate may be removed, i.e. the node may be removed. Here, in the three filtering processes illustrated in FIG. 12, since at least one filter may be used repeatedly, three filters may be used. It is not meant to be written sequentially.
도 13을 참조하면, 필터링을 통하여 남은 노드, 즉 후보를 확인할 수 있다. 즉, 최종적으로 노드 3 및 노드 5가 선택되는 경우, 실험 시료의 순도 0.7에 해당하는 경우로, 세그먼트가 일치하는 것을 알 수 있다. Referring to FIG. 13, the remaining nodes, that is, candidates, may be identified through filtering. That is, when nodes 3 and 5 are finally selected, it can be seen that the segments correspond to the case where the purity of the test sample corresponds to 0.7 purity.
따라서, 본 발명의 일 실시예에 따른 시료 서열의 정보 분석 방법을 수행하는 경우, 최종적으로 남은 노드의 정보를 바탕으로 시료 순도, Fa, Fb, 동일 대립 유전자 복제수 n, 상이한 대립 유전자의 복제수 m을 구할 수 있다. Therefore, when performing the information analysis method of the sample sequence according to an embodiment of the present invention, the sample purity, Fa, Fb, the number of copies of the same allele n, the number of copies of different alleles based on the information of the last remaining node m can be found.
또한, 상기 남은 노드의 시료 순도, Fa, Fb, 동일 대립 유전자 복제수 n, 상이한 대립 유전자의 복쩨수 m을 바탕으로, 수학식 5, 수학식 6, 수학식 7를 활용하여, 시료의 평균 복제수 J 및 단위 리드 카운트 d 를 포함하는 파라미터를 산출할 수 있다. Further, on the basis of the sample purity of the remaining node, Fa, Fb, the same allele copy number n, and the multiple allele m of the different alleles, using Equation 5, Equation 6 and Equation 7, average copy of the sample. A parameter including the number J and the unit read count d can be calculated.
구체적인 예로서, 도 15은 본 발명의 일 실시예에 따른 시료 서열 정보 분석 방법을 설명하기 위한 동작 흐름도이다. 도 15을 참조하면, 시료 서열 정보의 분석 장치는, 유전체 서열분석기 (Sequencer)에서 생성된 시료 서열 정보를 수신하여 염색체상 위치 (Chromosomal Position)별 참조 서열 정보에 리드 매핑 (Read Mapping)한다 (SI 100). As a specific example, FIG. 15 is a flowchart illustrating a method of analyzing sample sequence information according to an embodiment of the present invention. Referring to FIG. 15, the apparatus for analyzing sample sequence information receives sample sequence information generated by a genome sequencer and read-maps reference sequence information for each chromosome position (SI). 100).
그리고 나서, 시료 서열 정보의 분석 장치는, 시료 서열 정보와 참조 서열 정보가 동일한 대립 유전자 (A Allele)와, 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자 (B Allele)의 빈도수에 기초하여 상이한 대립 유전자의 Then, the analyzer for analyzing the sample sequence information includes different alleles based on the frequency of the allele (A Allele) having the same sample sequence information and the reference sequence information and the allele (B Allele) having different sample sequence information and the reference sequence information. Gene
빈도율을 산출한다 (S1200). Calculate the frequency rate (S1200).
또한, 시료 서열 정보의 분석 장치는, 시료 서열 정보을 BAF에 기초하여 분할 (Segmentation)한다 (S 1300). In addition, the analyzer for analyzing sample sequence information divides the sample sequence information based on BAF (S 1300).
그리고, 시료 서열 정보의 분석 장치는, 분할된 적어도 하나의 세그먼트를 시료 순도에 대한 빈도율의 복제수 모델에 적용하여 상이한 대립 유전자의 복제수 및 시료 순도 후보를 추출한다 (S 1400). The apparatus for analyzing sample sequence information applies the divided at least one segment to a copy number model having a frequency ratio to sample purity to extract copy numbers and sample purity candidates of different alleles (S 1400).
마지막으로, 시료 서열 정보의 분석 장치는, 적어도 하나의 필터를 이용하여 실험 시료의 순도 및 평균 복제수를 추정한다 (S1500). Finally, the apparatus for analyzing sample sequence information estimates the purity and average copy number of the experimental sample using at least one filter (S1500).
(3) 타겟 영역의 TRR을 산출하는 단계 (3) calculating the TRR of the target region
본 발명에 따른 시료 서열의 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에서, 실험 시료의 서열 정보를 읽어 들이면서 시료 서열 정보의 타켓 영역별 리드 카운트의 수를 산출할 수 있다. 이때, 리드 카운트는, 시료 서열 정보에 위치한 적어도 하나의 타겟 영역에서 계산될 수 있다. Absolute copy number variation based on a single sample of the sample sequence according to the invention In the analysis method, the number of read counts per target region of the sample sequence information can be calculated while reading the sequence information of the experimental sample. In this case, the read count may be calculated in at least one target region located in the sample sequence information.
도 2 및 도 3을 참조하면, 산출부 (330)는, 수신된 실험 시료 서열 데이터를 염색체상 위치 (Chromosomal Position)별 표준 참조 서열 데이터에 리드 매핑 (Read Mapping)한 리드 카운트 (Read Count)에 기반하여 (S3200, S3300), TRR(Target Region Ratio)을 산출할 수 있다 (S3400). Referring to FIGS. 2 and 3, the calculation unit 330 may read the received test sample sequence data to read counts that are read mapped to standard reference sequence data for each chromosomal position. Based on (S3200, S3300), a target region ratio (TRR) may be calculated (S3400).
본 발명의 일 실시예에 따른 복제수 변이의 분석 장치 (300)에서 실험 시료의 대조군인 대조 시료 서열 데이터가 요구되지 않는 이유를 설명하기로 한다. 도 4를 참조하면, (a) 실험 시료 서열 데이터와, 대조 시료 서열 데이터를 있는 경우를 가정하여 (b) 대조 시료 서열 테이터를 인간 표준 서열인 표준 참조 서열 데이터에 리드 매핑하여 리드 카운트를 계산하고, 상기 얻어진 리드 카운트를 기반하여 타켓 영역의 TRR을 얻을 수 있다. The reason why the control sample sequence data, which is a control of the experimental sample, is not required in the analysis apparatus 300 for copy number variation according to an embodiment of the present invention will be described. Referring to FIG. 4, (a) assuming that the test sample sequence data and the control sample sequence data are present, (b) read mapping of control sample sequence data to standard reference sequence data, which is a human standard sequence, to calculate read counts. The TRR of the target area may be obtained based on the obtained read count.
실험 시료 데이터와 대조 서열 데이터를 모두 사용하는 종래의 분석 방법에서는, TRR은 실험 시료 데이터와 대조 서열 데이터에 위치한 적어도 하나의 타겟 영역의 리드 카운트의 비율로서, 타겟 영역 i에서의 리드 카운트의 비율인 Target region ratio (TRR)은 다음 수학식 1과 같이 표현될 수 있다. In a conventional analysis method using both experimental sample data and control sequence data, TRR is the ratio of the read count of at least one target region located in the experimental sample data and the control sequence data, which is the ratio of the read count in target region i. The target region ratio (TRR) may be expressed by Equation 1 below.
【수학식 Formula
TRR = TRR =
Τ Τ
수학식 1에서, TRR은 특정 타겟 영역 i에서 실험시료와 대조시료의 리드 카운트의 비율이며, 는 타겟 영역 i에서의 실험 시료와 대조 시료의 매핑된 리드 카운트이며 , Ν은 매핑된 대조군 시료의 총 리드 카운트이고 , Τ는 매핑된 실험시료의 총 리드 카운트로서 적어도 하나의 타겟 영역에서의 ^의 총합이다. 예를 들면 실험시료는 암 시료이고 대조 시료는 정상 시료일 수 있다. 본 발명에서는, TRR을 적어도 하나의 타겟 영역마다 계산을 하게 되는데, TRR은 아래 수학식 2 및 수학식 3과 같이 유도될 수 있다. 따라서, 수학식 2 또는 수학식 3에 나타낸 바와 같이, 본 발명에 따른 TRR은, 리드 매핑된 적어도 하나의 타겟 영역에서의 리드 카운트 및 상기 리드 카운트의 총 합의 비율에 기초하여 산출될 수 있다. In Equation 1, TRR is the ratio of the read count of the test sample and the control sample in the specific target area i, is the mapped read count of the test sample and the control sample in the target area i, Ν is the total of the mapped control sample Is the read count and Τ is the total read count of the mapped samples, the sum of ^ in the at least one target region. For example, the test sample may be a cancer sample and the control sample may be a normal sample. In the present invention, TRR is calculated for at least one target region, and TRR may be derived as in Equation 2 and Equation 3 below. Therefore, as shown in Equation 2 or Equation 3, the TRR according to the present invention is based on the ratio of the total sum of the read count and the read count in the at least one lead-mapped target region. Can be calculated based on this.
구체적으로, 실험 시료 데이터와 대조 서열 데이터를 모두 사용하는 종래의 분석 방법에서 정의된 수학식 1의 TRR에서, d는 단위 리드수 (리드 depth), 즉 복제수 1인 타겟 영역에서의 sequencing depth라고 하면, 타겟 영역 i의 복제수가 j 일 때 기대 리드 카운트 RJ 는 RJ=jd 가 된다. 여기서 d는 시료에 따라 dt (실험 시료) 및 dn (대조군 시료)고 구분할 수 있다 . 는 대조 시료 서열 데이터의 기반인 대조군의 i 번째 타켓 영역에 매핑된 리드 카운트로서 대조군의 2 과 같이 표현될 수 있으며 ,Ν은 대조군의 총 리드 카운트로 타겟 영역 1 부터 L 까지의 η의 합을 의미하며, 2dnL과 같이 표현될 수도 있다. T는 실험 시료의 타겟 영역의 총 리드 카운트이고, Lj는 복제수 j를 갖는 타겟 영역의 총 개수이다. Specifically, in the TRR of Equation 1 defined in the conventional analytical method using both the experimental sample data and the control sequence data, d is the sequencing depth in the target region with unit read number (lead depth), that is, copy number 1. Then, when the number of copies of the target area i is j, the expected lead count R J becomes R J = jd. Where d can be divided into dt (test sample) and dn (control sample) according to the sample. Is a read count mapped to the i th target region of the control which is the basis of the control sample sequence data, and can be expressed as 2 of the control, where Ν is the total read count of the control, where Ν is the sum of η from the target region 1 to L It may also be expressed as 2d n L. T is the total read count of the target region of the test sample, and Lj is the total number of target regions with the copy number j.
【수학식 2】 TRR =^-L [Equation 2] TRR = ^ -L
【수학식 3] [Equation 3]
N N
nt T n t T
2d T 2d T
T T
상기 수학식 2 및 3에서, In Equations 2 and 3,
TRRr1는 i 번째 타겟 영역이 복제수 j를 가질 때의 TRR을 의미하며, ti,nbN,T의 정의는 수학식 1과 동일하며, TRRr 1 means TRR when the i th target region has a copy number j, and the definitions of ti, n b N, T are the same as in Equation 1,
dn 은 대조군 시료의 단위 리드 카운트이고, d n is the unit read count of the control sample,
L은 타겟 영역의 총 갯수이다. L is the total number of target areas.
수학식 3으로부터 대조 시료의 대조 시료 서열 데이터가 요구되지 않음을 알 수 있다. 즉, TRRf^ 최종적으로 t T,L 값만 요구되게 되는데, ti,T,L은 모두 상술한 바와 같이 실험 시료로부터 얻어지는 값이기 때문이다. 따라서, 본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법은, 실험 시료의 대조군인 대조 시료의 대조 시료 서열 데이터가 존재하지 않더라도, 실험 시료만을 이용하여 TRR을 산출하고 본 발명의 복제수 변이를 예측할 수 있다. 적어도 하나의 타겟 영역에서의 ti의 합계인 T는 하기 수학식 4와 같이 정리될 수 있다. 일반적으로 실험 시료는 정상 세포와 같은 대조군 세포가 섞여있기 때문에 실험 시료 (예, 암 세포)의 순도를 α라고 하면 총 리드 카운트 Τ는 다음과 같이 계산할 수 있다. 여기서 , Τ는 실험시료의 타겟 영역의 총 리드 카운트이고, Lj는 복제수 j를 갖는 타겟 영역의 총 개수이다. 순수한 실험시료, 예를 들면 암시료의 평균 복제수 J는 하기 수학식 5로 표현할 수 있으므로 , Τ를 정리하면 수학식 6으로 표시할 수 있다. Τ와 마찬가지로 ti로 정리하면 수학식 7로 표시할 수 있다. 적어도 하나의 타겟 영역, 즉 i 번째 타겟 영역이 실험 시료의 복제수가 j를 가질 때 복제수를 ji 로 표시하고, 실험 시료의 순도가 α라면, 적어도 하나의 타겟 영역에서의 실험 시료 서열 데이터의 리드 카운트인 ti는 하기 수학식 7와 같이 정의될 수 있다. It can be seen from Equation 3 that control sample sequence data of the control sample is not required. That is, TRRf ^ finally requires only the values of t T, L, because ti, T, L are values obtained from the test sample as described above. Thus The method for analyzing absolute copy number variation based on a single sample according to an embodiment of the present invention calculates the TRR using only the experimental sample and replicates the present invention, even if there is no control sample sequence data of the control sample which is a control of the experimental sample. The number variation can be predicted. T, which is the sum of ti in at least one target region, may be summarized as in Equation 4 below. In general, since the test sample is mixed with control cells such as normal cells, assuming that the purity of the test sample (eg, cancer cells) is α, the total read count Τ can be calculated as follows. Is the total read count of the target region of the test sample, and Lj is the total number of the target region having the number of copies j. Since the average copy number J of a pure experimental sample, for example, a dark sample, can be expressed by Equation 5 below, Τ can be expressed by Equation 6 below. Like Τ, ti can be expressed as equation (7). If the at least one target region, i.e. the target region, has a number of copies of the test sample with j, the number of copies is represented by ji, and if the purity of the test sample is α, reading of the experimental sample sequence data in the at least one target region The count ti may be defined as shown in Equation 7 below.
【수학식 4】 [Equation 4]
T = (1 - a ^ 2dt + ldt + ^ 2dt + -T = (1-a ^ 2d t + ld t + ^ 2d t +-
L LI L2 L LI L2
【수학식 5】 [Equation 5]
【수학식 61 Equation 61
T = 2(1― a)Ldt + ajl ά T = 2 (1― a) Ld t + ajl ά
【수학식 7】 [Equation 7]
tf = 2(1― a)dt + jid 상술한 수학식 6 및 수학식 7를 이용하면, 수학식 2의 TRR을 j 복제수를 갖는 i 번째 타겟 영역에서의 TRR를 하기 수학식 8과 같이 정리할 수 있다. t f = 2 (1― a) d t + jid Using Equations 6 and 7 described above, the TRR of Equation 2 can be summarized as in Equation 8 below in the i-th target region having the number of j copies.
【수학식 8] [Equation 8]
TRR{ TRR {
여기서, 수학식 8의 우측 좌항을 하기 수학식 9와 같이 A로 정의하고 , A를 수학식 8에 대입하면, 하기 수학식 10으로 표시할 수 있다. Here, if the right left term of Equation 8 is defined as A as shown in Equation 9 below, and A is substituted into Equation 8, Equation 10 may be expressed.
【수학식 9】 [Equation 9]
2 2
Λ 2 + 0 - 2)α Λ 2 + 0-2) α
【수학식 10】 [Equation 10]
수학식 9 및 10에서, In Equations 9 and 10,
α는 실험 시료의 순도, α is the purity of the test sample,
J는 실험 시료의 평균 복제수, 및 J is the average copy number of the test sample, and
j,는실험 시료의 i 번째 타겟 영역 복제수이다. j is the number of copies of the i th target region of the test sample.
J와 α 수치값에 대한 정보를 수학식 8와 같이 Α로서 정리하면 수학식 10로 표시할 수 있다. 여기서, J와 α는 외부로부터 입력을 받을 수 있다. 즉, 외부 병리과 전문의로부터 추정값을 받거나, 마이크로 어레이 (Micro army)를 이용하여 추정하거나, 다른 방법을 통하여 추정값을 수신할 수 있다 (S3500). The information on the numerical values of J and α can be expressed by Equation 10 by arranging them as A as in Equation 8. Here, J and α can receive input from the outside. That is, an estimate may be received from an external pathologist, or may be estimated using a micro army, or may be received through another method (S3500).
구체적으로, 평균 복제수 J와 시료 순도 α를 얻은 방법의 일예는, 실험 시료의 순도 및 시료의 평균 복제수를 추정하는 단계는, (i)상기 리드 매핑 결과로부터, 시료 서열정보와 참조 서열정보가 동일한 대립 유전자 (A Allele)와, 상기 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자 (B Allele)의 빈도수에 기초하여, 상기 상이한 대립 유전자의 빈도율 (B allele frequency, BAF)을 산출하는 단계; (ii)상기 상이한 대립 유전자의 빈도율에 기초하여, 상기 시료 서열정보를 분할 (Segmentation)하는 단계; (iii)상기 분할된 적어도 하나의 Specifically, an example of the method of obtaining the average copy number J and the sample purity α is an experiment. Estimating the purity of the sample and the average number of copies of the sample, (i) from the read mapping result, the allele (A Allele) having the same sample sequence information and reference sequence information, and the sample sequence information and reference sequence information Calculating a frequency of B allele frequency (BAF) based on the frequency of different alleles (B Allele); (ii) segmenting the sample sequence information based on the frequency rate of the different alleles; (iii) the divided at least one
세그먼트를, 시료 순도에 대한 상기 빈도율의 복제수 모델에 적용하여, 상기 시료의 순도 후보 및 복제수 후보를 추출하는 단계; 및 (iv) 필터링 파라미터를 이용하여, 상기 시료의 순도 후보 및 복제수 후보를 필터링하여 상기 시료의 순도 및 평균 복제수를 결정하는 단계를 포함하는 방법으로 수행하는 할 수 있다. 상기 평균 복제수 J와 시료 순도 α를 얻은 방법의 일예는 상기 단계 (2) 시료의 순도 및 평균 복제수를 추정하는 단계에서 구체적으로 설명한 바와 같다. 상기 단일 시료에 실험 시료의 순도 및 실험 시료의 평균 복제수 추정방법은, 실험 시료의 순도 및 평균 복제수를 포함하는 적어도 하나의 파라미터를 측정하고, 상기 파라미터를 이용하여 체세포 변이 발굴의 정확성을 향상시킬 수 있을 뿐만 아니라, 대조군 시료가 존재하지 않더라도 체세포 복제수 변이 발굴에 유용하게 사용될 수 있다. Applying a segment to the copy number model of the frequency rate for sample purity to extract a purity candidate and a copy number candidate of the sample; And (iv) filtering the purity candidate and the copy number candidate of the sample by using the filtering parameters to determine the purity and the average copy number of the sample. An example of the method of obtaining the average copy number J and the sample purity α is as described in detail in the step (2) estimating the purity and the average copy number of the sample. The method for estimating the purity of the test sample and the average copy number of the test sample in the single sample may include measuring at least one parameter including the purity of the test sample and the average copy number, and using the parameters to improve the accuracy of the discovery of the somatic mutation. In addition, even in the absence of a control sample, it may be useful for discovering somatic cell copy number variation.
(4) 산출 및 추정된 파라미터에 기초하여 시료의 절대 복제수를 결정하는 본 발명에 따른 시료 서열의 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에서, 상기 산출 및 추정된 파라미터에 기초하여 실험 시료의 절대 복제수를 결정할 수 있다. 여기서, 산출된 파라미터는 TRR일 수 있고, 추정된 파라미터는 J와 a일 수 있다. 즉, 산출 및 추정된 파라미터에 기초하여, 수학식 1 1과 같이 절대 복제수 점수로 8 를 정의하면, 상기 수학식 10올 하기 수학식 12와 같이 변환할 수 있으며, 이에 i 번째 타켓 영역에서의 절대 복제수 j,가 계산될 수 있다. 절대 복제수 점수는 절대 복제수를 간단한 수식으로 계산할 수 있는 점수로서 절대 복제수와 음의 관계에 있는 점수이다. 절대 복제수 점수의 임상적 의의는 이전의 임계치 (threshold) 방식보다 절대 복제수를 0,1,2,3 과 같은 정수로 표현할 수 있어 보다 정확하게 복제수 변이에 대한 정의가 가능하다는 장점이 있다. (4) In the method for analyzing the absolute copy number variation based on a single sample of the sample sequence according to the present invention, which determines the absolute copy number of the sample based on the calculated and estimated parameters, the experiment based on the calculated and estimated parameters The absolute copy number of the sample can be determined. Here, the calculated parameter may be TRR, and the estimated parameters may be J and a. That is, on the basis of the calculated and estimated parameters, if 8 is defined as the absolute copy number score as shown in Equation 1 1, Equation 10 may be converted as shown in Equation 12 below. The absolute copy number j, can be calculated. The absolute copy score is a score that can be calculated using a simple formula, and has a negative relationship with the absolute copy number. The clinical significance of the absolute copy score is that the absolute copy number can be expressed as an integer such as 0, 1, 2, 3 than the previous threshold method, which allows more accurate definition of the copy variation. There is an advantage.
평균 복제수 J와 순도를 외부에서 입력을 받으면 이론적으로 복제수 1을 가지는 TRR'를 계산할 수 있고 타겟 영역의 TRR값은 실측치에서 얻을 수 있으므로 타겟 영역에서의 아래와 같은 s값을 계산할 수 있다. 즉 TRR 값을 나누어 줌으로서 계산을 원하는 j 만 남고 나머지 변수들은 상쇄되어 사라지게 된다. When the average number of copies J and purity are externally input, the TRR 'having the number of copies 1 can be theoretically calculated and the TRR value of the target region can be obtained from the measured value, so the following s value in the target region can be calculated. That is, by dividing the TRR value, only j desired to be calculated remains and the remaining variables are canceled out.
【수학식 1 1】 [Equation 1 1]
= 2ᅳ 【수학식 12】 = 2 ᅳ [Equation 12]
h = h =
수학식 11 및 12에서, In Equations 11 and 12,
S,J는 실험 시료의 i 번째 타겟 영역이 복제수 j를 갖는 절대 복제수 점수, A는 수학식 9에서 정의한 바와 같고, 추정된 파라미터인 J와 α를 통하여 산출할 수 있으며, S and J are absolute copy scores in which the i th target region of the test sample has a copy number j, A is as defined in Equation 9, and can be calculated through the estimated parameters J and α,
TRR,' 는 실험 시료의 i 번째 타겟 영역에서의 복제수 j을 갖는 TRR이고, TRR1은 적어도 하나의 타겟 영역에서 리드 카운트가 1 인 실험 시료의 TRR이다. TRR, 'is a TRR having a copy number j in the i-th target region of the test sample, and TRR 1 is a TRR of the test sample having a read count of 1 in at least one target region.
본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법에서, 궁극적으로 j,, 즉 i 번째 타겟 영역에서의 절대 복제수 j 를 알고자 하는 것인데, 산출 TRR과 추정된 및 추정된 J와 α에 의하여 절대 복제수 점수 Sfi는 산출될 수 있다. 실험시료, 예를 들면 암 시료로부터 측정된 리드 카운트를 이용하여 TRR를 계산하고 A를 빼준 값 (TRRJ -A)을, (TRR'-A)으로 나누어 준 값을 구하면, 타겟 영역의 절대 복제수를 결정할 수 있다. In the method for analyzing the absolute copy number variation based on a single sample according to an embodiment of the present invention, it is ultimately to know j, that is, the absolute copy number j in the i th target region. the absolute number of replication by J and the score Sf α i may be calculated. TRR is calculated from the test sample, for example, a cancer sample, and the value obtained by dividing A by subtracting A (TRR J -A) by (TRR'-A) is obtained. The number can be determined.
TRR1은 적어도 하나의 타겟 영역에서 리드 카운트가 1 인 실험 시료의TRR 1 is the number of test samples with a lead count of 1 in at least one target area.
TRR을 의미하고 , A는 추정된 파라미터인 J (실험 시료의 평균 복제수)와 α (실험 시료의 순도)를 통하여 산출할 수 있다. 적어도 하나의 타겟 영역에서의 복제수가 기 설정된 수인 TRR을 추정할 수 있다. 여기서, 기 설정된 복제수는 1일 수 있고, TRR1로 표현될 수 있는데, TRR1은 적어도 하나의 타켓 영역에서의 복제수가 1인 TRR을 의미할 수 있다. TRR, A can be calculated through the estimated parameters J (average number of replicates of the test sample) and α (purity of the test sample). Number of copies in at least one target region TRR, which is a preset number, may be estimated. Here, the group may be a copy number set to 1, can be expressed as 1 TRR, 1, TRR can mean a number TRR of replication in at least one of a target area.
여기서, 실험 시료의 절대 복제수는, 적어도 하나의 타겟 영역에서의 실험 시료의 절대 복제수일 수 있다. 예를 들어 유방암에서 널리 알려진 ERBB2 유전자의 경우 복제수가 5를 넘어가는 경우가 흔하며 여기서 제안한 방법을 통해 정상 복제수를 넘어가는 경우의 절대 복제수를 계산할 수 있다. _ 한편, 본 명세서에 기재된 방법 및 정보는 상기 기재된 단계를 실행시킬 수 있는 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 하드웨어와 결합된 것일 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 상기 단계를 컴퓨터에서 실행시키기 위한 프로그램이며, 이 때 상기한 모든 단계가 하나의 프로그램에 의하여 실행되거나, 하나 이상의 단계를 실행하는 두 개 이상의 프로그램에 의하여 실행될 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 프로그램 또는 소프트웨어는, 예컨대, 전화선, 인터넷, 무선 접속 등과 같은 통신 채널 상에서, 또는 컴퓨터 판독가능한 디스크, 플래쉬 드라이브 등과 같은, 휴대용 매체 (transportable medium)를 통한 것을 포함하는 모든 공지된 전달 방법올 통하여 컴퓨터 장치에 전달될 수 있다. Here, the absolute copy number of the test sample may be the absolute copy number of the test sample in at least one target region. For example, in the case of ERBB2 gene, which is widely known in breast cancer, the number of copies often exceeds 5, and the proposed method can calculate the absolute number of copies over the normal number. On the other hand, the methods and information described herein provide a computer program stored in a computer readable storage medium for carrying out the steps of the method capable of executing the steps described above. The computer program stored in the computer readable storage medium may be combined with hardware. A computer program stored in the computer readable storage medium is a program for executing the steps in a computer, wherein all the above steps are executed by one program or by two or more programs executing one or more steps. Can be. Programs or software stored on the computer readable storage medium may be any, including, for example, on a communication channel such as a telephone line, the Internet, a wireless connection, or the like, or on a portable medium such as a computer readable disk, a flash drive, or the like. It can be delivered to a computer device through known delivery methods.
또한, 다른 예는 상기 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램 (computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공한다. Another example also provides a computer readable storage medium (or recording medium) containing computer executable instructions for executing the steps of the method.
상기 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. The computer readable medium may include both computer storage media and communication media.
컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 예를 들면, . 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 (e.g., USB 메모리, SD 메모리, SSD, CF 메모리, xD 메모리 등), 자기 디스크, 레이저디스크, 또는 기타 메모리, CD-ROM, DVD(digital versatile disk) 또는 기타광학적 디스크, 자기 카세트 (magnetic cassette), 자기테이프, 자기 디스크 저장 또는 기타 자기 저장 장치 또는 원하는 정보를 저장하기 위해 이용될 수 있고 컴퓨터에 의해 접근 가능한 모든 매체들 중에서 하나 이상 선택될 수 있으나, 이에 제한되지 않는다. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. For example, . Computer storage media may include RAM, ROM, EEPROM, flash memory (eg, USB memory, SD memory, SSD, CF memory, xD memory, etc.), magnetic disks, laser disks, or other Can be used to store memory, CD-ROM, digital versatile disk or other optical disk, magnetic cassette, magnetic tape, magnetic disk storage or other magnetic storage device or desired information and accessible by computer One or more of all possible media may be selected, but is not limited thereto.
통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모들, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다. 예컨대, 상기 통신 매체는 유선 네트워크 또는 직접 -유선 연결 (direct- wired connection)과 같은 유선 매체, 및 음향 (acoustic) 매체, RF, 적외선 및 기타 무선 매체와 같은 무선 매체들 중에서 하나 이상 선택될 수 있다. Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media. For example, the communication medium may be selected from one or more of a wired medium such as a wired network or a direct-wired connection, and a wireless medium such as an acoustic medium, an RF, an infrared ray, and other wireless mediums. .
상기한 매체들 중 하나 이상의 조합도 컴퓨터 판독 가능한 매체의 범위 내에 포함될 수 있다. Combinations of one or more of the above may also be included within the scope of computer readable media.
상기한 매체들 중 하나 이상의 조합도 컴퓨터 판독 가능한 매체의 범위 내에 포함될 수 있다. 본 발명의 일예에 따른 컴퓨터 판독가능 매체의 예는 도 7에 도시하였으며, 예를 들면 컴퓨터 시스템 (500)의 일 구성요소로서, 상기 컴퓨터 시스템은 하나 이상의 프로세서 (510), 하나 이상의 컴퓨터 판독가능 저장 매체 (530) 및 메모리 (520)을 포함할 수 있다 Combinations of one or more of the above may also be included within the scope of computer readable media. An example of a computer readable medium according to one embodiment of the present invention is shown in FIG. 7, for example as one component of computer system 500, the computer system comprising one or more processors 510, one or more computer readable storage. May include a medium 530 and a memory 520
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 The above description of the present invention is for illustration, and the present invention belongs to
기술분야의 통상의 지식올 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. Those skilled in the art will understand that the present invention can be easily modified in other specific forms without changing the technical spirit or essential features of the present invention. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다. The scope of the present invention is shown by the following claims rather than the above description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.
Claims
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020157031732A KR101839088B1 (en) | 2014-10-29 | 2015-10-29 | Method for predicting absoulte copy number variation based on single sample |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2014-0148411 | 2014-10-29 | ||
| KR20140148411 | 2014-10-29 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2016068627A1 true WO2016068627A1 (en) | 2016-05-06 |
Family
ID=55857852
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2015/011515 Ceased WO2016068627A1 (en) | 2014-10-29 | 2015-10-29 | Method for analyzing absolute copy number variation based on single sample |
Country Status (2)
| Country | Link |
|---|---|
| KR (1) | KR101839088B1 (en) |
| WO (1) | WO2016068627A1 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110310704A (en) * | 2019-05-08 | 2019-10-08 | 西安电子科技大学 | A copy number variation detection method based on local outlier factors |
| CN113658638A (en) * | 2021-08-20 | 2021-11-16 | 江苏先声医学诊断有限公司 | Detection method and quality control system for homologous recombination defects based on NGS platform |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101913735B1 (en) | 2018-05-03 | 2018-11-01 | 주식회사 셀레믹스 | Internal control substance searching for intersample crosscontamination of nextgeneration sequencing samples |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120046877A1 (en) * | 2010-07-06 | 2012-02-23 | Life Technologies Corporation | Systems and methods to detect copy number variation |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2406400B1 (en) * | 2009-03-09 | 2016-07-13 | Life Technologies Corporation | Methods for the determination of a copy number of a genomic sequence in a biological sample |
| CN102682224B (en) * | 2011-03-18 | 2015-01-21 | 深圳华大基因科技服务有限公司 | Method and device for detecting copy number variations |
-
2015
- 2015-10-29 WO PCT/KR2015/011515 patent/WO2016068627A1/en not_active Ceased
- 2015-10-29 KR KR1020157031732A patent/KR101839088B1/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120046877A1 (en) * | 2010-07-06 | 2012-02-23 | Life Technologies Corporation | Systems and methods to detect copy number variation |
Non-Patent Citations (5)
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110310704A (en) * | 2019-05-08 | 2019-10-08 | 西安电子科技大学 | A copy number variation detection method based on local outlier factors |
| CN113658638A (en) * | 2021-08-20 | 2021-11-16 | 江苏先声医学诊断有限公司 | Detection method and quality control system for homologous recombination defects based on NGS platform |
Also Published As
| Publication number | Publication date |
|---|---|
| KR101839088B1 (en) | 2018-03-15 |
| KR20160062747A (en) | 2016-06-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7637139B2 (en) | Systems and methods for automating rna expression calling in cancer prediction pipelines | |
| Klughammer et al. | The DNA methylation landscape of glioblastoma disease progression shows extensive heterogeneity in time and space | |
| US11560598B2 (en) | Systems and methods for analyzing circulating tumor DNA | |
| US20210265012A1 (en) | Systems and methods for use of known alleles in read mapping | |
| EP3323070B1 (en) | Neoantigen analysis | |
| Magi et al. | Characterization of MinION nanopore data for resequencing analyses | |
| US9670530B2 (en) | Haplotype resolved genome sequencing | |
| US20200098448A1 (en) | Methods of normalizing and correcting rna expression data | |
| US20160002717A1 (en) | Determining mutation burden in circulating cell-free nucleic acid and associated risk of disease | |
| WO2017127741A1 (en) | Methods and systems for high fidelity sequencing | |
| Bortone et al. | Improved T-cell receptor diversity estimates associate with survival and response to anti–PD-1 therapy | |
| JP2020537527A (en) | Methods and systems for detecting somatic cell structure mutations | |
| WO2016068627A1 (en) | Method for analyzing absolute copy number variation based on single sample | |
| WO2021262770A1 (en) | De novo characterization of cell-free dna fragmentation hotspots in healthy and early-stage cancers | |
| KR101841265B1 (en) | Method for eliminating bias of targeted sequencing by using nmf | |
| US20200104285A1 (en) | Signature-hash for multi-sequence files | |
| JP2025514547A (en) | Methods and devices for parental origin disease allele detection for the diagnosis and management of genetic diseases - Patents.com | |
| Li et al. | Contamination assessment for cancer next-generation sequencing: method development and clinical implementation | |
| WO2016068626A1 (en) | Sample sequence information analysis method based on single sample | |
| US20250279155A1 (en) | Consensus-based classification technique to determine genetically inffered ancestry from comprehensive genomic profiling of tumor dna | |
| Evans et al. | Computational analysis in cancer exome sequencing |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| ENP | Entry into the national phase |
Ref document number: 20157031732 Country of ref document: KR Kind code of ref document: A |
|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15854910 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 15854910 Country of ref document: EP Kind code of ref document: A1 |