WO2023043097A1 - 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법 - Google Patents
차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법 Download PDFInfo
- Publication number
- WO2023043097A1 WO2023043097A1 PCT/KR2022/013100 KR2022013100W WO2023043097A1 WO 2023043097 A1 WO2023043097 A1 WO 2023043097A1 KR 2022013100 W KR2022013100 W KR 2022013100W WO 2023043097 A1 WO2023043097 A1 WO 2023043097A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- sequence
- generation sequencing
- sequencing
- sequences
- paired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Definitions
- the present invention relates to a method for merging paired sequence fragments for next-generation sequencing analysis.
- DNA sequence information is expressed in DNA sequence genes, and complete DNA sequence information of an individual is very important to understand life phenomena and obtain disease-related information.
- the key to decoding DNA sequence information is to identify individual differences and ethnic characteristics, to identify congenital causes including chromosomal abnormalities in diseases related to genetic abnormalities, and to identify genetic defects in complex diseases such as diabetes and hypertension. is to find
- sequencing data is very important because information such as gene expression, gene diversity, and their interactions can be widely used in the field of molecular diagnosis and treatment.
- next-generation sequencing As a method for genome sequencing, Next Generation Sequencing (NGS) has been used since 2007, and with the development of NGS, it has become much easier and cheaper to analyze compared to traditional methods.
- Representative next-generation genome sequencers that implement next-generation sequencing methods include Roche/454, Illumina/Solexa, and SOLiD of Life Technologies (ABI). These next-generation sequencing devices can read more than 80 million sequences in 7 hours. With these technological advances, next-generation sequencing methods, which were conventionally used only for research due to the enormous test cost, can be used in medical clinical tests.
- Target selection is divided into an amplicon method of amplification with PCR primers and a capture method of hybridization using a probe.
- the PCR amplicon method is useful for testing small, well-designed gene panels because it requires a shorter test time and requires a relatively small amount of DNA, but it is difficult to use when the number of genes in a panel increases or when exome sequencing is required.
- the probe method is advantageous.
- the present inventors have developed a method for merging and displaying paired sequence fragments for next-generation sequencing analysis, thereby completing the present invention.
- Patent Document 0001 Patent Registration No. 10-1969971
- the present invention relates to a method for merging paired sequence fragments for next-generation sequencing analysis.
- a first aspect of the present disclosure provides a method for merging paired sequence fragments for next-generation sequencing analysis.
- a second aspect of the present disclosure provides an analysis method for paired sequence fragment merge display for next-generation sequencing analysis.
- the sequencing data processing time can be reduced by half, and the data storage space can be reduced because each of the two sequences expressed in sequence alignment visualization is reduced to one.
- the target region coverage and sequencing error of the sequence can be determined only with the merged sequence information without additional information, next-generation sequencing analysis can be performed more efficiently.
- 1 is a diagram showing the overlap of paired sequence fragments seen in target sequencing.
- FIG. 2 is a diagram showing a method of merging when the overlapping of the R1 and R2 lead sequences with respect to the target reference sequence is perfectly matched.
- FIG. 3 is a diagram illustrating a merge display method when information on R1 and R2 lead sequences for a target reference sequence is unknown.
- FIG. 4 is a diagram showing a merge display method when the overlapping bases of two paired sequence fragments are different.
- FIG. 5 is a diagram showing a merge display method when two paired sequence fragments do not overlap.
- FIG. 6 is a diagram showing an example of merge display (when there are many lowercase n's) according to the merge display method of the present application.
- FIG. 7 is a diagram showing an example of merge display (when there are many bases indicated by lowercase letters) according to the merge display method of the present application.
- FIG. 8 is a diagram showing a comparison between a conventional method and a case in which sequence alignment is visualized according to the present method.
- the term “combination(s) of these” included in the expression of the Markush form means a mixture or combination of one or more selected from the group consisting of the components described in the expression of the Markush form, It means including one or more selected from the group consisting of the above components.
- a first aspect of the present disclosure provides a method for merging paired sequence fragments for next-generation sequencing analysis.
- the base of the reference sequence is displayed as it is, but in lowercase letters
- a paired sequence fragment merging display method for next-generation sequencing analysis characterized in that the bases of the reference sequence are displayed as they are in lowercase letters when there is no base in the overlapping portion of the two sequences (FIGS. 2 to 5 reference).
- paired-end read means a read (fragment) obtained by sequencing both ends of a cDNA fragment in the forward and reverse directions.
- read sequence refers to a single nucleic acid fragment analyzed through next-generation sequencing (NGS). Length of read sequence is generally composed of 35 to 500 bp (base pair) depending on the type of genome sequencer, and is generally represented by alphabet letters A, T, G, and C in the case of DNA bases.
- reference sequence used throughout the present specification means a base sequence that is a reference for generating the entire base sequence from the read sequences.
- the entire base sequence is completed by mapping a large amount of reads output from a genome sequencer with reference to a reference sequence.
- the reference sequence may be a sequence set in advance during nucleotide sequence analysis (eg, the entire human nucleotide sequence), or a nucleotide sequence generated by a genome sequencer may be used as a reference sequence.
- base used throughout the specification is the smallest unit constituting a reference sequence and a lead sequence.
- DNA it can be composed of four types of alphabetic characters A, T, G and C, and each of these is expressed as a base. That is, in the case of DNA, it is expressed by 4 bases, and this is also true of the lead sequence.
- the sequencing data processing time after sequence alignment is reduced by half, and the data stored in two lines is reduced to one. As space is reduced, next-generation sequencing can be performed more efficiently.
- a second aspect of the present disclosure provides an analysis method for paired sequence fragment merge display for next-generation sequencing analysis. Content overlapping with the first aspect of the present application is also applied to the method of the second aspect of the present application.
- the present application provides a method of interpreting a merged-marked sequence fragment according to the paired sequence fragment merge-marking method (see FIGS. 2 to 5).
- the present application may determine target region coverage and sequencing error of a sequence only with merged sequence information without additional information.
- the target reference sequence of the unknown part is imported as it is, but indicated in lowercase letters and combined (see FIG. 3).
- sequence fragments are merged and displayed according to the methods 1 to 4 above, it can be interpreted as follows.
- Number of lowercase letters a, t, g, c target region sequencing coverage (the higher the number of lowercase letters a, t, g, c, the narrower the sequencing coverage)
- the number of lowercase n the degree of sequencing error (the greater the number of lowercase n, the greater the sequencing error)
- the sequencing data processing time can be reduced by half, and since each of the two sequences is reduced to one, the data storage space is reduced, and without additional information. It was found that target region coverage and sequencing errors of sequences could be determined only with the merged sequence information.
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본원은, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법에 관한 것이다. 본원은 2개의 서열을 병합하여 시퀀싱에 이용하기 때문에 시퀀싱 데이터 처리 시간을 1/2로 줄일 수 있으며, 서열정렬 시각화시 각각 2개의 서열로 표현되었던 것이 하나로 줄어들기 때문에 데이터의 저장 공간을 감소시킬 수 있으며, 추가 정보 없이 병합된 서열 정보만으로 서열의 타겟영역 범위성과 시퀀싱 에러를 판단할 수 있어 더욱 효율적으로 차세대 염기서열 분석을 수행할 수 있다.
Description
본원은, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법에 관한 것이다.
다양한 생체 정보는 DNA 서열의 유전자로 표현되고, 개체의 완전한 DNA 서열 정보는 생명현상을 이해하고 질병과 관련된 정보를 얻을 수 있어 매우 중요하다. DNA 서열 정보의 해독, 즉, 게놈 시퀀싱(genome sequencing)의 핵심은 개인차 및 민족적 특성을 파악하거나 유전자 이상과 관련된 질환에서 염색체 이상을 포함한 선천성 원인의 규명과 당뇨병, 고혈압과 같은 복합 질병의 유전자 결함을 찾기 위한 것이다. 또한, 시퀀싱 데이터는 유전자 발현, 유전자 다양성 및 그 상호작용 등의 정보들을 분자 진단과 치료 영역에서 폭넓게 활용할 수 있어 매우 중요하다.
게놈 시퀀싱을 위한 방법으로 2007년 이래로 차세대 염기서열 분석법(Next Generation Sequencing: NGS)이 이용되기 시작하였고, NGS의 개발에 따라 전통적인 방법과 비교하여 훨씬 쉽고 저비용으로 분석할 수 있게 되었다. 차세대 염기서열 분석법을 구현하는 차세대 게놈 시퀀서(Next Generation Sequencer)로 대표적인 것으로는 로슈(Roche)/454, 일루미나(Illumina)/Solexa 및 라이프 테크놀로지스(ABI)의 SOLiD 등이 있다. 이러한 차세대 염기서열 분석 기기들은 7시간에 8,000만개 이상의 서열 판독이 가능하다. 이러한 기술 발전으로 종래에는 막대한 검사 비용으로 인해 연구용으로만 사용되던 차세대 염기서열 분석법을 의료용 임상 검사에서 활용할 수 있게 되었다.
한편, 원하는 유전자 부위를 보고자 한다면 분석하고자 하는 부분의 DNA 혹은 RNA를 선별해야 하는데 이것을 타겟 선별(target enrichment)이라 하고 이렇게 NGS 분석을 하는 것을 타겟 패널 시퀀싱(targeted sequencing)이라고 한다. 타겟 선별은 PCR 프라이머(primer)로 증폭을 하는 앰플리콘(amplicon) 방법과 프로브(probe)를 이용하여 교합(hybridization)하는 캡쳐(capture) 방법으로 나뉜다. PCR 앰플리콘 방식은 검사 소요시간이 더 짧고, 상대적으로 적은 양의 DNA를 필요로하여 잘 디자인된 작은 수의 유전자 패널에 대한 검사에 유용하지만, 패널의 유전자 수가 많아지거나 엑솜 시퀀싱(exome sequencing)을 수행하는 경우에는 프로브 방식이 유리하다.
차세대 염기서열 분석을 보다 효율적으로 수행하는 방법에 대한 연구 결과로 차세대 염기서열 분석을 위한, 마이크로웨이브를 이용한 DNA 추출방법 및 이의 용도 (대한민국 등록특허 제 10-2177386호) 등이 있으나, 차세대 염기서열 분석을 보다 효율적으로 수행하는 방법에 대한 개발 및 연구가 여전히 필요한 실정이다.
이에, 본 발명자들은 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법을 개발하여, 본 발명을 완성하였다.
[선행기술문헌]
[특허문헌]
(특허문헌 0001) 등록특허공보 제 10-1969971호
본원은, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법에 관한 것이다.
그러나, 본원이 해결하고자 하는 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본원의 제1측면은, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법을 제공한다.
본원의 제2측면은, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시에 대한 해석 방법을 제공한다.
본원은 2개의 서열을 병합하여 시퀀싱에 이용하기 때문에 시퀀싱 데이터 처리 시간을 1/2로 줄일 수 있으며, 서열정렬 시각화시 각각 2개의 서열로 표현되었던 것이 하나로 줄어들기 때문에 데이터의 저장 공간을 감소시킬 수 있으며, 추가 정보 없이 병합된 서열 정보만으로 서열의 타겟영역 범위성과 시퀀싱 에러를 판단할 수 있어 더욱 효율적으로 차세대 염기서열 분석을 수행할 수 있다.
도 1은, 타겟 시퀀싱에서 보이는 짝지어진 서열조각의 겹침을 나타낸 도면이다.
도 2는, 타겟 참조서열에 대한 R1, R2 리드서열의 겹침이 완벽히 일치하는 경우 병합하는 방법을 나타낸 도면이다.
도 3은, 타겟 참조서열에 대한 R1, R2 리드서열의 정보를 알 수 없는 경우의 병합 표시 방법을 나타낸 도면이다.
도 4는, 두 개의 짝지어진 서열 조각의 겹쳐진 부분의 염기가 다를 경우 병합 표시 방법을 나타낸 도면이다.
도 5는, 두 개의 짝지어진 서열 조각에 겹쳐진 부분이 없는 경우 병합 표시 방법을 나타낸 도면이다.
도 6은, 본원 병합 표시 방법에 따라 병합 표시한 예시(소문자 n이 많은 경우)를 나타낸 도면이다.
도 7은, 본원 병합 표시 방법에 따라 병합 표시한 예시(소문자로 표시된 염기가 많은 경우)를 나타낸 도면이다.
도 8은, 기존의 방법과 본원 방법에 따라 서열정렬을 시각화한 경우를 비교한 것을 나타낸 도면이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 “상에” 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 “포함” 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 본원 명세서 전체에서 사용되는 정도의 용어 “약”, “실질적으로” 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본원의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본원 명세서 전체에서 사용되는 정도의 용어 “~(하는) 단계” 또는 “~의 단계”는 “~ 를 위한 단계”를 의미하지 않는다.
본원 명세서 전체에서, 마쿠시 형식의 표현에 포함된 “이들의 조합(들)”의 용어는 마쿠시 형식의 표현에 기재된 구성 요소들로 이루어진 군에서 선택되는 하나 이상의 혼합 또는 조합을 의미하는 것으로서, 상기 구성 요소들로 이루어진 군에서 선택되는 하나 이상을 포함하는 것을 의미한다.
본원 명세서 전체에서, “A 및/또는 B”의 기재는 “A 또는 B, 또는 A 및 B”를 의미한다.
이하, 첨부된 도면을 참조하여 본원의 구현예 및 실시예를 상세히 설명한다. 그러나, 본원이 이러한 구현예 및 실시예와 도면에 제한되지 않을 수 있다.
본원의 제 1 측면은, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법을 제공한다.
본원의 일 구현예에 따르면, 본원은 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법에 있어서,
(a) 2개의 짝지어진 서열조각을 나열하여 겹침부분을 확인하는 단계;
(b) 상기 겹침부분을 기준으로 2개의 서열조각을 병합하는 단계; 및
(c) 상기 병합한 서열조각을 표시하는 단계를 포함하며,
상기 표시하는 단계에 있어서,
2개의 서열 중 타겟의 리드 서열의 염기정보를 알 수 없는 부분이 있는 경우 참조 서열의 염기를 그대로 표시하되 소문자로 표시하며,
2개의 서열의 겹쳐진 부분의 염기가 다를 경우 염기가 다른 부분은 소문자 n으로 표시하며,
2개의 서열의 겹친 부분의 염기가 없는 경우 참조 서열의 염기를 그대로 표시하되 소문자로 표시하는 것을 특징으로 하는, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법을 제공한다(도 2 내지 도 5 참조).
본원 명세서 전체에서 사용되는 용어, "짝지어진 서열 조각(paired-end read)"이란 cDNA fragment의 forward와 reverse방향으로 양 끝단을 시퀀싱한 리드(조각)를 의미한다.
본원 명세서 전체에서 사용되는 용어, "리드 서열(read sequence, 또는 줄여서 "리드(read)"로 지칭)이란 차세대 염기서열 분석법(NGS)을 통해 분석한 하나의 핵산 조각을 의미한다. 리드 서열의 길이는 게놈 시퀀서의 종류에 따라 일반적으로 35~500bp(base pair) 정도로 다양하게 구성되며, 일반적으로 DNA 염기의 경우 A, T, G, C의 알파벳 문자로 표현된다.
본원 명세서 전체에서 사용되는 용어, "참조 서열(reference sequence, ref)"이란 상기 리드 서열들로부터 전체 염기 서열을 생성하는 데 참조가 되는 염기 서열을 의미한다. 염기 서열 분석에서는 게놈 시퀀서에서 출력되는 다량의 리드들을 참조 서열을 참조하여 맵핑함으로써 전체 염기 서열을 완성하게 된다. 본 발명에서 상기 참조 서열은 염기 서열 분석 시 미리 설정된 서열(예를 들어 인간의 전체 염기 서열 등)일 수도 있으며, 또는 게놈 시퀀서에서 만들어진 염기 서열을 참조 서열로 사용할 수도 있다.
본원 명세서 전체에서 사용되는 용어, "염기(base)"는 참조 서열 및 리드 서열을 구성하는 최소 단위이다. DNA의 경우 A, T, G 및 C의 네 종류의 알파벳 문자로 구성될 수 있으며, 이들 각각을 염기라 표현한다. 즉, DNA의 경우 4개의 염기로 표현되며, 이는 리드 서열 또한 마찬가지이다.
본원의 일 구현예에 따르면, 본원은 2개로 나누어진 서열이 하나로 병합되기 때문에 서열 정렬 이후 시퀀싱 데이터 처리 시간이 1/2로 감소하고, 각각 2개의 라인으로 표현되었던 것이 하나로 줄어들기 때문에 데이터의 저장 공간이 감소하여 더욱 효율적으로 차세대 염기서열 분석을 수행할 수 있다.
본원의 제 2 측면은, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시에 대한 해석 방법을 제공한다. 본원의 제1측면과 중복되는 내용은 본원의 제2측면의 방법에도 공히 적용된다.
본원의 일 구현예에 따르면, 본원은 상기 짝지어진 서열조각 병합 표시 방법에 따라 병합 표시된 서열조각을 해석하는 방법을 제공한다(도 2 내지 도 5 참조).
병합 표시된 서열조각을 해석하는 방법에 있어서, 병합 표시된 서열조각에 소문자로 표시된 염기(a, t, g, c) 개수가 많을수록 타겟영역 시퀀싱 범위가 좁은 것으로 해석하며, 병합 표시된 서열조각에 소문자 n의 개수가 많을수록 시퀀싱 에러가 많은 것으로 해석할 수 있다.
본원의 일 구현예에 따르면, 본원은 추가 정보 없이 병합된 서열 정보만으로 서열의 타겟 영역 범위성과 시퀀싱 에러를 판단할 수 있다.
이하, 본원의 실시예를 통하여 본 발명을 더욱 상세하게 설명하고자 하나, 하기의 실시예는 본원의 이해를 돕기 위하여 예시하는 것 일뿐, 본원의 내용이 하기 실시예에 한정되는 것은 아니다.
[실시예]
타겟 참조서열에 따른 서열조각 병합
1. 타겟 참조서열을 중심으로 R1, R2 서열을 결합(겹쳐지는 부분의 서열이 같은 경우)
R1 리드서열과 R2 리드서열의 서열을 겹쳐지는 부분을 중심으로 해서 결합하였다. 그 결과, R1 리드서열과 R2 리드서열의 서열이 결합된 서열을 도출하였다(도 2 참조).
2. 타겟 참조서열에 대한 리드 서열 정보를 알 수 없는 경우
R1 리드서열과 R2 리드서열 중 서열의 정보를 알 수 없는 부분이 있는 경우, 일단 정보를 알 수 없는 부분의 타겟 참조서열을 그대로 가져오되 소문자로 표시하여 결합하였다(도 3 참조).
3. 타겟 참조서열의 겹쳐진 염기가 다를 경우
R1 리드서열과 R2 리드서열의 겹쳐지는 부분 중 두개의 염기가 다른 부분이 있는 경우, 소문자 "n"으로 표시하여 결합하였다(도 4 참조).
4. 타겟 참조서열이 겹침이 없는 경우
R1 리드서열과 R2 리드서열의 겹쳐지는 부분의 서열이 나타나 있지 않은 경우, 겹쳐지는 부분의 타겟 참조서열을 그대로 가져오되 소문자로 표시하여 결합하였다(도 5 참조).
상기 1 내지 4에 기재한 방법에 따라 R1, R2 리드 서열을 병합하여 표시한 실제 예시를 표시하였다(도 6 및 도 7 참조).
상기 기재한 바와 같이 병합 표시한 후에 시퀀싱을 수행한 결과, 2개로 나누어진 서열이 하나로 병합되었기 때문에 서열 정렬 이후 시퀀싱 데이터 처리 시간이 1/2로 감소하며, 각각 2개의 라인으로 표현되었던 것이 하나로 줄어들기 때문에 데이터의 저장 공간 역시 감소한다.
병합된 서열조각을 바탕으로 결과 해석
상기 1 내지 4의 방법에 따라 서열조각을 병합하여 표시한 경우 하기와 같이 해석할 수 있다.
소문자 a, t, g, c의 개수 = 타겟 영역 시퀀싱 범위성(소문자 a, t, g, c의 개수가 많을수록 시퀀싱 범위가 좁다)
소문자 n의 개수 = 시퀀싱 에러 정도(소문자 n의 개수가 많을수록 시퀀싱 에러가 많다)
이를 바탕으로 상기에서 병합한 샘플 서열조각을 하기와 같이 해석하였다.
도 6에서 보듯이, 2번째 줄(R1 리드서열)과 3번째 줄(R2 리드서열)을 상기 기재한 방법대로 결합하여 표시한 경우(4번째 줄), R1 리드서열과 R2 리드서열의 일부 염기가 달라 소문자로 표시된 부분이 몇 군데 있었고, 이 경우 해당 서열 조각 시퀀싱의 퀄리티에 대한 신뢰를 할 수 없다고 판단할 수 있다.
도 7에서 보듯이, 2번째 줄(R1 리드서열)과 3번째 줄(R2 리드서열)을 상기 기재한 방법대로 결합하여 표시한 경우(4번째 줄), 참조서열의 정보를 알 수 없어 소문자로 표시된 부분이 많았고, 이 경우 타겟 영역을 모두 판단하기 어려운 서열인 것으로 볼 수 있다.
상기 샘플 서열조각의 해석 결과와 같이, 본원 발명을 이용하여 서열조각을 병합하여 표시할 경우 별도의 추가 정보나 추가 작업 없이 서열의 타겟영역의 범위성이나 시퀀싱 에러를 판단할 수 있다는 것을 확인할 수 있었다.
종합적으로, 본원은 2개의 서열을 병합하여 시퀀싱에 이용하기 때문에 시퀀싱 데이터 처리 시간을 절반으로 줄일 수 있으며, 각각 2개의 라인으로 표현되었던 것이 하나로 줄어들기 때문에 데이터의 저장 공간이 감소하며, 추가 정보 없이 병합된 서열 정보만으로 서열의 타겟영역 범위성과 시퀀싱 에러를 판단할 수 있다는 것을 알 수 있었다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
Claims (4)
- 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법에 있어서,(a) 2개의 짝지어진 서열조각을 나열하여 겹침부분을 확인하는 단계;(b) 상기 겹침부분을 기준으로 2개의 서열조각을 병합하는 단계; 및(c) 상기 병합한 서열조각을 표시하는 단계를 포함하며,상기 표시하는 단계에 있어서,2개의 서열 중 타겟의 리드 서열의 염기정보를 알 수 없는 부분이 있는 경우 참조 서열의 염기를 그대로 표시하되 소문자로 표시하며,2개의 서열의 겹쳐진 부분의 염기가 다를 경우 염기가 다른 부분은 소문자 n으로 표시하며,2개의 서열의 겹친 부분의 염기가 없는 경우 참조 서열의 염기를 그대로 표시하되 소문자로 표시하는 것을 특징으로 하는, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법.
- 제 1항에 따라 병합 표시된 서열조각을 해석하는, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 해석 방법.
- 제 2항에 있어서,병합 표시된 서열조각에 소문자로 표시된 염기 개수가 많을수록 타겟영역 시퀀싱 범위가 좁은 것으로 해석하는, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 해석 방법.
- 제 2항에 있어서,병합 표시된 서열조각에 소문자 n의 개수가 많을수록 시퀀싱 에러가 많은 것으로 해석하는, 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 해석 방법.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2021-0122244 | 2021-09-14 | ||
| KR1020210122244A KR102799506B1 (ko) | 2021-09-14 | 2021-09-14 | 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2023043097A1 true WO2023043097A1 (ko) | 2023-03-23 |
Family
ID=85603103
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2022/013100 Ceased WO2023043097A1 (ko) | 2021-09-14 | 2022-09-01 | 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법 |
Country Status (2)
| Country | Link |
|---|---|
| KR (1) | KR102799506B1 (ko) |
| WO (1) | WO2023043097A1 (ko) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20150059101A (ko) * | 2013-11-18 | 2015-05-29 | 한국전자통신연구원 | 염색체 전좌의 위치 계산방법 |
| WO2017075706A1 (en) * | 2015-11-04 | 2017-05-11 | Vineland Research and Innovations Centre Inc. | High throughput method of screening a population for members comprising mutation(s) in a target sequence using alignment-free sequence analysis |
| WO2020047553A1 (en) * | 2018-08-31 | 2020-03-05 | Guardant Health, Inc. | Genetic variant detection based on merged and unmerged reads |
| KR102177386B1 (ko) * | 2019-11-05 | 2020-11-11 | 주식회사 마크로젠 | 차세대염기서열분석을 위한, 마이크로웨이브를 이용한 dna 추출방법 및 이의 용도 |
-
2021
- 2021-09-14 KR KR1020210122244A patent/KR102799506B1/ko active Active
-
2022
- 2022-09-01 WO PCT/KR2022/013100 patent/WO2023043097A1/ko not_active Ceased
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20150059101A (ko) * | 2013-11-18 | 2015-05-29 | 한국전자통신연구원 | 염색체 전좌의 위치 계산방법 |
| WO2017075706A1 (en) * | 2015-11-04 | 2017-05-11 | Vineland Research and Innovations Centre Inc. | High throughput method of screening a population for members comprising mutation(s) in a target sequence using alignment-free sequence analysis |
| WO2020047553A1 (en) * | 2018-08-31 | 2020-03-05 | Guardant Health, Inc. | Genetic variant detection based on merged and unmerged reads |
| KR102177386B1 (ko) * | 2019-11-05 | 2020-11-11 | 주식회사 마크로젠 | 차세대염기서열분석을 위한, 마이크로웨이브를 이용한 dna 추출방법 및 이의 용도 |
Non-Patent Citations (1)
| Title |
|---|
| JOHNM. GASPAR: "NGmerge: merging paired-end reads via novel empirically-derived models of sequencing errors", BMC BIOINFORMATICS, BIOMED CENTRAL LTD, LONDON, UK, vol. 19, no. 1, 20 December 2018 (2018-12-20), London, UK , pages 1 - 9, XP021265639, DOI: 10.1186/s12859-018-2579-2 * |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20230039218A (ko) | 2023-03-21 |
| KR102799506B1 (ko) | 2025-04-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kumar et al. | Next-generation sequencing and emerging technologies | |
| US10370710B2 (en) | Analysis methods | |
| Seo et al. | De novo assembly and phasing of a Korean human genome | |
| US20140129201A1 (en) | Validation of genetic tests | |
| Wadapurkar et al. | Computational analysis of next generation sequencing data and its applications in clinical oncology | |
| Bocklandt et al. | Bionano genome mapping: high-throughput, ultra-long molecule genome analysis system for precision genome assembly and haploid-resolved structural variation discovery | |
| Duncan et al. | Next-generation sequencing in the clinical laboratory | |
| WO2016195382A1 (ko) | 바코드 서열을 포함하는 어댑터를 이용한 차세대 염기서열 분석 방법 | |
| Liu et al. | Performance of a multiplexed amplicon-based next-generation sequencing assay for HLA typing | |
| Macken et al. | Enhanced mitochondrial genome analysis: bioinformatic and long-read sequencing advances and their diagnostic implications | |
| Leatham et al. | A rapid, multiplex digital PCR assay to detect gene variants and fusions in non‐small cell lung cancer | |
| Steyaert et al. | Systematic analysis of paralogous regions in 41,755 exomes uncovers clinically relevant variation | |
| Kamps-Hughes et al. | A systematic method for detecting abnormal mRNA splicing and assessing its clinical impact in individuals undergoing genetic testing for hereditary cancer syndromes | |
| WO2023043097A1 (ko) | 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법 | |
| WO2023018024A1 (ko) | 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법 | |
| WO2014119914A1 (ko) | 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치 | |
| WO2023018026A1 (ko) | 현미부수체 지역의 서열 길이의 최대값과 최소값의 차이를 이용한 현미부수체 불안정성 진단방법 | |
| WO2024106109A1 (ja) | 電気泳動の移動度を改変する修飾基質を用いた遺伝子検出 | |
| Vaisvila et al. | Discovery of novel DNA cytosine deaminase activities enables a nondestructive single-enzyme methylation sequencing method for base resolution high-coverage methylome mapping of cell-free and ultra-low input DNA | |
| WO2022124575A1 (ko) | 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법 | |
| WO2018110940A1 (ko) | 차세대 핵산 서열 분석을 위한 라이브러리의 복잡성을 측정하는 방법 | |
| WO2023214754A1 (ko) | Ngs 분석에서의 itd 분석을 위한 씨드 서열의 생성 방법 및 장치 | |
| Frias-De-Diego et al. | Influence of Sequencing Technology on Pangenome-Level Analysis and Detection of Antimicrobial Resistance Genes in ESKAPE Pathogens | |
| Nichols et al. | Clade-specific long-read sequencing increases the accuracy and specificity of the gyrB phylogenetic marker gene | |
| Nalbandian et al. | Resolving breakpoints of chromosomal rearrangements at the nucleotide level using Sanger sequencing |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22870182 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 22870182 Country of ref document: EP Kind code of ref document: A1 |