CN118600567A - 一种dna文库及其构建方法及其应用 - Google Patents
一种dna文库及其构建方法及其应用 Download PDFInfo
- Publication number
- CN118600567A CN118600567A CN202311258117.5A CN202311258117A CN118600567A CN 118600567 A CN118600567 A CN 118600567A CN 202311258117 A CN202311258117 A CN 202311258117A CN 118600567 A CN118600567 A CN 118600567A
- Authority
- CN
- China
- Prior art keywords
- dna
- sequencing
- strand
- library
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title abstract description 7
- 108020004414 DNA Proteins 0.000 claims abstract description 210
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 179
- 230000035772 mutation Effects 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 81
- 102000053602 DNA Human genes 0.000 claims abstract description 45
- 238000002360 preparation method Methods 0.000 claims abstract description 41
- 108020004638 Circular DNA Proteins 0.000 claims abstract description 13
- 238000012163 sequencing technique Methods 0.000 claims description 167
- 239000012634 fragment Substances 0.000 claims description 137
- 206010064571 Gene mutation Diseases 0.000 claims description 81
- 230000000295 complement effect Effects 0.000 claims description 66
- 239000002773 nucleotide Substances 0.000 claims description 39
- 125000003729 nucleotide group Chemical group 0.000 claims description 39
- 239000011324 bead Substances 0.000 claims description 36
- 206010028980 Neoplasm Diseases 0.000 claims description 34
- 239000000203 mixture Substances 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 23
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 22
- 108020004682 Single-Stranded DNA Proteins 0.000 claims description 20
- 238000001712 DNA sequencing Methods 0.000 claims description 17
- 238000007405 data analysis Methods 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 238000012165 high-throughput sequencing Methods 0.000 claims description 10
- 238000012408 PCR amplification Methods 0.000 claims description 8
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 102000012410 DNA Ligases Human genes 0.000 claims description 6
- 108010061982 DNA Ligases Proteins 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 102000003960 Ligases Human genes 0.000 claims description 4
- 108090000364 Ligases Proteins 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 4
- 210000001124 body fluid Anatomy 0.000 claims description 4
- 239000010839 body fluid Substances 0.000 claims description 4
- 230000011987 methylation Effects 0.000 claims description 4
- 238000007069 methylation reaction Methods 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 230000007614 genetic variation Effects 0.000 claims description 2
- PJVWKTKQMONHTI-UHFFFAOYSA-N warfarin Chemical compound OC=1C2=CC=CC=C2OC(=O)C=1C(CC(=O)C)C1=CC=CC=C1 PJVWKTKQMONHTI-UHFFFAOYSA-N 0.000 claims 1
- 229960005080 warfarin Drugs 0.000 claims 1
- 239000000523 sample Substances 0.000 abstract description 44
- 238000006243 chemical reaction Methods 0.000 abstract description 40
- 230000035945 sensitivity Effects 0.000 abstract description 18
- 239000003814 drug Substances 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 53
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 24
- 239000000243 solution Substances 0.000 description 23
- 108010090804 Streptavidin Proteins 0.000 description 17
- 239000003153 chemical reaction reagent Substances 0.000 description 17
- 238000013461 design Methods 0.000 description 15
- 101150105104 Kras gene Proteins 0.000 description 13
- 229960002685 biotin Drugs 0.000 description 12
- 235000020958 biotin Nutrition 0.000 description 12
- 239000011616 biotin Substances 0.000 description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 12
- 239000013641 positive control Substances 0.000 description 11
- 238000000137 annealing Methods 0.000 description 10
- 230000004927 fusion Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 210000001519 tissue Anatomy 0.000 description 9
- 238000011282 treatment Methods 0.000 description 9
- 210000004027 cell Anatomy 0.000 description 8
- 238000009396 hybridization Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005406 washing Methods 0.000 description 7
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 6
- 108091092584 GDNA Proteins 0.000 description 6
- 239000000872 buffer Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000000746 purification Methods 0.000 description 6
- 102200006539 rs121913529 Human genes 0.000 description 6
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 5
- 238000007400 DNA extraction Methods 0.000 description 5
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 5
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 5
- 108091008109 Pseudogenes Proteins 0.000 description 5
- 102000057361 Pseudogenes Human genes 0.000 description 5
- 238000007847 digital PCR Methods 0.000 description 5
- 238000003205 genotyping method Methods 0.000 description 5
- 239000007788 liquid Substances 0.000 description 5
- 239000008213 purified water Substances 0.000 description 5
- 206010009944 Colon cancer Diseases 0.000 description 4
- 102100030708 GTPase KRas Human genes 0.000 description 4
- 102100039788 GTPase NRas Human genes 0.000 description 4
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 4
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 4
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 4
- VEXZGXHMUGYJMC-UHFFFAOYSA-N Hydrochloric acid Chemical compound Cl VEXZGXHMUGYJMC-UHFFFAOYSA-N 0.000 description 4
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 4
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 4
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 4
- 102000039446 nucleic acids Human genes 0.000 description 4
- 108020004707 nucleic acids Proteins 0.000 description 4
- 150000007523 nucleic acids Chemical class 0.000 description 4
- SCVFZCLFOSHCOH-UHFFFAOYSA-M potassium acetate Chemical compound [K+].CC([O-])=O SCVFZCLFOSHCOH-UHFFFAOYSA-M 0.000 description 4
- 102200006540 rs121913530 Human genes 0.000 description 4
- 238000010008 shearing Methods 0.000 description 4
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 3
- 101150055869 25 gene Proteins 0.000 description 3
- 102100028914 Catenin beta-1 Human genes 0.000 description 3
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 3
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 3
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 3
- 101000979460 Homo sapiens Protein Niban 1 Proteins 0.000 description 3
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 3
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 3
- 208000026350 Inborn Genetic disease Diseases 0.000 description 3
- 229940126685 KRAS G12R Drugs 0.000 description 3
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 3
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 210000001035 gastrointestinal tract Anatomy 0.000 description 3
- 208000016361 genetic disease Diseases 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 230000004544 DNA amplification Effects 0.000 description 2
- 102100023600 Fibroblast growth factor receptor 2 Human genes 0.000 description 2
- 101710182389 Fibroblast growth factor receptor 2 Proteins 0.000 description 2
- 102100029974 GTPase HRas Human genes 0.000 description 2
- 101000584633 Homo sapiens GTPase HRas Proteins 0.000 description 2
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 2
- 101000599886 Homo sapiens Isocitrate dehydrogenase [NADP], mitochondrial Proteins 0.000 description 2
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 2
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 2
- 102100037845 Isocitrate dehydrogenase [NADP], mitochondrial Human genes 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 208000032818 Microsatellite Instability Diseases 0.000 description 2
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- 206010033128 Ovarian cancer Diseases 0.000 description 2
- 206010061535 Ovarian neoplasm Diseases 0.000 description 2
- 108091000080 Phosphotransferase Proteins 0.000 description 2
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 2
- 208000007660 Residual Neoplasm Diseases 0.000 description 2
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 2
- 239000007984 Tris EDTA buffer Substances 0.000 description 2
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000002898 library design Methods 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000813 microbial effect Effects 0.000 description 2
- 230000036438 mutation frequency Effects 0.000 description 2
- 102000020233 phosphotransferase Human genes 0.000 description 2
- 235000011056 potassium acetate Nutrition 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 239000011780 sodium chloride Substances 0.000 description 2
- 208000025421 tumor of uterus Diseases 0.000 description 2
- 208000029584 urinary system neoplasm Diseases 0.000 description 2
- 206010046766 uterine cancer Diseases 0.000 description 2
- 101150028074 2 gene Proteins 0.000 description 1
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- 102100035080 BDNF/NT-3 growth factors receptor Human genes 0.000 description 1
- 208000003174 Brain Neoplasms Diseases 0.000 description 1
- ZEOWTGPWHLSLOG-UHFFFAOYSA-N Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F Chemical compound Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F ZEOWTGPWHLSLOG-UHFFFAOYSA-N 0.000 description 1
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 1
- 238000013382 DNA quantification Methods 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 208000002699 Digestive System Neoplasms Diseases 0.000 description 1
- 102100027100 Echinoderm microtubule-associated protein-like 4 Human genes 0.000 description 1
- 102100023593 Fibroblast growth factor receptor 1 Human genes 0.000 description 1
- 101710182386 Fibroblast growth factor receptor 1 Proteins 0.000 description 1
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 1
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 1
- 102100035108 High affinity nerve growth factor receptor Human genes 0.000 description 1
- 101000596896 Homo sapiens BDNF/NT-3 growth factors receptor Proteins 0.000 description 1
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 1
- 101001057929 Homo sapiens Echinoderm microtubule-associated protein-like 4 Proteins 0.000 description 1
- 101000596894 Homo sapiens High affinity nerve growth factor receptor Proteins 0.000 description 1
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 101000582631 Homo sapiens Menin Proteins 0.000 description 1
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- -1 MET Proteins 0.000 description 1
- 102100030550 Menin Human genes 0.000 description 1
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 description 1
- 102100029166 NT-3 growth factor receptor Human genes 0.000 description 1
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 1
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 1
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 1
- 238000002123 RNA extraction Methods 0.000 description 1
- 238000010802 RNA extraction kit Methods 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 102000049937 Smad4 Human genes 0.000 description 1
- 108010012306 Tn5 transposase Proteins 0.000 description 1
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 108091023290 ctRNA Proteins 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000012632 fluorescent imaging Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 241001055794 mixed DNA libraries Species 0.000 description 1
- 241000264288 mixed libraries Species 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 108010064892 trkC Receptor Proteins 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biochemistry (AREA)
- Zoology (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物医药领域,涉及一种DNA文库及其构建方法和应用。本发明提供的DNA文库的制备方法,包括步骤:使用两个接头,所述接头中的第一DNA接头连接在DNA双链的一侧端,所述接头的第二DNA接头连接在双链的另一侧端;从而将所述DNA双链的正链和负链连接在一条链上成单链环形或U形;或者用二个DNA接头混合,将双链DNA连接成环形DNA;连接产物作为引物延伸的模板,用基因特异性引物进行目的基因延伸和富集,然后进行PCR,获得所述的目标DNA文库。或用基因特异性探针杂交,获得所述的目标DNA文库。本发明的方法既可以提高检测基因突变的灵敏度、特异性,还可以在同一个反应体系大规模的富集多个含突变的基因,将极低频率的基因突变富集数十倍。
Description
技术领域
本发明属于生物医药领域,涉及一种DNA文库及其构建方法,测序数据分析和应用。
背景技术
DNA高通量测序具有准确性高,灵敏度高、特异性高,通量高的优点,可以快速检测各种基因性疾病,目前已广泛应用于临床疾病预防、诊断、治疗和监测,微生物检测及生物医学科研。
肿瘤发生是多基因突变导致的。肿瘤发生发展和治疗中,其突变频率会发生较大变化。早期肿瘤突变率一般比较低;肿瘤进展会产生新的突变;肿瘤治疗过程中存在低频率的肿瘤残留基因突变。利用DNA高通量测序技术,对血液、组织细胞等样本中的DNA分子信息进行检测,从而确定患者是否存在特定基因突变,可以辅助诊断肿瘤类型,指导临床治疗和预后评估。
但目前高通量测序检测低于1%的基因突变比较困难,或者检测费用非常昂贵,数据分析和结果解读很难,临床应用非常受限。主要表现检测灵敏度低:不能区分PCR和测序本身造成的假性突变,无法满足很多肿瘤的基因分型,导致错过早期肿瘤的诊断和治疗,降低肿瘤病人的生存时间和生存质量。不能高度富集含基因突变的DNA片段,导致低频率的基因突变检测困难,检测成本高,甚至不能完成,如血浆中的含基因突变的肿瘤DNA(ctDNA)。另外,还体现在检测特异性低,对微量样本检测,甚至无法给出准确的报告。
一个性能佳的DNA高通量测序通常也需要性能好的DNA文库、测序方法和测序数据分析系统。好的DNA文库设计是解决上述问题关键方法之一。DNA文库主要分全基因组文库和部分基因组文库(包括单基因,或单个基因位点和多个基因)。但是,人的全基因组太大(64亿个碱基),检测费用非常昂贵,检测技术有限、数据分析和结果解读很难限制了它的使用,临床应用非常有限。部分基因组测序,因为快速、方便、费用合理、可以满足98%以上的临床基因检测需求等特点,非常适合疾病的诊疗。
选择性基因组测序最重要的是如何挑选出目的基因,去除与检测无关的基因组。现在有很多不同的方法挑选目的基因的方法,各有优点和缺点。目前主要目的基因挑选方法有探针杂交法和PCR法。探针杂交法是用生物素标记的特异性的DNA或RNA序列片段,与目的基因结合(杂交),挑选出目的基因,去除无关基因。探针杂交法的优点是可以大规模地检测出很多种不同的基因变异,缺点是灵敏度有限(临床检测2.5%以上的基因突变),由于DNA序列相似性较高,不能区别同源性的DNA序列,费用高,检测时间长。PCR法种类很多,比较复杂,也是DNA文库制备中最受关注的技术。一般来说,PCR法具有快速、方便、费用低、容易操作等特点。PCR法的缺点是每个基因片段需要设计一对已知的引物序列,PCR只能检测已知的基因序列,不能检测复杂的或未知的基因序列,PCR技术本身造成的假性基因突变率可高达1%,因此,PCR法在高通量测序中的灵敏度有限(临床检测5%以上的基因突变)。一些特殊的PCR,不用测序,直接检测基因突变。如数字PCR结合探针技术,检测灵敏度可达0.1%,但每次只能检测一个或二个基因突变,不能大规模检测,检测费用不低;基因突变特异性PCR也能检测0.1%的突变,它与数字PCR类似,只能用于单个基因突变,不能大规模操作。目前的DNA文库设计虽然可以有效地区分目的基因突变状况,但是所得检测灵敏度达2%,甚至更低。
基因挑选与突变基因富集不同,突变基因挑选是选出目的基因的DNA片段,包括正常的DNA片段和异常的DNA片段。目的突变基因富集是进一步把含突变的目的基因筛选出来,去除未突变的DNA片段,从而提高检测的灵敏度。目前尚无好的方法把低频率突变的基因富集,去除无突变的基因。
发明内容
在一些实施方案中,本发明提供了一种DNA文库的制备方法,包括步骤:使用两个DNA接头,所述DNA接头中的第一DNA接头连接在DNA双链的一同侧端,所述接头的第二DNA接头连接在DNA双链的另一同侧端;从而将所述DNA双链的正链和负链连接在一条链上成单链环形或U形的初级DNA文库,当以所述初级DNA文库为引物延伸的模板进行PCR时,延伸所述的初级DNA文库获得目标DNA文库。
另一种DNA测序文库可以是DNA片段二端有相同的DNA接头,也可以是不同的DNA接头,但DNA连接产物是环形,用于突变特异性的基因引物延伸和富集;富集后的产物经PCR,形成测序用DNA文库,用于DNA测序。
在一些实施方案中,所述的初级DNA文库为环形的DNA文库。在一些实施方案中,所述两个接头中的至少一个为DNA测序用的DNA接头。在一些实施方案中,所述测序用的DNA接头同时含有测序信息和PCR信息。在一些实施方案中,所述两个接头中的另外一个为DNA双链连接接头。在一些实施方案中,所述模板含有目的基因突变的DNA片段。在一些实施方案中,所述引物为基因特异性引物。在一些实施方案中,所述基因特异性引物延伸所述的含有目的基因突变的DNA片段。在一些实施方案中,所述初级DNA文库或目标DNA文库用于测序。在一些实施方案中,所述第一DNA接头和第二DNA接头相同。在一些实施方案中,所述第一DNA接头和第二DNA接头不同。在一些实施方案中,所述两个接头至少一个含有发夹结构。在一些实施方案中,所述接头由一对互补的序列和环形非互补序列组成。在一些实施方案中,所述DNA接头选自环形或Y型。在一些实施方案中,当所述接头为环形时,所述接头由一对互补的序列和环形非互补序列组成。在一些实施方案中,当所述DNA接头为环形时,所述接头选自如SEQ ID NO:1-5或SEQ ID NO:157所示的序列或其互补序列中的至少一条。在一些实施方案中,当所述DNA接头为Y型时,所述接头选自如SEQ ID NO:6-7所示序列组成的互补序列。在一些实施方案中,所述两个DNA接头选自如SEQ ID NO:1和SEQ ID NO:5所示的组合。在一些实施方案中,所述两个DNA接头选自如SEQ ID NO:157和SEQ ID NO:6-7所示的组合。在一些实施方案中,所述两个DNA接头选自如SEQ ID NO:1和SEQ ID NO:157所示的组合。在一些实施方案中,本发明使用发夹结构的DNA接头将DNA片段连接成环形DNA结构,用生物素标记的特异性引物延伸含有基因突变的DNA片段。这种延伸是环绕DNA,一次或多次沿着模板DNA延伸,既增加待检突变数量,又不改变模板DNA序列(常规PCR产物的引物部分是人工合成的,不能用于目的基因的序列分析),本发明的方法可以挑选目的基因,解决了基因拷贝数不足的问题,也能够更容易挑选出复杂的基因变异的DNA序列,具有更精确、快速、成本低,适用于各种目的基因的挑选。
在一些实施方案中,本发明使用发夹结构的DNA接头将DNA片段连接成环形DNA结构或U形结构,用生物素标记的基因特异性引物延伸的DNA片段。这种延伸是环绕DNA,一次或多次沿着模板DNA延伸,富集基因相关的DNA文库,包含突变型和野生型DNA片段。
在一些实施方案中,本发明的技术方案可以同时检测多个突变位点,大大节省诊断时间,患者可以及早得到精准治疗,并且根据肿瘤的分类,选择特异性的基因组合,监测ctDNA和组织细胞中DNA及其变化,进而观察肿瘤的进展、监测肿瘤治疗效果、指导肿瘤二期及其以后的治疗及评估肿瘤的愈后。
在一些实施方案中,用二个DNA接头混合物,与双链DNA连接,形成环形DNA初级文库;用基因特异性引物与所述初级文库结合,延伸相应的基因突变片段或特异性地富集含有目的基因突变的DNA片段,获得目标DNA文库,所述目标DNA文库用于DNA测序。
在一些实施方案中,所述方法包括以下步骤:(1)DNA接头制备;(2)制备DNA片段;(3)将所述DNA片段和所述接头连接成环形或者U形的连接产物;(4)用基因特异性引物延伸模板DNA,选择和富集目的基因;(5)PCR扩增所述的富集产物,得DNA文库。(6)用与接头式V相应的生物素标记的引物,从第(5)的混合文库中富集含DNA正链和负链的文库,得DNA双链测序文库。
在一些实施方案中,所述方法包括以下步骤:(a)制备DNA接头;(b)将样本基因组长DNA打断成短DNA片段;(c)将所述DNA片段和所述DNA接头连接成环形或者U形的连接产物;(d)通过引物延伸,PCR扩增所述的连接产物,富集所述的DNA片段,得富集的目的DNA片段。
在一些实施方案中,步骤(b)之后,还包括步骤(b1):使用磁珠纯化所述的连接产物。
在一些实施方案中,采用Streptavidin磁珠与生物素标记的引物结合,纯化延伸的产物,包括与延伸产物结合的模板DNA,不含目的DNA片段被洗去。PCR扩增富集的目的基因片段,制备DNA文库,用于测序。
在一些实施方案中,所述延伸使用的引物包括基因突变特异型引物或野生型引物。
在一些实施方案中,所述PCR通过以所述连接产物或所述富集的目的DNA片段为模板进行扩增,获得扩增产物,在所述扩增产物中所述DNA双链中正链和负链连在同一条链上。
在一些实施方案中,所述方法还包括:(e)纯化所述的富集的目的DNA片段;(f)以基因突变特异性引物PCR扩增所述富集的目的DNA片段,得DNA文库。
在一些实施方案中,所述特异性引物连接有生物素标记。
在一些实施方案中,在富集DNA片段过程中,利用特异性引物特异性延伸含突变的基因片段;该引物环绕环状DNA一次或多次延伸,延伸产物含多个重复的目标DNA片段;富集产物含有延伸的DNA产物和原有的模板DNA,不含基因突变的DNA片段被洗去;延伸引物不会被下一步PCR扩增,不影响ddPCR检测和测序结果。
在一些实施方案中,上述引物延伸可以是单个基因位点的延伸,也可以是多个基因位点同时延伸。富集后的产物可以用ddPCR和DNA测序方法进行检测突变的性质和数量。
在一些实施方案中,步骤(a)中,所述DNA接头的长度为30~500bp。在一些实施方案中,步骤(a)中,所述DNA片段的长度为30~300bp。在一些实施方案中,步骤(a)中,所述DNA片段的长度为30~200bp。在一些实施方案中,步骤(b)中,所述DNA片段的长度为50~5000bp。在一些实施方案中,步骤(b)中,所述DNA片段的长度为50~4000bp。在一些实施方案中,步骤(b)中,所述DNA片段的长度为50~3000bp。
在一些实施方案中,所述样本包括组织、细胞或体液。在一些实施方案中,所述样本包括组织细胞DNA或体液DNA。
在一些实施方案中,步骤(b)中,包括使用连接酶将DNA片段与所述接头连接。在一些实施方案中,所述连接酶包括T4 DNA连接酶。在一些实施方案中,所述的DNA包括野生型DNA或含有基因变异的DNA。在一些实施方案中,所述的DNA为cfDNA。在一些实施方案中,所述的DNA为cDNA。在一些实施方案中,所述DNA来源于低频率突变的基因。在一些实施方案中,所述基因包括KRAS基因,也包括其他常见肿瘤相关基因。
在一些实施方案中,所述肿瘤包括消化道肿瘤、肺癌、乳腺癌、卵巢癌、子宫肿瘤和宫颈癌、泌尿道肿瘤、脑瘤、血液肿瘤,或其它肿瘤。在一些实施方案中,所述的疾病包括遗传性疾病。在一些实施方案中,所述的疾病包括微生物感染性疾病在一些实施方案中,本发明的方法可以显著提高检测基因突变的灵敏度、特异性,还可以在同一个反应体系大规模的富集多个(数十至数百,甚至数千个基因)含突变的基因,将极低频率的基因突变富集数十倍。
在一些实施方案中,本发明提供了一种DNA接头,所述DNA接头具有如SEQ ID NO:8-15或158-159任一所示的序列。在一些实施方案中,所述DNA接头选自如SEQ ID NO:1-7或157任一所示的序列。在一些实施方案中,所述DNA接头含有发夹结构,所述发夹结构的序列如SEQ ID NO:8-15或158-159任一所示。在一些实施方案中,所述接头选自环形或Y型。在一些实施方案中,当所述接头为环形时,所述接头选自如SEQ ID NO:1-5或157任一所示的序列。在一些实施方案中,当所述接头为Y型时,所述接头选自如SEQ ID NO:6-7所示序列组成的互补序列。在一些实施方案中,本发明提供了一种DNA接头,所述DNA接头(一种发夹结构),由一对互补的序列和环形非互补序列组成。
在一些实施方案中,所述DNA接头与如SEQ ID NO:1~5或157任一所示的核苷酸序列,或SEQ ID NO:6-7所示的核苷酸序列对具有至少90%或至少91%或至少92%或至少93%或至少94%或至少95%或至少96%或至少97%或至少98%或至少99%或至少99.5%或至少99.8%或至少99.9%、或100%的序列同一性。
在一些实施方案中,所述DNA接头选自以下(a)~(g)所列出的至少一种DNA接头;(a)由式(I)所示的核苷酸序列组成的DNA接头;或者,所述DNA接头具有与式(I)所示的核苷酸序列至少90%或至少91%或至少92%或至少93%或至少94%或至少95%或至少96%或至少97%或至少98%或至少99%或至少99.5%或至少99.8%或至少99.9%的序列同一性;(b)由式(II)所示的核苷酸序列组成的DNA接头,其中的N是分子标记,可用于区别多个测序样本中的每一个样本序列;或者,所述DNA接头具有与式(II)所示的核苷酸序列至少90%或至少91%或至少92%或至少93%或至少94%或至少95%或至少96%或至少97%或至少98%或至少99%或至少99.5%或至少99.8%或至少99.9%的序列同一性;(c)由式(III)和/或式(IV)所示的核苷酸序列组成的DNA接头,是用于Tn5转位子,用于DNA文库制备;或者,所述DNA接头具有与式(III)和/或式(IV)所示的核苷酸序列至少90%或至少91%或至少92%或至少93%或至少94%或至少95%或至少96%或至少97%或至少98%或至少99%或至少99.5%或至少99.8%或至少99.9%的序列同一性;(d)由式(IV)所示的核苷酸序列组成的DNA接头;或者,所述DNA接头具有与式(V)所示的核苷酸序列至少90%或至少91%或至少92%或至少93%或至少94%或至少95%或至少96%或至少97%或至少98%或至少99%或至少99.5%或至少99.8%或至少99.9%的序列同一性。(e)由式(V)所示的核苷酸序列组成的DNA接头;或者,所述DNA接头具有与式(V)所示的核苷酸序列至少90%或至少91%或至少92%或至少93%或至少94%或至少95%或至少96%或至少97%或至少98%或至少99%或至少99.5%或至少99.8%或至少99.9%的序列同一性。(f)由式(VI)所示的核苷酸序列组成的DNA接头;或所述DNA接头具有与式(VI)所示的核苷酸序列至少90%或至少91%或至少92%或至少93%或至少94%或至少95%或至少96%或至少97%或至少98%或至少99%或至少99.5%或至少99.8%或至少99.9%的序列同一性。(g)由式(Ⅶ)所示的核苷酸序列组成的DNA接头;或所述DNA接头具有与式(Ⅶ)所示的核苷酸序列至少90%或至少91%或至少92%或至少93%或至少94%或至少95%或至少96%或至少97%或至少98%或至少99%或至少99.5%或至少99.8%或至少99.9%的序列同一性。
在一些实施方案中,所述DNA接头包括以下(a)~(g)至少一种DNA接头;(a)由式(I)所示的核苷酸序列组成的DNA接头;(b)由式(II)所示的核苷酸序列组成的DNA接头;(c)由式(III)所示的核苷酸序列组成的DNA接头;(d)由式(IV)所示的核苷酸序列组成的DNA接头;(e)由式(V)所示的核苷酸序列组成的DNA接头;(f)由式(VI)所示的核苷酸序列组成的DNA接头;或由式(Ⅶ)所示的核苷酸序列组成的DNA接头。
在一些实施方案中,本发明提供了上述DNA接头在DNA文库构建中的应用。DNA接头与双链DNA连接,形成环形DNA结构或U形结构。经引物延伸,此结构可以大大增加基因片段的检出率。
在一些实施方案中,本发明通过新设计含有发夹结构的DNA接头,采用上述DNA接头用于基因检测中可以显著提高检测的灵敏度,大大提高了检测的特异性。并且利用设计出来的DNA接头和DNA片段连接构成DNA文库,可以在同一个反应体系大规模的富集多个(数十至数百,甚至数千个基因)含突变的基因,将无法实现的0.02%的基因突变富集数十倍,使得高通量测序可以有效地同时检测多个极低频率的基因突变,从而实现用数字PCR方法和普通的DNA测序方法检测无法完成的大规模突变检测。直接阅读是否有基因突变,突变种类,突变率多少,大大提高检测的灵敏度,无需用其它方法证实,检测快速,成本低。
在一些实施方案中,本发明提供了所述的制备方法获得的DNA文库。
在一些实施方案中,本发明提供了一种DNA的测序方法,以所述的DNA文库作为对象进行测序。
在一些实施方案中,本发明提供了一种DNA的测序方法,所述方法包括:使用两个DNA接头,所述DNA接头中的第一DNA接头连接在DNA双链的一同侧端,所述DNA接头的第二接头连接在双链的另一同侧端;从而将所述DNA双链的正链和负链连接在一条链上成单链环形或U形,作为引物延伸的模板进行PCR,延伸所述DNA获得目的DNA片段文库,以所述的DNA片段文库作为测序对象进行测序;所述第一接头和第二接头不同;所述第一接头为DNA测序用的接头。
在一些实施方案中,所述第二接头为DNA双链连接接头。在一些实施方案中,所述测序方法包括:在PCR过程中,加入DNA文库的样本标签。在一些实施方案中,所述样本标签为UDI。在一些实施方案中,所述DNA分子标签为UMI信息。在一些实施方案中,所述测序方法对每个DNA文库测序两次以上。在一些实施方案中,所述测序方法包括根据UDI或UMI信息,拆分测序数据,进行数据分析。在一些实施方案中,所述方法包括:(Ⅰ)制备DNA接头;(Ⅱ)制备DNA片段;(Ⅲ)将所述DNA片段和所述DNA接头连接成环形或者U形的连接产物;(Ⅳ)通过引物延伸,PCR扩增所述的连接产物,得DNA文库,进行测序,根据测序结果进行数据分析。在一些实施方案中,所述方法包括:(Ⅰ)制备DNA接头;(Ⅱ)制备DNA片段;(Ⅲ)将所述DNA片段和所述DNA接头连接成环形或者U形的连接产物;(Ⅳ)通过引物延伸,PCR扩增所述的连接产物,得DNA文库;(V)富集含DNA正链和负链的单链DNA文库:将步骤(Ⅳ)中的DNA文库再与步骤(Ⅰ)接头相应的引物混合,进行PCR,特异性地结合并纯化含DNA正链和负链的单链DNA文库,进行测序,根据测序结果进行数据分析。
在一些实施方案中,步骤(V)中,所述含原DNA正链和负链的单链DNA文库进行PCR后获得了互补的含DNA正链和负链的单链DNA。在一些实施方案中,所述测序为对所述互补的含DNA正链和负链的单链DNA进行双向测序。在一些实施方案中,当所述测序结果显示,所述DNA文库中含原双链DNA的正链和负链连接在一条链上的单链,且所述正链和所述负链在同一位置含有互补的碱基突变,确定为真性突变。在一些实施方案中,当所述测序结果显示,所述DNA文库中含原双链DNA的正链和负链连接在一条链上的单链,且所述正链和所述负链在同一位置含有的不互补碱基突变,则确定为假性突变。在一些实施方案中,当所述测序结果显示,所述DNA文库中含原双链DNA的正链和负链连接在一条链上的单链,对基于所述的单链进行PCR扩增获得的互补的单链进行DNA双向测序时,所述互补的单链的双向测序结果相同,且与野生型的基因进行比对,所述互补的单链在同个位置出现了相同的突变,则可以判定为真性突变。
在一些实施方案中,当所述测序结果显示,所述DNA文库中含原双链DNA的正链和负链连接在一条链上的单链,对基于所述的单链进行PCR扩增获得的互补的单链进行DNA双向测序时,所述互补的单链的双向测序结果不相同,且与野生型的基因进行比对,所述互补的单链在同个位置出现了不相同的突变,则可以判定为假性突变。在一些实施方案中,步骤(Ⅱ)中,还包括使用磁珠纯化所述的连接产物。在一些实施方案中,所述PCR扩增中,针对每个DNA片段加入多种引物。在一些实施方案中,所述DNA片段的长度为30~500bp。在一些实施方案中,所述DNA片段的长度为50~500bp。在一些实施方案中,所述DNA片段的长度为100~500bp。在一些实施方案中,所述DNA片段的长度为150~500bp。
在一些实施方案中,使用高通量测序平台进行测序,但又不限于此,还可以使用本领域中常规的测序方法。DNA测序结果分析方法包括:在一些实施方案中,DNA正链和负链在同一个DNA文库,也同时被测序。根据测序结果,同一DNA文库含原双链的正链和负链的单链;当所述正链和负链测序结果在同一位置含有互补的碱基突变,确定为真性基因突变,反之,如果不考虑特殊的碱基修饰,定义为假性基因突变。在一些实施方案中,DNA正链和负链在同一个DNA文库,也同时被测序。根据测序结果,同一DNA文库含原双链的正链和负链的单链;当所述正链和负链测序结果在同一位置含有不互补的碱基突变,定义为假性基因突变。
在一些实施方案中,DNA正链和负链在同一个DNA文库,也同时被测序。根据测序结果,同一DNA文库含原双链的正链和负链;当正链和负链测序结果在同一位置不含有相应的碱基突变,可能是特殊的碱基修饰所致,如甲基化修饰,可进行甲基化鉴定。在一些实施方案中,如果DNA文库不含原双链的正链和负链,按现有通用方法计算和定义为基因突变。部分基因具有很多不同的同源性或假性基因,基因探针不能将这些序列区分开来,所以,临床检测时,必须用不同的方法把这些目的基因挑选出来,增加了检测的复杂性和检测成本,在而本发明的一些实施方案中,解决了目前探针杂交法不能解决的同源性基因序列挑选的问题。可以替代目前的探针杂交法挑选目的基因,具有更精确、快速、成本低,适用于各种目的基因的挑选。
在一些实施方案中,本发明可替代PCR方法挑选目的基因。PCR方法对每一个基因片段需要设计一对引物,对大的基因组检测来说,引物设计非常困难,而且产生很多假性基因突变;PCR目的基因挑选方法不能解决基因拷贝数问题。目前临床基因检测最灵敏的技术是数字PCR方法,可检测0.5%基因突变。其检测原理是根据特别设计的探针与相应突变位点特异性结合,是荧光影像结果,根据荧光的亮度判读结果,但是没有方法验证其检测结果;该方法不能富集突变的基因,同时只能检测1-3个基因突变,不能大规模的基因检测。
在一些实施方案中,本发明可以在同一个反应体系大规模的富集多个(数十至数百,甚至数千个基因)含突变的基因,将无法实现的0.02%的基因突变富集数十倍,从而实现用数字PCR方法和普通的DNA测序方法检测,直接阅读是否有基因突变,突变种类,突变率多少,大大提高检测的灵敏度,无需用其它方法证实。本发明的方法创新解决了基因富集和提高检测灵敏度二个难题,同时也可以大大增加检测的特异性,而且具有快速、低成本优势。
在一些实施方案中,本发明的方法解决了目前探针杂交法不能解决的同源性基因序列挑选的问题,可以与常规DNA文库制备一起大规模操作。具有快速、低成本特点。目前基因检测方法检测同源性基因手段非常有限,无法大规模操作。最有效的方法是对一个一个基因进行长片段PCR,然后再DNA测序。其特点是耗时,成本高,不能与普通的DNA文库制备一起进行。在一些实施方案中,所述高通测序平台包括Illumina测序平台、华大基因测序平台和Ion Torrent测序平台。在一些实施方案中,在PCR过程中,加入DNA文库的样本标签。在一些实施方案中,所述DNA接头选自环形或Y型。在一些实施方案中,当所述DNA接头为环形时,所述接头选自如SEQ ID NO:1-5或157任一所示的序列。在一些实施方案中,当所述DNA接头为Y型时,所述接头选自如SEQ ID NO:6-7所示序列组成的互补序列。
在一些实施方案中,所述接头的序列选自如SEQ ID NO:1~5所示序列或其互补序列中的至少一条或选自如SEQ ID NO:6和SEQ ID NO:7组成的Y型序列。在一些实施方案中,所述两个DNA接头选自如SEQ ID NO:1和SEQ ID NO:5所示的组合。在一些实施方案中,所述两个DNA接头选自如SEQ ID NO:157和SEQ ID NO:6-7所示的组合。在一些实施方案中,所述两个DNA接头选自如SEQ ID NO:1和SEQ ID NO:157所示的组合。
在一些实施方案中,所述样本标签为UDI或UM1信息。
在一些实施方案中,所述测序方法对每个DNA文库测序两次以上。
在一些实施方案中,所述测序方法包括根据UDI或UM1信息,拆分测序数据,进行数据分析。
在一些实施方案中,所述方法包括:(Ⅰ)根据UDI序列,拆分样本测序结果;根据UMI序列,分析重复测序结果;(II)根据测序结果,同一DNA文库含原DNA双链的正链和负链的DNA单链;当所述DNA单链中的正链和负链测序结果在同一位置含有互补的碱基突变,确定为真性基因突变。
在一些实施方案中,所述DNA文库中含原双链的正链和负链的DNA单链,当所述DNA单链中的同一位置含有的不互补的碱基突变,则确定为假性突变。
在一些实施方案中,本发明提供了一种DNA分析方法,利用所述的DNA文库作为DNA标志物。
在一些实施方案中,本发明提供了所述的制备方法或所述的测序方法在筛选或富集或鉴定或检测目的基因或RNA中的应用。
在一些实施方案中,所述目的基因包括含有突变的基因或含有甲基化的基因。
在一些实施方案中,所述目的基因具有低频率突变。
在一些实施方案中,所述目的基因或RNA为疾病相关的基因或RNA。
在一些实施方案中,所述疾病包括肿瘤。
在一些实施方案中,所述目的基因为肿瘤相关的基因或具有甲基化的基因。
在一些实施方案中,所述目的基因包括基因疾病相关基因,如KRAS,PIK3CA,NRAS,ERBB2,SMAD4,MSH6,MET,TP53,CTNNB1,EGFR,PTEN,FGFR2或MEN1,或,微卫星不稳定性标记如BAT25,BAT26,D2S123,D5S346,D17S250,TGFβRII或BAT40。
在一些实施方案中,本发明提供了一种DNA测序装置,包括DNA文库制备单元和测序单元,其中所述DNA文库制备单元为制备所述的DNA文库的单元。
在一些实施方案中,所述测序单元为高通量测序平台。
在一些实施方案中,本发明提供了一种测序系统,包括:DNA文库制备单元、测序单元以及测序结果分析单元,所述DNA文库制备单元与所述测序单元连接,所述测序单元与所述测序结果分析单元连接,其中,DNA文库制备单元,用于将两个DNA接头中的第一DNA接头连接在DNA双链的一侧端,使用两个DNA接头中的第二DNA接头连接在DNA双链的另一侧端;从而将所述DNA双链的正链和负链连接在一条链上成单链环形或U形的初级DNA文库,以所述初级DNA文库为引物延伸的模板进行PCR,延伸所述的初级DNA文库获得目标DNA文库,将所述目标DNA文库发送给测序单元;测序单元,用于对所述目标DNA文库进行测序,得到DNA序列信息,所述DNA序列信息含有所述DNA双链的正链和负链结合在一起组成单链后的碱基排列信息;测序结果分析单元,用于根据所述DNA序列信息进行比对,输出结果。
在一些实施方案中,所述测序结果分析单元用于根据所述DNA序列信息进行比对时,当比对结果为连接有原DNA双链的正链和负链的DNA单链的测序结果显示所述正链和负链在同一位置含有互补的碱基突变,确定为真性突变。
在一些实施方案中,所述测序结果分析单元用于根据所述DNA序列信息进行比对时,当比对结果为连接有原DNA双链的正链和负链的DNA单链的测序结果显示所述正链和负链在同一位置含有不互补的碱基突变,则确定为假性突变。
附图说明
图1为DNA文库的制备和测序工作流程图。
图2为式(I)~式(Ⅶ)接头的结构示意图。
图3为DNA文库的结构示意图。
图4(A-C)为DNA文库的构建流程图。
图5为14个热点基因的96个基因突变位点的PCR跑胶的结果。
图6为DNA文库结构及测序图。
图7为KRAS G12D基因突变富集的检测影像图。
图8为KRAS G12R基因突变富集的检测影像图。
图9为14个热点基因的96个基因突变位点的PCR跑胶的结果。
具体实施方式
以下通过具体的实施例进一步说明本发明的技术方案,具体实施例不代表对本发明保护范围的限制。其他人根据本发明原理所做出的一些非本质的修改和调整仍属于本发明的保护范围。
如本文所用,术语“包括”、“具有”、“含有”和“包含”以及其它类似形式及其语法等效物旨在在含义上等效并且是开放式的,因为这些词语中的任一个之后的一个或多个项并不意味着是这一个或多个项的详尽列表,或者意味着仅限于所列出的一个或多个项。例如,“包括”组分A、B、和C的物可以由组分A、B、和C组成(即,仅含有组分A、B、和C),或者可以不仅含有组分A、B和C,而且可以包括一种或多种其它组分。因此,意图并理解的是,“包括”及其类似形式及其语法等同形式包含“基本上由……组成”或“由……组成”的实施例的公开。
如本文和所附权利要求书所用,单数形式“一个/一种”、“一个/一种”和“所述”包括复数指代物,除非上下文另外清楚地规定。因此,例如,提及“一种方法”包括多个此类方法,并且提及“所述片段”包括提及一个或多个片段及其本领域技术人员已知的等同物,等等。
此外,除非另外说明,否则“或”的使用意指“和/或”。类似地,“包含”、“包括”是可互换的,并不旨在是限制性的。
应进一步理解,在使用术语“包含”描述各个实施方案的情况下,本领域技术人员将理解,在一些特定情形下,可以可替代地使用语言“基本上由……组成”或“由……组成”来描述实施方案。
除非另有定义,本文中所使用的所有技术与科学术语的定义与本领域技术人员所熟悉的定义相同。此外,任何与所记载内容相似或均等的方法和材料皆可应用于本发明方法中,具体实施方式中描述了优选的方法和材料。
应当理解,本公开文本不限于本文所述的特定方法、方案和试剂等,并且本身可以变化。本文所用的术语仅用于描述特定实施方案或方面的目的,并不旨在限制本公开文本的范围。
在一些实施方式中,实施例1中的步骤9的富集方法同样适用于实施例1中步骤7富集产物,富集目标基因DNA片段。
本文中,不特别指明的情况下,环形DNA文库都是由接头式I和式V连接而成。
在一些实施方案中,本发明的DNA文库的制备和测序工作流程如图1所示。
在一些实施方案中,本发明提供了一种DNA接头,包括以下(a)~(g)任意一种DNA接头(其中碱基组成以图2为准);
(a)由式(I)所示的核苷酸序列(如SEQ ID NO:1所示,5'-/phos/GATCGGAAGAGCACACGTCTGAACCTCAGTCACACTCTTTCCCTACACGACGCTCTTCCGATC*T)组成的DNA接头;
(b)由式(II)所示的核苷酸序列(如SEQ ID NO:2所示,5'-/phos/NNNNNNNNAGATCGGAAGAGCACACGTCTGAACCTCAGTCACACTCTTTCCCTACACGACGCTCTTCCGA TCTNNNNNNNN*T)组成的DNA接头,N指A,T,C,和G四种碱基中任何一个;
(c)由式(III)所示的核苷酸序列(如SEQ ID NO:3所示:5'-/phos/CTGTCTCTTATACACATCTACTTCGACTTCGAATCTGTCGGCAGCGTCAGATGTGTATAAGAGACAG)组成的DNA接头;
(d)由式(IV)所示的核苷酸序列(如
SEQ ID NO:4所示:5'-/phos/CTGTCTCTTATACACATCTACTTCGACTTCGAAGTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG)组成的DNA接头;
(e)由式(V)所示的核苷酸序列(如SEQ ID NO:5所示,5'-/phos/CCCAGTCAGCAGNNNNAGCTCTGACTGGGT)组成的DNA接头,N指A,T,C,和G四种碱基中任何一个;
(f)由式(VI)所示的核苷酸序列(如SEQ ID NO:6所示,5'-/phos/AATGATACGGCGACCACCGAGATCTACACCGGATTGCNNNACACTCTTTCCCTACACGACGCTCTTCCGATC TCTCTCAGAT和SEQID NO:7所示
5'-/phos/
TCTGAGAGAGATCGGAAGAGCACACGTCTGAACTCCAGTCACCACTTCGANNNATCTCGTATGCCGTCTTC TGCTTG)组成的DNA接头,N指A,T,C,和G四种碱基中任何一个;
(g)由式(Ⅶ)所述的核苷酸序列(如SEQ ID NO:157所示,5'-/phos/CTATAGTGAGTCGTATTACAGCAACGTGTCACAAGCTCTGCAACGACTCACTATAGT。其中,式(I)-式(V)和式(Ⅶ)的环形部分为可变序列,互补双链引物部分为不可变序列,关键序列为发夹结构,其中,式(III)和式(IV)的发夹结构的序列一样:
式(III)或式(IV)发夹结构的核苷酸序列互补,如SEQ ID NO:8-9所示:SEQ IDNO:8:AGATGTGTATAAGAGACAG;SEQ ID NO:9:TCTACACATATTCTCTGTC。
式(I)互补的发夹结构的核苷酸序列如SEQ ID NO:10-11所示:GCTCTTCCGATC*T(SEQ ID NO:10);CGAGAAGGCTAG(SEQ ID NO:11)。
式(II)互补的发夹结构的核苷酸序列如SEQ ID NO:12-13所示:GCTCTTCCGATCTNNNNNNNN*T(SEQ ID NO:12);CGAGAAGGCTAGANNNNNNNN(SEQ ID NO:13),N指A,T,C,和G四种碱基中任何一个,SEQ ID NO:12序列中的N与SEQ ID NO:13种相应位置的N为互补碱基。
式(V)互补的发夹结构的核苷酸序列如SEQ ID NO:14-15所示:CTGACTGGGT(SEQID NO:14);GACTGACCC(SEQ ID NO:15)。
式(VI)互补的发夹结构的核苷酸序列如SEQ ID NO:16-17所示:GCTCTCCGATCT(SEQ ID NO:16);CGAGAAGGCTAG(SEQ ID NO:17)。
式(Ⅶ)互补的发夹结构的核苷酸序列如SEQ ID NO:158-159所示:ACGACTCACTATAGT(SEQ ID NO:158);TGCTGAGTGATATC(SEQ ID NO:159)。
其中,式(I)和式(II)接头中的“*”指的是硫代磷酸酯修饰T碱基。
式(I)~式(VI)接头的结构示意图如图2所示。
在一些实施方案中,将上述式(I)、式(II)和式(V)中任意一种或二种、或多种结构的DNA接头连接在DNA片段两端,通过基因特异性引物延伸和富集目的基因片段,用PCR方法完成DNA文库制备。
在一些实施方案中,将上述式(I)、式(II)和式(V)中任意一种DNA接头,与普通的Y型DNA如式(VI)所示的接头一起,连接在DNA片段两端,通过基因特异性探针富集目的基因片段,用PCR方法完成DNA文库制备。
在一些实施方案中,式(III)和式(IV)是一对DNA接头,用于Tn5转位酶(不同的DNA文库制备方法),制备DNA文库。其不与其它DNA接头合用。
在一些实施方案中,DNA接头选用由式(I)所示的核苷酸序列组成的DNA接头,以下实施例选用由式(I)所示的核苷酸序列组成的DNA接头。
在一些实施方案中,DNA文库由上述(a)中的DNA接头和DNA片段连接,所述(a)中的两个DNA接头分别位于所述DNA片段的两端,所述DNA片段包括含基因变异的DNA片段或野生型基因的DNA片段。
在本发明的上下文中,术语“DNA接头”指的是由DNA形成的接头,一个DNA接头用于连接双链DNA两端的一侧端。DNA接头包括环形和Y型,在一些实施方案中,当使用2个环形DNA接头分别连接在双链DNA两侧端,则将DNA双链上的正链和负链连接在一条链上成闭合的单链环形。在一些实施方案中,当使用1个环形DNA接头和一个Y型DNA接头分别连接在双链DNA两侧端,则将DNA双链上的正链和负链连接在一条链上成U形单链。其中所述DNA接头的序列不与所述单链DNA模板的DNA或与所述单链DNA模板互补的任何所述寡核苷酸组互补。
本文中,在本发明中的目标DNA文库中,含有对两种互补的含原DNA正链和负链的单链DNA,“双向测序”指的是对所述所述目标DNA文库中的两种互补的含原DNA正链和负链的单链DNA分别从两个方向进行测序,其中测序都是从5’端到3’端。
实施例1一种DNA文库的构建方法
DNA文库的结构示意图如图3所示,和DNA文库的构建流程如图4(A-C)所示。其中,图3中,A和T是二个碱基,蓝线和绿线代表双链DNA。左边是仪双链DNA片段,右边是目标DNA文库(正链和负链通过接头连接成一条单链DNA),黄线是DNA双链连接接头。
所述DNA文库的构建方法包括以下步骤:
1、核酸提取:所述核酸为来源于细胞系HCT116中的DNA,本步骤的DNA提取详细步骤见DNA提取试剂盒相关使用说明书。
2、DNA剪切:按实验目的把DNA剪切成一定长度DNA片段,如50-500bp。
3、DNA接头的制备:
引物退火缓冲液的配方如表1所示:
表1
| 试剂 | 用量 |
| 醋酸钾 | 196g |
| 醋酸 | 115ml |
| 净化水 | 800ml |
| 2N盐酸 | pH7.5 |
| 加净化水 | 至1000ml |
N指代当量(浓度)。
用2M引物退火缓冲液将DNA接头溶解成100μM,将接头分别稀释成40μM(体积为50μl),将40μM的接头于PCR管中退火:94℃5分钟,关闭电源,待PCR仪温度自然降低至室温。将退火的DNA接头稀释成10μM;取二种接头按相同体积混合,作为接头母液。
其中,该方法适用本文7种接头。
4、全基因组DNA文库制备(使用Watchmaker Genomics公司的DNA文库制备试剂盒):用T4 DNA连接酶将上述步骤2剪切获得的DNA片段连接步骤3获得的DNA接头,置于室温条件下反应15分钟,获得连接后的DNA片段,获得DNA初级文库。具体条件如表2所示。
表2
5、纯化DNA片段:用磁珠纯化连接后的DNA片段,去除多余的DNA接头、短片段DNA和超长的DNA片段,用DNA溶解液洗脱磁珠上的DNA,获得连接产物,并保存。
6、目的基因引物设计:
基于基因扩增区域设计,一个待扩增区域可以有一个或数个引物,引物长度按一般的设计原则,如15-60个碱基。基因富集可以用单个引物,或多个引物,富集单个DNA片段,或多个DNA片段。不同检测项目,其基因及其引物设计不同,参见具体的基因检测项目,如:
6.1KRAS基因的野生型引物
设计一个野生型KRAS基因生物素标记的野生型引物(如SEQ ID NO:18所示,Biotin-AAAAAAGACTGAATATAAACTTGTGGTAGTTG),可以检测包括KRAS基因第36个碱基的数十至数百个碱基之内的基因改变,包括单个碱基改变,碱基插入,碱基缺失,碱基序列重排等。
6.2KRAS基因的基因突变特异性生物素标记的引物
二种基因突变及二种基因突变特异性生物素标记的引物如表3所示。该引物可以特异性地扩增含相应基因突变的DNA片段。
表3引物设计
6.3其他的多个基因突变特异性引物序列如SEQ ID NO:140~SEQ ID NO:156所示。
7、富集目的基因:将步骤5纯化后连接产物与KRAS基因的野生型引物(SEQ ID NO:18)混合,基于引物选择合适的退火温度,退火,与DNA聚合酶混合,放入PCR仪器,按以下反应条件,富集目的基因。
反应试剂及用量如表4所示:
表4
| 试剂名称 | 体积(μl) |
| DNA连接产物 | 25 |
| 基因野生型型引物(0.5μM) | 2 |
| 2xPCR缓冲液母液 | 20 |
| PCR级水 | 3 |
目的基因富集反应条件如表5所示:
表5
8、富集含基因突变的DNA片段:
按照以下表6的反应体系和表7的反应条件,富集含突变的DNA片段。
表6
| 试剂名称 | 体积(μl) |
| DNA连接产物 | 25 |
| 基因突变特异性引物(0.5μM) | 2 |
| PCR母液(2x) | 20 |
| PCR级水 | 3 |
表7
9、纯化富集的DNA产物:
9.1室温放置Streptavidin磁珠30分钟。
9.2配置Streptavidin磁珠洗涤液(500μl),配制条件如下表8所示:
表8
| 试剂名称 | 体积(μl) |
| 1M Tris-HCl(pH 7.5) | 10 |
| 0.5M EDTA(pH 8.0) | 1 |
| 5M NaCL | 50 |
| 纯化水 | 439 |
9.3充分混匀Streptavidin磁珠,取20μl,加入上述一个新的PCR反应管,用150μlStreptavidin磁珠洗涤液洗涤二次。
9.4步骤8富集获得的含基因突变的DNA片段加入洗涤后的Streptavidin磁珠,室温,摇床上混合,共30分钟。
9.5把上述PCR反应管置于磁板上,静置1分钟,用移液器移去液体。
9.6将50μl Streptavidin磁珠洗涤液至含磁珠的PCR反应管,混匀,把PCR反应管置磁板上1分钟,用移液器移去液体。
9.7目的基因DNA片段结合在Streptavidin磁珠,PCR反应管内加入25μl的TE缓冲液,用移液器混匀。最终获得纯化的目的基因富集产物,目的基因富集产物含有延伸的DNA产物(即延伸产物)和原有的模板DNA,不含基因突变的DNA片段被洗去,获得富集的目的基因DNA。
10、制备测序DNA文库
富集的目的基因DNA结合在磁珠上(如上述步骤9.7)。
用样本Indexing PCR引物,将富集的基因片段扩增,纯化扩增后的PCR产物,即终DNA文库。
Indexing PCR引物,每一个样本的index不同(i7和i5)
Index1(i7)引物(SEQ ID NO:21):
GATCGGAAGAGCACACGTCTGAACTCCAGTCAC[i7]ATCTCGTATGCCGTCTTCTGCTTG
Index2(i5)引物(SEQ ID NO:22):
AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCCTACACGACGCTCTTCCGATCT
具体步骤如下:
10.1、PCR扩增纯化的延伸产物:
将最终获得的目的基因富集产物(含一个或多个重复的目标DNA片段)与IndexingPCR引物混合,基于所述引物选择合适的退火温度,与DNA聚合酶混合,放入PCR仪器,按以下反应体系和反应条件,扩增纯化的目的基因富集产物,获得PCR产物。
PCR反应体系如表9所示:
表9
PCR反应条件如表10所示:
表10
10.2、用磁珠纯化步骤10.1获得的PCR产物,最后用30μl DNA溶解液洗脱DNA,并保存。
10.3、定量和定性DNA文库。
上面步骤10.2纯化的DNA即目的基因DNA文库。
a.用Qμbit试剂盒进行DNA定量(ng/μl);
b.用Bioanalyzer试剂盒检测DNA长度(bp)。
10.4、换算DNA文库的摩尔浓度。
将ng/μl浓度换算成nM浓度;
DNA浓度(nM)=DNA浓度(ng/μl)x 1000000/(650x DNA长度(bp))
例如:Qμbit定量为15ng/μl,Bioanalyzer检测DNA长度为450(bp)nM浓度=15x1000000/(650x 450)=51.28nM。
11、扩增含DNA正链和负链的单链DNA文库
11.1、取100ng第10步的DNA文库,加入PCR管,用引物退火缓冲液稀释至50ul,加入式(V)接头相应的生物素标记的引物2.5ul(2uM),混匀。
式(V)接头相应的生物素标记的引物序列:
Biotin-AAAAAACTATAGTGAGTCGTATTACAGCAACGTGTCACAAGCTCTGCAddC(SEQ ID NO:41)
其中,其中,ddC是双脱氧的碱基C,这个碱基用于终止该引物延伸,只能用于杂交和纯化。
11.2、将上述溶液置PCR仪,94度2分钟,关电源,自然冷却至室温。
11.3、将25μl Streptavidin磁珠洗涤液至含磁珠的PCR反应管,混匀,把PCR反应管置磁板上1分钟,用移液器移去液体。
11.4、含DNA双链的文库结合在Streptavidin磁珠,PCR反应管内加入25μl的TE缓冲液,用移液器混匀。
11.5、PCR扩增上述DNA文库。
表11文库扩增PCR引物(2uM)
表12PCR反应体系
表13PCR反应条件
11.6、用磁珠纯化步骤11.5获得的PCR产物,最后用30μl DNA溶解液洗脱DNA,并保存。
11.7、方法与10.3、定量和定性DNA文库的方法相同。
实施例2常见消化道肿瘤基因检测,用作MRD,早期检测等。
14个热点基因96个基因突变位点(如表14),用实施例1的方法制备的DNA文库(为按照实施例1的方法的步骤10获得的文库)进行PCR跑胶的结果,如图5所示。其中,14个热点基因96个基因突变位点的PCR引物如SEQ ID NO:44-139所示。
表14
| AKT1 | ERBB2 | KIT | PIK3CA |
| BRAF | HRAS | KRAS | RET |
| CTNNB1 | IDH1 | NOTCH1 | / |
| EGFR | IDH2 | NRAS | / |
本实施例用的是HCT116细胞DNA。从图5中lane 1是DNA片段大小标准对照,lane 2是用二个环形DNA接头(接头式(I)和(V))制备的DNA文库;lane 3是用一个Y型DNA接头和一个环形接头(即式(VI)接头和式(V)接头)制备的DNA文库。lane 2和lane 3终DNA文库的浓度分别为8.2ng/ul和2.5ng/ul,DNA文库的大小分别为300-550bp和200-320bp。因此,可以证明,lane 2DNA文库含原DNA双链的正链和负链组成的单链(即正链和负链结合在一条单链上),lane 3DNA文库含原DNA双链中的单链DNA(正链和负链分开的正链或负链)。
实施例3基因(DNA)文库的测序及数据分析
1、待测样本:实施例1所得的目的基因DNA文库(为按照实施例1的方法的步骤11获得的文库)。
2、混合DNA文库和DNA文库测序:
根据每个基因位点测序深度,把具有不同样本编码的DNA文库按相同数量的DNA分子混合。置于相应的DNA测序仪进行测序。
3、DNA文库测序:
Illumina测序仪,MiSeq和NovaSeq 6000(本文实施例具体使用的测序仪是NovaSeq6000测序)。
4、测序结果分析:
用Illumina测序仪,对DNA文库进行测序,测序包括UDI(UMI非必须)和read1和read2。图6是本发明DNA文库结构及测序图。测序模式是150(Read1)/8(Index1)/8(Index2)/150
(Read2)。根据UDI信息,合并二次测序数据,进行数据分析。
理论结果:真正的基因突变是原双链DNA上同一位置出现与野生型不同的碱基,如野生型正链某特定位点是G,负链相应的位点为碱基C;该双链DNA形成的DNA文库中同一条DNA单链上含原双链DNA的正链和负链,如图6中的上链和下链。上链含正链的G和负链的C,同样的情况出现在下链。
(1)分析方法1:测序结果与理论结果一致,则该DNA含野生型的基因序列。即该DNA文库测序结果显示所述的特定位点的Read1为G,所述的特定位点的Read2为G。
(2)分析方法2:如果测序结果与理论结果不一致,但上链的正链和负链出现相应的互补碱基,则为正真突变,如特定位点在正链为T,特定位点在负链为A等。即该DNA文库测序结果显示特定位点的Read1为T,特定位点的Read2为T。
(3)分析方法3:如果测序结果与理论结果不一致,但上链的正链和负链出现不互补碱基,则为假性突变,如特定位点在正链为T,特定位点在负链为C等。即该DNA文库测序结果显示特定位点在Read1为T,特定位点在Read2为G,该上链中的正链T大概率为假性突变,因为此变化的概率非常低,概率计算如下:
1%(PCR等造成的点突变误差)x1/150(在150个测序碱基中,特定位置的点突变率)x1/3(3个碱基中的1个随机突变概率)=2.222x10-5。
以下表15-表17是测序结果范例
表15野生型NIBAN基因DNA片段序列
表15中A和G同时出现在Read1和Read2测序结果中,属野生型基因(无基因突变)。
表16假性突变型NIBAN基因DNA片段
表16中A同时出现在Read1和Read2测序结果中,属野生型基因(无基因突变),T出现在Read1,G出现在Read2测序结果中,T属于基因突变的概率为2.222x 10-5,应该是假性突变。
表17真正碱基突变NIBAN基因DNA片段(下划线标记的碱基为突变的碱基)
表17中G同时出现在Read1和Read2测序结果中,该G在二个测序结果中出现假性突变的概率为2.2x10-5,属A>G真基因突变。
表16为假性突变型,下划线标记的碱基为序列中不同的碱基。这二个碱基中有一个应该为假性突变的碱基,可能是碱基的损伤-修复机制不全,或PCR误差,或测序过程中的错误造成。与表15的第一个测序数据(Read1与Read2序列完全相同)比较,该位点的碱基应该是G,T应该是DNA文库制备和测序过程中DNA修复或PCR误差造成的。假设PCR造成的突变率为1%,这种Read1正常,Read2在特定位点的单个碱基特定的突变的概率为十万分之2.22。因此,此处T为假性突变。
计算方法:1%(PCR造成的点突变误差)x1/150(在150个测序碱基中,特定位置的点突变率)x1/3(3个碱基中的1个随机突变概率)=2.222x10-5。
表17中,与表15的第一个测序数据(Read1与Read2序列完全相同)比较,下划线并加粗的位点的碱基应该是A;但根据测序出来的结果,此处变为了G,且出现在DNA双链。假设PCR造成的突变率为1%,这种Read1和Read2在特定位点的相同碱基突变的概率为2.2x10-5。因此,表17中划线并加粗的地方的碱基G为极低频率的真正基因突变。
测序仪测序的结果显示,高度相似的R1R2对数目有53660,最低碱基假性突变检测灵敏度为0.0000300345,最低碱基突变检测灵敏度为0.0001260043(一个R1R2),最低碱基突变检测灵敏度为0.0000151602(二个R1R2)。本发明的真性碱基突变是指R1(DNA正链)和R2(DNA负链)同一位置显示相同的碱基突变。
本项目对碱基突变的检测灵敏度大大高于Illumina的检测灵敏度,而且特异性也明显提高。
样本测序结果如表18-表19(KRAS基因,外显子2):
表18
HCT116 gDNA,KRAS G12D mutant,GGT>GAT(正链的突变碱基)
KRAS G12D引物序列:Biotin-AAAAAA-GACTGAATATAAACTTGTGGTAGTTGGAGCTAA(SEQID NO:31)
野生型(负链)
GGATCATATTCGTCCACAAAATGATTCTGAATTAGCTGTATCGTCAAGGCACTCTTGCCTACGCCACCAGCTCCAACTACCACAAGTTTATATTCAGTCATTTTCAGCAGGCCTTATAATAAAAATAATGAAAATGTGACTATATTAGAA(SEQ ID NO:32)
突变型(负链)
GGATCATATTCGTCCACAAAATGATTCTGAATTAGCTGTATCGTCAAGGCACTCTTGCCTACGCCATCAGCTCCAACTACCACAAGTTTATATTCAGTCATTTTCAGCAGGCCTTATAATAAAAATAATGAAAATGTGACTATATTAGAA(SEQ ID NO:33)
表18对应的结果使用的接头为式(I)和式(V)。
表19
结直肠癌组织样本gDNA,KRAS G12Rmutant,GGT>CGT
KRAS G12R引物序列:Biotin-AAAAAA-GACTGAATATAAACTTGTGGTAGTTGGAGCGC(SEQID NO:36)
野生型(负链)
TATTAAAACAAGATTTACCTCTATTGTTGGATCATATTCGTCCACAAAATGATTCTGAATTAGCTGTATCGTCAAGGCACTCTTGCCTACGCCACCAGCTCCAACTACCACAAGTTTATATTCAGTCATTTTCAGCAGGCCTTATAATAA(SEQ ID NO:37)
突变型(负链)
TATTAAAACAAGATTTACCTCTATTGTTGGATCATATTCGTCCACAAAATGATTCTGAATTAGCTGTATCGTCAAGGCACTCTTGCCTACGCCACGAGCTCCAACTACCACAAGTTTATATTCAGTCATTTTCAGCAGGCCTTATAATAA(SEQ ID NO:38)
表19对应的结果使用的接头为式(I)和式(V)。
实施例4用ddPCR方法进行基因分型
按照实施例1的方法获得的纯化的目的基因富集产物或DNA文库(突变特异性引物:多个基因突变特异性引物及其序列),采用ddPCR方法进行基因分型,包括以下步骤:
1、ddPCR检测:
用实施例1的目的基因DNA文库(或称为延伸产物,即按照实施例1的方法在实施例1步骤10.2获得的目的基因DNA文库)为模板,用Qiagen设计的ddPCR试剂盒,在ThermoFisher的ddPCR仪器扩增,仪器自动报告突变阳性和突变阴性结果。
2、ddPCR基因分型:
根据ddPCR检测结果,对相应的基因进行分型。
实施例5突变基因富集结果检测
1、核酸提取:所述核酸为来源于各种组织和体液中的DNA或RNA(优选为DNA),本步骤的DNA提取详细步骤见Thermo Fisher公司的DNA提取试剂盒相关使用说明书。
2、DNA剪切:按实验目的把DNA剪切成一定长度DNA片段,如50-500bp。
3、DNA接头的制备:用2M引物退火溶液将接头溶解,制成一定的浓度(如100μM),取适量的接头(50μl),加入PCR试管,退火,用DNA溶解液把退火后的寡核苷酸稀释至10μM,获得DNA接头。
其中,引物退火溶液的配方为:
| 试剂 | 用量 |
| 醋酸钾 | 196g |
| 醋酸 | 115ml |
| 净化水 | 800ml |
| 2N盐酸 | pH7.5 |
| 加净化水 | 至1000ml |
N指代当量(浓度)。
DNA溶解液(pH=7.5)的配方为:
| 试剂 | 浓度(mM) |
| Tris-HCL | 10 |
| EDTA | 0.1 |
4、全基因组DNA文库制备(Watchmaker Genomics公司的DNA文库制备试剂盒):用T4 DNA连接酶将步骤2剪切获得的DNA片段连接DNA接头,置于室温条件下反应15分钟。具体条件如表20所示。
表20
| 试剂名称 | 体积(μl) |
| DNA片段,50ng | 50 |
| DNA接头10μM | 5 |
| T4DNA连接酶母液 | 20 |
5、纯化DNA片段:用磁珠纯化连接后的DNA片段,去除多余的DNA接头、短片段DNA和超长的DNA片段。用DNA溶解液洗脱磁珠上的DNA,获得连接产物,并保存。
6、目的基因引物设计:
6.1基于基因扩增区域设计,一个待扩增区域可以有一个或数个引物,引物长度按一般的设计原则,如15-60个碱基。如KRAS基因,设计一个野生型KRAS基因生物素标记的野生型引物(如SEQ ID NO:18所示,Biotin-AAAAAAGACTGAATATAAACTTGTGGTAGTTG),可以检测包括KRAS基因第36个碱基的数十至数百个碱基之内的基因改变,包括单个碱基改变,碱基插入,碱基缺失,碱基序列重排等。
6.2KRAS基因二种基因突变及二种基因突变特异性生物素标记的引物如表21所示。该引物可以特异性地扩增含相应基因突变的DNA片段。
表21引物设计
7、富集目的基因:将步骤5纯化后连接产物与野生型引物混合,基于引物选择合适的退火温度,与DNA聚合酶混合,放入PCR仪器,按以下反应条件,富集目的基因。
反应试剂及用量如下:
| 试剂名称 | 体积(μl) |
| 基因突变型引物(0.5μM) | 2 |
| 2xPCR缓冲液母液 | 20 |
| PCR级水 | 3 |
目的基因富集反应条件:
8、富集含基因突变的DNA片段:按照以下反应条件,富集含突变的DNA片段。
| 试剂名称 | 体积(μl) |
| 特异性引物(0.5μM) | 2 |
| 2xPCR母液 | 20 |
| PCR级水 | 3 |
富集含突变的基因反应条件:
9、纯化富集的DNA产物:
9.1室温放置Streptavidin磁珠30分钟。
9.2配置Streptavidin磁珠洗涤液(500μl),配制条件如下:
| 试剂名称 | 体积(μl) |
| 1M Tris-HCl(pH 7.5) | 10 |
| 0.5M EDTA(pH 8.0) | 1 |
| 5M NaCL | 50 |
| 纯化水 | 439 |
9.3充分混匀Streptavidin磁珠,取10μl,加入上述一个新的PCR反应管,用150μlStreptavidin磁珠洗涤液洗涤二次。
9.4富集步骤8获得的DNA片段加入洗涤后的Streptavidin磁珠,室温,摇床上混合,共30分钟。
9.5把上述PCR反应管置于磁板上,静置1分钟,用移液器移去液体。
9.6将50μl Streptavidin磁珠洗涤液至含磁珠的PCR反应管,混匀,把PCR反应管置磁板上一分钟,用移液器移去液体。
9.7纯化的目的基因DNA片段结合在Streptavidin磁珠,PCR反应管内加入25μl扩TE,用移液器混匀。最终获得纯化的目的基因富集产物,目的基因富集产物含有延申的DNA产物(即延伸产物)和原有的模板DNA,不含基因突变的DNA片段被洗去。
10、对步骤9获得的纯化的目的基因富集产物采用不同方法进行基因分型:
10.1PCR扩增纯化的延申产物:将纯化的延申产物(含多个重复的目标DNA片段)与延伸引物混合,基于引物选择合适的退火温度,与DNA聚合酶混合,放入PCR仪器,按以下反应条件,扩增纯化的延申产物。
反应体系:
| 试剂名称 | 体积(μl) |
| PCR反应母液(2x) | 25 |
| 上述基因突变型引物(SEQ ID No:19-20)2μM | 2.5 |
| 纯化的目的基因富集产物(磁珠) | 20 |
| 纯化水 | 2.5 |
反应条件:
10.1.1纯化10.1步骤的PCR产物。用磁珠纯化连接后的DNA片段,去除多余的DNA接头、短片段DNA和超长的DNA片段。用DNA溶解液洗脱磁珠上的DNA,获得连接产物,并保存。
10.2ddPCR基因分型:
10.2.1结直肠癌组织样本细胞DNA中KRAS G12D基因突变率为30%作为已知的阳性对照样本;用含野生型KRAS基因的DNA将所述的阳性对照样本(含G12D突变)分别稀释到基因突变率为0.5%和2%,作为富集前的阳性对照样本;从所述0.5%和2%基因突变率的阳性对照样本中富集突变基因。富集后的产物经过PCR扩增,用ddPCR检测扩增产物。结果显示,0.5%基因突变率的阳性对照样本中富集突变基因,经过基因突变特异性引物富集后,G12D突变率提升为50%,和2%基因突变率的阳性对照样本中富集突变基因,经过基因突变特异性引物富集后,基因突变频率提升为34.87%,检测影像图如图7所示。
10.2.2另一结直肠癌组织样本中KRAS G12R基因突变率为25%,作为已知的阳性对照样本;用含野生型KRAS基因的DNA将所述的阳性对照样本稀释到基因突变率为2%,作为富集前的阳性对照样本;再从基因突变率为2%的富集前的阳性对照样本中富集突变基因,PCR扩增以及纯化的目的基因富集产物,然后用ddPCR检测,结果显示,从2%的富集前的阳性对照样本中富集突变基因,经过基因突变特异性引物富集后,G12R的突变率提升为48.46%(2%688.08富集),检测影像图如图8所示。
实施例6DNA文库制备和测序的应用
1、检测血浆游离肿瘤DNA(ctDNA)中的特异性基因突变,进行早期肿瘤筛查和残留肿瘤DNA检测。
血浆ctDNA早期筛查胃肠道肿瘤
1.1cfDNA提取方法:用血浆DNA提取试剂盒提取血浆中游离DNA;
1.2基因组设计:
a)相关基因(14个热点基因引物如SEQ ID NO:44-139所示):
表22
| AKT1 | ERBB2 | KIT | PIK3CA |
| BRAF | HRAS | KRAS | RET |
| CTNNB1 | IDH1 | NOTCH1 | / |
| EGFR | IDH2 | NRAS | / |
b)微卫星不稳定性标记:BAT25,BAT26,D2S123,D5S346,D17
S250,TGFβRII,BAT40。
1.3制备DNA文库
1.4DNA接头的制备:
与实施例1相同。
1.5全基因组DNA文库制备(使用Watchmaker Genomics公司的DNA文库制备试剂盒):
表23
| 试剂名称 | 体积(μl) |
| ctDNA片段(50ng) | 50 |
| DNA接头I和接头V(10μM) | 5 |
| T4DNA连接酶母液 | 20 |
1.6纯化DNA片段:用磁珠纯化连接后的DNA片段,去除多余的DNA接头、短片段DNA和超长的DNA片段,用DNA溶解液洗脱磁珠上的DNA,获得连接产物,并保存。
1.7目的基因引物设计:
见实施例6步骤1.2基因组设计。
1.8富集目的基因:将步骤1.6纯化后连接产物与步骤1.2基因组引物混合,基于引物选择合适的退火温度,退火,与DNA聚合酶混合,放入PCR仪器,按以下反应条件,富集目的基因。
反应试剂及用量如表24所示:
表24
| 试剂名称 | 体积(μl) |
| DNA连接产物 | 25 |
| 基因野生型型引物(0.5μM) | 2 |
| 2xPCR缓冲液母液 | 20 |
| PCR级水 | 3 |
目的基因富集反应条件如表25所示:
表25
1.9富集含基因突变的DNA片段:
与实施例1方法第8步相同。
1.10纯化富集的DNA产物:
与实施例1方法第9步相同。
1.11制备测序DNA文库
与实施例1方法第10步相同
1.12富集并扩增含DNA正链和负链的单链DNA文库
与实施例1方法第11步相同,获得目标DNA文库。对目标DNA文库进行电泳检测,测定结果如图9所示。
图9结果显示:根据二种DNA,制备的DNA文库有相同的DNA文库长度和合适的DNA浓度。
注:其中图9中从左至右的第1条泳道为样本1的gDNA测定的结果;第3条泳道为样本2的gDNA测定的结果;第2条泳道为DNAladder。
1.13测序以及数据分析:方法与实施例3相同,测定结果如表26所示,。
表26
| GeneName | Exon | Chromosome | R1alignmentstart | R2alignmentstart |
| NRAS | Exon2 | 1 | 114715987 | 114715987 |
| PIK3CA | Exon21 | 3 | 179234362 | 179234362 |
| KIT | Exon17 | 4 | 54733003 | 54733003 |
| EGFR | Exon21 | 7 | 55191845 | 55191845 |
2、实体肿瘤相关基因的检测
本实施例的肿瘤筛查范围设定为常见肿瘤,例如,1)消化道肿瘤;2)肺癌;3)乳腺癌;4)卵巢癌;5)子宫肿瘤和宫颈癌;6)泌尿道肿瘤;7)其它实体肿瘤。
DNA文库初级文库的制备与实施例6中1方法相同,但是DNA剪切的时间长一些,目的基因富集是用700基因探针杂交方法获得。详细内容见具体测序项目。测序以及结果分析方法与实施例2相同。
实体肿瘤相关基因的检测内容如下:
1.1、样本DNA:NA12878,GM12878细胞gDNA和人的结肠癌组织gDNA;
1.2、在制备初级文库(全基因组文库)后,本实施例用700个基因的大型肿瘤检测项目探针富集目的基因,检测结果如表27所示:
表27
实施例7RNA测序
1、血浆中ctRNA融合基因检测
1.1、RNA提取:一病人血浆样本,用血浆RNA提取试剂盒提取。
1.2、用反专录试剂盒将RNA转录成cDNA。
1.3、DNA文库制备。与实施例6中1方法相同,但不同的检测项目使用的基因引物不同,详细内容见本测序项目,如下。
1.4、实体瘤基因引物设计
NTRK1:exon9,exon10,exon11,
NTRK2:exon10,exon11,exon12,exon13,exon14,exon15
NTRK3:exon14,exon15
ALK:exon19,exon20,exon21,exon22
BRAF:exon9
ERG:exon4,exon5
FGFR1:exon9,exon4
FGFR2:Exon2,exon8,exon9,exon10,exon17
FGFR3:exon18
RET:kinase domain
ROS1:kinase domain
1.5、测序结果分析:测序结果分析与实施例2相同,同时分析基因融合。
表28
EML4-ALK gene fusion:EML4 EXON 13-ALK EXON 20
表28的结果表明:本方法能有效地检测EML4-ALK融合基因(基因变异)。基因融合检测对象很复杂,每一个肿瘤病人的融合基因可能不同。本方法是通过主要基因寻找其融合对象,融合对象变数很大,融合点的变异也很大。本发明是通过主要基因寻找所有可能的融合对象,提供检出率,灵敏度和特异性。
Claims (12)
1.一种DNA文库的制备方法,其特征在于,包括步骤:使用两个DNA接头,所述DNA接头中的第一DNA接头连接在DNA双链的一侧端,所述接头的第二DNA接头连接在DNA双链的另一侧端;从而将所述DNA双链的正链和负链连接在一条链上形成单链环形或U形的初级DNA文库,当以所述初级DNA文库为模板进行PCR时,引物延伸所述的初级DNA文库获得目标DNA文库。
2.如权利要求1所述的制备方法,其特征在于,所述的初级DNA文库为环形的DNA文库;
优选地,所述模板含有目的基因突变的DNA片段;
优选地,所述引物为基因特异性引物;
优选地,所述基因特异性引物延伸所述的含有目的基因突变的DNA片段;
优选地,所述初级DNA文库或目标DNA文库用于测序;
优选地,所述第一DNA接头和第二DNA接头相同;
优选地,所述第一DNA接头和第二DNA接头不同;
优选地,所述两个接头至少一个含有发夹结构;
优选地,所述DNA接头选自环形或Y型;
优选地,当所述接头为环形时,所述接头由一对互补的序列和环形非互补序列组成;
优选地,当所述DNA接头为环形时,所述接头选自如SEQ ID NO:1-5或SEQ ID NO:157所示的序列或其互补序列中的至少一条;
优选地,当所述DNA接头为Y型时,所述接头选自如SEQ ID NO:6-7所示序列组成的互补序列;
优选地,所述两个DNA接头选自如SEQ ID NO:1和SEQ ID NO:5所示的组合;
优选地,所述两个DNA接头选自如SEQ ID NO:157和SEQ ID NO:6-7所示的组合;
优选地,所述两个DNA接头选自如SEQ ID NO:1和SEQ ID NO:157所示的组合;
优选地,所述方法包括以下步骤:
用二个DNA接头混合物,与双链DNA连接,形成环形DNA初级文库;用基因特异性引物与所述初级文库结合,延伸相应的基因突变片段或特异性地富集含有目的基因突变的DNA片段,获得目标DNA文库,所述目标DNA文库用于DNA测序;
(1)制备DNA接头
(2)制备DNA片段;
(3)将所述DNA片段和所述DNA接头连接成环形或者U形的连接产物;
(4)PCR扩增所述的连接产物,得DNA文库。
3.如权利要求1所述的制备方法,所述方法包括以下步骤:
(a)制备DNA接头
(b)将样本基因组长DNA打断成短DNA片段;
(c)将所述DNA片段和所述DNA接头连接成环形或者U形的连接产物;
(d)通过引物延伸,PCR扩增所述的连接产物,富集所述的DNA片段,得富集的目的DNA片段;
优选地,步骤(b)之后,还包括步骤(b1):使用磁珠纯化所述的连接产物;
优选地,所述延伸使用的引物包括基因特异性引物或野生型引物;
优选地,所述PCR通过以所述连接产物或所述富集的目的DNA片段为模板进行扩增,获得扩增产物,在所述扩增产物中所述DNA双链中正链和负链连在同一条链上;
优选地,所述方法还包括:
(e)纯化所述的富集的目的DNA片段;
(f)以基因突变特异性引物PCR扩增所述富集的目的DNA片段,得DNA文库;
优选地,步骤(a)中,所述DNA片段的长度为30~500bp;
优选地,步骤(a)中,所述DNA片段的长度为30~300bp;
优选地,步骤(a)中,所述DNA片段的长度为30~200bp;
优选地,步骤(b)中,所述DNA片段的长度为50~5000bp;
优选地,步骤(b)中,所述DNA片段的长度为50~4000bp;
优选地,步骤(b)中,所述DNA片段的长度为50~3000bp;
优选地,所述样本包括组织、细胞或体液;
优选地,步骤(c)中,包括使用连接酶将DNA片段与所述DNA接头连接;
优选地,所述连接酶包括T4 DNA连接酶。
优选地,所述的DNA包括野生型DNA或含有基因变异的DNA;
优选地,所述的DNA包括cfDNA;
优选地,所述DNA包括来源于低频率突变的基因。
4.权利要求1-3任一所述的制备方法获得的DNA文库。
5.一种DNA接头,其特征在于,所述DNA接头具有如SEQ ID NO:8-17或158-159任一所示的序列;
优选地,所述DNA接头选自如SEQ ID NO:1-7或157任一所示的序列;
优选地,所述DNA接头含有发夹结构,所述发夹结构的序列如SEQ ID NO:8-15或158-159任一所示;
优选地,所述接头选自环形或Y型;
优选地,当所述接头为环形时,所述接头选自如SEQ ID NO:1-5或157任一所示的序列;
优选地,当所述接头为Y型时,所述接头选自如SEQ ID NO:6-7所示序列组成的互补序列;
优选地,所述DNA接头由一对互补的序列和环形非互补序列组成;
优选地,所述DNA接头包括以下(a)~(g)至少一种DNA接头;
(a)由式(I)所示的核苷酸序列组成的DNA接头;
(b)由式(II)所示的核苷酸序列组成的DNA接头;
(c)由式(III)所示的核苷酸序列组成的DNA接头;
(d)由式(IV)所示的核苷酸序列组成的DNA接头;
(e)由式(V)所示的核苷酸序列组成的DNA接头;
(f)由式(VI)所示的核苷酸序列组成的DNA接头;或
(g)由式(Ⅶ)所示的核苷酸序列组成的DNA接头;
6.一种DNA的测序方法,其特征在于,以权利要求4所述的DNA文库作为对象进行测序。
7.一种DNA的测序方法,其特征在于,所述方法包括:使用两个DNA接头,所述DNA接头中的第一DNA接头连接在DNA双链的一侧端,所述DNA接头的第二接头连接在双链的另一侧端;从而将所述DNA双链的正链和负链连接在一条链上成单链环形或U形的初级DNA文库,当以所述初级DNA文库为模板进行PCR时,引物延伸所述的初级DNA文库获得目标DNA片段文库,以所述的目标DNA片段文库作为测序对象进行测序;所述第一接头和第二接头不同;所述第一接头为DNA测序用的接头;
优选地,所述第二接头为DNA双链连接接头;
优选地,所述测序方法包括根据UDI或UM1信息,合并测序数据,进行数据分析;
优选地,所述方法包括:
(Ⅰ)制备DNA接头;
(Ⅱ)制备DNA片段;
(Ⅲ)将所述DNA片段和所述DNA接头连接成环形或者U形的连接产物;
(Ⅳ)通过引物延伸,PCR扩增所述的连接产物,得DNA文库,进行测序,根据测序结果进行数据分析;
优选地,所述方法包括:
(Ⅰ)制备DNA接头;
(Ⅱ)制备DNA片段;
(Ⅲ)将所述DNA片段和所述DNA接头连接成环形或者U形的连接产物;
(Ⅳ)通过引物延伸,PCR扩增所述的连接产物,得DNA文库;
(V)富集含DNA正链和负链的单链DNA文库:将步骤(Ⅳ)中的DNA文库再与步骤(Ⅰ)接头相应的引物混合,进行PCR,特异性地结合并纯化含DNA正链和负链的单链DNA文库,进行测序,根据测序结果进行数据分析;
优选地,步骤(V)中,所述含原DNA正链和负链的单链DNA文库进行PCR后获得了互补的含DNA正链和负链的单链DNA;
优选地,所述测序为对所述互补的含DNA正链和负链的单链DNA进行双向测序;
优选地,当所述测序结果显示,所述DNA文库中含原双链DNA的正链和负链连接在一条链上的单链,且所述正链和所述负链在同一位置含有互补的碱基突变,确定为真性突变;
优选地,当所述测序结果显示,所述DNA文库中含原双链DNA的正链和负链连接在一条链上的单链,且所述正链和所述负链在同一位置含有的不互补碱基突变,则确定为假性突变;
优选地,当所述测序结果显示,所述DNA文库中含原双链DNA的正链和负链连接在一条链上的单链,对基于所述的单链进行PCR扩增获得的互补的单链进行DNA双向测序时,所述互补的单链的双向测序结果相同,且与野生型的基因进行比对,所述互补的单链在同个位置出现了相同的突变,则可以判定为真性突变;
优选地,当所述测序结果显示,所述DNA文库中含原双链DNA的正链和负链连接在一条链上的单链,对基于所述的单链进行PCR扩增获得的互补的单链进行DNA双向测序时,所述互补的单链的双向测序结果不相同,且与野生型的基因进行比对,所述互补的单链在同个位置出现了不相同的突变,则可以判定为假性突变;
优选地,所述PCR扩增中,针对每个DNA片段加入多种引物;
优选地,步骤(Ⅱ)中,还包括使用磁珠纯化所述的连接产物;
优选地,使用高通量测序平台进行测序;
优选地,所述高通测序平台包括Illumina测序平台、华大基因测序平台或Ion Torrent测序平台;
优选地,优选地所述测序方法包括:在PCR过程中,加入DNA文库的样本标签;
优选地,所述DNA接头选自环形或Y型;
优选地,当所述接头为环形时,所述接头由一对互补的序列和环形非互补序列组成;
优选地,当所述DNA接头为环形时,所述接头选自如SEQ ID NO:1-5或157任一所示的序列或其互补序列中的至少一条;
优选地,当所述DNA接头为Y型时,所述接头选自如SEQ ID NO:6-7所示序列组成的互补序列;
优选地,所述两个DNA接头选自如SEQ ID NO:1和SEQ ID NO:5所示的组合;
优选地,所述两个DNA接头选自如SEQ ID NO:157和SEQ ID NO:6-7所示的组合;
优选地,所述两个DNA接头选自如SEQ ID NO:1和SEQ ID NO:157所示的组合。
8.如权利要求7所述的测序方法,其特征在于,所述样本标签为UDI或UM1信息;
优选地,所述测序方法对每个DNA文库测序两次以上;
优选地,所述测序方法包括根据UDI或UM1信息,拆分测序数据,进行数据分析;
优选地,所述方法包括:
(Ⅰ)根据UDI序列,拆分样本测序结果;根据UMI序列,分析重复测序结果;
(II)根据测序结果,同一DNA文库含原DNA双链的正链和负链的DNA单链;当所述DNA单链中的正链和负链中的同一位置含有互补的碱基突变,确定为真性基因突变;
优选地,所述DNA文库中含原双链的正链和负链的DNA单链,当所述DNA单链中的同一位置含有不互补的碱基突变,则确定为假性突变。
9.DNA分析方法,利用通过权利要求4所述的DNA文库作为DNA标志物。
10.权利要求1-3任一所述的制备方法或权利要求4所述的DNA文库或权利要求5所述的DNA接头或权利要求6-8任一所述的测序方法在筛选或富集或鉴定或检测目的基因或RNA中的应用;
优选地,所述目的基因包括含有突变的基因或含有甲基化的基因;
优选地,所述目的基因包括低频率突变;
优选地,所述目的基因或RNA为疾病相关的基因或RNA;
优选地,所述疾病包括肿瘤。
11.一种DNA测序装置,其特征在于,包括DNA文库制备单元,测序单元和测序结果分析单元,其中所述DNA文库制备单元为制备权利要求4所述的DNA文库的单元;
优选地,所述测序单元为高通量测序平台。
12.一种测序系统,其特征在于,包括:DNA文库制备单元、测序单元以及测序结果分析单元,所述DNA文库制备单元与所述测序单元连接,所述测序单元与所述测序结果分析单元连接,其中,
DNA文库制备单元,用于将两个DNA接头中的第一DNA接头连接在DNA双链的一侧端,使用两个
DNA接头中的第二DNA接头连接在DNA双链的另一侧端;从而将所述DNA双链的正链和负链连接在一条链上成单链环形或U形的初级DNA文库,以所述初级DNA文库为引物延伸的模板进行PCR,延伸所述的初级DNA文库获得目标DNA文库,将所述目标DNA文库发送给测序单元;
测序单元,用于对所述目标DNA文库进行双向测序,得到DNA序列信息,所述DNA序列信息含有所述DNA双链的正链和负链结合在一起组成单链后的碱基排列信息;
测序结果分析单元,用于根据所述DNA序列信息进行比对,输出结果;
优选地,所述测序结果分析单元用于根据所述DNA序列信息进行比对时,当比对结果为连接有原DNA双链的正链和负链的DNA单链的测序结果显示在所述正链和负链的同一位置含有互补的碱基突变,确定为真性突变;
优选地,所述测序结果分析单元用于根据所述DNA序列信息进行比对时,当比对结果为连接有原DNA双链的正链和负链的DNA单链的测序结果显示在所述正链和负链的同一位置含有不互补的碱基突变,则确定为假性突变。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310210908 | 2023-03-06 | ||
| CN2023102109084 | 2023-03-06 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN118600567A true CN118600567A (zh) | 2024-09-06 |
Family
ID=92552402
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311258117.5A Pending CN118600567A (zh) | 2023-03-06 | 2023-09-26 | 一种dna文库及其构建方法及其应用 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118600567A (zh) |
-
2023
- 2023-09-26 CN CN202311258117.5A patent/CN118600567A/zh active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN104372093B (zh) | 一种基于高通量测序的snp检测方法 | |
| CN103898199B (zh) | 一种高通量核酸分析方法及其应用 | |
| CN110628891B (zh) | 一种对胚胎进行基因异常筛查的方法 | |
| CN110628880B (zh) | 一种同步使用信使rna与基因组dna模板检测基因变异的方法 | |
| CN106591441B (zh) | 基于全基因捕获测序的α和/或β-地中海贫血突变的检测探针、方法、芯片及应用 | |
| EP3541934B1 (en) | Methods for preparing dna reference material and controls | |
| CN110536967A (zh) | 用于分析相联系核酸的试剂和方法 | |
| EP2844766B1 (en) | Targeted dna enrichment and sequencing | |
| WO2012068919A1 (zh) | DNA文库及其制备方法、以及检测SNPs的方法和装置 | |
| WO2019144582A1 (zh) | 用于检测基因突变和已知、未知基因融合类型的高通量测序靶向捕获目标区域的探针和方法 | |
| WO2019076018A1 (zh) | 一种用于检测目的基因低频突变的扩增子文库的构建方法 | |
| CN111073961A (zh) | 一种基因稀有突变的高通量检测方法 | |
| US11261479B2 (en) | Methods and compositions for enrichment of target nucleic acids | |
| CN114958997B (zh) | 用于检测伴侣基因的方法 | |
| WO2017193044A1 (en) | Noninvasive prenatal diagnostic | |
| CN111471754A (zh) | 一种通用型高通量测序接头及其应用 | |
| Chang et al. | Somatic diseases (cancer): Amplification-based next-generation sequencing | |
| CN109593836B (zh) | 一种使用镜像探针进行甲基化捕获测序的方法 | |
| US20030113723A1 (en) | Method for evaluating microsatellite instability in a tumor sample | |
| WO2020252749A1 (zh) | 基于dna样本构建测序文库的方法及应用 | |
| CN119320826A (zh) | 检测nf1基因突变的引物组、试剂盒及其应用 | |
| CN118600567A (zh) | 一种dna文库及其构建方法及其应用 | |
| US20210040540A1 (en) | Parallel liquid-phase hybrid capture method for simultaneously capturing sense and antisense double strands of genomic target region | |
| WO2024106109A1 (ja) | 電気泳動の移動度を改変する修飾基質を用いた遺伝子検出 | |
| CN115125295B (zh) | 一种用于多位点可持续使用的基因分型标准品 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication |