ES2929281T3 - Métodos para el enriquecimiento de secuencias de ácidos nucleicos dirigidos con aplicaciones para la secuenciación de ácidos nucleicos con corrección de errores - Google Patents
Métodos para el enriquecimiento de secuencias de ácidos nucleicos dirigidos con aplicaciones para la secuenciación de ácidos nucleicos con corrección de errores Download PDFInfo
- Publication number
- ES2929281T3 ES2929281T3 ES18772308T ES18772308T ES2929281T3 ES 2929281 T3 ES2929281 T3 ES 2929281T3 ES 18772308 T ES18772308 T ES 18772308T ES 18772308 T ES18772308 T ES 18772308T ES 2929281 T3 ES2929281 T3 ES 2929281T3
- Authority
- ES
- Spain
- Prior art keywords
- nucleic acid
- sequence
- sample
- dna
- strand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000007523 nucleic acids Chemical group 0.000 title claims abstract description 511
- 102000039446 nucleic acids Human genes 0.000 title claims abstract description 470
- 108020004707 nucleic acids Proteins 0.000 title claims abstract description 470
- 238000000034 method Methods 0.000 title claims abstract description 236
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 234
- 108091028043 Nucleic acid sequence Proteins 0.000 title description 28
- 239000000463 material Substances 0.000 claims abstract description 224
- 230000000295 complement effect Effects 0.000 claims abstract description 73
- 108020004414 DNA Proteins 0.000 claims description 331
- 239000000523 sample Substances 0.000 claims description 253
- 230000035772 mutation Effects 0.000 claims description 116
- 108091033409 CRISPR Proteins 0.000 claims description 104
- 206010028980 Neoplasm Diseases 0.000 claims description 85
- 125000003729 nucleotide group Chemical group 0.000 claims description 82
- 239000002773 nucleotide Substances 0.000 claims description 73
- 108010042407 Endonucleases Proteins 0.000 claims description 54
- 102000004533 Endonucleases Human genes 0.000 claims description 54
- 108091035707 Consensus sequence Proteins 0.000 claims description 44
- 230000008685 targeting Effects 0.000 claims description 44
- 201000011510 cancer Diseases 0.000 claims description 37
- 241000282414 Homo sapiens Species 0.000 claims description 31
- 210000001519 tissue Anatomy 0.000 claims description 31
- 102000004190 Enzymes Human genes 0.000 claims description 30
- 108090000790 Enzymes Proteins 0.000 claims description 30
- 101710163270 Nuclease Proteins 0.000 claims description 29
- 108091034117 Oligonucleotide Proteins 0.000 claims description 24
- 210000004027 cell Anatomy 0.000 claims description 23
- 239000008280 blood Substances 0.000 claims description 17
- 210000004369 blood Anatomy 0.000 claims description 17
- 239000012530 fluid Substances 0.000 claims description 17
- 238000005520 cutting process Methods 0.000 claims description 15
- 238000001574 biopsy Methods 0.000 claims description 13
- 102000004389 Ribonucleoproteins Human genes 0.000 claims description 10
- 108010081734 Ribonucleoproteins Proteins 0.000 claims description 10
- 210000000056 organ Anatomy 0.000 claims description 10
- 210000002381 plasma Anatomy 0.000 claims description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 8
- 108091093105 Nuclear DNA Proteins 0.000 claims description 7
- 108010017070 Zinc Finger Nucleases Proteins 0.000 claims description 7
- 230000001605 fetal effect Effects 0.000 claims description 7
- 238000007790 scraping Methods 0.000 claims description 7
- 101150005393 CBF1 gene Proteins 0.000 claims description 6
- 101100329224 Coprinopsis cinerea (strain Okayama-7 / 130 / ATCC MYA-4618 / FGSC 9003) cpf1 gene Proteins 0.000 claims description 6
- 108020005196 Mitochondrial DNA Proteins 0.000 claims description 6
- 101150059443 cas12a gene Proteins 0.000 claims description 6
- 238000007385 chemical modification Methods 0.000 claims description 6
- 230000000711 cancerogenic effect Effects 0.000 claims description 5
- 239000003814 drug Substances 0.000 claims description 5
- 210000003608 fece Anatomy 0.000 claims description 5
- 210000003296 saliva Anatomy 0.000 claims description 5
- 206010036790 Productive cough Diseases 0.000 claims description 4
- 238000011888 autopsy Methods 0.000 claims description 4
- 231100000357 carcinogen Toxicity 0.000 claims description 4
- 239000003183 carcinogenic agent Substances 0.000 claims description 4
- 210000001175 cerebrospinal fluid Anatomy 0.000 claims description 4
- 238000011109 contamination Methods 0.000 claims description 4
- 230000009144 enzymatic modification Effects 0.000 claims description 4
- 238000004374 forensic analysis Methods 0.000 claims description 4
- 210000003802 sputum Anatomy 0.000 claims description 4
- 208000024794 sputum Diseases 0.000 claims description 4
- 210000002700 urine Anatomy 0.000 claims description 4
- 230000003612 virological effect Effects 0.000 claims description 4
- 238000011887 Necropsy Methods 0.000 claims description 3
- 108700005078 Synthetic Genes Proteins 0.000 claims description 3
- 210000000941 bile Anatomy 0.000 claims description 3
- 230000001680 brushing effect Effects 0.000 claims description 3
- 210000001953 common bile duct Anatomy 0.000 claims description 3
- 229940079593 drug Drugs 0.000 claims description 3
- 235000013305 food Nutrition 0.000 claims description 3
- 210000000232 gallbladder Anatomy 0.000 claims description 3
- 230000002496 gastric effect Effects 0.000 claims description 3
- 210000004051 gastric juice Anatomy 0.000 claims description 3
- 230000000968 intestinal effect Effects 0.000 claims description 3
- 230000000813 microbial effect Effects 0.000 claims description 3
- 210000003097 mucus Anatomy 0.000 claims description 3
- 210000003101 oviduct Anatomy 0.000 claims description 3
- 210000000277 pancreatic duct Anatomy 0.000 claims description 3
- 238000009595 pap smear Methods 0.000 claims description 3
- 210000000582 semen Anatomy 0.000 claims description 3
- 210000002966 serum Anatomy 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 210000004243 sweat Anatomy 0.000 claims description 3
- 210000001179 synovial fluid Anatomy 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 210000004127 vitreous body Anatomy 0.000 claims description 3
- 108091008875 B cell receptors Proteins 0.000 claims description 2
- 206010068051 Chimerism Diseases 0.000 claims description 2
- 108020004998 Chloroplast DNA Proteins 0.000 claims description 2
- 108060003951 Immunoglobulin Proteins 0.000 claims description 2
- 208000007660 Residual Neoplasm Diseases 0.000 claims description 2
- 108091008874 T cell receptors Proteins 0.000 claims description 2
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 claims description 2
- 206010052779 Transplant rejections Diseases 0.000 claims description 2
- 239000012805 animal sample Substances 0.000 claims description 2
- 230000001580 bacterial effect Effects 0.000 claims description 2
- 238000002659 cell therapy Methods 0.000 claims description 2
- 208000037976 chronic inflammation Diseases 0.000 claims description 2
- 230000006020 chronic inflammation Effects 0.000 claims description 2
- 230000002538 fungal effect Effects 0.000 claims description 2
- 238000001415 gene therapy Methods 0.000 claims description 2
- 102000018358 immunoglobulin Human genes 0.000 claims description 2
- 230000002503 metabolic effect Effects 0.000 claims description 2
- 238000009629 microbiological culture Methods 0.000 claims description 2
- 230000004770 neurodegeneration Effects 0.000 claims description 2
- 208000015122 neurodegenerative disease Diseases 0.000 claims description 2
- 238000001668 nucleic acid synthesis Methods 0.000 claims description 2
- 244000052769 pathogen Species 0.000 claims description 2
- 230000001717 pathogenic effect Effects 0.000 claims description 2
- 230000001855 preneoplastic effect Effects 0.000 claims description 2
- 210000004908 prostatic fluid Anatomy 0.000 claims description 2
- 210000000130 stem cell Anatomy 0.000 claims description 2
- 239000003053 toxin Substances 0.000 claims description 2
- 231100000765 toxin Toxicity 0.000 claims description 2
- 238000010459 TALEN Methods 0.000 claims 1
- 108010043645 Transcription Activator-Like Effector Nucleases Proteins 0.000 claims 1
- 239000012636 effector Substances 0.000 claims 1
- 210000003463 organelle Anatomy 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 87
- 239000000203 mixture Substances 0.000 abstract description 50
- 238000013519 translation Methods 0.000 abstract description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 209
- 230000006378 damage Effects 0.000 description 133
- 238000003199 nucleic acid amplification method Methods 0.000 description 126
- 230000003321 amplification Effects 0.000 description 125
- 239000012634 fragment Substances 0.000 description 121
- 238000003752 polymerase chain reaction Methods 0.000 description 102
- 239000000047 product Substances 0.000 description 84
- 238000013459 approach Methods 0.000 description 56
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 53
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 53
- 238000010354 CRISPR gene editing Methods 0.000 description 47
- 208000003028 Stuttering Diseases 0.000 description 47
- 238000004458 analytical method Methods 0.000 description 47
- 238000006243 chemical reaction Methods 0.000 description 46
- 108091092878 Microsatellite Proteins 0.000 description 43
- 108700028369 Alleles Proteins 0.000 description 38
- 238000001514 detection method Methods 0.000 description 34
- 238000003776 cleavage reaction Methods 0.000 description 31
- 230000007017 scission Effects 0.000 description 31
- 102000053602 DNA Human genes 0.000 description 30
- 230000035945 sensitivity Effects 0.000 description 30
- 238000003205 genotyping method Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 28
- 238000012937 correction Methods 0.000 description 27
- 238000013467 fragmentation Methods 0.000 description 26
- 238000006062 fragmentation reaction Methods 0.000 description 26
- 108020005004 Guide RNA Proteins 0.000 description 25
- 230000004048 modification Effects 0.000 description 25
- 238000012986 modification Methods 0.000 description 25
- 108091093088 Amplicon Proteins 0.000 description 24
- 108091008146 restriction endonucleases Proteins 0.000 description 23
- 238000002360 preparation method Methods 0.000 description 22
- 108090000623 proteins and genes Proteins 0.000 description 20
- 102100030708 GTPase KRas Human genes 0.000 description 19
- 238000003556 assay Methods 0.000 description 19
- 238000007481 next generation sequencing Methods 0.000 description 19
- 108700024394 Exon Proteins 0.000 description 18
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 18
- 239000011324 bead Substances 0.000 description 18
- 230000029087 digestion Effects 0.000 description 18
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 17
- 230000006872 improvement Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 17
- 241000894007 species Species 0.000 description 17
- 230000002255 enzymatic effect Effects 0.000 description 16
- 238000011084 recovery Methods 0.000 description 16
- 230000002829 reductive effect Effects 0.000 description 16
- 238000012360 testing method Methods 0.000 description 16
- 238000010348 incorporation Methods 0.000 description 15
- 230000000670 limiting effect Effects 0.000 description 15
- 230000005855 radiation Effects 0.000 description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 14
- 238000009396 hybridization Methods 0.000 description 14
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 13
- 230000008439 repair process Effects 0.000 description 13
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 12
- 238000013461 design Methods 0.000 description 12
- 239000000499 gel Substances 0.000 description 12
- 239000000126 substance Substances 0.000 description 12
- 239000003643 water by type Substances 0.000 description 12
- 230000005778 DNA damage Effects 0.000 description 11
- 231100000277 DNA damage Toxicity 0.000 description 11
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 11
- 230000008901 benefit Effects 0.000 description 11
- 201000008129 pancreatic ductal adenocarcinoma Diseases 0.000 description 11
- 238000002560 therapeutic procedure Methods 0.000 description 11
- 238000009966 trimming Methods 0.000 description 11
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 10
- 210000000265 leukocyte Anatomy 0.000 description 10
- 238000007403 mPCR Methods 0.000 description 10
- 230000005291 magnetic effect Effects 0.000 description 10
- 102000054765 polymorphisms of proteins Human genes 0.000 description 10
- 238000000746 purification Methods 0.000 description 10
- UBKVUFQGVWHZIR-UHFFFAOYSA-N 8-oxoguanine Chemical compound O=C1NC(N)=NC2=NC(=O)N=C21 UBKVUFQGVWHZIR-UHFFFAOYSA-N 0.000 description 9
- 206010009944 Colon cancer Diseases 0.000 description 9
- 238000012408 PCR amplification Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000000926 separation method Methods 0.000 description 9
- 229940035893 uracil Drugs 0.000 description 9
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 8
- 108020004705 Codon Proteins 0.000 description 8
- 108010000577 DNA-Formamidopyrimidine Glycosylase Proteins 0.000 description 8
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 8
- 108091093037 Peptide nucleic acid Proteins 0.000 description 8
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 8
- 201000010099 disease Diseases 0.000 description 8
- 238000000338 in vitro Methods 0.000 description 8
- 206010061289 metastatic neoplasm Diseases 0.000 description 8
- 238000000527 sonication Methods 0.000 description 8
- 208000035657 Abasia Diseases 0.000 description 7
- -1 C-5-propynyl-uridine Chemical compound 0.000 description 7
- 108091026890 Coding region Proteins 0.000 description 7
- 238000001712 DNA sequencing Methods 0.000 description 7
- 102100039788 GTPase NRas Human genes 0.000 description 7
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 7
- 239000012472 biological sample Substances 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 7
- 239000003153 chemical reaction reagent Substances 0.000 description 7
- 230000009615 deamination Effects 0.000 description 7
- 238000006481 deamination reaction Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 230000002068 genetic effect Effects 0.000 description 7
- 238000011002 quantification Methods 0.000 description 7
- 238000010008 shearing Methods 0.000 description 7
- 125000006850 spacer group Chemical group 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 6
- 108010090804 Streptavidin Proteins 0.000 description 6
- 108010072685 Uracil-DNA Glycosidase Proteins 0.000 description 6
- 102000006943 Uracil-DNA Glycosidase Human genes 0.000 description 6
- 239000000872 buffer Substances 0.000 description 6
- 239000000356 contaminant Substances 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 208000035475 disorder Diseases 0.000 description 6
- 238000001727 in vivo Methods 0.000 description 6
- 230000001965 increasing effect Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 6
- 239000013558 reference substance Substances 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 239000000243 solution Substances 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 102000008682 Argonaute Proteins Human genes 0.000 description 5
- 108010088141 Argonaute Proteins Proteins 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 5
- 210000003567 ascitic fluid Anatomy 0.000 description 5
- 210000001124 body fluid Anatomy 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000004132 cross linking Methods 0.000 description 5
- 238000006073 displacement reaction Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 238000002955 isolation Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000001394 metastastic effect Effects 0.000 description 5
- 208000037819 metastatic cancer Diseases 0.000 description 5
- 208000011575 metastatic malignant neoplasm Diseases 0.000 description 5
- 230000011987 methylation Effects 0.000 description 5
- 238000007069 methylation reaction Methods 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 230000003505 mutagenic effect Effects 0.000 description 5
- 238000007857 nested PCR Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 241000894006 Bacteria Species 0.000 description 4
- 102000011724 DNA Repair Enzymes Human genes 0.000 description 4
- 108010076525 DNA Repair Enzymes Proteins 0.000 description 4
- 108010063362 DNA-(Apurinic or Apyrimidinic Site) Lyase Proteins 0.000 description 4
- 102100035619 DNA-(apurinic or apyrimidinic site) lyase Human genes 0.000 description 4
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 102100039087 Peptidyl-alpha-hydroxyglycine alpha-amidating lyase Human genes 0.000 description 4
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 4
- 108091028113 Trans-activating crRNA Proteins 0.000 description 4
- 239000002253 acid Substances 0.000 description 4
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 4
- 239000011616 biotin Substances 0.000 description 4
- 229960002685 biotin Drugs 0.000 description 4
- 235000020958 biotin Nutrition 0.000 description 4
- 125000002680 canonical nucleotide group Chemical group 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 229940104302 cytosine Drugs 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000010790 dilution Methods 0.000 description 4
- 239000012895 dilution Substances 0.000 description 4
- 239000000839 emulsion Substances 0.000 description 4
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 4
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000007062 hydrolysis Effects 0.000 description 4
- 238000006460 hydrolysis reaction Methods 0.000 description 4
- WQYVRQLZKVEZGA-UHFFFAOYSA-N hypochlorite Chemical compound Cl[O-] WQYVRQLZKVEZGA-UHFFFAOYSA-N 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000005865 ionizing radiation Effects 0.000 description 4
- 238000011901 isothermal amplification Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 244000005700 microbiome Species 0.000 description 4
- 230000036438 mutation frequency Effects 0.000 description 4
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 4
- 239000002777 nucleoside Substances 0.000 description 4
- 229910052760 oxygen Inorganic materials 0.000 description 4
- 239000001301 oxygen Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 238000005096 rolling process Methods 0.000 description 4
- 230000004083 survival effect Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- ZDTFMPXQUSBYRL-UUOKFMHZSA-N 2-Aminoadenosine Chemical compound C12=NC(N)=NC(N)=C2N=CN1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O ZDTFMPXQUSBYRL-UUOKFMHZSA-N 0.000 description 3
- WOVKYSAHUYNSMH-RRKCRQDMSA-N 5-bromodeoxyuridine Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(Br)=C1 WOVKYSAHUYNSMH-RRKCRQDMSA-N 0.000 description 3
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 3
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 3
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 3
- 206010053487 Exposure to toxic agent Diseases 0.000 description 3
- YLQBMQCUIZJEEH-UHFFFAOYSA-N Furan Chemical compound C=1C=COC=1 YLQBMQCUIZJEEH-UHFFFAOYSA-N 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical class O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 3
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 3
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 3
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 3
- 210000005068 bladder tissue Anatomy 0.000 description 3
- 239000010839 body fluid Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005251 capillar electrophoresis Methods 0.000 description 3
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000001010 compromised effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000001962 electrophoresis Methods 0.000 description 3
- 230000006862 enzymatic digestion Effects 0.000 description 3
- 238000001502 gel electrophoresis Methods 0.000 description 3
- 239000000017 hydrogel Substances 0.000 description 3
- 208000015181 infectious disease Diseases 0.000 description 3
- 230000002458 infectious effect Effects 0.000 description 3
- 238000011528 liquid biopsy Methods 0.000 description 3
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 3
- 230000002438 mitochondrial effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 231100000219 mutagenic Toxicity 0.000 description 3
- 230000000869 mutational effect Effects 0.000 description 3
- 150000003833 nucleoside derivatives Chemical class 0.000 description 3
- 230000001590 oxidative effect Effects 0.000 description 3
- 201000002528 pancreatic cancer Diseases 0.000 description 3
- 208000008443 pancreatic carcinoma Diseases 0.000 description 3
- 229920001184 polypeptide Polymers 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 108090000765 processed proteins & peptides Proteins 0.000 description 3
- 102000004196 processed proteins & peptides Human genes 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 150000003290 ribose derivatives Chemical class 0.000 description 3
- 230000035882 stress Effects 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- AUTOLBMXDDTRRT-JGVFFNPUSA-N (4R,5S)-dethiobiotin Chemical class C[C@@H]1NC(=O)N[C@@H]1CCCCCC(O)=O AUTOLBMXDDTRRT-JGVFFNPUSA-N 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 2
- UHDGCWIWMRVCDJ-UHFFFAOYSA-N 1-beta-D-Xylofuranosyl-NH-Cytosine Natural products O=C1N=C(N)C=CN1C1C(O)C(O)C(CO)O1 UHDGCWIWMRVCDJ-UHFFFAOYSA-N 0.000 description 2
- HWPZZUQOWRWFDB-UHFFFAOYSA-N 1-methylcytosine Chemical compound CN1C=CC(N)=NC1=O HWPZZUQOWRWFDB-UHFFFAOYSA-N 0.000 description 2
- ZAYHVCMSTBRABG-JXOAFFINSA-N 5-methylcytidine Chemical compound O=C1N=C(N)C(C)=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 ZAYHVCMSTBRABG-JXOAFFINSA-N 0.000 description 2
- OZFPSOBLQZPIAV-UHFFFAOYSA-N 5-nitro-1h-indole Chemical class [O-][N+](=O)C1=CC=C2NC=CC2=C1 OZFPSOBLQZPIAV-UHFFFAOYSA-N 0.000 description 2
- HCAJQHYUCKICQH-VPENINKCSA-N 8-Oxo-7,8-dihydro-2'-deoxyguanosine Chemical compound C1=2NC(N)=NC(=O)C=2NC(=O)N1[C@H]1C[C@H](O)[C@@H](CO)O1 HCAJQHYUCKICQH-VPENINKCSA-N 0.000 description 2
- WOVKYSAHUYNSMH-UHFFFAOYSA-N BROMODEOXYURIDINE Natural products C1C(O)C(CO)OC1N1C(=O)NC(=O)C(Br)=C1 WOVKYSAHUYNSMH-UHFFFAOYSA-N 0.000 description 2
- 208000031872 Body Remains Diseases 0.000 description 2
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 description 2
- MIKUYHXYGGJMLM-GIMIYPNGSA-N Crotonoside Natural products C1=NC2=C(N)NC(=O)N=C2N1[C@H]1O[C@@H](CO)[C@H](O)[C@@H]1O MIKUYHXYGGJMLM-GIMIYPNGSA-N 0.000 description 2
- UHDGCWIWMRVCDJ-PSQAKQOGSA-N Cytidine Natural products O=C1N=C(N)C=CN1[C@@H]1[C@@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-PSQAKQOGSA-N 0.000 description 2
- 230000004544 DNA amplification Effects 0.000 description 2
- 230000005971 DNA damage repair Effects 0.000 description 2
- 230000009946 DNA mutation Effects 0.000 description 2
- 238000013382 DNA quantification Methods 0.000 description 2
- 108700034637 EC 3.2.-.- Proteins 0.000 description 2
- 241000233866 Fungi Species 0.000 description 2
- NYHBQMYGNKIUIF-UUOKFMHZSA-N Guanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O NYHBQMYGNKIUIF-UUOKFMHZSA-N 0.000 description 2
- 206010061218 Inflammation Diseases 0.000 description 2
- 102000003960 Ligases Human genes 0.000 description 2
- 108090000364 Ligases Proteins 0.000 description 2
- 108090000856 Lyases Proteins 0.000 description 2
- 102000004317 Lyases Human genes 0.000 description 2
- 206010033128 Ovarian cancer Diseases 0.000 description 2
- 206010061535 Ovarian neoplasm Diseases 0.000 description 2
- 238000011529 RT qPCR Methods 0.000 description 2
- WYURNTSHIVDZCO-UHFFFAOYSA-N Tetrahydrofuran Chemical compound C1CCOC1 WYURNTSHIVDZCO-UHFFFAOYSA-N 0.000 description 2
- DRTQHJPVMGBUCF-XVFCMESISA-N Uridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-XVFCMESISA-N 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000032683 aging Effects 0.000 description 2
- 230000029936 alkylation Effects 0.000 description 2
- 238000005804 alkylation reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 239000003242 anti bacterial agent Substances 0.000 description 2
- 229940088710 antibiotic agent Drugs 0.000 description 2
- 210000000013 bile duct Anatomy 0.000 description 2
- 230000003115 biocidal effect Effects 0.000 description 2
- 239000007844 bleaching agent Substances 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- 229950004398 broxuridine Drugs 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 229960005395 cetuximab Drugs 0.000 description 2
- 238000001311 chemical methods and process Methods 0.000 description 2
- 239000003280 clastogen Substances 0.000 description 2
- 231100000506 clastogen Toxicity 0.000 description 2
- 230000000536 complexating effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- UHDGCWIWMRVCDJ-ZAKLUEHWSA-N cytidine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-ZAKLUEHWSA-N 0.000 description 2
- 230000030609 dephosphorylation Effects 0.000 description 2
- 238000006209 dephosphorylation reaction Methods 0.000 description 2
- SHIBSTMRCDJXLN-KCZCNTNESA-N digoxigenin Chemical class C1([C@@H]2[C@@]3([C@@](CC2)(O)[C@H]2[C@@H]([C@@]4(C)CC[C@H](O)C[C@H]4CC2)C[C@H]3O)C)=CC(=O)OC1 SHIBSTMRCDJXLN-KCZCNTNESA-N 0.000 description 2
- 239000000975 dye Substances 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000007515 enzymatic degradation Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 230000013595 glycosylation Effects 0.000 description 2
- 238000006206 glycosylation reaction Methods 0.000 description 2
- 238000004128 high performance liquid chromatography Methods 0.000 description 2
- 238000007849 hot-start PCR Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 230000004054 inflammatory process Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 238000004811 liquid chromatography Methods 0.000 description 2
- 210000002751 lymph Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000004949 mass spectrometry Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000002844 melting Methods 0.000 description 2
- 230000008018 melting Effects 0.000 description 2
- WSFSSNUMVMOOMR-NJFSPNSNSA-N methanone Chemical compound O=[14CH2] WSFSSNUMVMOOMR-NJFSPNSNSA-N 0.000 description 2
- 239000011325 microbead Substances 0.000 description 2
- 239000003471 mutagenic agent Substances 0.000 description 2
- 231100000707 mutagenic chemical Toxicity 0.000 description 2
- 230000003546 nucleic acid damage Effects 0.000 description 2
- 230000003647 oxidation Effects 0.000 description 2
- 238000007254 oxidation reaction Methods 0.000 description 2
- 229960001972 panitumumab Drugs 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 239000013610 patient sample Substances 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 150000002978 peroxides Chemical class 0.000 description 2
- 150000004713 phosphodiesters Chemical group 0.000 description 2
- 230000026731 phosphorylation Effects 0.000 description 2
- 238000006366 phosphorylation reaction Methods 0.000 description 2
- 239000013612 plasmid Substances 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 150000003254 radicals Chemical class 0.000 description 2
- 239000012925 reference material Substances 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000002271 resection Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 238000013517 stratification Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000010741 sumoylation Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- RIFDKYBNWNPCQK-IOSLPCCCSA-N (2r,3s,4r,5r)-2-(hydroxymethyl)-5-(6-imino-3-methylpurin-9-yl)oxolane-3,4-diol Chemical compound C1=2N(C)C=NC(=N)C=2N=CN1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O RIFDKYBNWNPCQK-IOSLPCCCSA-N 0.000 description 1
- RKSLVDIXBGWPIS-UAKXSSHOSA-N 1-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-iodopyrimidine-2,4-dione Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(I)=C1 RKSLVDIXBGWPIS-UAKXSSHOSA-N 0.000 description 1
- QLOCVMVCRJOTTM-TURQNECASA-N 1-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-prop-1-ynylpyrimidine-2,4-dione Chemical compound O=C1NC(=O)C(C#CC)=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 QLOCVMVCRJOTTM-TURQNECASA-N 0.000 description 1
- PISWNSOQFZRVJK-XLPZGREQSA-N 1-[(2r,4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-methyl-2-sulfanylidenepyrimidin-4-one Chemical compound S=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 PISWNSOQFZRVJK-XLPZGREQSA-N 0.000 description 1
- YKBGVTZYEHREMT-KVQBGUIXSA-N 2'-deoxyguanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 YKBGVTZYEHREMT-KVQBGUIXSA-N 0.000 description 1
- VGONTNSXDCQUGY-RRKCRQDMSA-N 2'-deoxyinosine Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(N=CNC2=O)=C2N=C1 VGONTNSXDCQUGY-RRKCRQDMSA-N 0.000 description 1
- CKTSBUTUHBMZGZ-SHYZEUOFSA-N 2'‐deoxycytidine Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 CKTSBUTUHBMZGZ-SHYZEUOFSA-N 0.000 description 1
- XQCZBXHVTFVIFE-UHFFFAOYSA-N 2-amino-4-hydroxypyrimidine Chemical compound NC1=NC=CC(O)=N1 XQCZBXHVTFVIFE-UHFFFAOYSA-N 0.000 description 1
- JRYMOPZHXMVHTA-DAGMQNCNSA-N 2-amino-7-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-1h-pyrrolo[2,3-d]pyrimidin-4-one Chemical compound C1=CC=2C(=O)NC(N)=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O JRYMOPZHXMVHTA-DAGMQNCNSA-N 0.000 description 1
- MWBWWFOAEOYUST-UHFFFAOYSA-N 2-aminopurine Chemical compound NC1=NC=C2N=CNC2=N1 MWBWWFOAEOYUST-UHFFFAOYSA-N 0.000 description 1
- 150000005019 2-aminopurines Chemical class 0.000 description 1
- RHFUOMFWUGWKKO-XVFCMESISA-N 2-thiocytidine Chemical compound S=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 RHFUOMFWUGWKKO-XVFCMESISA-N 0.000 description 1
- KJLPSBMDOIVXSN-UHFFFAOYSA-N 4-[4-[2-[4-(3,4-dicarboxyphenoxy)phenyl]propan-2-yl]phenoxy]phthalic acid Chemical compound C=1C=C(OC=2C=C(C(C(O)=O)=CC=2)C(O)=O)C=CC=1C(C)(C)C(C=C1)=CC=C1OC1=CC=C(C(O)=O)C(C(O)=O)=C1 KJLPSBMDOIVXSN-UHFFFAOYSA-N 0.000 description 1
- LMMLLWZHCKCFQA-UGKPPGOTSA-N 4-amino-1-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)-2-prop-1-ynyloxolan-2-yl]pyrimidin-2-one Chemical compound C1=CC(N)=NC(=O)N1[C@]1(C#CC)O[C@H](CO)[C@@H](O)[C@H]1O LMMLLWZHCKCFQA-UGKPPGOTSA-N 0.000 description 1
- XXSIICQLPUAUDF-TURQNECASA-N 4-amino-1-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-prop-1-ynylpyrimidin-2-one Chemical compound O=C1N=C(N)C(C#CC)=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 XXSIICQLPUAUDF-TURQNECASA-N 0.000 description 1
- HMUOMFLFUUHUPE-XLPZGREQSA-N 4-amino-1-[(2r,4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-(hydroxymethyl)pyrimidin-2-one Chemical compound C1=C(CO)C(N)=NC(=O)N1[C@@H]1O[C@H](CO)[C@@H](O)C1 HMUOMFLFUUHUPE-XLPZGREQSA-N 0.000 description 1
- ZAYHVCMSTBRABG-UHFFFAOYSA-N 5-Methylcytidine Natural products O=C1N=C(N)C(C)=CN1C1C(O)C(O)C(CO)O1 ZAYHVCMSTBRABG-UHFFFAOYSA-N 0.000 description 1
- AGFIRQJZCNVMCW-UAKXSSHOSA-N 5-bromouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(Br)=C1 AGFIRQJZCNVMCW-UAKXSSHOSA-N 0.000 description 1
- FHIDNBAQOFJWCA-UAKXSSHOSA-N 5-fluorouridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(F)=C1 FHIDNBAQOFJWCA-UAKXSSHOSA-N 0.000 description 1
- KDOPAZIWBAHVJB-UHFFFAOYSA-N 5h-pyrrolo[3,2-d]pyrimidine Chemical compound C1=NC=C2NC=CC2=N1 KDOPAZIWBAHVJB-UHFFFAOYSA-N 0.000 description 1
- UEHOMUNTZPIBIL-UUOKFMHZSA-N 6-amino-9-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-7h-purin-8-one Chemical compound O=C1NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O UEHOMUNTZPIBIL-UUOKFMHZSA-N 0.000 description 1
- NDWAUKFSFFRGLF-KVQBGUIXSA-N 8-Oxo-2'-deoxyadenosine Chemical compound O=C1NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 NDWAUKFSFFRGLF-KVQBGUIXSA-N 0.000 description 1
- MSSXOMSJDRHRMC-UHFFFAOYSA-N 9H-purine-2,6-diamine Chemical compound NC1=NC(N)=C2NC=NC2=N1 MSSXOMSJDRHRMC-UHFFFAOYSA-N 0.000 description 1
- HDZZVAMISRMYHH-UHFFFAOYSA-N 9beta-Ribofuranosyl-7-deazaadenin Natural products C1=CC=2C(N)=NC=NC=2N1C1OC(CO)C(O)C1O HDZZVAMISRMYHH-UHFFFAOYSA-N 0.000 description 1
- 229920000936 Agarose Polymers 0.000 description 1
- 206010003445 Ascites Diseases 0.000 description 1
- DWRXFEITVBNRMK-UHFFFAOYSA-N Beta-D-1-Arabinofuranosylthymine Natural products O=C1NC(=O)C(C)=CN1C1C(O)C(O)C(CO)O1 DWRXFEITVBNRMK-UHFFFAOYSA-N 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 241000222122 Candida albicans Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 208000000668 Chronic Pancreatitis Diseases 0.000 description 1
- MIKUYHXYGGJMLM-UUOKFMHZSA-N Crotonoside Chemical compound C1=NC2=C(N)NC(=O)N=C2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O MIKUYHXYGGJMLM-UUOKFMHZSA-N 0.000 description 1
- NYHBQMYGNKIUIF-UHFFFAOYSA-N D-guanosine Natural products C1=2NC(N)=NC(=O)C=2N=CN1C1OC(CO)C(O)C1O NYHBQMYGNKIUIF-UHFFFAOYSA-N 0.000 description 1
- 108020001738 DNA Glycosylase Proteins 0.000 description 1
- 102000028381 DNA glycosylase Human genes 0.000 description 1
- 230000030933 DNA methylation on cytosine Effects 0.000 description 1
- 239000003298 DNA probe Substances 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- CKTSBUTUHBMZGZ-UHFFFAOYSA-N Deoxycytidine Natural products O=C1N=C(N)C=CN1C1OC(CO)C(O)C1 CKTSBUTUHBMZGZ-UHFFFAOYSA-N 0.000 description 1
- 101100364969 Dictyostelium discoideum scai gene Proteins 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 108091029865 Exogenous DNA Proteins 0.000 description 1
- 108060002716 Exonuclease Proteins 0.000 description 1
- 208000034454 F12-related hereditary angioedema with normal C1Inh Diseases 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000721661 Homo sapiens Cellular tumor antigen p53 Proteins 0.000 description 1
- 229930010555 Inosine Natural products 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 101100364971 Mus musculus Scai gene Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 108091005461 Nucleic proteins Proteins 0.000 description 1
- 206010033645 Pancreatitis Diseases 0.000 description 1
- 206010033649 Pancreatitis chronic Diseases 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 108091008109 Pseudogenes Proteins 0.000 description 1
- 102000057361 Pseudogenes Human genes 0.000 description 1
- 206010040047 Sepsis Diseases 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 241000191967 Staphylococcus aureus Species 0.000 description 1
- 101000910035 Streptococcus pyogenes serotype M1 CRISPR-associated endonuclease Cas9/Csn1 Proteins 0.000 description 1
- 208000008385 Urogenital Neoplasms Diseases 0.000 description 1
- RZZBUMCFKOLHEH-KVQBGUIXSA-N [(2r,3s,5r)-5-(2,6-diaminopurin-9-yl)-3-hydroxyoxolan-2-yl]methyl dihydrogen phosphate Chemical compound C12=NC(N)=NC(N)=C2N=CN1[C@H]1C[C@H](O)[C@@H](COP(O)(O)=O)O1 RZZBUMCFKOLHEH-KVQBGUIXSA-N 0.000 description 1
- 238000005903 acid hydrolysis reaction Methods 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000012197 amplification kit Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- PYMYPHUHKUWMLA-WDCZJNDASA-N arabinose Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)C=O PYMYPHUHKUWMLA-WDCZJNDASA-N 0.000 description 1
- PYMYPHUHKUWMLA-UHFFFAOYSA-N arabinose Natural products OCC(O)C(O)C(O)C=O PYMYPHUHKUWMLA-UHFFFAOYSA-N 0.000 description 1
- 238000003149 assay kit Methods 0.000 description 1
- SRBFZHDQGSBBOR-UHFFFAOYSA-N beta-D-Pyranose-Lyxose Natural products OC1COC(O)C(O)C1O SRBFZHDQGSBBOR-UHFFFAOYSA-N 0.000 description 1
- IQFYYKKMVGJFEH-UHFFFAOYSA-N beta-L-thymidine Natural products O=C1NC(=O)C(C)=CN1C1OC(CO)C(O)C1 IQFYYKKMVGJFEH-UHFFFAOYSA-N 0.000 description 1
- DRTQHJPVMGBUCF-PSQAKQOGSA-N beta-L-uridine Natural products O[C@H]1[C@@H](O)[C@H](CO)O[C@@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-PSQAKQOGSA-N 0.000 description 1
- 238000000876 binomial test Methods 0.000 description 1
- 238000002306 biochemical method Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 208000037815 bloodstream infection Diseases 0.000 description 1
- 210000003103 bodily secretion Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 229940095731 candida albicans Drugs 0.000 description 1
- 230000021523 carboxylation Effects 0.000 description 1
- 238000006473 carboxylation reaction Methods 0.000 description 1
- 231100000315 carcinogenic Toxicity 0.000 description 1
- 150000001768 cations Chemical class 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- 108091092240 circulating cell-free DNA Proteins 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 238000011500 cytoreductive surgery Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000022811 deglycosylation Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- VGONTNSXDCQUGY-UHFFFAOYSA-N desoxyinosine Natural products C1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 VGONTNSXDCQUGY-UHFFFAOYSA-N 0.000 description 1
- 239000003599 detergent Substances 0.000 description 1
- HMUOMFLFUUHUPE-UHFFFAOYSA-N dhmC Natural products C1=C(CO)C(N)=NC(=O)N1C1OC(CO)C(O)C1 HMUOMFLFUUHUPE-UHFFFAOYSA-N 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000006471 dimerization reaction Methods 0.000 description 1
- 230000005782 double-strand break Effects 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 229940121647 egfr inhibitor Drugs 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 102000013165 exonuclease Human genes 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 210000004905 finger nail Anatomy 0.000 description 1
- 230000022244 formylation Effects 0.000 description 1
- 238000006170 formylation reaction Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 102000054766 genetic haplotypes Human genes 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 229940029575 guanosine Drugs 0.000 description 1
- 230000003394 haemopoietic effect Effects 0.000 description 1
- 230000026030 halogenation Effects 0.000 description 1
- 238000005658 halogenation reaction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 208000016861 hereditary angioedema type 3 Diseases 0.000 description 1
- 239000008241 heterogeneous mixture Substances 0.000 description 1
- 150000002402 hexoses Chemical class 0.000 description 1
- 229920001519 homopolymer Polymers 0.000 description 1
- 102000048958 human TP53 Human genes 0.000 description 1
- 230000033444 hydroxylation Effects 0.000 description 1
- 238000005805 hydroxylation reaction Methods 0.000 description 1
- 230000015784 hyperosmotic salinity response Effects 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 229960003786 inosine Drugs 0.000 description 1
- 230000002601 intratumoral effect Effects 0.000 description 1
- BAUYGSIQEAFULO-UHFFFAOYSA-L iron(2+) sulfate (anhydrous) Chemical compound [Fe+2].[O-]S([O-])(=O)=O BAUYGSIQEAFULO-UHFFFAOYSA-L 0.000 description 1
- 229910000359 iron(II) sulfate Inorganic materials 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011880 melting curve analysis Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 210000000282 nail Anatomy 0.000 description 1
- 238000013188 needle biopsy Methods 0.000 description 1
- 230000006911 nucleation Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 125000003835 nucleoside group Chemical group 0.000 description 1
- 231100000590 oncogenic Toxicity 0.000 description 1
- 230000002246 oncogenic effect Effects 0.000 description 1
- 230000004792 oxidative damage Effects 0.000 description 1
- 230000005298 paramagnetic effect Effects 0.000 description 1
- 230000008775 paternal effect Effects 0.000 description 1
- 239000011049 pearl Substances 0.000 description 1
- GJVFBWCTGUSGDD-UHFFFAOYSA-L pentamethonium bromide Chemical compound [Br-].[Br-].C[N+](C)(C)CCCCC[N+](C)(C)C GJVFBWCTGUSGDD-UHFFFAOYSA-L 0.000 description 1
- XEBWQGVWTUSTLN-UHFFFAOYSA-M phenylmercury acetate Chemical compound CC(=O)O[Hg]C1=CC=CC=C1 XEBWQGVWTUSTLN-UHFFFAOYSA-M 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 229920000371 poly(diallyldimethylammonium chloride) polymer Polymers 0.000 description 1
- 238000002264 polyacrylamide gel electrophoresis Methods 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 230000037452 priming Effects 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 239000011535 reaction buffer Substances 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- RHFUOMFWUGWKKO-UHFFFAOYSA-N s2C Natural products S=C1N=C(N)C=CN1C1C(O)C(O)C(CO)O1 RHFUOMFWUGWKKO-UHFFFAOYSA-N 0.000 description 1
- 235000002020 sage Nutrition 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000013207 serial dilution Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000002798 spectrophotometry method Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 235000000346 sugar Nutrition 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 229940124597 therapeutic agent Drugs 0.000 description 1
- 229940124598 therapeutic candidate Drugs 0.000 description 1
- 238000005382 thermal cycling Methods 0.000 description 1
- RYYWUUFWQRZTIU-UHFFFAOYSA-K thiophosphate Chemical compound [O-]P([O-])([O-])=S RYYWUUFWQRZTIU-UHFFFAOYSA-K 0.000 description 1
- 229940104230 thymidine Drugs 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
- HDZZVAMISRMYHH-KCGFPETGSA-N tubercidin Chemical compound C1=CC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O HDZZVAMISRMYHH-KCGFPETGSA-N 0.000 description 1
- 239000000107 tumor biomarker Substances 0.000 description 1
- 230000005641 tunneling Effects 0.000 description 1
- 238000009281 ultraviolet germicidal irradiation Methods 0.000 description 1
- DRTQHJPVMGBUCF-UHFFFAOYSA-N uracil arabinoside Natural products OC1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-UHFFFAOYSA-N 0.000 description 1
- 229940045145 uridine Drugs 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6853—Nucleic acid amplification reactions using modified primers or templates
- C12Q1/6855—Ligating adaptors
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/686—Polymerase chain reaction [PCR]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2521/00—Reaction characterised by the enzymatic activity
- C12Q2521/50—Other enzymatic activities
- C12Q2521/501—Ligase
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/191—Modifications characterised by incorporating an adaptor
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2531/00—Reactions of nucleic acids characterised by
- C12Q2531/10—Reactions of nucleic acids characterised by the purpose being amplify/increase the copy number of target nucleic acid
- C12Q2531/113—PCR
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/119—Double strand sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
Landscapes
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Zoology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Biophysics (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
La presente tecnología se refiere en general a métodos y composiciones para el enriquecimiento de secuencias de ácidos nucleicos dirigidos, así como usos de dicho enriquecimiento para aplicaciones de secuenciación de ácidos nucleicos con corrección de errores. En algunas realizaciones, la secuenciación masivamente paralela, con corrección de errores y de alta precisión del material de ácido nucleico es posible utilizando una combinación de hebras marcadas de forma única en un complejo de ácido nucleico de doble hebra de tal manera que cada hebra puede relacionarse informáticamente con su hebra complementaria. pero también se distingue de ella siguiendo la secuenciación de cada hebra o un producto amplificado derivado de la misma. En diversas realizaciones, esta información se puede utilizar con el fin de corregir errores de la secuencia determinada. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Métodos para el enriquecimiento de secuencias de ácidos nucleicos dirigidos con aplicaciones para la secuenciación de ácidos nucleicos con corrección de errores
Referencia cruzada a las solicitudes relacionadas
Esta solicitud reivindica la prioridad a la solicitud provisional de patente de los Estados Unidos núm. 62/475,682, presentada el 23 de marzo de 2017 y la solicitud provisional de patente de los Estados Unidos núm. 62/575,958, presentada el 23 de octubre de 2017.
Declaración de interés gubernamental
Esta invención se realizó con el apoyo del gobierno en virtud de las subvenciones núm. R01 CA160674 y R01 CA181308, otorgadas por los Institutos Nacionales de Salud, y la subvención núm. W911NF-15-2-0127, otorgada por la Oficina de Investigación del Ejército de EE. UU. El gobierno tiene determinados derechos en la invención. Antecedentes
Los enfoques anteriores para determinados tipos de análisis genético, por ejemplo, el análisis forense de ADN, se basan en la separación electroforética capilar (CE) de ampliaciones de PCR (PCR-CE) para identificar polimorfismos de longitud en secuencias cortas repetidas en tándem. Este tipo de análisis ha demostrado ser extremadamente valioso desde su introducción alrededor de 1991. Desde entonces, varias publicaciones introdujeron protocolos estandarizados, validaron su uso en laboratorios de todo el mundo, así como también detallaron su uso en muchos grupos de población diferentes e introdujeron enfoques más eficientes, tales como miniSTR.
Si bien este enfoque ha demostrado ser extremadamente exitoso, la tecnología tiene una serie de inconvenientes que limitan su utilidad. Por ejemplo, los enfoques actuales para el genotipado de STR a menudo dan lugar a una señal de fondo que resulta de la intermitencia de la PCR, provocada por el deslizamiento de la polimerasa en la plantilla de ADN, y que da como resultado una mezcla de amplicones de PCR de diferente longitud en la reacción final completa. Este problema es especialmente importante en muestras con más de un contribuyente (por ejemplo, una mezcla de ADN derivado de diferentes individuos específicos con una composición genética específica que lleva diferentes variantes de longitud de STR), debido a la dificultad para distinguir los alelos tartamudos de los alelos genuinos. Otro problema surge cuando se analizan muestras de ADN degradadas. El ADN dañado puede empeorar la extensión del tartamudeo y los errores de PCR. La variación en la longitud del fragmento a menudo da como resultado fragmentos de PCR más largos significativamente más bajos, o incluso ausentes. Como consecuencia, los perfiles de electroferogramas capilares de ADN degradado a menudo tienen un poder de discriminación más bajo. La introducción de sistemas de secuenciación masivamente paralela (MPS, a veces también conocida como secuenciación de ADN de próxima generación, NGS) tiene el potencial de abordar varios problemas desafiantes en el análisis forense. Por ejemplo, estas plataformas ofrecen una capacidad sin precedentes para permitir el análisis simultáneo de STR y polimorfismos de un solo nucleótido (SNP) en ADN nuclear y mitocondrial (ADNmt), lo que aumentará drásticamente el poder de discriminación entre individuos y ofrece la posibilidad de determinar el origen étnico e incluso atributos físicos (fenotipos). Además, a diferencia de PCR-CE, que simplemente informa el genotipo promedio de una población agregada de moléculas, la tecnología MPS tabula digitalmente la secuencia de nucleótidos completa de muchas moléculas de ADN individuales, lo que ofrece la capacidad única de detectar frecuencias de alelos menores (MAF) dentro de un grupo heterogéneo. mezcla de ADN. Debido a que las muestras forenses que comprenden dos o más colaboradores siguen siendo uno de los temas más problemáticos de la ciencia forense, el impacto de MPS en el campo de la ciencia forense podría ser enorme.
La publicación del genoma humano destacó el inmenso poder de las plataformas MPS. Sin embargo, hasta hace relativamente poco tiempo, toda la potencia de estas plataformas era de uso limitado para la ciencia forense debido a que las longitudes de lectura eran significativamente más cortas que los loci de repetición en tándem corto (STR), lo que impedía la capacidad de llamar a genotipos basados en la longitud. Inicialmente, los pirosecuenciadores, tales como la plataforma MPS Roche 454, eran las únicas plataformas con suficiente longitud de lectura para secuenciar los locus STR estándar centrales. Sin embargo, las longitudes de lectura en tecnologías competidoras han aumentado, lo que pone en juego su utilidad para aplicaciones forenses. En general, el resultado general de todos estos estudios, independientemente de la plataforma, es que los STR se pueden tipificar con éxito, produciendo genotipos comparables con los análisis de CE, incluso a partir de muestras forenses comprometidas.
Si bien muchos estudios muestran concordancia con los enfoques tradicionales de PCR-CE e incluso indican beneficios adicionales como la detección de SNP intra-STR (polimorfismos de un solo nucleótido), también han resaltado una serie de problemas actuales con la tecnología. Por ejemplo, los enfoques MPS actuales para el genotipado de STR se basan en PCR multiplex para proporcionar suficiente ADN para secuenciar e introducir cebadores de PCR. Sin embargo, dado que los kits de PCR multiplex se diseñaron para PCR-CE, contienen cebadores para amplicones de diversos tamaños. Esta variación da como resultado un desequilibrio en la cobertura
con un sesgo hacia la amplificación de fragmentos más pequeños, lo que puede provocar la pérdida de alelos. De hecho, estudios recientes han demostrado que las diferencias en la eficiencia de la PCR pueden afectar a los componentes de la mezcla, especialmente en MAF bajos.
Al igual que PCR-CE, MPS no es inmune a la aparición de tartamudeo de PCR. La gran mayoría de los estudios de MPS sobre STR informan la aparición de alelos improvisados. Recientemente, estudios sistemáticos de MPS informan que la mayoría de los eventos de tartamudeo aparecen como polimorfismos de longitud más corta que difieren del alelo verdadero en cuatro unidades de pares de bases, siendo la más común la n-4, pero también se observan las posiciones n-8 y n-12. El por ciento de tartamudeo típicamente se produjo en ~1 % de las lecturas, pero puede llegar al 3 % en algunos loci, lo que indica que MPS puede mostrar tartamudeo a tasas más altas que PCR-CE.
Se han desarrollado una variedad de enfoques a nivel de desarrollo de protocolos, química/bioquímica y procesamiento de datos para mitigar el impacto de los errores basados en PCR en aplicaciones MPS. Además, las técnicas mediante las cuales los duplicados de PCR que surgen de fragmentos de ADN individuales pueden resolverse sobre la base de puntos de corte aleatorios únicos o mediante etiquetado exógeno (es decir, mediante el uso de los códigos de barras moleculares, también conocidos como etiquetas moleculares, identificadores moleculares únicos [UMIs] e identificadores de moléculas individuales [SMIs]), antes o durante la amplificación son de uso común. Este enfoque se ha usado para mejorar la precisión del recuento de plantillas de ADN y ARN. Debido a que todos los amplicones derivados de una única molécula inicial pueden identificarse explícitamente, cualquier variación en la secuencia de lecturas de secuenciación etiquetadas de forma idéntica puede usarse para corregir los errores de base que surgen durante la PCR o la secuenciación. Por ejemplo, Kinde, y otros (Proc Natl Acad Sci USA 108, 9530-9535, 2011) presentó SafeSeqS, que usa un código de barras molecular monocatenario para reducir la tasa de error de la secuenciación mediante la agrupación de copias de PCR que comparten la secuenciación del código de barras y la formación de un consenso. Este enfoque conduce a un límite de detección promedio de 0,5 % para mutaciones puntuales, pero su eficacia en los loci STR no ha sido ampliamente evaluada.
Otro enfoque descrito recientemente, MIPSTR, usa la captura dirigida de loci STR mediante sondas de inversión molecular de una sola molécula (smMIPs) para hibridar específicamente con las secuencias que flanquean los loci STR. Después de la extensión con la polimerasa del extremo 3' de la smMIP, los extremos se ligan y se someten a secuenciación y amplificación por PCR. El uso de MIPs específicos para las regiones flanqueantes de los loci STR aumenta significativamente la especificidad del objetivo y aumenta la precisión del genotipado de loci STR. Sin embargo, algo así como Safe-SeqS, la incorporación de un código de barras molecular monocatenario no puede eliminar por completo los artefactos de PCR que surgen en la primera ronda de amplificación y que se trasladan a las copias derivadas como un evento "premio".
Los métodos para el genotipado de mayor precisión de loci STR, loci de polimorfismo de nucleótido único (SNP) y muchas otras formas de mutaciones y variantes genéticas son deseables en una variedad de aplicaciones en la industria forense, médica y científica. Sin embargo, un desafío es cómo generar de manera más eficiente información de secuencias a partir de tantas copias relevantes de material genético secuenciado como sea posible con la mayor confianza pero a un costo razonable. Se han usado con éxito diversos métodos de secuenciación de consenso (tanto basados en códigos de barras moleculares como no) para corregir errores y ayudar a identificar mejor las variantes en las mezclas (ver J. Salk y otros, Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations, Nature Reviews Genetics, 2018 para una discusión detallada), pero con diversas compensaciones en el rendimiento. Anteriormente describimos la secuenciación dúplex, un método de secuenciación de ultra alta precisión que se basa en el genotipado y la comparación de la hebra independiente secuenciada de moléculas de ácido nucleico bicatenario con el fin de corregir errores. La tecnología articulada en la presente descripción describe los métodos para mejorar la rentabilidad, la eficiencia de recuperación y otras métricas de rendimiento, así como también la velocidad general del proceso para la secuenciación dúplex y los métodos de secuenciación MPS relacionados.
El documento WO2013/142389 A1 describe los métodos para reducir la tasa de error de la secuenciación de ADN masivamente paralela mediante el uso de la secuenciación de consenso dúplex.
Resumen
La presente tecnología se relaciona generalmente con los métodos para el enriquecimiento de secuencias de ácidos nucleicos dirigidos y usos de dicho enriquecimiento para aplicaciones de secuenciación de ácidos nucleicos con corrección de errores. En algunas modalidades, la secuenciación masivamente paralela, con corrección de errores y de alta precisión del material de ácido nucleico es posible mediante el uso de una combinación de hebras marcadas de forma única en un complejo de ácido nucleico de doble hebra de tal manera que cada hebra puede relacionarse informáticamente con su hebra complementaria, pero también se distingue de ella siguiendo la secuenciación de cada hebra o un producto amplificado derivado de la misma y esta información puede usarse con el fin de corregir errores de la secuencia determinada. La invención se define por las reivindicaciones que proporcionan un método para proporcionar material de ácido nucleico de doble hebra que comprende una o más moléculas de ácido nucleico de doble hebra, en donde cada molécula de ácido nucleico de doble hebra comprende una sola secuencia
identificadora de molécula en cada hebra y un adaptador, en al menos uno de los extremos 5' y/o 3' de la molécula de ácido nucleico, y en donde, para cada molécula de ácido nucleico, una primera secuencia adaptadora está asociada con una primera hebra y una segunda secuencia adaptadora está asociada con una segunda hebra de la molécula de ácido nucleico; amplificar el material de ácido nucleico, separar el material de ácido nucleico amplificado en una primera muestra y una segunda muestra, amplificar la primera hebra en la primera muestra mediante el uso de un cebador específico para la primera secuencia adaptadora y al menos un oligonucleótido monocatenario al menos parcialmente complementario a una secuencia objetivo de interés, de modo que la secuencia identificadora de una sola molécula se mantenga al menos parcialmente para proporcionar un primer producto de ácido nucleico, amplificar la segunda hebra en la segunda muestra mediante el uso de un cebador específico para la segunda secuencia adaptadora y al menos una oligonucleótido monocatenario al menos parcialmente complementario a la secuencia objetivo de interés de manera que la secuencia identificadora de molécula única se mantenga al menos parcialmente para proporcionar un segundo producto de ácido nucleico, secuenciando cada uno del primer producto de ácido nucleico y segundo producto de ácido nucleico, y comparando el secuencia del primer producto de ácido nucleico a la secuencia del s segundo producto de ácido nucleico. En algunas modalidades, un material de ácido nucleico comprende una secuencia adaptadora en cada uno de los extremos 5' y 3' de cada hebra del material de ácido nucleico. La referencia a las composiciones en el resumen de la invención se proporciona únicamente con fines ilustrativos, sin embargo, pueden usarse en el método de acuerdo con las reivindicaciones. Los métodos de la invención y las composiciones descritas en la presente descripción mejoran el coste, la conversión de las moléculas secuenciadas y la eficiencia temporal de la generación de moléculas marcadas para una secuenciación dirigida de ultra alta precisión. Los métodos de la invención y las composiciones descritas en la presente descripción permiten el análisis preciso de cantidades muy pequeñas de material de ácido nucleico (por ejemplo, de una muestra tomada de la escena del crimen o de una pequeña muestra clínica o ADN que flota libremente en la sangre). Los métodos de la invención y las composiciones descritas en la presente descripción permiten la detección de mutaciones en una muestra de un material de ácido nucleico que están presentes a una frecuencia inferior a una en cien células o moléculas (por ejemplo, menos de una en mil células o moléculas), menos de una en diez mil células o moléculas, menos de una en cien mil células o moléculas).
En la presente descripción se describen los métodos que incluyen las etapas para proporcionar material de ácido nucleico de doble hebra en donde el material de ácido nucleico comprende una secuencia identificadora de una sola molécula en cada hebra del material de ácido nucleico y una secuencia adaptadora en al menos uno de los extremos 5' y 3' de cada hebra del material de ácido nucleico, en donde una primera secuencia adaptadora está ubicada en uno de los extremos 5' o 3' de una primera hebra del material de ácido nucleico, y una segunda secuencia adaptadora está ubicada en un extremo opuesto de un segunda hebra del material de ácido nucleico, y en donde la primera hebra y la segunda hebra se originaron a partir de la misma molécula de ácido nucleico de doble hebra, amplificar el material de ácido nucleico, separar el material de ácido nucleico amplificado en una primera muestra y una segunda muestra, amplificar la primera hebra en la primera muestra mediante el uso de un cebador específico para la primera secuencia adaptadora para proporcionar un primer producto de ácido nucleico, amplificar la segunda hebra en la segunda muestra mediante el uso de un cebador específico para la segunda secuencia adaptadora para proporcionar un segundo producto de ácido nucleico, secuenciar cada uno del primer producto de ácido nucleico y el segundo producto de ácido nucleico, y comparar la secuencia del primer producto de ácido nucleico con la secuencia del segundo producto de ácido nucleico. En algunas modalidades, un material de ácido nucleico comprende una secuencia adaptadora en cada uno de los extremos 5' y 3' de cada hebra del material de ácido nucleico.
En la presente descripción se describen los métodos que incluyen las etapas para proporcionar material de ácido nucleico de doble hebra, en donde el material de ácido nucleico se ha cortado para proporcionar hebras de material de ácido nucleico de una longitud sustancialmente similar (por ejemplo, entre aproximadamente 1 y 1 000 000 bases, entre 10 y 1000 bases, o entre aproximadamente 100 y 500 bases) como resultado del corte con una endonucleasa específica (por ejemplo, un complejo de enzima/ARN guía asociado a CRISPR (Cas), por ejemplo Cas9 o Cpf1, meganucleasas, (TALEN), nucleasas con dedos de zinc, una nucleasa de argonauta, etc.), y en donde el material de ácido nucleico comprende una secuencia identificadora de molécula única en cada hebra del material de ácido nucleico y una secuencia adaptadora en al menos uno de los extremos 5' y 3' de cada hebra del material de ácido nucleico, en donde una primera secuencia adaptadora está ubicada en uno de los extremos 5' o 3' de una primera hebra del material de ácido nucleico, y una segunda secuencia adaptadora está ubicada en un extremo opuesto de una segunda hebra del material de ácido nucleico, y en donde la primera hebra y la segunda hebra se originaron a partir de la misma molécula de ácido nucleico de doble hebra, amplificar el material de ácido nucleico, separar el material de ácido nucleico amplificado en una primera muestra y una segunda muestra, amplificar la primera hebra en la primera muestra mediante el uso de un cebador específico para la primera secuencia adaptadora para proporcionar un primer producto de ácido nucleico, amplificar la segunda hebra en la segunda muestra mediante el uso de un cebador específico para la segunda secuencia adaptadora para proporcionar un segundo producto de ácido nucleico, secuenciar cada uno del primer producto de ácido nucleico y segundo producto de ácido nucleico, y comparar la secuencia del primer producto de ácido nucleico con la secuencia del segundo producto de ácido nucleico. En algunas modalidades, un material de ácido nucleico comprende una secuencia adaptadora en cada uno de los extremos 5' y 3' de cada hebra del material de ácido nucleico.
En algunas modalidades, secuenciar cada uno del primer producto de ácido nucleico y el segundo producto de ácido nucleico incluye las etapas de secuenciar al menos uno de la primera hebra para determinar una lectura de secuencia de la primera hebra, secuenciar al menos uno de la segunda hebra para determinar una segunda hebra lectura de secuencia y comparar la lectura de secuencia de la primera hebra y la lectura de secuencia de la segunda hebra para generar una lectura de secuencia con corrección de errores. En algunas modalidades, una lectura de secuencia con corrección de errores comprende las bases de nucleótidos que concuerdan entre la lectura de la secuencia de la primera hebra y la lectura de la secuencia de la segunda hebra. En algunas modalidades, una variación que ocurre en una posición particular en la lectura de secuencia con corrección de errores se identifica como una variante verdadera. En algunas modalidades, una variación que ocurre en una posición particular en solo una de las lecturas de la secuencia de la primera hebra o la lectura de la secuencia de la segunda hebra se identifica como un artefacto potencial.
En algunas modalidades, se usa una lectura de secuencia con corrección de errores para identificar o caracterizar un cáncer, un riesgo de cáncer, una mutación de cáncer, un estado metabólico de cáncer, un fenotipo mutante, una exposición a carcinógenos, una exposición a toxinas, una exposición a inflamación crónica, una edad, una enfermedad neurodegenerativa, un patógeno, una variante resistente a los medicamentos, una molécula fetal, una molécula relevante desde el punto de vista forense, una molécula inmunológicamente relevante, un receptor de linfocitos T mutado, un receptor de células B mutado, un locus de inmunoglobulina mutado, un sitio kategis en un genoma, un sitio hipermutable en un genoma, una variante de baja frecuencia, una variante subclonal, una población minoritaria de moléculas, una fuente de contaminación, un error de síntesis de ácido nucleico, un error de modificación enzimática, un error de modificación química, una edición de genes error, un error de terapia génica, una pieza de almacenamiento de información de ácido nucleico, una cuasiespecie microbiana, una cuasiespecie viral, un trasplante de órgano, un rechazo de trasplante de órgano, una recaída de cáncer, cáncer residual después del tratamiento, un estado preneoplásico, un estado displásico, un estado de microquimerismo, un estado de trasplante de células madre, un estado de terapia celular, un marcador de ácido nucleico adherido a otra molécula, o una combinación de los mismos en un organismo o sujeto del cual el objetivo bicatenario se deriva la molécula de ácido nucleico. En algunas modalidades, se usa una lectura de secuencia con corrección de errores para identificar una exposición o un compuesto cancerígeno. En algunas modalidades, se usa una lectura de secuencia con corrección de errores para identificar un compuesto mutagénico o una exposición. En algunas modalidades, un material de ácido nucleico se deriva de una muestra forense, y la lectura de secuencia con corrección de errores se usa en un análisis forense.
En algunas modalidades, una secuencia identificadora de una sola molécula comprende un punto de corte endógeno o una secuencia endógena que puede estar relacionada posicionalmente con el punto de corte. En algunas modalidades, una secuencia identificadora de una sola molécula es al menos una secuencia de código de barras degenerada o semidegenerada, uno o más extremos de fragmentos de ácido nucleico del material de ácido nucleico, o una de sus combinaciones que marca de forma única la molécula de ácido nucleico bicatenario. En algunas modalidades, el adaptador y/o una secuencia adaptadora comprende al menos una posición de nucleótido que es al menos parcialmente no complementaria o comprende al menos una base no estándar. En algunas modalidades, un adaptador comprende una única secuencia de oligonucleótidos "en forma de U" formada por aproximadamente 5 o más nucleótidos autocomplementarios.
De acuerdo con diversas modalidades, puede usarse cualquiera de una diversidad de material de ácido nucleico. En algunas modalidades, el material de ácido nucleico puede comprender al menos una modificación a un polinucleótido dentro de la cadena principal de azúcar-fosfato canónica. En algunas modalidades, el material de ácido nucleico puede comprender al menos una modificación dentro de cualquier base en el material de ácido nucleico. Por ejemplo, por medio de un ejemplo no limitante, en algunas modalidades, el material de ácido nucleico es o comprende al menos uno de ADN bicatenario, ARN bicatenario, ácidos nucleicos peptídicos (PNA), ácidos nucleicos bloqueados (LNA).
En algunas modalidades, una etapa de provisión incluye ligar un material de ácido nucleico de doble hebra a al menos una secuencia de código de barras degenerada de doble hebra para formar un complejo de código de barras de molécula de ácido nucleico bicatenario, en donde la secuencia de código de barras degenerada bicatenaria comprende el identificador de molécula única de la secuencia en cada hebra.
En algunas modalidades, amplificar el material de ácido nucleico en una primera muestra incluye amplificar la primera hebra en la primera muestra mediante el uso de un cebador específico para la primera secuencia adaptadora y un segundo cebador específico para una porción no adaptadora de la primera hebra para proporcionar un primer producto de ácido nucleico. En algunas modalidades, amplificar la segunda hebra en la segunda muestra mediante el uso de un cebador específico para la segunda secuencia adaptadora y un segundo cebador específico para una porción no adaptadora de la segunda hebra para proporcionar un segundo producto de ácido nucleico.
En algunas modalidades, amplificar el material de ácido nucleico en una primera muestra incluye amplificar el material de ácido nucleico derivado de una sola hebra de ácido nucleico de una molécula original de ácido nucleico de doble hebra mediante el uso de al menos un oligonucleótido de hebra simple al menos parcialmente complementario a una secuencia presente en la primera secuencia adaptadora y al menos un oligonucleótido
monocatenario al menos parcialmente complementario a una secuencia objetivo de interés de manera que la secuencia identificadora de molécula única se mantenga al menos parcialmente.
En algunas modalidades, amplificar el material de ácido nucleico en una segunda muestra incluye amplificar el material de ácido nucleico derivado de una sola hebra de ácido nucleico de una molécula original de ácido nucleico bicatenario mediante el uso de al menos un oligonucleótido monocatenario al menos parcialmente complementario a una secuencia presente en la segunda secuencia adaptadora y al menos un oligonucleótido monocatenario al menos parcialmente complementario a una secuencia objetivo de interés de manera que la secuencia identificadora de molécula única se mantenga al menos parcialmente.
En algunas modalidades, amplificar el material de ácido nucleico incluye generar una pluralidad de amplicones derivados de la primera hebra y una pluralidad de amplicones derivados de la segunda hebra.
En algunas modalidades, los métodos proporcionados comprenden además, antes de la etapa de provisión, las etapas de cortar el material de ácido nucleico con una o más endonucleasas dirigidas de manera que se forme un fragmento de ácido nucleico objetivo de una longitud sustancialmente conocida, y aislar el fragmento de ácido nucleico objetivo. basado en la longitud sustancialmente conocida. En algunas modalidades, los métodos proporcionados comprenden además, antes de la etapa de provisión, ligar un adaptador (por ejemplo, una secuencia adaptadora) a un ácido nucleico objetivo (por ejemplo, un fragmento de ácido nucleico objetivo).
En algunas modalidades, un material de ácido nucleico puede ser o comprender uno o más fragmentos de ácido nucleico objetivo. En algunas modalidades, uno o más fragmentos de ácido nucleico objetivo comprenden cada uno una secuencia genómica de interés de una o más ubicaciones en un genoma. En algunas modalidades, uno o más fragmentos de ácido nucleico objetivo comprenden una secuencia objetivo de una región sustancialmente conocida dentro de un material de ácido nucleico. En algunas modalidades, el aislamiento de un fragmento de ácido nucleico objetivo basado en una longitud sustancialmente conocida incluye el enriquecimiento del fragmento de ácido nucleico objetivo mediante electroforesis en gel, purificación en gel, cromatografía líquida, purificación por exclusión de tamaño, filtración o purificación con perlas SPRI.
De acuerdo con diversas modalidades, algunos métodos proporcionados pueden ser útiles para secuenciar cualquiera de una variedad de muestras subóptimas (por ejemplo, dañadas o degradadas) de material de ácido nucleico. Por ejemplo, en algunas modalidades, al menos parte del material de ácido nucleico está dañado. En algunas modalidades, el daño es o comprende al menos uno de los siguientes: oxidación, alquilación, desaminación, metilación, hidrólisis, hidroxilación, corte, entrecruzamiento intracatenario, entrecruzamiento entre filamentos, ruptura del extremo romo, ruptura escalonada del extremo doble, fosforilación, desfosforilación, sumoilación, glicosilación, desglicosilación, putrescinilación, carboxilación, halogenación, formilación, brechas monocatenarias, daño por calor, daño por desecación, daño por exposición a UV, daño por radiación gamma, daño por radiación X, daño por radiación ionizante, daño por radiación no ionizante, daño por radiación de partículas pesadas, daño por desintegración nuclear, daño por radiación beta, daño por radiación alfa, daño por radiación de neutrones, daño por radiación de protones, daño por radiación cósmica, daño por pH alto, daño por pH bajo, daños por especies oxidativas reactivas, daños por radicales libres, daños por peróxido, daños por hipoclorito, daños por fijación de tejidos tales como formalina o formaldehído, daño por hierro reactivo, daño por condiciones iónicas bajas, daño por condiciones iónicas altas, daño por condiciones no tamponadas, daño por nucleasas, daño por exposición ambiental, daño por fuego, daño por estrés mecánico, daño por degradación enzimática, daño de microorganismos, daño por cizallamiento mecánico preparativo, daño por fragmentación enzimática preparativa, daño que ocurrió naturalmente in vivo, daño que ocurrió durante la extracción de ácido nucleico, daño que ocurrió durante la preparación de la biblioteca de secuenciación, daño que fue introducido por una polimerasa, daño que fue introducido durante la reparación del ácido nucleico, habiéndose producido el daño durante la cola final del ácido nucleico, habiéndose producido el daño durante la ligación del ácido nucleico, habiéndose producido el daño durante la secuenciación, habiéndose producido el daño por la manipulación mecánica del ADN, habiéndose producido el daño durante la etapa a través de un nanoporo, habiéndose producido el daño como parte del envejecimiento en un órgano ismo, daño producido como resultado de la exposición química de un individuo, daño producido por un mutágeno, daño producido por un carcinógeno, daño producido por un clastógeno, daño producido por inflamación in vivo daño debido a la exposición al oxígeno, daño debido a una o más roturas de hilos, y cualquiera de sus combinaciones.
Se contempla que el material de ácido nucleico pueda provenir de una diversidad de fuentes. Por ejemplo, en algunas modalidades, el material de ácido nucleico (por ejemplo, que comprende una o más moléculas de ácido nucleico bicatenario) se proporciona a partir de una muestra de un sujeto humano, un animal, una planta, un hongo, un virus, una bacteria, un protozoario o cualquier otra forma de vida. En otras modalidades, la muestra comprende material de ácido nucleico que se ha sintetizado artificialmente al menos parcialmente. En algunas modalidades, una muestra es o comprende un tejido corporal, una biopsia, una muestra de piel, sangre, suero, plasma, sudor, saliva, líquido cefalorraquídeo, moco, líquido de lavado uterino, una torunda vaginal, una prueba de Papanicolaou, una torunda nasal, una torunda oral, un raspado de tejido, cabello, una huella dactilar, orina, heces, humor vítreo, lavado peritoneal, esputo, lavado bronquial, lavado oral, lavado pleural, lavado gástrico, jugo gástrico, bilis, lavado del conducto pancreático, lavado del conducto biliar, bilis común lavado de conductos, líquido de la vesícula biliar,
líquido sinovial, una herida infectada, una herida no infectada, una muestra arqueológica, una muestra forense, una muestra de agua, una muestra de tejido, una muestra de alimentos, una muestra de biorreactor, una muestra de plantas, una muestra bacteriana, una muestra de protozoos, una muestra de hongos, una muestra animal, una muestra viral, una muestra de múltiples organismos, un raspado de uñas, semen, fluido prostético, fluido vaginal, un hisopo vaginal, un lavado de trompas de Falopio, un ácido nucleico libre de células, un ácido nucleico dentro de una célula, una muestra de metagenómica, un lavado o un frotis de un cuerpo extraño implantado, un lavado nasal, líquido intestinal, cepillado epitelial, lavado epitelial, biopsia de tejido, una muestra de autopsia, una muestra de necropsia, una muestra de órgano, una muestra de identificación humana, una muestra de identificación no humana, una muestra de ácido nucleico producida artificialmente, una muestra de gen sintético, una muestra de ácido nucleico almacenada o en un banco, tejido tumoral, una muestra fetal, una muestra de trasplante de órganos, una muestra de cultivo microbiano, una muestra de ADN nuclear, una muestra de ADN mitocondrial, una muestra de ADN de cloroplasto, una muestra de ADN de apicoplasto, una muestra de orgénulo, y cualquiera de sus combinaciones. En algunas modalidades, el material de ácido nucleico se deriva de més de una fuente.
Como se describe en la presente descripción, en algunas modalidades, es ventajoso procesar el material de ácido nucleico para mejorar la eficiencia, la precisión y/o la velocidad de un proceso de secuenciación. En algunas modalidades, el material de ácido nucleico comprende las moléculas de ácido nucleico de una longitud sustancialmente uniforme y/o una longitud sustancialmente conocida. En algunas modalidades, una longitud sustancialmente uniforme y/o una longitud sustancialmente conocida está entre aproximadamente 1 y aproximadamente 1000 000 bases). Por ejemplo, en algunas modalidades, una longitud sustancialmente uniforme y/o una longitud sustancialmente conocida puede ser al menos 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 15; 20; 25; 30; 35; 40; 50; 60; 70; 80; 90; 100; 120; 150; 200; 300; 400; 500; 600; 700; 800; 900; 1000; 1200; 1500; 2000; 3000; 4000; 5000; 6000; 7000; 8000; 9000; 10 000; 15 000; 20 000; 30 000; 40 000 o 50 000 bases de longitud. En algunas modalidades, una longitud sustancialmente uniforme y/o una longitud sustancialmente conocida puede ser como máximo 60000; 70000; 80000; 90000; 100000; 120000; 150000; 200000; 300000; 400000; 500000; 600000; 700 000; 800 000; 900 000 o 1 000 000 bases. Por medio de ejemplo específico no limitante, en algunas modalidades, una longitud sustancialmente uniforme y/o una longitud sustancialmente conocida está entre aproximadamente 100 a aproximadamente 500 bases. En algunas modalidades, un material de ácido nucleico se corta en moléculas de ácido nucleico de una longitud sustancialmente uniforme y/o una longitud sustancialmente conocida a través de una o más endonucleasas dirigidas. En algunas modalidades, una endonucleasa dirigida comprende al menos una modificación.
En algunas modalidades, un material de ácido nucleico comprende moléculas de ácido nucleico que tienen una longitud dentro de uno o más intervalos de tamaño sustancialmente conocidos. En algunas modalidades, las moléculas de ácido nucleico pueden tener entre 1 y aproximadamente 1000000 bases, entre aproximadamente 10 y aproximadamente 10 000 bases, entre aproximadamente 100 y aproximadamente 1000 bases, entre aproximadamente 100 y aproximadamente 600 bases, entre aproximadamente 100 y aproximadamente 500 bases, o alguna de sus combinaciones.
En algunas modalidades, una endonucleasa dirigida es o comprende al menos una de una endonucleasa de restricción (es decir, una enzima de restricción) que escinde el ADN en o cerca de los sitios de reconocimiento (por ejemplo, EcoRI, BamHI, Xbal, HindlII, AluI, AvalI, BsaJI, BstNI, DsaV, Fnu4HI, HaelII, MaelII, N1aIV, NSil, MspJI, FspEI, Nael, Bsu36l, Notl, HinF1, Sau3AI, Pvull, Smal, Hgal, AluI, EcoRV, etc.). Los listados de varias endonucleasas de restricción están disponibles tanto en forma impresa como legible por computadora, y son proporcionados por muchos proveedores comerciales (por ejemplo, New England Biolabs, Ipswich, MA). Un experto en la técnica apreciará que puede usarse cualquier endonucleasa de restricción de acuerdo con diversas modalidades de la presente tecnología. En otras modalidades, una endonucleasa dirigida es o comprende al menos uno de un complejo de ribonucleoproteína, tal como, por ejemplo, un complejo de ARN guía/enzima asociada a CRISPR (Cas) (por ejemplo, Cas9 o Cpf1) o una enzima similar a Cas9. En otras modalidades, una endonucleasa dirigida es o comprende una endonucleasa dirigida, una nucleasa con dedos de zinc, una TALEN y/o una meganucleasa (por ejemplo, nucleasa megaTAL, etc.), una nucleasa argonauta o una de sus combinaciones. En algunas modalidades, una endonucleasa dirigida comprende Cas9 o CPF1 o un derivado de los mismos. En algunas modalidades, puede usarse más de una endonucleasa dirigida (por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más). En algunas modalidades, puede usarse una endonucleasa dirigida para cortar en más de una región objetivo potencial de un material de ácido nucleico (por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más). En algunas modalidades, donde hay más de una región objetivo de un material de ácido nucleico, cada región objetivo puede tener la misma (o sustancialmente la misma) longitud. En algunas modalidades, donde hay más de una región objetivo de un material de ácido nucleico, al menos dos de las regiones objetivo de longitud conocida difieren en longitud (por ejemplo, una primera región objetivo con una longitud de 100 pb y una segunda región objetivo con una longitud de 1000 pb).
En algunas modalidades, se realizan determinadas modificaciones en una porción de una muestra de material de ácido nucleico (por ejemplo, una secuencia adaptadora). Por medio de un ejemplo específico, en algunas modalidades, amplificar un material de ácido nucleico en una primera muestra comprende además destruir o alterar una porción o la totalidad de una segunda secuencia adaptadora que se encuentra en un material de ácido nucleico después de la etapa de separación y antes de la amplificación de una primera muestra. Por medio de un ejemplo adicional, en algunas modalidades, amplificar el material de ácido nucleico en la segunda muestra comprende
además destruir o alterar las primeras secuencias adaptadoras que se encuentran en el material de ácido nucleico después de la etapa de separación y antes de la amplificación de la segunda muestra. En algunas modalidades, la destrucción o alteración puede ser o comprender al menos uno de digestión enzimática, inclusión de al menos una molécula inhibidora de la replicación, escisión enzimática, escisión enzimática de una hebra, escisión enzimática de ambas hebras, incorporación de un ácido nucleico modificado seguido por tratamiento enzimático que conduce a la escisión de una o ambas hebras, incorporación de un nucleótido que bloquea la replicación, incorporación de un terminador de hebra, incorporación de un enlazador fotoescindible, incorporación de un uracilo, incorporación de una base de ribosa, incorporación de un aducto de 8-oxo-guanina, uso de una endonucleasa de restricción, uso de una endonucleasa de ribonucleoproteína (por ejemplo, una enzima Cas, tal como Cas9 o CPF1), u otra endonucleasa programable (por ejemplo, una endonucleasa dirigida, una nucleasa con dedos de zinc, una TALEN, una meganucleasa (por ejemplo, nucleasa megaTAL), una nucleasa argonauta, etc.), y cualquiera de sus combinaciones. En algunas modalidades, como una adición o alternativa a la destrucción o interrupción del sitio del cebador, se contemplan métodos tales como reducción de afinidad, selección de tamaño o cualquier otra técnica conocida para eliminar y/o no amplificar material de ácido nucleico no deseado de una muestra.
En algunas modalidades, al menos una etapa de amplificación incluye al menos un cebador y/o secuencia adaptadora que es o comprende al menos un nucleótido no estándar. A modo de ejemplo adicional, en algunas modalidades, al menos una secuencia adaptadora es o comprende al menos un nucleótido no estándar. En algunas modalidades, un nucleótido no estándar se selecciona de un uracilo, un nucleótido metilado, un nucleótido de ARN, un nucleótido de ribosa, una 8-oxo-guanina, un nucleótido biotinilado, un nucleótido de destiobiotina, un nucleótido modificado con tiol, un nucleótido modificado con acridita nucleótido un iso-dC, un iso dG, un nucleótido 2'-O-metilo, un nucleótido de inosina Ácido nucleico bloqueado, un ácido nucleico peptídico, un 5 metil dC, un 5-bromo desoxiuridina, un 2,6-diaminopurina, 2-nucleótido de aminopurina, un nucleótido abásico, un nucleótido de 5-nitroindol, un nucleótido adenilado, un nucleótido de azida, un nucleótido de digoxigenina, un conector I, un nucleótido modificado con hexinilo en 5', un dU de 5-octadiinilo, un espaciador fotoescindible, un no- espaciador fotoescindible, un nucleótido modificado compatible con química click, un tinte fluorescente, biotina, furano, BrdU, fluoro-dU, loto-dU, y cualquiera de sus combinaciones.
De acuerdo con varias modalidades, puede usarse cualquiera de una variedad de etapas analíticas para aumentar uno o más de la precisión, velocidad y eficiencia de un proceso proporcionado. Por ejemplo, en algunas modalidades, secuenciar cada uno del primer producto de ácido nucleico y el segundo producto de ácido nucleico incluye comparar la secuencia de una pluralidad de hebras en el primer producto de ácido nucleico para determinar una secuencia consenso de la primera hebra, y comparar la secuencia de una pluralidad de hebras en el segundo producto de ácido nucleico para determinar una secuencia consenso de segunda hebra. En algunas modalidades, comparar la secuencia del primer producto de ácido nucleico con la secuencia del segundo producto de ácido nucleico comprende comparar la secuencia consenso de la primera hebra y la secuencia consenso de la segunda hebra para proporcionar una secuencia consenso con corrección de errores.
Se contempla que cualquiera de una variedad de métodos para amplificar material de ácido nucleico puede usarse de acuerdo con diversas modalidades. Por ejemplo, en algunas modalidades, al menos una etapa de amplificación comprende una reacción en cadena de la polimerasa (PCR), amplificación de círculo rodante (RCA), amplificación de desplazamiento múltiple (MDA), amplificación isotérmica, amplificación de polonia dentro de una emulsión, amplificación de puente en una superficie, la superficie de una perla o dentro de un hidrogel, y cualquiera de sus combinaciones. En algunas modalidades, la amplificación de un material de ácido nucleico incluye el uso de un oligonucleótido monocatenario al menos parcialmente complementario a una región de una secuencia genómica de interés y un oligonucleótido monocatenario al menos parcialmente complementario a una región de la secuencia adaptadora. En algunas modalidades, la amplificación de un material de ácido nucleico incluye el uso de oligonucleótidos monocatenarios al menos parcialmente complementarios a las regiones de una primera secuencia adaptadora y una segunda secuencia adaptadora (por ejemplo, al menos parcialmente complementaria a una secuencia adaptadora en los extremos 5' y/o 3' de cada hebra del material de ácido nucleico).
Un aspecto proporcionado por algunas modalidades es la capacidad de generar información de secuenciación de alta calidad a partir de cantidades muy pequeñas de material de ácido nucleico. En algunas modalidades, los métodos y composiciones proporcionados pueden usarse con una cantidad de material de ácido nucleico de partida de a lo máximo aproximadamente: 1 picogramo (pg); 10 pg; 100 pg; 1 nanogramo (ng); 10 ng; 100 ng; 200 ng, 300 ng, 400 ng, 500 ng, 600 ng, 700 ng, 800 ng, 900 ng o 1000 ng. En algunas modalidades, los métodos y composiciones proporcionados pueden usarse con una cantidad de entrada de material de ácido nucleico de a lo máximo 1 copia molecular o equivalente del genoma, 10 copias moleculares o el equivalente del genoma del mismo, 100 copias moleculares o el equivalente del genoma del mismo, 1000 copias moleculares o su equivalente del genoma, 10000 copias moleculares o su equivalente del genoma, 100000 copias moleculares o su equivalente del genoma, o 1000000 copias moleculares o su equivalente del genoma. Por ejemplo, en algunas modalidades, a lo máximo se proporcionan 1000 ng de material de ácido nucleico para un proceso de secuenciación particular. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 100 ng de material de ácido nucleico para un proceso de secuenciación particular. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 10 ng de material de ácido nucleico para un proceso de secuenciación particular. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 1 ng de material de ácido nucleico para un proceso de
secuenciación particular. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 100 pg de material de ácido nucleico para un proceso de secuenciación particular. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 1 pg de material de ácido nucleico para un proceso de secuenciación particular.
Como se usa en esta solicitud, los términos “aproximadamente” y “alrededor de” se usan como equivalentes. Cualquier número usado en esta solicitud con o sin alrededor de/aproximadamente pretende abarcar cualquiera de las fluctuaciones normales apreciadas por un experto en la técnica en cuestión.
En diversas modalidades, el enriquecimiento del material de ácido nucleico, incluido el enriquecimiento del material de ácido nucleico en la o las regiones de interés, se proporciona a un ritmo más rápido (por ejemplo, con menos etapas) y con menos costo (por ejemplo, al utilizar menos reactivos), y lo que resulta en un aumento conveniente de los datos. Diversos aspectos de la presente tecnología tienen muchas aplicaciones en pruebas preclínicas y clínicas y de diagnóstico, así como también otras implicaciones.
Los detalles específicos de numerosas modalidades de la tecnología se describen más abajo y con referencia a las figuras 1A-24. Aunque muchas de las modalidades se describen en la presente descripción con respecto a la secuenciación dúplex, otras modalidades de secuenciación capaces de generar lecturas de secuenciación con corrección de errores y/u otras lecturas de secuenciación además de las descritas en la presente descripción están dentro del alcance de la presente tecnología. Adicionalmente, se contemplan otras interrogaciones de ácidos nucleicos para beneficiarse de los métodos y reactivos de enriquecimiento de ácidos nucleicos descritos en la presente descripción. Cualquiera de los ejemplos anteriores se puede combinar de acuerdo con las reivindicaciones. Por lo tanto, un experto en la técnica, en consecuencia, entenderá que la tecnología puede tener otras modalidades con elementos adicionales y que la tecnología puede tener otras modalidades sin variar las características mostradas y descritas más abajo con referencia a las figuras 1A-24.
Breve descripción de las figuras
Muchos aspectos de la presente descripción pueden entenderse mejor con referencia a las siguientes figuras. Los componentes en las figuras no están necesariamente a escala. En cambio, se hace hincapié en ilustrar claramente los principios de la presente descripción.
La figura 1A ilustra una molécula adaptadora de ácido nucleico para usar con algunas modalidades de la presente tecnología y un complejo ácido nucleico bicatenario con el adaptador, que resulta de la unión de la molécula adaptadora a un fragmento de ácido nucleico bicatenario de acuerdo con una modalidad de la presente tecnología.
Las figuras 1B y 1C son ilustraciones conceptuales de diversas etapas del método de Secuenciación Dúplex de acuerdo con una modalidad de la presente tecnología.
La figura 2 es un gráfico que traza el valor predictivo positivo en función de la frecuencia del alelo variante en una población molecular para la Secuenciación de Próxima Generación (NGS), la corrección de errores basada en etiquetas monocatenarias y la corrección de errores de secuenciación dúplex de acuerdo con determinados aspectos de la presente descripción.
Las figuras 3A y 3B muestran una serie de gráficos que muestran el genotipo CODIS frente a una serie de lecturas de secuenciación en ausencia de corrección de errores (Figura 3A) y el siguiente análisis con DS estándar (Figura 3B) para tres loci diferentes de acuerdo con aspectos del presente descripción.
La figura 4 es una ilustración conceptual de las etapas del método SPLiT-DS de acuerdo con una modalidad de la presente tecnología.
La figura 5 es una ilustración conceptual de las etapas del método SPLiT-DS y muestra las etapas para generar una secuencia de consenso dúplex de acuerdo con una modalidad de la presente tecnología.
La figura 6 es una ilustración conceptual de diversas etapas del método SPLiT-DS de acuerdo con una modalidad de la presente tecnología.
La figura 7 es una ilustración conceptual de las etapas adicionales del método SPLiT-DS de acuerdo con una modalidad de la presente tecnología.
La figura 8A es una ilustración conceptual de las etapas del método SPLiT-DS que incorporan esquemas de destrucción del sitio del cebador de doble hebra de acuerdo con una modalidad adicional de la presente tecnología.
La figura 8B es una ilustración conceptual de un ejemplo de las etapas del método SPLiT-DS ilustrado en la figura 8A, y de acuerdo con una modalidad de la presente tecnología.
La figura 8C es una ilustración conceptual de una modalidad de las etapas del método SPLiT-DS que siguen a las etapas del método ilustrado en la figura 8A de acuerdo con aspectos adicionales de la presente tecnología. La figura 8D es una ilustración conceptual de las etapas del método SPLiT-DS que incorporan esquemas de destrucción del sitio del cebador de doble hebra de acuerdo con otra modalidad de la presente tecnología.
Las figuras 9A y 9B son ilustraciones conceptuales de varias modalidades de las etapas del método SPLiT-DS que incorporan esquemas de destrucción del sitio del cebador monocatenario de acuerdo con otros aspectos de la presente tecnología.
La figura 10 es una ilustración conceptual de las etapas del método SPLiT-DS mediante el uso de múltiples cebadores dirigidos para generar secuencias de consenso dúplex para moléculas de ácido nucleico más largas de acuerdo con otra modalidad más de la presente tecnología.
La figura 11A es un gráfico que traza una relación entre el tamaño del inserto de ácido nucleico y el tamaño de la familia resultante después de la amplificación de acuerdo con una modalidad de la presente tecnología.
La figura 11B es un esquema que ilustra los datos de secuenciación generados para diferentes tamaños de inserción de ácido nucleico de acuerdo con aspectos de la presente tecnología.
La figura 11C es un esquema que ilustra las etapas de un método para generar el tamaño de fragmentos objetivo con CRISPR/Cas9 para generar información de secuenciación de acuerdo con una modalidad de la presente tecnología.
Las figuras 12A-12D son ilustraciones conceptuales de las etapas del método CRISPR-DS de acuerdo con una modalidad de la presente tecnología. La figura 12A muestra los resultados de la digestión CRISPR/Cas9 de TP53, con siete fragmentos que contienen todos los exones codificantes de TP53 que se extirparon mediante un corte dirigido mediante el uso de ARNg. El gris oscuro representa la hebra de referencia y el gris claro representa la hebra antirreferencia. La figura 12B muestra la selección de tamaño mediante el uso de perlas SPRI 0,5x; el ADN genómico sin cortar se une a las perlas y permite la recuperación de fragmentos cortados en solución. La figura 12C muestra un esquema de una molécula de ADN de doble hebra fragmentada y ligada con adaptadores DS de doble hebra, que contiene 10 pb de nucleótidos complementarios aleatorios y un saliente 3'-dT. La figura 12D muestra un esquema para la corrección de errores por DS. Las lecturas derivadas de la misma hebra de ADN se comparan para formar una secuencia consenso monocatenaria (SSCS). Luego, ambas hebras de la misma molécula de ADN inicial se comparan entre sí para crear una secuencia consenso bicatenaria (DSCS), y las mutaciones encontradas en ambas lecturas de SSCS se cuentan como mutaciones verdaderas en las lecturas de DSCS.
Las figuras 12E y 12F comparan esquemáticamente las etapas del método CRISPR-DS y DS estándar de acuerdo con determinadas modalidades de la presente tecnología. La figura 12E es una comparación de las etapas de preparación de bibliotecas para CRISPR-DS y DS-estándar. Cada casilla representa 1h de tiempo. La figura 12F muestra los esquemas de fragmentos producidos mediante sonicación, que tienen una longitud más corta o más larga que la óptima (correspondiente a información perdida o redundante, respectivamente) en comparación con fragmentos producidos por CRISPR-DS, que tienen una longitud óptima y constante, con una cobertura completa de lecturas de secuenciación.
Las figuras 13A-13C muestran los datos resultantes de un procedimiento SPLiT-DS de acuerdo con una modalidad de la presente tecnología. La figura 13A es un gel representativo que muestra los tamaños de los fragmentos de inserción antes de la secuenciación. Las figuras 13B y 13C son gráficos que muestran el genotipo CODIS frente a una serie de lecturas de secuenciación en ausencia de corrección de errores (Figura 13B) y el análisis posterior con SPLiT-DS (Figura 13C).
Las figuras 14A y 14B son gráficos que muestran el genotipo CODIS frente a una serie de lecturas de secuenciación en ausencia de corrección de errores (Figura 14A) y el análisis posterior con SPLiT-DS (Figura 14B) para ADN altamente dañado de acuerdo con una modalidad de la presente tecnología.
Las figuras 15A y 15B representan visualmente los datos de secuenciación SPLiT-DS del exón 2 de KRAS generados a partir de 10 ng (Figura 15A) y 20 ng (Figura 15B) de cfADN de acuerdo con una modalidad de la presente tecnología.
La figura 16A es una ilustración esquemática de las longitudes de los fragmentos producidos por sonicación y por fragmentación CRISPR/Cas9 de acuerdo con una modalidad de la presente tecnología.
Las figuras 16B y 16C son gráficos de histograma que muestran el tamaño de inserción de fragmento de muestras preparadas con protocolos DS y CRISPR-DS estándar de acuerdo con modalidades de la presente tecnología. El eje X representa la diferencia en por ciento del tamaño óptimo del fragmento, por ejemplo, el tamaño del fragmento que coincide con la longitud de lectura de la secuenciación después de los ajustes de los códigos de barras moleculares y el recorte. La región columnar muestra el intervalo de los tamaños de fragmentos que están dentro del 10 % de diferencia del tamaño óptimo, y el tamaño óptimo se designa con una línea discontinua vertical.
Las figuras 17A-17C muestran un esquema de CRISPR/Cas9 para el enriquecimiento dirigido de las regiones codificantes de TP53 humano de acuerdo con una modalidad de la presente tecnología. Proteína tumoral TP53; Homo sapiens; NC_000017.11 Cr. 17, ref. GRCh38.p2. Las letras grises representan las regiones de codificación; los nombres de los exones se indican en el margen derecho y se encuadran juntos cuando están en el mismo fragmento. El texto resaltado en gris representa los sitios de corte de Cas9 con secuencias PAM subrayados dobles. El texto subrayado simple representa las sondas biotiniladas, con los nombres de las sondas indicados en el margen izquierdo.
Las figuras 18A-18C son gráficos de barras que muestran el por ciento de las lecturas de secuenciación sin procesar en el objetivo (que cubre TP53) (Figura 18A), que muestran el porcentaje de recuperación calculado por el porcentaje de genomas en el ADN de entrada que produjo las lecturas de secuencia de consenso dúplex (Figura 18B), y que muestra la mediana de la profundidad de la secuencia consenso dúplex (Figura 18C) en todas las regiones objetivo para varias cantidades de entrada de ADN procesadas mediante el uso de DS estándar y CRISPR-DS de acuerdo con una modalidad de la presente tecnología.
La figura 19 es un gráfico de barras que muestra el enriquecimiento objetivo proporcionado por CRISPR-DS con una etapa de captura en comparación con dos etapas de captura en tres muestras de ADN de sangre diferentes de acuerdo con una modalidad de la presente tecnología.
Las figuras 20A y 20B muestran los resultados del enriquecimiento previo para ADN de alto peso molecular con BluePippin en un gel de campo pulsado (Figura 20A) y un gráfico de barras (Figura 20B) que muestra una comparación del porcentaje de lecturas sin procesar en el objetivo y la profundidad de la secuencia consenso dúplex para el mismo ADN secuenciado antes y después del enriquecimiento previo de BluePippin de acuerdo con una modalidad de la presente tecnología.
Las figuras 21A-21C son una ilustración esquemática de una molécula sintética de ADN bicatenaria (Figura 21A) y un gráfico de longitudes de fragmentos predichos (Figura 21B) después de la digestión de CRISPR/Cas9, y una imagen de gel TapeStation resultante de longitudes reales de fragmentos de ADN después de la digestión con CRISPR/Cas9 de la molécula de ADN de bicatenaria sintética (Figura 21C) que demuestra una escisión exitosa mediante el uso de la digestión con CRISPR/Cas9 de acuerdo con una modalidad de la presente tecnología. La figura 22A es un gráfico que traza una relación entre el tamaño del inserto de ácido nucleico y el tamaño de la familia resultante después de la amplificación de TP53 mediante el uso de CRISPR-DS y los protocolos DS estándar de acuerdo con una modalidad de la presente tecnología. Los puntos representan las moléculas de ADN con código de barras original y, en CRISPR-DS, todas las moléculas de ADN (puntos más claros) tienen tamaños previamente establecidos y generan una cantidad similar de copias de PCR (como se ve en varios grupos de puntos más claros "en forma de banda"). En DS-estándar (puntos oscuros), la sonicación corta el ADN en longitudes de fragmentos variables (puntos oscuros, distribuidos más ampliamente en la trama que los puntos más claros). El gráfico muestra un mayor número de fragmentos más cortos que de fragmentos más largos. Las figuras 22B-22E muestran los datos sobre TP53 resultantes de las etapas del método CRISPR-DS y DS estándar de acuerdo con una modalidad de la presente tecnología. La figura 22B es un gel representativo que muestra los tamaños de los fragmentos de inserción después de la ligación del adaptador y antes de la secuenciación. Las figuras 22C y 22D son electroferogramas que muestran los picos de la biblioteca de ácidos nucleicos resultante generada por CRISPR-DS (Figura 22C) y DS estándar (Figura 22D) antes de la secuenciación. La figura 22E muestra las lecturas de la secuencia consenso dúplex de TP53 generadas por CRISPR-DS y protocolos DS estándar con Integrative Genomics Viewer. La figura 22B muestra unos geles de TapeStation con un marcador y muestras de CRISPR-DS (A1) y estándar -DS (B1). Los tamaños de las bandas corresponden a los fragmentos cortados con CRISPR/Cas9 con adaptadores. La figura 22E muestra los límites distintos que corresponden a los puntos de corte de CRISPR/Cas9 y una distribución uniforme de profundidad entre posiciones, tanto dentro de un fragmento como entre fragmentos. DS-estándar muestra un patrón máximo generado por el corte aleatorio de fragmentos y la captura de hibridación y una cobertura desigual.
La figura 23 es una descripción general esquemática de las etapas de procesamiento de datos de CRISPR-DS de acuerdo con una modalidad de la presente tecnología.
Las figuras 24A y 24B son un cuadro (Figura 24A) y un gráfico (Figura 24B) que muestran los resultados que cuantifican un grado de enriquecimiento objetivo después de la digestión con CRISPR/Cas9 seguida de
selección de tamaño de acuerdo con una modalidad de la presente tecnología. La figura 24A muestra las muestras de ADN y el enriquecimiento logrado para cada una. La figura 24B muestra el por ciento de lecturas sin procesar que estaban "en el objetivo" en comparación con la cantidad de ADN de entrada.
Definiciones
Para que la presente descripción se entienda con mayor facilidad, primero se definen determinados términos más abajo. Las definiciones adicionales de los siguientes términos y otros términos se exponen a lo largo de la memoria descriptiva.
En esta solicitud, a menos que el contexto lo indique claramente de cualquier otra manera, el término "un" puede entenderse que significa "al menos uno". Como se usa en esta solicitud, el término "o" puede entenderse que significa "y/o". En esta solicitud, se puede entender que los términos "que comprende" y "que incluye" abarcan componentes o etapas detallados, ya sea que se presenten solos o junto con uno o más componentes o etapas adicionales. Cuando se proporcionan intervalos en la presente descripción, se incluyen los puntos finales. Como se usa en esta solicitud, el término “comprenden” y las variaciones del término, tales como “que comprende” y “comprende,” no pretenden excluir otros aditivos, componentes, enteros o etapas.
Aproximadamente: el término "aproximadamente", cuando se usa en la presente descripción en referencia a un valor, se refiere a un valor que es similar, en contexto, al valor al que se hace referencia. En general, los expertos en la técnica, familiarizados con el contexto, apreciarán el grado de variación relevante abarcado por "aproximadamente" en ese contexto. Por ejemplo, en algunas modalidades, el término "aproximadamente" puede abarcar un intervalo de valores dentro del 25 %, 20 %, 19 %, 18 %, 17 %, 16 %, 15 %, 14 %, 13 %, 12 %, 11 %, 10 %, 9 %, 8 %, 7 %, 6 %, 5 %, 4 %, 3 %, 2 %, 1 %, o menos del valor referido.
Análogo: tal como se usa en la presente descripción, el término "análogo" se refiere a una sustancia que comparte una o más características estructurales, elementos, componentes o fracciones particulares con una sustancia de referencia. Típicamente, un "análogo" muestra una similitud estructural significativa con la sustancia de referencia, por ejemplo, que comparte una estructura central o consenso, pero además difiere en determinadas formas discretas. En algunas modalidades, un análogo es una sustancia que puede generarse a partir de la sustancia de referencia, por ejemplo, mediante manipulación química de la sustancia de referencia. En algunas modalidades, un análogo es una sustancia que puede generarse mediante la realización de un proceso sintético sustancialmente similar a (por ejemplo, compartir una pluralidad de etapas) uno que genera la sustancia de referencia. En algunas modalidades, un análogo es o puede generarse a través de la realización de un proceso sintético diferente del usado para generar la sustancia de referencia.
Muestra biológica: tal como se usa en la presente descripción, el término "muestra biológica" o "muestra" típicamente se refiere a una muestra obtenida o derivada de una fuente biológica (por ejemplo, un tejido, un organismo o un cultivo celular) de interés, como se describió en la presente descripción. En algunas modalidades, una fuente de interés comprende un organismo, tal como un animal o un humano. En otras modalidades, una fuente de interés comprende un microorganismo, tal como una bacteria, virus, protozoo u hongo. En modalidades adicionales, una fuente de interés puede ser un tejido sintético, organismo, cultivo celular, ácido nucleico u otro material. Aún en otras modalidades adicionales, una fuente de interés puede ser un organismo basado en plantas. Aún en otra modalidad, una muestra puede ser una muestra ambiental tal como, por ejemplo, una muestra de agua, muestra de suelo, muestra arqueológica, u otra muestra recolectada de una fuente no viva. En otras modalidades, una muestra puede ser una muestra de organismos múltiples (por ejemplo, una muestra de organismos mixtos). En algunas modalidades, una muestra biológica es o comprende tejido o fluido biológico. En algunas modalidades, una muestra biológica puede ser o comprender médula ósea; sangre; células de la sangre; ascitis; muestras de tejido o biopsia con aguja fina; fluidos corporales que contienen células; ácidos nucleicos flotantes libres; esputo; saliva; orina; líquido cefalorraquídeo, líquido peritoneal; líquido pleural; heces; linfa; fluidos ginecológicos; hisopos de piel; hisopos vaginales; prueba de Papanicolaou, hisopos orales; hisopos nasales; lavados o lavados tales como lavados ductales o lavados broncoalveolares; fluido vaginal, aspirados; raspaduras; especímenes de médula ósea; especímenes de biopsia de tejido; tejido o fluidos fetales; especímenes quirúrgicos; heces, otros fluidos corporales, secreciones y/o excreciones; y/o células de las mismas, etc. En algunas modalidades, una muestra biológica es o comprende células obtenidas de un individuo. En algunas modalidades, las células que se obtienen son o incluyen células de un individuo del que se obtiene la muestra. En una modalidad particular, una muestra biológica es una biopsia líquida que se obtiene de un sujeto. En algunas modalidades, una muestra es una "muestra primaria" que se obtiene directamente de una fuente de interés mediante cualquier medio apropiado. Por ejemplo, en algunas modalidades, se obtiene una muestra biológica primaria mediante métodos seleccionados del grupo que consiste en biopsia (por ejemplo, aspiración con aguja fina o biopsia de tejido), cirugía, extracción de fluidos corporales (por ejemplo, sangre, linfa, heces, etc.), etc. En algunas modalidades, como quedará claro por el contexto, el término "muestra" se refiere a una preparación que se obtiene procesando (por ejemplo, eliminando uno o más componentes y/o agregando uno o más agentes a) un muestra primaria. Por ejemplo, el filtrado mediante el uso de una membrana semipermeable. Tal "muestra procesada" puede comprender, por ejemplo, ácidos nucleicos o proteínas que se extraen de una muestra o que se obtienen sometiendo una muestra primaria a técnicas tales como amplificación o transcripción inversa del ARNm, aislamiento y/o purificación de determinados componentes, etc.
Determinar: muchas metodologías descritas en la presente descripción incluyen una etapa de "determinación". Los expertos en la técnica, al leer la presente descripción, apreciarán que tal "determinación" puede utilizar o lograrse mediante el uso de cualquiera de una variedad de técnicas disponibles para los expertos en la técnica, que incluye, por ejemplo, técnicas específicas explícitamente mencionadas en la presente descripción. En algunas modalidades, la determinación implica la manipulación de una muestra física. En algunas modalidades, la determinación implica la consideración y/o manipulación de datos o información, por ejemplo, mediante el uso de una computadora u otra unidad de procesamiento adaptada para realizar un análisis relevante. En algunas modalidades, la determinación implica recibir información relevante y/o materiales de una fuente. En algunas modalidades, la determinación implica comparar una o más características de una muestra o entidad con una referencia comparable.
Expresión: tal como se usa en la presente descripción, "expresión" de una secuencia de ácido nucleico se refiere a uno o más de los siguientes eventos: (1) producción de una plantilla de ARN a partir de una secuencia de ADN (por ejemplo, mediante transcripción); (2) procesamiento de una transcripción de ARN (por ejemplo, mediante corte y empalme, edición, formación de la caperuza 5' y/o formación de extremo 3'); (3) traducción de un ARN en un polipéptido o proteína; y/o (4) modificación postraduccional de un polipéptido o proteína.
ARNg: tal como se usa en la presente descripción, "ARNg" o "ARN guía" se refiere a moléculas cortas de ARN que incluyen una secuencia de armazón adecuada para la unión de una endonucleasa específica (por ejemplo, una enzima Cas tal como Cas9 o Cpf1 u otra ribonucleoproteína con propiedades similares, etc.) a una secuencia sustancialmente específica del objetivo que facilita el corte de una región específica de ADN o ARN.
Ácido nucleico: como se usa en la presente descripción, en su sentido más amplio, se refiere a cualquier compuesto y/o sustancia que es, o puede incorporarse en una cadena de oligonucleótido. En algunas modalidades, un ácido nucleico es un compuesto y/o sustancia que es una cadena de oligonucleótido, o que puede incorporarse a ella, mediante un enlace fosfodiéster. Como será evidente a partir del contexto, en algunas modalidades, "ácido nucleico" se refiere a un residuos de ácido nucleico individual (por ejemplo, nucleótido y/o nucleósido); en algunas modalidades, "ácido nucleico" se refiere a una cadena de oligonucleótidos que comprende residuos de ácido nucleico individuales. En algunas modalidades, un "ácido nucleico" es o comprende ARN; en algunas modalidades, un "ácido nucleico" es o comprende ADN. En algunas modalidades, un ácido nucleico es, comprende, o consiste en uno o más residuos de ácido nucleico naturales. En algunas modalidades, un ácido nucleico es, comprende, o consiste en uno o más análogos de ácido nucleico. En algunas modalidades, un análogo de ácido nucleico difiere de un ácido nucleico en el hecho de que no utiliza una cadena principal con enlaces fosfodiéster. Por ejemplo, en algunas modalidades, un ácido nucleico es, comprende, o consiste en uno o más "ácidos nucleicos peptídicos", que se conocen en la técnica y tienen enlaces peptídicos en lugar de enlaces fosfodiéster en la cadena principal, son considerados dentro del alcance de la presente tecnología. Alternativa o adicionalmente, en algunas modalidades, un ácido nucleico tiene uno o más enlaces fosforotioato y/o 5'-N-fosforamidita en lugar de enlaces fosfodiéster. En algunas modalidades, un ácido nucleico es, comprende, o consiste en uno o más nucleósidos naturales (por ejemplo, adenosina, timidina, guanosina, citidina, uridina, desoxiadenosina, desoxitimidina, desoxi guanosina, y desoxicitidina). En algunas modalidades, un ácido nucleico es, comprende, o consiste en uno o más análogos de nucleósidos (por ejemplo, 2-aminoadenosina, 2-tiotimidina, inosina, pirrolo-pirimidina, 3 -metil adenosina, 5-metilcitidina, C-5 propinil-citidina, C-5 propinil-uridina, 2-aminoadenosina, C5-bromouridina, C5-fluorouridina, C5-iodouridina, C5-propinil-uridina, C5 -propinil-citidina, C5-metilcitidina, 2-aminoadenosina, 7-deazaadenosina, 7-deazaguanosina, 8-oxoadenosina, 8-oxoguanosina, 0(6)-metilguanina, 2-tiocitidina, bases metiladas, bases intercaladas y sus combinaciones). En algunas modalidades, un ácido nucleico comprende uno o más azúcares modificados (por ejemplo, 2'-fluororribosa, ribosa, 2'-desoxirribosa, arabinosa, y hexosa) en comparación con los de ácidos nucleicos naturales. En algunas modalidades, un ácido nucleico tiene una secuencia de nucleótidos que codifican un producto génico funcional tal como un ARN o proteína. En algunas modalidades, un ácido nucleico incluye uno o más intrones. En algunas modalidades, los ácidos nucleicos se preparan mediante uno o más de aislamiento a partir de una fuente natural, síntesis enzimática mediante polimerización basada en una plantilla complementaria (in vivo o in vitro), reproducción en una célula o sistema recombinantes y síntesis química. En algunas modalidades, un ácido nucleico es de al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500, 3000, 3500, 4000, 4500, 5000 o más residuos de longitud. En algunas modalidades, un ácido nucleico es parcial o completamente monocatenario; en algunas modalidades, un ácido nucleico es parcial o completamente bicatenario. En algunas modalidades un ácido nucleico tiene una secuencia de nucleótidos que comprende al menos un elemento que codifica, o es el complemento de una secuencia que codifica, un polipéptido. En algunas modalidades, un ácido nucleico tiene actividad enzimática. En algunas modalidades, el ácido nucleico cumple una función mecánica, por ejemplo en un complejo de ribonucleoproteína o un ARN de transferencia.
Referencia: tal como se usa en la presente descripción, describe un estándar o control con relación al cual se realiza una comparación. Por ejemplo, en algunas modalidades, un agente, animal, individuo, población, muestra, secuencia, o valor de interés se compara con un agente de referencia o control, animal, individuo, población, muestra, secuencia o valor. En algunas modalidades, una referencia o control se analiza y/o se determina sustancialmente de manera simultánea con el objeto de prueba o determinación de interés. En algunas modalidades, una referencia o control es una referencia o control históricos, opcionalmente materializados en un
medio tangible. Típicamente, como entenderán los expertos en la técnica, una referencia o control se determina o se caracteriza en condiciones o circunstancias comparables a las utilizadas en la evaluación. Los expertos en la técnica apreciarán cuando existan suficientes similitudes para justificar la seguridad en y/o la comparación con respecto a una posible referencia o control particular.
Identificador de molécula única (SMI): tal como se usa en la presente descripción, el término "identificador de molécula única" o "SMI" (que puede denominarse "etiqueta", "código de barras", "código de barras molecular", "identificador molecular sencillo" o "UMI", entre otros nombres) se refiere a cualquier material (por ejemplo, una secuencia de nucleótidos, una característica de una molécula de ácido nucleico) que es capaz de distinguir una molécula individual en una gran población heterogénea de moléculas. En algunas modalidades, un SMI puede ser o comprender un SMI aplicado exógenamente. En algunas modalidades, un SMI aplicado exógenamente puede ser o comprender una secuencia degenerada o semidegenerada. En algunas modalidades, los SMI sustancialmente degenerados pueden conocerse como identificadores moleculares únicos aleatorios (R-UMI). En algunas modalidades, un SMI puede comprender un código (por ejemplo, una secuencia de ácido nucleico) de un conjunto de códigos conocidos. En algunas modalidades, los códigos SMI predefinidos se conocen como identificadores moleculares únicos definidos (D-UMI). En algunas modalidades, un SMI puede ser o comprender un SMI endógeno. En algunas modalidades, un SMI endógeno puede ser o comprender información relacionada con puntos de corte específicos de una secuencia objetivo, o las características relacionadas con los extremos terminales de moléculas individuales que comprenden una secuencia objetivo. En algunas modalidades, un SMI puede relacionarse con una variación de secuencia en una molécula de ácido nucleico causada por daño aleatorio o semialeatorio, modificación química, modificación enzimática u otra modificación a la molécula de ácido nucleico. En algunas modalidades, la modificación puede ser la desaminación de metilcitosina. En algunas modalidades, la modificación puede requerir sitios de cortes del ácido nucleico. En algunas modalidades, un SMI puede comprender elementos tanto exógenos como endógenos. En algunas modalidades, un SMI puede comprender elementos SMI adyacentes físicamente. En algunas modalidades, los elementos SMI pueden ser distintos espacialmente en una molécula. En algunas modalidades, un SMI puede ser un ácido no nucleico. En algunas modalidades, un SMI puede comprender dos o más tipos diferentes de información de SMI. Diversas modalidades de SMI se describen adicionalmente en la solicitud de patente internacional núm. WO2017/100441.
Elemento definitorio de hebra (SDE): tal como se usa en la presente descripción, el término "elemento definitorio de hebra" o "SDE" se refiere a cualquier material que permita la identificación de una hebra específica de un material de ácido nucleico de doble hebra y, por lo tanto, la diferenciación de la otra hebra/de la complementaria (por ejemplo, cualquier material que haga que los productos de amplificación de cada uno de los dos ácidos nucleicos monocatenarios resultantes de un ácido nucleico bicatenario objetivo sean sustancialmente distinguibles entre sí después de la secuenciación u otra interrogación del ácido nucleico). En algunas modalidades, un SDE puede ser o comprender uno o más segmentos de secuencia sustancialmente no complementaria dentro de una secuencia adaptadora. En modalidades particulares, un segmento de secuencia sustancialmente no complementaria dentro de una secuencia adaptadora puede proporcionarse mediante una molécula adaptadora que comprende una forma de Y o una forma de "lazo". En otras modalidades, un segmento de secuencia sustancialmente no complementaria dentro de una secuencia adaptadora puede formar una "burbuja" no emparejada en medio de secuencias complementarias adyacentes dentro de una secuencia adaptadora. En otras modalidades, un SDE puede abarcar una modificación de ácido nucleico. En algunas modalidades, un SDE puede comprender la separación física de hebras apareadas en compartimentos de reacción físicamente separados. En algunas modalidades, un SDE puede comprender una modificación química. En algunas modalidades, un SDE puede comprender un ácido nucleico modificado. En algunas modalidades, un SDE puede relacionarse con una variación de secuencia en una molécula de ácido nucleico causada por daño aleatorio o semialeatorio, modificación química, modificación enzimática u otra modificación de la molécula de ácido nucleico. En algunas modalidades, la modificación puede ser la desaminación de metilcitosina. En algunas modalidades, la modificación puede requerir sitios de cortes del ácido nucleico. Diversas modalidades de SDE se describen adicionalmente en la publicación de patente internacional núm. WO2017/100441.
Sujeto: como se usa en la presente descripción, el término "sujeto" se refiere a un organismo, típicamente un mamífero (por ejemplo, un ser humano, que en algunas modalidades incluye formas humanas prenatales). En algunas modalidades, un sujeto padece de una enfermedad, trastorno o afección relevante. En algunas modalidades, un sujeto es susceptible a una enfermedad, trastorno o afección. En algunas modalidades, un sujeto muestra uno o más síntomas o características de una enfermedad, trastorno o afección. En algunas modalidades, un sujeto no muestra ningún síntoma o característica de una enfermedad, trastorno o afección. En algunas modalidades, un sujeto tiene una o más características de susceptibilidad o riesgo de una enfermedad, trastorno, o afección. En algunas modalidades, un sujeto es un paciente. En algunas modalidades, un sujeto es un individuo al que se le ha administrado el diagnóstico y/o la terapia.
Sustancialmente: tal como se usa en la presente descripción, el término "sustancialmente" se refiere a la condición cualitativa de exhibir una extensión o grado total o casi total de una característica o propiedad de interés. Un experto en las técnicas biológicas entenderá que los fenómenos biológicos y químicos casi nunca, si alguna vez, llegan a completarse y/o avanzan hasta su completamiento o alcanzan o evitan un resultado absoluto. Por lo tanto el término
"sustancialmente" se usa en la presente descripción para capturar la posible ausencia de completamiento inherente en muchos fenómenos biológicos y químicos.
Descripción detallada
Modalidades seleccionadas de los métodos de secuenciación dúplex y adaptadores y reactivos asociados
La secuenciación dúplex (DS) es un método para producir secuencias de ADN con errores corregidos a partir de las moléculas de ácido nucleico de doble hebra, y que se describió originalmente en la solicitud de patente internacional núm. WO 2013/142389y en la patente de Estados Unidos núm. 9,752,188. Como se ilustra en las figuras 1A-1C, y en determinados aspectos de la tecnología, DS puede usarse para secuenciar independientemente ambas hebras de moléculas de a Dn individuales de tal manera que las lecturas de secuencias derivadas se puedan reconocer como originadas a partir de la misma molécula madre de ácido nucleico bicatenaria durante MPS, pero también se diferencian entre sí como entidades distinguibles después de la secuenciación. Las lecturas de secuencia resultantes de cada hebra se comparan después con el propósito de obtener una secuencia con corrección de errores de la molécula de ácido nucleico bicatenaria original conocida como una secuencia consenso dúplex (DCS). El proceso de secuenciación dúplex permite confirmar explícitamente que ambas hebras de una molécula de ácido nucleico bicatenaria original están representadas en los datos de secuenciación generados usados para formar una DCS.
En determinadas modalidades, los métodos que incorporan DS pueden incluir la ligación de uno o más adaptadores de secuenciación a una molécula de ácido nucleico bicatenario objetivo, que comprende una secuencia de ácido nucleico objetivo de la primera hebra y una secuencia nucleica objetivo de la segunda hebra, para producir un complejo de ácido nucleico objetivo bicatenario (por ejemplo, figura 1A).
En diversas modalidades, un complejo de ácido nucleico objetivo resultante puede incluir al menos una secuencia SMI, que puede implicar una secuencia degenerada o semidegenerada aplicada exógenamente, información endógena relacionada con los puntos de corte específicos de la molécula de ácido nucleico bicatenario objetivo, o una de sus combinaciones. El SMI puede hacer que la molécula de ácido nucleico objetivo sea sustancialmente distinguible de la pluralidad de otras moléculas en una población que se está secuenciando. La característica sustancialmente distinguible del elemento SMI puede ser portada independientemente por cada una de las hebras simples que forman la molécula de ácido nucleico bicatenario de manera que los productos de amplificación derivados de cada hebra pueden reconocerse como provenientes de la misma molécula de ácido nucleico bicatenario única sustancialmente original después de la secuenciación. En otras modalidades, el SMI puede incluir información adicional y/o puede usarse en otros métodos para los que es útil tal funcionalidad de distinción de molécula, tales como los descritos en las publicaciones mencionadas anteriormente. En otra modalidad, el elemento SMI puede incorporarse después de la ligación del adaptador. En algunas modalidades, el SMI es de naturaleza bicatenaria. En otras modalidades, es de naturaleza monocatenaria. En otras modalidades, es una combinación de naturaleza monocatenaria y bicatenaria.
En algunas modalidades, cada complejo de secuencia de ácido nucleico objetivo bicatenario puede incluir además un elemento (por ejemplo, un SDE) que hace que los productos de amplificación de los dos ácidos nucleicos monocatenarios que forman la molécula de ácido nucleico bicatenario objetivo distinguibles sustancialmente entre sí después de la secuenciación. En una modalidad, un SDE puede comprender sitios de cebadores asimétricos comprendidos dentro de los adaptadores de secuenciación, o, en otros arreglos, pueden introducirse asimetrías de secuencia en las moléculas adaptadoras no dentro de las secuencias de los cebadores, de manera que al menos una posición en las secuencias de nucleótidos del complejo de secuencia de ácido nucleico objetivo de la primera hebra y el complejo de secuencia de ácido nucleico objetivo de la segunda hebra son diferentes entre sí después de la amplificación y secuenciación. En otras modalidades, el SMI puede comprender otra asimetría bioquímica entre las dos hebras que difiere de las secuencias de nucleótidos canónicas A, T, C, G o U, pero se convierte en al menos una diferencia de secuencia de nucleótidos canónica en las dos moléculas amplificadas y secuenciadas. Aún en otra modalidad, el SDE puede ser un medio de separar físicamente las dos hebras antes de la amplificación, de manera que los productos de amplificación derivados de la secuencia de ácido nucleico objetivo de la primera hebra y de la secuencia de ácido nucleico objetivo de la segunda hebra se mantengan en un aislamiento físico sustancial entre sí con el propósito de mantener una distinción entre los dos. Pueden utilizarse otros arreglos o metodologías para proporcionar una función SDE que permita distinguir la primera y la segunda hebras, tales como las descritas en las publicaciones mencionadas anteriormente, u otros métodos que sirvan para el propósito funcional descrito.
Después de generar el complejo de ácido nucleico bicatenario objetivo que comprende al menos un SMI y al menos un SDE, o donde uno o ambos de estos elementos se introducirán subsecuentemente, el complejo puede someterse a amplificación de ADN, tal como con PCR, o cualquier otro método bioquímico de amplificación de ADN (por ejemplo, amplificación de círculo rodante, amplificación de desplazamiento múltiple, amplificación isotérmica, amplificación de puente o amplificación unida a la superficie, de manera que se producen una o más copias de la secuencia de ácido nucleico objetivo de la primera hebra y una o más copias de la secuencia de ácido nucleico objetivo de la segunda hebra (por ejemplo, figura 1B). La una o más copias de amplificación de la molécula de ácido nucleico objetivo de la primera hebra y la una o más copias de amplificación de la segunda molécula de ácido
nucleico objetivo pueden luego someterse a secuenciación de ADN, preferentemente mediante el uso de una plataforma de secuenciación de ADN masivamente paralela de "próxima generación" ( por ejemplo, figura 1B).
Las lecturas de secuencia producidas a partir de la molécula de ácido nucleico objetivo de la primera hebra y la molécula de ácido nucleico objetivo de la segunda hebra derivada de la molécula de ácido nucleico objetivo bicatenaria original pueden identificarse en base a compartir un SMI sustancialmente único relacionado y que se distingue de la molécula de ácido nucleico objetivo de la hebra opuesta en virtud de una SDE. En algunas modalidades, el SMI puede ser una secuencia basada en un código de corrección de errores basado matemáticamente (por ejemplo, un código de Hamming), de manera que determinados errores de amplificación, errores de secuenciación o errores de síntesis de SMI pueden tolerarse con el propósito de relacionar las secuencias de las secuencias SMI en hebras complementarias de un dúplex original (por ejemplo, una molécula de ácido nucleico bicatenario). Por ejemplo, con un SMI exógeno bicatenario donde el SMI comprende 15 pares de bases de secuencia completamente degenerada de bases de ADN canónico, existirán un estimado de 4A15 = 1,073,741,824 variantes de SMI en una población de SMI completamente degenerados. Si se recuperan dos SMI de las lecturas de datos de secuenciación que difieren solo en un nucleótido dentro de la secuencia SMI de una población de 10000 SMI muestreados, puede calcularse matemáticamente la probabilidad de que esto ocurra por azar y se decide si es más probable que la diferencia de un solo par de bases refleje uno de los tipos de errores antes mencionados y pueda determinarse efectivamente que las secuencias SMI derivan de la misma molécula dúplex original. En algunas modalidades donde el SMI es, al menos en parte, una secuencia aplicada exógenamente donde las variantes de secuencia no están completamente degeneradas entre sí y son, al menos en parte, secuencias conocidas, la identidad de las secuencias conocidas puede, en algunas modalidades, diseñarse de manera que uno o más errores de los tipos antes mencionados no convertirán la identidad de una secuencia SMI conocida a la de otra secuencia SMI, de manera que se reduce la probabilidad de que una SMI sea malinterpretada como la de otra SMI. En algunas modalidades, esta estrategia de diseño SMI comprende un enfoque del código Hamming o derivado de este. Una vez identificados, una o más lecturas de secuencia producidas a partir de la molécula de ácido nucleico objetivo de la primera hebra se comparan con una o más lecturas de secuencia producidas a partir de la molécula de ácido nucleico objetivo de la segunda hebra para producir una secuencia de molécula de ácido nucleico objetivo con corrección de errores (por ejemplo, figura 1C). Por ejemplo, las posiciones de nucleótidos donde las bases de las secuencias de ácido nucleico objetivo de la primera y segunda hebra coinciden se consideran secuencias verdaderas, mientras que las posiciones de nucleótidos que no coinciden entre las dos hebras se reconocen como sitios potenciales de errores técnicos que pueden descartarse, eliminarse, corregirse, o identificarse de cualquier otra manera. Por lo tanto, puede producirse una secuencia con corrección de errores de la molécula de ácido nucleico objetivo bicatenaria original (mostrada en la figura 1C).
Alternativamente, en algunas modalidades, los sitios de no coincidencia de secuencia entre las dos hebras pueden reconocerse como sitios potenciales de desapareamientos derivados biológicamente en la molécula de ácido nucleico objetivo bicatenaria original. Alternativamente, en algunas modalidades, los sitios de no coincidencia de secuencia entre las dos hebras pueden reconocerse como sitios potenciales de desapareamientos derivados de la síntesis de ADN en la molécula de ácido nucleico objetivo bicatenaria original. Alternativamente, en algunas modalidades, los sitios de no coincidencia de secuencia entre las dos hebras pueden reconocerse como sitios potenciales donde una base de nucleótidos dañada o modificada estaba presente en una o ambas hebras y se convirtió en un desapareamiento mediante un proceso enzimático (por ejemplo, una ADN polimerasa, una ADN glicosilasa u otra enzima modificadora de ácido nucleico o proceso químico). En algunas modalidades, este hallazgo posterior puede usarse para inferir la presencia de daño del ácido nucleico o modificación de nucleótidos antes del proceso enzimático o tratamiento químico.
La figura 2 es un gráfico que traza el valor predictivo positivo teórico en función de la frecuencia del alelo variante en una población molecular para la secuenciación de próxima generación (NGS), la corrección de errores basada en etiquetas monocatenarias y la corrección de errores de secuenciación dúplex de acuerdo con ciertos aspectos de la presente descripción. Con referencia a la figura 2, el valor pronosticado positivo (por ejemplo, el número esperado de llamadas positivas correctas dividido por el número total de llamadas positivas) se representa en función de la frecuencia del alelo variante en una población molecular para la secuenciación de próxima generación (NGS), monocatenario corrección de errores basada en etiquetas y corrección de errores DS de una tasa de error especificada. Como se ve por la superposición de curvas, casi todas las llamadas mutantes serán correctas mediante el uso de cualquier método si la frecuencia de las variantes detectadas es mayor que 1 por 10. Sin embargo, las tasas de error de la secuenciación estándar de Illumina y la corrección de errores basada en etiquetas monocatenarias dan como resultado pérdidas críticas en el valor predictivo positivo en frecuencias variantes de ~1 por 100 y 1 por 1000, respectivamente. La tasa de error extremadamente baja conferida por DS permite la identificación segura de variantes por debajo de 1 por 100000 (línea de puntos).
En algunas modalidades, y de acuerdo con aspectos de la presente tecnología, las lecturas de secuenciación generadas a partir de las etapas de DS discutidos en la presente descripción pueden filtrarse adicionalmente para eliminar las lecturas de secuenciación de moléculas de ADN dañadas (por ejemplo, dañadas durante el almacenamiento, envío, durante o después de la extracción del tejido o sangre, durante o después de la preparación de la biblioteca, etcétera). Por ejemplo, las enzimas de reparación del ADN, tales como la uracil-ADN glicosilasa (UDG), la formamidopirimidina ADN glicosilasa (FPG) y la 8-oxoguanina ADN glicosilasa (OGG1), pueden utilizarse
para eliminar o corregir el daño del ADN (por ejemplo, el daño del ADN in vitro o in vivo). Estas enzimas de reparación del ADN, por ejemplo, son glicosilasas que eliminan las bases dañadas del ADN. Por ejemplo, la UDG elimina el uracilo que resulta de la desaminación de la citosina (causada por la hidrólisis espontánea de la citosina) y la FPG elimina la 8-oxo-guanina (por ejemplo, una lesión común del ADN que resulta de especies reactivas de oxígeno). La FPG, además, tiene actividad liasa que puede generar una brecha de 1 base en sitios abásicos. Tales sitios abásicos generalmente no se amplificarán subsecuentemente por PCR, por ejemplo, porque la polimerasa falla al copiar de la plantilla. En consecuencia, el uso de tales enzimas de reparación/eliminación de daños en el ADN puede eliminar eficazmente el ADN dañado que no tiene una mutación verdadera pero que, de cualquier otra manera, podría no detectarse como un error después de la secuenciación y el análisis de secuencia dúplex. Aunque un error debido a una base dañada a menudo puede corregirse mediante la DS, en casos excepcionales, en teoría, podría producirse un error complementario en la misma posición en ambas hebras, por lo tanto, reducir el daño por aumento de error puede reducir la probabilidad de artefactos. Además, durante la preparación de la biblioteca, determinados fragmentos de ADN a secuenciar pueden ser monocatenarios a partir de su fuente o desde etapas de procesamiento (por ejemplo, cizallamiento mecánico del ADN). Estas regiones se convierten, típicamente, en ADN bicatenario durante una etapa de "reparación de extremos" conocida en la técnica, de manera que una ADN polimerasa y los sustratos nucleosídicos se añaden a una muestra de ADN para extender los extremos 5' ahuecados. Un sitio mutagénico de daño en el ADN en la porción monocatenaria del ADN que se copia (es decir, un saliente 5' monocatenario en uno o ambos extremos del dúplex de ADN o mellas o huecos internos monocatenarios) puede causar un error durante la reacción de polimerización que podría generar una mutación monocatenaria, un error de síntesis o un sitio de daño del ácido nucleico en una forma bicatenaria que podría malinterpretarse en la secuencia consenso final dúplex como una verdadera mutación de manera que la mutación verdadera estaba presente en la molécula de ácido nucleico bicatenaria original entrelazada, cuando, de hecho, no lo era. Este escenario, denominado "pseudodúplex", puede reducirse o prevenirse mediante el uso de tales enzimas de eliminación/reparación de daños. En otras modalidades, esta ocurrencia puede reducirse o eliminarse mediante el uso de estrategias para destruir o evitar que se formen porciones monocatenarias de la molécula dúplex original (por ejemplo, el uso de determinadas enzimas que se usan para fragmentar el material original de ácido nucleico bicatenario en lugar del cizallamiento mecánico o determinadas otras enzimas que pueden dejar mellas o brechas). En otras modalidades, el uso de procesos para eliminar porciones monocatenarias de ácidos nucleicos bicatenarios originales (por ejemplo, nucleasas específicas monocatenarias tales como la nucleasa S1 o nucleasa de frijol de oro) pueden utilizarse para un propósito similar.
En modalidades adicionales, las lecturas de secuenciación generadas a partir de las etapas de DS discutidas en la presente descripción pueden filtrarse adicionalmente para eliminar mutaciones falsas mediante el recorte de los extremos de las lecturas más propensas a los artefactos pseudodúplex. Por ejemplo, la fragmentación del ADN puede generar porciones monocatenarias en los extremos de la molécula bicatenaria. Estas porciones monocatenarias pueden rellenarse (por ejemplo, mediante las polimerasas Klenow o T4) durante la reparación de los extremos. En algunos casos, las polimerasas cometen errores de copia en estas regiones extremas reparadas que conducen a la generación de "moléculas pseudodúplex". Estos artefactos de preparación de la biblioteca pueden parecer incorrectamente mutaciones verdaderas una vez secuenciados. Estos, como un resultado de los mecanismos de reparación de extremo, pueden eliminarse o reducirse a partir del análisis posterior a la secuenciación mediante el recorte de los extremos de las lecturas de secuenciación para excluir cualquier mutación que pueda haber ocurrido en regiones de mayor riesgo, de esta manera se reduce el número de mutaciones falsas. En una modalidad, tales recortes de las lecturas de secuenciación puede realizarse automáticamente (por ejemplo, una etapa normal del proceso). En otra modalidad, puede evaluarse una frecuencia de mutación para las regiones del extremo del fragmento y si se observa un nivel umbral de mutaciones en las regiones del extremo del fragmento, puede realizarse el recorte de lectura de secuenciación antes de generar una lectura de secuencia consenso bicatenaria de los fragmentos de ADN.
El alto grado de corrección de errores proporcionado por la tecnología de comparación de hebras de la secuenciación dúplex reduce los errores de secuenciación de las moléculas de ácido nucleico bicatenario en múltiples órdenes de magnitud en comparación con los métodos de secuenciación estándar de próxima generación. Esta reducción de errores mejora la precisión de la secuenciación en casi todos los tipos de secuencias, pero puede ser particularmente muy adecuada para secuencias bioquímicamente desafiantes que se conocen bien en la técnica por ser particularmente propensas a errores. Un ejemplo no limitante de este tipo de secuencia son los homopolímeros u otros microsatélites/repeticiones cortas en tándem. Otro ejemplo no limitante de secuencias propensas a errores que se benefician de la corrección de errores de DS son las moléculas que se han dañado, por ejemplo, por calentamiento, radiación, estrés mecánico, o una diversidad de exposiciones químicas que crean aductos químicos que son propensos a errores durante la copia por una o más polimerasas de nucleótidos. En modalidades adicionales, DS puede usarse, además, para la detección precisa de variantes de secuencia minoritarias entre una población de moléculas de ácido nucleico bicatenario. Un ejemplo no limitante de esta aplicación es la detección de un pequeño número de moléculas de ADN derivadas de un cáncer, entre un mayor número de moléculas no mutadas de tejidos no cancerosos dentro de un sujeto. Otra aplicación no limitante para la detección de variantes raras por DS es la detección forense del ADN de un individuo mezclado en baja abundancia con el ADN de otro individuo de un genotipo diferente.
Se ha demostrado que DS tiene un gran éxito en la eliminación tanto de la amplificación como de la secuenciación/artefactos derivados del secuenciador en el ADN mitocondrial y nuclear. Sin embargo, determinados estudios anteriores se han centrado en la detección de mutaciones puntuales somáticas y de inserciones y deleciones pequeñas (por ejemplo, <5 pb). Al abordar algunos de los desafíos asociados con el análisis forense (por ejemplo, eliminación de tartamudeos de PCR, niveles bajos de ADN, muestras entremezcladas, etc.), DS representa una gran promesa para la comunidad forense. Por ejemplo, y en referencia a las figuras 3A y 3B, DS ha demostrado la capacidad de eliminar el tartamudeo de PCR en comparación con MPS convencional. En este ejemplo, se secuenciaron tres loci CODIS representativos del ADN del material de referencia estándar Promega 2800M largo mediante el uso de MPS convencional (Figura 3A) y DS (Figura 3B) en una plataforma Illumina MiSeq con lecturas de extremos emparejados de 300 pb, y los datos se visualizaron con la herramienta de llamada de alelos STRait-Razor STR. La figura 3A muestra tres gráficos que muestran el genotipo CODIS para cada uno de los tres loci CODIS frente a un número de lecturas de secuenciación en ausencia de corrección de errores (por ejemplo, MPS convencional) y muestra varios eventos de tartamudeo (flechas negras). En comparación, y como se muestra en la figura 3B, DS eliminó los eventos de tartamudeo para los mismos tres loci CODIS. Se observan resultados similares en todos los loci CODIS 13 originales. En consecuencia, diversos aspectos de la tecnología DS pueden superar algunas de las limitaciones experimentadas por las metodologías convencionales con respecto al análisis forense. Otros aspectos del análisis forense, además de otras aplicaciones de DS, también pueden beneficiarse de cualquier mejora en diversos aspectos de la eficiencia de conversión, o el porcentaje de ADN de entrada que se convierte en datos de secuencia con corrección de errores. El análisis forense puede referirse a aplicaciones relacionadas con delitos humanos, desastres naturales, incidentes con víctimas en masa, caza furtiva de animales u otros reinos de vida, tráfico o uso indebido, identificación de restos humanos o animales, identificación de agresiones, identificación de personas desaparecidas, identificación de agresiones sexuales, aplicaciones paleontológicas, y aplicaciones arqueológicas entre otros.
Con respecto a la eficiencia de un proceso de DS, en la presente descripción se describen adicionalmente dos tipos de eficiencia: eficiencia de conversión y eficiencia de flujo de trabajo. Con el fin de discutir la eficiencia de DS, la eficiencia de conversión se puede definir como la fracción de moléculas de ácido nucleico únicas ingresadas en una reacción de preparación de la biblioteca de secuenciación a partir de la cual se produce al menos una lectura de secuencia consenso dúplex. La eficiencia del flujo de trabajo puede relacionarse con ineficiencias relativas con la cantidad de tiempo, la cantidad relativa de etapas y/o el costo financiero de los reactivos/materiales necesarios para llevar a cabo estas etapas para producir una biblioteca de secuenciación dúplex y/o llevar a cabo un enriquecimiento específico para las secuencias de interés.
En algunos casos, las limitaciones de la eficiencia de conversión y la eficiencia del flujo de trabajo, o ambas, pueden limitar la utilidad de DS de alta precisión para algunas aplicaciones en las que, de cualquier otra manera, sería muy adecuado. Por ejemplo, una eficiencia de conversión baja daría como resultado situaciones en las que el número de copias de un ácido nucleico de doble hebra objetivo es limitado, lo que puede dar como resultado una cantidad de información de secuencia producida inferior a la deseada. Los ejemplos no limitantes de este concepto incluyen ADN de células tumorales circulantes o ADN libre de células derivado de tumores, o bebés prenatales que se vierten en fluidos corporales tales como plasma y se entremezclan con un exceso de ADN de otros tejidos. Aunque DS típicamente tiene la precisión para poder resolver una molécula mutante entre más de cien mil moléculas no mutadas, si solo hay 10000 moléculas disponibles en una muestra, por ejemplo, e incluso con la eficiencia ideal de convertirlas en lecturas de secuencia de consenso dúplex siendo 100 %, la frecuencia de mutación más baja que podría medirse sería 1/(10 000 * 100 %) = 1/10 000. Como diagnóstico clínico, tener la máxima sensibilidad para detectar la señal de bajo nivel de un cáncer o una mutación terapéuticamente relevante puede ser importante y, por lo tanto, una eficiencia de conversión relativamente baja sería indeseable en este contexto. De manera similar, en aplicaciones forenses, a menudo se dispone de muy poco ADN para realizar pruebas. Cuando solo se pueden recuperar cantidades de nanogramos o picogramos de la escena de un crimen o del sitio de un desastre natural, y donde el ADN de múltiples individuos se mezcla, tener la máxima eficiencia de conversión puede ser importante para poder detectar la presencia del ADN de todos los individuos dentro de la mezcla.
En algunos casos, las ineficiencias del flujo de trabajo pueden ser un desafío similar para determinadas aplicaciones de interrogación de ácidos nucleicos. Un ejemplo no limitativo de esto es en las pruebas de microbiología clínica. A veces se desea detectar rápidamente la naturaleza de uno o más organismos infecciosos, por ejemplo, una infección microbiana o polimicrobiana del torrente sanguíneo en la que algunos organismos son resistentes a antibióticos particulares en función de una variante genética única que portan, pero el tiempo que lleva el cultivo y determinar empíricamente la sensibilidad a los antibióticos de los organismos infecciosos es mucho más largo que el tiempo dentro del cual se debe tomar una decisión terapéutica sobre los antibióticos que se usarán para el tratamiento. La secuenciación del ADN del ADN de la sangre (u otro tejido o fluido corporal infectado) tiene el potencial de ser más rápida, y DS, entre otros métodos de secuenciación de alta precisión, por ejemplo, podría detectar con mucha precisión variantes minoritarias terapéuticamente importantes en la población infecciosa basándose en firma de ADN. Como el tiempo de respuesta del flujo de trabajo para la generación de datos puede ser crítico para determinar las opciones de tratamiento (por ejemplo, como en el ejemplo utilizado en la presente descripción), también serían deseables aplicaciones para aumentar la velocidad para llegar a la salida de datos.
Además, en la presente descripción se describen métodos para el enriquecimiento de secuencias de ácidos nucleicos dirigidos, composiciones que pueden usarse en los métodos de la invención y usos de dicho enriquecimiento para aplicaciones de secuenciación de ácidos nucleicos con corrección de errores que proporcionan una mejora en el costo, la conversión de moléculas secuenciadas y la eficiencia de tiempo de generación de moléculas marcadas para secuenciación dirigida de ultra alta precisión.
SPLiT-DS
En algunas modalidades, los métodos proporcionados proporcionan estrategias de enriquecimiento dirigidas basadas en PCR compatibles con el uso de códigos de barras moleculares para la corrección de errores. La figura 4 es una ilustración conceptual de una estrategia de enriquecimiento de secuenciación que utiliza PCR separadas de Plantillas Enlazadas para las etapas de método de secuenciación ("SPLiT-DS") de acuerdo con una modalidad de la presente tecnología. Con referencia a la figura 4, y en una modalidad, un enfoque SPLiT-DS puede comenzar con el etiquetado (por ejemplo, etiquetado) de material de ácido nucleico bicatenario fragmentado (por ejemplo, de una muestra de ADN) con códigos de barras moleculares de manera similar a como se describió anteriormente y con respecto a un protocolo de construcción de biblioteca DS estándar (por ejemplo, como se ilustra en la figura iB). En algunas modalidades, el material de ácido nucleico bicatenario puede estar fragmentado (por ejemplo, con ADN libre de células, ADN dañado, etc.); sin embargo, en otras modalidades, diversas etapas pueden incluir la fragmentación del material de ácido nucleico mediante cizallamiento mecánico, tal como sonicación, u otros métodos de corte de ADN, como se describió más adelante en la presente descripción. Los aspectos del etiquetado del material de ácido nucleico bicatenario fragmentado pueden incluir la reparación de extremos y la cola 3'-dA, si se requiere en una aplicación particular, seguida de la ligación de los fragmentos de ácido nucleico bicatenario con adaptadores DS que contienen un SMI (Figura 4, etapa 1). En otras modalidades, el SMI puede ser una secuencia endógena o una combinación de exógena y endógena para relacionar de forma única la información de ambas hebras de una molécula de ácido nucleico original. Después de la ligación de las moléculas adaptadoras al material de ácido nucleico bicatenario, el método puede continuar con la amplificación (por ejemplo, amplificación por PCR, amplificación de círculo rodante, amplificación de desplazamiento múltiple, amplificación isotérmica, amplificación de puente, amplificación unida a superficie, etc.) (Figura 4, etapa 2).
En determinadas modalidades, pueden usarse cebadores específicos para, por ejemplo, una o más secuencias adaptadoras, para amplificar cada hebra del material de ácido nucleico dando como resultado múltiples copias de amplicones de ácido nucleico derivados de cada hebra de una molécula de ácido nucleico de doble hebra original conservando cada amplicón el SMI asociado originalmente (Figura 4, etapa 2). Después de la amplificación y las etapas asociadas para eliminar los subproductos de la reacción, la muestra se puede dividir (preferentemente, pero no necesariamente, de manera sustancialmente uniforme) en dos o más muestras separadas (por ejemplo, en tubos, en gotas de emulsión, en microcámaras, gotas aisladas en una superficie, u otros recipientes conocidos, denominados colectivamente "tubos") (Figura 4, etapa 3). Alternativamente, los productos amplificados de la amplificación pueden dividirse de una manera que no requiera que estén en solución, por ejemplo, uniéndose a las microperlas seguido de dividir la población de microperlas en dos cámaras o fijando los productos amplificados divididos a dos o más ubicaciones físicas distintas en una superficie. En la presente descripción, denominamos de manera similar a cualquiera de estas últimas poblaciones divididas como funcionalmente equivalentes y que se encuentran en "tubos" distintos. En el ejemplo mostrado en la figura 4, esta etapa da como resultado que se encuentre en cada tubo un promedio de la mitad de las copias de cualquier amplicón de hebra/código de barras determinado. En otras modalidades en las que la muestra original se divide en más de dos muestras separadas, dicha asignación de material de ácido nucleico dará como resultado un número reducido de amplicones relativamente comparable. Se debe señalar que la naturaleza aleatoria en la que se dividen los amplicones da como resultado una variación de esta media. Para tener en cuenta esta varianza, la distribución hipergeométrica (es decir, la probabilidad de seleccionar k copias de códigos de barras sin reemplazo) puede usarse como modelo para determinar el número mínimo de amplicones (por ejemplo, copias de PCR) de un SMI (por ejemplo, código de barras) que son necesarios para maximizar la posibilidad de que cada tubo contenga al menos una copia derivada de ambas hebras. Sin pretender ceñirse a una teoría en particular, se contempla que > 4 ciclos de PCR (es decir, 24 = 16 copias/código de barras) durante la etapa 2 garantiza una probabilidad de > 99 % de que cada copia de código de barras derivada de cada hebra se represente al menos una vez en cada tubo. En algunas modalidades, puede ser preferible dividir los productos amplificados de manera desigual. Si el material de ácido nucleico se divide entre más de dos tubos, pueden usarse ciclos de amplificación adicionales para generar copias adicionales para acomodar la división adicional. Después de dividir la muestra en dos tubos, la o las regiones de ácido nucleico objetivo (por ejemplo, regiones de interés, loci, etc.) se pueden enriquecer con PCR multiplex mediante el uso de cebadores específicos para una secuencia adaptadora y cebadores específicos para la o las regiones de ácido nucleico objetivo de interés (Figura 4, etapa 3). En otra modalidad, se puede añadir una etapa de amplificación lineal antes de la adición posterior del segundo cebador que permite la amplificación exponencial de la región objetivo de interés.
En determinadas modalidades, las PCR específicas de objetivos multiplexados se realizan de manera que los productos de PCR resultantes en cada tubo se derivan de solo una de las dos hebras (por ejemplo, "hebra superior" o "hebra inferior"). Como se muestra en la figura 4 (Etapa 3), esto se logra, en algunas modalidades, de la siguiente manera: En un primer tubo (que se muestra a la izquierda), un cebador al menos parcialmente complementario a
"Lectura 1" (por ejemplo, Illumina P5) de la secuencia adaptadora (Figura 4, etapa 3; flecha gris), y un cebador al menos parcialmente complementario a la región de ácido nucleico de interés y que contienen una secuencia adaptadora "Lectura 2" (es decir, Illumina P7, flecha negra con cola gris) se usan para amplificar específicamente (por ejemplo, enriquecer) la "hebra superior" de la molécula de ácido nucleico original (Figura 4, etapas 3 y 4). En esta primera muestra, y debido a la naturaleza de la SDE (por ejemplo, en este caso, la orientación única de la secuencia adaptadora con respecto al inserto de ácido nucleico objetivo), la "hebra inferior" no se amplifica correctamente. Igualmente, en un segundo tubo (mostrado a la derecha), un cebador al menos parcialmente complementario a "Lectura 2" (por ejemplo, Illumina P5) de la secuencia adaptadora (Figura 4, etapa 3, flecha gris) y un cebador al menos parcialmente complementario a la región del ácido nucleico de interés y que contienen una secuencia adaptadora de "Lectura 1" (es decir, Illumina P7, flecha negra con cola gris) se usan para amplificar específicamente (por ejemplo, enriquecer) la "hebra inferior" de la molécula de ácido nucleico original (Figura 4, etapas 3 y 4). En esta segunda muestra, la "hebra superior" no se amplifica correctamente. Después de la PCR u otro método de amplificación, se genera una pluralidad de copias de la "hebra superior" en el primer tubo y una pluralidad de copias de la "hebra inferior" en el segundo tubo. Dado que cada una de estas copias específicas del objetivo resultante tiene ambas secuencias adaptadoras disponibles en cada extremo del amplicón de ácido nucleico (por ejemplo, secuencias adaptadoras de Illumina P5 e Illumina P7), estos productos objetivo enriquecidos pueden secuenciarse mediante métodos MPS estándar.
La figura 5 es una ilustración conceptual de las etapas del método SPLiT-DS como se muestra y analiza con respecto a la figura 4, y que muestra además las etapas para secuenciar las copias múltiples de cada región objetivo enriquecida por PCR y generar una secuencia de consenso dúplex de acuerdo con una modalidad de la presente tecnología. Después de la secuenciación de las copias múltiples de la "hebra superior" del primer tubo y las copias múltiples de la "hebra inferior" del segundo tubo, los datos de secuenciación se pueden analizar con un enfoque similar al DS, de manera que las lecturas de secuenciación comparten el mismo contenido molecular. Los códigos de barras que se derivan de la hebra 'superior' o 'inferior' de la molécula de ácido nucleico objetivo de doble hebra original (que se encuentran en el primer y segundo tubo, respectivamente) se agrupan por separado. En algunas modalidades, las lecturas de secuenciación agrupadas de la "hebra superior" se usan para formar una secuencia consenso de la hebra superior (por ejemplo, una secuencia consenso monocatenaria (SSCS)) y las lecturas de secuenciación agrupadas de la "hebra inferior" se usan para formar una secuencia de consenso de hebra inferior (por ejemplo, SSCS). Con referencia a la figura 5, las SSCS superior e inferior se pueden comparar para generar una secuencia de consenso dúplex (DCS) que tenga nucleótidos que estén de acuerdo entre las dos hebras (por ejemplo, las variantes o mutaciones se consideran verdaderas si aparecen en las lecturas de secuenciación derivadas de ambas hebras (ver, por ejemplo, la figura 1C).
Por medio de ejemplo específico, en algunas modalidades, en la presente descripción se proporcionan métodos para generar una lectura de secuencia con corrección de errores de un material de ácido nucleico objetivo bicatenario, que incluye la etapa de ligar un material de ácido nucleico objetivo bicatenario a al menos una secuencia adaptadora, para formar un complejo de material de ácido nucleico objetivo con el adaptador, en donde la al menos una secuencia adaptadora comprende (a) una secuencia de identificación de molécula única (SMI) degenerada o semidegenerada que marca únicamente cada molécula del material de ácido nucleico objetivo bicatenario, y (b) una primera secuencia de nucleótidos adaptadora que marca una primera hebra del complejo del material de ácido nucleico objetivo con el adaptador, y una segunda secuencia de nucleótidos adaptadora que es al menos parcialmente no complementaria a la primera secuencia de nucleótidos que marca una segunda hebra del complejo del material de ácido nucleico objetivo con el adaptador de manera que cada hebra del complejo de material de ácido nucleico objetivo con el adaptador tenga una secuencia de nucleótidos claramente identificable con relación a su hebra complementaria. El método puede incluir a continuación las etapas de amplificar cada hebra del complejo adaptador-material de ácido nucleico objetivo para producir una pluralidad de amplicones del complejo adaptadorácido nucleico objetivo de la primera hebra y una pluralidad de amplicones del complejo adaptador-ácido nucleico objetivo de la segunda hebra, y separar los amplicones del complejo adaptador-ácido nucleico objetivo en una primera muestra y una segunda muestra. El método puede incluir además las etapas de amplificar la primera hebra en la primera muestra mediante el uso de un primer cebador al menos parcialmente complementario a la primera secuencia adaptadora de nucleótidos y un cebador al menos parcialmente complementario a una secuencia objetivo de interés para proporcionar un primer producto de ácido nucleico, y amplificar la segunda hebra en la segunda muestra mediante el uso de un segundo cebador al menos parcialmente complementario a la segunda secuencia adaptadora de nucleótidos y un cebador al menos parcialmente complementario a la secuencia objetivo de interés para proporcionar un segundo producto de ácido nucleico. El método puede incluir, además, las etapas de secuenciación de cada uno del primer producto de ácido nucleico y el segundo producto de ácido nucleico para producir una pluralidad de lecturas de secuencia de la primera hebra y una pluralidad de lecturas de secuencia de la segunda hebra, y confirmar la presencia de al menos una lectura de secuencia de la primera hebra y al menos una lectura de secuencia de la segunda hebra. El método puede incluir, además, la comparación de al menos una lectura de la secuencia de la primera hebra con al menos una lectura de la secuencia de la segunda hebra, y la generación de una lectura de secuencia con corrección de errores del material de ácido nucleico objetivo bicatenario descontando las posiciones de nucleótidos que no coinciden, o, alternativamente, eliminar lecturas comparadas de las secuencias de la primera y segunda hebra que tienen una o más posiciones de nucleótidos donde las lecturas de secuencia de la primera y segunda hebras comparadas no son complementarias.
Por medio de un ejemplo específico adicional, en algunas modalidades, en la presente descripción se proporcionan métodos para identificar una variante de ADN a partir de una muestra que incluye las etapas de ligar ambas hebras de un material de ácido nucleico (por ejemplo, una molécula de ADN objetivo bicatenaria) a al menos una molécula adaptadora asimétrica para formar un complejo del material de ácido nucleico objetivo con el adaptador que tiene una primera secuencia de nucleótidos asociada con una primera hebra de una molécula de ADN objetivo bicatenaria (por ejemplo, una hebra superior) y una segunda secuencia de nucleótidos que es al menos parcialmente no complementaria a la primera secuencia de nucleótidos asociada con una segunda hebra de la molécula de ADN objetivo bicatenaria (por ejemplo, una hebra inferior), y amplificar cada hebra del material de ácido nucleico objetivo con el adaptador, que resulta en que cada hebra genere un elemento distinto pero relacionado al conjunto de productos de ácido nucleico objetivo con el adaptador amplificado. El método también puede incluir las etapas de separar los productos de ADN objetivo del adaptador en una primera muestra y una segunda muestra, amplificar la hebra superior de los productos de ADN objetivo del adaptador en la primera muestra mediante el uso de un primer cebador específico (por ejemplo, en menos parcialmente complementario) a la primera secuencia de nucleótidos y un cebador al menos parcialmente complementario a una secuencia objetivo de interés para proporcionar un amplicón del complejo adaptador-ácido nucleico objetivo de hebra superior, y amplificar la hebra inferior en la segunda muestra mediante el uso de un segundo cebador específico (por ejemplo, al menos parcialmente complementario) a la segunda secuencia de nucleótidos y al segundo cebador para proporcionar un amplicón de complejo de adaptador de hebra inferior-ácido nucleico objetivo. El método puede incluir además las etapas de secuenciar cada amplicón del complejo adaptador-ácido nucleico objetivo de la hebra superior y el amplicón del complejo adaptador-ácido nucleico objetivo de la hebra inferior, confirmando la presencia de al menos una secuencia amplificada leída de cada hebra del complejo de ADN adaptador-ácido nucleico objetivo, y comparar al menos una lectura de secuencia amplificada obtenida de la hebra superior con al menos una lectura de secuencia amplificada obtenida de la hebra inferior para formar una lectura de secuencia consenso del material de ácido nucleico (por ejemplo, un ADN objetivo de molécula bicatenaria) que tiene solo bases de nucleótidos en las que la secuencia de ambas hebras del material de ácido nucleico (por ejemplo, una molécula de ADN objetivo bicatenaria) está de acuerdo, de manera que una variante que ocurre en una posición particular en la lectura de secuencia de consenso se identifica como una verdadera variante de ADN.
En algunas modalidades, en la presente descripción se proporcionan métodos para generar una secuencia consenso de alta precisión a partir de un material de ácido nucleico bicatenario, que incluye las etapas de etiquetar moléculas de ADN dúplex individuales con una molécula adaptadora para formar material de ADN etiquetado, en donde cada molécula adaptadora comprende (a) un identificador de molécula simple (SMI) degenerada o semidegenerada que marca de forma exclusiva la molécula de ADN dúplex, y (b) la primera y la segunda secuencia de nucleótidos del adaptador no complementarios que distingue una hebra superior original de una hebra inferior original de cada molécula de ADN individual dentro del material de ADN etiquetado, para cada molécula de ADN etiquetada, y generar un conjunto de duplicados de la hebra superior original de la molécula de ADN etiquetada y un conjunto de duplicados de la hebra inferior original de la molécula de ADN etiquetada para formar el material de ADN amplificado. El método también puede incluir las etapas de separar el material de ADN amplificado en una primera muestra y una segunda muestra, generar duplicados adicionales de la hebra superior original en la primera muestra mediante el uso de un cebador específico para una primera secuencia adaptadora de nucleótidos y un cebador en al menos parcialmente complementario a una secuencia objetivo de interés para proporcionar un primer producto de ácido nucleico, y generar duplicados adicionales de la hebra inferior original en la segunda muestra mediante el uso de un cebador específico para una segunda secuencia adaptadora de nucleótidos y el cebador (igual o diferente) al menos parcialmente complementario a la secuencia objetivo de interés para proporcionar un segundo producto de ácido nucleico. El método puede incluir además, las etapas para crear una primera secuencia consenso de una monocatenaria (SSCS) a partir de los duplicados de la hebra superior original y una segunda secuencia consenso monocatenaria (SSCS) a partir de los duplicados de la hebra inferior original, mediante la comparación del primer SSCS de la hebra superior original con el segundo SSCS de la hebra inferior original, y generar una secuencia consenso de alta precisión que solo tiene bases de nucleótidos en las que la secuencia de las primeras SSCS de la hebra superior original y la segunda SSCS de la hebra inferior original son complementarios.
Secuencias de identificador de molécula simple (SMIs)
De acuerdo con diversas modalidades, los métodos proporcionados y las composiciones descritas incluyen una o más secuencias SMI en cada hebra de un material de ácido nucleico. El SMI puede portarse independientemente por cada una de las hebras simples que resultan de una molécula de ácido nucleico bicatenario de manera que los productos de amplificación derivados de cada hebra pueden reconocerse como provenientes de la misma molécula de ácido nucleico bicatenario sustancialmente única original después de la secuenciación. En algunas modalidades, el SMI puede incluir información adicional y/o puede usarse en otros métodos para los que es útil tal funcionalidad de distinción de molécula, como reconocerá un experto en la técnica. En algunas modalidades, puede incorporarse un elemento SMI antes, sustancialmente simultáneamente, o después de la ligación de la secuencia adaptadora a un material de ácido nucleico.
En algunas modalidades, una secuencia SMI puede incluir al menos un ácido nucleico degenerado o semidegenerado. En otras modalidades, una secuencia SMI puede ser no degenerada. En algunas modalidades, el SMI puede ser la secuencia asociada con o cerca de un extremo del fragmento de la molécula de ácido nucleico (por
ejemplo, extremos cortados aleatoriamente o semialeatoriamente del material de ácido nucleico ligado). En algunas modalidades, puede considerarse una secuencia exógena junto con la secuencia correspondiente a extremos cortados aleatoria o semialeatoriamente del material de ácido nucleico ligado (por ejemplo, ADN) para obtener una secuencia SMI capaz de distinguir, por ejemplo, moléculas de ADN simples entre sí. En algunas modalidades, una secuencia SMI es una porción de una secuencia adaptadora que está ligada a una molécula de ácido nucleico bicatenaria. En determinadas modalidades, la secuencia adaptadora que comprende una secuencia SMI es bicatenaria de manera que cada hebra de la molécula de ácido nucleico bicatenaria incluye una SMI después de la ligación con la secuencia adaptadora. En otra modalidad, la secuencia SMI es monocatenaria antes o después de la ligación a una molécula de ácido nucleico bicatenaria y puede generarse una secuencia SMI complementaria mediante la extensión de la hebra opuesta con una ADN polimerasa para producir una secuencia SMI bicatenaria complementaria. En algunas modalidades, cada secuencia SMI puede incluir entre aproximadamente 1 a aproximadamente 30 ácidos nucleicos (por ejemplo, 1, 2, 3, 4, 5, 8, 10, 12, 14, 16, 18, 20, o más ácidos nucleicos degenerados o semidegenerados).
En algunas modalidades, un SMI es capaz de ligarse a uno o ambos de un material de ácido nucleico y una secuencia adaptadora. En algunas modalidades, un SMI puede ligarse a al menos uno de un saliente en T, un saliente en A, un saliente en CG, una base deshidroxilada, y un extremo romo de un material de ácido nucleico. En algunas modalidades, una secuencia de un SMI puede considerarse junto con (o diseñarse de acuerdo con) la secuencia correspondiente a, por ejemplo, extremos cortados aleatoria o semialeatoriamente de un material de ácido nucleico (por ejemplo, un material de ácido nucleico ligado), para obtener una secuencia SMI capaz de distinguir moléculas de ácido nucleico simple entre sí.
En algunas modalidades, al menos un SMI puede ser un SMI endógeno (por ejemplo, un SMI relacionado con un punto de corte (por ejemplo, un extremo de fragmento), por ejemplo, mediante el uso del propio punto de corte o mediante el uso de un número definido de nucleótidos en el material de ácido nucleico inmediatamente adyacente al punto de corte [por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 nucleótidos desde el punto de corte]). En algunas modalidades, al menos un SMI puede ser un SMI exógeno (por ejemplo, un SMI que comprende una secuencia que no se encuentra en un material de ácido nucleico objetivo).
En algunas modalidades, un SMI puede ser o comprender una porción de formación de imágenes (por ejemplo, una porción fluorescente o detectable ópticamente de cualquier otra manera). En algunas modalidades, tales SMI permiten la detección y/o cuantificación sin la necesidad de una etapa de amplificación.
En algunas modalidades, un elemento SMI puede comprender dos o más elementos SMI distintos que se ubican en diferentes localizaciones en el complejo de ácido nucleico objetivo con el adaptador.
Diversas modalidades de SMI se describen adicionalmente en la Solicitud de Patente Internacional Núm. WO2017/100441.
Elemento de definición de hebra (SDE)
En algunas modalidades, cada hebra de un material de ácido nucleico bicatenario puede incluir, además, un elemento que representa los productos de amplificación de los dos ácidos nucleicos monocatenarios que forman el material de ácido nucleico bicatenario objetivo sustancialmente distinguible entre sí después de la secuenciación. En algunas modalidades, un SDE puede ser o comprender sitios de cebadores asimétricos comprendidos dentro de un adaptador de secuenciación, o, en otros arreglos, pueden introducirse asimetrías de secuencia en las secuencias adaptadoras y no dentro de las secuencias de los cebadores, de manera que al menos una posición en las secuencias de nucleótido de un complejo de secuencia de ácido nucleico objetivo de la primera hebra y un complejo de secuencia de ácido nucleico objetivo de la segunda hebra son diferentes entre sí después de la amplificación y secuenciación. En otras modalidades, el SDE puede comprender otra asimetría bioquímica entre las dos hebras que difiere de las secuencias de nucleótidos canónicas A, T, C, G o U, pero se convierte en al menos una diferencia de secuencia canónica de nucleótidos en las dos moléculas amplificadas y secuenciadas. En otra modalidad más, el SDE puede ser o comprender un medio para separar físicamente las dos hebras antes de la amplificación, de manera que los productos de amplificación derivados de la secuencia de ácido nucleico objetivo de la primera hebra y la secuencia de ácido nucleico objetivo de la segunda hebra se mantengan en un aislamiento físico sustancial entre sí con el propósito de mantener una distinción entre los dos productos derivados de la amplificación. Pueden utilizarse otros arreglos o metodologías para proporcionar una función SDE que permita distinguir la primera y la segunda hebra.
En algunas modalidades, un SDE puede ser capaz de formar un lazo (por ejemplo, un lazo de horquilla). En algunas modalidades, un lazo puede comprender al menos un sitio de reconocimiento de endonucleasa. En algunas modalidades, el complejo de ácido nucleico objetivo puede contener un sitio de reconocimiento de endonucleasa que facilita un evento de escisión dentro del lazo. En algunas modalidades, un lazo puede comprender una secuencia de nucleótidos no canónica. En algunas modalidades, el nucleótido no canónico contenido puede ser reconocible por una o más enzimas que facilitan la escisión de la hebra. En algunas modalidades, el nucleótido no
canónico contenido puede ser dirigido por uno o más procesos químicos que facilitan la escisión de la hebra en el lazo. En algunas modalidades, el lazo puede contener un enlazador de ácido nucleico modificado al que puede dirigirse uno o más procesos enzimáticos, químicos o físicos que facilitan la escisión de la hebra en el lazo. En algunas modalidades, este enlazador modificado es un enlazador escindible por la luz.
Una diversidad de otras herramientas moleculares podrían servir como SMI y SDE. Además de los puntos de corte y las etiquetas basadas en el ADN, los métodos de compartimentación de una sola molécula que mantiene las hebras emparejadas en proximidad física u otros métodos de marcado de ácido no nucleico podrían cumplir la función relacionada con la hebra. De manera similar, el etiquetado químico asimétrico de las hebras de adaptadores en una forma que puedan separarse físicamente puede cumplir una función de SDE. Una variación recientemente descrita de la DS usa la conversión de bisulfito para transformar las asimetrías de las hebras de origen natural en forma de metilación de citosina en las diferencias de secuencia que distinguen las dos hebras. Aunque esta implementación limita los tipos de mutaciones que pueden detectarse, el concepto de capitalizar la asimetría natural es notable en el contexto de las tecnologías de secuenciación emergentes que pueden detectar directamente los nucleótidos modificados. Diversas modalidades de SDE se describen adicionalmente en la Publicación de Patente Internacional Núm. WO2017/100441.
Adaptadores y secuencias adaptadoras
En diversos arreglos, las moléculas adaptadoras que comprenden los SMI (por ejemplo, códigos de barras moleculares), SDE, sitios de cebadores, secuencias de células de flujo y/u otras características se contemplan para usar con muchas de las modalidades descritas en la presente descripción. En algunas modalidades, los adaptadores proporcionados pueden ser o comprender una o más secuencias complementarias o al menos parcialmente complementarias a los cebadores de PCR (por ejemplo, sitios de cebadores) que tienen al menos una de las siguientes propiedades: 1) alta especificidad con respecto al objetivo; 2) capacidad de ser multiplexado; y 3) exhibir una amplificación robusta y mínimamente sesgada.
En algunas modalidades, las moléculas adaptadoras pueden ser en forma de "Y", en forma de "U", en forma de "horquilla", tener una burbuja (por ejemplo, una porción de secuencia que no es complementaria) u otras características. En otras modalidades, las moléculas adaptadoras pueden comprender una forma de "Y", una forma de "U", una forma de "horquilla", o una burbuja. Determinados adaptadores pueden comprender nucleótidos modificados o no estándar, sitios de restricción, u otras características para la manipulación de la estructura o función in vitro. Las moléculas adaptadoras pueden ligarse a una variedad de material de ácido nucleico que tiene un extremo terminal. Por ejemplo, las moléculas adaptadoras pueden adaptarse para ligarse a un saliente en T, un saliente en A, un saliente en CG, un saliente en múltiples nucleótidos, una base deshidroxilada, un extremo romo de un material de ácido nucleico y el extremo de una molécula donde el 5' del objetivo está desfosforilado o de cualquier otra manera bloqueado a partir de la ligación tradicional. En otras modalidades, la molécula adaptadora puede contener una modificación desfosforilada o de cualquier otra manera una modificación que evita la ligación en el sitio de ligación 5' de la hebra. En las últimas dos modalidades, tales estrategias pueden ser útiles para prevenir la dimerización de los fragmentos de la biblioteca o de las moléculas adaptadoras.
Una secuencia adaptadora puede significar una secuencia monocatenaria, una secuencia bicatenaria, una secuencia complementaria, una secuencia no complementaria, una secuencia parcialmente complementaria, una secuencia asimétrica, una secuencia de unión del cebador, una secuencia de flujo de células, una secuencia de ligación u otra secuencia proporcionada por una molécula adaptadora. En modalidades particulares, una secuencia adaptadora puede significar una secuencia usada para la amplificación por medio de complemento a un oligonucleótido.
En algunas modalidades, los métodos y composiciones proporcionados incluyen al menos una secuencia adaptadora (por ejemplo, dos secuencias adaptadoras, una en cada uno de los extremos 5' y 3' de un material de ácido nucleico). En algunas modalidades, los métodos y composiciones proporcionados pueden comprender 2 o más secuencias adaptadoras (por ejemplo, 3, 4, 5, 6, 7, 8, 9, 10 o más). En algunas modalidades, al menos dos de las secuencias adaptadoras difieren entre sí (por ejemplo, por secuencia). En algunas modalidades, cada secuencia adaptadora difiere entre sí de la otra secuencia adaptadora (por ejemplo, por secuencia). En algunas modalidades, al menos una secuencia adaptadora es al menos parcialmente no complementaria a al menos una porción de al menos otra secuencia adaptadora (por ejemplo, no es complementaria por al menos un nucleótido).
En algunas modalidades, una secuencia adaptadora comprende al menos un nucleótido no estándar. En algunas modalidades, un nucleótido no estándar se selecciona de un sitio abásico, un uracilo, tetrahidrofurano, 8-oxo-7,8-dihidro-2'desoxiadenosina (8-oxo-A), 8-oxo-7,8-dihidro-2'-desoxioguanosina (8-oxo-G), desoxiinosina, 5'nitroindol, 5-hidroximetil-2'-desoxicitidina, iso-citosina, 5'-metilisocitosina, o isoguanosina, un nucleótido metilado, un nucleótido de ARN, un nucleótido ribosa, un 8-oxo-guanina, un enlazador escindible por la luz, un nucleótido biotinilado, un nucleótido destiobiotina, un nucleótido modificado con tiol, un nucleótido modificado con acridita, un iso-dC, un iso dG, un nucleótido 2'-O-metil, un ácido nucleico bloqueado de nucleótido de inosina, un ácido nucleico peptídico, un 5 metil dC, un 5-bromo desoxiuridina, un nucleótido de 2,6-diaminopurina, 2-aminopurina, un nucleótido abásico, un nucleótido de 5-nitroindol, un nucleótido adenilado, un nucleótido azida, un nucleótido digoxigenina, un enlazador I,
un nucleótido modificado con 5' hexinilo, un 5-octadiinil dU, un espaciador escindible con la luz, un espaciador no escindible con la luz, un nucleótido modificado compatible con química clic, y cualquiera de sus combinaciones. En algunas modalidades, una secuencia adaptadora comprende una porción que tiene una propiedad magnética (es decir, una porción magnética). En algunas modalidades, esta propiedad magnética es paramagnética. En algunas modalidades donde una secuencia adaptadora comprende una porción magnética (por ejemplo, un material de ácido nucleico ligado a una secuencia adaptadora que comprende una porción magnética), cuando se aplica un campo magnético, una secuencia adaptadora que comprende una porción magnética se separa sustancialmente de las secuencias adaptadoras que no comprenden una porción magnética (por ejemplo, un material de ácido nucleico ligado a una secuencia adaptadora que no comprende una porción magnética).
En algunas modalidades, al menos una secuencia adaptadora está localizada 5' con respecto a un SMI. En algunas modalidades, al menos una secuencia adaptadora está localizada 3' con respecto a un SMI.
En algunas modalidades, una secuencia adaptadora puede unirse a al menos uno de un SMI y un material de ácido nucleico a través de uno o más dominios enlazadores. En algunas modalidades, un dominio enlazador puede estar compuesto de nucleótidos. En algunas modalidades, un dominio enlazador puede incluir al menos un nucleótido modificado o moléculas no nucleotídicas (por ejemplo, como se describe en otra parte de esta descripción). En algunas modalidades, un dominio enlazador puede ser o comprender un lazo.
En algunas modalidades, una secuencia adaptadora en uno o ambos extremos de cada hebra de un material de ácido nucleico bicatenario puede incluir, además, uno o más elementos que proporcionan un SDE. En algunas modalidades, un SDE puede ser o comprender sitios de cebadores asimétricos comprendidos dentro de las secuencias adaptadoras.
En algunas modalidades, una secuencia adaptadora puede ser o comprender al menos un SDE y al menos un dominio de ligación (es decir, un dominio modificable para la actividad de al menos una ligasa, por ejemplo, un dominio adecuado para la ligación a un material de ácido nucleico a través de la actividad de una ligasa). En algunas modalidades, desde 5' a 3', una secuencia adaptadora puede ser o comprender un sitio de unión de cebador, un SDE, y un dominio de ligación.
Diversos métodos para sintetizar adaptadores DS se han descrito previamente en, por ejemplo, la Patente de Estados Unidos Núm. 9,752,188 y la Solicitud de Patente Internacional Núm. WO2017/100441.
Cebadores
En algunas modalidades, uno o más cebadores de PCR que tienen al menos una de las siguientes propiedades: 1) alta especificidad con respecto al objetivo; 2) capacidad de ser multiplexado; y 3) exhibir una amplificación robusta y mínimamente sesgada, se contemplan para usar en diversas modalidades de acuerdo con aspectos de la presente tecnología. Diversos estudios previos y productos comerciales han diseñado mezclas de cebadores que satisfacen algunos de estos criterios para la PCR-CE convencional. Sin embargo, se ha observado que estas mezclas de cebadores no siempre son óptimas para usar con MPS. De hecho, el desarrollo de mezclas de cebadores altamente multiplexadas puede ser un proceso desafiante y que requiere de mucho tiempo. Convenientemente, tanto Illumina como Promega han desarrollado recientemente mezclas de cebadores compatibles con multiplex para la plataforma Illumina que muestran una amplificación robusta y eficiente de una diversidad de loci STR y SNP estándar y no estándar. Debido a que estos kits usan la PCR para amplificar sus regiones objetivo antes de la secuenciación, el extremo 5' de cada lectura en los datos de secuenciación del extremo apareado corresponde al extremo 5' de los cebadores de PCR usados para amplificar el ADN. En algunas modalidades, los métodos y composiciones proporcionados incluyen cebadores diseñados para garantizar una amplificación uniforme, que pueden requerir concentraciones de reacción variables, temperaturas de fusión, y minimizar la estructura secundaria y las interacciones intra/inter cebadores. Se han descrito muchas técnicas para la optimización de cebadores altamente multiplexados para aplicaciones MPS. En particular, estas técnicas a menudo se conocen como métodos ampliseq, como bien se describe en la técnica.
Amplificación
Los métodos proporcionados y las composiciones descritas, en diversas modalidades, hacen uso de, y pueden ser útiles en, al menos una etapa de amplificación en donde un material de ácido nucleico (o una parte del mismo, por ejemplo, una región o locus objetivo específico) es amplificado para formar un material de ácido nucleico amplificado (por ejemplo, una determinada cantidad de productos de amplicón). Los métodos proporcionados incluyen una etapa de separar un material de ácido nucleico amplificado en, por ejemplo, una primera y una segunda muestra.
En algunas modalidades, la amplificación de un material de ácido nucleico incluye una etapa de amplificación del material de ácido nucleico derivada de cada una de una primera y segunda hebra de ácido nucleico de un material de ácido nucleico bicatenario original mediante el uso al menos de un oligonucleótido monocatenario al menos parcialmente complementario a una secuencia presente en una primera secuencia adaptadora y al menos un
oligonucleótido monocatenario al menos parcialmente complementario a una secuencia objetivo de interés de manera que se mantenga al menos parcialmente una secuencia SMI.
En algunas modalidades, la amplificación de un material de ácido nucleico en una segunda muestra incluye una etapa de amplificación del material de ácido nucleico en una segunda muestra que incluye la amplificación del material de ácido nucleico derivado de una sola hebra de ácido nucleico de un material original de ácido nucleico bicatenario mediante el uso de al menos un oligonucleótido monocatenario al menos parcialmente complementario a una secuencia presente en la segunda secuencia adaptadora y al menos un oligonucleótido monocatenario al menos parcialmente complementario a una secuencia objetivo de interés de manera que la secuencia SMI se mantenga al menos parcialmente.
En algunas modalidades, un material de ácido nucleico amplificado puede separarse en 3 o más muestras (por ejemplo, 4, 5, 6, 7, 8, 9, 20, 20, 30, 40, 50 o más muestras) antes de una segunda etapa de amplificación. En algunas modalidades, cada muestra incluye sustancialmente la misma cantidad de material de ácido nucleico amplificado que cualquier otra muestra. En algunas modalidades, al menos dos muestras incluyen cantidades sustancialmente diferentes de material de ácido nucleico amplificado.
En algunas modalidades, amplificar el material de ácido nucleico en una primera muestra o una segunda muestra puede incluir amplificar muestras en "tubos" (por ejemplo, tubos de PCR), en gotitas de emulsión, microcámaras y otros ejemplos descritos anteriormente u otros recipientes conocidos.
En algunas modalidades, al menos una etapa de amplificación incluye al menos un cebador que es o comprende al menos un nucleótido no estándar. En algunas modalidades, un nucleótido no estándar se selecciona a partir de un uracilo, un nucleótido metilado, un nucleótido de ARN, un nucleótido de ribosa, un 8-oxo-guanina, un nucleótido biotinilado, un ácido nucleico bloqueado, un ácido nucleico peptídico, una variante de ácido nucleico de Tm alta, una variante de ácido nucleico discriminante de alelos, cualquier otra variante de nucleótido o enlazador descrita en otra parte en la presente descripción y cualquiera de sus combinaciones.
Si bien cualquier reacción de amplificación apropiada para la aplicación se contempla como compatible con algunas modalidades, por medio de un ejemplo específico, en algunas modalidades, una etapa de amplificación puede ser o comprender una reacción en cadena de la polimerasa (PCR), amplificación de círculo rodante (RCA), amplificación de desplazamiento múltiple (MDA), amplificación isotérmica, amplificación de polonia dentro de una emulsión, amplificación de puente sobre una superficie, la superficie de una perla o dentro de un hidrogel, y cualquiera de sus combinaciones.
En algunas modalidades, se pueden realizar determinadas modificaciones en una parte de una muestra de material de ácido nucleico (por ejemplo, una secuencia adaptadora). Por medio de ejemplo específico, en algunas modalidades, la amplificación de un material de ácido nucleico en una primera muestra puede comprender además la destrucción o interrupción de una parte o la totalidad de una segunda secuencia adaptadora que se encuentra en un material de ácido nucleico después de la etapa de separación y antes de la amplificación de una primera muestra. Por medio de ejemplo específico adicional, en algunas modalidades, amplificar el material de ácido nucleico en la segunda muestra puede comprender además destruir o alterar al menos una porción de las primeras secuencias adaptadoras que se encuentran en el material de ácido nucleico después de la etapa de separación y antes de la amplificación de la segunda muestra. En algunas modalidades, la destrucción o alteración puede ser o comprender al menos uno de digestión enzimática (por ejemplo, a través de una endonucleasa y/o una exonucleasa), inclusión de al menos una molécula inhibidora de la replicación, escisión enzimática, escisión enzimática de una hebra, escisión enzimática de ambas hebras, incorporación de un ácido nucleico modificado seguido de un tratamiento enzimático que conduce a la escisión de una o ambas hebras, incorporación de un nucleótido que bloquea la replicación, incorporación de un terminador de cadena, incorporación de un enlazador fotoescindible, incorporación de un uracilo, incorporación de una base de ribosa, incorporación de un aducto de 8-oxo-guanina, uso de una endonucleasa de restricción específica de secuencia, uso de una endonucleasa dirigida (por ejemplo, una enzima Cas tal como Cas9 o CPF1), y cualquiera de sus combinaciones. En algunas modalidades, como una adición o alternativa a la destrucción o interrupción del sitio del cebador, se contemplan métodos tales como reducción de afinidad, selección de tamaño o cualquier otra técnica conocida para eliminar y/o no amplificar material de ácido nucleico no deseado de una muestra.
En algunas modalidades, los primeros productos de amplificación no deseables dirigidos a una destrucción al menos parcial conducirían a un segundo producto de amplificación después de una segunda amplificación con un cebador dirigido que finalmente contendría dos sitios de unión de cebador similares en cada extremo de la molécula en lugar de dos sitios de unión para cebadores distintos. En algunas modalidades, dicha estructura puede ser problemática para el rendimiento o la eficiencia de la secuencia de ADN de MPS.
En algunas modalidades, la amplificación de un material de ácido nucleico incluye el uso de al menos un oligonucleótido monocatenario al menos parcialmente complementario a una región objetivo o una secuencia objetivo de interés (por ejemplo, una secuencia genómica, una secuencia mitocondrial, una secuencia de plásmido, un ácido nucleico objetivo producido sintéticamente, etc.) y un oligonucleótido monocatenario al menos parcialmente
complementario a una región de la secuencia adaptadora (por ejemplo, un sitio de cebador). En algunas modalidades, la amplificación de un material de ácido nucleico incluye el uso de oligonucleótidos monocatenarios al menos parcialmente complementarios a las regiones de las secuencias adaptadoras en los extremos 5' y 3' de cada hebra del material de ácido nucleico.
En general, la amplificación robusta, por ejemplo, la amplificación por PCR, puede ser altamente dependiente de las condiciones de reacción. La PCR multiplex, por ejemplo, puede ser sensible a la composición del tampón, a la concentración de cationes monovalentes o divalentes, a la concentración de detergente, a la concentración de agentes de agregación (es decir, PEG, glicerol, etc.), a las concentraciones de cebadores, a las Tms de los cebadores, a los diseños de cebadores, al contenido de GC de los cebadores, a las propiedades de los nucleótidos modificados de los cebadores, y a las condiciones del ciclado (es decir, temperatura y tiempos de extensión y la tasa de cambios de temperatura). La optimización de las condiciones del tampón puede ser un proceso difícil y que consume mucho tiempo. En algunas modalidades, una reacción de amplificación puede usar al menos uno de un tampón, concentración de grupo de cebadores, y condiciones de PCR de acuerdo con un protocolo de amplificación conocido previamente. En algunas modalidades, puede crearse un nuevo protocolo de amplificación, y/o puede usarse una optimización de la reacción de amplificación. Por medio de un ejemplo específico, en algunas modalidades, puede usarse un kit de optimización de PCR, tal como un kit de optimización de PCR de Promega®, que contiene una cantidad de tampones formulados previamente que están parcialmente optimizados para una variedad de aplicaciones de PCR, tales como amplificaciones multiplex, en tiempo real, ricas en GC, y resistentes a inhibidores. Estos tampones formulados previamente pueden complementarse rápidamente con diferentes concentraciones de Mg2+ y de cebador, así como también las relaciones del conjunto de cebadores. Además, en algunas modalidades, puede evaluarse y/o usarse una variedad de condiciones de ciclado (por ejemplo, ciclado térmico). En la evaluación acerca de si una modalidad particular es apropiada para una aplicación particular conveniente, puede evaluarse uno o más de especificidad, relación de cobertura de alelo para loci heterocigotos, equilibrio interlocus, y profundidad, entre otros aspectos. Las mediciones del éxito de la amplificación pueden incluir secuenciación de ADN de los productos, evaluación de productos mediante electroforesis en gel o capilar o HPLC u otros métodos de separación por tamaño, seguidos de visualización de fragmentos, análisis de curva de fusión mediante el uso de colorantes de unión al ácido nucleico bicatenarios o sondas fluorescentes, espectrometría de masas u otros métodos conocidos en la técnica.
De acuerdo con diversas modalidades, cualquiera de una diversidad de factores puede influir en la duración de una etapa de amplificación particular (por ejemplo, el número de ciclos en una reacción de PCR, etcétera). Por ejemplo, en algunas modalidades, un material de ácido nucleico proporcionado puede verse comprometido o de cualquier otra manera subóptimo (por ejemplo, degradado y/o contaminado). En tal caso, una etapa de amplificación más larga puede ser útil para garantizar que un producto deseado se amplifique en un grado aceptable. En algunas modalidades, una etapa de amplificación puede proporcionar un promedio de 3 a 10 copias de PCR secuenciadas a partir de cada molécula de ADN inicial, aunque en otras modalidades, solo se requiere una copia única de cada una de la hebra superior y hebra inferior. Sin desear estar sujeto a una teoría particular, es posible que demasiadas o muy pocas copias de PCR puedan resultar en una eficiencia de ensayo reducida y, en última instancia, una profundidad reducida. Generalmente, el número de fragmentos de ácido nucleico (por ejemplo, ADN) usado en una reacción de amplificación (por ejemplo, PCR) es una variable primaria ajustable que puede determinar el número de lecturas que comparten la misma secuencia SMI/código de barras. Debido a que SPLiT-DS usa etapas de PCR adicionales y no requiere el uso de captura dirigida basada en hibridación como lo hacen algunos métodos descritos anteriormente, es poco probable que cualquier requisito de cantidad de entrada de ácido nucleico bicatenario informado mediante el uso de los métodos anteriores sea directamente traducible a los métodos proporcionados actualmente, que probablemente sean más eficientes.
Destrucción del sitio de cebado
Las figuras 6-9B son ilustraciones conceptuales de una variedad de etapas del método SPLiT-DS de acuerdo con modalidades adicionales de la presente tecnología. Como se discutió anteriormente, y con referencia a las figuras 4 6, las etapas del método asociadas con SPLiT-DS, proporcionan material de ácido nucleico amplificado que tiene amplicones de primera y segunda hebra etiquetados con SMI (por ejemplo, a, a', p, p', figura 6) y una secuencia adaptadora adicional que comprende un cebador asimétrico (por ejemplo, para los cebadores Illumina P5 y P7, figura 6) después de una primera ronda de amplificación que se puede separar en múltiples muestras. La figura 7 ilustra las etapas posteriores en donde las reacciones de PCR anidadas pueden proporcionar una amplificación enriquecida de las hebras superior e inferior de una molécula de ácido nucleico original en muestras de reacción separadas (por ejemplo, tubos). Como se muestra en la figura 7, se pueden generar algunos productos de amplificación no deseables y lecturas de secuenciación posteriores además del enriquecimiento de los productos amplificados deseados. En consecuencia, y en algunas modalidades, la eficiencia puede reducirse (por ejemplo, el por ciento de los productos deseados para usar en SPLiT-DS puede ser bajo con relación a los que no son útiles en un protocolo SPLiT-DS).
De acuerdo con aspectos adicionales de la presente tecnología, diversos aspectos de la eficiencia de conversión y la eficiencia del flujo de trabajo pueden aumentar empleando una o más estrategias para reducir y/o eliminar la amplificación y secuenciación de productos de amplificación no deseados. En algunas modalidades, la destrucción o
interrupción del sitio del cebador (por ejemplo, la destrucción de un sitio del cebador dentro de una secuencia adaptadora) puede usarse como una forma de enriquecer determinados productos de ácido nucleico después de una primera ronda de amplificación y separación del material de ácido nucleico amplificado en múltiples muestras (tal como en, por ejemplo, la figura 8A). En algunas modalidades, los métodos proporcionados pueden incluir el uso de la destrucción del sitio del cebador bicatenario. En la presente descripción se contemplan diversos métodos de destrucción del sitio del cebador. Las figuras 8A-8D son ilustraciones conceptuales de las etapas del método SPLiT-DS que incorporan esquemas de destrucción del sitio del cebador bicatenario. La destrucción del sitio del cebador bicatenario se puede lograr a través de una variedad de medios que incluyen la introducción de modificaciones del sitio del cebador en las hebras seleccionadas a través de cebadores modificados usados en una primera etapa de amplificación (por ejemplo, figura 6). En algunas modalidades, los cebadores en una primera PCR pueden tener modificaciones que incluyen uracilo, metilación, bases de ARN, 8-oxo-guanina u otras modificaciones que pueden ser el objetivo en las etapas posteriores. En algunas modalidades, la destrucción del sitio del cebador puede ser o comprender la digestión con una enzima de restricción u otra endonucleasa dirigida (tal como Cas9, CPF1, etc.) de una secuencia presente, por ejemplo, en una secuencia adaptadora en donde se ha determinado que la posibilidad de que el sitio de restricción tiene una probabilidad baja de ocurrir en la secuencia de interés. En determinadas modalidades, podría añadirse un oligonucleótido complementario a la secuencia del cebador que se va a destruir a una muestra concreta seguido de la interrogación con una endonucleasa dirigida específica del ADN bicatenario. En otra modalidad específica, podría usarse un oligo de hibridación que tenga un grupo metilo para reclutar una endonucleasa de restricción específica de metilación en un sitio de cebador complementario. Como se ilustra en la figura 8A, la destrucción del sitio del cebador bicatenario (por ejemplo, la destrucción de los sitios del cebador en ambas copias de una hebra no objetivo en una muestra), puede usarse para destruir, paralizar o eliminar la secuencia del cebador "P5" de ambas "hebras superiores" y copias de la "hebra inferior" en el tubo 1. Igualmente, en el tubo 2, la secuencia del cebador "P7" puede destruirse, mutilarse o eliminarse selectivamente tanto de las copias de la "hebra superior" como de la "hebra inferior". La figura 8B es una ilustración conceptual de un ejemplo para destruir selectivamente una secuencia de cebador en una muestra. Como se muestra en la figura 8B, una primera muestra se puede tratar con una primera endonucleasa de restricción (por ejemplo, MspJI) que escinde selectivamente un sitio que se encuentra en una primera secuencia de cebador (por ejemplo, Illumina "P5"), destruyendo de esta manera el primer sitio de cebador en todo el material de ácido nucleico en la primera muestra. Del mismo modo, una segunda muestra se puede tratar con una segunda endonucleasa de restricción (por ejemplo, FspEI) que escinde selectivamente un sitio que se encuentra en una segunda secuencia de cebador (por ejemplo, Illumina "P7"), destruyendo de esta manera el segundo sitio de cebador en todo el material de ácido nucleico en la segunda muestra.
Con referencia a las figuras 8A y 8C juntos, mediante la amplificación selectiva (extendiendo uno o múltiples ciclos lineales) de productos en el tubo 1 mediante el uso de un cebador "P7" y un cebador de secuencia objetivo (por ejemplo, cebador específico de gen) que tiene una cola de sitio de cebador "P5", solo las especies de la "hebra inferior" se generan incorporando los sitios de cebador "P7" y "P5" (ver, por ejemplo, la figura 8C) mientras que otras especies de ácido nucleico en el tubo 1 no pueden amplificarse o secuenciarse exponencialmente (por ejemplo, carecen del sitio de cebador "P5"). Igualmente, mediante la amplificación selectiva (extendiendo uno o múltiples ciclos lineales) de productos en el tubo 2 mediante el uso de un cebador "P5" y un cebador de secuencia objetivo (por ejemplo, cebador específico de gen) que tiene una cola en el sitio del cebador "P7", solo la "hebra superior" las especies se generan incorporando los sitios de cebador "P5" y "P7" (ver, por ejemplo, la figura 8C) mientras que otras especies de ácido nucleico en el tubo 2 no pueden amplificarse o secuenciarse exponencialmente (por ejemplo, carecen del sitio de cebador "P5"). Se comprenderá que, si bien los productos lineales no deseados no secuenciarán ni se amplificarán exponencialmente, pueden consumir cebadores y dNTPs, lo que puede tener algún impacto en la eficiencia de tales reacciones.
En algunas modalidades, los métodos que incluyen la destrucción del sitio del cebador también pueden usar uno o más cebadores biotinilados u otros cebadores dirigidos. La figura 8D es una ilustración conceptual de las etapas del método SPLiT-DS que incorporan esquemas de destrucción del sitio del cebador bicatenario de acuerdo con otra modalidad de la presente tecnología. En la modalidad ilustrada en la figura 8D, los cebadores de la secuencia objetivo que tienen una cola en el sitio del cebador "P5" o una cola en el sitio del cebador "P7" están biotinilados. Con referencia a la figura 8D, y siguiendo la etapa de extensión con los cebadores de direccionamiento biotinilados, puede usarse el enriquecimiento con microesferas de estreptavidina o hidrogel para enriquecer los productos que tienen dos sitios de cebadores, eliminando de esta manera la mayoría de las especies de ácidos nucleicos que tienen solo un sitio de cebador. Se contempla que en algunas de tales modalidades, tal enriquecimiento puede mejorar la eficiencia de la PCR y/o facilitar enfoques de multiplexación y/o mejorar la eficiencia de amplificación de grupos en un secuenciador de ADN MPS y/o generar datos de secuenciación más utilizables en un secuenciador de ADN MPS.
Para limitar aún más el enriquecimiento fuera del objetivo de las especies capturadas por el enriquecimiento con biotina/estreptavidina, puede usarse una mayor amplificación con cebadores anidados (por ejemplo, cebadores "P5" o "P7" y un segundo cebador de direccionamiento anidado internamente que tiene la secuencia de celda de flujo opuesta) para enriquecer aún más las especies objetivo y reducir los productos de amplificación no deseados. En una modalidad particular, la amplificación lineal selectiva mediante el uso, por ejemplo, de un cebador específico
para la secuencia objetivo de interés, puede enriquecer aún más la especie deseada antes de la adición de cebadores anidados emparejados para la amplificación exponencial.
En algunas modalidades, puede usarse la destrucción del sitio del cebador monocatenario. Las figuras 9A y 9B son ilustraciones conceptuales de diversas modalidades de las etapas del método SPLiT-DS que incorporan esquemas de destrucción del sitio del cebador monocatenario de acuerdo con otros aspectos de la presente tecnología. Por medio de ejemplo no limitante, y tal y como se ilustra en la figura 9A, se puede destruir un sitio de cebador en una hebra de una molécula de bicatenaria mediante el uso de un cebador modificado (no mostrado) durante la primera etapa de amplificación de SPLiT-DS (ver, por ejemplo, figura 6). El cebador modificado puede incluir una modificación química (por ejemplo, uracilo, metilación, bases de ARN, 8-oxo-guanina, etc.) o similares que pueden ser objeto de destrucción o invalidación del sitio del cebador en la hebra afectada. Amplificación subsecuente (que se extiende en uno o varios ciclos lineales) de los objetivos deseados en el tubo 1 mediante el uso de un cebador "P7" y un cebador de secuencia objetivo (por ejemplo, cebador específico del gen) especialmente marcado (por ejemplo, biotina, adaptador de célula de flujo diferente que tiene cola, etc.), solo se generan especies de "hebra inferior" que incorporan tanto "P7" como la etiqueta especial (por ejemplo, biotina, sitio de cebador diferente, etc.) (ver, por ejemplo, figura 9A) mientras que otras especies de ácido nucleico en el tubo 1 no se amplifican exponencialmente. Los productos no deseados se seleccionan adicionalmente en la siguiente etapa mediante el enriquecimiento con perlas de estreptavidina (no se muestra) o mediante una amplificación adicional con el cebador "P7" y el cebador modificado con complemento del sitio del cebador diferente y la cola del adaptador de la celda de flujo con el sitio del cebador "P5" (Figura 9B). Una reacción de amplificación final con los cebadores "P7" y "P5" produce productos de "hebra inferior" enriquecidos en la muestra del tubo 1 (FIG. 9B). Las etapas complementarias en la muestra en el tubo 2 se pueden hacer para enriquecer los productos de la "hebra superior" (FIG. 9B). Sin desear limitarse a ninguna teoría en particular, se contempla que si está disponible una opción para la digestión del sitio del cebador bicatenario, tal opción puede preferirse a la digestión monocatenaria.
En modalidades adicionales, uno o más de los esquemas descritos con respecto a las figuras 6-9B, se pueden combinar o se pueden eliminar determinadas etapas mientras se logran determinadas mejoras de eficiencia. Por ejemplo, en una modalidad, los cebadores de direccionamiento biotinilados pueden usarse durante una etapa de extensión (por ejemplo, siguiendo las etapas del método que se muestran en la figura 6), y puede usarse el sondeo posterior con estreptavidina para recuperar las hebras de interés. En esta modalidad (por ejemplo, sin destrucción del sitio del cebador), también se recuperarán especies que tengan dos de los mismos sitios del cebador (por ejemplo, dos sitios del cebador "P5", dos sitios del cebador "P7").
Múltiples PCR por molécula capturada
En determinadas aplicaciones, las regiones o secuencias objetivo pueden ser difíciles de secuenciar porque los puntos de ruptura de los ácidos nucleicos pueden caer cerca de los cebadores específicos del objetivo, lo que da como resultado fragmentos cortos o regiones totalmente perdidas. Por ejemplo, el ADN cortado aleatoriamente o el ADN libre de células circulante (cfADN), tal como el ADN tumoral circulante o el ADN fetal circulante, las muestras pueden tener secuencias específicas que no se pueden recuperar (por ejemplo, detectadas/cubiertas en una lectura de secuenciación). En algunas modalidades, los métodos proporcionados pueden superar tales desafíos dirigiéndose a múltiples regiones dentro de una secuencia objetivo, tal como con el uso de múltiples cebadores objetivo complementarios a porciones escalonadas de la secuencia objetivo (por ejemplo, cada cebador dirigido a una región diferente de la secuencia objetivo). Para evitar desafíos asociados con fragmentos cortos, y en una modalidad, el ADN puede cortarse en piezas más grandes de lo que típicamente sería conveniente para una secuenciación óptima. La figura 10 es una ilustración conceptual de las etapas del método SPLiT-DS mediante el uso de múltiples cebadores dirigidos para generar secuencias consenso dúplex para moléculas de ácido nucleico más largas de acuerdo con otra modalidad más de la presente tecnología.
Con referencia a la figura 10, un método proporcionado puede incluir el uso de múltiples cebadores de amplificación, por ejemplo, múltiples cebadores, cada uno dirigido a una región (por ejemplo, separados por ~ 100 pb) de una secuencia objetivo de interés. De acuerdo con diversas modalidades, dicho enfoque podría realizarse en una sola reacción (por ejemplo, tubo), o en otras modalidades, en múltiples reacciones (por ejemplo, tubos), por ejemplo, para evitar que los cebadores cercanos o adyacentes interactúen entre sí. En algunas modalidades, la prevención de las interacciones de múltiples cebadores escalonados en el mismo tubo puede mitigarse realizando la extensión con una polimerasa de desplazamiento de hebras para que los cebadores que ceban aguas abajo no bloqueen los cebadores que ceban aguas arriba. En algunas modalidades, la extensión se puede realizar durante varios ciclos lineales con un primer cebador, seguido de limpieza y otro conjunto de extensiones para un segundo cebador, etc. Como se muestra en la figura 10, cada conjunto de cebadores anidados genera productos de amplificación de diferentes longitudes que pueden secuenciarse subsecuentemente. La lectura 1 de todos los productos de amplificación generará la misma información de secuencia, mientras que las lecturas de secuencias emparejadas de cada uno de los productos de amplificación A, B y C generarán información de secuenciación escalonada que, junto con la información de secuenciación de la lectura 1, proporciona una secuencia ensamblada de mayor longitud que antes era posible con los protocolos MPS o DS estándar.
En algunas modalidades, los análisis de datos de cebadores múltiples se realizan con métodos no estándar para otros métodos de DS. Como apreciará un experto en la técnica, el ensamblaje dúplex de lecturas de secuencias de múltiples cebadores no es posible con una etiqueta SMI sola, ya que las muestras multiplexadas pueden incluir productos de diferentes longitudes con la misma etiqueta. Para abordar este desafío, algunas modalidades incluyen el ensamblaje de dúplex mediante una etiqueta que es una combinación de SMI y la posición de secuencia (por ejemplo, genómica) de un sitio de inicio de cebador objetivo. En algunas modalidades, después del ensamblaje dúplex, los datos pueden evaluarse para lecturas dúplex con un SMI común pero de diferentes longitudes. En algunas modalidades, las familias dúplex individuales pueden ensamblarse en una "familia dúplex de lectura múltiple" agregada. Se contempla que algunas de tales modalidades pueden facilitar el subensamblaje de regiones objetivo de DS en lecturas de una sola molécula más largas, lo que puede ser ventajoso para determinadas aplicaciones y aumentar la longitud de genotipado efectivo de moléculas de ácido nucleico objetivo con plataformas de secuenciación de lectura corta.
Como saben los expertos en la técnica, la lectura contigua más larga que se puede obtener actualmente con Illumina NextSeq es de ~300 pb: lecturas de 150 pb de extremos emparejados que se encuentran en el medio, siempre que la orientación enzimática y los cebadores estén cuidadosamente diseñados para producir fragmentos de sustancialmente cerca de esta longitud. En consecuencia, las modalidades que incorporan enfoques de múltiples cebadores, como se describe en la presente descripción, pueden, en algunas modalidades, lograr secuencias de DS de molécula entera más largas.
En algunos aspectos, los métodos proporcionados reflejan la idea de que, en algunas modalidades, múltiples cebadores dirigidos combinados con SPLiT-DS pueden lograr, entre otras cosas, (i) secuencias contiguas de moléculas únicas largas y, opcionalmente, con (ii) alta especificidad y/o (ii) precisión DS. Se considera más probable que improbable que los métodos proporcionados en la presente descripción puedan ser útiles en aplicaciones tales como, por ejemplo: aquellas que requieren lecturas continuas largas y precisas; ensamblaje del genoma de novo; realizar ensayos en regiones repetitivas (es decir, regiones del genoma con secuencia repetitiva) donde el mapeo único es difícil; regiones de secuenciación que se consideran particularmente desafiantes (por ejemplo, locus HLA, pseudogenes de cáncer, microsatélites); análisis de coincidencia de variantes en, por ejemplo, cáncer (por ejemplo, mutaciones sensibilizantes a fármacos, mutaciones de resistencia), análisis de haplotipos (por ejemplo, evaluación del origen de una mutación en el ADN fetal circulante (por ejemplo, origen materno, paterno o fetal)), metagenómica (por ejemplo, resistencia antibiótica); superar las limitaciones de determinadas enzimas (por ejemplo, Cas9 y las limitaciones sobre qué tan separadas deben estar regiones particulares en función de la ubicación de los sitios de reconocimiento de enzimas); grandes reordenamientos estructurales; y/o inserciones/deleciones, etc.
Modalidades adicionales para procesar material de ácido nucleico
En algunas modalidades, es ventajoso procesar material de ácido nucleico para mejorar la eficiencia, precisión y/o velocidad de un proceso de secuenciación. De acuerdo con aspectos adicionales de la presente tecnología, la eficiencia de, por ejemplo, DS y/o SPLiT-DS puede mejorarse mediante la fragmentación de ácidos nucleicos dirigida. Clásicamente, la fragmentación del ácido nucleico (por ejemplo, genoma, mitocondrial, plásmido, etc.) se logra mediante cizallamiento físico (por ejemplo, sonicación) o enfoques enzimáticos algo no específicos de secuencia que utilizan un cóctel de enzimas para escindir los enlaces fosfodiéster del ADN. El resultado de cualquiera de los métodos anteriores es una muestra en la que el material de ácido nucleico intacto (por ejemplo, ADN genómico (ADNg)) se reduce a una mezcla de fragmentos de ácido nucleico de tamaño aleatorio o semialeatorio. Si bien son efectivos, estos enfoques generan fragmentos de ácido nucleico de tamaño variable que pueden resultar en un sesgo de amplificación (por ejemplo, los fragmentos cortos tienden a amplificarse por pCr más que los fragmentos más largos y los agrupamientos se amplifican más fácilmente durante la formación de polonia) y una profundidad de secuenciación desigual. Por ejemplo, la figura 11A es un gráfico que traza una relación entre el tamaño del inserto de ácido nucleico y el tamaño de la familia resultante después de la amplificación. Como se muestra en la figura 11A, debido a que los fragmentos más cortos tienden a amplificarse preferentemente, se genera y secuencia un mayor número de copias de cada uno de estos fragmentos más cortos, proporcionando un nivel desproporcionado de profundidad de secuenciación de estas regiones. Además, con fragmentos más largos, una porción de ADN entre el límite de una lectura de secuenciación (o entre los extremos de lecturas de secuenciación de extremos emparejados) no se puede interrogar y es "oscura" a pesar de haberse ligado, amplificado y capturado con éxito (Figura 11B). Igualmente, con lecturas cortas, y cuando se usa secuenciación de extremos emparejados, leer la misma secuencia en el medio de una molécula de ambas lecturas proporciona información redundante y es ineficiente desde el punto de vista económico (Figura 11B). La fragmentación aleatoria o semialeatoria de ácidos nucleicos también puede dar lugar a puntos de ruptura impredecibles en las moléculas objetivo que producen fragmentos que pueden no tener complementariedad o una complementariedad reducida con una hebra de cebo para la captura de híbridos, lo que reduce de esta manera la eficiencia de la captura objetivo. La fragmentación aleatoria o semialeatoria también puede romper secuencias de interés o dar lugar a fragmentos muy pequeños o muy grandes que se pierden durante otras etapas de la preparación de la biblioteca y pueden disminuir el rendimiento y la eficiencia de los datos.
Otro problema con muchos métodos de fragmentación aleatoria, particularmente métodos mecánicos o acústicos, es que introducen daños más allá de las rupturas bicatenarias que pueden hacer que porciones de ADN bicatenario ya
no sean bicatenarias. Por ejemplo, el cizallamiento mecánico puede crear salientes de 3' o 5' en los extremos de las moléculas y muescas monocatenarias en el medio de las moléculas. Estas porciones monocatenarias que se pueden ligar con un adaptador, tal como un cóctel de enzimas de "reparación de extremos", se usan para convertirlas de nuevo en bicatenarias de forma artificial, lo que puede ser una fuente de errores artificiales (tal como se describió anteriormente con respecto a "moléculas pseudodúplex"). En muchas modalidades, es óptimo maximizar la cantidad de ácido nucleico bicatenario de interés que permanece en forma nativa bicatenaria durante la manipulación.
En consecuencia, en algunas modalidades, los métodos proporcionados y las composiciones descritas aprovechan una endonucleasa dirigida (por ejemplo, un complejo de ribonucleoproteína (endonucleasa asociada a CRISPR tal como Cas9, Cpf1), una endonucleasa dirigida, una nucleasa con dedos de zinc, un TALEN, un nucleasa argonauta y/o una meganucleasa (por ejemplo, nucleasa megaTAL, etc.), o una de sus combinaciones) u otra tecnología capaz de cortar un material de ácido nucleico (por ejemplo, una o más enzimas de restricción) para escindir una secuencia objetivo de interés en un tamaño de fragmento óptimo para la secuenciación. En algunas modalidades, las endonucleasas dirigidas tienen la capacidad de escindir de forma específica y selectiva regiones precisas de la secuencia de interés. La figura 11C es un esquema que ilustra las etapas de un método para generar el tamaño de fragmentos objetivo con CRISPR/Cas9 y para generar información de secuenciación de acuerdo con una modalidad de la presente tecnología. Preseleccionando sitios de corte, por ejemplo con una endonucleasa programable (por ejemplo, complejo de enzima/ARN guía asociado a CRISPR (Cas)) que da como resultado fragmentos de tamaños predeterminados y sustancialmente uniformes (Figura 11C), los sesgos y la presencia de información no informativa las lecturas se pueden reducir drásticamente. Además, debido a las diferencias de tamaño entre los fragmentos extirpados y el resto del ADN no cortado, se puede realizar un paso de selección de tamaño (como se describe en más detalle más abajo) para eliminar las grandes regiones fuera del objetivo, enriqueciendo así la muestra antes de cualquier más etapas de procesamiento. La necesidad de etapas de reparación de extremos también puede reducirse o eliminarse, lo que ahorra tiempo y riesgo de desafíos pseudodúplex y, en algunos casos, reduce o elimina la necesidad de recortar computacionalmente los datos cerca del final de las moléculas, lo que mejora la eficiencia.
Endonucleasas de restricción
Se contempla específicamente que cualquiera de una variedad de endonucleasas de restricción (es decir, enzimas) puede usarse para proporcionar material de ácido nucleico de longitud sustancialmente uniforme. Generalmente, las enzimas de restricción son producidas típicamente por determinadas bacterias u otros procariotas y se escinden en, cerca o entre secuencias particulares en un segmento dado de ADN.
Será evidente para un experto en la técnica que una enzima de restricción se elige para cortar en un sitio particular o, alternativamente, en un sitio que se genera para crear un sitio de restricción para el corte. En algunas modalidades, una enzima de restricción es una enzima sintética. En algunas modalidades, una enzima de restricción no es una enzima sintética. En algunas modalidades, una enzima de restricción como se usa en la presente descripción se ha modificado para introducir uno o más cambios dentro del genoma de la propia enzima. En algunas modalidades, las enzimas de restricción producen cortes de doble hebra entre secuencias definidas dentro de una porción dada de ADN.
Si bien puede usarse cualquier enzima de restricción de acuerdo con algunas modalidades (por ejemplo, tipo I, tipo II, tipo III y/o tipo IV), lo siguiente representa una lista no limitante de enzimas de restricción que pueden usarse: AluI, ApoI, AspHI, BamHI, BfaI, BsaI, CfrI, DdeI, DpnI, DraI, EcoRI, EcoRII, EcoRV, HaeII, HaeIII, HgaI, HindII, HindIII, HinFI, KpnI, MamI, MseI, MstI, MstII, NcoI, NdeI, NotI, PacI, PstI, PvuI, PvuII, RcaI, RsaI, SacI, SacII, SalI, Sau3AI, ScaI, SmaI, SpeI, SphI, StuI, XbaI, XhoI, XhoII, XmaI, XmaII y cualquiera de sus combinaciones. Se puede encontrar una lista extensa, pero no exhaustiva, de enzimas de restricción adecuadas en catálogos disponibles públicamente y en internet (por ejemplo, disponible en New England Biolabs, Ipswich, MA, EE. UU.).
Endonucleasas dirigidas
Las endonucleasas dirigidas (por ejemplo, un complejo de ribonucleoproteína asociado a CRISPR, tal como Cas9 o Cpf1, una nucleasa autoguiada, una nucleasa con dedos de zinc, un TALEN, una nucleasa megaTAL, una nucleasa argonauta y/o sus derivados) pueden usarse para seleccionar cortar y escindir porciones objetivo de material de ácido nucleico con el fin de enriquecer dichas porciones objetivo para aplicaciones de secuenciación. En algunas modalidades, se puede modificar una endonucleasa dirigida, tal como tener una sustitución de aminoácido para proporcionar, por ejemplo, termoestabilidad mejorada, tolerancia a la sal y/o tolerancia al pH. En otras modalidades, una endonucleasa dirigida puede biotinilarse, fusionarse con estreptavidina y/o incorporar otra tecnología basada en afinidad (por ejemplo, cebo/presa). En determinadas modalidades, una endonucleasa dirigida puede tener una especificidad de sitio de reconocimiento alterada (por ejemplo, variante SpCas9 que tiene una especificidad de sitio PAM alterada). Las endonucleasas dirigidas basadas en CRISPR se analizan adicionalmente en la presente descripción para proporcionar un ejemplo no limitante más detallado del uso de una endonucleasa dirigida. Observamos que la nomenclatura en torno a tales nucleasas específicas sigue cambiando. Para los fines de la presente descripción, usamos el término "basado en CRISPER" para referirse generalmente a endonucleasas que
comprenden una secuencia de ácido nucleico, cuya secuencia puede modificarse para redefinir una secuencia de ácido nucleico que se va a escindir. Cas9 y CPF1 son ejemplos de tales endonucleasas dirigidas actualmente en uso, pero parece que existen muchas más en diferentes lugares del mundo natural y se espera que la disponibilidad de diferentes variedades de tales nucleasas dirigidas y fácilmente sintonizables crezca rápidamente en los próximos años. De manera similar, están disponibles múltiples variantes diseñadas de estas enzimas para mejorar o modificar sus propiedades. En la presente descripción, contemplamos explícitamente el uso de endonucleasas dirigidas sustancialmente similares funcionalmente no descritas explícitamente en la presente descripción o aún no descubiertas, para lograr un propósito similar a las divulgaciones descritas en la presente descripción.
CRISPR-DS
Aspectos adicionales de la presente tecnología están dirigidos a métodos para enriquecer la o las regiones de interés mediante el uso de la endonucleasa programable CRISPR/Cas9. En particular, puede usarse CRISPR/Cas9 (u otra endonucleasa programable) para extirpar selectivamente una o más regiones de secuencia de interés en donde la o las regiones objetivo extirpadas están diseñadas para tener una o más longitudes predeterminadas, lo que permite la selección del tamaño antes de preparación de bibliotecas para aplicaciones de secuenciación como Ds y SPLiT-DS. Estas endonucleasas programables pueden usarse solas o en combinación con otras formas de nucleasas dirigidas, tales como las endonucleasas de restricción. Este método, denominado CRISPR-DS, permite un enriquecimiento muy alto en el objetivo (lo que puede reducir la necesidad de etapas posteriores de captura híbrida), lo que puede reducir significativamente el tiempo y el costo, así como también aumentar la eficiencia de conversión. Las figuras 12A-12D son ilustraciones conceptuales de las etapas del método CRISPR-DS de acuerdo con una modalidad de la presente tecnología. Por ejemplo, CRISPR/Cas9 puede usarse para cortar en uno o más sitios específicos (por ejemplo, sitios PAM) dentro de una secuencia objetivo (Figura 12A; región objetivo TP53 en este ejemplo). La figura 12B ilustra un método para aislar la porción objetivo extirpada mediante el uso de perlas SPRI/Ampure y purificación magnética para eliminar el ADN de alto peso molecular mientras se deja el fragmento más corto predeterminado. En otras modalidades, la porción extirpada de longitud predeterminada se puede separar de los fragmentos de ADN no deseados y otro ADN genómico de alto peso molecular (si corresponde) mediante el uso de una variedad de métodos de selección de tamaño que incluyen, pero no se limitan a, electroforesis en gel, purificación en gel, cromatografía líquida, purificación por exclusión de tamaño y métodos de purificación por filtración. Después de la selección por tamaño, los métodos CRISPR-DS incluyen etapas consistentes con las etapas del método DS (ver, por ejemplo, figura 12E) que incluyen cola A (la escisión CRISPR/Cas9 deja extremos romos), ligación de adaptadores DS (Figura 12C), amplificación dúplex (Figura 12D), una etapa de captura y amplificación de índice (por ejemplo, PCR) antes de secuenciar cada hebra y generar una secuencia de consenso dúplex (Figura 12D). Además de la mejora en las eficiencias del flujo de trabajo como se evidencia en la figura 12E, CRISPR-DS proporciona longitudes de fragmento óptimas para las etapas de amplificación y secuenciación de alta eficiencia (Figura 12F).
En determinadas modalidades, CRISPR-DS resuelve múltiples problemas comunes asociados con NGS, que incluyen, por ejemplo, un enriquecimiento objetivo ineficiente, que puede optimizarse mediante la selección de tamaño basada en CRISPR; errores de secuenciación, que pueden eliminarse mediante el uso de la metodología DS para generar una secuencia de consenso dúplex con corrección de errores; y tamaño de fragmento desigual, que se mitiga mediante la fragmentación CRISPR/Cas9 prediseñada (Tabla 1).
Tabla 1. Secuencias de crARN para digestión TP53 CRISPR/Cas9
Descripción Nombre: Secuencia más sitio pam: Posición Posición Puntuación del objetivo: de inicio: final: de Zhang TP53 - aguas TP53e11_US GTGGGCCCCTACCTAGAATGTGG 7572606 7572628 79 arriba del exón
11
TP53 - aguas TP53e11_DS ATTCCCGTTGTCCCAGCCTTAGG 7573118 7573096 70 abajo del exón
11
TP53 - aguas TP53e10_US TGGTTATAGGATTCAACCGGAGG 7573754 7573776 91 arriba del exón
10
TP53 - aguas TP53e10_DS CTGATTGCAATCTCCGCCTCTGG 7574261 7574283 86 abajo del exón
10
TP53 - aguas TP53e9-8_DS CGGCATTTTGAGTGTTAGACTGG 7576792 7576814 80 arriba de los
exones 9-8
TP53 - aguas TP53e9-8_US CTTTGGGACCTCTTAACCTGTGG 7577324 7577302 80 abajo de los
exones 9-8
TP53 - aguas TP53e7_DS.v2 CAGGTCTCCCCAAGGCGCACTGG 7577660 7577638 81
abajo del exón
7
TP53 - aguas TP53e6-5_ US GCACATCTCATGGGGTTATAGGG 7578050 7578072 84 arriba de los
exones 6-5
TP53 - aguas TP53e6-5_ DS CAGGGGAGTACTGTAGGAAGAGG 7578545 7578567 61 abajo de los
exones 6-5
TP53 - aguas TP53e4- TGCACGGTCAGTTGCCCTGAGGG 7579317 7579295 81 arriba de los 3_US.v2
exones 4-3
TP53 - aguas TP53e4-3_ DS ATGGAATTTTCGCTTCCCACAGG 7579751 7579773 79 abajo de los
exones 4-3
TP53 - aguas TP53e2_DS TGGGAATAGGGTGCACATTTAGG 7580242 7580220 66 abajo del exón
2
La digestión in vitro de material de ADN con la nucleasa Cas9 hace uso de la formación de un complejo de ribonucleoproteína, que reconoce y escinde un sitio predeterminado (por ejemplo, un sitio PAM, figura 11C). Este complejo se forma con los ARN guía ("ARNg", por ejemplo, crARN tracrARN) y Cas9. Para el corte múltiplex, los ARNg se pueden acomplejar agrupando todos los crARN, luego acomplejándolos con tracrARN, o complejizando cada crARN y tracrARN por separado, y luego agrupando. En algunas modalidades, se puede preferir la segunda opción porque elimina la competencia entre los crARN.
Como apreciará un experto en la técnica, como se describió en la presente descripción, CRISPR-DS puede tener aplicación para la identificación sensible de mutaciones en situaciones en las que las muestras están limitadas por ADN, tal como las aplicaciones forenses y de detección temprana de cáncer.
En algunas modalidades, el material de ácido nucleico comprende las moléculas de ácido nucleico de una longitud sustancialmente uniforme. En algunas modalidades, una longitud sustancialmente uniforme está entre aproximadamente 1 y 1 000 000 bases). Por ejemplo, en algunas modalidades, una longitud sustancialmente uniforme puede ser al menos 1; 2; 3; 4; 5; 6; 7; 8; 9; 10; 15; 20; 25; 30; 35; 40; 50; 60; 70; 80; 90; 100; 120; 150; 200; 300; 400; 500; 600; 700; 800; 900; 1000; 1200; 1500; 2000; 3000; 4000; 5000; 6000; 7000; 8000; 9000; 10000; 15000; 20000; 30000; 40000; o 50000 bases de longitud. En algunas modalidades, una longitud sustancialmente uniforme puede ser a lo máximo de 60000; 70000; 80000; 90000; 100000; 120000; 150000; 200000; 300000; 400 000; 500 000; 600 000; 700 000; 800 000; 900 000; o 1000 000 bases. Por medio de ejemplo específico no limitativo, en algunas modalidades, una longitud sustancialmente uniforme está entre aproximadamente 100 a aproximadamente 500 bases. En algunas modalidades, se puede realizar una etapa de selección de tamaño, como las descritas en la presente descripción, antes de cualquier etapa de amplificación en particular. En algunas modalidades, una etapa de selección de tamaño, tal como las descritas en la presente descripción, se puede realizar después de cualquier etapa de amplificación en particular. En algunas modalidades, una etapa de selección de tamaño tal como las descritas en la presente descripción puede ir seguida de una etapa adicional, tal como una etapa de digestión y/u otra etapa de selección de tamaño.
Además del uso de endonucleasas dirigidas, puede usarse cualquier otro método apropiado de aplicación para conseguir moléculas de ácido nucleico de una longitud sustancialmente uniforme. Por medio de ejemplo no limitante, tales métodos pueden ser o incluir el uso de uno o más de: una agarosa u otro gel, una columna de afinidad, HPLC, PAGE, filtración, perlas tipo SPRI/Ampure, o cualquier otro método apropiado que ser reconocido por un experto en la técnica.
En algunas modalidades, puede usarse el procesamiento de un material de ácido nucleico para producir moléculas de ácido nucleico de longitud (o masa) sustancialmente uniforme para recuperar una o más regiones objetivo deseadas de una muestra (por ejemplo, una secuencia objetivo de interés). En algunas modalidades, puede usarse el procesamiento de un material de ácido nucleico para producir moléculas de ácido nucleico de longitud (o masa) sustancialmente uniforme para excluir porciones específicas de una muestra (por ejemplo, material de ácido nucleico de una especie no deseada o no sujeto deseado de la misma especie). En algunas modalidades, el material de ácido nucleico puede estar presente en una variedad de tamaños (por ejemplo, no como longitudes o masas sustancialmente uniformes).
En algunas modalidades, puede usarse más de una endonucleasa dirigida u otro método para proporcionar moléculas de ácido nucleico de una longitud sustancialmente uniforme (por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más). En algunas modalidades, puede usarse una nucleasa dirigida para cortar en más de una región objetivo potencial de un material de ácido nucleico (por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más). En algunas modalidades donde hay más de una región objetivo de un material de ácido nucleico, cada región objetivo puede tener la misma (o sustancialmente la misma) longitud. En algunas modalidades donde hay más de una región objetivo de un material
de ácido nucleico, al menos dos de las regiones objetivo de longitud conocida difieren en longitud (por ejemplo, una primera región objetivo con una longitud de 100 pb y una segunda región objetivo con una longitud de 1000 pb).
En algunas modalidades, múltiples endonucleasas dirigidas (por ejemplo, endonucleasas programables) pueden usarse en combinación para fragmentar múltiples regiones del ácido nucleico objetivo de interés. En algunas modalidades, pueden usarse una o más endonucleasas dirigidas programables en combinación con otras nucleasas dirigidas. En algunas modalidades, pueden usarse una o más endonucleasas dirigidas en combinación con nucleasas aleatorias o semialeatorias. En algunas modalidades, pueden usarse una o más endonucleasas dirigidas en combinación con otros métodos aleatorios o semialeatorios de fragmentación de ácidos nucleicos tales como cizallamiento mecánico o acústico. En algunas modalidades, puede ser ventajoso realizar la escisión en etapas secuenciales con una o más etapas intermedias de selección de tamaño. En algunas modalidades donde se usa la fragmentación dirigida en combinación con la fragmentación aleatoria o semialeatoria, la naturaleza aleatoria o semialeatoria de esta última puede ser útil para cumplir el propósito de una SMI. En algunas modalidades donde se usa la fragmentación dirigida en combinación con la fragmentación aleatoria o semialeatoria, la naturaleza aleatoria 0 semialeatoria de esta última puede ser útil para facilitar la secuenciación de regiones de un ácido nucleico que no se escinden fácilmente de forma dirigida, tal como como largas regiones altamente repetitivas.
Métodos adicionales
En algunas modalidades, un método proporcionado puede incluir las etapas de proporcionar un material de ácido nucleico, cortar el material de ácido nucleico con una endonucleasa dirigida (por ejemplo, un complejo de ribonucleoproteína) para que una región objetivo de longitud predeterminada se separe del resto de material de ácido nucleico y analizar la región objetivo del corte. En algunas modalidades, los métodos proporcionados pueden incluir además ligar al menos una secuencia SMI y/o adaptadora a al menos uno de los extremos 5' o 3' de la región objetivo cortada de longitud predeterminada. En algunas modalidades, el análisis puede ser o comprender cuantificación y/o secuenciación.
En algunas modalidades, la cuantificación puede ser o comprender análisis espectrofotométrico, PCR en tiempo real y/o cuantificación basada en fluorescencia (por ejemplo, mediante el uso de un tinte marcado fluorescente). En algunas modalidades, la secuenciación puede ser o comprender secuenciación de Sanger, secuenciación de escopeta, PCR puente, secuenciación de nanoporos, secuenciación en tiempo real de una sola molécula, secuenciación de torrente de iones, pirosecuenciación, secuenciación digital (por ejemplo, secuenciación basada en código de barras digital), secuenciación por ligación, secuenciación basada en polonia, secuenciación basada en corriente eléctrica (por ejemplo, corrientes de efecto túnel), secuenciación mediante espectroscopia de masas, secuenciación basada en microfluídica y cualquiera de sus combinaciones.
En algunas modalidades, una endonucleasa dirigida es o comprende al menos una enzima asociada a CRISPR (Cas) (por ejemplo, Cas9 o Cpf1) u otro complejo de ribonucleoproteína, una endonucleasa dirigida, una nucleasa con dedos de zinc, un efector similar a un activador de transcripción (TALEN), una nucleasa argonauta y/o una nucleasa megaTAL. En algunas modalidades, puede usarse más de una endonucleasa dirigida (por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más). En algunas modalidades, puede usarse una nucleasa dirigida para cortar en más de una región objetivo potencial de longitud predeterminada (por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más). En algunas modalidades donde hay más de una región objetivo de longitud predeterminada, cada región objetivo puede tener la misma (o sustancialmente la misma) longitud. En algunas modalidades donde hay más de una región objetivo de longitud predeterminada, al menos dos de las regiones objetivo de longitud predeterminada difieren en longitud (por ejemplo, una primera región objetivo con una longitud de 100 pb y una segunda región objetivo con una longitud de 1000 pb).
Aspectos adicionales
De acuerdo con un aspecto de la presente descripción, algunas modalidades proporcionan información de secuenciación de alta calidad a partir de cantidades muy pequeñas de material de ácido nucleico. En algunas modalidades, los métodos proporcionados y las composiciones descritas pueden usarse con una cantidad de material de ácido nucleico de partida de como máximo aproximadamente: 1 picogramo (pg); 10 pg; 100 pg; 1 nanogramo (ng); 10 ng; 100 ng; 200 ng, 300 ng, 400 ng, 500 ng, 600 ng, 700 ng, 800 ng, 900 ng o 1000 ng. En algunas modalidades, los métodos y composiciones proporcionados pueden usarse con una cantidad de entrada de material de ácido nucleico de a lo máximo 1 copia molecular o equivalente del genoma, 10 copias moleculares o el equivalente del genoma del mismo, 100 copias moleculares o el equivalente del genoma del mismo, 1000 copias moleculares o su equivalente del genoma, 10000 copias moleculares o su equivalente del genoma, 100000 copias moleculares o su equivalente del genoma, o 1 000 000 copias moleculares o su equivalente del genoma. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 1000 ng de material de ácido nucleico para un proceso de secuenciación particular. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 100 ng de material de ácido nucleico para un proceso de secuenciación particular. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 10 ng de material de ácido nucleico para un proceso de secuenciación particular. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 1 ng de material de ácido nucleico para un proceso de secuenciación particular. Por ejemplo, en algunas modalidades, se
proporciona inicialmente a lo máximo 100 pg de material de ácido nucleico para un proceso de secuenciación particular. Por ejemplo, en algunas modalidades, se proporciona inicialmente a lo máximo 1 pg de material de ácido nucleico para un proceso de secuenciación particular.
De acuerdo con otros aspectos de la presente tecnología, algunos métodos proporcionados pueden ser útiles para secuenciar cualquiera de una variedad de muestras subóptimas (por ejemplo, dañadas o degradadas) de material de ácido nucleico. Por ejemplo, en algunas modalidades, al menos parte del material de ácido nucleico está dañado. En algunas modalidades, el daño es o comprende al menos uno de oxidación, alquilación, desaminación, metilación, hidrólisis, corte, entrecruzamiento intracatenario, entrecruzamiento intercatenario, ruptura del extremo romo del extremo, rotura escalonada del extremo doble del extremo, fosforilación, desfosforilación, sumoilación, glicosilación, brechas monocatenarias, daño por calor, daño por desecación, daño por exposición UV, daño por radiación gamma, daño por radiación X, daño por radiación ionizante, daño por radiación no ionizante, daño por radiación de partículas pesadas, daños por desintegración nuclear, daños por radiación beta, daños por radiación alfa, daños por radiación de neutrones, daños por radiación de protones, daños por radiación cósmica, daños por pH alto, daños por pH bajo, daños por especies oxidativas reactivas, daños por radicales libres, daño por peróxido, daño por hipoclorito, daño por fijación de tejido como formalina o formaldehído, daño por hierro reactivo, daño por iones bajos, daño por condiciones iónicas altas, daño por condiciones no tamponadas, daño por nucleasas, daño por exposición ambiental, daño por fuego, daño por estrés mecánico, daño por degradación enzimática, daño por microorganismos, daño por corte mecánico preparativo, daño por preparación fragmentación enzimática, daño que ocurrió naturalmente in vivo, daño que ocurrió durante la extracción del ácido nucleico, daño que ocurrió durante la preparación de la biblioteca de secuenciación, daño que fue introducido por una polimerasa, daño que fue introducido durante la reparación del ácido nucleico, daño que ocurrió durante la terminación del ácido nucleico, daños ocurridos durante la ligación de ácidos nucleicos, daños ocurridos durante la secuenciación, daños producidos por la manipulación mecánica del ADN, daños producidos durante el paso a través de un nanoporo, daños producidos como parte del envejecimiento en un organismo, daños producidos como un resultado si la exposición química de un individuo, daño producido por un mutágeno, daño producido por un carcinógeno, daño producido por un clastógeno, daño producido por inflamación in vivo, daño debido a la exposición al oxígeno, daño debido a una o más roturas de hebras, y cualquiera de sus combinaciones.
Material de ácido nucleico
Tipos
De acuerdo con diversas modalidades, puede usarse cualquiera de una diversidad de material de ácido nucleico. En algunas modalidades, el material de ácido nucleico puede comprender al menos una modificación a un polinucleótido dentro de la cadena principal de azúcar-fosfato canónica. En algunas modalidades, el material de ácido nucleico puede comprender al menos una modificación dentro de cualquier base en el material de ácido nucleico. Por ejemplo, por medio de un ejemplo no limitante, en algunas modalidades, el material de ácido nucleico es o comprende al menos uno de ADN bicatenario, ADN monocatenario, ARN bicatenario, ARN monocatenario, ácidos nucleicos peptídicos (PNA), ácidos nucleicos bloqueados (LNA).
Modificaciones
De acuerdo con diversas modalidades, el material de ácido nucleico puede recibir una o más modificaciones antes de, sustancialmente de manera simultánea, o subsecuentemente a, cualquier etapa particular, en dependencia de la aplicación para la cual se usa un método o composición particular proporcionada.
En algunas modalidades, una modificación puede ser o comprender la reparación de al menos una porción del material de ácido nucleico. Si bien cualquier forma de reparación de ácido nucleico apropiada para la aplicación se contempla como compatible con algunas modalidades, determinados métodos y composiciones ilustrativas se describen más abajo y en los ejemplos. También se describen más abajo las composiciones que pueden usarse en los métodos de la invención, de acuerdo con las reivindicaciones.
Por medio de un ejemplo no limitante, en algunas modalidades, las enzimas de reparación del ADN, tal como la uracil-ADN glicosilasa (UDG), la formamidopirimidina ADN glicosilasa (FPG), y la 8-oxoguanina ADN glicosilasa (OGG1), pueden utilizarse para corregir el daño del ADN (por ejemplo, el daño de ADN in vitro). Estas enzimas de reparación del ADN, por ejemplo, son glicosilasas que eliminan las bases dañadas del ADN. Por ejemplo, la UDG elimina el uracilo que resulta de la desaminación de la citosina (causada por la hidrólisis espontánea de la citosina) y la FPG elimina la 8-oxo-guanina (por ejemplo, la lesión del ADN más común que resulta de especies reactivas de oxígeno). La FPG, además, tiene actividad liasa que puede generar 1 brecha de bases en sitios abásicos. Tales sitios abásicos subsecuentemente no se amplificarán por PCR, por ejemplo, porque la polimerasa falla al copiar la plantilla. En consecuencia, el uso de tales enzimas de reparación de daños en el ADN puede eliminar eficazmente el ADN dañado que no tiene una mutación verdadera, pero que de cualquier otra manera podría no detectarse como un error después de la secuenciación y el análisis de secuencia dúplex.
Como se discutió anteriormente, en modalidades adicionales, las lecturas de secuenciación generadas a partir de las etapas de procesamiento discutidas en la presente descripción pueden filtrarse adicionalmente para eliminar mutaciones falsas mediante el recorte de los extremos de las lecturas más propensos a los artefactos. Por ejemplo, la fragmentación del ADN puede generar porciones monocatenarias en los extremos terminales de las moléculas bicatenarias. Estas porciones monocatenarias pueden rellenarse (por ejemplo, mediante Klenow) durante la reparación de extremos. En algunos casos, las polimerasas cometen errores de copia en estas regiones extremas reparadas que conducen a la generación de "moléculas pseudodúplex". Estos artefactos pueden parecer mutaciones verdaderas una vez secuenciados. Estos errores, como resultado de los mecanismos de reparación de extremos, pueden eliminarse del análisis posterior a la secuenciación mediante el recorte de los extremos de las lecturas de secuenciación para excluir cualquiera de las mutaciones que puedan haber ocurrido, de esta manera se reduce el número de falsas mutaciones. En algunas modalidades, tal recorte de las lecturas de secuenciación puede realizarse automáticamente (por ejemplo, una etapa normal del proceso). En algunas modalidades, puede evaluarse una frecuencia de mutación para las regiones del extremo del fragmento y si se observa un nivel umbral de mutaciones en las regiones del extremo del fragmento, puede realizarse el recorte de lectura de secuenciación antes de generar una lectura de secuencia consenso bicatenaria de los fragmentos de ADN.
Fuentes
Se contempla que el material de ácido nucleico pueda provenir de cualquiera de una diversidad de fuentes. Por ejemplo, en algunas modalidades, el material de ácido nucleico se proporciona a partir de una muestra de al menos un sujeto (por ejemplo, un sujeto humano o animal) u otra fuente biológica. En algunas modalidades, se proporciona un material de ácido nucleico a partir de una muestra registrada en un banco de muestras/almacenada. En algunas modalidades, una muestra es o comprende al menos uno de sangre, suero, sudor, saliva, líquido cefalorraquídeo, moco, líquido de lavado uterino, un hisopado vaginal, un hisopado nasal, un hisopado oral, un raspado de tejido, cabello, una impresión del dedo, orina, heces, humor vítreo, lavado peritoneal, esputo, lavado bronquial, lavado oral, lavado pleural, lavado gástrico, jugo gástrico, bilis, lavado del conducto pancreático, lavado del conducto biliar, lavado del conducto biliar común, líquido de la vesícula biliar, líquido sinovial, una herida infectada, una herida no infectada, una muestra arqueológica, una muestra forense, una muestra de agua, una muestra de tejido, una muestra de alimentos, una muestra de biorreactor, una muestra de planta, un raspado de uñas, semen, líquido prostático, lavado de las trompas de Falopio, un ácido nucleico libre de células, un ácido nucleico dentro de una célula, una muestra de metagenómica, un lavado de un cuerpo extraño implantado, un lavado nasal, fluido intestinal, cepillado epitelial, lavado epitelial, biopsia de tejido, una muestra de autopsia, una muestra de necropsia, una muestra de órgano, una muestra para identificación humana, una muestra de ácido nucleico producida artificialmente, una muestra de gen sintético, una muestra de almacenamiento de datos de ácido nucleico, tejido tumoral, y cualquiera de sus combinaciones. En otras modalidades, una muestra es o comprende al menos uno de un microorganismo, un organismo a base de plantas, o cualquier muestra ambiental recolectada (por ejemplo, agua, suelo, arqueológico, etc.).
Ejemplos seleccionados de aplicaciones
Como se describió en la presente descripción, los métodos proporcionados y las composiciones descritas pueden usarse para cualquiera de una variedad de propósitos y/o en cualquiera de una variedad de escenarios. Más abajo se describen ejemplos de aplicaciones y/o escenarios no limitativos únicamente con fines ilustrativos específicos.
Medicina forense
Los enfoques anteriores para el análisis forense de ADN se basaban casi por completo en la separación electroforética capilar de amplicones de PCR para identificar polimorfismos de longitud en secuencias cortas repetidas en tándem. Este tipo de análisis ha demostrado ser extremadamente valioso desde su introducción en 1991. Desde entonces, varias publicaciones introdujeron protocolos estandarizados, validaron su uso en laboratorios de todo el mundo, detallaron su uso en muchos grupos de población diferentes e introdujeron enfoques más eficientes, tales como miniSTR.
Si bien este enfoque ha demostrado ser extremadamente exitoso, la tecnología tiene una serie de inconvenientes que limitan su utilidad. Por ejemplo, los enfoques actuales para el genotipado de STR a menudo dan lugar a una señal de fondo que resulta del tartamudeo de la PCR, causado por el deslizamiento de la polimerasa en la plantilla de ADN. Este problema es especialmente importante en muestras con más de un colaborador, debido a la dificultad de distinguir los alelos tartamudos de los alelos genuinos. Otro problema surge cuando se analizan muestras de ADN degradadas. La variación en la longitud del fragmento a menudo da como resultado fragmentos de PCR más largos significativamente más bajos, o incluso ausentes. Como consecuencia, los perfiles de ADN degradado suelen tener un menor poder de discriminación.
La introducción de los sistemas MPS tiene el potencial de abordar varios problemas desafiantes en el análisis forense. Por ejemplo, estas plataformas ofrecen una capacidad sin precedentes para permitir el análisis simultáneo de STR y SNP en ADN nuclear y mtADN, lo que aumentará drásticamente el poder de discriminación entre individuos y ofrece la posibilidad de determinar el origen étnico e incluso los atributos físicos. Además, a diferencia
de PCR-CE, que simplemente informa el genotipo promedio de una población agregada de moléculas, la tecnología MPS tabula digitalmente la secuencia de nucleótidos completa de muchas moléculas de ADN individuales, lo que ofrece la capacidad única de detectar MAF dentro de una mezcla heterogénea de ADN. Debido a que las muestras forenses que comprenden dos o más colaboradores siguen siendo uno de los temas más problemáticos de la ciencia forense, el impacto de MPS en el campo de la ciencia forense podría ser enorme.
La publicación del genoma humano destacó el inmenso poder de las plataformas MPS. Sin embargo, hasta hace poco tiempo, toda la potencia de estas plataformas tenía un uso limitado para la ciencia forense debido a que las longitudes de lectura eran significativamente más cortas que los loci STR, lo que impedía la capacidad de llamar a genotipos basados en la longitud. Inicialmente, los pirosecuenciadores, tales como la plataforma Roche 454, eran las únicas plataformas con suficiente longitud de lectura para secuenciar los loci centrales de STR. Sin embargo, las longitudes de lectura en tecnologías competidoras han aumentado, lo que pone en juego su utilidad para aplicaciones forenses. Varios estudios han revelado el potencial para el genotipado MPS de loci STR. En general, el resultado general de todos estos estudios, independientemente de la plataforma, es que los STR se pueden tipificar con éxito y producir genotipos comparables con los análisis de CE, incluso a partir de muestras forenses comprometidas.
Si bien todos estos estudios muestran concordancia con los enfoques tradicionales de PCR-CE e incluso indican beneficios adicionales tales como la detección de SNP intra-STR, también han resaltado una serie de problemas actuales con la tecnología. Por ejemplo, los enfoques MPS actuales para el genotipado de STR se basan en PCR multiplex para proporcionar suficiente ADN para secuenciar e introducir cebadores de PCR. Sin embargo, dado que los kits de PCR multiplex se diseñaron para PCR-CE, contienen cebadores para amplicones de diversos tamaños. Esta variación da como resultado un desequilibrio en la cobertura con un sesgo hacia la amplificación de fragmentos más pequeños, lo que puede provocar la pérdida de alelos. De hecho, estudios recientes han demostrado que las diferencias en la eficiencia de la PCR pueden afectar a los componentes de la mezcla, especialmente en MAF bajos. Para abordar este problema, varios kits de secuenciación diseñados específicamente para análisis forense ahora están disponibles comercialmente y se están comenzando a informar estudios de validación. Sin embargo, debido al alto nivel de multiplexación, los sesgos de amplificación aún son evidentes.
Al igual que PCR-CE, MPS no es inmune a la aparición de tartamudeo de PCR. La gran mayoría de los estudios de MPS sobre STR informan la aparición de alelos improvisados. Recientemente, estudios sistemáticos de MPS informan que la mayoría de los eventos de tartamudeo aparecen como polimorfismos de longitud más corta que difieren del alelo verdadero en cuatro unidades de pares de bases, siendo la más común la n-4, pero también se observan las posiciones n-8 y n-12. El por ciento de tartamudeo típicamente se produjo en ~1 % de las lecturas, pero puede llegar al 3 % en algunos loci, lo que indica que MPS puede mostrar tartamudeo a tasas más altas que PCR-CE.
Por el contrario, en algunas modalidades, los métodos y composiciones proporcionados permiten una secuenciación eficiente y de alta calidad de muestras de baja calidad y/o cantidad, como se describió anteriormente y en los ejemplos más abajo. Por consiguiente, en algunas modalidades, los métodos y/o composiciones proporcionados pueden ser útiles para la detección de variantes raras del ADN de un individuo mezclado en baja abundancia con el ADN de otro individuo de un genotipo diferente.
Las muestras de ADN forense comúnmente contienen ADN no humano. Las posibles fuentes de este ADN extraño son: la fuente del ADN (por ejemplo, microbios en la saliva o muestras bucales), el entorno superficial del que se recolectó la muestra y la contaminación del laboratorio (por ejemplo, reactivos, área de trabajo, etc.). Otro aspecto proporcionado por algunas modalidades es que determinados métodos y composiciones proporcionados permiten distinguir el material de ácido nucleico contaminante de otras fuentes (por ejemplo, diferentes especies) y/o contaminantes ambientales o superficiales para que estos materiales (y/o sus efectos) puedan eliminarse del análisis final y no sesgar los resultados de la secuenciación.
En el ADN altamente degradado, la PCR específica de loci puede no funcionar bien debido a que los fragmentos de ADN no contienen el sitio de hibridación del cebador necesario, lo que da como resultado la eliminación de alelos. Esta situación limitaría la singularidad de las llamadas de genotipo y la confianza de las coincidencias está menos asegurada, especialmente en los ensayos de mezcla. Sin embargo, en algunas modalidades, los métodos y composiciones proporcionados permiten el uso de polimorfismos de un solo nucleótido (SNP) además de o como una alternativa a los marcadores STR.
De hecho, con datos cada vez mayores sobre la variación genética humana, los SNP son cada vez más relevantes para el trabajo forense. Como tal, en algunas modalidades, los métodos y composiciones proporcionados usan una estrategia de diseño de cebadores de manera que se pueden crear paneles de cebadores multiplex, por ejemplo, basados en kits de secuenciación disponibles actualmente, que virtualmente aseguran que las lecturas atraviesen una o más ubicaciones de SNP.
Estratificación de pacientes
La estratificación de pacientes, que generalmente se refiere a la partición de pacientes en función de uno o más factores no relacionados con el tratamiento, es un tema de gran interés en la comunidad médica. Gran parte de este interés puede deberse al hecho de que determinados candidatos terapéuticos no han recibido la aprobación de la FDA, en parte debido a una diferencia previamente no reconocida entre los pacientes en un ensayo. Estas diferencias pueden ser o incluir una o más diferencias genéticas que dan como resultado que un agente terapéutico se metabolice de manera diferente, o que los efectos secundarios estén presentes o se exacerben en un grupo de pacientes frente a uno o más grupos de pacientes. En algunos casos, algunas o todas estas diferencias pueden detectarse como uno o más perfiles genéticos distintos en los pacientes que dan como resultado una reacción al tratamiento que es diferente de otros pacientes que no presentan el mismo perfil genético.
En consecuencia, en algunas modalidades, los métodos proporcionados y las composiciones descritas pueden ser útiles para determinar qué sujetos en una población de pacientes particular (por ejemplo, pacientes que padecen una enfermedad, trastorno o afección común) pueden responder a una terapia particular. Por ejemplo, en algunas modalidades, los métodos proporcionados y/o las composiciones descritas pueden usarse para evaluar si un sujeto particular posee o no un genotipo que está asociado con una respuesta deficiente a la terapia. En algunas modalidades, los métodos proporcionados y/o las composiciones descritas pueden usarse para evaluar si un sujeto particular posee o no un genotipo que está asociado con una respuesta positiva a la terapia.
Seguimiento de la respuesta a las terapias (mutación tumoral, etc.)
El advenimiento de la secuenciación de próxima generación (NGS) en la investigación genómica ha permitido la caracterización del panorama mutacional de los tumores con un detalle sin precedentes y ha resultado en la catalogación de mutaciones diagnósticas, pronósticas y clínicamente procesables. En conjunto, estas mutaciones son una gran promesa para mejorar los resultados del cáncer a través de la medicina personalizada, así como también para la posible detección y detección temprana del cáncer. Antes de la presente descripción, una limitación crítica en el campo ha sido la incapacidad de detectar estas mutaciones cuando están presentes con baja frecuencia. Las biopsias clínicas a menudo se componen principalmente de células normales y la detección de células cancerosas en función de sus mutaciones de ADN es un desafío tecnológico incluso para la NGS moderna. La identificación de mutaciones tumorales entre miles de genomas normales es análoga a encontrar una aguja en un pajar, lo que requiere un nivel de precisión de secuenciación más allá de los métodos conocidos anteriormente.
Generalmente, este problema se agrava en el caso de las biopsias líquidas, donde el desafío no es solo para proporcionar la sensibilidad extrema requerida para encontrar mutaciones tumorales, sino también hacerlo con las cantidades mínimas de ADN típicamente presentes en estas biopsias. El término "biopsia líquida" típicamente se refiere a la sangre en su capacidad para informar sobre el cáncer en función de la presencia de ADN tumoral circulante (ctADN). El ctADN es arrojado por las células cancerosas al torrente sanguíneo y se ha mostrado muy prometedor para controlar, detectar y predecir el cáncer, así como también para permitir la genotipificación tumoral y la selección de terapias. Estas aplicaciones podrían revolucionar el tratamiento actual de los pacientes con cáncer; sin embargo, el progreso ha sido más lento de lo previsto anteriormente. Un problema importante es que el ctADN generalmente representa una porción muy pequeña de todo el ADN libre de células (cfADN) presente en el plasma. En cánceres metastásicos su frecuencia podría ser > 5 %, pero en cánceres localizados es sólo entre 1 % - 0,001 %. En teoría, las subpoblaciones de ADN de cualquier tamaño deberían ser detectables analizando un número suficiente de moléculas. Sin embargo, una limitación fundamental de los métodos anteriores es la alta frecuencia con la que las bases se puntúan incorrectamente. A menudo surgen errores durante la generación de conglomerados, los ciclos de secuenciación, la mala resolución de los conglomerados y la degradación de la plantilla. El resultado es que aproximadamente el 0,1 - 1 % de las bases secuenciadas se llaman incorrectamente. Pueden surgir otros problemas debido a los errores de polimerasa y el sesgo de amplificación durante la PCR que pueden dar como resultado poblaciones sesgadas o la introducción de frecuencias de alelos mutantes falsos (MAF). En conjunto, las técnicas previamente conocidas, incluida la NGS convencional, son incapaces de funcionar al nivel requerido para la detección de mutaciones de baja frecuencia.
Se han empleado varios enfoques para intentar mejorar la precisión de NGS. Se ha demostrado que la eliminación del daño en el ADN con kits de reparación in vitro reduce el número de llamadas de variantes falsas en NGS. Sin embargo, no todas las lesiones mutagénicas son reconocidas por estas enzimas, ni la fidelidad de la reparación es perfecta. Otro enfoque que ha ganado una tracción significativa es aprovechar los duplicados de PCR que surgen de fragmentos de ADN individuales para formar un consenso. Denominado "código de barras molecular", las lecturas que comparten puntos de corte aleatorios únicos o secuencias de ADN aleatorias introducidas exógenamente antes o durante la PCR se agrupan y se conserva la secuencia más prevalente. Kinde, y otros introdujo esta idea con SafeSeqS, que usa un código de barras molecular monocatenario para reducir la tasa de error de la secuenciación al agrupar copias de PCR que comparten la secuenciación del código de barras y formar un consenso. Este enfoque conduce a un límite de detección promedio de 0,5 % y ha tenido éxito para la detección de ctADN en cánceres metastásicos, pero solo en ~40 % de los cánceres tempranos. Este límite de detección se puede mejorar sustancialmente con la PCR digital de gotitas (ddPCR), que puede detectar mutaciones en MAF tan bajas como ~0,01 %. Las mutaciones, sin embargo, deben conocerse previamente, lo que limita seriamente las múltiples aplicaciones contra el cáncer. Además, solo se pueden analizar de 1-4 mutaciones a la vez, lo que impide la detección de alto rendimiento (Tabla 2).
Tabla 2
Antes de la presente descripción, la única tecnología con una sensibilidad comparable a la ddPCR, pero sin requerir un conocimiento previo de la mutación tumoral, es la DS. DS amplía la idea de los códigos de barras moleculares mediante el uso de códigos de barras moleculares bicatenarios para aprovechar el hecho de que las dos hebras de ADN contienen información complementaria. Hemos demostrado previamente que este enfoque da como resultado una sensibilidad sin precedentes de <0,005 % en el ADN nuclear humano.
Debido a su alta precisión, DS, SPLiT-DS y CRISPR-DS, así como también los métodos para aumentar la conversión y la eficiencia del flujo de trabajo de estas plataformas de secuenciación, son prometedores en el campo de la oncología. Como se describe en la presente descripción, los métodos y composiciones proporcionados permiten un enfoque innovador para la metodología de DS que integra el etiquetado molecular bicatenario de DS con la amplificación específica de la secuencia objetivo (por ejemplo, PCR) para aumentar la eficiencia y la escalabilidad mientras se mantiene la corrección de errores.
Además de la necesidad de un ensayo que sea altamente preciso y eficiente, las realidades del laboratorio clínico también exigen ensayos que sean rápidos, escalables y razonablemente rentables. En consecuencia, son muy convenientes diversas modalidades de acuerdo con aspectos de la presente tecnología que mejoran la eficiencia del flujo de trabajo de DS (por ejemplo, estrategia de enriquecimiento para DS). El enriquecimiento basado en amplificación y el enriquecimiento de selección de tamaño/digestión de secuencias objetivo específicas para aplicaciones de DS, como se describió en la presente descripción, proporcionan una alta especificidad de objetivo, rendimiento en entradas de ADN bajas, escalabilidad y costo mínimo (típicamente, ~2-3 USD/muestra).
Algunas modalidades de los métodos proporcionados y las composiciones descritas son especialmente importantes para la investigación del cáncer en general y para el campo del ctADN en particular, ya que la tecnología desarrollada en la presente descripción tiene el potencial de identificar mutaciones del cáncer con una sensibilidad sin precedentes al tiempo que minimiza la entrada de ADN, el tiempo de preparación y los costos. SPLiT-DS y CRISPR-DS, entre otras modalidades descritas en la presente descripción, pueden ser útiles para su uso en aplicaciones clínicas que podrían aumentar significativamente la supervivencia a través de una mejor gestión del paciente y detección temprana del cáncer.
Ejemplos
Ejemplo 1: SPLiT-DS
SPLiT-DS es una estrategia de enriquecimiento dirigida basada en PCR compatible con el uso de códigos de barras moleculares en cada hebra para la corrección de errores de secuenciación dúplex (Figura 4A). En esta modalidad ilustrativa, para comenzar un análisis SPLiT-DS, una o más muestras de ADN se fragmentan mediante el uso de uno o más enfoques (similares a la construcción de bibliotecas de secuenciación dúplex descrita anteriormente como se conoce en la técnica). Después de la fragmentación, lo más común es que se realicen la reparación de extremos y la cola 3'-dA, seguidos de la ligación de cada fragmento de ADN con adaptadores DS de cola en T que contienen códigos de barras bicatenarios degenerados o semidegenerados (Figura 4, etapa 1). Alternativamente, pueden usarse otros tipos de ligación de salientes, ligación de extremos romos o química de ligación de adaptador descritas previamente en la publicación de patente internacional núm. WO 2017/100441y en la patente de Estados Unidos núm. 9,752,188. Sustancialmente todas las moléculas de ADN doblemente adaptadas se amplifican mediante PCR mediante el uso de cebadores específicos para los sitios de unión de cebadores universales en las colas del adaptador monocatenario, lo que proporciona múltiples copias con código de barras de fragmentos de ADN
("fragmentos con código de barras") derivados de cada hebra (Figura 4, etapa 2). Después de eliminar los subproductos de la reacción, una muestra dada se divide en dos tubos separados (Figura 4, etapa 3) (es decir, la muestra se divide por la mitad, y cada tubo contiene aproximadamente la mitad del contenido de la muestra). En promedio, la mitad de las copias de cualquier fragmento con código de barras se transferirá a cada tubo; sin embargo, debido a la aleatoriedad involucrada en la división de las muestras, puede ocurrir una variación en la distribución de cualquier fragmento con código de barras dado. Para tener en cuenta cualquier variación de este tipo, se usa como modelo una distribución hipergeométrica (es decir, la probabilidad de seleccionar k copias de código de barras sin reemplazo) para determinar el número mínimo de copias de PCR de un código de barras dado necesario para lograr una probabilidad razonablemente alta de que cada tubo contenga al menos un fragmento con código de barras derivado de cada una de las dos (es decir, ambas) hebras de ADN del dúplex original. Se contempla que, de acuerdo con un modelo hipergeométrico, > 4 ciclos de PCR (es decir, 2E4 = 16 copias/código de barras) durante la etapa 1 es más probable que proporcione una probabilidad de > 99 % de que cada fragmento con código de barras (de cada hebra) representarse al menos una vez en cada tubo. Esto supone una eficiencia de amplificación de PCR uniforme y de casi el 100 % que puede no ser realista en todos los escenarios, pero es una suposición razonable con muestras de ADN de alta calidad de entrada relativamente baja (por ejemplo, ADN genómico humano largo por 50 ul de PCR). Después de dividir la muestra en dos tubos, los loci objetivo se enriquecen con PCR multiplex mediante el uso de cebadores específicos para la secuencia adaptadora y para los loci genéticos de interés (Figura 4, etapa 4).
Las PCR específicas de loci multiplexadas se realizan de manera que los productos de PCR resultantes en cada tubo se derivan de solo una de las dos hebras originales de una muestra de molécula de ADN determinada. Esto se logra de acuerdo con el siguiente procedimiento, mediante el uso de una muestra que se divide en dos tubos (un primer tubo y un segundo tubo) como se describió en la presente descripción. En el primer tubo, la PCR se realiza mediante el uso de un cebador específico para la hibridación con la secuencia adaptadora "Lectura 1" (es decir, Illumina P5) (Figura 4, etapa 3; flecha gris), así como también cebadores específicos para los loci genéticos de interés, seguido de la secuencia para las secuencias adaptadoras de Lectura 2 (es decir, Illumina P7) (Figura 4, etapa 3; flecha negra con cola gris). Alternativamente, esta cola se puede acortar para que no contenga la secuencia P7 completa, que en su lugar se puede agregar a través de una PCR posterior antes de la secuenciación. Se propone que esta etapa proporcione que los productos de amplificación con una secuencia P5 y una P7 en cada terminal solo se produzcan a partir de ADN derivado de una hebra de la molécula de ADN parental original (es decir, ADN de muestra inicial). Secuencial o simultáneamente, se repite una reacción similar en el segundo tubo: la amplificación se produce a partir del producto de amplificación derivado de la hebra opuesta de la misma ubicación genómica en comparación con la amplificación de la muestra en el primer tubo. Esto se logra mediante el uso de un cebador específico de loci que se hibrida con la orientación de hebra opuesta como en el tubo 1 (es decir, secuencia antirreferencia frente a secuencia de referencia) y se une a la secuencia de cebador universal opuesta (es decir, P5 en lugar de P7) y un cebador adaptador a la secuencia de cebador universal opuesta (es decir, P7 en lugar de P5). Los datos se analizan con un enfoque similar al usado en el análisis de secuenciación dúplex convencional/construcción de bibliotecas, de manera que las lecturas que comparten un código de barras particular de la "primera hebra original o la segunda hebra original" se agrupan en una secuencia de consenso monocatenaria.
Estas secuencias consenso monocatenarias ("SSCS") se comparan luego con el consenso calculado para la otra hebra original (por ejemplo, la hebra opuesta, tal como se describió en la presente descripción). La identidad de una posición de nucleótido se conserva solo si las secuencias obtenidas en la misma posición son complementarias para las dos SSCS derivadas de cada una de las hebras originales del dúplex. Si la identidad de las posiciones no coincide en los SSCS, esto se anota. Para las posiciones de nucleótidos en las que hay acuerdo entre las SSCS emparejadas, la identidad de esta posición se detalla en una secuencia de consenso dúplex final (es decir, forman una DCS) (Figura 1C). Para las posiciones en las que la identidad de secuencia entre los dos SSCS no coincide, se marcan como posibles sitios de error y típicamente se descartan al marcar esta posición como desconocida (es decir, "N"). Estrategias alternativas como se describió previamente en la publicación de patente internacional núm. WO 2017/100441y en la patente de Estados Unidos núm. 9,752,188 incluyen el descuento de la lectura de consenso completa si se encuentran discrepancias o el uso de enfoques estadísticos para asignar confianzas a una variante frente a la otra y decidir cuál es más probable que sea la variante verdadera, en función de la probabilidad previa de un tipo particular de error y qué tan bien representado un dado SSCS es en términos de la cantidad de miembros de la familia que lo componen y qué tan bien concuerdan estos. Otro enfoque es mantener la incertidumbre de la posición del nucleótido, por ejemplo, con la nomenclatura IUPAC (como "K" para representar una posición que puede ser una G o una T). Se puede aplicar información adicional al archivo de datos de secuencia de consenso para reflejar la probabilidad relativa de la identidad de un nucleótido sobre otro en una posición incierta, por ejemplo, en base a probabilidades previas de determinados tipos de secuenciador o errores de amplificación en un contexto de secuencia dado o la número relativo de lecturas que respaldan cada variante en esa posición en cada familia de consenso emparejada o puntajes de calidad de lectura de rojos sin procesar que comprenden una familia SSCS, etc.
Se debe señalar que, aunque el enfoque de llamada de consenso dúplex es sustancialmente similar al descrito en la publicación de patente internacional núm. WO 2017/100441y en la patente de Estados Unidos núm. 9,752,188, en el caso de SPLiT-DS, típicamente se usa una única secuencia identificadora molecular en un extremo de la molécula para identificar moléculas individuales (a diferencia de una en cada extremo) y la secuencia lee que se deriva de copias de una de las hebras originales se encuentra en un tubo y la hebra original complementaria se puede
encontrar en la del otro tubo. Sin embargo, este no tiene por qué ser el caso: como se describió en otra parte en la presente descripción, una reacción de PCR de una biblioteca amplificada dúplex puede dividirse en más de dos tubos (por ejemplo, cuatro tubos con un par de cebadores específicos para cada tubo) y llevar a cabo el proceso anterior en ambos extremos de la molécula original, de manera que se hacen dos secuencias de consenso dúplex por molécula. Una reacción de PCR inicial se puede dividir de manera similar en múltiples tubos (Figura 10) y se pueden generar múltiples lecturas para la corrección de errores de secuenciación dúplex y/o el subensamblaje de secuencias más largas con secuencias de lectura cortas.
A menudo es conveniente indexar diferencialmente los productos de cada tubo para diferenciarlos siguiendo la secuenciación multiplex. Sin embargo, esto no es obligatorio. Una ventaja de SPLiT-DS es que se puede lograr un enriquecimiento específico mediante el uso de PCR, lo que acelera el flujo de trabajo de las versiones anteriores de secuenciación dúplex que dependen de la captura híbrida para enriquecer las regiones de interés u otros enfoques. Al mismo tiempo, permite el uso de adaptadores y etiquetas dúplex para lograr la máxima precisión, lo que no se puede lograr con la secuenciación tradicional de amplicones.
Ejemplo 2: Desarrollo de SPLiT-DS para CODIS STR Loci
El presente ejemplo se basa en la idea de que los métodos actualmente disponibles para genotipificar regiones repetitivas de ADN, tales como repeticiones cortas en tándem (STR), se beneficiarían de la mejora de la precisión y la sensibilidad. Este ejemplo amplía y mejora un protocolo establecido para DS (que en sí mismo puede eliminar el "tartamudeo"; figura 3B) para crear un ensayo/protocolo "SPLiT-DS". El ejemplo actual demostrará (1) el diseño de cebadores y la selección posterior para su uso en PCR multiplex; (2) métodos para mejorar la preparación de bibliotecas de ADN; (3) evaluación de la exactitud, precisión, sensibilidad y especificidad de las tecnologías proporcionadas, tal como, por ejemplo, mediante el uso de cantidades decrecientes de ADN; (4) demostró un tartamudeo sustancialmente reducido en los datos finales con corrección de errores.
Diseño de cebadores y selección para PCR multiplex
Los cebadores SPLiT-DS PCR están diseñados para tener preferentemente las siguientes propiedades: 1) alta especificidad con respecto al objetivo; 2) capacidad de ser multiplexado; y 3) exhibir una amplificación robusta y mínimamente sesgada. Aunque existen varias mezclas de cebadores que satisfacen estos criterios para su uso en PCR convencional-electroforesis capilar (PCR-CE), las mismas mezclas de cebadores no son fiables en MPS. Con este fin, los datos disponibles (mapeo de coordenadas de los datos de secuenciación obtenidos mediante el uso de kits disponibles comercialmente que amplifican los loci objetivo antes de la secuenciación (es decir, el extremo 5' de cada lectura en los datos de secuenciación de extremos emparejados corresponde al extremo 5' de los cebadores de PCR) usados para amplificar el ADN)) se aprovecharon para desarrollar cebadores para usar en el presente ejemplo. Las ideas descritas en la presente descripción, así como también los datos obtenidos de los ejemplos anteriores, se usan para informar el diseño de un conjunto de cebadores inicial para los loci principales de CODIS ampliado (CODIS20) más PentaD, PentaE y SE3329 (para simplificar, a menos que se indique de otra forma, esto se denominará colectivamente simplemente CODIS loci). Las coordenadas de mapeo previamente determinadas no brindan otra información sobre los cebadores usados en los kits disponibles comercialmente (o de cualquier otra manera), tal como la longitud, la temperatura de fusión y las concentraciones, por lo que la creación de cebadores en el presente ejemplo se enfoca en diseños que maximizan la probabilidad de lograr uniformidad, amplificación robusta y específica antes de multiplexar cualquier reacción.
Los resultados se pueden analizar mediante secuenciación directa (por ejemplo, plataforma Illumina MiSeq) en lugar de, por ejemplo, análisis en gel. Cada muestra se puede evaluar en una serie de métricas para diseñar una mezcla de cebador óptima. Las métricas incluyen: 1) especificidad (es decir, número de lecturas en el objetivo dividido por el número de lecturas fuera del objetivo); 2) relación de cobertura de alelos para locus heterocigóticos (es decir, alelo de menor profundidad dividido por alelo de mayor profundidad; el ideal es 1,0); 3) equilibrio interlocus (es decir, el lugar geométrico de menor profundidad dividido por el lugar geométrico de mayor profundidad; el ideal es 1,0); y 4) variación de profundidad (es decir, profundidad promedio de cada locus dividida por la profundidad promedio total de todos los loci). Se puede elegir al menos un conjunto de cebadores sobre la base de estas métricas, para su posterior análisis y desarrollo. Alternativa y/o adicionalmente, el diseño de cebadores puede incluir el uso de un programa basado en la web, como, por ejemplo, Primer3, para cada marcador STR.
Ejemplo 3: Mejora en los métodos de preparación de bibliotecas
El protocolo de preparación de bibliotecas para SPLiT-DS sigue los protocolos estándar conocidos, tal como el protocolo de secuenciación dúplex, hasta la terminación de la primera etapa de la PCR. El presente ejemplo mejora y amplía este protocolo, lo que mejora las etapas que ocurren después de la primera etapa de PCR de secuenciación dúplex, en y, en particular, en PCR específicas de loci, que son exclusivas de las tecnologías SPLiT-DS proporcionadas en la presente descripción.
Como punto de referencia, las reacciones primero se ejecutarán mediante el uso de tampones conocidos, concentraciones de grupos de cebadores y condiciones de PCR (por ejemplo, como en un protocolo DS estándar),
pero se aplicarán al enfoque SPLiT-DS, que sirve para el enriquecimiento dirigido después de que se lleva a cabo una PCR de secuenciación dúplex inicial que, en algunos casos, podría ser seguida por otras formas de enriquecimiento dirigido, tal como la captura híbrida. La eficacia de estas condiciones en las PCR multiplex se determinará mediante la secuenciación directa de las reacciones en la plataforma Illumina MiSeq y la monitorización de la especificidad, la relación de cobertura de alelos para loci heterocigóticos, el equilibrio entre locus y la profundidad. Este ensayo evaluará la eficacia de la PCR (y no, por ejemplo, la corrección de errores), por lo que se utilizarán aproximadamente 100 000 - 500 000 lecturas por condición, lo que permitirá el análisis de al menos 50 condiciones de PCR por serie de secuenciación.
En este ejemplo particular, se debe obtener un promedio de 3 a 10 copias PCR secuenciadas (es decir, familia de código de barras) de cada molécula de ADN inicial para un análisis exitoso. En otras modalidades, un análisis exitoso podría definirse como la recuperación de una o más copias de cada hebra de ADN original de una molécula dúplex particular. Se contempla que más de 3-10 copias podrían causar una eficiencia de ensayo reducida en términos de uso de los recursos del secuenciador sin datos útiles adicionales. Se contempla que un promedio de muy pocas copias de cada hebra no cumplirá los criterios para un análisis exitoso definido y, en última instancia, una profundidad reducida. Se contempla que en algunas modalidades definir un análisis exitoso como lograr un número mínimo de copias secuenciadas de cada hebra facilita una secuenciación dúplex de mayor precisión que la secuenciación dúplex con un número mínimo requerido de copias por hebra original.
SPLiT-DS no puede basarse en condiciones conocidas para la entrada de ADN (por ejemplo, tal como las que se conocen en otros ensayos), ya que es un enfoque único en comparación con otras tecnologías actualmente disponibles; por lo tanto, se determinará la cantidad de entrada de ADN usada en las PCR que se produzcan después de la división, ya que los cambios (por ejemplo, la reducción) en las cantidades de entrada hasta en la primera etapa de la PCR afectarán necesariamente a la profundidad del posprocesamiento.
Después de que se hayan determinado los intervalos de entrada de ADN, se usarán ensayos basados en qPCR para cuantificar la cantidad absoluta de ADN objetivo ligado al adaptador (similar, por ejemplo, a la etapa 3 en la figura 4).
Exactitud, precisión, sensibilidad y especificidad con entrada de ADN decreciente
La exactitud, precisión, sensibilidad y especificidad del ADN del material de referencia estándar (SRM) comúnmente usado se llevarán a cabo como un punto de referencia para las tecnologías mejoradas que se describen en la presente descripción. Luego se realizará SPLiT-DS (por ejemplo, al evaluar la exactitud y precisión del enfoque) en cantidades decrecientes de ADN de entrada (es decir, sensibilidad), mediante el uso de diluciones en serie (por ejemplo, dentro de un intervalo de aproximadamente 50 pg a aproximadamente 10 ng). Se prepararán al menos 6 bibliotecas diferentes independientemente para cada entrada de ADN. Después de la secuenciación y la corrección de errores (mediante el uso de un software interno desarrollado y diseñado específicamente para la variante SPLiT-DS de secuenciación dúplex), se evaluará la precisión mediante el uso de STRait Razor para: (i) genotipar los datos procesados; y/o (ii) determinar el porcentaje de lecturas que exhiben el genotipo "correcto" en cada locus CODIS (es decir, como se conoce a partir de una muestra estandarizada). La precisión se evaluará al determinar: (i) relación de cobertura de alelos para loci heterocigotos; (ii) equilibrio interlocus; (iii) variación de profundidad; y/o (iv) por ciento de tartamudeo (por ejemplo, cuantificación de la variación de muestra a muestra).
Detección de ADN contaminante
El presente ejemplo también se centra en las mejoras en los métodos actualmente disponibles de evaluación de ADN para detectar la contaminación de una muestra dada con ADN exógeno (por ejemplo, ADN forense de humanos contaminados con ADN no humano). Los análisis SPLiT-DS se realizarán en muestras de ADN humano en presencia de ADN contaminante (por ejemplo, ratones, perros, vacas, pollos, Candida albicans, Escherichia coli, Staphylococcus aureus, etc.). Los análisis incluirán muestras de ADN enriquecidas con 10 ng de ADN contaminante, por triplicado, en las siguientes proporciones: 50:50, 10:1 y 100:1 (contaminante: ADN de muestra, en masa), así como también control 100:0 (es decir, ADN humano) 0:100 (ADN humano sin añadir). Cada biblioteca generada con éxito se secuenciará y mapeará en un genoma de referencia y un genoma humano (GRCh38) correspondientes a un contaminante dado. Este mapeo se usará para determinar el porcentaje de lecturas que muestran el genotipo correcto (por ejemplo, alineado con el genoma de referencia) en cada locus y se comparará con los valores de los controles. Las alineaciones proporcionarán información sobre los intervalos de ADN contaminante que aún son permisivos para SPLiT-DS exitoso (es decir, los niveles de ADN contaminante que pueden estar presentes sin afectar negativamente la precisión y/o la fuerza de SPLiT-DS).
Ejemplo 4: Validación de SPLiT-DS en muestras de fuente única.
Para validar SPLiT-DS como un método viable de genotipado de alta precisión en una población humana representativa, se usará ADN purificado de células obtenidas del Proyecto Genoma Personal (PGP) (ver, por ejemplo, los detalles del resumen demográfico del PGP en la tabla 3).
Tabla 3: Detalles de la muestra PGP
Categorías Subcategorías # de muestras
Sexo Masculino 95
Femenino 40
Raza Asiático, otros 4
Negro 1
Caucásico 116
Chino 2
Hispano/Latino 3
Multirraclal 4
No informado 5
Evalúe la capacidad de SPLiT-DS para genotipar correctamente muestras de ADN de una sola fuente.
SPLiT-DS se realizará, por duplicado, en ADN purificado de líneas celulares de individuos no relacionados del PGP. Se analizará el ADN de aproximadamente 110 individuos únicos. SPLiT-DS se realizará mediante el uso de cantidades apropiadas de a Dn según lo determinado en los ejemplos anteriores (es decir, la cantidad más pequeña que de manera confiable (por ejemplo, > 80 %) produce bibliotecas de secuenciación en > 60 veces la profundidad promedio de posprocesamiento para cada loci). Después de secuenciar y realizar la corrección de errores mediante el uso del software interno SPLiT-DS descrito en la presente descripción, se usará STRait Razor para genotipar las muestras.
Como guía de interpretación para el genotipado de nuestros datos SPLiT-DS, se usará un enfoque de "consenso" modificado de las dos réplicas, de la siguiente manera:
Sin resultado: cuando al menos una réplica (por ejemplo una de las dos) produce una cobertura baja (por ejemplo, < 60x);
Genotipo correcto: cuando todas las réplicas (por ejemplo, dos de dos) producen el genotipo esperado (es decir, coinciden con el genotipo en los datos WGS para una muestra determinada).
Genotipo indefinido: cuando se obtienen diferentes genotipos en un locus dado en todas las repeticiones (por ejemplo, dos de dos) o cuando solo un genotipo difiere de los datos WGS.
Genotipo incorrecto: cuando todas las repeticiones (dos de dos) muestran el mismo genotipo incorrecto.
La cuantificación de la cantidad de tartamudeo se realizará en todas las muestras y loci determinando la relación de tartamudeo para cada locus secuenciado. La relación de tartamudeo se calcula al dividir el recuento de lecturas de un alelo de tartamudeo dado por el recuento de lecturas del alelo de muestra real. Si se observa más de un tipo de evento de tartamudeo, se realizarán cálculos de cada longitud de tartamudeo. Para minimizar el sesgo de este análisis, solo se calculará una relación de tartamudeo en un locus con una profundidad promedio de >60X (80 % de poder para detectar > 1 lectura de posprocesamiento que contiene un alelo de tartamudeo alternativo que ocurre al 5 % (Prueba binomial de 1 muestra). En los casos en los que se obtenga una cobertura de mayor profundidad constante para al menos varios loci, se examinarán los eventos de tartamudeo de frecuencia más baja y se calcularán las proporciones apropiadamente (por ejemplo, ajustando la potencia).
Otra porción del análisis en este ejemplo incluirá el efecto de la longitud de STR en diversos parámetros y luego comparará los resultados con la longitud de STR en un locus dado en una referencia (por ejemplo, especificidad, relación de cobertura de alelos para loci heterocigóticos, equilibrio entre locus y/o profundidad). Se contempla que la evaluación de estos parámetros mejorará la interpretación de polimorfismos basados en la longitud de STR (incluyendo, por ejemplo, que las muestras de SPLiT-DS que se evalúan se toman de una población generalmente exogámica y pueden, por ejemplo, tener una variedad de polimorfismos de longitud de STR). Además de la evaluación del efecto de la longitud de STR, también se determinarán las proporciones de tartamudeo. Finalmente, se realizarán cálculos de poder de discriminación para cada muestra (basados en loci que están correctamente genotipados de acuerdo con las pautas descritas en la presente descripción, por ejemplo, mediante el uso de frecuencias alélicas esperadas en la población de EE. UU.).
Los resultados de los análisis descritos en este Ejemplo pueden determinar la amplitud del uso de SPLiT-DS (así como también el alcance de cualquier sesgo en el método) tal como, por ejemplo, en diversos tipos de muestras y/o para el genotipado de STR.
Estudios de comparación y concordancia con enfoques de electroforesis capilar y MPS
Para demostrar la superioridad de SPLiT-DS como método de secuenciación para aplicaciones forenses, por ejemplo, se realizarán estudios de concordancia con los métodos actualmente disponibles. En la actualidad, el "estándar de oro" para el genotipado forense de STR es PCR-CE. Los resultados de SPLiT-DS obtenidos de acuerdo con los ejemplos descritos en la presente descripción se compararán con las mismas muestras de ADN genotipadas mediante el uso de análisis PCR-CE y 1 ng de ADN de entrada, de acuerdo con los procedimientos estándar. Los dos conjuntos de datos (PCR-CE y SPLiT-DS, junto con los controles/referencias apropiados (por ejemplo, datos de muestra WGS PGP)) pueden determinar el nivel de concordancia entre los dos enfoques. Los estudios de concordancia también se realizarán mediante el uso de un kit disponible comercialmente (por ejemplo, Illumina FORENSEQ DNA Signature Prep Kit) que usa la amplificación por PCR dirigida de 63 STR, incluidos los loci CODIS, y 95 SNP informativos de identidad. Se usarán las mismas muestras usadas en los estudios de concordancia de PCR-CE y SPLiT-DS, y el genotipado se realizará mediante el uso de STRait-Razor. La tartamudez de la PCR también se revisará en cada enfoque (PCR-CE, kit comercial, SPLiT-D S) y la tartamudez se calculará si las alturas máximas de los alelos reales son de al menos 600 RFU (umbral estocástico) pero no superan las 15000 RFU. Para eliminar cualquier efecto aditivo del tartamudeo positivo y negativo en las posiciones repetidas entre alelos heterocigóticos, no se incluirán las posiciones separadas por dos unidades repetidas. Como se describió en la presente descripción, los porcentajes de tartamudeo se calcularán dividiendo la altura máxima del pico tartamudo por la altura máxima del alelo verdadero. En el caso de muestras analizadas con un kit disponible comercialmente, se llamarán todos los alelos con >60 lecturas observadas y se calculará el porcentaje de tartamudeo como se describe en la presente descripción. Se realizarán comparaciones entre el por ciento de tartamudeo para cada locus probado. Se contempla que aunque los resultados de tartamudeo entre plataformas no son directamente comparables entre sí, los datos proporcionarán una estimación razonable de la abundancia relativa de tartamudeo en cada método.
Ejemplo 5: validación de SPLiT-DS en ADN dañado y mezclas de ADN.
El ADN y las mezclas altamente dañadas/degradadas confunden las tecnologías de genotipado actualmente disponibles. En consecuencia, el presente ejemplo demostrará la capacidad de SPLiT-DS para genotipar correctamente muestras con ADN dañado y mezclas de ADN, mejorando y ampliando las metodologías actualmente disponibles.
Validación de SPLiT-DS en ADN dañado de contribuyentes únicos
SPLiT-DS se realizará en muestras de ADN expuestas a tres categorías relevantes desde el punto de vista forense: (i) exposición química; (ii) luz ultravioleta (UV); y (iii) temperaturas elevadas (ver la tabla 4 para obtener un resumen de métodos/condiciones de exposición ilustrativas usados en estudios previos/que se sabe que afectan el análisis convencional de STR). Debido a la falta de SRM disponible para muestras de ADN dañadas, el nivel de daño inducido se estandarizará entre réplicas biológicas. El ADN primero se expondrá a condiciones ambientales y puntos de tiempo como en la tabla 4, y la evaluación se realizará mediante el uso de un kit disponible comercialmente (por ejemplo, KAPA Biosystems hgDNA Quantification and QC qPCR kit (Roche/KAPA Biosystems)), usado para determinar el ADN daño/degradación en una muestra dada. En los análisis del presente ejemplo, solo se usarán muestras que muestren niveles comparables de daño (definidos como dentro de una desviación estándar de nuestra media observada) para una condición ambiental particular (según lo determinado por el ensayo descrito en la presente descripción).
Los experimentos para evaluar SPLiT-DS en ADN dañado/degradado se realizarán, por triplicado, en Promega 2800M SRM DNA mediante el uso de la cantidad de ADN de entrada más pequeña necesaria para formar bibliotecas consistentes (>50 %) capaces de ser secuenciadas usando SPLiT-DS usando el más duro condiciones posibles en cada categoría de la tabla 4 (determinación de tal cantidad hecha como se describió en la presente descripción). Se contempla que aquellas condiciones que no produzcan bibliotecas consistentes se considerarán para definir el límite de sensibilidad de SPLiT-DS en el ADN dañado/degradado. No se evaluará ninguna de estas bibliotecas.
Tabla 4: Condiciones de daño del ADN
Agente de daño Condición experimental
H2O2 oxidativo ADN purificado se incubó por 1, 5, 10 y 24 h a 37
°C en 30 mM de H2O2 y FeSO4
Lejía ADN purificado se incubó por 0,5, 1, 5, 10 y 24 h
a 25 °C en una solución de lejía al 5 %
Hidrólisis ácida ADN purificado se incubó por 12, 24, 48 y 72 h h
a 70 °C en 0,2 N de HCl
Radiación UV (A=254 nm) ADN purificado se incubó por 1, 5, 10, 30 minutos
a 25 °C a una potencia de 0,4 pW/cm2
Temperatura/Desecación ADN purificado se incubó 25 °C, 50 °C y 80 °C
por 1, 10, 20, 30 días
Las muestras también se secuenciarán en una plataforma Illumina MiSeq con lecturas de extremos emparejados de 300 pb y los datos se procesarán con el software personalizado SPLiT-DS, como se describió en la presente descripción, en los genotipos de datos determinados con STRait Razor. Se contempla que una condición experimental que da como resultado una falla en el genotipado correcto (como se describe en un ejemplo anterior), definirá el límite de precisión para SPLiT-DS en el ADN dañado/degradado. También se realizarán cálculos para determinar la especificidad, la relación de cobertura de alelos para loci heterocigotos y/o la profundidad de cada locus para ADN dañado/degradado, y los resultados se compararán con controles no dañados.
Dado que el rendimiento relativo de SPLiT-DS en ADN de alta calidad no es necesariamente traducible directamente al de ADN dañado, las comparaciones también se realizarán mediante el uso de los métodos SPLiT-DS, PCR-CE estándar y MPS. Estos métodos se realizarán mediante el uso de 10 muestras de PGP genotipadas en los ejemplos anteriores sujetas además a la condición más desafiante (según lo determinado por los resultados) en cada categoría de daño para muestras de SPLiT-DS genotipadas con éxito. Las muestras se genotipificarán mediante PCR-CE y MPS convencional mediante el uso de los kits disponibles comercialmente o apropiados, como se describió en un ejemplo anterior. El rendimiento relativo de SPLiT-DS frente a PCR-CE y MPS se determinará como se describió en la presente descripción, incluida la determinación y comparación de las cantidades relativas de tartamudeo, abandono alélico, equilibrio intraalélico y tasa de éxito de genotipado entre enfoques. I SPLiT-DS puede proporcionar resultados más sensibles y precisos mediante el uso de muestras más pequeñas y/o muestras de ADN más dañadas/degradadas que las que se pueden lograr con otros métodos.
Validación de SPLiT-DS en mezclas.
Se demostrará la eficacia mejorada (por ejemplo, mayor precisión y sensibilidad, en comparación con los métodos disponibles) del análisis SPLiT-DS en mezclas de ADN que consisten de dos individuos genéticamente no relacionados en un amplio intervalo de proporciones de MAF. Para cada mezcla de la tabla 5, se seleccionarán diez combinaciones de dos personas de las muestras de PGP genotipadas en un ejemplo anterior. Las muestras de PGP específicas usadas en el presente ejemplo dependerán del genotipo específico, según se determine en un ejemplo anterior o por su secuencia de genoma completa (disponible como parte de la PGP). Si es posible, se elegirán pares de contribuyentes que difieran en al menos dos longitudes de repeticiones en > 8 loci. Se considera más probable que se requieran más de 10 ng de ADN de cada muestra. La cantidad exacta estará determinada por la eficiencia con la que SPLiT-DS funciona en cada locus, como se determina en un ejemplo anterior.
Tabla 5: Condiciones de mezcla de ADN
Las cantidades de entrada de ADN se ajustarán de manera que cualquier contribuyente menor se represente con al menos 10 lecturas. Se considera que la representación con al menos 10 lecturas confiere una probabilidad >95 % de detectar ambos alelos en todos los loci CODIS. La cantidad específica requerida para lograr 10 lecturas MAF dependerá de los límites de sensibilidad de SPLiT-DS, como se demostró en un ejemplo anterior.
Para minimizar la variabilidad entre réplicas, las mezclas se construirán en base a cuantificaciones de ADN por triplicado utilizando el kit de cuantificación de ADN QUANTIFILER Duo (Thermo Fisher). Como se describió en la presente descripción, las muestras se secuenciarán en la plataforma Illumina MiSeq y los datos se procesarán con el software SPLiT-DS personalizado como se describió en la presente descripción y se genotipificarán mediante el uso de STRait Razor. La evaluación de la presencia de tartamudeo en estos experimentos contribuye a la evaluación del rendimiento de SPLiT-DS en mezclas de ADN. Para cada locus analizado en cada muestra de mezcla, se calculará un intervalo de puntuación de Wilson (una forma de intervalo de confianza de proporción binomial) para el MAF conocido. También se contará el número de eventos de tartamudeo que difieren en una longitud de repetición de los MAF conocidos en la mezcla. Si un recuento de lecturas entrecortadas se encuentra dentro del intervalo de puntuación de Wilson del 95 % de uno de los alelos MAF, el locus se considerará una coincidencia parcial. Si ambos alelos MAF fallan en esta prueba, entonces el locus se considerará una llamada de genotipo fallida (los alelos homocigóticos fallarán automáticamente si el MAF no se puede distinguir del tartamudeo). Al igual que en los ejemplos anteriores, también se realizarán y evaluarán estudios de comparación de SPLiT-DS con PCR-CE y MPS como se describió en la presente descripción, así como también las comparaciones de cantidades relativas de tartamudeo, deserción alélica, equilibrio intraalélico y/o tasa de éxito de genotipado. Los resultados de los
experimentos de mezcla de dos personas se usarán luego para realizar experimentos de mezcla de tres personas (ver, por ejemplo, la tabla 5), mediante el uso de los mismos criterios de selección de muestras y análisis que en el análisis de mezcla de dos personas.
SPLiT-DS también se realizará mediante el uso de las muestras de trabajo de casos simulados de una sola fuente y mezclas de dos personas mediante el uso de ADN suministrado por la Oficina de Servicios de Laboratorio Forense de la Patrulla del Estado de Washington a partir de pruebas de competencia de ADN forense obtenidas comercialmente y analizadas previamente. El genotipado mediante el uso de SPLiT-DS se comparará con los resultados de consenso publicados en línea para las muestras.
Ejemplo 6: rendimiento mejorado de SPLiT-DS en muestras de ADN dañadas
La fijación con formalina causa un daño extremo en el ADN en forma de desaminación de citidina, daño oxidativo y entrecruzamiento. Para demostrar la capacidad de SPLiT-DS en comparación con los métodos actualmente disponibles, se realizaron análisis en ADN muy dañado secuenciando ADN nuclear sujeto a fijación con formalina en el locus D3S1358 de Promega 2800M SRM (Figuras 13B y 14A). Las figuras 13A-13C muestran los datos resultantes de un procedimiento SPLiT-DS de acuerdo con una modalidad de la presente tecnología. La figura 13A es un gel representativo que muestra los tamaños de los fragmentos de inserción antes de la secuenciación (el carril 1 es un marcador; los carriles 2 y 3 son muestras de productos de PCR de cada tubo; por ejemplo, ver la etapa 4 de la figura 4). Las figuras 13B y 13C son gráficos que muestran el genotipo CODIS frente a una serie de lecturas de secuenciación en ausencia de corrección de errores (Figura 13B) y el análisis posterior con SPLiT-DS (Figura 13C). La figura 13B muestra una muestra (D3S1358) con polimorfismos observados en ausencia de corrección de errores; los eventos de tartamudeo se indican con flechas negras. La figura 13C muestra una muestra (D3S1358-DCS) que no contiene eventos de tartamudeo detectables después del análisis con SPLiT-DS. El eje x de cada una de las figuras 13B y 13C indican el genotipo CODIS y el eje y indica el número de lecturas.
Las figuras 14A y 14B son gráficos que muestran el genotipo CODIS frente a una serie de lecturas de secuenciación en ausencia de corrección de errores (Figura 14A) y el análisis posterior con SPLiT-DS (Figura 14B) para ADN altamente dañado de acuerdo con una modalidad de la presente tecnología. El eje x de cada panel indica el genotipo CODIS y el eje y indica el número de lecturas. La figura 14A muestra una muestra de ADN dañada no analizada por SPLiT-DS (D3S1358) y que demuestra eventos de tartamudeo (flechas negras), así como también las cantidades significativas de mutaciones puntuales aparentes (no se muestran). La figura 14B muestra una muestra (D3S1358-DCS) analizada con corrección de errores SPLiT-DS y que demuestra la ausencia de eventos de tartamudeo detectables. No se observaron mutaciones puntuales aparentes.
Los resultados de SPLiT-DS demostraron que, en el ADN expuesto a formalina, todos los artefactos basados en PCR y secuenciación que están presentes mediante el uso de los métodos de secuenciación estándar se eliminaron mediante el uso de SPLiT-DS. (Figuras 13C y 14B). Se notó que hubo una disminución en la eficiencia (aproximadamente 3 veces) en estas muestras (ver, por ejemplo, la figura 14B frente a la figura 13C), sin embargo, la presencia de enlaces cruzados entre hebras comunes en la fijación de formalina puede haber contribuido a esta disminución.
Ejemplo 7: Fragmentación dirigida del genoma
El presente ejemplo demuestra la fragmentación dirigida del genoma como método para mejorar la eficacia de la secuenciación del ADN genómico (ADNg). La fragmentación del genoma de SPLiT-DS se logra típicamente mediante métodos tales como, por ejemplo, cizallamiento físico o digestión enzimática de enlaces fosfodiéster de ADN. Dichos enfoques pueden producir una muestra en la que el ADNg intacto se reduce a una mezcla de fragmentos de ADN de tamaño aleatorio. Si bien los fragmentos de ADN de tamaño variable y altamente robustos pueden causar un sesgo de amplificación por PCR (los fragmentos cortos amplifican más) y una profundidad de secuenciación desigual (Figura 11A); así como también las lecturas de secuenciación que no se superponen con la o las regiones de interés dentro de un fragmento de ADN. En consecuencia, el presente ejemplo usará CRISPR/Cas9 para superar estos problemas. Los sitios de corte se diseñarán para producir fragmentos de tamaños predeterminados y uniformes. Se considera que es más probable que un conjunto de fragmentos más homogéneo supere los sesgos y/o la presencia de lecturas no informativas que pueden afectar la eficiencia en otras técnicas que no usarán la fragmentación dirigida. También se considera probable que la fragmentación dirigida facilite el enriquecimiento previo de una muestra determinada antes de la preparación de la biblioteca, ya que es probable que sea posible eliminar grandes regiones fuera del objetivo mediante la separación de fragmentos de ADNg debido a la consistencia/diferencia del tamaño de los fragmentos.
Ejemplo 8: SPLiT-DS para vigilancia y diagnóstico de cáncer
La presencia de ADN tumoral circulante en la sangre se ha reconocido durante décadas, pero requiere métodos ultrasensibles para el desarrollo confiable de biomarcadores de cáncer (por ejemplo, marcadores para diagnosticar y/o rastrear la presencia/progreso de la enfermedad). SPLiT-DS ayuda a superar los desafíos generalizados, incluidas las bajas cantidades de ADN tumoral circulante en las muestras de sangre que contienen cantidades
variables de ADN libre de células. SPLiT-DS también mejora y amplía varios métodos altamente sensibles y específicos conocidos en la técnica, tales como BEAMing, SafeSeqS, TamSeq y ddPCR, ya que no requiere un conocimiento previo de una mutación en particular. SPLiT-DS proporciona un enfoque capaz de detectar mutaciones asociadas con el cáncer con el nivel más alto de precisión actualmente disponible, entrada de ADN baja y sin conocimiento previo de una mutación tumoral en particular.
El presente ejemplo usará SPLiT-DS para evaluar secuencias asociadas con el ADN de células tumorales circulantes. Se usarán muestras de control de mutación conocida y se analizarán junto con muestras de pacientes con cáncer diagnosticado y/o sospechado.
SPLiT-DS y ADN genómico o libre de células
SPLiT-DS se usará para desarrollar ensayos para la secuenciación precisa de ADNg de entrada baja (10-100 ng) y cfADN (~10 ng). El ADN genómico generalmente se presenta en fragmentos grandes (>1 kb) y el ADN libre de células se presenta casi exclusivamente como fragmentos de ~150 pb de escasa frecuencia.
Justificación de ADNg de baja entrada (10-100 ng)
El presente ejemplo demuestra la viabilidad de SPLiT-DS para una baja entrada de ADN y su idoneidad para la multiplexación. Aunque el tejido puede estar disponible a partir de biopsias de pacientes con cáncer, se prefiere ser conservador con el uso de tales muestras para completar todas las pruebas necesarias. En consecuencia, la secuenciación de ADNg se beneficiaría de una plataforma mejorada, tal como la proporcionada por SPLiT-DS, que requiere menos material de entrada.
Cada objetivo en SPLiT-DS está diseñado y optimizado por separado. Los genes TP53, KRAS y BRAF se ensayarán como prueba de principio. En particular, cada gen tiene regiones objetivo conocidas, donde se producen mutaciones asociadas con el cáncer. TP53 tiene 10 exones de codificación (de tamaño relativamente pequeño), todos los cuales se orientarán mediante SPLiT-DS. KRAS tiene puntos críticos mutacionales conocidos en los codones 12, 13 y 61 en el exón 2, todos los cuales serán el objetivo. BRAF tiene una mutación de V600E en el exón 15 que será el objetivo.
Material y métodos
Los ensayos SPLiT-DS se realizarán en el ADNg, como se describió en las figuras 4 y 5 mediante el uso de ADN de tumores no identificados con mutaciones clonales conocidas en TP53, KRAS y BRAF, así como también ADNg de leucocitos de individuos sin cáncer. Se realizarán dos conjuntos diferentes de experimentos para realizar cualquier etapa de optimización/validación, así como también la eficiencia y sensibilidad de la prueba.
Eficiencia
La eficiencia se definió como el porcentaje de moléculas de ADN de entrada que se convierten en lecturas DCS. La eficiencia en este ejemplo está dirigida a ser al menos 30 %, pero > 50 %. Se considera más probable que 10 ng de ADN de entrada alcance una profundidad DCS media de 1000x en loci de interés (10 ng=~3200 genomas, por lo que 3200 x 0,3 de eficiencia=~1000 genomas secuenciados). La eficiencia depende, en parte, del rendimiento de la PCR multiplex. Mediante el uso de un enfoque in silico, los cebadores de PCR se diseñarán para tener: i) alta especificidad de objetivo; ii) posibilidad de ser multiplexado; y iii) capacidad para realizar una amplificación robusta y mínimamente sesgada.
Los sistemas de CRISPR/Cas9 se usarán para producir específicamente fragmentos de ~500-550 pb que incluyen una región particular de interés (ver la figura 11C). Después de completar el diseño de los ARN guía y los cebadores de la PCR, se usará un enfoque combinatorio para lograr: (i) la especificidad del objetivo (es decir, el porcentaje de lecturas en el objetivo, aceptable > 70 %); y (ii) balance de profundidad entre lugares geométricos (es decir, el lugar geométrico de menor profundidad dividido por el lugar geométrico de mayor profundidad; aceptable > 0,5). A continuación, se aplicarán grupos optimizados de guías y cebadores tanto a 10 ng como a 100 ng del mismo ADNg. Estos grupos se usarán para todos los experimentos posteriores que involucren ADNg.
Sensibilidad
El ADNg del tumor mutado en TP53 se añadirá al ADNg de leucocitos no mutados de control en proporciones de 1:2, 1:10, 1:100, 1:1000, 1:10000. El mismo experimento de mezcla se realizará con dos ADN tumorales adicionales que contengan mutaciones clonales conocidas en KRAS y BRAF, para un total de 15 muestras (5 diluciones para cada uno de los 3 genes). Estas 15 muestras serán procesadas por SPLiT-DS como se describió en la presente descripción, mediante el uso de 10 ng y 100 ng de entrada de ADN. Se comparará el MAF "esperado" y "observado" (mediante el uso de una pauta de que el MAF máximo está determinado por el MAFmáximo = a IN donde N es el número de genomas y a es la eficiencia de SPLiT-DS; por ejemplo con una eficiencia del 30 %, MAFmáximo es 0,1 % para 10 ng de ADN y 0,01 % para 100 ng de ADN).
Con base en la distribución binomial, se considera que es más probable que no lograr un 63 % de probabilidad de detectar una mutación determinada presente en el MAFmáximo Debido a que hay 3 mutaciones enriquecidas en el experimento, estadísticamente es más probable que se detecte al menos una al 0,1 % y al 0,01 %, y esta probabilidad aumentará a medida que la eficiencia aumente por encima del 30 %.
Además de las mutaciones enriquecidas, se usarán SNP para confirmar la sensibilidad, ya que el ADN de control normal será de un individuo diferente al ADN tumoral. Los SNP se examinarán en las mismas diluciones (SNP homocigóticos) y en diluciones efectivas de 1:4, 1:20, 1:200, 1:2000 y 1:20000 (SNP heterocigóticos).
CRISPR/Cas9 pudo cortar de manera eficiente todos los exones de TP53 y facilitar el enriquecimiento por selección de tamaño y maximizar el uso de lectura. Los guías de CRISPR/Cas9 se diseñaron para cortar los exones de TP53 (ver la figura 12A). Se digirieron y procesaron 10 ng de ADNg mediante el uso de SPLiT-DS (ver las figuras 12B y 12C) como se describió en los ejemplos anteriores con cebadores de PCR apropiados para amplificar los exones 5-6 y 7 (Figuras 12C y 12D). Ambas hebras de ADN se secuenciaron adecuadamente con un alto porcentaje de lecturas en el objetivo y produjeron lecturas DCS después de emparejar las etiquetas aleatorias complementarias para cada molécula (Figura 12D). Además, la profundidad promedio obtenida para una cantidad inicial de ADN de 10 ng corresponde a una eficiencia del 25 % (es decir, de los 3000 genomas originales, se secuenciaron ~800X en promedio), lo que representa una mejora de 50 veces con respecto al DS estándar y una mejora sin precedentes en comparación con los enfoques de hibridación de soluciones convencionales.
Ejemplo 9: Desarrollo de SPLiT-DS para la secuenciación precisa de cfADN
El presente ejemplo demuestra el uso de SPLiT-DS para la detección de mutaciones en genes ilustrativos relacionados con el cáncer: TP53, KRAS y BRAF en cfADN.
Material y métodos
El ADN libre de células del plasma disponible comercialmente (Conversant Bio) se extraerá mediante el uso de un kit de ácido nucleico circulante QIAamp. Se usarán tres moléculas de ADN sintéticas diferentes de 150 pb que codifican una mutación conocida para cada uno de los tres genes de interés. Cada una de estas moléculas de ADN sintético se agregará al cfADN en proporciones de 1:2, 1:10, 1:100, 1:1000, 1:10000. Se realizarán dos conjuntos diferentes de experimentos para optimizar y validar los parámetros del protocolo SPLiT-DS para cfADN.
Eficiencia
Dado que cfADN ya está fragmentado, no se requiere corte (por ejemplo, CRISPR/Cas9). Por lo tanto, SPLiT-DS se realiza como se describió en los ejemplos anteriores, con la adición de una PCR anidada. Los fragmentos resultantes se secuenciarán con un MiSeq v3 con 150 ciclos y se multiplexarán aproximadamente 10 muestras en un cartucho para un total de 2,5 millones de lecturas cada una.
Sensibilidad
SPLiT-DS analizará cinco diluciones mixtas (1:2, 1:10, 1:100, 1:1000, 1:10 000) para cada una de las mutaciones TP53, KRAS y BRAF en cfADN con los cebadores optimizados diseñados en este ejemplo, y comenzando con 10 ng y 100 ng de ADN. Los experimentos se realizarán en paralelo con SafeSeqS para comparar la sensibilidad entre técnicas (una técnica conocida para la secuenciación precisa de ctADN es SafeSeqS, que reduce los errores de NGS mediante el uso de corrección monocatenaria). Se considera más probable que SPLiT-DS supere a SafeSeqS para la detección de mutaciones en MAF = 0,1 % y 0,01 %. Se considera más probable que SPLiT-DS sea capaz de detectar picos de mutaciones con una sensibilidad media estimada del 0,5 % (Tabla 2), pero que Safe-SeqS no pueda detectar picos de mutaciones con una frecuencia tan baja.
Se diseñaron cebadores (para un enfoque de PCR anidado) para amplificar los codones 12 y 13 en el exón 2 de KRAS. Se procesaron en paralelo 10 ng y 20 ng de cfADN extraídos de plasma normal (Conversant Bio). Las figuras 15A y 15B representan visualmente los datos de secuenciación SPLiT-DS del exón 2 de KRAS mediante el uso de PCR anidada y generados a partir de 10 ng (Figura 15A) y 20 ng (Figura 15B) de cfADN de acuerdo con una modalidad de la presente tecnología. En este ejemplo, el enriquecimiento del objetivo se logró mediante el uso de SPLiT-DS y la secuenciación se realizó en un Illumina MiSeq con lecturas de extremos emparejados de 75 pb. Se muestran SSCS para las hebras 'A' y 'B' antes de la formación de dúplex, así como también las lecturas finales de DCS. Las flechas indican dos cebadores de PCR específicos de locus (cebador gris = cebador de PCR anidado). Como se muestra en las figuras 15A y 15B, "Lado A" y "Lado B" corresponden a las dos hebras diferentes de ADN, que se amplificaron adecuadamente y encontraron sus hebras complementarias para formar lecturas DCS de alta precisión. Aunque la profundidad obtenida fue modesta (~50 lecturas), corresponde a una eficiencia de ~1 %, que es la eficiencia actual del DS estándar. Por lo tanto, al inicio del estudio (es decir, sin ninguna optimización), SPLiT-DS obtuvo resultados con la misma eficiencia que los enfoques usados actualmente, pero con tan solo 10 ng de ADN de
entrada, lo que demuestra mejoras en la eficiencia con respecto a otros enfoques disponibles para la secuenciación de cfADN, incluso a niveles de cantidades muy bajas.
Ejemplo 10: SPLiT-DS para detección y pronóstico de cáncer de páncreas basado en ctADN.
El presente ejemplo demuestra mejoras (en comparación con los métodos actualmente disponibles) tras la detección de mutaciones en ctADN de pacientes con adenocarcinoma ductal pancreático (PDAC) mediante el uso de SPLiT-DS. SPLiT-DS proporciona una sensibilidad mejorada de ddPCR en múltiples genes objetivo, incluidos KRAS, TP53 y BRAF. Se considera más probable que los resultados de estos ensayos demuestren una sensibilidad mejorada para detectar una mutación en el 95 % de los pacientes con PDAC y dos mutaciones en >50 % de los casos de PDAC con respecto a los enfoques actuales.
Además, como la mayor parte del ADN en circulación de un sujeto humano (es decir, en el sistema circulatorio (por ejemplo, ADN libre de células)) es de origen hematopoyético, el ADN de los leucocitos tendrá secuencias y mutaciones en comparación con las que se encuentran en el cfADN. Se propone que estos resultados informarán, con mayor sensibilidad y precisión que otros resultados, si determinadas mutaciones de fondo se originan en subclones de leucocitos.
Materiales y métodos
Se evaluarán muestras de cfADN completamente anonimizadas y de ADN de leucocitos coincidentes de 40 pacientes con PDAC, 20 pacientes con pancreatitis crónica y 20 controles normales de la misma edad. Las muestras de sangre se procesarán dentro de las dos horas posteriores a la extracción y se proporcionarán muestras que incluyen 2-5 ml de plasma y 500 ul de capa leucocitaria. Además, para los pacientes con PDAC, se dispondrá de una pieza de tumor congelado para confirmar las mutaciones tumorales. Para todos los pacientes con PDAC, la sangre se obtiene antes de la operación. Todos los pacientes son seguidos clínicamente y se dispondrá de información clínico-patológica detallada, incluido el tiempo hasta la recurrencia y la mortalidad. Las muestras de pacientes incluirán las de 20 con cáncer localizado y 20 con cáncer metastásico.
El ctADN se extraerá con un kit de ácido nucleico circulante QIAamp y el ADNg se extraerá con un kit QIAamp DNA Mini. 10 ng o más de cfADN (del plasma recolectado), 100 ng de ADNg y todo el ctADN disponible (hasta 100 ng) se procesarán con los procedimientos SPLiT-DS apropiados como se describió en la presente descripción, dirigidos a KRAS, BRAF y TP53. La secuenciación se realizará con el kit de reactivos Illumina de 150 ciclos MiSeq v3 para ctADN y 600 ciclos para ADNg. En el kit de 150 ciclos, se multiplexan 10 muestras de ctADN y en el kit de 600 ciclos, se multiplexan 15 muestras de ADNg. Según el diseño experimental, se considera más probable que se obtenga una eficiencia esperada de al menos el 30 % con profundidades de secuenciación de al menos 1000x para 10 ng de ADN y hasta 10 000x para 100 ng de ADN. Los datos se analizarán después de la secuenciación, la producción de DCS y la identificación de mutaciones.
Detección del cáncer de páncreas
La sensibilidad y la especificidad de SPLiT-DS para detectar mutaciones de KRAS, TP53 y BRAF en cfADN de pacientes con PDAC se determinarán en el presente ejemplo. Para analizar la sensibilidad, las mutaciones encontradas en cfADN se compararán con las mutaciones tumorales (clonales y subclonales) identificadas por SPLiT-DS. Dado que los resultados de SPLiT-DS brindan cobertura para casi todos los casos de PDAC con 1 mutación y >50 % de los casos con 2 mutaciones, se considera más probable que se detecte al menos una mutación tumoral en cfADN de todos los casos metastásicos y aproximadamente 80 % de casos localizados, para una sensibilidad combinada para todos los PDAC de ~90 %.
Las mutaciones encontradas en cfADN se compararán con las encontradas en leucocitos emparejados purificados del mismo paciente. Las mutaciones encontradas en cfADN, así como también los leucocitos coincidentes, se considerarán antecedentes biológicos y se descontarán de los recuentos mutacionales finales en cfADN. Al restar las mutaciones compartidas, las mutaciones de cfADN se compararán en PDAC, pancreatitis y controles. Se considera más probable que las mutaciones del cáncer tengan una frecuencia más alta que las mutaciones de fondo biológicas, incluso si las mutaciones de fondo biológicas (por ejemplo, mutaciones relacionadas con la edad) permanecen en las muestras. Se determinará el umbral óptimo para la frecuencia de mutación a fin de distinguir los cánceres y los controles con la máxima sensibilidad y especificidad utilizando el área bajo la curva y los modelos ROC corregidos por edad.
Pronóstico del cáncer de páncreas
Debido a la mayor sensibilidad de SPLiT-DS como se demostró en los ejemplos anteriores, se considera más probable que, en contraste con los enfoques previamente disponibles, el ctADN sea detectable en casi (90 %) todos los pacientes con PDAC. En lugar de una variable binaria (es decir, sí/no) para la presencia de ctADN, ctADN MAF se analizará como una variable cuantitativa y comparará las puntuaciones de MAF y los datos clínicos (por ejemplo, para comparar la puntuación de MAF y el pronóstico). También se determinará si un gen mutado, un codón y/o un
tipo de mutación se correlacionan con la recurrencia o la mortalidad. Se usarán modelos COX multivariados, ajustados por factores de confusión (incluidos la edad y etapa), para evaluar la capacidad de estas variables y sus combinaciones para predecir la supervivencia libre de enfermedad y la supervivencia general. Las curvas de Kaplan-Meier se usarán para representar el valor predictivo de las variables categóricas.
Ejemplo 11: SPLiT-DS para la identificación de mutaciones de resistencia en CCR metastásico
Detección de cánceres en etapa temprana y predicción de recurrencia mediante el uso de ctADN
En el CRC metastásico (es decir, etapa IV), que representa aproximadamente 50 % de los casos en el momento de la presentación, la genotipificación del tumor es esencial para orientar las decisiones terapéuticas: las mutaciones oncogénicas en KRAS, NRAS y BRAF ocurren en aproximadamente 50 % de los pacientes con CRC y predicen una falta de respuesta a los anticuerpos monoclonales EGFR cetuximab y panitumumab. Por lo tanto, estos genes se evalúan de forma rutinaria en biopsias de tejido fijadas y no fijadas, pero los enfoques actualmente disponibles a menudo dan como resultado una resolución subclonal de baja calidad y sufren de sesgo de muestreo. En consecuencia, es posible que se pasen por alto tumores con mutaciones subclonales y que a una parte de los pacientes se les administren terapias que seguramente fallarán. Por lo tanto, en el presente ejemplo, el genotipado de tumores con ctADN mediante el uso de SPLiT-DS demostrará un ensayo con sensibilidad mejorada sobre las técnicas actualmente disponibles, que también mejorará el diagnóstico y el tratamiento debido a la detección de mutaciones de resistencia preexistentes a SPLiT-DS que condicionan la elegibilidad de un paciente para terapia de bloqueo de EGFR
Detección y predicción de presencia y/o recurrencia de CRC
SPLiT-DS se usará en un panel de 5 genes de CRC comúnmente mutados para demostrar la detección de mutaciones en ctADN sin conocimiento previo de ninguna mutación tumoral en particular. Se considera más probable que los resultados de este ensayo puedan informar la futura detección de CRC mediante el uso de pruebas mucho más simplificadas (por ejemplo, un análisis de sangre).
El presente ejemplo también demostrará mejoras sobre los métodos usados para detectar y/o predecir la recurrencia. En la actualidad, las técnicas disponibles están limitadas por la falta de suficiente sensibilidad y/o especificidad o, para las técnicas que tienen suficiente sensibilidad/especificidad, su costo es prohibitivo. Por lo tanto, los análisis SPLiT-DS de ctADN demostrarán una mejor detección y predicción de recurrencia en CRC, ofreciendo mejoras en la precisión (por ejemplo, más de 100 veces, por ejemplo, SafeSeqS) y la capacidad de expandir y evaluar múltiples genes.
Materiales y métodos
En el presente ejemplo se usarán muestras de pacientes de múltiples tipos de biopsia de >300 pacientes que se sometieron a resección quirúrgica de tumores. Los bioespecímenes disponibles incluyen tumor, plasma y capa leucocítica. Los pacientes de los que se obtuvieron muestras fueron seguidos longitudinalmente y las muestras de sangre están disponibles a los 6, 12 y 24 meses después de la resección inicial. Para todos los pacientes, se dispone de información clínico-patológica detallada, incluida la recurrencia. Todas las muestras y la información médica codificada están totalmente anonimizadas. Las muestras de pacientes con enfermedad metastásica se evaluaron previamente en busca de mutaciones KRAS y NRAS para determinar la probabilidad de respuesta a cetuximab o panitumumab. Si no se encontraron mutaciones, se aplicó terapia dirigida. La resistencia se documentó a través de la progresión con estudios de imagen.
Se evaluarán muestras de 20 pacientes con cáncer metastásico (etapa IV) y 40 pacientes con cánceres localizados (etapas I-III). El ADN se purificará a partir de plasma (2-5 ml) y la capa leucocitaria obtenida antes de la operación, así como también a partir de muestras tumorales congeladas. Los pacientes categorizados como con cáncer metastásico serán aquellos que dieron negativo para las mutaciones de KRAS y NRAS, pero que no respondieron a la terapia con inhibidores de EGFR. También se incluirán al menos 10 pacientes con recurrencia. El ctADN se medirá en sangre recolectada a los 6, 12 y 24 meses después de la cirugía. Como en un ejemplo anterior, las mutaciones de ADN de leucocitos se usarán para identificar posibles mutaciones biológicas de fondo que podrían estar presentes en cfADN.
Además, como APC es el gen mutado más comúnmente en CRC y el panel SPLiT-DS usado en este ejemplo incluirá las regiones mutadas más comúnmente de APC tales como, por ejemplo, la región del grupo de mutación, que se extiende desde el codón 1286 al codón 1585 (299 pb), que cubre aproximadamente el 60 % de las mutaciones de CRC en APC52, así como también los principales éxitos adicionales que se encuentran en COSMIC para un total de -1000 pb. También se incluirán los codones 12, 13 y 61 de NRAS. Por lo tanto, el panel usado en este ejemplo incluirá ApC (~1000 pb), TP53 (región de codificación 1182 pb), KRAS (codones 12, 13, 61), BRAF (V600E) y NRAS (codones 12, 13, 61), para un tamaño total ~2700 pb. Se considera más probable que el panel descrito en este ejemplo cubra todas las muestras de CRC que comprenden una mutación y un subconjunto de aquellas con dos mutaciones.
Identificación de mutaciones de resistencia en CCR metastásico
SPLiT-DS se usará para evaluar muestras de CCR metastásico, para mutaciones tumorales clónales en cfADN. Todos los tumores serán negativos para las mutaciones de KRAS y NRAS, pero es probable que porten al menos una mutación clonal (en APC o TP53) identificada con el panel descrito en este ejemplo. SPLiT-DS también se usará para determinar si la presencia de mutaciones de muy baja frecuencia (<0,1 %) en ctADN es detectable que confiere resistencia a la terapia con EGFR. Se considera más probable que las muestras de pacientes con enfermedad metastásica se secuencien con éxito a muy alta profundidad (~100o0x). Los análisis SPLiT-DS también mejorarán la detección de mutaciones de baja frecuencia KRAS, BRAF y NRAF en ctADN de pacientes con enfermedad metastásica que dieron negativo para KRAS y NRAS mediante la secuenciación de ADN tumoral de Sanger, pero que también fallaron en la terapia con EGFR. El ADN tumoral se secuenciará mediante el uso de SPLiT-DS a una profundidad similar para determinar la presencia o ausencia de mutaciones de resistencia primaria en ctADN. Los resultados se compararán entre ctADN y ADN derivado de tejidos intratumorales.
Detección de CCR localizado
SPLiT-DS se usará para identificar ctADN mediante el uso de un panel de 5 genes CRC como se describió en la presente descripción, en muestras de cáncer localizado (Etapas I-III). El ADN tumoral también se secuenciará mediante el uso de SPLiT-DS. Como se describió en un ejemplo anterior, también se determinará la presencia de mutaciones biológicas de fondo que se originan en células leucocitarias.
Determinados métodos actualmente disponibles (por ejemplo, CEA) brindan un "tiempo de anticipación" estimado de 1,5-6 meses en comparación con otros métodos para la detección de recurrencia, pero no está claro si tal cantidad de tiempo afecta la supervivencia. Otras técnicas pueden mejorar el tiempo de espera, pero requieren un conocimiento previo de los genotipos tumorales. Por lo tanto, SPLiT-DS se usará para secuenciar el ctADN y demostrar una capacidad superior para mejorar el tiempo de "principio" en varios meses y, como se describió en la presente descripción, no requiere conocimiento previo del genotipo tumoral. En el presente ejemplo se demostrará la capacidad de SPLiT-DS para detectar ctADN a los 6, 12 y 24 meses después de la cirugía primaria en pacientes con CCR localizado que experimentaron recurrencia. Se seleccionarán diez pacientes en función de la recurrencia en la que el tumor y el ctADN inicial portaban al menos una mutación (idealmente 2) en los genes de los paneles descritos anteriormente. Para cada muestra (individual), el historial clínico a lo largo del tiempo (quimioterapia, tomografías computarizadas y otros indicadores de recaída) se comparará con los niveles totales de ctADN para cada mutación al inicio, 6, 12 y 24 meses. También se evaluarán las comparaciones con los niveles de CEA y el tiempo de espera hasta la recurrencia de ctADN y CEA.
Ejemplo 12: CRISPR-DS
El presente ejemplo describe la creación de CRISPR-DS para realizar una secuenciación altamente precisa y sensible. Se usó tecnología basada en CRISPR para extirpar regiones objetivo diseñadas con una longitud homogénea predeterminada (Figura 12A). En el presente ejemplo, la nucleasa compatible con CRISPR usada fue Cas9. Este control de tamaño se usó para facilitar la selección de tamaño antes de la preparación de la biblioteca (Figura 12B), seguido de un código de barras bicatenario (Figura 12C) para realizar la eliminación de errores (similar a los métodos descritos anteriormente, por ejemplo, DS) (Figura 12D). Después del código de barras, se realiza una sola ronda de captura (a diferencia de otros métodos disponibles) y da como resultado un enriquecimiento muy alto en el objetivo, con la capacidad de producir fragmentos para cubrir una lectura de secuenciación completa (Figuras 12F y 16A). La fragmentación para la captura de hibridación generalmente se realiza con sonicación, que a menudo genera fragmentos que son demasiado largos y con lecturas de secuenciación que no se superponen con una región de interés, y/o son demasiado cortos y con lecturas de secuenciación que se superponen entre sí y volver a leer la misma secuencia (Figuras 12F y 16A). Las figuras 16B y 16C son gráficos de histograma que muestran el tamaño de inserción de fragmento de muestras preparadas con protocolos DS y CRISPR-DS estándar de acuerdo con modalidades de la presente tecnología. El eje X representa la diferencia en por ciento del tamaño óptimo del fragmento, por ejemplo, el tamaño del fragmento que coincide con la longitud de lectura de la secuenciación después de los ajustes de los códigos de barras moleculares y el recorte. La región columnar muestra el intervalo de los tamaños de fragmentos que están dentro del 10 % de diferencia del tamaño óptimo, y el tamaño óptimo se designa con una línea discontinua vertical. Como se muestra en las figuras 16B y 16C, la sonicación produjo una variabilidad significativa en la cantidad de desviación del tamaño de fragmento óptimo (Figura 16B), mientras que la digestión con CRISPR/Cas9 produjo fragmentos que tenían la gran mayoría de las lecturas dentro del tamaño de fragmento óptimo (Figura 16C).
El presente ejemplo demuestra cómo se evitan las mutaciones falsas mediante el uso de la fragmentación basada en CRISPR, incluso, por ejemplo, porque la enzima usada en este ejemplo, Cas9, produce extremos romos, que no requieren reparación de extremos. Por lo tanto, las tecnologías proporcionadas en la presente descripción superan múltiples problemas comunes y generalizados de NGS, incluido el enriquecimiento ineficiente del objetivo, los errores de secuenciación y el tamaño desigual de los fragmentos.
Se diseñaron ARN guía (ARNg) para escindir una región codificante de TP53 y áreas intrónicas flanqueantes (Figura 12A). El tamaño del fragmento se fijó en ~ 500 pb. Los ARNg se seleccionaron en función de la puntuación de especificidad y la longitud del fragmento (Tabla 1, figuras 17A-17C). Las muestras de prueba con cantidades variables de ADN de entrada (10-250 ng) se digirieron con CRISPR/Cas9, seguidas de una selección de tamaño con perlas de inmovilización reversible en fase sólida (SPRI) para eliminar el ADN de alto peso molecular no digerido y enriquecer los fragmentos extirpados que contienen regiones objetivo (Figura 12B). La preparación posterior de la biblioteca se realizó de acuerdo con los protocolos estándar actualmente disponibles, pero mediante el uso de solo una ronda de captura y modificaciones menores, como se describió en la presente descripción. El ADN tenía cola A, se ligó con adaptadores DS, se amplificó, se purificó mediante lavado de perlas y se capturó mediante hibridación con sondas de ADN de 120 pb biotiniladas dirigidas a los exones TP53 (Tabla 6). Las muestras capturadas se amplificaron con cebadores índice y se secuenciaron en un kit Illumina MiSeq v3 de 600 ciclos. El análisis se realizó como en los protocolos estándar, pero se modificó para incluir la generación de una secuencia de consenso antes del alineamiento (Figura 23).
Una comparación lado a lado del DS estándar con una o dos rondas de captura de hibridación frente a CRISPR-DS con una ronda de captura de hibridación se muestra en las figuras 18A-18C. Las figuras 18A-18C son gráficos de barras que muestran el porcentaje de lecturas de secuenciación sin procesar en el objetivo (que cubre TP53) (Figura 18A), que muestran el porcentaje de recuperación calculado por el porcentaje de genomas en el ADN de entrada que produjo lecturas de secuencia de consenso dúplex (Figura 18B), y que muestra la mediana de la profundidad de la secuencia de consenso dúplex (Figura 18C) en todas las regiones objetivo para diversas cantidades de entrada de ADN procesadas mediante el uso de DS estándar y CRISPR-DS. La figura 18A muestra el porcentaje de lecturas de secuenciación sin procesar en el objetivo (que cubre TP53) entre DS-estándar con dos rondas de captura y CRISPR-DS con una ronda de captura. La figura 18B muestra el porcentaje de recuperación calculado por el porcentaje de genomas en el ADN de entrada que produjo lecturas de DCS. La figura 18C muestra que se calculó la mediana de la profundidad de DCS en todas las regiones objetivo para cada cantidad de entrada. Se secuenciaron tres cantidades de entrada (250 ng, 100 ng y 25 ng) del mismo ADN extraído de tejido de vejiga humana normal con un protocolo estándar (es decir, DS-estándar) así como también con CRISPR-DS. Con una ronda de captura, CRISPR-DS logró >90 % de lecturas sin procesar en el objetivo (por ejemplo, cubriendo TP53) (Tabla 8, que se muestra más abajo), lo que representa una mejora significativa con respecto al DS-estándar (que logró ~5 % de lecturas sin procesar en el objetivo con una ronda de captura (Tabla 8, que se muestra más abajo). Una segunda ronda de captura aumentó mínimamente las lecturas sin procesar en CRISPR-DS (Figura 19). DS-estándar produjo una tasa de recuperación (por ejemplo, porcentaje de genomas de entrada recuperados como genomas secuenciados; también conocida como recuperación fraccional del equivalente del genoma) de ~1 % a través de diferentes entradas, mientras que CRISPR-Ds produjo una tasa de recuperación que va del 6 al 12 %. La tasa de recuperación de CRISPR-DS se traduce en 25 ng de ADN que producen una profundidad DCS (profundidad generada por lecturas DCS) comparable a la que producen 250 ng de ADN con DS-estándar. La comparación lado a lado de los dos métodos también demostró que CRISPR-DS puede proporcionar una mejora en la sobrerrepresentación de fragmentos cortos debido al sesgo de amplificación de PCR que no ocurre/impacta en resultados (es decir, la cobertura de las regiones de interés es incluso) con distintas bandas/picos que proporcionaron la confirmación de la preparación correcta de la biblioteca antes de la secuenciación, y los fragmentos bien definidos creados por fragmentación dirigida abarcaron completamente las regiones objetivo deseadas con una cobertura homogénea (Figura 22E).
Materiales y métodos
Muestras
Las muestras analizadas en el presente ejemplo incluyeron ADN genómico humano no identificado de sangre periférica, vejiga con y sin cáncer y ADN de líquido peritoneal. La información del paciente estaba disponible para muestras de líquido peritoneal y se usó para confirmar la presencia de una mutación tumoral. Las muestras de fluidos se obtuvieron del Banco de Tejidos de Oncología Ginecológica de la Universidad de Washington, que recolectó especímenes e información clínica después del consentimiento informado según el protocolo número 27077 aprobado por la junta de revisión institucional de la División de Sujetos Humanos de la Universidad de Washington. Las muestras de vejiga congeladas no identificadas se obtuvieron del Biorrepositorio de muestras de cáncer genitourinario de la Universidad de Washington y de tejido de autopsia no previamente fijado o congelado. El ADN había sido extraído previamente con un kit QIAamp DNA Mini (Qiagen, Inc., Valencia, cA, EE. UU.) y nunca había sido desnaturalizado. El ADN se cuantificó con un kit Qubit HS dsDNA (ThermoFisher Scientific). La calidad del ADN se evaluó con Genomic TapeStation (Agilent, Santa Clara, CA) y se determinaron los números de integridad del ADN (DIN). DIN es una medida de la calidad del ADN genómico que va de 1 (muy degradado) a 10 (no degradado). El ADN de sangre periférica y el ADN de líquido peritoneal tenían DIN > 7 (lo que refleja ADN de buena calidad sin degradación). La figura 19 es un gráfico de barras que muestra el enriquecimiento objetivo proporcionado por CRISPR-DS con una etapa de captura en comparación con dos etapas de captura en tres muestras de ADN de sangre diferentes.
Las muestras de vejiga se seleccionaron a propósito para incluir diferentes niveles de degradación del ADN. Las muestras de ADN de vejiga B1 a B13 tenían DIN entre 6,8 y 8,9 y se analizaron con éxito mediante CRISPR-DS (Tabla 10, que se muestra más abajo). Las muestras B14 y B16 tenían DIN de 6 y 4, respectivamente, y se usaron para demostrar las mejoras realizadas mediante el enriquecimiento previo de ADN de alto peso molecular con el sistema BluePippin (Figuras 20A y 20B).
Diseño del guía de CRISPR.
Los ARNg para extirpar los exones de TP53 se diseñaron para tener características que incluyen: la capacidad de producir fragmentos de ~ 500 pb que cubren la región de codificación de TP53 y (2) la puntuación más alta del sitio web del MIT ("puntuación del MiT"; CRISPR.mit.edu: 8079/; tabla 1 y figuras 17A-17C). Para el exón 7, se diseñaron guías para producir un fragmento de menor tamaño a fin de evitar un tracto poli-A proximal dentro del área de interés. Se diseñaron un total de 12 ARNg, que escindieron TP53 en 7 fragmentos diferentes (Figura 12A). Todos los ARNg tenían puntuaciones "MIT" >60. La calidad de los cortes se evaluó al revisar el alineamiento de las lecturas finales de DCS con Integrative Genomics Viewer. Los guías exitosos produjeron un patrón de cobertura típico con bordes afilados en los límites de la región y una profundidad DCS adecuada (Figura 22E). Si un guía "no tuvo éxito",
se observó una caída en la profundidad de DCS y así como también la presencia de lecturas largas que se extendieron más allá del punto de corte esperado; tales guías fueron rediseñados según fue necesario. Se usó un fragmento de ADN GeneBlock sintético (IDT, Coralville, IA) que incluía todas las secuencias de ARNg intercaladas con secuencias de ADN aleatorias (Tabla 7) para evaluar las guías (Figura 21A-21B). Se digirieron 3 ng de ADN GeneBlock con cada uno de los ARNg mediante el uso del protocolo de digestión in vitro CRISPR/Cas9 descrito en la presente descripción. Después de la digestión, las reacciones se analizaron con TapeStation 4200 (Agilent Technologies, Santa Clara, CA, EE. UU.) (Figura 21C). Las longitudes de fragmentos predefinidas estaban presentes y confirmaron el ensamblaje adecuado del ARNg y la capacidad del ARNg para escindir su sitio objetivo.
Tabla 7. Fragmento de ADN GeneBlock
Fragmento de bloque genético: 500 pb con todas las secuencias objetivo de ARNg.
GCTGAGTGTfíGGCCCCTACCTAGAATGISQGACGGAGTCTCACTCTAATTCCCGTTGTCCCAGCCTTA.6 GCCCAGGCTGGAGTGCAGTG G nATAG G ATTCM CCG G ASO CGCCATCTTGGCTCCCTCTGATTGCÁAT CTCCGCCTCTG6ACO-DCGCCTCCTGGrTCGGCATr¡TGAGTGTTA.GACT<5G:GATTC.TCCTGCCTCAGCCT TTGGGACCTCTTAACCTGrrGGCCAAGTAGCTGGGATTACAGGTCTCCCCAAGGCGCACTgGGCACCTGC
C:AT;CACGCCGCACATCTCATGGGGTTATA6€GGIA,GAGACGGGGTTTCACAGGGGAGTACTGTAGGAA
G A e g T G T T G G C T A G G C T G G T C .T G C A C G G IC A G T T G C C C T :G A g G 6.A A C T C C T G A C .C T C A G G T A .T G G A A ÍT TTCGCTTCCCACASSTCAGCCrCCCGAAATGCTGGG;AATAGGGIGC.ACA.TTTAGSGTGGTAGCTCATGC CTGTAACCCCAATGTC
Secuencias espaciadoras 17 pb (del área intrónica DS de TP53 exón 10)
G ACGGAGTCT CACTCIA CCCAGGCTGGAGTGCAG CGCCATCTTGGCTCCCT ACCT GCGCCTCCT GGTT GATTCTCCTGCCTCAGC CCAAGTAGCTGGGATTA G CACCTG€ CAI CACG CC
GTAGAGACGGGGTTTCA TGTTGGCTAGGCTGGTC AACTCCTGACCT CAGGT TC AGCCTCCCG AA.ATGC
Secuencia espaciadora inicial (7 pb):
GCTGAGT
Secuenciador espaciador final (30 pb):
GTGGTAGCTCATGCCTGTAACCCCAATGTC|
Digestión in vitro del ADN genómico de CRISPR/Cas9.
Los crARN y tracrARN (IDT, Coralville, IA) se acomplejaron en ARNg y luego se incubaron 30 nM de ARNg con la nucleasa Cas9 (NEB, Ipswich, MA) a ~ 30 nM, tampón de reacción 1x NEB Cas9 y agua en un volumen de 23-27 pL a 25 °C por 10 min. Luego, se agregaron 10-250 ng de ADN, para un volumen final de 30 pL. La reacción se incubó durante la noche a 37 °C, luego se sometió a un choque térmico a 70 °C durante 10 min para la inactivación enzimática.
Selección de tamaño.
La selección de tamaño se usó para seleccionar una longitud de fragmento predeterminada para el enriquecimiento del objetivo antes de la preparación de la biblioteca. Se usaron perlas AMPure XP (Beckman Coulter, Brea, CA, EE. UU.) para eliminar el a Dn de alto peso molecular no digerido y fuera del objetivo. Después de la inactivación por calor, se combinó una reacción con una relación de perlas de 0,5x, se mezcló brevemente y luego se incubó durante 3 minutos para permitir que se uniera el ADN de alto peso molecular. Luego, las perlas se separaron de la solución con un imán y la solución (que contenía la longitud del fragmento de ADN objetivo) se transfirió a un tubo nuevo. Se llevó a cabo una purificación de perlas con relación 1,8x de AMPure estándar y se eluyó en 50 pL de TE.
Preparación de la biblioteca
Cola A y ligación
El ADN fragmentado se fijó en la cola A y se ligó mediante el uso del kit de preparación de bibliotecas de ADN NEBNext Ultra II (NEB, Ipswich, MA) de acuerdo con el protocolo del fabricante. La reacción de reparación de extremos NEB y cola A (ERAT) se incubó a 20 °C durante 30 min y 65 °C durante 30 min. La reparación de extremos no es necesaria para CRISPR-DS (Cas9 produce extremos romos), pero la reacción ERAT se usó para la cola A conveniente. A continuación, se añadieron la mezcla maestra de ligación NEB y 2,5 pL de adaptadores DS a 15 pM y se incubaron a 20 °C durante 15 min. Se sintetizaron prototipos de adaptadores comerciales (Figura 12C) con las siguientes diferencias con respecto a los adaptadores usados en estudios anteriores: (1) se utilizaron etiquetas moleculares aleatorias bicatenarias de 10 pb, en lugar de 12 pb; y (2) se usó la sustitución de la secuencia anterior conservada de 5 pb en 3' por un saliente 3'-dT simple para ligar sobre las moléculas de ADN con cola 5'-dA. Después de la ligación, el ADN se limpió mediante una purificación con perlas AMPure de relación 0,8X y se eluyó en 23 pL de agua libre de nucleasas.
PCR
El ADN ligado se amplificó mediante el uso del kit KAPA Real-Time Amplification con estándares fluorescentes (KAPA Biosystems, Woburn, MA, EE. UU.). Se prepararon 50 pl de reacciones que incluían KAPA HiFi HotStart Real-time pCr Master Mix, 23 pL de ADN previamente ligado y purificado y cebadores DS MWS13 y MWS20 a una concentración final de 2 pM. Las reacciones se desnaturalizaron a 98 °C por 45 seg y se amplificaron con 6-8 ciclos de 98 °C por 15 seg, 65 °C por 30 seg y 72 °C por 30 seg, seguido de extensión final a 72 °C por 1 minuto. Las muestras se amplificaron hasta que alcanzaron el estándar fluorescente 3 (que produce una cantidad suficiente y estandarizada de copias de ADN capturadas en las muestras, evita la sobreamplificación e indica un corte y una ligación de Cas9 exitosos), lo que típicamente toma de 6-8 ciclos en dependencia de la cantidad de ADN de entrada. Se realizó un lavado con perlas AMPure de relación 0,8X para purificar los fragmentos amplificados, que se eluyeron en 40 pL de agua libre de nucleasas. En comparación con el DS-estándar en la etapa de PCR, CRISPR-DS proporciona mejoras que incluyen: (i) proporcionar fragmentos de tamaños similares (reduce el sesgo de amplificación hacia fragmentos pequeños (Figura 22A)) (ii) producción de una cobertura más homogénea de regiones de interés (Figura 22E); y (iii) evaluación precisa por TapeStation 4200 (Agilent Technologies, Santa Clara, CA, EE. UU.) de preparación exitosa de bibliotecas (mediante el uso de las características de tamaño de fragmento predeterminados). En el DS-estándar, los productos de PCR tienen un amplio intervalo de tamaños debido a la sonicación y se presentan como un frotis amplio que es difícil de comparar entre muestras (Figura 22A). Por el contrario de otros enfoques tales como, por ejemplo, DS-estándar (que puede producir resultados que son difíciles de comparar entre muestras), CRISPR-DS produce picos discretos que son claramente indicativos de corte y ligación exitosos y son susceptibles de comparación para el control de calidad entre muestras (Figuras 22B-D).
PCR de captura y posterior a la captura
Se usaron sondas de bloqueo TP53 xGen (IDT, Coralville, IA) para realizar la captura de hibridación para los exones de TP53 de acuerdo con estudios previos, pero se modificaron de la siguiente manera: se seleccionaron sondas (del conjunto de sondas de bloqueo IDT TP53) para cubrir toda la región de codificación de TP53 (el exón 1 y parte del exón 11 no son regiones codificantes) (Tabla 6). Cada fragmento cortado con CRISPR/Cas9 se cubrió con un mínimo de 2 sondas y un máximo de 5 sondas (Figuras 17A-17C). Para producir el grupo de sondas de captura, cada una de las sondas para un fragmento dado se combinó en cantidades equimolares, produciendo 7 grupos diferentes (uno para cada fragmento). Los 7 grupos de fragmentos se mezclaron luego, nuevamente, en cantidades equimolares (con la excepción de los grupos para el exón 7 y los exones 8-9, que estaban representados en 40 % y 90 % respectivamente). Se implementó una disminución de las sondas de captura para esos exones en los casos en que se observó una representación excesiva de exones en la secuenciación. El conjunto de captura final se diluyó a 0,75 pmol/pl. La captura de hibridación se realizó de acuerdo con un protocolo IDT estándar, con las siguientes modificaciones: se usaron bloqueadores MWS60 y MSW61, que son específicos de los adaptadores DS; se usaron 75 pl (en lugar de 100 pl) de perlas de estreptavidina Dynabeads M-270; y la PCR posterior a la captura se realizó con el kit KAPA Hi-Fi HotStart PCR (KAPA Biosystems, Woburn, MA, e E. UU.) mediante el uso de MWS13 y el cebador indexado MWS21 a una concentración final de 0,8 pM. La reacción se desnaturalizó a 98 °C por 45 segundos y luego se amplificó durante 20 ciclos a 98 °C por 30 segundos, 60 °C por 45 segundos y 72 °C por 45 segundos, seguido de una extensión a 72 °C por 60 segundos. Los productos de la PCR se purificaron con un lavado con perlas 0,8X AMPure.
Secuenciación
Las muestras se cuantificaron mediante el uso del kit de ensayo Qubit dsDNA HS, se diluyeron y se agruparon para la secuenciación. A continuación, se visualizó el conjunto de muestras en Agilent 4200 TapeStation para confirmar la calidad de la biblioteca. El electroferograma de TapeStation mostró picos nítidos y distintos correspondientes a la longitud del fragmento de los fragmentos cortados CRISPR/Cas9 diseñados (Figuras 22B-22D). (Esta etapa también se puede realizar para cada muestra individualmente, antes de la agrupación, para verificar el rendimiento de cada muestra individual según sea necesario o deseado). El grupo final se cuantificó mediante el uso del kit de cuantificación de la biblioteca KAPA (KAPA Biosystems, Woburn, MA, EE. UU.). La biblioteca se secuenció en la plataforma MiSeq Illumina mediante el uso de un kit de ciclo v3600 (Illumina, San Diego, CA, EE. UU.) de acuerdo con las instrucciones del fabricante. Cada muestra tenía ~7-10 % de un carril asignado (correspondiente a ~2
millones de lecturas); cada ejecución de secuenciación se enriqueció con aproximadamente un 1 % de ADN de control PhiX.
Procesamiento de datos
Se creó una canalización de bioinformática personalizada para automatizar el análisis de archivos FASTQ sin procesar a archivos de texto (Figura 23). Esta canalización es similar a los métodos usados para el análisis DS estándar, pero con las siguientes modificaciones: (i) se logra la retención de la información de lectura emparejada y (ii) se realiza el consenso antes del alineamiento. Las lecturas de extremos emparejados se usan en el análisis de datos CRISPR-DS, pero también representan una mejora con respecto al análisis DS estándar, ya que brindan control de calidad del tamaño de los fragmentos y la eliminación de posibles artefactos técnicos debido a la presencia de fragmentos cortos. Además, el análisis DS estándar realiza el consenso después de que todas las lecturas se asignan a un genoma de referencia, mientras que el análisis CRISPR-DS realiza el consenso como etapa inicial y depende únicamente de las bases leídas por el secuenciador. Se considera más probable que este cambio mejore la creación de consenso y reduzca el tiempo necesario para el procesamiento de datos. En CRISPR-DS, la creación de consenso se ejecutó mediante un script de Python personalizado llamado UnifiedConsensusMaker.py, que tomó todas las lecturas derivadas de la misma etiqueta, comparó la base llamada en cada posición y produjo una lectura de consenso monocatenario (SSCS). Las lecturas de SSCS para cada par complementario de etiquetas se compararon luego posición por posición para crear una lectura de consenso bicatenaria (DCS) (Figura 12D). Se crearon dos archivos FASTQ que contenían las lecturas SSCS y DCS resultantes (las lecturas DCS corresponden a moléculas de ADN originales, por lo que la profundidad DCS promedio es una estimación del número de genomas secuenciados). La tasa de recuperación (también denominada recuperación fraccional del equivalente del genoma) se calculó como la profundidad DCS promedio (genomas secuenciados) dividida por el número de genomas de entrada (1 ng de ADN corresponde a ~330 genomas haploides). Las lecturas sin procesar en el objetivo se calcularon contando el número de lecturas cuyas coordenadas genómicas se encontraban dentro de los sitios de corte de CRISPR/Cas9 aguas arriba y aguas abajo con una ventana de 100 pb añadida a cada lado. A continuación, los archivos DCS FASTQ emparejados se alinearon con el genoma de referencia humano v38, mediante el uso de bwa-mem v.0.7.419 con parámetros predeterminados. Las lecturas asignadas se realinearon con GATK Indel-Realigner, y las bases de baja calidad se recortaron desde los extremos con lecturas GATK Clip. Se realizó recorte conservador de 30 bases del extremo 3' y otras 7 bases del extremo 5'. Además, las áreas de solapamiento de los pares de lectura, que en el diseño TP53 abarcaban ~80 pb, se recortaron mediante el uso de fgbio ClipOverlappingReads. Este algoritmo realiza un recorte uniforme desde los dos extremos de las lecturas emparejadas hasta que se encuentran, lo que maximiza el uso de bases de secuenciación con puntajes de calidad PHRED altos. Se creó un archivo pileup a partir del archivo resultante mediante el uso de SAMtools mpilup. Luego, el archivo pileup se filtró mediante el uso de un script de python personalizado con un archivo BED para las posiciones genómicas específicas. El archivo BED se puede crear fácilmente mediante el uso de las coordenadas de los ARNg de CRISPR/Cas9. Luego, el archivo pileup filtrado se procesa mediante un script personalizado, mut-position.1.33.py, que crea un archivo de texto delimitado por tabuladores con información de mutación llamado 'mutpos'. Los mutpos incluyen un resumen de la profundidad de DCS y las mutaciones en cada posición secuenciada (se puede acceder al software usado en el análisis CRISPR-DS en el protocolo de transferencia de hipertexto seguro://github.com/risqueslab/CRISPR-DS).
DS-estándar
Se secuenciaron tres cantidades de ADN (25 ng, 100 ng y 250 ng) de la muestra B9 de vejiga humana normal con DS-estándar con una ronda y dos rondas de captura, y se compararon con los resultados de CRISPR-DS. Se realizó un análisis DS-estándar, pero mediante el uso del kit KAPA Hyperprep (KAPA Biosystems, Woburn, MA, EE. UU.) para la reparación y ligación de extremos y el kit KAPA Hi-Fi HotStart PCR (KAPA Biosystems, Woburn, MA, EE. UU.) fue para la amplificación por PCR. La captura de hibridación se realizó con sondas xGen Lockdown que cubrían los exones 2-11 de TP53 (se usaron las mismas sondas tanto en DS estándar como en CRISPR-DS). Las muestras se secuenciaron en ~10 % de una plataforma HiSeq 2500 Illumina para adaptarse a longitudes de fragmentos más cortas.
Enriquecimiento de objetivos por CRISPR-DS
Para caracterizar el enriquecimiento del objetivo por CRISPR-DS, se realizaron dos análisis separados:
El primer análisis incluyó la comparación de una ronda de captura frente a dos (y la comparación con los resultados de la DS estándar). Se procesaron tres muestras de ADN para CRISPR-DS y se dividieron por la mitad después de una captura de hibridación. La primera mitad se indexó y secuenció y la segunda mitad se sometió a una ronda adicional de captura, como se requiere en el protocolo original de DS. Se comparó el porcentaje de lecturas sin procesar "en el objetivo" (es decir, que cubren los exones TP53) para una captura frente a dos. Los detalles de las comparaciones entre DS estándar y CRISPR-DS se pueden ver en la tabla 8.
Tabla 8: Com aración de DS-estándar frente a CRISPR-DS
El segundo análisis evaluó el porcentaje de lecturas sin procesar en el objetivo sin realizar la captura de hibridación y determinó el enriquecimiento producido exclusivamente por la selección de tamaño de fragmentos extirpados CRISPR. Se procesaron diferentes cantidades de ADN (desde 10 ng hasta 250 ng) de tres muestras diferentes con el protocolo descrito en el primer análisis hasta la primera PCR (es decir, antes de la captura por hibridación). Las figuras 24A y 24B son un cuadro (Figura 24A) y un gráfico (Figura 24B) que muestran los resultados que cuantifican un grado de enriquecimiento objetivo después de la digestión con CRISPR/Cas9 seguida de selección de tamaño de acuerdo con una modalidad de la presente tecnología. La figura 24A muestra las muestras de ADN y el enriquecimiento logrado para cada una. La figura 24B muestra el por ciento de lecturas sin procesar que estaban "en el objetivo" en comparación con la cantidad de ADN de entrada. Luego, el producto de PCR fue indexado y secuenciado. Se calculó el porcentaje de lecturas sin procesar en el objetivo y se estimó el enriquecimiento de veces (teniendo en cuenta el tamaño de la región objetivo, en este caso, 3280 pb).
Preenriquecimiento para ADN de alto peso molecular
La selección de ADN de alto peso molecular mejora el rendimiento del ADN degradado en CRISPR-DS. Esta selección se realizó mediante el uso de un sistema BluePippin (Sage Science, Beverly, MA). Se analizaron dos ADN de vejiga con DIN de 6 y 4 mediante el uso de un casete de gel al 0,75 % y un ajuste de paso alto para obtener fragmentos de >8 kb. La selección de tamaño se confirmó con TapeStation (Figura 20A). Luego, 250 ng de ADN antes de BluePippin y 250 ng de ADN después de BluePippin se procesaron en paralelo con CRISPR-DS. Se cuantificó y comparó el porcentaje de lecturas sin procesar en el objetivo así como también la profundidad DCS promedio (Figura 20B).
Ejemplo 13: CRISPR-DS en muestras de cáncer de ovario
Para validar la capacidad de CRISPR-DS para detectar mutaciones de baja frecuencia, se recolectaron y analizaron cuatro muestras de líquido peritoneal durante la cirugía citorreductora de mujeres con cáncer de ovario. La presencia de una mutación tumoral TP53 en estas muestras se demostró previamente mediante DS-estándar. Se usaron 100 ng de ADN (30-100 veces menos que lo que se usó para DS-estándar) para el análisis CRISPR-DS y se obtuvo una profundidad DCS comparable a la DS estándar y la mutación tumoral TP53 se identificó con éxito en todos los casos (Tabla 9). Las tasas de recuperación oscilaron entre el 6 y el 12 %, lo que representa un aumento de 15x-200x en comparación con la DS-estándar con el mismo ADN.
Tabla 9. Comparación de DS-estándar frente a CRISPR-DS para 4 muestras diferentes con mutaciones TP53. Método Muestra ADN de Lecturas Mediana de Recuperación Mutación tumoral Fracción entrada sin la (%) de alelo (ng) procesar profundidad mutante en el final
objetivo
DS- PF1 9,196 92,4 % 2742 0,09 % chr17:g.7578275G>A 68,5 % estándar PF2 3,000 92-8 % 5381 0,54 % chr17:g.7577548C>T 1,2 % PF3 10,186 93,9 % 1866 0,06 % chr17:g.7578403C>T 1,6 % PF4 7,436 95,4 % 2029 0,08 % chr17:g.7578526C>T 0,6 % CRISPR- PF1 100 76,6 % 2039 6,18 % chr17:g.7578275G>A 68,4 % DS PF2 100 94,3 % 2831 8,58 % chr17:g.7577548C>T 1,0 % PF3 100 87,6 % 3801 11,52 % chr17:g.7578403C>T 0,4 % PF4 100 96,5 % 2194 6,65 % chr17:g.7578526C>T 0,1 % *Después de realizar el procesamiento final de datos de secuenciación dúplex
Ejemplo 14: CRISPR-DS en muestras de tejido vesical
El presente ejemplo describe el uso de CRISPR-DS en un conjunto de 13 muestras de ADN extraídas del tejido de la vejiga de diferentes pacientes (Tabla 10). Se usaron 250 ng de ADN de cada muestra para el ensayo y dieron como resultado una profundidad media de DCS de 6143x, lo que corresponde a una tasa de recuperación media del 7,4 %. El rendimiento reproducible se demostró con réplicas técnicas para dos muestras (B2 y B4). Todas las muestras tenían >98 % de lecturas de DCS en el objetivo, pero el porcentaje de lecturas sin procesar en el objetivo osciló entre el 43 % y el 98 %. El enriquecimiento objetivo bajo correspondió a muestras con números de integridad de ADN (DIN) <7.
Tabla 10. Resultados de secuenciación de CRISPR-DS para 13 muestras procesadas con 250 ng de ADN de entrada.
ID de ADN de # de % de lecturas # de % de Profundidad Tasa de muestra entrada (ng) lecturas sin sin procesar en lecturas lecturas DCS recupe DIN procesar el objetivo DCS DCS en ración el
objetivo
B1 6,8 250 7751046 44,0 % 68906 100,0 % 6143,2 7,4 %
B2a 6,9 250 4575484 43,0 % 37984 99,1% 3386,4 4,1 % B2b 6,9 250 4855458 47,5 % 42815 99,1 % 3817,1 4,6 %
B3 8,2 250 4214290 85,8 % 30847 98,8 % 2750,1 3,3 %
84a 8,8 250 4 200814 84,4 % 85822 99,0 % 7651,3 9,3 % B4b 8,8 250 4581646 86,6 % 84051 99,1% 7493,4 9,1 %
B5 8,5 250 3938328 98,4 % 101201 98,7 % 9022,4 10,9 %
B6 8,7 250 4640288 78,0 % 69002 98,8 % 6151,7 7,5 %
B7 7,6 250 4230402 91,2 % 60950 98,8 % 5433,9 6,6 %
B8 7,0 250 3869654 93,6 % 38586 98,9 % 3440,1 4,2 %
89 8,9 250 4 594068 96,6 % 75089 99,2 % 6694,4 8,1 %
B10 8,6 250 5764098 79,0 % 61303 99,1 % 5465,3 6,6 %
B11 8,5 250 5764650 80,9 % 71381 99,3 % 6363,8 7,7 %
B12 7,9 250 5234650 85,9 % 40092 99,4 % 3574,3 4,3 %
B13 7,0 250 3737110 74,0 % 71 138 99,1 % 6284,8 7,6 %
Para probar el efecto de DIN en el rendimiento del ensayo, se eliminó el ADN de bajo peso molecular antes de la digestión con CRISPR/Cas9. La función de campo de pulsos del sistema BluePippin se usó para seleccionar ADN de alto peso molecular de dos muestras con "ADN degradado" (DIN 6 y 4). El enriquecimiento previo aumentó las lecturas sin procesar en el objetivo en 2 veces y la profundidad DCS en 5 veces (Figura 20B). Para cuantificar directamente el grado de enriquecimiento conferido simplemente por la digestión CRISPR/Cas9 seguida de selección de tamaño, se secuenciaron 3 muestras sin captura. Se digirieron 10-250 ng de ADN, se seleccionaron por tamaño, se ligaron, amplificaron y secuenciaron. El porcentaje de lecturas sin procesar "en el objetivo" osciló entre el 0,2 % y el 5 %, lo que corresponde a un enriquecimiento de 2000x a 50000x (Tabla 11). En particular, las entradas de ADN más bajas mostraron el mayor enriquecimiento, lo que probablemente refleja la eliminación óptima de fragmentos de a Dn de alto peso molecular fuera del objetivo cuando se encuentran en menor abundancia.
Tabla 11. Enriquecimiento del objetivo debido a la selección de tamaño.
Muestra ADN de entrada (ng) Lecturas en el objetivo (%) Enriquecimiento en veces
25 0,76 % 7,527
B9 200 0,25 % 2,452
250 0,21 % 2,037
10 2,85 % 28,139
PF1 25 1,99 % 19,583
100 0,68 % 6,667
250 0,70 % 6,878
10 5,05 % 49,794
PF5 25 0,96 % 9,456
100 0,34 % 3,321
250 0,22 % 2,217
La fragmentación CRISPR/Cas9 seguida de la selección de tamaño realizó con éxito un enriquecimiento de objetivos eficiente y eliminó cualquier necesidad de una segunda ronda de captura para regiones objetivo pequeñas. Además, se eliminó el sesgo de la PCR y se logró una cobertura homogénea de áreas de interés, lo que representa una mejora sustancial con respecto a los métodos actualmente disponibles.
Claims (15)
1. Un método que comprende:
proporcionar material de ácido nucleico bicatenario que comprende una o más moléculas de ácido nucleico bicatenarias, en donde cada molécula de ácido nucleico bicatenaria comprende una secuencia identificadora de molécula única en cada hebra y un adaptador en al menos uno de los extremos 5' y/o 3' de la molécula de ácido nucleico, y en donde, para cada molécula de ácido nucleico, una primera secuencia adaptadora está asociada con una primera hebra y una segunda secuencia adaptadora está asociada con una segunda hebra de la molécula de ácido nucleico;
amplificar el material de ácido nucleico;
separar el material de ácido nucleico amplificado en una primera muestra y una segunda muestra; amplificar la primera hebra en la primera muestra mediante el uso de un cebador específico para la primera secuencia adaptadora y al menos un oligonucleótido monocatenario al menos parcialmente complementario a una secuencia objetivo de interés de manera que la secuencia identificadora de molécula única se mantenga al menos parcialmente para proporcionar un primer producto de ácido nucleico;
amplificar la segunda hebra en la segunda muestra mediante el uso de un cebador específico para la segunda secuencia adaptadora y al menos un oligonucleótido monocatenario al menos parcialmente complementario a la secuencia objetivo de interés de manera que la secuencia identificadora de molécula única se mantenga al menos parcialmente para proporcionar un segundo producto de ácido nucleico; secuenciar cada uno del primer producto de ácido nucleico y del segundo producto de ácido nucleico; y comparar la secuencia del primer producto de ácido nucleico con la secuencia del segundo producto de ácido nucleico.
2. El método de la reivindicación 1, en donde la etapa de proporcionar comprende
ligar un material de ácido nucleico bicatenario a al menos una secuencia de código de barras degenerada o semidegenerada para formar un complejo de código de barras de molécula de ácido nucleico bicatenario, en donde la secuencia de código de barras comprende la secuencia identificadora de molécula única.
3. El método de la reivindicación 1, en donde la secuencia identificadora de molécula única es al menos una secuencia de código de barras degenerada o semidegenerada, uno o más extremos de fragmentos de ácido nucleico del material de ácido nucleico, o una de sus combinaciones que marca de forma única la molécula de ácido nucleico bicatenario.
4. El método de la reivindicación 1, en donde la secuencia identificadora de molécula única comprende un punto de cizallamiento endógeno o una secuencia endógena que se puede relacionar posicionalmente con el punto de cizallamiento.
5. El método de cualquier una de las reivindicaciones anteriores, en donde el material de ácido nucleico se proporciona a partir de una muestra que comprende una o más moléculas de ácido nucleico bicatenario que se originan de un sujeto o un organismo, en donde la muestra es o comprende un tejido corporal, una biopsia, una muestra de piel, sangre, suero, plasma, sudor, saliva, líquido cefalorraquídeo, moco, líquido de lavado uterino, un hisopo vaginal, una prueba de Papanicolaou, un hisopo nasal, un hisopo oral, un raspado de tejido, cabello, una huella digital, orina, heces, humor vítreo, lavado peritoneal, esputo, lavado bronquial, lavado oral, lavado pleural, lavado gástrico, jugo gástrico, bilis, lavado del conducto pancreático, lavado del conducto biliar, lavado del conducto biliar común, líquido de la vesícula biliar, líquido sinovial, una herida infectada, una herida no infectada, una muestra arqueológica, una muestra forense, una muestra de agua, una muestra de tejido, una muestra de alimentos, una muestra de biorreactor, una muestra de plantas, una muestra de bacterias, una muestra de protozoos, una muestra de hongos, una muestra animal, una muestra viral, una muestra de múltiples organismos, un raspado de uñas, semen, fluido prostático, fluido vaginal, un hisopo vaginal, un lavado de trompas de Falopio, un ácido nucleico libre de células, un ácido nucleico dentro de una célula, una muestra de metagenómica, un lavado o un hisopo de un cuerpo extraño implantado, un lavado nasal, líquido intestinal, cepillado epitelial, lavado epitelial, biopsia de tejido, una muestra de autopsia, una muestra de necropsia, una muestra de órgano, una muestra de identificación humana, una muestra de identificación no humana, una muestra de ácido nucleico producido artificialmente, una muestra de gen sintético, una muestra depositada o almacenada, tejido tumoral, una muestra fetal, una muestra de trasplante de órganos, una muestra de cultivo microbiano, una muestra de ADN nuclear, una muestra de ADN mitocondrial, una muestra de ADN de cloroplasto, una muestra de ADN de apicoplasto, una muestra de orgánulo y cualquiera de sus combinaciones.
6. El método de cualquier una de las reivindicaciones anteriores, en donde antes de la etapa de proporcionar, el método comprende
cortar el material de ácido nucleico con una o más endonucleasas dirigidas de manera que se forme un fragmento de ácido nucleico objetivo de una longitud sustancialmente conocida; y
aislar el fragmento de ácido nucleico objetivo basándose en la longitud sustancialmente conocida.
7. El método de la reivindicación 6, en donde una o más endonucleasas dirigidas se seleccionan del grupo que consiste en una ribonucleoproteína, una enzima Cas, una enzima similar a Cas9, una meganucleasa, una nucleasa basada en un efector similar a un activador de la transcripción (TALEN), una nucleasa con dedos de zinc, una nucleasa de argonauta o una de sus combinaciones.
8. El método de la reivindicación 6 o la reivindicación 7, en donde una o más endonucleasas dirigidas comprenden Cas9 o CPF1 o un derivado de las mismas.
9. El método de cualquier una de las reivindicaciones 6-8, en donde cortar el material de ácido nucleico incluye cortar el material de ácido nucleico con una o más endonucleasas dirigidas de manera que se forman más de un fragmento de ácido nucleico objetivo de longitud sustancialmente conocida.
10. El método de la reivindicación 9, en donde los fragmentos de ácido nucleico objetivo comprenden cada uno una secuencia genómica de interés de una o más ubicaciones diferentes en un genoma.
11. El método de cualquier una de las reivindicaciones anteriores, en donde secuenciar cada uno del primer producto de ácido nucleico y el segundo producto de ácido nucleico comprende
comparar la secuencia de una pluralidad de hebras en el primer producto de ácido nucleico para determinar una secuencia consenso de la primera hebra; y
comparar la secuencia de una pluralidad de hebras en el segundo producto de ácido nucleico para determinar una secuencia consenso de la segunda hebra, en donde comparar la secuencia del primer producto de ácido nucleico con la secuencia del segundo producto de ácido nucleico comprende comparar la secuencia consenso de la primera hebra y la secuencia de consenso de la segunda hebra para proporcionar una secuencia de consenso con errores corregidos.
12. El método de cualquier una de las reivindicaciones anteriores, en donde secuenciar cada uno del primer producto de ácido nucleico y el segundo producto de ácido nucleico comprende
secuenciar al menos una hebra del primer producto de ácido nucleico para determinar una lectura de secuencia de la primera hebra;
secuenciar al menos una hebra del segundo producto de ácido nucleico para determinar una lectura de secuencia de la segunda hebra; y
comparar la lectura de la secuencia de la primera hebra y la lectura de la secuencia de la segunda hebra para generar una lectura de secuencia con corrección de errores.
13. El método de la reivindicación 12, en donde la lectura de la secuencia con corrección de errores comprende las bases de nucleótidos que concuerdan entre la lectura de la secuencia de la primera hebra y la lectura de la secuencia de la segunda hebra.
14. El método de la reivindicación 12 o la reivindicación 13, en donde la lectura de la secuencia con corrección de errores se usa para identificar o caracterizar un cáncer, un riesgo de cáncer, una mutación del cáncer, un estado metabólico del cáncer, un fenotipo mutante, una exposición a un carcinógeno, una exposición a toxina, una exposición a una inflamación crónica, una edad, una enfermedad neurodegenerativa, un patógeno, una variante resistente a los medicamentos, una molécula fetal, una molécula con relevancia forense, una molécula con relevancia inmunológica, un receptor de linfocitos T mutado, un receptor de células B mutado, un locus de inmunoglobulina mutado, un sitio kategis en un genoma, un sitio hipermutable en un genoma, una variante de baja frecuencia, una variante subclonal, una población minoritaria de moléculas, una fuente de contaminación, un error de síntesis de ácido nucleico, un error de modificación enzimática, un error de modificación química, un error de edición de genes, un error de terapia génica, un almacenamiento de información de ácido nucleico, una cuasiespecie microbiana, una cuasiespecie viral, un trasplante de órgano, un rechazo de trasplante de órgano, un cáncer lapso, cáncer residual después del tratamiento, un estado preneoplásico, un estado displásico, un estado de microquimerismo, un estado de trasplante de células madre, un estado de terapia celular, una etiqueta de ácido nucleico adherida a otra molécula, o una de sus combinaciones en un organismo o sujeto del cual se deriva la molécula de ácido nucleico objetivo bicatenario.
15. El método de la reivindicación 12 o la reivindicación 13, en donde el material de ácido nucleico se deriva de una muestra forense, y en donde la secuencia leída con corrección de errores se usa en un análisis forense.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201762475682P | 2017-03-23 | 2017-03-23 | |
| US201762575958P | 2017-10-23 | 2017-10-23 | |
| PCT/US2018/024194 WO2018175997A1 (en) | 2017-03-23 | 2018-03-23 | Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2929281T3 true ES2929281T3 (es) | 2022-11-28 |
Family
ID=63585768
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES18772308T Active ES2929281T3 (es) | 2017-03-23 | 2018-03-23 | Métodos para el enriquecimiento de secuencias de ácidos nucleicos dirigidos con aplicaciones para la secuenciación de ácidos nucleicos con corrección de errores |
| ES22186070T Active ES3002386T3 (en) | 2017-03-23 | 2018-03-23 | Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES22186070T Active ES3002386T3 (en) | 2017-03-23 | 2018-03-23 | Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing |
Country Status (9)
| Country | Link |
|---|---|
| US (3) | US11479807B2 (es) |
| EP (3) | EP4450643A3 (es) |
| JP (2) | JP7256748B2 (es) |
| CN (2) | CN118638898A (es) |
| AU (2) | AU2018240559B2 (es) |
| CA (1) | CA3057867A1 (es) |
| ES (2) | ES2929281T3 (es) |
| IL (1) | IL269431B2 (es) |
| WO (1) | WO2018175997A1 (es) |
Families Citing this family (44)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103748236B (zh) | 2011-04-15 | 2018-12-25 | 约翰·霍普金斯大学 | 安全测序系统 |
| US10844428B2 (en) | 2015-04-28 | 2020-11-24 | Illumina, Inc. | Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS) |
| JP6975507B2 (ja) | 2015-12-08 | 2021-12-01 | ツインストランド・バイオサイエンシズ・インコーポレイテッドTwinstrand Biosciences, Inc. | 二本鎖配列決定のための改善されたアダプター、方法、及び組成物 |
| EP3571616B1 (en) | 2017-01-18 | 2021-05-19 | Illumina, Inc. | Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths |
| EP3619326A1 (en) | 2017-05-01 | 2020-03-11 | Illumina, Inc. | Optimal index sequences for multiplex massively parallel sequencing |
| AU2018266377B2 (en) | 2017-05-08 | 2024-06-20 | Illumina, Inc. | Universal short adapters for indexing of polynucleotide samples |
| US11447818B2 (en) | 2017-09-15 | 2022-09-20 | Illumina, Inc. | Universal short adapters with variable length non-random unique molecular identifiers |
| CN118126816A (zh) | 2017-11-06 | 2024-06-04 | 伊鲁米那股份有限公司 | 核酸索引化技术 |
| SG11202003885UA (en) | 2017-11-08 | 2020-05-28 | Twinstrand Biosciences Inc | Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters |
| US20210292836A1 (en) * | 2018-05-16 | 2021-09-23 | Twinstrand Biosciences, Inc. | Methods and reagents for resolving nucleic acid mixtures and mixed cell populations and associated applications |
| JP7537748B2 (ja) | 2018-06-06 | 2024-08-21 | ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア | 核酸ライブラリを生成する方法ならびにそれを実施するための組成物およびキット |
| IL279725B2 (en) | 2018-06-27 | 2024-04-01 | Eth Zuerich | Novel pyridine and pyrazine compounds as inhibitors of cannabinoid receptor 2 |
| EP3814328A1 (en) | 2018-06-27 | 2021-05-05 | F. Hoffmann-La Roche AG | Novel azetidine-substituted pyridine and pyrazine compounds as inhibitors of cannabinoid receptor 2 |
| BR112021000409A2 (pt) * | 2018-07-12 | 2021-04-06 | Twinstrand Biosciences, Inc. | Métodos e reagentes para caracterizar edição genômica, expansão clonal e aplicações associadas |
| WO2020033438A1 (en) * | 2018-08-06 | 2020-02-13 | Chan Zuckerberg Biohub, Inc. | Nucleic acid sequence enrichment by defined nucleic acid-directed endonuclease digestion |
| WO2020154307A1 (en) * | 2019-01-22 | 2020-07-30 | Singular Genomics Systems, Inc. | Polynucleotide barcodes for multiplexed proteomics |
| CN113728100A (zh) * | 2019-02-25 | 2021-11-30 | 特韦斯特生物科学公司 | 用于下一代测序的组合物和方法 |
| US20220348906A1 (en) * | 2019-04-05 | 2022-11-03 | Claret Bioscience, Llc | Methods and compositions for analyzing nucleic acid |
| CN109880891B (zh) * | 2019-04-22 | 2021-07-30 | 上海交通大学 | 基于核酸酶偶联pcr原理富集低丰度dna突变的检测技术体系及应用 |
| WO2020243609A1 (en) | 2019-05-31 | 2020-12-03 | Freenome Holdings, Inc. | Methods and systems for high-depth sequencing of methylated nucleic acid |
| CN114502742A (zh) * | 2019-08-01 | 2022-05-13 | 特温斯特兰德生物科学有限公司 | 用于核酸测序及相关应用的方法和试剂 |
| US20220340966A1 (en) * | 2019-09-09 | 2022-10-27 | Oregon Health & Science University | Crispr-mediated capture of nucleic acids |
| WO2021067484A1 (en) * | 2019-09-30 | 2021-04-08 | Guardant Health, Inc. | Compositions and methods for analyzing cell-free dna in methylation partitioning assays |
| CN118374597A (zh) * | 2019-11-06 | 2024-07-23 | 斯坦福大学托管董事会 | 用于分析核酸分子的方法和系统 |
| US11680290B2 (en) * | 2019-12-19 | 2023-06-20 | Chapter Diagnostics, Inc. | Efficient methods and compositions for multiplex target amplification PCR |
| CA3170345A1 (en) | 2020-02-14 | 2021-08-19 | The Johns Hopkins University | Methods and materials for assessing nucleic acids |
| EP4110397A4 (en) * | 2020-02-24 | 2024-05-01 | The Board of Trustees of the Leland Stanford Junior University | SYSTEMS AND METHODS FOR PROTECTING NUCLEIC ACID MOLECULES |
| CN113593636B (zh) * | 2020-04-30 | 2024-05-03 | 深圳市真迈生物科技有限公司 | 测序结果分析方法、系统及计算机可读存储介质和电子设备 |
| US20230250471A1 (en) * | 2020-06-23 | 2023-08-10 | HeimBiotek, Inc. | Composition for sequential polymerase chain reaction, and gene amplification method using same |
| CN116194593A (zh) * | 2020-07-23 | 2023-05-30 | 合成Dna技术公司 | 被称为“CTL-seq”(CRISPR Tag Linear-seq)的核酸酶中靶/脱靶编辑位点的提名方法 |
| AU2021339945A1 (en) * | 2020-09-11 | 2023-03-02 | Illumina Cambridge Limited | Methods of enriching a target sequence from a sequencing library using hairpin adaptors |
| US20230366014A1 (en) * | 2020-10-06 | 2023-11-16 | Genetics Research, Llc | Nucleic acid enrichment method |
| WO2022109389A1 (en) * | 2020-11-20 | 2022-05-27 | Camena Bioscience Limited | Geometric synthesis methods and compositions for double-stranded nucleic acid sequencing |
| WO2022125100A1 (en) * | 2020-12-10 | 2022-06-16 | Agilent Technologies, Inc. | Methods for sequencing polynucleotide fragments from both ends |
| US20240117340A1 (en) * | 2021-02-18 | 2024-04-11 | Roche Sequencing Solutions, Inc. | Structure to prevent threading of nucleic acid templates through a nanopore during sequencing |
| CN114334001A (zh) * | 2021-06-23 | 2022-04-12 | 山东景云生物科技有限公司 | 识别高通量测序数据中热点prc和测序错误的方法 |
| CN118019856A (zh) * | 2021-07-22 | 2024-05-10 | 深圳华大智造科技股份有限公司 | 缺口-连接stlfr |
| US12091715B2 (en) | 2022-04-21 | 2024-09-17 | Paragon Genomics, Inc. | Methods and compositions for reducing base errors of massive parallel sequencing using triseq sequencing |
| US11680293B1 (en) * | 2022-04-21 | 2023-06-20 | Paragon Genomics, Inc. | Methods and compositions for amplifying DNA and generating DNA sequencing results from target-enriched DNA molecules |
| JP2025521123A (ja) * | 2022-05-19 | 2025-07-08 | プレディシン,インク. | がん治療モニタリングのためのシステムおよび方法 |
| EP4555084A2 (en) * | 2022-07-12 | 2025-05-21 | University of Washington | Systems and methods for variant detection in cells |
| CN115369159A (zh) * | 2022-08-30 | 2022-11-22 | 上海交通大学医学院 | 一种基于双端测序重叠片段和dna双链互补片段的超低频突变检测方法 |
| WO2024238523A2 (en) * | 2023-05-15 | 2024-11-21 | Foundation Medicine, Inc. | Sequencing adapters for methylation sequencing |
| WO2025010244A1 (en) * | 2023-07-06 | 2025-01-09 | Pacific Biosciences Of California, Inc. | Dial-out cloning methods and systems |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20100331204A1 (en) | 2009-02-13 | 2010-12-30 | Jeff Jeddeloh | Methods and systems for enrichment of target genomic sequences |
| WO2011021102A2 (en) * | 2009-08-20 | 2011-02-24 | Population Genetics Technologies Ltd | Compositions and methods for intramolecular nucleic acid rearrangement |
| US20160153039A1 (en) | 2012-01-26 | 2016-06-02 | Nugen Technologies, Inc. | Compositions and methods for targeted nucleic acid sequence enrichment and high efficiency library generation |
| SG10201504490QA (en) | 2012-01-26 | 2015-07-30 | Nugen Technologies Inc | Compositions And Methods For Targeted Nucleic Acid Sequence Enrichment And High Efficiency Library Generation |
| EP3287531B1 (en) * | 2012-02-28 | 2019-06-19 | Agilent Technologies, Inc. | Method for attaching a counter sequence to a nucleic acid sample |
| ES2828661T3 (es) | 2012-03-20 | 2021-05-27 | Univ Washington Through Its Center For Commercialization | Métodos para reducir la tasa de error de la secuenciación de ADN masiva en paralelo mediante el uso de la secuenciación de secuencia consenso bicatenaria |
| US9487828B2 (en) * | 2012-05-10 | 2016-11-08 | The General Hospital Corporation | Methods for determining a nucleotide sequence contiguous to a known target nucleotide sequence |
| US11414695B2 (en) | 2013-05-29 | 2022-08-16 | Agilent Technologies, Inc. | Nucleic acid enrichment using Cas9 |
| EP3771745A1 (en) | 2013-12-28 | 2021-02-03 | Guardant Health, Inc. | Methods and systems for detecting genetic variants |
| KR102321956B1 (ko) | 2014-01-31 | 2021-11-08 | 스위프트 바이오사이언시스 인코포레이티드 | Dna 기질을 처리하는 개선 방법 |
| MY200537A (en) * | 2014-02-18 | 2024-01-02 | Illumina Inc | Methods and compositions for dna profiling |
| US10465241B2 (en) * | 2015-06-15 | 2019-11-05 | The Board Of Trustees Of The Leleand Stanford Junior University | High resolution STR analysis using next generation sequencing |
| GB201515557D0 (en) * | 2015-09-02 | 2015-10-14 | 14M Genomics Ltd | Method of sequencing |
| JP6975507B2 (ja) | 2015-12-08 | 2021-12-01 | ツインストランド・バイオサイエンシズ・インコーポレイテッドTwinstrand Biosciences, Inc. | 二本鎖配列決定のための改善されたアダプター、方法、及び組成物 |
| US11821028B2 (en) | 2016-07-12 | 2023-11-21 | QIAGEN Sciences, LLP | Single end duplex DNA sequencing |
| WO2018031588A1 (en) | 2016-08-09 | 2018-02-15 | Takara Bio Usa, Inc. | Nucleic acid adaptors with molecular identification sequences and use thereof |
-
2018
- 2018-03-23 WO PCT/US2018/024194 patent/WO2018175997A1/en not_active Ceased
- 2018-03-23 US US16/496,936 patent/US11479807B2/en active Active
- 2018-03-23 IL IL269431A patent/IL269431B2/en unknown
- 2018-03-23 AU AU2018240559A patent/AU2018240559B2/en active Active
- 2018-03-23 CN CN202410670917.6A patent/CN118638898A/zh active Pending
- 2018-03-23 EP EP24182355.8A patent/EP4450643A3/en active Pending
- 2018-03-23 CA CA3057867A patent/CA3057867A1/en active Pending
- 2018-03-23 ES ES18772308T patent/ES2929281T3/es active Active
- 2018-03-23 JP JP2019552077A patent/JP7256748B2/ja active Active
- 2018-03-23 EP EP18772308.5A patent/EP3601598B1/en active Active
- 2018-03-23 EP EP22186070.3A patent/EP4134444B1/en active Active
- 2018-03-23 ES ES22186070T patent/ES3002386T3/es active Active
- 2018-03-23 CN CN201880020286.6A patent/CN110520542B/zh active Active
-
2022
- 2022-09-16 US US17/933,058 patent/US12006532B2/en active Active
-
2023
- 2023-03-31 JP JP2023057239A patent/JP2023093499A/ja active Pending
-
2024
- 2024-04-29 US US18/649,007 patent/US20240401108A1/en active Pending
-
2025
- 2025-05-06 AU AU2025203238A patent/AU2025203238A1/en active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| WO2018175997A1 (en) | 2018-09-27 |
| US11479807B2 (en) | 2022-10-25 |
| CN118638898A (zh) | 2024-09-13 |
| EP3601598A4 (en) | 2020-12-23 |
| AU2018240559A1 (en) | 2019-09-19 |
| US20230295686A1 (en) | 2023-09-21 |
| EP4450643A3 (en) | 2024-11-20 |
| IL269431B1 (en) | 2025-01-01 |
| CN110520542B (zh) | 2024-06-14 |
| JP2020511966A (ja) | 2020-04-23 |
| US20200131561A1 (en) | 2020-04-30 |
| JP2023093499A (ja) | 2023-07-04 |
| ES3002386T3 (en) | 2025-03-06 |
| EP4134444B1 (en) | 2024-10-02 |
| IL269431B2 (en) | 2025-05-01 |
| EP4450643A2 (en) | 2024-10-23 |
| EP3601598B1 (en) | 2022-08-03 |
| EP3601598A1 (en) | 2020-02-05 |
| IL269431A (en) | 2019-11-28 |
| JP7256748B2 (ja) | 2023-04-12 |
| US20240401108A1 (en) | 2024-12-05 |
| CN110520542A (zh) | 2019-11-29 |
| US12006532B2 (en) | 2024-06-11 |
| CA3057867A1 (en) | 2018-09-27 |
| AU2025203238A1 (en) | 2025-05-29 |
| AU2018240559B2 (en) | 2025-02-13 |
| EP4134444A1 (en) | 2023-02-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2929281T3 (es) | Métodos para el enriquecimiento de secuencias de ácidos nucleicos dirigidos con aplicaciones para la secuenciación de ácidos nucleicos con corrección de errores | |
| US20250250609A1 (en) | Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations | |
| Steiert et al. | A critical spotlight on the paradigms of FFPE-DNA sequencing | |
| ES2769241T5 (es) | Sistemas y métodos para detectar variación en el número de copias | |
| ES2877088T3 (es) | Procedimiento para detectar cáncer | |
| Moldován et al. | Multi-platform sequencing approach reveals a novel transcriptome profile in pseudorabies virus | |
| ES2925014T3 (es) | Identificación y uso de ácidos nucleicos circulantes | |
| CN113661249A (zh) | 用于分离无细胞dna的组合物和方法 | |
| US11359233B2 (en) | Methods for labelling nucleic acids | |
| JP7541363B2 (ja) | プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬 | |
| CN110869515A (zh) | 用于基因组重排检测的测序方法 | |
| HK40087991B (en) | Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing | |
| HK40087991A (en) | Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing | |
| EP4555084A2 (en) | Systems and methods for variant detection in cells | |
| HK40039255A (en) | Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations | |
| Chun et al. | Cancer Genomics: Chapter 2. Second-Generation Sequencing for Cancer Genome Analysis |