RU2799654C2 - Sequence graph-based tool for determining variation in short tandem repeat areas - Google Patents
Sequence graph-based tool for determining variation in short tandem repeat areas Download PDFInfo
- Publication number
- RU2799654C2 RU2799654C2 RU2021108143A RU2021108143A RU2799654C2 RU 2799654 C2 RU2799654 C2 RU 2799654C2 RU 2021108143 A RU2021108143 A RU 2021108143A RU 2021108143 A RU2021108143 A RU 2021108143A RU 2799654 C2 RU2799654 C2 RU 2799654C2
- Authority
- RU
- Russia
- Prior art keywords
- sequence
- reads
- repeat
- graph
- read
- Prior art date
Links
- 108091092878 Microsatellite Proteins 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 238
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims abstract description 69
- 238000003205 genotyping method Methods 0.000 claims abstract description 32
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 26
- 238000012217 deletion Methods 0.000 claims abstract description 10
- 230000037430 deletion Effects 0.000 claims abstract description 10
- 108020004705 Codon Proteins 0.000 claims abstract description 7
- 238000006467 substitution reaction Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims description 88
- 239000002773 nucleotide Substances 0.000 claims description 84
- 125000003729 nucleotide group Chemical group 0.000 claims description 83
- 108700028369 Alleles Proteins 0.000 claims description 34
- 238000009826 distribution Methods 0.000 claims description 30
- 208000001914 Fragile X syndrome Diseases 0.000 claims description 16
- 208000023105 Huntington disease Diseases 0.000 claims description 13
- 210000004369 blood Anatomy 0.000 claims description 13
- 239000008280 blood Substances 0.000 claims description 13
- 206010003591 Ataxia Diseases 0.000 claims description 10
- 208000024412 Friedreich ataxia Diseases 0.000 claims description 10
- 206010002026 amyotrophic lateral sclerosis Diseases 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 210000002700 urine Anatomy 0.000 claims description 8
- 208000027747 Kennedy disease Diseases 0.000 claims description 6
- 208000006269 X-Linked Bulbo-Spinal Atrophy Diseases 0.000 claims description 6
- 210000003296 saliva Anatomy 0.000 claims description 6
- 238000002864 sequence alignment Methods 0.000 claims description 6
- 206010003694 Atrophy Diseases 0.000 claims description 5
- 208000002569 Machado-Joseph Disease Diseases 0.000 claims description 5
- 206010068871 Myotonic dystrophy Diseases 0.000 claims description 5
- 208000036834 Spinocerebellar ataxia type 3 Diseases 0.000 claims description 5
- 230000037444 atrophy Effects 0.000 claims description 5
- 230000037361 pathway Effects 0.000 claims description 3
- 238000003780 insertion Methods 0.000 abstract description 20
- 230000037431 insertion Effects 0.000 abstract description 20
- 230000002068 genetic effect Effects 0.000 abstract description 11
- 239000000126 substance Substances 0.000 abstract description 4
- 230000003252 repetitive effect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 175
- 238000012163 sequencing technique Methods 0.000 description 159
- 108020004414 DNA Proteins 0.000 description 86
- 230000008569 process Effects 0.000 description 79
- 150000007523 nucleic acids Chemical class 0.000 description 77
- 102000039446 nucleic acids Human genes 0.000 description 64
- 108020004707 nucleic acids Proteins 0.000 description 64
- 239000012634 fragment Substances 0.000 description 58
- 238000004458 analytical method Methods 0.000 description 31
- 210000004027 cell Anatomy 0.000 description 30
- 210000000349 chromosome Anatomy 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 28
- 102000040430 polynucleotide Human genes 0.000 description 24
- 108091033319 polynucleotide Proteins 0.000 description 24
- 239000002157 polynucleotide Substances 0.000 description 24
- 238000012545 processing Methods 0.000 description 21
- 108091034117 Oligonucleotide Proteins 0.000 description 19
- 238000007481 next generation sequencing Methods 0.000 description 18
- 108090000623 proteins and genes Proteins 0.000 description 18
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 17
- 238000013467 fragmentation Methods 0.000 description 17
- 238000006062 fragmentation reaction Methods 0.000 description 17
- 208000026350 Inborn Genetic disease Diseases 0.000 description 16
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 16
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 16
- 239000000047 product Substances 0.000 description 16
- 238000003860 storage Methods 0.000 description 16
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 16
- 230000003321 amplification Effects 0.000 description 15
- 201000010099 disease Diseases 0.000 description 15
- 239000012530 fluid Substances 0.000 description 15
- 239000004005 microsphere Substances 0.000 description 15
- 238000003199 nucleic acid amplification method Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 208000016361 genetic disease Diseases 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 102000053602 DNA Human genes 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 13
- 230000001717 pathogenic effect Effects 0.000 description 13
- 238000003745 diagnosis Methods 0.000 description 12
- 210000002381 plasma Anatomy 0.000 description 12
- 238000002360 preparation method Methods 0.000 description 12
- 210000001519 tissue Anatomy 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 11
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 10
- 150000002500 ions Chemical class 0.000 description 10
- 230000000670 limiting effect Effects 0.000 description 10
- 239000013060 biological fluid Substances 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 238000009396 hybridization Methods 0.000 description 9
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 8
- 229930024421 Adenine Natural products 0.000 description 8
- 229960000643 adenine Drugs 0.000 description 8
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 8
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N biotin Natural products N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 8
- 229940104302 cytosine Drugs 0.000 description 8
- 210000000416 exudates and transudate Anatomy 0.000 description 8
- 230000035772 mutation Effects 0.000 description 8
- 230000002441 reversible effect Effects 0.000 description 8
- 229940113082 thymine Drugs 0.000 description 8
- 238000011282 treatment Methods 0.000 description 8
- -1 without limitation Chemical class 0.000 description 8
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 7
- 238000003556 assay Methods 0.000 description 7
- 229960002685 biotin Drugs 0.000 description 7
- 239000011616 biotin Substances 0.000 description 7
- 230000000295 complement effect Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 108010054442 polyalanine Proteins 0.000 description 7
- 101150082209 Fmr1 gene Proteins 0.000 description 6
- 239000012472 biological sample Substances 0.000 description 6
- 235000020958 biotin Nutrition 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000002203 pretreatment Methods 0.000 description 6
- 206010036790 Productive cough Diseases 0.000 description 5
- 238000001574 biopsy Methods 0.000 description 5
- 239000000975 dye Substances 0.000 description 5
- 239000007850 fluorescent dye Substances 0.000 description 5
- 229920001519 homopolymer Polymers 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 239000013610 patient sample Substances 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 210000003802 sputum Anatomy 0.000 description 5
- 208000024794 sputum Diseases 0.000 description 5
- 208000011580 syndromic disease Diseases 0.000 description 5
- 102000007371 Ataxin-3 Human genes 0.000 description 4
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 4
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 4
- 238000001712 DNA sequencing Methods 0.000 description 4
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 4
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 4
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 4
- 229910015837 MSH2 Inorganic materials 0.000 description 4
- 229960005305 adenosine Drugs 0.000 description 4
- 230000002759 chromosomal effect Effects 0.000 description 4
- 239000002299 complementary DNA Substances 0.000 description 4
- 230000001605 fetal effect Effects 0.000 description 4
- 238000007672 fourth generation sequencing Methods 0.000 description 4
- 210000003917 human chromosome Anatomy 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000008774 maternal effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 210000005259 peripheral blood Anatomy 0.000 description 4
- 239000011886 peripheral blood Substances 0.000 description 4
- 102000054765 polymorphisms of proteins Human genes 0.000 description 4
- 235000018102 proteins Nutrition 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 210000004243 sweat Anatomy 0.000 description 4
- 238000012070 whole genome sequencing analysis Methods 0.000 description 4
- 102100033849 CCHC-type zinc finger nucleic acid binding protein Human genes 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 3
- 101000692768 Homo sapiens Paired mesoderm homeobox protein 2B Proteins 0.000 description 3
- 101000828537 Homo sapiens Synaptic functional regulator FMR1 Proteins 0.000 description 3
- 208000036626 Mental retardation Diseases 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 101150033433 Msh2 gene Proteins 0.000 description 3
- 238000012408 PCR amplification Methods 0.000 description 3
- 102100026354 Paired mesoderm homeobox protein 2B Human genes 0.000 description 3
- 241000700605 Viruses Species 0.000 description 3
- 210000004381 amniotic fluid Anatomy 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 210000003567 ascitic fluid Anatomy 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- XPPKVPWEQAFLFU-UHFFFAOYSA-J diphosphate(4-) Chemical compound [O-]P([O-])(=O)OP([O-])([O-])=O XPPKVPWEQAFLFU-UHFFFAOYSA-J 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 102000054766 genetic haplotypes Human genes 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000000178 monomer Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012175 pyrosequencing Methods 0.000 description 3
- 238000007480 sanger sequencing Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000007841 sequencing by ligation Methods 0.000 description 3
- 238000012176 true single molecule sequencing Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 2
- 208000020706 Autistic disease Diseases 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 2
- 206010008025 Cerebellar ataxia Diseases 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 208000008051 Hereditary Nonpolyposis Colorectal Neoplasms Diseases 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 2
- 208000024556 Mendelian disease Diseases 0.000 description 2
- 108091092919 Minisatellite Proteins 0.000 description 2
- 229910019142 PO4 Inorganic materials 0.000 description 2
- 102100023532 Synaptic functional regulator FMR1 Human genes 0.000 description 2
- 201000007023 Thrombotic Thrombocytopenic Purpura Diseases 0.000 description 2
- 210000001766 X chromosome Anatomy 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004630 atomic force microscopy Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 108091092356 cellular DNA Proteins 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000013068 control sample Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000007865 diluting Methods 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 210000003608 fece Anatomy 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 238000013412 genome amplification Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- GPRLSGONYQIRFK-UHFFFAOYSA-N hydron Chemical compound [H+] GPRLSGONYQIRFK-UHFFFAOYSA-N 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 230000000968 intestinal effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 210000002751 lymph Anatomy 0.000 description 2
- 235000013336 milk Nutrition 0.000 description 2
- 239000008267 milk Substances 0.000 description 2
- 210000004080 milk Anatomy 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 108010040003 polyglutamine Proteins 0.000 description 2
- 229920000155 polyglutamine Polymers 0.000 description 2
- 239000013641 positive control Substances 0.000 description 2
- 238000003793 prenatal diagnosis Methods 0.000 description 2
- 238000010298 pulverizing process Methods 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 230000028327 secretion Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 238000000527 sonication Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 102000007372 Ataxin-1 Human genes 0.000 description 1
- 108010032963 Ataxin-1 Proteins 0.000 description 1
- 102000002785 Ataxin-10 Human genes 0.000 description 1
- 108010043914 Ataxin-10 Proteins 0.000 description 1
- 108010032947 Ataxin-3 Proteins 0.000 description 1
- 102000007368 Ataxin-7 Human genes 0.000 description 1
- 108010032953 Ataxin-7 Proteins 0.000 description 1
- 102000014461 Ataxins Human genes 0.000 description 1
- 108010078286 Ataxins Proteins 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 101150014718 C9orf72 gene Proteins 0.000 description 1
- 101710116319 CCHC-type zinc finger nucleic acid binding protein Proteins 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 108091060290 Chromatid Proteins 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 101150117670 Cnbp gene Proteins 0.000 description 1
- 206010066131 Congenital central hypoventilation syndrome Diseases 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- IGXWBGJHJZYPQS-SSDOTTSWSA-N D-Luciferin Chemical compound OC(=O)[C@H]1CSC(C=2SC3=CC=C(O)C=C3N=2)=N1 IGXWBGJHJZYPQS-SSDOTTSWSA-N 0.000 description 1
- 102000004594 DNA Polymerase I Human genes 0.000 description 1
- 108010017826 DNA Polymerase I Proteins 0.000 description 1
- 230000033616 DNA repair Effects 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- CYCGRDQQIOGCKX-UHFFFAOYSA-N Dehydro-luciferin Natural products OC(=O)C1=CSC(C=2SC3=CC(O)=CC=C3N=2)=N1 CYCGRDQQIOGCKX-UHFFFAOYSA-N 0.000 description 1
- 102000016911 Deoxyribonucleases Human genes 0.000 description 1
- 108010053770 Deoxyribonucleases Proteins 0.000 description 1
- 102100031780 Endonuclease Human genes 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 241000874889 Euphilotes enoptes Species 0.000 description 1
- 241000282324 Felis Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 240000008168 Ficus benjamina Species 0.000 description 1
- BJGNCJDXODQBOB-UHFFFAOYSA-N Fivefly Luciferin Natural products OC(=O)C1CSC(C=2SC3=CC(O)=CC=C3N=2)=N1 BJGNCJDXODQBOB-UHFFFAOYSA-N 0.000 description 1
- 108010032606 Fragile X Mental Retardation Protein Proteins 0.000 description 1
- 102000007338 Fragile X Mental Retardation Protein Human genes 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 208000028782 Hereditary disease Diseases 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101100520007 Homo sapiens PHOX2B gene Proteins 0.000 description 1
- 101000869690 Homo sapiens Protein S100-A8 Proteins 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- DDWFXDSYGUXRAY-UHFFFAOYSA-N Luciferin Natural products CCc1c(C)c(CC2NC(=O)C(=C2C=C)C)[nH]c1Cc3[nH]c4C(=C5/NC(CC(=O)O)C(C)C5CC(=O)O)CC(=O)c4c3C DDWFXDSYGUXRAY-UHFFFAOYSA-N 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 208000025966 Neurological disease Diseases 0.000 description 1
- 108091092724 Noncoding DNA Proteins 0.000 description 1
- 102100030569 Nuclear receptor corepressor 2 Human genes 0.000 description 1
- 101710153660 Nuclear receptor corepressor 2 Proteins 0.000 description 1
- 108020005187 Oligonucleotide Probes Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 101150097597 PHOX2B gene Proteins 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 102100032442 Protein S100-A8 Human genes 0.000 description 1
- 208000035955 Proximal myotonic myopathy Diseases 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 108020004511 Recombinant DNA Proteins 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 208000009415 Spinocerebellar Ataxias Diseases 0.000 description 1
- 108010090804 Streptavidin Proteins 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 102000004523 Sulfate Adenylyltransferase Human genes 0.000 description 1
- 108010022348 Sulfate adenylyltransferase Proteins 0.000 description 1
- 102100036049 T-complex protein 1 subunit gamma Human genes 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 210000002593 Y chromosome Anatomy 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- IRLPACMLTUPBCL-FCIPNVEPSA-N adenosine-5'-phosphosulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@@H](CO[P@](O)(=O)OS(O)(=O)=O)[C@H](O)[C@H]1O IRLPACMLTUPBCL-FCIPNVEPSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 201000004562 autosomal dominant cerebellar ataxia Diseases 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 102220024007 c.496_498CAG(?31)(?31 Human genes 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 101150062912 cct3 gene Proteins 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 210000004756 chromatid Anatomy 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 235000011180 diphosphates Nutrition 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- LIYGYAHYXQDGEP-UHFFFAOYSA-N firefly oxyluciferin Natural products Oc1csc(n1)-c1nc2ccc(O)cc2s1 LIYGYAHYXQDGEP-UHFFFAOYSA-N 0.000 description 1
- 238000001917 fluorescence detection Methods 0.000 description 1
- 238000004108 freeze drying Methods 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000008241 heterogeneous mixture Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000012678 infectious agent Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000002934 lysing effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 239000011325 microbead Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 238000002703 mutagenesis Methods 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 201000008709 myotonic dystrophy type 2 Diseases 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 238000013188 needle biopsy Methods 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 230000007472 neurodevelopment Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 229940124276 oligodeoxyribonucleotide Drugs 0.000 description 1
- 239000002751 oligonucleotide probe Substances 0.000 description 1
- JJVOROULKOMTKG-UHFFFAOYSA-N oxidized Photinus luciferin Chemical compound S1C2=CC(O)=CC=C2N=C1C1=NC(=O)CS1 JJVOROULKOMTKG-UHFFFAOYSA-N 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 150000002972 pentoses Chemical class 0.000 description 1
- 125000001805 pentosyl group Chemical group 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 150000004713 phosphodiesters Chemical group 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 230000037452 priming Effects 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 238000001742 protein purification Methods 0.000 description 1
- 238000000734 protein sequencing Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000004627 transmission electron microscopy Methods 0.000 description 1
- 235000011178 triphosphate Nutrition 0.000 description 1
- 239000001226 triphosphate Substances 0.000 description 1
- 125000002264 triphosphate group Chemical class [H]OP(=O)(O[H])OP(=O)(O[H])OP(=O)(O[H])O* 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002569 water oil cream Substances 0.000 description 1
Images
Abstract
Description
ВКЛЮЧЕНИЕ ПУТЕМ ССЫЛКИINCLUDING BY LINK
[0001] Форма запроса PCT подается одновременно с данной спецификацией в рамках настоящей заявки. Каждая заявка, в отношении которой в настоящей заявке испрашивается преимущество или приоритет, как указано в одновременно поданной форме запроса РСТ, полностью и для всех целей включена в настоящий документ путем ссылки. [0001] The PCT Request Form is filed concurrently with this specification as part of this application. Each application for which benefit or priority is claimed in this application as specified in the concurrently filed PCT Request Form is hereby incorporated by reference in its entirety and for all purposes.
ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION
[0002] Экспансии повторов представляют собой особый класс микросателлитных и минисателлитных вариантов, включающих полиморфизмы коротких тандемных повторов (КТП). Экспансии повторов также называются динамическими мутациями вследствие их нестабильности в случаях, когда короткие тандемные повторы расширяются сверх определенных размеров. Генетические заболевания, вызванные нестабильными экспансиями повторов, включают в себя, помимо прочего, синдром ломкой X-хромосомы (FXS), болезнь Хантингтона и боковой амиотрофический склероз (АБС). [0002] Repeat expansions are a special class of microsatellite and minisatellite variants, including short tandem repeat (SRT) polymorphisms. Repeat expansions are also called dynamic mutations due to their instability when short tandem repeats expand beyond certain sizes. Genetic diseases caused by unstable repeat expansions include, but are not limited to, fragile X syndrome (FXS), Huntington's disease, and amyotrophic lateral sclerosis (ALS).
[0003] Выявление экспансий повторов важно для диагностирования и лечения определенных генетических заболеваний. Однако сложно определить последовательности повторов с помощью коротких прочтений, которые не полностью охватывают последовательность повторов. Таким образом, желательно разработать способы, в которых используются короткие прочтения, с целью выявления значимых с медицинской точки зрения экспансий повторов. [0003] The detection of repeat expansions is important for the diagnosis and treatment of certain genetic diseases. However, it is difficult to determine repeat sequences with short reads that do not fully cover the repeat sequence. Thus, it is desirable to develop methods that use short reads in order to detect medically significant repeat expansions.
ИЗЛОЖЕНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
[0004] Описанные варианты реализации относятся к способам, устройствам, системам и компьютерным программным продуктам, предназначенным для секвенирования геномных локусов, включая последовательности повторов, в том числе последовательности коротких тандемных повторов, которые могут быт связаны с генетическими расстройствами. В число способов входит выравнивание прочтений с графами последовательностей, каждый из которых представляет собой геномный локус, а также использование выровненных прочтений для генотипирования одной или более последовательностей повторов в геномном локусе. Графы последовательностей представляют собой направленные графы, каждый из которых включает по меньшей мере один собственный простой цикл, представляющий последовательность повторов. [0004] The described embodiments relate to methods, devices, systems, and computer software products for sequencing genomic loci, including repeat sequences, including short tandem repeat sequences, that may be associated with genetic disorders. Methods include aligning reads with sequence graphs each representing a genomic locus, and using aligned reads to genotype one or more repeat sequences at a genomic locus. Sequence graphs are directed graphs, each of which includes at least one simple cycle of its own, representing a sequence of repetitions.
[0005] В первом аспекте описания предложены способы генотипирования геномных локусов с помощью компьютера, включая последовательности повторов. Способы реализуют с применением компьютера, включающего в себя один или более процессоров и системную память. Данные способы могут применяться для генотипирования одной или более последовательностей повторов, каждая из которых содержит одну или более подпоследовательностей повторов. Способы включают: (a) сбор прочтений последовательности исследуемого образца из базы данных с применением одного или более процессоров; (b) выравнивание с помощью одного или более процессоров, прочтение одной или более последовательностей повторов, каждая из которых представлена графом последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, при этом каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) определение одним или более процессорами одного или более генотипов одной или более последовательностей повторов с применением прочтений последовательности, выравненных с одной или более последовательностями повторов. [0005] In a first aspect of the description, methods are provided for computer-assisted genotyping of genomic loci, including repeat sequences. The methods are implemented using a computer including one or more processors and system memory. These methods can be used to genotype one or more repeat sequences, each containing one or more repeat subsequences. The methods include: (a) collecting test sample sequence reads from a database using one or more processors; (b) alignment with one or more processors, reading one or more sequences of repeats, each of which is represented by a sequence graph, and the sequence graph has a directed graph data structure, where the vertices represent nucleotide sequences, and directed edges connect the vertices, and the graph the sequence contains one or more own simple cycles, and each own simple cycle is a subsequence of repeats, with each subsequence of repeats containing repeats of a repeating unit of one or more nucleotides; and (c) one or more processors determining one or more genotypes of one or more repeat sequences using sequence reads aligned with the one or more repeat sequences.
[0006] В некоторых вариантах реализации последовательность повторов из одной или более последовательностей повторов содержит конкретное повторяющееся звено, содержащее по меньшей мере один частично определенный нуклеотид. В некоторых вариантах реализации конкретное повторяющееся звено содержит вырожденные кодоны. [0006] In some embodiments, a repeat sequence of one or more repeat sequences contains a specific repeat unit containing at least one partially defined nucleotide. In some embodiments, a particular repeat unit contains degenerate codons.
[0007] В некоторых вариантах реализации один или более собственных простых циклов содержат два или более собственных простых циклов, представляющих две или более подпоследовательностей повторов. [0007] In some embodiments, one or more native simple loops comprise two or more native simple loops representing two or more repeat subsequences.
[0008] В некоторых вариантах реализации граф последовательности дополнительно содержит два или более альтернативных путей для двух или более аллелей. В некоторых вариантах реализации два или более аллеля содержат делецию или замену. В некоторых вариантах реализации замена включает в себя однонуклеотидный вариант (ОНВ) или однонуклеотидный полиморфизм (ОНП). В некоторых вариантах реализации способ дополнительно включает в себя генотипирование двух или более аллелей с применением прочтений последовательностей, выровненных с двумя или более альтернативными путями. В некоторых вариантах реализации генотипирование двух или более аллелей включает в себя охват двух или более альтернативных путей к вероятностной модели для определения вероятностей двух или более аллелей. В некоторых вариантах реализации вероятностная модель моделирует вероятность аллеля в зависимости от охвата аллеля, причем функция выбрана из распределения Пуассона, отрицательного биномиального распределения, биномиального распределения или бета-биномиального распределения. В некоторых вариантах реализации параметр скорости распределения Пуассона оценивают по длине прочтения и средней глубине, наблюдаемой в геномном локусе. [0008] In some embodiments, the sequence graph further comprises two or more alternative paths for two or more alleles. In some embodiments, two or more alleles contain a deletion or substitution. In some embodiments, the substitution includes a single nucleotide variant (SNR) or a single nucleotide polymorphism (SNP). In some embodiments, the method further includes genotyping two or more alleles using sequence reads aligned with two or more alternative pathways. In some embodiments, genotyping two or more alleles includes spanning two or more alternative paths to a probability model to determine the probabilities of two or more alleles. In some embodiments, the probability model models the probability of an allele as a function of allele coverage, with the function selected from a Poisson distribution, a negative binomial distribution, a binomial distribution, or a beta-binomial distribution. In some embodiments, the Poisson distribution rate parameter is estimated from the read length and average depth observed at the genomic locus.
[0009] В некоторых вариантах реализации способ дополнительно включает выравнивание, до (b), прочтения последовательности по эталонному геному для определения геномных координат прочтения последовательности, а также выбор подмножества прочтения последовательности по мере выравнивания прочтения последовательности с одной или более последовательностями повторов, каждая из которых представлена графом последовательности. В некоторых вариантах реализации подмножество прочтений последовательностей включает в себя прочтения, выровненные с областью, представленной графом последовательности, или с пространством вблизи нее. В некоторых вариантах реализации подмножество прочтений последовательностей включает в себя невыровненные прочтения, сопряженные прочтения которых сопоставляются с областью, представленной графом последовательности, или с пространством вблизи нее. В некоторых вариантах реализации подмножество прочтений последовательностей содержит прочтение последовательностей, выровненное с одной или более нецелевыми областями, которые являются известными горячими точками для прочтения неправильного выравнивания. [0009] In some embodiments, the method further includes aligning, to (b), a sequence read against a reference genome to determine genomic sequence read coordinates, and selecting a subset of the sequence read as the sequence read aligns with one or more repeat sequences, each of which represented by a sequence graph. In some embodiments, the subset of sequence reads includes reads aligned with or near the area represented by the sequence graph. In some embodiments, the subset of sequence reads includes unaligned reads whose conjugate reads map to or near the region represented by the sequence graph. In some embodiments, the subset of sequence reads comprises sequence reads aligned with one or more non-target regions that are known hotspots for misalignment reads.
[0010] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя: поиск соответствия кмер между прочтением последовательности и путем графа последовательности; и расширение соответствия кмер до полного выравнивания узлов и ребер графа последовательностей, включая один или более собственных простых циклов. [0010] In some embodiments, aligning a sequence read with a sequence graph includes: finding a match between the sequence read and the sequence graph path; and extending the kmer matching to complete alignment of nodes and edges of the sequence graph, including one or more of its own simple cycles.
[0011] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя сокращение графа путем удаления концов выравниваний с низким уровнем достоверности. [0011] In some embodiments, aligning a sequence read with a sequence graph includes reducing the graph by removing the ends of low confidence alignments.
[0012] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает объединение выравниваний путем: выравнивания подпоследовательностей прочтения с графом последовательности; и объединения выравниваний подпоследовательностей для полного выравнивания прочтения последовательности. [0012] In some embodiments, aligning a sequence read with a sequence graph includes combining alignments by: aligning read subsequences with a sequence graph; and combining subsequence alignments to complete the sequence read alignment.
[0013] В некоторых вариантах реализации способ дополнительно включает в себя генерирование графа последовательности на основании спецификации локуса, включающей в себя структуру геномного локуса. [0013] In some embodiments, the method further includes generating a sequence graph based on the locus specification, including the structure of the genomic locus.
[0014] В некоторых вариантах реализации прочтения последовательностей включают в себя парные концевые прочтения, а операция (c) включает в себя следующие составляющие: (i) определение базовых и закрепленных прочтений в парных концевых прочтениях, причем базовые прочтения являются выровненными с одной или более последовательностями повторов или с пространством рядом с ними, а закрепленные прочтения представляют собой невыровненные прочтения, которые сопряжены с закрепленными прочтениями; и (ii) определение одного или более генотипов для одной или более последовательностей повторов с применением по меньшей мере закрепленных прочтений. [0014] In some embodiments, sequence reads include paired end reads, and step (c) includes: (i) determining base and pinned reads in paired end reads, where base reads are aligned with one or more sequences repeats or with space next to them, and pinned reads are unaligned reads that are paired with pinned reads; and (ii) determining one or more genotypes for one or more repeat sequences using at least anchored reads.
[0015] В некоторых вариантах реализации операция (ii) включает в себя определение одного или более генотипов для одной или более последовательностей повторов с использованием базовых прочтений, а также закрепленных прочтений. В некоторых вариантах реализации базовые прочтения выровнены с точностью до около 5 т. п. н. последовательности повторов. В некоторых вариантах реализации невыровненные прочтения включают в себя прочтения, которые не могут быть выровнены или являются плохо выровненными с графом последовательности. [0015] In some embodiments, operation (ii) includes determining one or more genotypes for one or more repeat sequences using base reads as well as pinned reads. In some implementations, the base reads are aligned to within about 5 kb. repeat sequences. In some embodiments, misaligned reads include reads that cannot be aligned or are poorly aligned with the sequence graph.
[0016] В некоторых вариантах реализации одна последовательность повторов или более включают в себя последовательность коротких тандемных повторов (КТП). В некоторых вариантах реализации экспансия КТП связана с синдромом ломкой X-хромосомы, боковым амиотрофическим склерозом (АБС), болезнью Хантингтона, атаксией Фридрейха, спиномозжечковой атаксией, спинобульбарной мышечной атрофией, миотонической дистрофией, болезнью Мачадо-Джозефа или дентато-рубро-паллидо-льюисовой атрофией. [0016] In some embodiments, one or more repeat sequences include a short tandem repeat (SRT) sequence. In some embodiments, the expansion of CTP is associated with fragile X syndrome, amyotrophic lateral sclerosis (ALS), Huntington's disease, Friedreich's ataxia, spinal ataxia, spinobulbar muscular atrophy, myotonic dystrophy, Machado-Joseph disease, or dentato-rubro-pallido-Lewis atrophy .
[0017] В некоторых вариантах реализации способ дополнительно включает в себя использование секвенатора для создания парных концевых прочтений исследуемого образца. [0017] In some embodiments, the method further includes using a sequencer to create paired end reads of the test sample.
[0018] В некоторых вариантах реализации способ дополнительно включает в себя извлечение исследуемого образца из организма субъекта. [0018] In some embodiments, the method further includes withdrawing the test sample from the subject.
[0019] В некоторых вариантах реализации исследуемый образец представляет собой образец крови, мочи, слюны или ткани. [0019] In some embodiments, the test sample is a sample of blood, urine, saliva, or tissue.
[0020] В некоторых вариантах реализации повторяющееся звено включает в себя от 1 до 50 нуклеотидов. [0020] In some embodiments, the repeating unit includes from 1 to 50 nucleotides.
[0021] В некоторых вариантах реализации прочтение является более коротким, чем по меньшей мере одна из одной или более последовательностей повторов. [0021] In some embodiments, the read is shorter than at least one of the one or more repetition sequences.
[0022] В другом аспекте описания предложены системы для генотипирования геномных локусов, включая последовательности повторов. В некоторых вариантах реализации система включает в себя: системное запоминающее устройство и один или более процессоров, настроенных для выполнения следующих действий: (a) сбор с применением одного или более процессоров, прочтений последовательности исследуемого образца из базы данных; (b) выравнивание с помощью одного или более процессоров, прочтение одной или более последовательностей повторов, каждая из которых представлена графом последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности, а направленные ребра соединяют вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, при этом каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) определение одним или более процессорами одного или более генотипов одной или более последовательностей повторов с использованием прочтений последовательности, выровненных с одной или более последовательностями повторов. [0022] In another aspect of the description, systems are provided for genotyping genomic loci, including repeat sequences. In some embodiments, the system includes: system storage and one or more processors configured to perform the following: (a) collecting, using one or more processors, reads of a test sample sequence from a database; (b) alignment with one or more processors, reading one or more repeat sequences, each of which is represented by a sequence graph, wherein the sequence graph has a directed graph data structure, where vertices represent nucleotide sequences and directed edges connect vertices, and wherein the graph the sequence contains one or more own simple cycles, and each own simple cycle is a subsequence of repeats, with each subsequence of repeats containing repeats of a repeating unit of one or more nucleotides; and (c) one or more processors determining one or more genotypes of one or more repeat sequences using sequence reads aligned with the one or more repeat sequences.
[0023] В некоторых вариантах реализации система также включает в себя секвенатор для секвенирования нуклеиновых кислот исследуемого образца. [0023] In some embodiments, the system also includes a sequencer for sequencing the nucleic acids of the test sample.
[0024] В некоторых вариантах реализации один или более процессоров настроены для работы в рамках различных способов, описанных в настоящем документе. [0024] In some embodiments, one or more processors are configured to operate in various ways described herein.
[0025] В другом аспекте описания предлагается компьютерный программный продукт, включающий в себя машиночитаемый носитель, предназначенный для долговременного хранения информации, содержащий программный код, исполнение которого одним или более процессорами компьютерной системы приводит к реализации компьютерной системой описанных выше способов генотипирования геномных локусов, включая последовательности повторов. Программный код включает в себя (a) код для сбора прочтений последовательности исследуемого образца из базы данных; (b) код для выравнивания прочтений последовательности с одной или более последовательностями повторов, каждая из которых представлена на графе последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности и направленные ребра, соединяющие вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) код для определения одного или более генотипов одной или более последовательностей повторов с применением прочтений последовательности, выровненных с одной или более последовательностями повторов. [0025] In another aspect of the description, a computer program product is provided, including a computer-readable medium for long-term storage of information containing program code, the execution of which by one or more processors of a computer system leads to the implementation by the computer system of the methods described above for genotyping genomic loci, including sequences repetitions. The program code includes (a) code for collecting test sample sequence reads from a database; (b) code for aligning sequence reads with one or more repeat sequences, each of which is represented on a sequence graph, wherein the sequence graph has a directed graph data structure, where vertices represent nucleotide sequences and directed edges connecting the vertices, and wherein the sequence graph contains one or more intrinsic simple cycles, each intrinsic simple cycle being a subsequence of repeats, each subsequence of repeats containing repeats of a repeating unit of one or more nucleotides; and (c) code for determining one or more genotypes of one or more repeat sequences using sequence reads aligned with the one or more repeat sequences.
[0026] В некоторых вариантах реализации программный код включает в себя код для выполнения операций в рамках способов, описанных в настоящем документе. [0026] In some implementations, the program code includes code for performing operations within the methods described herein.
[0027] Несмотря на то, что примеры и терминология, используемые в настоящем документе, относятся к организму человека, концепции, описанные в настоящем документе, применимы к геномам любых растений или животных. Пониманию этих и других целей и признаков настоящего описания способствует представленное ниже описание и прилагаемая формула изобретения; кроме того, необходимые данные могут быть получены при практической реализации содержания описания, представленного ниже. [0027] Although the examples and terminology used herein refer to the human body, the concepts described herein are applicable to the genomes of any plant or animal. An understanding of these and other objects and features of the present description is facilitated by the following description and the appended claims; in addition, the necessary data can be obtained by the practical implementation of the contents of the description below.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHICS
[0028] На Фиг. 1A представлена принципиальная схема, иллюстрирующая трудности выравнивания последовательности с последовательностью повторов на эталонной последовательности. [0028] In FIG. 1A is a schematic diagram illustrating the difficulty of aligning a sequence with a repeat sequence on a reference sequence.
[0029] На Фиг. 1B представлена принципиальная схема, иллюстрирующая выравнивание прочтений последовательностей с применением парных концевых прочтений в соответствии с определенными вариантами реализации для преодоления трудностей, проиллюстрированных на Фиг. 1A. [0029] In FIG. 1B is a schematic diagram illustrating the alignment of sequence reads using paired end reads in accordance with certain implementations to overcome the difficulties illustrated in FIG. 1A.
[0030] На Фиг. 1C представлена блок-схема, иллюстрирующая процесс генотипирования геномного локуса, включающего в себя последовательность повторов, в соответствии с некоторыми вариантами реализации. [0030] In FIG. 1C is a flowchart illustrating the process of genotyping a genomic locus including a sequence of repeats, in accordance with some embodiments.
[0031] На Фиг. 1D проиллюстрирован первый граф последовательности, представляющий первый геномный локус. [0031] In FIG. 1D illustrates the first sequence graph representing the first genomic locus.
[0032] На Фиг. 1E проиллюстрирован второй граф последовательности, представляющий второй геномный локус. [0032] In FIG. 1E illustrates a second sequence graph representing the second genomic locus.
[0033] На Фиг. 1F проиллюстрирован третий граф последовательности, представляющий третий геномный локус [0033] In FIG. 1F illustrates a third sequence graph representing a third genomic locus.
[0034] На Фиг. 1G представлена принципиальная схема процесса определения генотипов вариантов локуса HTT, включающего в себя две последовательности КТП, в соответствии с некоторыми вариантами реализации. [0034] In FIG. 1G is a schematic diagram of a process for determining the genotypes of HTT locus variants comprising two TTP sequences, in accordance with some embodiments.
[0035] На Фиг. 1H представлена принципиальная схема процесса определения генотипов вариантов в локусе Lynch I, включающем ОНВ и КТП, в соответствии с некоторыми вариантами реализации. На левой панели Фиг. 1H представлена принципиальная схема общего процесса выполнения целевого генотипирования; на правой панели проиллюстрировано применение данного процесса в рамках вариантов генотипирования в локусе, связанном с синдромом Lynch I. [0035] In FIG. 1H is a schematic diagram of a process for determining the genotypes of variants at the Lynch I locus, including NVG and CTP, in accordance with some embodiments. In the left panel of Fig. 1H is a schematic diagram of a general process for performing targeted genotyping; the right panel illustrates the application of this process within genotyping variants at the locus associated with Lynch I syndrome.
[0036] На Фиг. 2 представлена блок-схема, на которой проиллюстрировано изображение высокого уровня примера способа определения наличия или отсутствия экспансии последовательности повторов в образце. [0036] In FIG. 2 is a flowchart illustrating a high level image of an example method for determining the presence or absence of repeat sequence expansion in a sample.
[0037] На Фиг. 3 и 4 представлены блок-схемы, иллюстрирующие примеры способов обнаружения экспансии повторов с применением парных концевых прочтений. [0037] In FIG. 3 and 4 are flow charts illustrating examples of methods for detecting repeat expansion using paired end reads.
[0038] На Фиг. 5 представлена блок-схема способа, в котором для определения экспансии повторов применяют невыровненные прочтения, не связанные с какой-либо исследуемой последовательностью повторов. [0038] In FIG. 5 is a flowchart of a method in which misaligned reads not associated with any repeat sequence of interest are used to determine repeat expansion.
[0039] На Фиг. 6 представлена блок-схема дисперсной системы для обработки исследуемого образца. [0039] In FIG. 6 shows a block diagram of the disperse system for processing the test sample.
[0040] На Фиг. 7 проиллюстрирована точность генотипирования КТП CAG и CCG в локусе HTT на основании смоделированных данных с применением различных способов. [0040] In FIG. 7 illustrates the genotyping accuracy of CAG and CCG TTP at the HTT locus based on simulated data using various methods.
ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION
[0041] Описание относится к способам, устройствам, системам и компьютерным программным продуктам, предназначенным для определения целевых экспансий повторов, в том числе экспансий последовательностей повторов, которые являются значимыми с медицинской точки зрения. Примеры экспансий повторов включают, без ограничений, экспансии, связанные с генетическими расстройствами, такими как синдром ломкой X-хромосомы, АБС, болезнь Хантингтона, атаксия Фридрейха, спиномозжечковая атаксия, спинобульбарная мышечная атрофия, миотоническая дистрофия, болезнь Мачадо-Джозефа и дентато-рубро-паллидо-льюисова атрофия. [0041] The description relates to methods, devices, systems, and computer program products for determining target repeat expansions, including expansions of repeat sequences, that are medically significant. Examples of repeat expansions include, without limitation, expansions associated with genetic disorders such as Fragile X syndrome, ABS, Huntington's disease, Friedreich's ataxia, spinal ataxia, spinobulbar muscular atrophy, myotonic dystrophy, Machado-Joseph's disease, and dentato-rubro- pallido-lewis atrophy.
[0042] Если не указано иное, практическая реализация способов и систем, описанных в настоящем документе, включает стандартные методики и устройства, широко применяемые в молекулярной биологии, микробиологии, при очистке белков, белковой инженерии, сфере секвенирования белков и ДНК и областях работы с рекомбинантными ДНК, которые находятся в рамках компетенции специалистов в данной области. Такие методики и устройство известны специалистам в данной области и описаны в многочисленных справочных публикациях (см. например, Sambrook et al., “Molecular Cloning: A Laboratory Manual,” Third Edition (Cold Spring Harbor), [2001]); и Ausubel et al., “Current Protocols in Molecular Biology” [1987]). [0042] Unless otherwise noted, the practice of the methods and systems described herein includes standard techniques and devices widely used in molecular biology, microbiology, protein purification, protein engineering, protein and DNA sequencing, and recombinant DNA, which are within the competence of specialists in this field. Such techniques and apparatus are known to those skilled in the art and are described in numerous reference publications (see, for example, Sambrook et al., “Molecular Cloning: A Laboratory Manual,” Third Edition (Cold Spring Harbor), [2001]); and Ausubel et al., “Current Protocols in Molecular Biology” [1987]).
[0043] Числовые диапазоны включают в себя числа, определяющие диапазон. Предполагается, что каждое максимальное числовое ограничение, встречающееся в настоящем описании, включает в себя каждое меньшее числовое ограничение таким образом, как если бы такие меньшие числовые ограничения были явным образом указаны в настоящем документе. Каждое минимальное числовое ограничение, встречающееся в настоящем описании, будет включать каждое большее числовое ограничение таким образом, как если бы такие большие числовые ограничения были явным образом указаны в настоящем документе. Каждый числовой диапазон, встречающийся в настоящем описании, будет включать каждый более узкий числовой диапазон, который находится в пределах такого более широкого числового диапазона таким образом, как если бы все такие более узкие числовые диапазоны были явным образом указаны в настоящем документе. [0043] Numeric ranges include numbers defining a range. It is intended that each maximum numeric limit occurring herein include every lesser numeric limit in the same manner as if such lesser numeric limit were explicitly stated herein. Each minimum numeric limit occurring herein will include each greater numeric limit in the same manner as if such greater numeric limit were expressly stated herein. Each numerical range occurring herein will include each narrower numerical range that falls within such broader numerical range, as if all such narrower numerical ranges were expressly stated herein.
[0044] Заголовки, представленные в настоящем документе, не имеют ограничительного характера относительно настоящего описания. [0044] The headings provided herein are not intended to be limiting in relation to the present description.
[0045] Если не указано иное, все технические и научные термины, используемые в настоящем документе, имеют общепринятое значение, понятное любому обычному специалисту в данной области. Специалистам в данной области хорошо известна и доступна разнообразная научная терминология, в том числе терминология, использующаяся в настоящем документе. Хотя любые методы и материалы, подобные или эквивалентные описанным в настоящем документе, находят применение при практическом применении или тестировании вариантов реализации, описанных в данном документе, были описаны некоторые методы и материалы. [0045] Unless otherwise indicated, all technical and scientific terms used in this document have the common meaning understood by any ordinary person skilled in the art. A variety of scientific terminology is well known and available to those skilled in the art, including the terminology used in this document. While any methods and materials similar or equivalent to those described herein find utility in the practice or testing of the embodiments described herein, some methods and materials have been described.
[0046] Термины, определения которых приведены ниже, более полно описаны со ссылкой на полную версию спецификации. Следует понимать, что настоящее описание не ограничено исключительно конкретной методологией, протоколами и реагентами, поскольку они могут изменяться в зависимости от контекста, в рамках которого они используются специалистами в данной области. [0046] The terms defined below are more fully described with reference to the full version of the specification. It should be understood that the present description is not limited solely to specific methodology, protocols and reagents, as they may vary depending on the context in which they are used by specialists in this field.
ОпределенияDefinitions
[0047] Используемые в настоящем документе термины в единственном числе подразумевают такие же термины в множественном числе, если контекст не требует иного. [0047] As used herein, the terms in the singular mean the same terms in the plural, unless the context requires otherwise.
[0048] Если не указано иное, нуклеиновые кислоты записывают слева направо в ориентации от 5’ к 3’, а аминокислотные последовательности записывают слева направо в ориентации от амино к карбокси, соответственно. [0048] Unless otherwise indicated, nucleic acids are written from left to right in the 5' to 3' orientation, and amino acid sequences are written from left to right in the amino to carboxy orientation, respectively.
[0049] Термин «множество» относится к более чем одному элементу. Например, термин используется в настоящем документе в отношении ряда молекул нуклеиновых кислот или прочтений последовательностей, достаточных для определения существенных различий в экспансиях повторов в исследуемых образцах и контрольных образцах с применением способов, описанных в настоящем документе. [0049] The term "multiple" refers to more than one element. For example, the term is used herein to refer to a range of nucleic acid molecules or sequence reads sufficient to determine significant differences in repeat expansions in test samples and controls using the methods described herein.
[0050] Термин «последовательность повторов» относится к нуклеотидной последовательности, включающей повторяющиеся включения более короткой последовательности. В настоящем документе более короткая последовательность называется «повторяющимся звеном». Повторяющиеся случаи включения повторяющихся звеньев называются «повторами» или «копиями» повторяющегося звена. Во многих контекстах местоположение последовательности повторов связано с геном, кодирующим белок. В других ситуациях последовательность повторов может находиться в некодирующей области. Повторяющиеся звенья могут образовываться в последовательности повторов с разрывами или без разрывов между повторяющимися звеньями. Например, в нормальных образцах ген FMR1 обычно включает в себя разрыв AGG в повторах CGG, например, (CGG)10 + (AGG) + (CGG)9. Образцы с отсутствием разрыва, а также последовательности длинных повторов с малым количеством разрывов, склонны к экспансии повторов связанного гена, что может приводить к генетическим заболеваниям, поскольку повторы расширяются выше определенного числа. В различных вариантах реализации настоящего описания число повторов подсчитывается так же, как и количество повторов внутри рамки, независимо от наличия разрывов. Способы оценки повторов внутри рамки дополнительно описаны ниже. [0050] The term "sequence of repeats" refers to a nucleotide sequence including repeated inclusions of a shorter sequence. In this document, a shorter sequence is referred to as a "repeating link". Repeated occurrences of the inclusion of repeating links are called "repetitions" or "copies" of the repeating link. In many contexts, the location of the repeat sequence is associated with the gene encoding the protein. In other situations, the sequence of repeats may be in the non-coding region. Repeating links can be formed in a sequence of repeats with or without breaks between repeating links. For example, in normal samples, the FMR1 gene typically includes an AGG break in CGG repeats, eg (CGG)10 + (AGG) + (CGG)9. Patterns with no break, as well as long repeat sequences with few breaks, tend to expand the associated gene repeats, which can lead to genetic diseases because the repeats expand beyond a certain number. In various embodiments of the present description, the number of repetitions is counted in the same way as the number of repetitions within the frame, regardless of the presence of gaps. Methods for evaluating repeats within a box are further described below.
[0051] В разнообразных вариантах реализации повторяющиеся звенья содержат от 1 до 100 нуклеотидов. Многими достаточно хорошо изученными повторяющимися звеньями являются тринуклеотидные или гексануклеотидные звенья. Некоторые другие повторяющиеся звенья, которые были хорошо изучены и являются применимыми к вариантам реализации, описанным в настоящем документе, содержат, без ограничений, звенья из 4, 5, 6, 8, 12, 33 или 42 нуклеотидов. См. например, Richards (2001) Human Molecular Genetics, Vol. 10, No. 20, 2187-2194. Области применения настоящего изобретения не ограничены конкретным количеством нуклеотидных оснований, описанных выше, при условии, что они являются относительно короткими по сравнению с последовательностью повторов, имеющей множество повторов или копий повторяющихся звеньев. Например, повторяющееся звено может содержать по меньшей мере 3, 6, 8, 10, 15, 20, 30, 40, 50 нуклеотидов. В качестве альтернативы или дополнения, повторяющееся звено может содержать не более около 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 6 или 3 нуклеотидов. [0051] In various embodiments, repeating units contain from 1 to 100 nucleotides. Many well-studied repeating units are trinucleotide or hexanucleotide units. Some other repeat units that have been well studied and are applicable to the embodiments described herein include, without limitation, units of 4, 5, 6, 8, 12, 33, or 42 nucleotides. See, for example, Richards (2001) Human Molecular Genetics, Vol. 10, no. 20 , 2187-2194. The scope of the present invention is not limited to the specific number of nucleotide bases described above, provided that they are relatively short compared to a repeat sequence having many repeats or copies of repeat units. For example, a repeating unit may contain at least 3, 6, 8, 10, 15, 20, 30, 40, 50 nucleotides. Alternatively or in addition, the repeat unit may be no more than about 100, 90, 80, 70, 60, 50, 40, 30, 20, 10, 6, or 3 nucleotides long.
[0052] Последовательность повторов может расширяться в условиях развития и мутагенеза с образованием большего числа копий одного и того же повторяющегося звена. В данной области это называется «экспансией повторов». Данный процесс также называется «динамической мутацией» вследствие нестабильной природы экспансии повторяющегося звена. Было показано, что некоторые экспансии повторов связаны с генетическими заболеваниями и патологическими симптомами. Другие экспансии повторов являются недостаточно изученными. Описанные в настоящем документе способы могут применяться для определения как известных, так и новых экспансий повторов. В некоторых вариантах реализации последовательность повторов, имеющая экспансию повторов, длиннее, чем около 100, 150, 300 или 500 пар нуклеотидных оснований (п.н.о.). В некоторых вариантах реализации последовательность повторов, имеющая экспансию повторов, составляет более чем около 1 000 п.н.о., 2 000 п.н.о., 3 000 п.н.о., 4 000 п.н.о., 5 000 п.н.о. или 10 000 п.н.о. и т.д. [0052] The sequence of repeats can expand under conditions of development and mutagenesis to form more copies of the same repeat unit. This is referred to in the art as "repeat expansion". This process is also called "dynamic mutation" due to the unstable nature of the expansion of the repeat unit. Some repeat expansions have been shown to be associated with genetic diseases and pathological symptoms. Other repeat expansions are not well understood. The methods described herein can be used to detect both known and novel repeat expansions. In some embodiments, the repeat sequence having repeat expansion is longer than about 100, 150, 300, or 500 base pairs (bp). In some embodiments, the repeat sequence having repeat expansion is greater than about 1,000 bp, 2,000 bp, 3,000 bp, 4,000 bp. , 5000 b.p. or 10,000 b.p. etc.
[0053] В теории графов вершина и ребро являются двумя базовыми единицами, из которых построены графы. Вершина или узел представляет собой одну из точек графа, которая может быть соединена ребрами. На диаграмме графа вершина может быть представлена в виде формы с меткой, а ребро может быть представлено линией (ненаправленным ребром) или стрелкой (направленным ребром), проходящей от одной вершины к другой. [0053] In graph theory, a vertex and an edge are the two basic units from which graphs are built. A vertex or node is one of the points in a graph that can be connected by edges. In a graph diagram, a vertex can be represented as a shape with a label, and an edge can be represented by a line (non-directed edge) or an arrow (directed edge) passing from one vertex to another.
[0054] Две вершины, соединенные ребром, считают конечными точками ребра. Вершина × считается смежной с другой вершиной y в случае, если граф содержит ребро (x, y). [0054] Two vertices connected by an edge are considered endpoints of the edge. A vertex x is considered adjacent to another vertex y if the graph contains an edge (x, y).
[0055] Ненаправленный граф состоит из набора вершин и набора ненаправленных ребер (соединяющих неупорядоченные пары вершин), а направленный граф состоит из набора вершин и набора направленных ребер (соединяющих упорядоченные пары вершин). [0055] An undirected graph consists of a set of vertices and a set of undirected edges (connecting unordered pairs of vertices), and a directed graph consists of a set of vertices and a set of directed edges (connecting ordered pairs of vertices).
[0056] В теории графов каждое ребро имеет две вершины (на гиперграфах их может быть больше), к которым оно прикреплено и которые называются его конечными точками. Ребра могут быть направленными или ненаправленными; Ненаправленные ребра также называют линиями, а направленные ребра также называют дугами или стрелками. [0056] In graph theory, each edge has two vertices (there may be more on hypergraphs) to which it is attached and which are called its endpoints. Ribs may be directional or non-directional; Non-directional edges are also called lines, and directed edges are also called arcs or arrows.
[0057] Направленное ребро представляет собой ребро, которое соединяет верхнюю и нижнюю вершины, причем верхняя вершина находится перед направленным ребром, а нижняя вершина находится после направленного ребра. [0057] A directed edge is an edge that connects a top and bottom vertex, with the top vertex before the directed edge and the bottom vertex after the directed edge.
[0058] Ненаправленное ребро представляет собой ребро, соединяющее две вершины, причем любая из вершин может находиться перед другой на пути в графе. [0058] An undirected edge is an edge connecting two vertices, where either vertex can be in front of the other on a path in the graph.
[0059] В настоящем документе термины «цикл», «собственный простой цикл» и «одноузловой цикл» являются взаимозаменяемыми. Цикл имеет один узел и ребро, оба конца которых соединены с одним узлом. [0059] As used herein, the terms "loop", "native simple loop", and "one-node loop" are used interchangeably. The cycle has one node and an edge, both ends of which are connected to one node.
[0060] Цикл представляет собой путь, содержащий две или более вершин, причем путь цикла начинается и заканчивается одной и той же вершиной. Простой цикл представляет собой цикл, который не имеет повторяющихся вершин или ребер, кроме от начальной и конечной вершин. [0060] A cycle is a path containing two or more vertices, and the path of the cycle begins and ends with the same vertex. A simple loop is a loop that has no repeating vertices or edges other than the start and end vertices.
[0061] Циклический граф представляет собой граф, который содержит по меньшей мере один цикл. [0061] A cyclic graph is a graph that contains at least one cycle.
[0062] Ациклический граф представляет собой граф, не содержащих циклов или собственных простых циклов. [0062] An acyclic graph is a graph that does not contain cycles or its own simple cycles.
[0063] Направленный ациклический граф (DAG) представляет собой направленный граф без каких-либо циклов или собственных простых циклов. [0063] A directed acyclic graph (DAG) is a directed graph without any cycles or its own simple cycles.
[0064] Путь в графе представляет собой последовательность вершин и ребер, в которой обе конечные точки ребра находятся смежно с ребром в последовательности. Путь в направленном графе имеет верхнюю вершину, которая находится перед направленным ребром (или дугой/стрелкой), и нижнюю вершину, которая находится после направленного ребра. [0064] A path in a graph is a sequence of vertices and edges, in which both endpoints of an edge are adjacent to an edge in the sequence. A path in a directed graph has an upper vertex that is before the directed edge (or arc/arrow) and a lower vertex that is after the directed edge.
[0065] Распределение Пуассона представляет собой дискретное распределение вероятности, которое выражает вероятность заданного числа событий, происходящих в рамках фиксированного интервала времени или пространства, если эти события происходят с известной постоянной скоростью и независимо от времени с момента последнего события. [0065] The Poisson distribution is a discrete probability distribution that expresses the probability of a given number of events occurring within a fixed interval of time or space, if those events occur at a known constant rate and regardless of the time since the last event.
[0066] Полностью определенные символы основания включают G, A, T, C для обозначения гуанина, аденина, тимина и цитозина, соответственно. [0066] Fully defined base symbols include G, A, T, C for guanine, adenine, thymine, and cytosine, respectively.
[0067] Перечень частично определенных нуклеиновых кислот включает в себя, среди прочего, следующие составляющие: [0067] The list of partially defined nucleic acids includes, among others, the following components:
[0068] Пурин (аденин или гуанин): R [0068] Purine (adenine or guanine): R
[0069] Пиримидин (тимин или цитозин): Y [0069] Pyrimidine (thymine or cytosine): Y
[0070] Аденин или тимин. W [0070] Adenine or thymine. W
[0071] Гуанин или цитозин: S [0071] Guanine or cytosine: S
[0072] Аденин или цитозин: M [0072] Adenine or cytosine: M
[0073] Гуанин или тимин: K [0073] Guanine or thymine: K
[0074] Аденин, тимин или цитозин: H [0074] Adenine, thymine or cytosine: H
[0075] Гуанин, цитозин или тимин: B [0075] Guanine, cytosine or thymine: B
[0076] Гуанин, аденин или цитозин: V [0076] Guanine, adenine or cytosine: V
[0077] Гуанин, аденин или тимин. D [0077] Guanine, adenine or thymine. D
[0078] Гуанин, аденин, тимин или цитозин: N [0078] Guanine, adenine, thymine or cytosine: N
[0079] Термин «парные концевые прочтения» относится к прочтениям, полученным путем парного концевого секвенирования, в результате которого получают по одному прочтению с каждого конца фрагмента нуклеиновой кислоты. Парное концевое секвенирование включает фрагментирование ДНК для образования последовательностей, называемых вставками. В некоторых протоколах, в том числе протоколах, используемых Illumina, прочтения с более коротких вставок (например, от десятков до сотен п.н.о.), называют парными концевыми прочтениями с короткими вставками или парными концевыми прочтениями. В противоположность этому, прочтения из более длинных вставок (например, порядка нескольких тысяч п.н.о.) называют прочтениями сопряженных пар. В настоящем описании могут применять парные концевые прочтения и короткими вставками и прочтения сопряженных пар с длинными вставками; при этом они не дифференцируются в отношении процесса анализа экспансий повторов. Следовательно, термин «парные концевые прочтения» может относиться как к парным концевым прочтениям с короткими вставками, так и к прочтениям сопряженных пар с длинными вставками, которые дополнительно описаны ниже в настоящем документе. В некоторых вариантах реализации парные концевые прочтения включают в себя прочтения от около 20 п.н.о. до 1 000 п.н.о. В некоторых вариантах реализации парные концевые прочтения включают в себя прочтения от около 50 п.н.о. до 500 п.н.о., от около 80 п.н.о. до 150 п.н.о. или около 100 п.н.о. Следует понимать, что два прочтения на парном конце не обязательно должны располагаться на крайнем конце секвенируемого фрагмента. Вместо этого одно или оба прочтения могут находиться вблизи конца фрагмента. Более того, способы, примеры которых приведены в настоящем документе в контексте парных концевых прочтений, можно осуществлять с любым из множества парных прочтений независимо от того, получены ли прочтения с конца или другой части фрагмента. [0079] The term "paired end reads" refers to reads obtained by paired end sequencing, which results in one read from each end of the nucleic acid fragment. Paired end sequencing involves fragmenting DNA to form sequences called inserts. In some protocols, including those used by Illumina, reads from shorter inserts (eg, tens to hundreds of bp) are referred to as paired short insert end reads or paired end reads. In contrast, reads from longer insertions (eg, on the order of several thousand bp) are called conjugated pair reads. In the present description, paired end readings with short insertions and conjugated pair readings with long insertions may be used; however, they are not differentiated with respect to the analysis of repeat expansions. Therefore, the term "paired end reads" can refer to both paired end reads with short insertions and mated pair reads with long insertions, which are further described herein below. In some embodiments, paired end reads include reads from about 20 bp. up to 1,000 b.p. In some embodiments, paired end reads include reads from about 50 bp. up to 500 bp, from about 80 bp up to 150 bp or about 100 b.p. It should be understood that the two reads at the paired end need not be located at the extreme end of the fragment being sequenced. Instead, one or both readings may be near the end of the fragment. Moreover, the methods exemplified herein in the context of paired end reads can be performed with any of a plurality of paired reads, regardless of whether the reads are from the end or another portion of the fragment.
[0080] Используемый в настоящем документе термин «выравнивание» относится к процессу сравнения прочтения с эталонной последовательностью и определения того, содержит ли эталонная последовательность считываемую последовательность. В процессе выравнивания предпринимают попытки определения того, может ли прочтение быть сопоставлено с эталонной последовательностью, но не всегда приводить к выполнению прочтения, выровненного с эталонной последовательностью. Если эталонная последовательность содержит прочтение, то прочтение может сопоставляться с эталонной последовательностью или, в некоторых вариантах реализации, с конкретным местоположением в эталонной последовательности. В некоторых случаях выравнивание просто указывает, является ли прочтение членом конкретной эталонной последовательности (т.е. присутствует ли прочтение в эталонной последовательности или отсутствует). Например, выравнивание прочтения относительно эталонной последовательности для человеческой хромосомы 13 будет указывать, присутствует ли прочтение в эталонной последовательности для хромосомы 13. Инструмент, предоставляющий эту информацию, можно назвать модулем тестирования принадлежности множеству. В некоторых случаях выравнивание дополнительно указывает местоположение в эталонной последовательности, с которой сопоставляется прочтение. Например, если эталонная последовательность представляет собой человеческую последовательность целого генома, то выравнивание может указывать на наличие прочтения на хромосоме 13 и может дополнительно указывать на то, что прочтение находится на конкретной цепи и/или сайте хромосомы 13. [0080] As used herein, the term "alignment" refers to the process of comparing a read with a reference sequence and determining whether the reference sequence contains a read sequence. The alignment process attempts to determine if the read can be matched to the reference sequence, but does not always result in a read aligned to the reference sequence. If the reference sequence contains a read, then the read may be matched to the reference sequence or, in some embodiments, to a specific location in the reference sequence. In some cases, the alignment simply indicates whether the read is a member of a particular reference sequence (ie, whether the read is present or absent in the reference sequence). For example, the alignment of a read with respect to the reference sequence for human chromosome 13 would indicate whether the read is present in the reference sequence for chromosome 13. The tool that provides this information may be referred to as a set testing module. In some cases, the alignment further indicates the location in the reference sequence against which the read is matched. For example, if the reference sequence is a human genome-wide sequence, then the alignment may indicate the presence of a read on chromosome 13 and may further indicate that the read is on a particular strand and/or site on chromosome 13.
[0081] Выровненные прочтения представляют собой одну или более последовательностей, которые определены как совпадающие в соответствии с порядком их молекул нуклеиновой кислоты с известной эталонной последовательностью, такой как эталонный геном. Выровненное прочтение и его определенное местоположение на эталонной последовательности составляют метку последовательности. Выравнивание можно выполнять вручную, хотя обычно оно реализуется с помощью компьютерного алгоритма, поскольку невозможно выровнять прочтения за приемлемый период времени для реализации способов, описанных в настоящем документе. Одним примером алгоритма выравнивания последовательностей является компьютерная программа Efficient Local Alignment of Nucleotide Data (ELAND), распространяемая в качестве части технологического процесса геномного анализа Illumina. В альтернативном варианте реализации для выравнивания прочтений с эталонными геномами можно применять фильтр Блума или аналогичный модуль тестирования принадлежности множеству. См. Патентную заявку США № 14/354 528, поданную 25 апреля 2014 г., которая полностью включена в настоящий документ посредством ссылки. Согласование прочтения последовательности в процессе выравнивания может представлять собой 100%-ное или менее чем 100%-ное совпадение последовательности (т.е. неидеальное совпадение). [0081] Aligned reads are one or more sequences that are determined to match according to the order of their nucleic acid molecules with a known reference sequence, such as a reference genome. The aligned read and its defined location on the reference sequence constitute the sequence label. Alignment can be performed manually, although it is usually implemented using a computer algorithm, since it is not possible to align reads in a reasonable period of time to implement the methods described herein. One example of a sequence alignment algorithm is the Efficient Local Alignment of Nucleotide Data (ELAND) computer program distributed as part of the Illumina genomic analysis workflow. In an alternative implementation, a Bloom filter or similar set membership test module can be used to align reads with reference genomes. See US Patent Application No. 14/354,528, filed April 25, 2014, which is incorporated herein by reference in its entirety. The sequence read agreement during the alignment process may be 100% or less than 100% sequence match (ie, non-perfect match).
[0082] Используемый в настоящем документе термин «сопоставление» означает присвоение последовательности прочтений большей последовательности, например эталонному геному, путем выравнивания. [0082] As used herein, the term "mapping" means assigning a sequence of reads to a larger sequence, such as a reference genome, by alignment.
[0083] В некоторых случаях прочтение одного конца двух парных концевых прочтений выровнено с последовательностью повторов эталонной последовательности, а прочтение другого конца двух парных концевых прочтений не выровнено. В таких случаях спаренное прочтение, которое выровнено с последовательностью повторов эталонной последовательности, называется «базовым прочтением». Парное концевое прочтение, не выровненное с последовательностью повторов, но соединенное с базовым прочтением, называется закрепленным прочтением. Таким образом, невыровненное прочтение может закрепляться и связываться с последовательностью повторов. В некоторых вариантах реализации невыровненные прочтения включают в себя как прочтения, которые не могут быть выровнены с эталонной последовательностью, так и прочтения, которые являются плохо выровненными с эталонной последовательностью. Если прочтение выровнено с эталонной последовательностью, и при этом уровень ошибочно спаренных оснований находится выше определенного критерия, такое прочтение считается плохо выровненным. Например, в различных вариантах реализации прочтение считают плохо выровненным, если при его выравнивании были отмечены по меньшей мере около 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 несовпадений. В некоторых случаях оба прочтения пары выровнены с эталонной последовательностью. В таких случаях оба прочтения могут быть проанализированы в качестве «базовых прочтений» в различных вариантах реализации. [0083] In some cases, the reading of one end of the two paired end reads is aligned with the repetition sequence of the reference sequence, and the reading of the other end of the two paired end reads is not aligned. In such cases, the paired read that is aligned with the repeat sequence of the reference sequence is referred to as the "base read". A paired end read that is not aligned with the repetition sequence but connected to the base read is called a pinned read. In this way, an unaligned read can be anchored and associated with a sequence of repetitions. In some embodiments, misaligned reads include both reads that cannot be aligned with the reference sequence and reads that are poorly aligned with the reference sequence. If a read is aligned with the reference sequence and the level of mismatches is above a certain criterion, the read is considered to be poorly aligned. For example, in various embodiments, a read is considered poorly aligned if at least about 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10 mismatches were noted during its alignment. In some cases, both reads of a pair are aligned with the reference sequence. In such cases, both reads can be analyzed as "base reads" in various implementations.
[0084] Термины «полинуклеотид», «нуклеиновая кислота» и «молекулы нуклеиновой кислоты» используются взаимозаменяемо и относятся к ковалентно связанной последовательности нуклеотидов (например, рибонуклеотидов для РНК и дезоксирибонуклеотидов для ДНК), в которой положение 3’ пентозы одного нуклеотида соединено фосфодиэфирной группой с положением 5’ пентозы следующего нуклеотида. нуклеотиды включают последовательности любой формы нуклеиновой кислоты, включая, без ограничений, молекулы РНК и ДНК, такие как свободно-клеточные ДНК (скДНК). Термин «полинуклеотид» включает, без ограничений, одно- и двухцепочечные полинуклеотиды. [0084] The terms "polynucleotide", "nucleic acid", and "nucleic acid molecule" are used interchangeably and refer to a covalently linked sequence of nucleotides (e.g., ribonucleotides for RNA and deoxyribonucleotides for DNA) in which the 3' position of the pentose of one nucleotide is linked by a phosphodiester group with position 5' of the pentose of the next nucleotide. nucleotides include sequences of any form of nucleic acid, including, without limitation, RNA and DNA molecules, such as free-cellular DNA (scDNA). The term "polynucleotide" includes, without limitation, single and double stranded polynucleotides.
[0085] Термин «исследуемый образец» в данном документе относится к образцу, как правило, полученному из биологической текучей среды, клетки, ткани, органа или организма, содержащего нуклеиновую кислоту или смесь нуклеиновых кислот, содержащие по меньшей мере одну нуклеотидную последовательность, которая должна быть проверена на предмет вариации числа копий. В определенных вариантах реализации образец имеет по меньшей мере одну нуклеотидную последовательность, число копий которой предположительно было подвержено изменениям. Такие образцы включают в себя, без ограничений, мокроту/жидкость ротовой полости, амниотическую жидкость, кровь, фракцию крови или образцы, полученные с применением тонкоигольной пункционной биопсии, а также мочу, перитонеальную жидкость, плевральную жидкость и т.п. Хотя образец часто отбирают от субъекта-человека (например, пациента), анализы можно использовать для вариации числа копий (CNV) в образцах, отобранных от любого млекопитающего, включая, без ограничений, собак, кошек, лошадей, коз, овец, крупный рогатый скот, свиней и т.д. Образец может быть использован непосредственно после получения из биологического источника или после предварительной обработки с целью изменения природы образца. Например, такая предварительная обработка может включать получение плазмы из крови, разбавление вязких жидкостей и т.д. Способы предварительной обработки могут также включать, без ограничений, фильтрацию, преципитацию, разбавление, дистилляцию, смешивание, центрифугирование, замораживание, лиофилизацию, концентрирование, амплификацию, фрагментацию нуклеиновых кислот, инактивацию интерферирующих компонентов, добавление реагентов, лизирование и т.п. В случае, если такие способы предварительной обработки используются относительно образца, такие способы предварительной обработки, как правило, подразумевают, что нуклеиновая кислота (кислоты) остается (остаются) в исследуемом образце, иногда в концентрации, являющейся пропорциональной их концентрации в необработанном исследуемом образце (например, в образце, который не подвергают такому виду (видам) предварительной обработки). Такие «обработанные» образцы по-прежнему считаются биологическими «тестовыми» образцами относительно способов, описанных в настоящем документе. [0085] The term "test sample" as used herein refers to a sample, typically obtained from a biological fluid, cell, tissue, organ, or organism, containing a nucleic acid or mixture of nucleic acids containing at least one nucleotide sequence that must be checked for variation in the number of copies. In certain embodiments, the sample has at least one nucleotide sequence, the copy number of which was presumably subject to change. Such samples include, without limitation, sputum/oral fluid, amniotic fluid, blood, blood fraction, or fine needle biopsy samples, as well as urine, peritoneal fluid, pleural fluid, and the like. Although a sample is often taken from a human subject (e.g., a patient), assays can be used for copy number variation (CNV) in samples taken from any mammal, including, but not limited to, dogs, cats, horses, goats, sheep, cattle , pigs, etc. The sample can be used directly after receiving from a biological source or after pre-treatment to change the nature of the sample. For example, such pre-treatment may include obtaining plasma from blood, diluting viscous liquids, etc. Pretreatment methods may also include, without limitation, filtration, precipitation, dilution, distillation, mixing, centrifugation, freezing, lyophilization, concentration, amplification, nucleic acid fragmentation, inactivation of interfering components, addition of reagents, lysing, and the like. Where such pretreatment methods are used on a sample, such pretreatment methods typically involve nucleic acid(s) remaining in the test sample, sometimes at a concentration proportional to their concentration in the untreated test sample (e.g. , in a sample that is not subjected to such type(s) of pre-treatment). Such "processed" samples are still considered biological "test" samples with respect to the methods described herein.
[0086] Контрольный образец может быть как отрицательным, так и положительным. Термин «отрицательный контрольный образец» или «незатронутый образец» относится к образцу, содержащему нуклеиновые кислоты, которые, как известно или ожидается, имеют последовательность повторов с числом повторов в диапазоне, который не является патогенным. Известно, что «положительный контрольный образец» или «затронутый образец» имеет последовательность повторов с количеством повторов в диапазоне, который является патогенным. Повторы, находящиеся в последовательности повторов в отрицательном контрольном образце, обычно не расширялись за пределы нормального диапазона, тогда как повторы, находящиеся в последовательности повторов в положительном контрольном образце, обычно расширялись за пределы нормального диапазона. Таким образом, нуклеиновые кислоты в исследуемом образце можно сравнить с одним или более контрольными образцами. [0086] The control sample can be either negative or positive. The term "negative control sample" or "unaffected sample" refers to a sample containing nucleic acids that are known or expected to have a repeat sequence with a repeat number in the range that is not pathogenic. It is known that a "positive control sample" or "affected sample" has a sequence of repeats with a number of repeats in the range that is pathogenic. Repeats in the repeat sequence in the negative control typically did not expand beyond the normal range, while repeats in the repeat sequence in the positive control typically expanded beyond the normal range. Thus, the nucleic acids in the test sample can be compared to one or more control samples.
[0087] Термин «исследуемая последовательность» в настоящем документе относится к нуклеотидной последовательности, связанной с различиями в представлениях последовательности у здоровых и больных пациентов. Исследуемая последовательность может представлять собой последовательность повторов на хромосоме, которая расширяется при заболевании, в том числе, при наследственном заболевании. Исследуемая последовательность может представлять собой часть хромосомы, ген, кодирующую или некодирующую последовательность. [0087] The term "sequence of interest" as used herein refers to a nucleotide sequence associated with differences in sequence representations between healthy and diseased patients. The sequence of interest may be a sequence of repeats on a chromosome that expands with a disease, including a hereditary disease. The sequence of interest may be part of a chromosome, a gene, a coding sequence or a non-coding sequence.
[0088] В настоящем документе термин «секвенирование следующего поколения (NGS)» относится к способам секвенирования, которые позволяют осуществлять массовое параллельное секвенирование клонально амплифицированных молекул и отдельных молекул нуклеиновых кислот. Не имеющие ограничительного характера примеры NGS включают в себя секвенирование путем синтеза с использованием терминаторов обратимых красителей, а также секвенирование путем лигирования. [0088] As used herein, the term "next generation sequencing (NGS)" refers to sequencing methods that allow for mass parallel sequencing of clonally amplified molecules and single nucleic acid molecules. Non-limiting examples of NGS include sequencing by synthesis using reversible dye terminators, as well as sequencing by ligation.
[0089] Термин «параметр», используемый в настоящем документе, относится к числовому значению, характеризующему физическое свойство. Часто параметр используют для числовой характеризации набора количественных данных и/или численной зависимости между наборами количественных данных. Например, параметром является соотношение (или функция соотношения) между количеством меток последовательности, сопоставленных с хромосомой, и длиной хромосомы, с которой сопоставлены метки. [0089] The term "parameter" as used herein refers to a numerical value characterizing a physical property. Often, a parameter is used to characterize a numerical data set and/or a numerical relationship between quantitative data sets. For example, the parameter is the ratio (or ratio function) between the number of sequence labels mapped to a chromosome and the length of the chromosome to which the labels are mapped.
[0090] Термин «критерий распознавания» в настоящем документе относится к любому числу или количеству, которое используют в качестве предельного уровня для характеристики образца, такого как исследуемый образец, содержащий нуклеиновую кислоту и отобранный из организма субъекта, предположительно имеющего медицинское состояние. Пороговое значение можно сравнивать со значением параметра для определения того, указывает ли образец, выдающий такое значение параметра, на наличие медицинского состояния у субъекта. В определенных вариантах реализации пороговое значение рассчитывают с использованием набора контрольных данных и используют в качестве предела при выполнении диагностики экспансии повторов в организме. В некоторых вариантах реализации в случаях, если пороговое значение было превышено результатами, полученными способами, описанными в данном документе, у субъекта можно диагностировать экспансию повторов. В рамках способов, описанных в настоящем документе, соответствующие пороговые значения могут быть определены путем анализа значений, рассчитанных относительно обучающего набора образцов или контрольных образцов. Пороговые значения также можно рассчитать по эмпирическим параметрам, таким как глубина секвенирования, длина прочтения, длина последовательности повторов и т.д. В качестве альтернативы, затронутые образцы, определенно имеющие экспансию повторов, также могут использоваться для подтверждения того, что выбранные пороговые значения можно использовать для различения незатронутых образцов в рамках тестовой последовательности. Выбор порогового значения зависит от уровня достоверности, которую пользователь желает сделать для классификации. В некоторых вариантах реализации обучающий набор, используемый для определения соответствующих пороговых значений, содержит по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1 000, 2 000, 3 000, 4 000 или более квалифицированных образцов. Применение больших наборов квалифицированных образцов для повышения диагностического значения пороговых значений может являться предпочтительным. [0090] The term "recognition criterion" as used herein refers to any number or quantity that is used as a cutoff to characterize a sample, such as a test sample containing a nucleic acid taken from a subject suspected of having a medical condition. The threshold value can be compared with a parameter value to determine whether a sample producing such a parameter value indicates a medical condition in the subject. In certain embodiments, a threshold value is calculated using a set of control data and used as a limit when performing diagnostics of repeat expansion in an organism. In some embodiments, if a threshold value has been exceeded by the results obtained by the methods described herein, the subject may be diagnosed with repeat expansion. Within the methods described herein, the appropriate threshold values can be determined by analyzing the values calculated from the training set of samples or control samples. Thresholds can also be calculated from empirical parameters such as sequencing depth, read length, repeat sequence length, etc. Alternatively, affected samples definitely having repeat expansion can also be used to confirm that the selected thresholds can be used to distinguish unaffected samples within the test sequence. The choice of threshold depends on the level of confidence that the user wishes to make for the classification. In some embodiments, the training set used to determine the appropriate thresholds contains at least 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1,000, 2,000, 3,000, 4,000 or more qualified samples. The use of large sets of qualified samples to increase the diagnostic threshold value may be preferable.
[0091] Термин «прочтение» относится к прочтению последовательности части образца нуклеиновой кислоты. Как правило, прочтение представляет собой короткую последовательность связных пар нуклеотидных оснований в образце. Прочтение может символически представлять собой последовательность пар нуклеотидных оснований (в виде ATCG) фрагмента образца. Он может храниться в запоминающем устройстве и обрабатываться при необходимости для определения того, соответствует ли он эталонной последовательности или другим критериям. Прочтение можно получать непосредственно с помощью аппарата для секвенирования или опосредованно из сохраненной информации о последовательности, относящейся к образцу. В некоторых случаях прочтение представляет собой последовательность ДНК достаточной длины (например, по меньшей мере около 25 п.н.о.), которую можно использовать для определения большей последовательности или области, например которая может быть выровнена и сопоставлена с хромосомой, геномной областью или геном. [0091] The term "read" refers to reading the sequence of a portion of a nucleic acid sample. Typically, a read is a short sequence of linked nucleotide base pairs in a sample. The read may symbolically represent the sequence of nucleotide base pairs (in the form of ATCG) of the sample fragment. It may be stored in a storage device and processed as necessary to determine if it matches the reference sequence or other criteria. The reading can be obtained directly from the sequencing machine or indirectly from stored sequence information related to the sample. In some cases, a read is a DNA sequence of sufficient length (e.g., at least about 25 bp) that can be used to identify a larger sequence or region, such as that can be aligned and aligned to a chromosome, genomic region, or genome .
[0092] Термин «прочтение генома» используют для обозначения прочтения любых сегментов всего генома субъекта. [0092] The term "reading the genome" is used to refer to the reading of any segments of the entire genome of the subject.
[0093] Термин «сайт» относится к уникальному положению (т.е. идентификатор хромосомы, хромосомное положение и ориентация) в эталонном геноме. В некоторых вариантах реализации сайт может представлять собой остаток, метку последовательности или положение сегмента на последовательности. [0093] The term "site" refers to a unique position (i.e., chromosome identifier, chromosome position, and orientation) in a reference genome. In some embodiments, a site may be a residue, a sequence label, or a segment position on a sequence.
[0094] Используемый здесь термин «эталонный геном» или «эталонная последовательность» относится к любой конкретной известной геномной последовательности, частичной или полной, любого организма или вируса, которая может использоваться для обозначения определенных последовательностей, полученных от субъекта. Например, эталонный геном, используемый для субъектов-людей, а также для многих других организмов, можно найти в Национальном центре биотехнологической информации по адресу ncbi.nlm.nih.gov. Термин «геном» относится к полной генетической информации об организме или вирусе, экспрессируемой в нуклеотидных последовательностях. [0094] As used herein, the term "reference genome" or "reference sequence" refers to any specific known genomic sequence, partial or complete, of any organism or virus that can be used to refer to certain sequences obtained from a subject. For example, the reference genome used for human subjects as well as many other organisms can be found at the National Center for Biotechnology Information at ncbi.nlm.nih.gov. The term "genome" refers to the complete genetic information about an organism or virus, expressed in nucleotide sequences.
[0095] В разнообразных вариантах реализации эталонная последовательность значительно больше прочтений, которые выравнивают с ней. Например, он может быть по меньшей мере около в 100 раз больше, или по меньшей мере около в 1 000 раз больше, или по меньшей мере около в 10 000 раз больше, или по меньшей мере около в 105 раз больше, или по меньшей мере около в 106 раз больше, или по меньшей мере около в 107 раз больше. [0095] In various implementations, the reference sequence is significantly larger than the reads that align with it. For example, it may be at least about 100 times greater, or at least about 1,000 times greater, or at least about 10,000 times greater, or at least about 10 5 times greater, or at least at least about 10 6 times more, or at least about 10 7 times more.
[0096] В одном примере базовая последовательность представляет собой последовательность полноразмерного генома человека. Такие последовательности могут называться эталонными геномными последовательностями. В другом примере базовая последовательность ограничена конкретной хромосомой человека, такой как хромосома 13. В некоторых вариантах реализации эталонная хромосома Y представляет собой хромосомную последовательность Y из версии hg19 генома человека. Такие последовательности могут называться эталонными хромосомными последовательностями. Другие примеры эталонных последовательностей включают геномы других видов, а также хромосомы, субхромосомные области (такие как хроматиды) любых видов. [0096] In one example, the base sequence is the sequence of the full length human genome. Such sequences may be referred to as reference genomic sequences. In another example, the base sequence is limited to a specific human chromosome, such as chromosome 13. In some embodiments, the reference Y chromosome is the Y chromosomal sequence from the hg19 version of the human genome. Such sequences may be referred to as reference chromosome sequences. Other examples of reference sequences include the genomes of other species, as well as chromosomes, subchromosomal regions (such as chromatids) of any species.
[0097] В некоторых вариантах реализации эталонная последовательность, необходимая для выполнения выравнивания, может иметь длину, превышающую длину прочтения в от около 1 до около 100 раз. В таких вариантах реализации выравнивание и секвенирование считают целевым выравниванием или секвенированием, а не выравниванием или секвенированием всего генома. В данных вариантах реализации эталонная последовательность, как правило, включает в себя исследуемый ген и/или последовательность повторов. [0097] In some embodiments, the reference sequence required to perform the alignment may be about 1 to about 100 times the length of the read. In such embodiments, the alignment and sequencing is considered to be a target alignment or sequencing rather than a whole genome alignment or sequencing. In these embodiments, the reference sequence typically includes the gene and/or repeat sequence of interest.
[0098] В разнообразных вариантах реализации эталонная последовательность представляет собой консенсусную последовательность или другую комбинацию, полученную от множества индивидуумов. Однако в некоторых приложениях эталонную последовательность можно отбирать у конкретного индивидуума. [0098] In various embodiments, the reference sequence is a consensus sequence or other combination obtained from multiple individuals. However, in some applications, the reference sequence may be selected from a particular individual.
[0099] Термин «клинически значимая последовательность» в настоящем документе обозначает нуклеотидную последовательность, точно или предположительно связанную с заболеванием, в том числе наследственным. Определение отсутствия или наличия клинически значимой последовательности может быть полезным при определении или подтверждении диагноза медицинского состояния, либо при прогнозировании развития заболевания. [0099] The term "clinically significant sequence" as used herein means a nucleotide sequence that is definitely or suspected to be associated with a disease, including hereditary. Determining the absence or presence of a clinically significant sequence may be useful in determining or confirming the diagnosis of a medical condition, or in predicting the development of a disease.
[00100] Термин «полученный», используемый в настоящем документе, в контексте нуклеиновой кислоты или смеси нуклеиновых кислот означает, что нуклеиновая кислота (кислоты) получена (получены) из источника, из которого (которых) они происходят. Например, в одном варианте реализации смесь нуклеиновых кислот, полученных из двух разных геномов, означает, что нуклеиновые кислоты, например, скДНК, естественным образом высвобождались клетками посредством естественных процессов, таких как некроз или апоптоз. В другом варианте реализации термин «смесь нуклеиновых кислот, полученных из двух разных геномов» означает, что нуклеиновые кислоты экстрагировали из двух разных типов клеток пациента. [00100] The term "derived" as used herein in the context of a nucleic acid or mixture of nucleic acids means that the nucleic acid(s) is(are) derived from the source(s) from which they originate. For example, in one embodiment, a mixture of nucleic acids derived from two different genomes means that the nucleic acids, eg scDNA, were naturally released by the cells through natural processes such as necrosis or apoptosis. In another implementation, the term "a mixture of nucleic acids derived from two different genomes" means that the nucleic acids were extracted from two different types of patient cells.
[00101] Термин «основанный» при использовании в контексте получения конкретного количественного значения в настоящем документе относится к использованию другого количества в качестве входных данных для расчета конкретного количественного значения в качестве выходных данных. [00101] The term "based" when used in the context of obtaining a specific quantitative value in this document refers to the use of a different amount as an input to calculate a specific quantitative value as an output.
[00102] В настоящем документе термин «образец пациента» обозначает биологический образец, отобранный у пациента, т.е. лица, получающего медицинский уход или лечение. Образец пациента может представлять собой любой из образцов, описанных в настоящем документе. В некоторых вариантах реализации образец пациента отбирают с применением неинвазивных процедур, таким образцом может являться, например, образец периферической крови или фекалий. Способы, описанные в настоящем документе, могут применяться не только к людям. Таким образом, рассматривают разнообразные применения в сфере ветеринарии, и в этом случае образец пациента может представлять собой образец, отобранный у млекопитающего, не относящегося к человеку (например, представителя семейства кошачьих, свинообразных, лошадиных, бычьих и т.п.). [00102] As used herein, the term "patient sample" refers to a biological sample taken from a patient, i. a person receiving medical care or treatment. The patient sample may be any of the samples described herein. In some embodiments, a patient sample is collected using non-invasive procedures, such a sample may be, for example, a sample of peripheral blood or feces. The methods described herein may be applied to more than just humans. Thus, a variety of veterinary applications are contemplated, in which case the patient sample may be a sample taken from a non-human mammal (eg, feline, porcine, equine, bovine, etc.).
[00103] Термин «биологическая жидкость» в настоящем документе относится к жидкости, взятой из биологического источника, и включает, например, кровь, серозный экссудат, плазму, мокроту, лаваж, спинномозговую жидкость, мочу, семя, пот, слезную жидкость, слюну и т.п. Используемые в настоящем документе термины «кровь», «плазма» и «серозный экссудат» относятся к фракциям или их обработанным частям. Аналогичным образом, в случае, если образец получают путем выполнения биопсии, взятия смыва, мазка и т.д., термин «образец» обозначает обработанную фракцию или часть, полученную путем выполнения биопсии, взятия смыва, мазка и т.д. [00103] The term "biological fluid" as used herein refers to fluid taken from a biological source and includes, for example, blood, serous exudate, plasma, sputum, lavage, cerebrospinal fluid, urine, semen, sweat, lacrimal fluid, saliva, and etc. As used herein, the terms "blood", "plasma", and "serous exudate" refer to the fractions or processed portions thereof. Similarly, in the case where the sample is obtained by performing a biopsy, swab, swab, etc., the term "sample" means the processed fraction or portion obtained by performing a biopsy, swab, swab, etc.
[00104] Термин «соответствующий», используемый в настоящем документе, иногда относится к нуклеотидной последовательности, например, гену или хромосоме, которая присутствует в геноме разных субъектов и которая не обязательно имеет одинаковую последовательность во всех геномах, однако служит для определения, а не для предоставления генетической информации об исследуемой последовательности, например гене или хромосоме. [00104] The term "corresponding" as used herein sometimes refers to a nucleotide sequence, such as a gene or chromosome, that is present in the genome of different subjects and that does not necessarily have the same sequence in all genomes, but serves to define and not to providing genetic information about a sequence of interest, such as a gene or chromosome.
[00105] Термин «хромосома», используемый в настоящем документе, относится к несущему наследственность генному носителю живой клетки, который состоит из хроматиновых цепей, содержащих ДНК и белковые компоненты (в частности, гистоны). В настоящем документе используется стандартная международно признанная система нумерации отдельных хромосом генома человека. [00105] The term "chromosome" as used herein refers to the hereditary gene carrier of a living cell, which consists of chromatin chains containing DNA and protein components (in particular, histones). This document uses the standard internationally recognized numbering system for the individual chromosomes of the human genome.
[00106] Термин «длина полинуклеотида», используемый в настоящем документе, относится к абсолютному числу мономерных субъединиц (нуклеотидов) нуклеиновой кислоты в последовательности или в области эталонного генома. Термин «длина хромосомы» относится к известной длине хромосомы, заданной парами нуклеотидных оснований, например приведенная в сборке NCBI36/hg18 человеческой хромосомы, данные которой можно найти в сети Интернет по следующему адресу: |genome|.|ucsc|.|edu/cgi- bin/hgTracks?hgsid=167155613&chromInfoPage= [00106] The term "polynucleotide length" as used herein refers to the absolute number of monomeric subunits (nucleotides) of a nucleic acid in a sequence or region of a reference genome. The term "chromosome length" refers to the known length of a chromosome given by nucleotide base pairs, such as that given in the assembly NCBI36/hg18 of the human chromosome, the data of which can be found on the Internet at the following address: |genome|.|ucsc|.|edu/cgi- bin/hgTracks?hgsid=167155613&chromInfoPage=
[00107] Термины «субъект» и «пациент», используемые в настоящем документе, обозначают субъекта-человека, а также субъекта, не являющегося человеком, такого как млекопитающее, беспозвоночное, позвоночное, грибок, дрожжевые грибы, бактерия и вирус. Несмотря на то, что примеры и терминология, используемые в настоящем документе, относятся к организму человека, концепции, описанные в настоящем документе, применимы к геномам любых растений или животных и могут применяться в области ветеринарной медицины, зоотехники, лабораторных исследований и т.п. [00107] The terms "subject" and "patient" as used herein refer to a human subject as well as a non-human subject such as a mammal, invertebrate, vertebrate, fungus, yeast, bacterium, and virus. Although the examples and terminology used herein refer to the human body, the concepts described herein are applicable to the genomes of any plant or animal and can be applied in the fields of veterinary medicine, animal science, laboratory research, and the like.
[00108] Используемый в настоящем документе термин «праймер» относится к выделенному олигонуклеотиду, который способен играть роль точки инициации синтеза при помещении в условия, являющиеся индуктивными по отношению к синтезу продукта достройки (например, такие условия подразумевают присутствие нуклеотидов, средства для индукции, такого как ДНК-полимераза, подходящую температуру и pH). Праймер может быть предпочтительно одноцепочечным для обеспечения максимальной эффективности амплификации, но также может быть двухцепочечным. В случае, если праймер является двухцепочечным, его сначала обрабатывают для разделения спиралей перед его использованием для получения продуктов достройки. Праймер может представлять собой олигодезоксирибонуклеотид. Праймер является достаточно длинным для инициации процесса синтеза продуктов достройки при наличии средства для индукции. Точные длины праймеров зависят от многих факторов, включая температуру, источники праймеров, а также способы и параметры, используемые при создании праймеров. [00108] As used herein, the term “primer” refers to an isolated oligonucleotide that is capable of acting as a synthesis initiation point when placed under conditions that are inductive to the synthesis of an extension product (e.g., such conditions imply the presence of nucleotides, an inducing agent, such as DNA polymerase, suitable temperature and pH). The primer may preferably be single stranded for maximum amplification efficiency, but may also be double stranded. In case the primer is double-stranded, it is first processed to separate helices before it is used to obtain extension products. The primer may be an oligodeoxyribonucleotide. The primer is long enough to initiate the process of synthesis of extension products in the presence of an induction agent. The exact primer lengths depend on many factors, including temperature, primer sources, and the methods and parameters used to create the primers.
5.2. Введение5.2. Introduction
[00109] Короткие тандемные повторы (КТП) встречаются повсеместно в геноме человека. Несмотря на то, что биологическая составляющая КТП еще не полностью изучена, новые доказательства свидетельствуют о том, что КТП играют важную роль в основных клеточных процессах. [00109] Short tandem repeats (SRTs) are ubiquitous throughout the human genome. Although the biological component of CFT is not yet fully understood, new evidence suggests that CFT play an important role in basic cellular processes.
[00110] Экспансии повторов представляют собой это особый класс микросателлитных и минисателлитных вариантов, включающих полиморфизмы КТП. Экспансии повторов также называются динамическими мутациями вследствие их нестабильности в случаях, когда короткие тандемные повторы расширяются сверх определенных размеров. Экспансии КТП являются основной причиной более 20 тяжелых неврологических расстройств, включая боковой амиотрофический склероз, атаксию Фридрейха (FRDA), болезнь Хантингтона (БХ) и синдром ломкой X-хромосомы. В Таблице 1 представлено небольшое число патогенных экспансий повторов, отличных от последовательностей повторов в нормальных образцах. В столбцах проиллюстрированы гены, ассоциированные с последовательностями повторов, нуклеотидные последовательности повторяющихся звеньев, числа повторов повторяющихся звеньев в нормальных и патогенных последовательностях и заболевания, связанные с экспансиями повторов. [00110] Repeat expansions are a special class of microsatellite and minisatellite variants, including CTP polymorphisms. Repeat expansions are also called dynamic mutations due to their instability when short tandem repeats expand beyond a certain size. CFT expansions are the underlying cause of more than 20 severe neurological disorders, including amyotrophic lateral sclerosis, Friedreich's ataxia (FRDA), Huntington's disease (HD), and fragile X syndrome. Table 1 shows a small number of pathogenic repeat expansions other than repeat sequences in normal samples. The columns illustrate genes associated with repeat sequences, nucleotide sequences of repeat units, the number of repeats of repeat units in normal and pathogenic sequences, and diseases associated with repeat expansions.
Таблица 1. Примеры патогенных экспансий повторовTable 1. Examples of pathogenic repeat expansions
[00111] Генетические заболевания, связанные с экспансиями повторов, во многих отношениях являются гетерогенными. размер повторяющегося звена, степень экспансии, местоположение относительно затронутого гена и патогенный механизм могут различаться в зависимости от заболевания. Например, АБС включает в себя экспансию повторов гексануклеотидов нуклеотидов GGGGCC в гене C9orf72, расположенном на коротком плече открытой рамки считывания 72 хромосомы 9. Напротив, синдром ломкой X-хромосомы связан с экспансией тринуклеотидного повтора CGG (триплетного повтора), влияющей на ген 1 (FMR1) на X-хромосоме, являющийся причиной задержки умственного развития при синдроме ломкой X-хромосомы. Экспансия повторов CGG может привести к неспособности экспрессировать белок FMRP, отсутствие которого приводит к задержке умственного развития при синдроме ломкой X-хромосомы и наличие которого является обязательным для нормального развития нервной системы. В зависимости от длины повтора CGG аллель можно классифицировать как нормальный (не подверженный влиянию синдрома), премутационный (подверженный риску развития расстройств, связанных с ломкостью X-хромосомы) или полностью мутировавший (обычно подверженный влиянию синдрома). В соответствии с различными оценками, существует от 230 до 4 000 повторов CGG в мутированных генах FMR1, вызывающих синдром ломкой X-хромосомы у больных, по сравнению с 60 до 230 повторов у носителей, склонных к атаксии, и от 5 до 54 повторов у здоровых субъектов. Экспансия повторов гена FMR1 является причиной проявлений аутизма, так как было обнаружено, что у около 5% пациентов, страдающих аутизмом, экспансия повторов гена FMR1 является причиной аутизма. McLennan, et al. (2011), Fragile × Syndrome, Current Genomics 12 (3): 216-224. Окончательная диагностика синдрома ломкой X-хромосомы включает в себя выполнения генетического тестирования для определения числа повторов CGG. [00111] Genetic diseases associated with repeat expansions are heterogeneous in many respects. the size of the repeat unit, degree of expansion, location relative to the affected gene, and pathogenic mechanism may differ depending on the disease. For example, ABS involves the expansion of GGGGCC nucleotide hexanucleotide repeats in the C9orf72 gene, located on the short arm of open reading frame 72 of chromosome 9. In contrast, Fragile X Syndrome is associated with the expansion of the CGG trinucleotide repeat (triplet repeat) affecting gene 1 ( FMR1 ) on the X chromosome, which is the cause of mental retardation in fragile X syndrome. Expansion of CGG repeats can lead to an inability to express the FMRP protein, the absence of which leads to mental retardation in fragile X syndrome and the presence of which is essential for normal neurodevelopment. Depending on the length of the repeat, the CGG allele can be classified as normal (not affected by the syndrome), premutational (at risk for developing X fragility disorders), or fully mutated (usually affected by the syndrome). According to various estimates, there are 230 to 4,000 CGG repeats in mutated FMR1 genes that cause fragile X syndrome in patients, compared with 60 to 230 repeats in ataxia-prone carriers, and 5 to 54 repeats in healthy controls. subjects. Expansion of the FMR1 gene repeats is a cause of autism, since it has been found that in about 5% of autistic patients, the expansion of the FMR1 gene repeats is the cause of autism. McLennan, et al. (2011), Fragile × Syndrome, Current Genomics 12(3): 216-224. Definitive diagnosis of fragile X syndrome involves performing genetic testing to determine the number of CGG repeats.
[00112] Во многих исследованиях были выявлены различные общие свойства заболеваний, связанных с экспансией повторов. Экспансия повторов или динамическая мутация обычно проявляется в виде увеличения числа повторов, причем скорость такой мутации связана с числом повторов. Редкие явления, такие как потеря разрыва повторов, могут привести к увеличению вероятности экспансии аллелей; такие события называются неблагоприятными событиями. Может существовать взаимосвязь между количеством повторов в последовательности повторов и тяжестью заболевания, вызванного экспансией повторов, и/или его развитием. [00112] Many studies have identified various common properties of diseases associated with the expansion of repeats. Repeat expansion or dynamic mutation usually manifests itself as an increase in the number of repeats, the rate of such mutation being related to the number of repeats. Rare events, such as loss of repeat gap, can lead to an increase in the likelihood of allele expansion; such events are called adverse events. There may be a relationship between the number of repeats in a sequence of repeats and the severity of disease caused by the expansion of repeats and/or its development.
[00113] Таким образом, выявление экспансий повторов играет важную роль в диагностике и лечении различных заболеваний. Однако определение последовательностей повторов, особенно с использованием прочтений, которые не полностью охватывают последовательность повторов, сопряжена с рядом проблем. Во-первых, сложно выровнять повторы с эталонной последовательностью, поскольку отсутствует четкое взаимно-однозначное сопоставление между прочтением и эталонным геномом. Кроме того, даже если прочтение выровнено с эталонной последовательностью, прочтения часто являются слишком короткими для полного покрытия значимой с медицинской точки зрения последовательности повторов. Например, прочтения могут иметь длину около 100 п.н.о. Для сравнения, экспансия повторов может охватывать от сотен до тысяч пар нуклеотидных оснований. Например, при синдроме ломкой X-хромосомы ген FMR1 может иметь более 1 000 повторов, охватывающих более 3 000 п.н.о. Таким образом, прочтение длиной 100 п.н.о. не может сопоставлять полную длину экспансии повторов. Кроме того, сборка коротких прочтений в более длинную последовательность не позволяет преодолеть проблему коротких прочтений и длинных повторов, поскольку сборка коротких прочтений в более длинную последовательность является труднореализуемой из-за неоднозначности выравнивания повторов в рамках одного прочтения с повторами в другом прочтении. [00113] Thus, the detection of repeat expansions plays an important role in the diagnosis and treatment of various diseases. However, the determination of repeat sequences, especially using reads that do not fully cover the repeat sequence, presents a number of problems. First, it is difficult to align the repeats with the reference sequence because there is no clear one-to-one mapping between the read and the reference genome. Furthermore, even if a read is aligned with a reference sequence, the reads are often too short to fully cover the medically significant repeat sequence. For example, reads may be about 100 bp in length. By comparison, repeat expansion can span hundreds to thousands of base pairs. For example, in Fragile X Syndrome, the FMR1 gene can have more than 1,000 repeats spanning more than 3,000 bp. Thus, a 100 bp read. cannot match the full length of the repeat expansion. In addition, assembling short reads into a longer sequence does not overcome the problem of short reads and long repeats, since the assembly of short reads into a longer sequence is difficult due to the ambiguity in the alignment of repeats within one read with repeats in another read.
[00114] Выравнивание является первичной причиной потери информации либо из-за неполноты эталонной последовательности, неуникального соответствия между прочтением и сайтами на эталонной последовательности, либо значительных отклонений от эталонной последовательности. Систематические ошибки секвенирования и другие проблемы, влияющие на точность прочтения, являются вторичной причиной неудач при обнаружении последовательностей повторов. В некоторых протоколах эксперимента около 7% прочтений не являются выровненными или по шкале MAPQ имеют балл, равный 0. Даже если исследователи работают над улучшением технологии секвенирования и средств анализа, всегда будут наблюдать значительное количество невыровненных и плохо выровненных прочтений. Варианты реализации способов выявления экспансий повторов, описанных в настоящем документе, основаны на определении невыровненных или плохо выровненных прочтений. [00114] Alignment is the primary cause of loss of information, either due to incompleteness of the reference sequence, non-unique correspondence between reads and sites on the reference sequence, or significant deviations from the reference sequence. Sequencing biases and other problems affecting read accuracy are a secondary cause of failures in detecting repeat sequences. In some experimental protocols, about 7% of reads are misaligned or have a MAPQ score of 0. Even if researchers work to improve sequencing technology and analysis tools, there will always be a significant number of misaligned and poorly aligned reads. The implementations of the repeat expansion detection methods described herein are based on the detection of misaligned or poorly aligned reads.
[00115] Способы, в которых используются длинные прочтения для обнаружения экспансии повторов, имеют определенные недостатки. В контексте секвенирования следующего поколения доступные в настоящее время технологии, в которых используются более длинные прочтения, являются более медленными и склонными к появлению ошибок, чем технологии, в которых используются более короткие прочтения. Более того, в некоторых областях применения невозможно выполнять длинные прочтения, например, при секвенировании свободно-клеточных ДНК. Свободно-клеточная ДНК, полученная из материнской крови, может быть использована для пренатальной генетической диагностики. Свободно-клеточная ДНК существует в виде фрагментов, которые, как правило, короче 200, при использовании свободно-клеточной ДНК. В вариантах реализации способов, описанных в настоящем документе, используются короткие прочтения для определения экспансий повторов, значимых с медицинской точки зрения. [00115] Methods that use long reads to detect repeat expansion have certain drawbacks. In the context of next generation sequencing, currently available technologies that use longer reads are slower and more error prone than those that use shorter reads. Moreover, in some applications it is not possible to perform long reads, such as free-cell DNA sequencing. Free cell DNA obtained from maternal blood can be used for prenatal genetic diagnosis. Free-cell DNA exists in fragments that are typically shorter than 200 when using free-cell DNA. Embodiments of the methods described herein use short reads to determine medically significant repeat expansions.
[00116] Более того, традиционные способы не предназначены для обработки сложных локусов, содержащих множество повторов. Важными примерами таких локусов являются повтор CAG, вызывающий БХ, фланкированный повтором CCG, повтор GAA, вызывающий FRDA, фланкированный гомополимером аденозина, и повтор CAG, вызывающий спиномозжечковую атаксию 8 типа (SCA8), фланкированную повтором ACT. Еще более ярким примером является повтор CCTG в гене CNBP, экспансии которого вызывают миотоническую дистрофию 2 типа (DM2). Данный повтор является смежным с полиморфными повторами TG и TCTG (J. E. Lee and Cooper 2009), что особенно затрудняет точное выравнивание прочтений с этим локусом. Другим типом комплексного повтора является полиаланиновый повтор, на настоящий момент связанный с по меньшей мере девятью расстройствами (Shoubridge and Gecz 2012). Полиаланиновые повторы состоят из повторов кодонов a-аминокислот GCA, GCC, GCG или GCT. [00116] Moreover, traditional methods are not designed to handle complex loci containing many repeats. Important examples of such loci are the CAG repeat causing HD flanked by the CCG repeat, the GAA repeat causing FRDA flanked by adenosine homopolymer, and the CAG repeat causing spinal cerebellar ataxia type 8 (SCA8) flanked by the ACT repeat. An even more striking example is the CCTG repeat in the CNBP gene, whose expansions cause myotonic dystrophy type 2 (DM2). This repeat is contiguous with the TG and TCTG polymorphic repeats (JE Lee and Cooper 2009), making it particularly difficult to accurately align reads with this locus. Another type of complex repeat is the polyalanine repeat, currently associated with at least nine disorders (Shoubridge and Gecz 2012). Polyalanine repeats consist of repeats of the a-amino acid codons GCA, GCC, GCG, or GCT.
[00117] Кластеры вариантов могут влиять на выравнивание и точность генотипирования (Lincoln et al. 2019). Варианты, смежные с полиморфными последовательностями низкой сложности, могут быть сопряжены с дополнительными проблемами, поскольку способы обнаружения вариантов могут приводить к выведению кластеров неверно представленных или ложных распознаваний вариантов в таких геномных областях. Это, в частности, связано с повышенной частотой возникновения ошибок в таких областях данных секвенирования (Benjamini and Speed 2012; Dolzhenko et al., 2017). Одним из примеров является однонуклеотидный вариант (ОНВ), смежный с гомополимером аденозина в гене MSH2, который вызывает синдром Линча I (Frogatt et al. 1999). [00117] Variant clusters can affect the alignment and accuracy of genotyping (Lincoln et al. 2019). Variants adjacent to low complexity polymorphic sequences may present additional problems because variant detection methods may result in clusters of misrepresented or false variant recognitions in such genomic regions. This is partly due to the increased error rate in these areas of sequencing data (Benjamini and Speed 2012; Dolzhenko et al., 2017). One example is the single nucleotide variant (SNR) adjacent to the adenosine homopolymer in the MSH2 gene that causes Lynch syndrome I (Frogatt et al. 1999).
[00118] В рамках вариантов реализации, описанных в настоящем документе, могут выполнять обработку сложных локусов, как описано выше. В них используют граф последовательности в качестве общей гибкой модели каждого целевого локуса. [00118] Within the embodiments described herein, processing of complex loci may be performed as described above. They use a sequence graph as a general flexible model for each target locus.
[00119] В некоторых вариантах реализации в рамках описанных способов решают вышеупомянутые проблемы при определении и распознавании экспансии повторов путем использования парного концевого секвенирования. Парное концевое секвенирование включает фрагментирование ДНК для образования последовательностей, называемых вставками. В некоторых протоколах, в том числе протоколах, используемых Illumina, прочтения с более коротких вставок (например, от десятков до сотен п.н.о.), называют парными концевыми прочтениями с короткими вставками или парными концевыми прочтениями. В противоположность этому, прочтения из более длинных вставок (например, порядка нескольких тысяч п.н.о.) называют прочтениями сопряженных пар. Как отмечалось выше, в различных вариантах реализации способов, описанных в настоящем документе, могут использовать как парные концевые прочтения с короткими вставками, так и прочтения сопряженных пар с длинными вставками. [00119] In some embodiments, the described methods solve the aforementioned problems in detecting and recognizing repeat expansion by using paired end-to-end sequencing. Paired end sequencing involves fragmenting DNA to form sequences called inserts. In some protocols, including those used by Illumina, reads from shorter inserts (eg, tens to hundreds of bp) are referred to as paired short insert end reads or paired end reads. In contrast, reads from longer insertions (eg, on the order of several thousand bp) are called conjugated pair reads. As noted above, in various embodiments of the methods described herein, both paired end reads with short insertions and mated pair reads with long insertions can be used.
[00120] Фиг. 1A представляет собой схематическую иллюстрацию, демонстрирующую определенные сложности при выравнивании прочтений последовательности с последовательностью повторов на эталонной последовательности, особенно при выравнивании прочтений последовательности, полученных из образца последовательности длинных повторов, имеющей экспансию повторов. В нижней части Фиг. 1A проиллюстрирована эталонная последовательность 101 с относительно короткой последовательностью повторов 103, изображенной вертикальными штриховыми линиями. В середине фигуры проиллюстрирована гипотетическая последовательность 105 образца, отобранного у пациента, имеющего последовательность длинных повторов 107 с экспансией повторов, которая такжеизображена вертикальными штриховыми линиями. В верхней части рисунка представлены прочтения последовательностей 109 и 111, проиллюстрированные в местоположениях соответствующих сайтов последовательности образца 105. В некоторых из данных прочтений последовательностей, например, прочтений 111, некоторые пары нуклеотидных оснований берут начало из последовательности длинных повторов 107, изображенной вертикальными штриховыми линиями и обведенной кругом. Прочтения 111, имеющие эти повторы, потенциально трудно поддаются выравниванию с эталонной последовательностью 101, поскольку такие повторы не имеют четких местоположений на эталонной последовательности 101. Поскольку эти потенциально невыровненные прочтения не могут быть четко связаны с последовательностью повторов 103 в эталонной последовательности 101, получение информации о последовательности повторов и экспансии последовательности повторов из этих потенциально невыровненных прочтений 111 является труднореализуемым. Кроме того, поскольку эти прочтения, как правило, являются более короткими, чем последовательность длинных повторов 107, имеющая экспансию повторов, и они не могут предоставлять исчерпывающую информацию о типе или местонахождении последовательности повторов 107. Кроме того, повторы в прочтениях 111 затрудняют их сборку из-за неоднозначности их местоположений на эталонной последовательности 101 и неоднозначности отношений между прочтениями 111. Прочтения, частично принадлежащие к последовательности длинных повторов 107 в образце, наполовину заштрихованные и наполовину закрашенные черным цветом в иллюстрации, могут быть выровнены основаниями, не принадлежащими к последовательности повторов 107. Если прочтения содержат слишком мало пар нуклеотидных оснований за пределами последовательности повторов 107, прочтения могут плохо выравниваться или вовсе не выравниваться. Таким образом, некоторые из этих прочтений с частичными повторами можно анализировать в качестве базовых прочтений, а другие анализировать в качестве закрепленных прочтений, как дополнительно описано ниже. [00120] FIG. 1A is a schematic illustration showing certain difficulties in aligning sequence reads with a repeat sequence on a reference sequence, especially when aligning sequence reads derived from a pattern of long repeat sequence having repeat expansion. At the bottom of Fig. 1A illustrates a
[00121] На Фиг. 1B представлена принципиальная схема, иллюстрирующая то, как парные концевые прочтения можно использовать в некоторых описанных вариантах реализации для преодоления трудностей, проиллюстрированных на Фиг. 1A. При парном концевом секвенировании секвенирование происходит с обоих концов фрагментов нуклеиновых кислот в исследуемом образце. В нижней части Фиг. 1B представлена эталонная последовательность 101 и последовательность образца 105, а также прочтения 109 и 111, эквивалентные проиллюстрированным на Фиг. 1A. Сверху на Фиг. 1B проиллюстрирован фрагмент 125, полученный из последовательности исследуемого образца 105, и область праймеров 131 прочтения 1, а также область праймеров 133 прочтения 2 для получения двух прочтений 135 и 137 парных концевых прочтений. Фрагмент 125 также упоминается в качестве вставки для парных концевых прочтений. В некоторых вариантах реализации вставки можно амплифицировать с применением или без применения ПЦР. Некоторые последовательности повторов, такие как последовательности, включающие большое количество повторов GC или GCC, не могут быть достаточно качественно секвенированы традиционными способами, включающими ПЦР-амплификацию. Амплификация таких последовательностей могут проводить без применения ПЦР. Амплификация других последовательностей могут проводить с применением ПЦР [00121] In FIG. 1B is a schematic diagram illustrating how paired end reads can be used in some of the embodiments described to overcome the difficulties illustrated in FIG. 1A. In paired end sequencing, sequencing occurs at both ends of the nucleic acid fragments in the test sample. At the bottom of Fig. 1B shows the
[00122] Вставка 125, изображенная на Фиг. 1B, получена из участка или соответствует участку последовательности образца 105, сбоку от которой расположены две вертикальные стрелки, изображенные в нижней половине рисунка. В частности, вставка 125 содержит повторяющуюся секцию 127, соответствующую части длинного повтора 107 в последовательности образца 105. Длину вставок можно регулировать в зависимости от области применения. В некоторых вариантах реализации вставки могут быть несколько короче, чем исследуемая последовательность повторов или последовательность повторов, имеющая экспансию повторов. В других вариантах реализации вставки могут иметь длину, аналогичную последовательности повторов или последовательности повторов с экспансией повторов. В других вариантах реализации вставки могут быть даже несколько длиннее последовательности повторов или последовательности повторов с экспансией повторов. В некоторых вариантах реализации такие вставки могут представлять собой длинные вставки для выполнения секвенирования сопряженных пар в некоторых вариантах реализации, дополнительно описанных ниже. Как правило, прочтения, полученные из вставок, являются более короткими, чем последовательность повторов. Поскольку вставки длиннее прочтений, парные концевые прочтения могут лучше захватывать сигналы при более длительном отрезке последовательности повторов в образце, чем одиночные концевые прочтения. [00122] The
[00123] Показанная вставка 125 имеет две области праймеров прочтения 131 и 133 на двух концах вставки. В некоторых вариантах реализации области праймеров прочтения являются свойственными вставке. В других вариантах реализации области праймеров вводят во вставку путем лигирования или достройки. На левом конце вставки изображена область праймеров 131 прочтения 1, которая позволяет гибридизировать праймер 132 прочтения 1 со вставкой 125. В результате достройки праймера 132 прочтения 1 генерируют первое прочтение или прочтение 1, обозначенное как 135. На правом конце вставки 125 изображена область праймеров 133 прочтения 2, которая позволяет гибридизировать праймер 134 прочтения 2 со вставкой 125, инициируя второе прочтение или прочтение 2, помеченное числом 137. В некоторых вариантах реализации вставка 125 может также включать в себя индексные области, снабженные штрихкодом (не проиллюстрированы на фигуре), что позволяет выполнять определениекацию различных образцов в процессе многоканального секвенирования. В некоторых вариантах реализации парные концевые прочтения 135 и 137 могут быть получены путем секвенирования Illumina с помощью платформ для синтеза. Пример процесса секвенирования, реализованного на такой платформе, дополнительно описан ниже в разделе «Способы секвенирования», в ходе которого создают два парных концевых прочтения и два индексных прочтения. [00123]
[00124] Затем парные концевые прочтения, полученные способом, изображенным на Фиг. 1B, могут быть выровнены с эталонной последовательностью 101, имеющей относительно короткую последовательность повторов 103. Таким образом, известно относительное местоположение и направление пары прочтений. Это позволяет косвенно связать невыровненное или плохо выровненное прочтение, например указанное в круге 111, с последовательностью относительно длинных повторов 107 в последовательности образца 105 посредством соответствующего парного прочтения 109, как указано в нижней части Фиг. 1B. В иллюстративном примере прочтения, полученные в результате парного концевого секвенирования, составляют около 100 п.н.о., а вставки составляют около 500 п.н.о. В данной иллюстративной конфигурации относительные местоположения двух парных концевых прочтений находятся на расстоянии около 300 пар нуклеотидных оснований от их 3’ концов и имеют противоположные направления. Соотношение между парами прочтений позволяет лучше связывать прочтения с областями повторов. В некоторых случаях первое прочтение в паре выравнивается с последовательностью, не имеющей повторов, фланкирующей область повторов на эталонной последовательности, а второе прочтение в паре не выравнивается с эталоном должным образом. Cм., например, информацию о паре прочтений 109а и 111а, представленных в нижней половине Фиг. 1B, где первым прочтением является левое прочтение 109а, а вторым прочтением является правое прочтение 111a. Учитывая спаривание двух прочтений 109а и 111а, второе прочтение 111а может быть связано с областью повторов 107 в последовательности образца 105, несмотря на то, что второе прочтение 111а не может быть выровнено с эталонной последовательностью 101. Зная расстояние и направление второго прочтения 111а относительно первого прочтения 109а, можно дополнительно определить местоположение второго прочтения 111а в пределах длинной области повторов 107. В случае, если между повторами во втором прочтении 111а существует разрыв, также можно определить местоположение разрыва относительно эталонной последовательности 101. В настоящем описании прочтение, такое как левое прочтение 109a, которое выровнено с эталоном, называется базовым прочтением. Прочтение, такое как правое прочтение 111а, которое не выровнено с эталонной последовательностью, но сопряжено с базовым прочтением, называют закрепленным прочтением. Таким образом, невыровненная последовательность может быть связана с экспансией повторов. Таким образом, можно использовать короткие прочтения для обнаружения длинных экспансий повторов. Хотя проблема обнаружения экспансий повторов обычно возрастает с увеличением длины экспансии из-за сложности выполнения секвенирования; способы, описанные в настоящем документе, позволяют обнаруживать более высокий сигнал от более длинных последовательностей экспансии повторов, чем от более коротких последовательностей экспансии повторов. Это связано с тем, что по мере увеличения длины последовательности повторов или экспансии повторов, в области экспансии будет закреплено больше прочтений, и большее количество прочтений будет иметь вероятность попадания в область повторов, а также при каждом прочтении может происходить больше повторов. [00124] Then, the paired end reads obtained by the method depicted in FIG. 1B can be aligned with a
[00125] В некоторых вариантах реализации описанные способы включают анализ распределения частот количества повторов, обнаруженных в рамках базовых и закрепленных прочтений. В некоторых вариантах реализации анализируют исключительно закрепленные прочтения. В других вариантах реализации анализируют как базовые, так и закрепленные прочтения. Распределение исследуемого образца можно сравнить с критерием, полученным эмпирическим или теоретическим способом и использующимся для отделения незатронутых образцов от затронутых образцов. Таким образом, можно определять, имеется ли в исследуемом образце рассматриваемая экспансия повторов, и, соответственно, выполнять распознавание. [00125] In some embodiments, the described methods include analyzing the frequency distribution of the number of repeats found within baseline and anchored reads. In some embodiments, only pinned reads are parsed. In other implementations, both base and sticky reads are analyzed. The test sample distribution can be compared to a criterion derived empirically or theoretically and used to separate unaffected samples from affected samples. In this way, it can be determined whether there is an expansion of repeats in question in the test sample and, accordingly, a recognition can be performed.
[00126] В способах и устройстве, описанных в настоящем документе, может быть использована технология секвенирования следующего поколения (NGS), которая позволяет осуществлять массовое параллельное секвенирование. В определенных вариантах реализации клонально амплифицированные матрицы ДНК или одиночные молекулы ДНК секвенируют внутри проточной кюветы путем массового параллельного секвенирования (например, как описано в публикации Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]). Технологии секвенирования NGS включают в себя, без ограничений, пиросеквенирование, секвенирование путем синтеза с использованием терминаторов обратимых красителей, секвенирование путем лигирования олигонуклеотидных зондов и ионное полупроводниковое секвенирование. ДНК из отдельных образцов можно секвенировать по отдельности (т.е. выполнять одноканальное секвенирование) или ДНК из нескольких образцов можно объединять и секвенировать в виде индексированных геномных молекул (т.е. выполнять многоканальное секвенирование) в рамках одного сеанса секвенирования для создания до нескольких сотен миллионов прочтений последовательностей ДНК. Примеры технологий секвенирования, которые можно использовать для получения информации о последовательности в рамках настоящего способа, дополнительно описаны ниже. [00126] The methods and apparatus described herein may utilize next generation sequencing (NGS) technology that allows for massively parallel sequencing. In certain embodiments, clonally amplified DNA templates or single DNA molecules are sequenced inside a flow cell by mass parallel sequencing (e.g., as described in Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31- 46 [2010]). NGS sequencing technologies include, but are not limited to, pyrosequencing, sequencing by synthesis using reversible dye terminators, sequencing by ligation of oligonucleotide probes, and ion semiconductor sequencing. DNA from individual samples can be sequenced individually (i.e., perform single-channel sequencing) or DNA from multiple samples can be combined and sequenced as indexed genomic molecules (i.e., perform multi-channel sequencing) in a single sequencing run to generate up to several hundred million reads of DNA sequences. Examples of sequencing technologies that can be used to obtain sequence information within the present method are further described below.
[00127] Различные анализы экспансии повторов с применением образцов ДНК включают выравнивание или сопоставление прочтений последовательностей секвенатора с эталонной последовательностью. Эталонная последовательность может представлять собой последовательность целого генома, последовательность хромосомы, последовательность субхромосомной области и т.п. С точки зрения вычислительного процесса повторы создают неоднозначность при выравнивании, что, в свою очередь, может привести к ошибкам на уровне подсчета всей хромосомы. В разнообразных вариантах реализации парные концевые прочтения в сочетании с регулируемой длиной вставки могут помочь устранить неоднозначность при выравнивании последовательностей повторов и обнаруживать экспансию повторов. [00127] Various repeat expansion assays using DNA samples involve aligning or matching sequencer sequence reads to a reference sequence. The reference sequence may be a whole genome sequence, a chromosome sequence, a subchromosomal region sequence, and the like. From a computational point of view, repetitions create ambiguity in alignment, which in turn can lead to errors at the whole chromosome count level. In a variety of implementations, paired end reads, in combination with an adjustable insert length, can help disambiguate repeat sequence alignment and detect repeat expansion.
Варианты генотипирования в локусе последовательности повторов с применением графа последовательностиGenotyping Variants at the Repeat Sequence Locus Using the Sequence Graph
[00128] На Фиг. 1C представлена блок-схема, иллюстрирующая процесс 140 генотипирования геномного локуса, содержащего последовательность повторов, в соответствии с некоторыми вариантами реализации. В некоторых вариантах реализации генетический локус заранее определен в каталоге вариантов, содержащем геномные положения и структуру локусов в геномных положениях. На Фиг. 1D, 1E и 1F проиллюстрированы три разных графа последовательности в соответствии с некоторыми вариантами реализации. [00128] In Fig. 1C is a flowchart illustrating a
[00129] На Фиг. 1G проиллюстрирована принципиальная схема процесса определения генотипов вариантов локуса HTT, содержащего две последовательности КТП, в соответствии с некоторыми вариантами реализации. На панели (a) Фиг. 1G изображена часть каталога вариантов, содержащего геномные локусы и спецификации локусов, в частности, их структуру. Например, без учета повторов, последовательность в локусе HTT представляет собой CAGCAACAGCGG (Посл. №: 2); последовательность в локусе CNBP представляет собой CAGGCAGACA (Посл. №: 3). [00129] In Fig. 1G illustrates a schematic diagram of a process for determining the genotypes of HTT locus variants containing two TTP sequences, in accordance with some embodiments. On panel (a) of Fig. 1G shows part of a variant catalog containing genomic loci and loci specifications, in particular their structure. For example, without counting repeats, the sequence at the HTT locus is CAGCAACAGCGG (Seq. No: 2); the sequence at the CNBP locus is CAGGCAGACA (Seq. No: 3).
[00130] На Фиг. 1H проиллюстрирована принципиальная схема процесса определения генотипов вариантов в локусе Lynch I, содержащем ОНВ и КТП, в соответствии с некоторыми вариантами реализации. На Фиг. 1H в рамке 162 проиллюстрирована общая структура спецификаций локуса, в рамке 163 отображен конкретный пример спецификации локуса Lynch I (MSH2). [00130] In Fig. 1H illustrates a schematic diagram of a process for determining the genotypes of variants at the Lynch I locus containing NVG and CTP, in accordance with some embodiments. On FIG. 1H, box 162 illustrates the general structure of locus specifications, box 163 shows a specific example of a Lynch I (MSH2) locus specification.
[00131] В каталоге вариантов структуру локуса указывают с использованием ограниченного подмножества регулярного синтаксиса выражения. Например, область повторов, связанная с БХ, может определяться выражением (CAG)* CAACAG(CGG)* или Посл. №: 2 (без учета повторов), что означает, что она содержит переменные числа повторов CAG и CCG, разделенных разрывом CAACAG; область, связанная с областью FRDA, соответствует выражению (A)*(GAA)*; область, связанная с SCA8, соответствует выражению (CTA)*(CTG)*; область повторов DM2, состоящая из трех смежных повторов, определяется выражением (CAGG)*(CAGA)*(CA)* или Посл. №: 3 (без учета повторов); ОНВ MSH2 является смежным с гомополимером, вызывающим синдром Линча I, и соответствует выражению (A|T)(A)*. [00131] In the variant directory, the locus structure is specified using a limited subset of the regular expression syntax. For example, the area of repetitions associated with HD, can be determined by the expression (CAG)* CAACAG(CGG)* or Seq. no: 2 (excluding repeats), which means that it contains variable numbers of CAG and CCG repeats separated by a CAACAG break; the area associated with the FRDA area corresponds to the expression (A)*(GAA)*; the region associated with SCA8 matches the expression (CTA)*(CTG)*; the area of repetitions DM2, consisting of three adjacent repetitions, is determined by the expression (CAGG)*(CAGA)*(CA)* or Seq. No.: 3 (excluding repetitions); ONV MSH2 is adjacent to the homopolymer that causes Lynch syndrome I, and corresponds to the expression (A|T)(A)*.
[00132] Кроме того, регулярные выражения могут содержать многоаллельные или «вырожденные» основные символы, которые могут быть указаны с помощью обозначения «Международного союза теоретической и прикладной химии» (ИЮПАК) («Перечень частично определенных оснований в нуклеотидных последовательностях. Рекомендации», 1984. Номенклатурный комитет Международного союза биохимиков (НК МСБ) »1986). [00132] In addition, regular expressions may contain multi-allelic or "degenerate" basic characters, which can be indicated using the designation of the "International Union of Pure and Applied Chemistry" (IUPAC) ("List of partially defined bases in nucleotide sequences. Recommendations", 1984 Nomenclatural Committee of the International Union of Biochemists (NC IBU) "1986).
[00133] Частично определенные основания, соответствующие основаниям в вырожденных кодонах, в настоящем документе называются вырожденными основаниями. Вырожденные основания позволяют представлять определенные классы несовершенных повторов ДНК, в рамках которых, например, различные основания могут встречаться в одном и том же положении. Используя это обозначение, полиаланиновые повторы могут кодироваться выражением (GCN)*, а полиглутаминовые повторы могут кодироваться выражением (CAR)*. [00133] Partially defined bases corresponding to bases in degenerate codons are referred to herein as degenerate bases. Degenerate bases allow certain classes of imperfect DNA repeats to be represented, within which, for example, different bases can occur in the same position. Using this notation, polyalanine repeats can be encoded by (GCN)* and polyglutamine repeats can be encoded by (CAR)*.
[00134] В некоторых вариантах реализации последовательность повторов, включенная в геномный локус, включает в себя последовательность коротких тандемных повторов (КТП). В некоторых вариантах реализации расширение FTR связано с синдромом ломкой X-хромосомы, боковым амиотрофическим склерозом (АБС), болезнью Хантингтона, атаксией Фридрейха, спиномозжечковой атаксией, спинобульбарной мышечной атрофией, миотонической дистрофией, болезнью Мачадо-Джозефа или дентато-рубро-паллидо-льюисовой атрофией. [00134] In some embodiments, the repeat sequence included in the genomic locus includes a short tandem repeat (SRT) sequence. In some embodiments, FTR expansion is associated with fragile X syndrome, amyotrophic lateral sclerosis (ALS), Huntington's disease, Friedreich's ataxia, spinal ataxia, spinobulbar muscular atrophy, myotonic dystrophy, Machado-Joseph disease, or dentato-rubro-pallido-Lewis atrophy .
[00135] Процесс 140 включает в себя сбор прочтений последовательностей нуклеиновых кислот исследуемого образца из базы данных. См. блок 142. В некоторых вариантах реализации прочтения нуклеотидных последовательностей изначально выровнены с эталонным геномом, но в данном случае в рамках процесса выполняется повторное выравнивание прочтений последовательностей с исследуемым геномным локусом, как описано ниже. В альтернативных вариантах реализации прочтения можно непосредственно выравнивать с графом последовательности без первоначального выравнивания с эталонным геномом. [00135]
[00136] В рамках процесса 140 выполняется выравнивание прочтений последовательности с последовательностью геномного локуса, включающей в себя одну или более последовательностей повторов. См. блок 144. Последовательность геномного локуса представлена данными, хранящимися в системной памяти, где также хранится структура данных графа последовательности. граф последовательности включает в себя направленный граф, где вершины представляют собой нуклеотидные последовательности, а направленные ребра соединяют вершины. нуклеотидная последовательность, представленная вершиной, включает в себя одно или более нуклеотидных оснований. Граф последовательности включает в себя один или более собственных простых циклов. Каждый собственный простой цикл представляет собой последовательность повторов одной или более последовательностей повторов. Каждая последовательность повторов включает в себя повторы повторяющегося звена одного или более нуклеотидов. [00136]
[00137] В некоторых вариантах реализации прочтения последовательностей изначально выравнивают с эталонным геномом для определения геномных координат прочтений до того, как подмножество первоначально выровненных прочтений будет выровнено с одним или более графами последовательностей, представляющими одну или более исследуемых последовательностей. В некоторых вариантах реализации первоначально выровненные прочтения выровнены с графами последовательностей для определения экспансий повторов в диапазоне от нескольких десятков до нескольких тысяч областей (каждая область соответствует графу последовательности). Общее число первоначально выровненных прочтений, которые повторно выравнивают с графами последовательностей во время каждого применения вариантов реализации, может находиться в диапазоне от тысяч до множества миллионов прочтений. [00137] In some embodiments, sequence reads are initially aligned with a reference genome to determine the genomic coordinates of the reads before a subset of the initially aligned reads are aligned with one or more sequence graphs representing one or more sequences of interest. In some embodiments, the initially aligned reads are aligned with sequence graphs to define repeat expansions ranging from several tens to several thousand regions (each region corresponds to a sequence graph). The total number of initially aligned reads that are realigned to the sequence graphs during each application of the implementation options may range from thousands to many millions of reads.
[00138] В некоторых вариантах реализации прочтения, изначально выровненные с исследуемой последовательностью или локусом, выбирают в качестве подмножества прочтений, затем подмножество выравнивают с последовательностями повторов, каждая из которых представлена в графе последовательности, причем граф последовательности имеет один или более собственных простых циклов, и эти собственные простые циклы представляют одну или более последовательностей повторов. В разнообразных вариантах реализации прочтение, находящееся в пределах около 10, 50, 100, 500, 1 000, 2 000, 3 000, 4 000, 5 000, 6 000, 7 000, 8 000, 9 000, 10 000, 50 000, 100 000 оснований исследуемой последовательности или локуса, считается находящимся вблизи исследуемой последовательности или локуса. В некоторых вариантах реализации прочтение, находящееся в пределах около 1 000, 2 000, 3 000, 4 000, 5 000, 6 000, 7 000, 8 000, 9 000 или 10 000 оснований исследуемого локуса находится рядом с исследуемым локусом. Некоторые из необработанных прочтений могут изначально являться плохо выравненными, поскольку они, в том числе, включают последовательности повторов, выравнивание которых сложно выполнить в однозначной манере. В некоторых вариантах реализации прочтения, изначально являющиеся плохо выравненными (например, по результатам измерения с применением оценки выравнивания), но при этом спаренные с прочтением, выровненным с исследуемым локусом или пространством вблизи него (в паре прочтений с парными концами), выровнены с графом последовательности. В некоторых вариантах реализации прочтения, изначально выровненные с нецелевыми областями, которые представляют собой известные горячие точки для прочтения неправильного выравнивания, выровнены с графом последовательности. [00138] In some embodiments, reads initially aligned with a sequence or locus of interest are selected as a subset of reads, then the subset is aligned with repeat sequences, each of which is represented in a sequence graph, the sequence graph having one or more simple cycles of its own, and these own simple loops represent one or more repetition sequences. In various embodiments, a reading within about 10, 50, 100, 500, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000 , 100,000 bases of the sequence or locus under study, is considered to be close to the sequence or locus under study. In some embodiments, a read within about 1,000, 2,000, 3,000, 4,000, 5,000, 6,000, 7,000, 8,000, 9,000, or 10,000 bases of the locus of interest is adjacent to the locus of interest. Some of the raw reads may initially be ill-aligned because they include repeat sequences that are difficult to align in an unambiguous manner. In some embodiments, reads that are initially poorly aligned (for example, as measured using an alignment score) but are paired with a read that is aligned with or near the locus of interest (in a read pair with paired ends) are aligned with the sequence graph. . In some implementations, reads initially aligned with non-target areas, which are known hotspots for misalignment reads, are aligned with the sequence graph.
[00139] На Фиг. 1D, 1E и 1F проиллюстрированы три разных графа последовательности в соответствии с некоторыми вариантами реализации. На Фиг. 1D проиллюстрирован первый граф последовательности 1100, представляющий первый геномный локус, содержащий последовательность повторов, имеющую тринуклеотидное повторяющееся звено CAG. Первый граф последовательности 1100 включает в себя вершины 1102 и 1112, соответственно представляющие две фланкирующие последовательности. Первый граф последовательности также включает вершину 1106, представляющую собой последовательность повторов, содержащий тринуклеотидное повторяющееся звено CAG. Первый граф последовательности включает в себя направленное ребро 1104, соединяющее вершину 1102 (фланкирующая последовательность) и вершину 1106 (последовательность повторов CAG) в направлении от вершины 1102 к вершине 1106. Направление ребра указывает на относительное положение двух нуклеотидных последовательностей. Первый граф последовательности также включает в себя направленное ребро 1104, соединяющее вершину 1102 (фланкирующая последовательность) и вершину 1106 (последовательность повторов CAG) в направлении от вершины 1102 к вершине 1106. Первый граф последовательности также включает в себя направленное ребро 1110, соединяющее вершину 1106 (последовательность повторов CAG) и вершину 1112 (фланкирующая последовательность) в направлении от вершины 1106 к вершине 1112. Первый граф последовательности также включает в себя собственный простой цикл 1108, который представляет собой последовательность повторов, содержащую повторяющееся звено CAG (проиллюстрированное вершиной 1106), которое повторяется один или более раз. Путь, проходящий от начальной вершины к конечной вершине графа последовательности, представляет собой последовательность геномного локуса, которая может содержать нуклеотиды, находящиеся вблизи последовательности повторов, такой как фланкирующие последовательности. [00139] In Fig. 1D, 1E and 1F illustrate three different sequence graphs in accordance with some embodiments. On FIG. 1D illustrates a
[00140] На Фиг. 1E проиллюстрирован второй граф последовательности 1200, представляющий второй геномный локус. Второй граф последовательности 1200 включает в себя вершины 1202 и 1224, соответственно представляющие две фланкирующие последовательности. Второй граф последовательности также включает в себя вершину 1206 и вершину 1216, представляющие последовательность повторов, содержащую. тринуклеотидное повторяющееся звено CAG, и последовательность повторов, содержащую тринуклеотидное повторяющееся звено CCG соответственно. Второй граф последовательности также включает в себя вершину 1212, представляющую последовательность CAACAG, не имеющую повторов. Второй граф последовательности включает в себя направленные ребра 1204, 1210, 1214 и 1220. Данные направленные ребра направленно соединяют вершины 1202, 1206, 1212, 1216 и 1224, как изображено на иллюстрации. Второй граф последовательности также включает в себя собственный простой цикл 1208, который представляет собой последовательность повторов, содержащую повторяющееся звено CAG (проиллюстрированное вершиной 1206), которое повторяется один или более раз. Второй граф последовательности также включает в себя собственный простой цикл 1218, который представляет собой последовательность повторов, содержащую повторяющееся звено CCG (проиллюстрированное вершиной 1216), которое повторяется один или более раз. [00140] In Fig. 1E illustrates a
[00141] На Фиг. 1F проиллюстрирован третий граф последовательности 1300, представляющий третий геномный локус. Третий граф последовательности 1300 аналогичен второму графу последовательности 1200, но включает в себя два альтернативных пути, представляющие два аллеля CAC и CAT. Два аллеля могут представлять собой аллели ОНВ или ОНП. Направленное ребро 1310, вершина 1312 и направленное ребро 1314 представляют собой первый аллель CAC. Направленное ребро 1316, вершина 1318 и направленное ребро 1320 представляют собой второй аллель САТ. Третий граф последовательности включает в себя элементы, иным образом аналогичные элементам второго графа последовательности, включая вершины 1302, 1306, 1322 и 1328. Он также включает собственные простые циклы 1308 и 1324, указывающие на последовательности повторов CAG и CCG. Он дополнительно включает в себя направленные ребра 1304 и 1326. [00141] In FIG. 1F illustrates a
[00142] В некоторых вариантах реализации прочтения последовательностей выравнивают с графом последовательности с применением методик, описанных ниже. [00142] In some embodiments, sequence reads are aligned with the sequence graph using the techniques described below.
[00143] 1. Индекс кмер строят на основании всего графа таким образом, что при наличии значения кмер из последовательности можно пересчитать все узлы графа, в которых начинается или заканчивается такой кмер. В некоторых случаях кмер может начинаться на одном узле и заканчиваться на другом узле. [00143] 1. The index of kmer is built on the basis of the entire graph in such a way that, if there is a value of kmer from the sequence, it is possible to recalculate all the nodes of the graph where such a kmer begins or ends. In some cases, a kmer may start on one node and end on another node.
[00144] 2. Относительно каждой точки графа регистрируют два подграфа: один в прямом направлении кмер, а другой в обратном направлении. На подграфах выполняют «разворачивание» экспансии повторов до оставшейся длины прочтения, при этом на них отсутствуют какие-либо узлы, расположенные дальше от места попадания кмер по сравнению с остальной длиной прочтения, и предполагается, что экспансия повторов не происходит. Процедура представляет собой метод поиска «в ширину» и используется для генерации структуры данных, содержащей следующие элементы: [00144] 2. For each point of the graph, two subgraphs are registered: one in the forward direction of the mer and the other in the reverse direction. On the subgraphs, the expansion of repeats is “unrolled” to the remaining length of the read, while there are no nodes on them located farther from the hit point of the kmers compared to the rest of the read length, and it is assumed that the expansion of repeats does not occur. The procedure is a breadth-first search method and is used to generate a data structure containing the following elements:
[00145] - Последовательность всех последовательностей узлов (включая расширенные повторы) на подграфе [00145] - Sequence of all node sequences (including extended repeats) on a subgraph
[00146] - Индекс узлов, который позволяет легко получать идентификатор узла из смещения в последовательности при выполнении поиска с возвращением по алгоритму Смита-Уотермана. [00146] - A node index that makes it easy to derive a node ID from an offset in a sequence when performing a Smith-Waterman backtracking search.
[00147] - Последовательность смещений концов узлов с входящими ребрами для каждого начального смещения узла [00147] - Sequence of node end offsets with incoming edges for each initial node offset
[00148] - Индекс для каждого узла, позволяющий легко определять, находится ли основание в начале узла или не в начале узла, а также подсчитывать все концевые смещения предшествующих узлов. [00148] - An index for each node that makes it easy to determine whether the base is at the beginning of the node or not at the beginning of the node, as well as counting all end offsets of previous nodes.
[00149] 3. Выравнивание служит для: [00149] 3. Alignment serves to:
[00150] - Поддержания аффинных пробелов. [00150] - Maintaining affine gaps.
[00151] - Поиска наилучшего выравнивания (выравниваний) последовательности с учетом приведенной выше информации и матрицы штрафов. [00151] - Finding the best sequence alignment(s) given the above information and the penalty matrix.
[00152] Доступны два разных интерфейса: [00152] Two different interfaces are available:
[00153] - Приведены данные о наилучшем выравнивании и втором наилучшем результате оценки выравнивания. [00153] - Data on the best alignment and the second best result of the alignment evaluation are given.
[00154] - Весь массив наилучших выравниваний, а также второй наилучший результат оценки выравнивания. [00154] - The entire array of best alignments, plus the second best result of the alignment score.
[00155] Выравнивания представляют собой общие выравнивания, определяющие штраф за пробел между потенциальным кмер и началом выровненной последовательности. В некоторых вариантах реализации настраивают параметры времени компиляции. [00155] Alignments are general alignments that define a gap penalty between a potential kmer and the start of an aligned sequence. In some implementations, compile-time options are tuned.
[00156] Использующийся алгоритм заполнения матрицы доступен в двух вариантах реализации: [00156] The matrix filling algorithm used is available in two implementations:
[00157] - Последовательные циклы со сложностью N*M. [00157] - Sequential loops with N*M complexity.
[00158] - Последовательные циклы циклов фиксированного размера с параметром времени компиляции фиксированной длины, по умолчанию равным 16, которые gcc автоматически распознает и преобразует в векторные команды SSE или AVX на ЦП. [00158] - Sequential loops of fixed length loops with a default fixed length compile time of 16 that gcc automatically recognizes and converts to SSE or AVX vector instructions on the CPU.
[00159] В некоторых вариантах реализации повторяющееся звено одной или более последовательностей повторов содержит по меньшей мере один частично определенный нуклеотид. В некоторых вариантах реализации конкретное повторяющееся звено содержит вырожденные кодоны. [00159] In some embodiments, a repeat unit of one or more repeat sequences contains at least one partially defined nucleotide. In some embodiments, a particular repeat unit contains degenerate codons.
[00160] В некоторых вариантах реализации один или более собственных простых циклов содержат два или более собственных простых циклов, представляющих две или более последовательностей повторов. См., например, Фиг. 1E, Фиг. 1F и Фиг. 1G, панель (b). [00160] In some embodiments, one or more native simple loops comprise two or more native simple loops representing two or more repetition sequences. See, for example, FIG. 1E, Fig. 1F and FIG. 1G, panel (b).
[00161] В некоторых вариантах реализации граф последовательности дополнительно содержит два или более альтернативных путей для двух или более аллелей. См., например, Фиг. 1F, ссылочные номера 1312 и 1318. См. также Фиг. 1H, ссылочные номера 165 и 167а, указывающие локус Lynch I (MSH2), где верхний путь включает в себя вершину для основания нуклеиновой кислоты A, а нижний путь включает в себя вершину для основания нуклеиновой кислоты T. [00161] In some embodiments, the sequence graph further comprises two or more alternative paths for two or more alleles. See, for example, FIG. 1F,
[00162] В некоторых вариантах реализации два или более аллеля содержат делецию или замену. В некоторых вариантах реализации замена включает в себя однонуклеотидный вариант (ОНВ) или однонуклеотидный полиморфизм (ОНП). См., например, Фиг. 1F, ссылочные номера 1312 и 1318. [00162] In some embodiments, two or more alleles contain a deletion or substitution. In some embodiments, the substitution includes a single nucleotide variant (SNR) or a single nucleotide polymorphism (SNP). See, for example, FIG. 1F,
[00163] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя: поиск соответствия кмер между прочтением последовательности и путем графа последовательности и последующее расширение данного пути до полного выравнивания. В некоторых вариантах реализации выравнивание включает в себя выделение подграфа по пути; «разворачивание» циклов на подграфе для получения направленного ациклического графа; и выполнение выравнивания Смита-Уотермана относительно прочтения последовательности по направленному ациклическому графу. [00163] In some embodiments, aligning a sequence read with a sequence graph includes: finding a match between the sequence read and the path of the sequence graph and then expanding that path to a full alignment. In some implementations, alignment includes allocating a subgraph along a path; "unfolding" cycles on a subgraph to obtain a directed acyclic graph; and performing a Smith-Waterman alignment with respect to reading the sequence against a directed acyclic graph.
[00164] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя сокращение графа путем удаления концов выравниваний с низким уровнем достоверности. После выравнивания прочтения с графом в рамках способа выполняют поиск других аналогичных альтернативных выравниваний. Это осуществляется путем повторного выравнивания первоначального прочтения с путями графа, который перекрывает путь первоначального выравнивания. Это позволяет определить наличие низкого уровня достоверности одного или обоих концов изначального выравнивания; такой низкий уровень достоверности указывает на то, что они могли бы быть выровнены другим способом. Возможность обнаружения частей выравнивания с высоким и низким уровнем достоверности позволяет точно определить, какие генетические варианты поддержаны в рамках прочтения. [00164] In some embodiments, aligning a sequence read with a sequence graph includes reducing the graph by removing the ends of low confidence alignments. After the read is aligned with the graph, the method searches for other similar alternative alignments. This is done by re-aligning the original read with the paths of the graph that overlaps the path of the original alignment. This allows you to determine whether one or both ends of the original alignment has a low level of confidence; this low level of confidence indicates that they could be aligned in a different way. The ability to detect parts of an alignment with high and low levels of confidence allows you to accurately determine which genetic variants are supported within a read.
[00165] В некоторых вариантах реализации выравнивание прочтения последовательности с графом последовательности включает в себя объединение выравниваний путем: выравнивания подпоследовательностей прочтения с графом последовательности; и объединения выравниваний подпоследовательностей для полного выравнивания прочтения последовательности. [00165] In some embodiments, aligning a sequence read with a sequence graph includes combining alignments by: aligning read subsequences with a sequence graph; and combining subsequence alignments to complete the sequence read alignment.
[00166] В некоторых вариантах реализации в рамках процесса также генерируют граф последовательности на основании спецификации локуса, включающей в себя структуру геномного локуса. В некоторых вариантах реализации спецификация локуса определяется в каталоге вариантов, как объяснено выше. [00166] In some embodiments, the process also generates a sequence graph based on the locus specification, including the structure of the genomic locus. In some embodiments, the locus specification is defined in the variant catalog as explained above.
[00167] См. также на панелях (b)-(d) Фиг. 1G для схематических иллюстраций выравнивания прочтений с графом последовательности локуса HTT. На Фиг. 1H схематично изображены анализаторы локусов 164 для выполнения выравнивания прочтений с графом последовательности, в том числе отн. локуса Lynch I (165). [00167] See also panels (b)-(d) of FIG. 1G for schematic illustrations of read alignment with the sequence graph of the HTT locus. On FIG. 1H schematically depicts 164 loci parsers for performing read alignment with a sequence graph, including rel. locus Lynch I (165).
[00168] Способ 140 дополнительно включает в себя определение одного или более генотипов одной или более последовательностей повторов с применением прочтений последовательностей, выровненных с графом последовательности. См. блок 140. См. также на панели (e) Фиг. 1G изображено определение двух КТП (CAG и CCG) в локусе HTT. Последовательность слева, включая повторы CAG, представляет собой CAGCAGCAGCAGCAG (Посл. №: 4). Последовательность слева, включая повторы CCG, представляет собой CCGCCGCCGCCGCCG (Посл. №: 5). [00168]
[00169] На Фиг. 1H изображен модуль ПО Variant Genotyper (168) для определения вариантов в локусе Lynch I, включая ОНВ с аллелями A/T (169а) и повторяющимся мономером A (169b). На Фиг. 1H также представлены модули ПО Variant Analyzer (166) для управления данными о выравнивании последовательностей и их передачи в ПО Variant Genotyper (168), а также пути реализации ПО Variant Analyzer для работы с ОНВ с аллелями A/T (167а) и повторяющимся мономером A (167b). Результаты отн. локуса, полученные с помощью ПО Genotyper, проиллюстрированы на Фиг. 1H, рамка 170, там же представлен генотип ОНВ с аллелями A/T (171а) и повторяющимся мономером A (171b). [00169] In FIG. 1H depicts the Variant Genotyper (168) software module for detecting variants at the Lynch I locus, including NVGs with A/T alleles (169a) and repeat monomer A (169b). On FIG. 1H also shows the Variant Analyzer software modules (166) for managing sequence alignment data and passing it to the Variant Genotyper software (168), as well as how the Variant Analyzer software can be implemented to work with NVGs with A/T alleles (167a) and repeat monomer A (167b). Results Rel. locus obtained using the Genotyper software are illustrated in FIG. 1H,
[00170] В некоторых вариантах реализации граф последовательности включает в себя два альтернативных пути для двух аллелей, а способ дополнительно включает в себя генотипирование двух или более аллелей с применением прочтений последовательностей, выровненных с двумя или более альтернативными путями. В некоторых вариантах реализации генотипирование двух или более аллелей включает в себя охват двух или более альтернативных путей к вероятностной модели для определения вероятностей двух или более аллелей. В некоторых вариантах реализации вероятностная модель моделирует вероятность аллеля в зависимости от охвата аллеля, причем функция выбрана из распределения Пуассона, отрицательного биномиального распределения, биномиального распределения или бета-биномиального распределения. [00170] In some embodiments, the sequence graph includes two alternative paths for two alleles, and the method further includes genotyping two or more alleles using sequence reads aligned with the two or more alternative paths. In some embodiments, genotyping two or more alleles includes spanning two or more alternative paths to a probability model to determine the probabilities of two or more alleles. In some embodiments, the probability model models the probability of an allele as a function of allele coverage, with the function selected from a Poisson distribution, a negative binomial distribution, a binomial distribution, or a beta-binomial distribution.
[00171] В некоторых вариантах реализации функция вероятности представляет собой распределение Пуассона, а ее параметр скорости оценивают по длине прочтения и средней глубине, наблюдаемой в геномном локусе. [00171] In some embodiments, the probability function is a Poisson distribution and its rate parameter is estimated from read length and average depth observed at a genomic locus.
[00172] В модели Пуассона вероятность аллеля выражена следующим образом: [00172] In the Poisson model, the probability of an allele is expressed as follows:
[00173] P(Y=y) = (Cy × e-C)/y! [00173] P(Y=y) = (C y × e -C )/y!
[00174] • y представляет собой охват прочтений основания [00174] • y is the coverage of base reads
[00175] • C представляет собой среднюю глубину, наблюдаемую в геномном локусе [00175] • C is the average depth observed at the genomic locus
[00176] В некоторых вариантах реализации среднюю глубину C определяют следующим образом. [00176] In some embodiments, the average depth C is determined as follows.
[00177] C=LN/G [00177] C=LN/G
[00178] • G представляет собой длину геномного локуса [00178] • G is the length of the genomic locus
[00179] • L представляет собой длину прочтения [00179] • L is the read length
[00180] • N представляет собой общее количество прочтений [00180] • N is the total number of reads
Библиотека GraphToolsGraph Tools Library
[00181] В некоторых вариантах реализации при работе с графами последовательностей применяют библиотеку GraphTools. В библиотеке присутствуют ключевые схематические изображения графов (сами графы, пути графов и выравнивания графов), операции с ними и алгоритмы для выравнивания линейных последовательностей с графами. [00181] In some embodiments, when working with sequence graphs, the GraphTools library is used. The library contains key diagrams of graphs (graphs themselves, graph paths and graph alignments), operations with them, and algorithms for aligning linear sequences with graphs.
[00182] В некоторых вариантах реализации граф последовательности состоит из узлов и направленных ребер. Графы могут включать собственные простые циклы (ребра, соединяющие узел с самим собой), но не включать другие циклы. Узлы содержат последовательности, состоящие из базовых оснований и кодов вырожденных оснований, определенных ИЮПАК. [00182] In some embodiments, the sequence graph consists of nodes and directed edges. Graphs can include their own simple cycles (edges that connect a node to itself), but not other cycles. The nodes contain sequences consisting of base bases and degenerate base codes defined by IUPAC.
[00183] Путь в графе определяется последовательностью узлов, через которые проходит путь, а также начальной точкой пути на первом узле и конечной точкой на последнем узле. Положения указывают с использованием «полуоткрытой» системы координат с отсчетом от нуля. В библиотеке представлены обозначения множества операций на путях, включая расширение и сокращение путей, проверки перекрытия и объединение путей. [00183] A path in a graph is defined by the sequence of nodes through which the path passes, as well as the starting point of the path at the first node and the end point at the last node. Positions are indicated using a "semi-open" zero-based coordinate system. The library provides notations for many operations on paths, including extending and shortening paths, overlap checks, and merge paths.
[00184] Выравнивания графов содержат кодовые обозначения того, как линейные запрашиваемые последовательности (обычно это последовательности прочтений) выравнивают с графами. В некоторых вариантах реализации выравнивание графа содержит путь графа и последовательность линейных выравниваний, определяющих выравнивание запрашиваемой последовательности с узлами пути графа. С применением соответствующих операций с путями, выравнивания графов могут быть сокращены или объединены с другими выравниваниями графов. Сокращение пути обеспечивает механизм устранения концов выравниваний с низким уровнем достоверности, в то время как объединение выравниваний используется алгоритмами выравнивания графа для объединения полного выравнивания запрашиваемой последовательности с выравниваниями подпоследовательностей (например, кмер). В некоторых вариантах реализации алгоритм выравнивания работает путем поиска соответствия кмер между запрашиваемой последовательностью и графом и последующего расширения этого соответствия до полного выравнивания. В некоторых вариантах реализации выравнивание включает в себя выделение подграфа по пути, совпадающему с соответствием кмер (с «разворачиванием» циклов в процессе). Затем выполняют выравнивание Смита-Уотермана относительно полученного направленного ациклического графа. В некоторых вариантах реализации алгоритм поддерживает определение штрафов за аффинные пробелы и записывает с применением циклов постоянной длины для генерации кода SIMD компиляторами. [00184] Graph alignments contain codes for how linear query sequences (typically read sequences) are aligned with graphs. In some implementations, a graph alignment comprises a graph path and a sequence of linear alignments that define the alignment of the requested sequence with the nodes of the graph path. With appropriate path operations, graph alignments can be shortened or combined with other graph alignments. Path reduction provides a mechanism to eliminate the ends of low-confidence alignments, while alignment joining is used by graph alignment algorithms to combine the full alignment of the requested sequence with subsequence (eg, kmer) alignments. In some implementations, the alignment algorithm works by looking for a measure match between the requested sequence and the graph, and then expanding that match to a full alignment. In some implementations, the alignment includes extracting a subgraph along a path that matches the meter match (with "unrolling" the loops in the process). Then a Smith-Waterman alignment is performed with respect to the resulting directed acyclic graph. In some implementations, the algorithm supports defining affine gap penalties and writes using constant length loops to generate SIMD code by compilers.
[00185] В некоторых вариантах реализации путь в графе может быть получен с помощью алгоритма поиска, который включает расширение или сокращение пути путем увеличения или уменьшения количества повторов повторяющегося звена, представленного собственным простым циклом, до тех пор, пока выравнивание не достигнет критерия поиска или конвергенции (например, в случае, когда оценка выравнивания достигает максимального значения). [00185] In some implementations, a path in a graph can be obtained using a search algorithm that includes expanding or shortening the path by increasing or decreasing the number of repetitions of a repeating link represented by its own simple loop until the alignment reaches a search criterion or convergence (for example, in the case when the alignment score reaches the maximum value).
[00186] В некоторых вариантах реализации на основе графа последовательности генерируют множество путей в графе, причем каждый путь в графе представляет собой конкретное число повторов повторяющегося звена, представленного собственным простым циклом. Запрашиваемую последовательность выравнивают с множеством путей в графе, а затем путь, соответствующий критерию выравнивания, выбирают для выполнения графического выравнивания. [00186] In some embodiments, based on the graph, sequences generate a set of paths in the graph, with each path in the graph representing a specific number of repetitions of a repeating link represented by its own simple cycle. The requested sequence is aligned with a plurality of paths in the graph, and then a path corresponding to the alignment criterion is selected to perform graphical alignment.
Структура способа примененияApplication method structure
[00187] Некоторые варианты реализации разработаны в качестве общего способа выполнения целевого генотипирования вариантов (Фиг. 1H). В ходе каждого цикла программа предпринимает попытки генотипирования набора вариантов, [00187] Some embodiments are designed as a general way to perform targeted genotyping of variants (FIG. 1H). During each cycle, the program attempts to genotype a set of variants,
[00188] описанных в файле каталога вариантов. Варианты, расположенные в непосредственной близости друг от друга, сгруппированы в один и тот же локус. Структуру локуса указывают с применением ограниченного подмножества регулярного синтаксиса выражения (RE). RE содержат последовательности, расположенные в алфавитном порядке, состоящие из символов базовых оснований и кодов вырожденных оснований, определенных ИЮПАК; они должны содержать одно или более из следующих выражений (<последовательность>)?, (<последовательность a>|<последовательность b>), (<последовательность>)*, (<последовательность>)+, возможно, разделенных разрывами последовательностей. Данные выражения соответствуют вставкам/делециям, заменам, повторению последовательности 0 или более раз, а также повторению последовательности по меньшей мере один раз, соответственно. Кроме того, описание каждого локуса содержит набор основных областей для данного локуса, а также основные координаты каждого составляющего варианта. [00188] options described in the catalog file. Variants located in close proximity to each other are grouped into the same locus. The locus structure is specified using a limited subset of the regular expression (RE) syntax. REs contain alphabetical sequences of basic base symbols and degenerate base codes defined by IUPAC; they must contain one or more of the following expressions (<sequence>)?, (<sequence a>|<sequence b>), (<sequence>)*, (<sequence>)+, optionally separated by sequence breaks. These expressions correspond to insertions/deletions, substitutions, repetition of the sequence 0 or more times, and repetition of the sequence at least once, respectively. In addition, the description of each locus contains a set of base regions for that locus, as well as the base coordinates of each constituent variant.
[00189] Основная часть работы упорядочена по объектам класса LocusAnalyzer, который синтезирует граф последовательности, представляющий локус соответствующего RE в процессе инициализации. После инициализации анализатор локусов обрабатывает соответствующие прочтения путем их выравнивания с графом и дальнейшей передачи полученных выравниваний в ПО VariantAnalyzer, предназначенное для работы со всеми вариантами, содержащимся в локусе. ПО Variant Analyzer собирает информацию, важную с точки зрения процесса генотипирования связанного варианта, и передает ее ПО Genotyper, отвечающему за выполнение процесса генотипирования. Результаты, полученные каждой единицей ПО Genotyper, затем используются для создания выходного файла в формате VCF. [00189] The bulk of the work is ordered by objects of the LocusAnalyzer class, which synthesizes a sequence graph representing the locus of the corresponding RE during initialization. After initialization, the loci analyzer processes the corresponding reads by aligning them with the graph and then passing the resulting alignments to the VariantAnalyzer software, which is designed to work with all variants contained in the locus. The Variant Analyzer software collects information relevant to the related variant genotyping process and passes it on to the Genotyper software responsible for performing the genotyping process. The results generated by each unit of Genotyper software are then used to create an output file in VCF format.
[00190] Например, в анализаторе LocusAnalyzer, отвечающем за обработку локуса патогенным вариантом, связанным с синдромом Lynch I, используют анализатор ОНВ и анализатор КТП (Фиг. S1, правая панель). [00190] For example, the LocusAnalyzer responsible for processing the locus with a pathogenic variant associated with Lynch I syndrome uses an NVG analyzer and a CTP analyzer (FIG. S1, right panel).
5.8. Применение ПО Genotyper для работы с делециями5.8. Using the Genotyper software to work with deletions
[00191] Некоторые КТП могут иметь рядом небольшую вставку или делецию. Такие делеции моделируются в виде дополнительных подграфов фланкирующих последовательностей КТП. Количество прочтений, сопоставляемых с каждым аллелем (или путем в графе), моделируют с помощью распределения Пуассона, параметр скорости которого оценивают по средней глубине и длине прочтения, наблюдаемой в локусе. Вероятность генотипа рассчитывают по байесовской схеме. [00191] Some CFTs may have a small insertion or deletion nearby. Such deletions are modeled as additional subgraphs of flanking CTP sequences. The number of reads associated with each allele (or path in a graph) is modeled with a Poisson distribution whose rate parameter is estimated from the average read depth and length observed at the locus. The probability of the genotype is calculated according to the Bayesian scheme.
5.9. Идентификация экспансий повторов5.9. Identification of repeat expansions
[00192] Используя описанные в настоящем документе варианты реализации, можно определить различные наследственные заболевания, относящиеся к экспансии повторов с высокой эффективностью, чувствительностью и/или селективностью по сравнению с традиционными способами. В некоторых вариантах реализации настоящего изобретения предложены способы определения и распознавания значимых с медицинской точки зрения экспансий повторов, таких как экспансия повторов CGG, вызывающая задержку умственного развития при синдроме ломкой X-хромосомы, с помощью прочтений последовательностей, которые не полностью охватывают последовательность повторов. Короткие прочтения, такие как прочтения 100 п.н.о., являются недостаточно длинными для выполнения секвенирования множества экспансий повторов. Однако при выполнении анализа описанными способами образцы с экспансией повторов демонстрируют статистически значимый избыток прочтений, содержащих большое число последовательности повторов. Кроме того, крайне большие экспансии повторов содержат невыровненные пары прочтений, где оба прочтения полностью или почти полностью состоят из последовательности повторов. Нормальные образцы используют для определения фоновых ожиданий. [00192] Using the embodiments described herein, various hereditary diseases related to repeat expansion can be determined with high efficiency, sensitivity, and/or selectivity compared to conventional methods. In some embodiments, the present invention provides methods for detecting and recognizing medically significant repeat expansions, such as CGG repeat expansion causing mental retardation in fragile X syndrome, using sequence reads that do not fully capture the repeat sequence. Short reads, such as 100 bp reads, are not long enough to perform sequencing of multiple repeat expansions. However, when analyzed by the described methods, repeat expansion samples show a statistically significant excess of reads containing a large number of repeat sequences. In addition, extremely large repeat expansions contain misaligned pairs of reads, where both reads consist entirely or almost entirely of a sequence of repeats. Normal samples are used to determine background expectations.
[00193] Общепринятое убеждение заключается в том, что экспансию повторов невозможно обнаружить без применения прочтения, охватывающего весь повтор. В существующих подходах к обнаружению экспансий повторов используют целевое секвенирование с длинными прочтениями, и в некоторых случаях такие прочтения не являются успешными из-за недостаточной длины, вследствие чего с их помощью невозможно охватить последовательность повторов. Результаты некоторых описанных вариантов реализации были неожиданными, частично потому, что в них использованы нормальные (нецелевые) данные последовательности и длина прочтения около в 100 п.н.о., однако они обеспечивают очень высокую чувствительность при обнаружении экспансий повторов. Способы, изложенные в настоящем документе, позволяют обнаруживать число повторяющихся звеньев при экспансии повторов с помощью парных прочтений, имеющих длину вставки (т.е. два прочтения последовательностей и промежуточную последовательность), которая является более короткой, чем длина всей последовательности повторов. [00193] It is a commonly held belief that repeat expansion cannot be detected without applying a read covering the entire repeat. Existing approaches to detecting repeat expansions use targeted sequencing with long reads, and in some cases such reads are not successful due to insufficient length, as a result of which they cannot cover the sequence of repeats. The results of some of the described embodiments were unexpected, in part because they use normal (non-target) sequence data and a read length of about 100 bp, but they provide very high sensitivity in detecting repeat expansions. The methods described herein detect the number of repeat units in repeat expansion using paired reads having an insertion length (ie, two sequence reads and an intermediate sequence) that is shorter than the length of the entire repeat sequence.
[00194] Что касается деталей способов определения наличия экспансии повторов в соответствии с некоторыми вариантами реализации, на Фиг. 2 представлена блок-схема с изображением высокого уровня вариантов реализации для определения наличия или отсутствия экспансии повторов в последовательности повторов в образце. Последовательность повторов представляет собой нуклеотидную последовательность, содержащую повторяющиеся короткие последовательности, называемые повторяющимися звеньями. В приведенной выше Таблице 1 изложены примеры повторяющихся звеньев, количество повторов повторяющихся звеньев в повторяющихся последовательностях отн. нормальных и патогенных последовательностей, гены, связанные с последовательностями повторов, и заболевания, связанные с экспансией повторов. Процесс 200, проиллюстрированный на Фиг. 2, начинают с получения парных концевых прочтений исследуемого образца. См. блок 202. Парные концевые прочтения обрабатывают для выравнивания с эталонной последовательностью, содержащей исследуемую последовательность повторов. В некоторых контекстах процесс выравнивания также называют процессом сопоставления. Исследуемый образец содержит нуклеиновую кислоту и может иметь форму биологической жидкости, ткани и т.д., как дополнительно описано в разделе «Образец» ниже. Прочтения последовательностей подвергали процессу выравнивания для сопоставления с эталонной последовательностью. Для выполнения выравнивания прочтений с эталонной последовательностью могут использовать различные инструменты и алгоритмы выравнивания, как описано в других разделах настоящего описания. Обычно при выполнении алгоритмов выравнивания некоторые прочтения успешно выравнивают с эталонной последовательностью, тогда как другие прочтения могут выравнивать не настолько успешно, либо могут плохо выравниваться с эталонной последовательностью. Прочтения, которые последовательно выровнены с эталонной последовательностью, связаны с сайтами на эталонной последовательности. Выровненные прочтения и связанные с ними сайты также называются метками последовательностей. Как объяснено выше, выравнивание некоторых прочтений последовательностей, содержащих большое число повторов, с эталонной последовательностью, является более сложным. Если прочтение выровнено с эталонной последовательностью, и при этом уровень ошибочно спаренных оснований находится выше определенного критерия, такое прочтение считается плохо выровненным. В разнообразных вариантах реализации прочтения считают плохо выровненными, если они выровнены с по меньшей мере около 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 несовпадениями. В других вариантах реализации прочтения считают плохо выровненными, если они выровнены с по меньшей мере около 5% несовпадений. В других вариантах реализации прочтение считают плохо выровненным, если оно выровнено с по меньшей мере около 10%, 15% или 20% ошибочно спаренных оснований. [00194] With regard to the details of methods for determining the presence of repeat expansion, in accordance with some embodiments, FIG. 2 is a high-level block diagram of embodiments for determining the presence or absence of repeat expansion in a sequence of repeats in a sample. A repeat sequence is a nucleotide sequence containing repeating short sequences called repeat units. The above Table 1 sets out examples of repeating units, the number of repetitions of repeating units in repeating sequences rel. normal and pathogenic sequences, genes associated with repeat sequences, and diseases associated with repeat expansion. The
[00195] Как изображен на Фиг. 2, в процессе 200 описана определениекация базовых и закрепленных прочтений в парных концевых прочтениях. См. блок 204. Базовые прочтения считывают между парными концевыми прочтениями, которые выровнены с исследуемой последовательностью повторов или пространством рядом с ней. Например, базовое прочтение может быть выровнено с местоположением на эталонной последовательности, которая отделена от последовательности повторов длиной последовательности, которая меньше длины последовательности вставки. Длина разделения может быть меньше. Например, базовое прочтение может быть выровнено с местоположением на эталонной последовательности, которая отделена от последовательности повторов длиной последовательности, которая меньше длины последовательности базового прочтения или меньше общей длины последовательности базового прочтения и последовательности, которая соединяет базовое прочтение с закрепленным прочтением (длина вставки минус длина закрепленного прочтения). В некоторых вариантах реализации исследуемой последовательностью повторов может являться последовательность повторов в гене FMR1, включая повторы повторяющегося звена CGG. В нормальной эталонной последовательности последовательность повторов в гене FMR1 включает в себя около от 6 до 32 повторов повторяющегося звена CGG. Поскольку повторы расширяются до свыше 200 копий, существует вероятность патогенизации экспансии повторов, что вызывает синдром ломкой X-хромосомы. В некоторых вариантах реализации прочтение считают выровненным вблизи исследуемой последовательности в случаях, когда оно выровнено в пределах 1 000 п.н.о. от исследуемой последовательности повторов. В других вариантах реализации данный параметр может быть скорректирован, например, в пределах около 100 п.н.о., 200 п.н.о., 300 п.н.о., 400 п.н.о., 500 п.н.о., 600 п.н.о., 700 п.н.о., 800 п.н.о., 900 п.н.о., 1 500 п.н.о., 2 000 п.н.о., 3 000 п.н.о., 5 000 п.н.о. и т. д. Кроме того, в рамках процесса также определяют закрепленные прочтения, которые представляют собой прочтения, спаренные с базовыми прочтениями, но при этом они являются плохо выровненными или не могут быть выровнены с их эталонной последовательностью. Дополнительная информация о плохо выровненных прочтениях приведена выше. [00195] As shown in FIG. 2,
[00196] Процесс 200 дополнительно включает в себя определение вероятности присутствия экспансии повторов последовательности повторов в исследуемом образце, на основании определенных закрепленных прочтений, по меньшей мере, частично. См. блок 206. Данный этап процесса определения может включать в себя разнообразные подходящие методы анализа и вычисления, как дополнительно описано ниже. В некоторых вариантах реализации в рамках процесса для определения вероятности наличия экспансии повторов применяют определенные базовые прочтения, а также закрепленные прочтения. В некоторых вариантах реализации количество повторов в определенных базовых и закрепленных прочтениях анализируют и сравнивают с одним или более критериями, полученными теоретическим путем, либо полученными из эмпирических данных затронутых контрольных образцов. [00196] The
[00197] В разнообразных вариантах реализации, описанных в настоящем документе, повторы получают в качестве повторов внутри рамки, причем два повтора одного и того же повторяющегося звена попадают в одну и ту же рамку считывания. Рамка считывания представляет собой способ деления последовательности нуклеотидов в молекуле нуклеиновой кислоты (ДНК или РНК) на набор последовательных неперекрывающихся триплетов. Во время преобразования триплеты кодируют аминокислоты, и такие триплеты называются кодонами. Таким образом, любая последовательность имеет три возможных рамки считывания. В некоторых вариантах реализации повторы подсчитывают в соответствии с тремя различными рамками считывания, а один подсчет из трех, показавший наибольшее значение, считается количеством соответствующих повторов в прочтении. [00197] In the various embodiments described herein, repeats are generated as in-frame repeats, with two repeats of the same repeat unit falling within the same reading frame. A reading frame is a method of dividing a sequence of nucleotides in a nucleic acid molecule (DNA or RNA) into a set of consecutive non-overlapping triplets. During conversion, triplets code for amino acids, and such triplets are called codons. Thus, any sequence has three possible reading frames. In some embodiments, repeats are counted according to three different reading frames, and the one count of the three that shows the highest value is considered the number of corresponding repeats in the read.
[00198] Пример процесса, включающего в себя выполнение дополнительной операции и анализов, проиллюстрирован на Фиг. 3. На Фиг. 3 представлена блок-схема, иллюстрирующая процесс 300, необходимый для обнаружения экспансии повторов с использованием парных концевых прочтений, имеющих большое количество повторов. Способ 300 включает в себя дополнительные действия для обработки исследуемого образца. Процесс начинают с секвенирования исследуемого образца, содержащего нуклеиновые кислоты, для получения парных концевых прочтений. См. блок 302. В некоторых вариантах реализации исследуемый образец может быть получен и подготовлен разнообразным способами, как дополнительно описано ниже в разделе «Образцы». Например, исследуемый образец может представлять собой биологическую текучую среду, например, плазму или любой подходящий образец, как описано ниже. Образец может быть получен с применением неинвазивной процедуры, такой как обычный забор крови. В некоторых вариантах реализации исследуемый образец содержит смесь молекул нуклеиновых кислот, например, молекул скДНК. В некоторых вариантах реализации исследуемый образец представляет собой образец материнской плазмы, содержащий смесь молекул эмбриональной и материнской ДНК. [00198] An example of a process including performing additional steps and assays is illustrated in FIG. 3. In FIG. 3 is a flow diagram illustrating the
[00199] Перед секвенированием нуклеиновые кислоты экстрагируют из образца. Подходящие процессы экстракции и устройство описаны в других разделах настоящего документа. В некоторых вариантах реализации устройством выполняют совместную обработку ДНК из множества образцов для мультиплексирования библиотек и данных последовательности. В некоторых вариантах реализации устройством 20 выполняют обработку ДНК восьми или более исследуемых образцов параллельно. Как описано ниже, системой секвенирования могут обрабатывать извлекаемую ДНК для получения библиотеки кодированных (например, путем штрих-кодирования) фрагментов ДНК. [00199] Prior to sequencing, nucleic acids are extracted from the sample. Suitable extraction processes and apparatus are described elsewhere in this document. In some embodiments, the device performs co-processing of DNA from multiple samples to multiplex libraries and sequence data. In some embodiments, the device 20 processes the DNA of eight or more test samples in parallel. As described below, the extracted DNA can be processed by the sequencing system to produce a library of encoded (eg, barcoded) DNA fragments.
[00200] В некоторых вариантах реализации нуклеиновые кислоты в исследуемом образце можно дополнительно обрабатывать для подготовки библиотек для одноканального или многоканального секвенирования, как дополнительно описано ниже в разделе «Подготовка библиотек для секвенирования». После обработки и подготовки образцов секвенирование нуклеиновой кислоты могут выполнять разнообразными способами. В некоторых вариантах реализации можно применять разнообразные платформы и протоколы секвенирования следующего поколения, которые дополнительно описаны в разделе «Способы секвенирования» ниже. [00200] In some embodiments, the nucleic acids in the test sample can be further processed to prepare libraries for single-channel or multi-channel sequencing, as further described below in the "Library Preparation for Sequencing" section. After sample processing and preparation, nucleic acid sequencing can be performed in a variety of ways. In some embodiments, a variety of next generation sequencing platforms and protocols may be used, which are further described in the "Sequencing Methods" section below.
[00201] Независимо от конкретной платформы и протокола секвенирования в блоке 302 по меньшей мере часть содержащихся в образце нуклеиновых кислот секвенируют для генерирования десятков тысяч, сотен тысяч или миллионов прочтений последовательностей, например, прочтений 100 п.н.о. В некоторых вариантах реализации прочтения включают в себя парные концевые прочтения. В других вариантах реализации, в том числе описанных ниже со ссылкой на Фиг. 5, в дополнение к парным концевым прочтениям для определения последовательности повторов можно применять одиночные концевые длинные прочтения, охватывающие более сотен тысяч или десятков тысяч оснований. В некоторых вариантах реализации прочтения последовательностей содержат около 20 п.н.о., около 25 п.н.о., около 30 п.н.о., около 35 п.н.о., около 36 п.н.о., около 40 п.н.о., около 45 п.н.о., около 50 п.н.о., около 55 п.н.о., около 60 п.н.о., около 65 п.н.о., около 70 п.н.о., около 75 п.н.о., около 80 п.н.о., около 85 п.н.о., около 90 п.н.о., около 95 п.н.о., около 100 п.н.о., около 110 п.н.о., около 120 п.н.о., около 130, около 140 п.н.о., около 150 п.н.о., около 200 п.н.о., около 250 п.н.о., около 300 п.н.о., около 350 п.н.о., около 400 п.н.о., около 450 п.н.о. или около 500 п.н.о. Ожидается, что при генерировании парных концевых прочтений технологические достижения обеспечат возможность одиночных концевых прочтений более 500 п.н.о. и прочтений более 1 000 п.н.о. [00201] Regardless of the specific sequencing platform and protocol, at
[00202] В процессе 300 описано выравнивание результатов парных концевых прочтений, полученных из блока 302, с эталонной последовательностью, включающей в себя последовательность повторов. См. блок 304. В некоторых вариантах реализации последовательность повторов имеет склонность к экспансии. Известно, что в некоторых вариантах реализации экспансия повторов связана с генетическим заболеванием. В других вариантах реализации экспансия повторов последовательности повторов ранее не была изучена для установления связи с генетическим заболеванием. Способы, описанные в настоящем документе, позволяют обнаруживать последовательность повторов и экспансию повторов независимо от любой связанной с ней патологии. В некоторых вариантах реализации прочтения выравнивают с эталонным геномом; пример: hg18. В других вариантах реализации прочтения выравнивают с участком эталонного генома, например, с хромосомой или сегментом хромосомы. Прочтения, однозначно сопоставленные с эталонным геномом, называются метками последовательностей. В одном варианте реализации по меньшей мере около 3 × 106 квалифицированных меток последовательности, по меньшей мере около 5 × 106 квалифицированных меток последовательности, по меньшей мере около 8 × 106 квалифицированных меток последовательности, по меньшей мере около 10 × 106 квалифицированных меток последовательности, по меньшей мере около 15 × 106 квалифицированных меток последовательности, по меньшей мере около 20 × 106 квалифицированных меток последовательностей, по меньшей мере около 30 × 106 квалифицированных меток последовательностей, по меньшей мере около 40 × 106 квалифицированных меток последовательностей или по меньшей мере около 50 × 106 квалифицированных меток последовательностей получают на основе прочтений, однозначно сопоставляемых с эталонным геномом. [00202]
[00203] В некоторых вариантах реализации в рамках процесса могут выполнять фильтрацию прочтений последовательности перед выравниванием. В некоторых вариантах реализации фильтрация прочтений представляет собой процесс качественной фильтрации, выполняемый с применением программного обеспечения секвенатора и направленный на отсечение ошибочных и низкокачественных прочтений. Например, программное обеспечение Illumina под названием Sequencing Control Software (SCS), а также Consensus Assessment of Sequence and Variation, применяют для отсечения ошибочных и низкокачественных прочтений путем преобразования исходных изображений-данных, генерированных в результате реакций секвенирования, в значения интенсивности, процессы распознавания оснований, оценки качества и дополнительные форматы для сбора биологически релевантной информации для этапа дальнейшего анализа. [00203] In some implementations, the process may filter sequence reads before alignment. In some embodiments, read filtering is a quality filtering process performed by the sequencer software to filter out erroneous and poor quality reads. For example, Illumina's Sequencing Control Software (SCS), as well as the Consensus Assessment of Sequence and Variation, are used to cull misread and low-quality reads by converting raw image data generated from sequencing reactions into intensity values, base-calculation processes , quality assessments and additional formats for collecting biologically relevant information for the further analysis stage.
[00204] В определенных вариантах реализации прочтения, полученные с помощью аппарата для секвенирования, представлены в электронном формате. Процесс выравнивания осуществляют с помощью вычислительного устройства, как описано ниже. Отдельные прочтения сравнивают с эталонным геномом, который часто является обширным (миллионы пар нуклеотидных оснований), чтобы определить точки, где прочтения однозначно соответствуют эталонному геному. В некоторых вариантах реализации в рамках выравниваний допускают ограниченное несоответствие между прочтениями и эталонным геномом. В некоторых случаях допускается несовпадение 1, 2, 3 или более соответствующих пар нуклеотидных оснований в эталонном геноме, и при этом по-прежнему выполняют сопоставление. В некоторых вариантах реализации прочтения считают выровненными прочтениями в случаях, когда прочтения выровнены с эталонной последовательностью, содержащей не более чем 1, 2, 3 или 4 пары нуклеотидных оснований. Соответственно, невыровненные прочтения представляют собой прочтения, которые не могут быть выровнены или являются плохо выровненными. Плохо выровненные прочтения представляют собой прочтения с большим количеством несовпадений, чем у выровненных прочтений. В некоторых вариантах реализации прочтения считают выровненными прочтениями в случаях, когда прочтения выровнены с эталонной последовательностью, содержащей не более 1%, 2%, 3%, 4%, 5% или 10% пар нуклеотидных оснований. [00204] In certain embodiments, reads obtained with a sequencing machine are in electronic format. The alignment process is carried out using a computing device, as described below. Individual reads are compared to a reference genome, which is often extensive (millions of base pairs), to determine points where the reads uniquely match the reference genome. In some embodiments, alignments allow limited mismatch between reads and the reference genome. In some cases, a mismatch of 1, 2, 3, or more of the corresponding nucleotide base pairs in the reference genome is allowed, and the match is still performed. In some embodiments, reads are considered aligned reads when the reads are aligned with a reference sequence containing no more than 1, 2, 3, or 4 nucleotide base pairs. Accordingly, misaligned reads are reads that cannot be aligned or are poorly aligned. Poorly aligned reads are reads with more mismatches than aligned reads. In some embodiments, reads are considered aligned reads when the reads are aligned with a reference sequence containing no more than 1%, 2%, 3%, 4%, 5%, or 10% of base pairs.
[00205] После выравнивания парных концевых прочтений с эталонной последовательностью, содержащей исследуемую последовательность повторов, в рамках процесса 300 выполняют определение базовых и закрепленных прочтений между парными концевыми прочтениями. См. блок 306. Как упоминалось выше, базовые прочтения представляют собой парные концевые прочтения, выровненные с последовательностью повторов или с пространством вблизи нее. В некоторых вариантах реализации базовые прочтения представляют собой парные концевые прочтения, которые выровнены в пределах 1 т. п. н. Последовательности повторов. Закрепленные прочтения являются спаренными с базовыми прочтениями, но при этом они не могут быть выровнены или являются плохо выровненными с эталонной последовательностью, как описано выше. [00205] After aligning the paired end reads with the reference sequence containing the repeat sequence of interest, a
[00206] В рамках процесса 300 анализируют количество повторов повторяющихся звеньев в определенных базовых и/или закрепленных прочтениях для определения наличия или отсутствия экспансии последовательности повторов. Более конкретно, процесс 300 включает в себя применение числа повторов в прочтениях для получения чисел прочтений большого объема в базовых и/или закрепленных прочтениях. Прочтения большого объема представляют собой прочтения с большим количеством повторов, чем пороговое значение. В некоторых вариантах реализации прочтения большого объема получают только из закрепленных прочтений. В других вариантах реализации прочтения большого объема получают как с базовых, так и с закрепленных прочтений. Если в некоторых вариантах реализации число повторов приближается к максимально возможному числу повторов для прочтения, прочтение считают прочтением большого объема. Например, если прочтение составляет 100 п.н.о., а рассматриваемое повторяющееся звено составляет 3 п.н.о., максимальное число повторов составит 33. Другими словами, максимальное значение рассчитывают на основе длины парных концевых прочтений и длины повторяющегося звена. В частности, максимальное число повторов можно получить путем деления длины прочтения на длину повторяющегося звена и округления полученного значения в меньшую сторону. В данном примере в рамках различных вариантов реализации могут определять прочтения 100 п.н.о., имеющие по меньшей мере около 28, 29, 30, 31, 32 или 33 повторов в прочтениях большого объема. Количество повторов в прочтениях большого объема может регулироваться в большую или меньшую сторону на основании эмпирических факторов. В разнообразных вариантах реализации пороговое значение для прочтений большого объема составляет по меньшей мере около 80%, 85%, 90% или 95% от максимального числа повторов. [00206] As part of the
[00207] Затем в рамках процесса 300 определяют возможное присутствие экспансии повторов в последовательности повторов на основании количества прочтений большого объема. См. блок 310. В некоторых вариантах реализации в рамках анализа полученные прочтения большого объема сравнивают с критерием распознавания и выполняют определение вероятного присутствия экспансии повторов при превышении значений критерия. В некоторых вариантах реализации критерий распознавания получают на основе распределения прочтений контрольных образцов большого объема. Например, анализируют множество контрольных образцов, имеющих или предположительно имеющих нормальную последовательность повторов, и для контрольных образцов получают прочтения большого объема таким же образом, как описано выше. Можно выполнить распределение прочтений большого объема отн. контрольных образцов и оценить вероятность появления незатронутого образца с прочтениями большого объема, превышающими конкретное значение. Данная вероятность позволяет определять чувствительность и селективность с учетом критерия распознавания, установленного относительно данного конкретного значения. В некоторых вариантах реализации критерий распознавания устанавливают на пороговое значение, и таким образом вероятность появления незатронутого образца с прочтениями большого объема, превышающими пороговое значение, составляет менее 5%. Другими словами, p-значение меньше чем 0,05. В данных вариантах реализации по мере экспансии повторов последовательность повторов становится длиннее, и появляется возможность появления большего количества прочтений исключительно в рамках в последовательности повторов, а также появляется возможность получения большего количества прочтений образца. В разнообразных альтернативных вариантах реализации можно выбрать более заниженный критерий распознавания таким образом, чтобы вероятность появления незатронутого образца с прочтениями большого объема, превышающими пороговое значение, составляла менее, чем около 1%, 0,1%, 0,01%, 0,001%, 0,0001% и т.д. Следует понимать, что критерий распознавания можно отрегулировать в сторону повышения или понижения в зависимости от разнообразных факторов и необходимости повышения чувствительности или селективности испытания. [00207]
[00208] В некоторых вариантах реализации вместо применения эмпирического варианта получения критерия распознавания по количеству прочтений большого объема от контрольных образцов или в дополнение к нему теоретически может быть получен критерий распознавания для определения экспансии повторов. Можно рассчитать ожидаемое количество прочтений, которые полностью находятся в пределах диапазона повторения, с учетом количества параметров, включая длину парных концевых прочтений, длину последовательности, имеющей экспансию повторов, и глубину секвенирования. Например, можно применять глубину секвенирования для вычисления среднего расстояния между прочтениями в выровненном геноме. В случае, если отдельный образец секвенировали при 30-кратной глубине, общее количество секвенированных оснований равняется результату произведения размера генома на глубину. В случае применения настоящего способа к человеку, данное количество будет составлять около 3 × 109 30=9 × 1010. Если каждое прочтение имеет длину в 100 п.н.о., то для достижения данной глубины требуется всего 9 × 108 прочтений. Поскольку геном является диплоидным, половина данных прочтений представляет собой результаты секвенирования одной хромосомы/гаплотипа, а остальные прочтения представляют собой результаты секвенирования другой хромосомы/гаплотипа. На каждый гаплотип проводят по 4,5 × 108 прочтений, а при делении общего размера генома на это число получают среднее расстояние между начальными положениями каждого прочтения, т.е. в среднем 3 × 109/4,5 × 108=1 прочтение на каждые 6,7 п.н.о. Можно использовать данное число для оценки числа прочтений, которые будут полностью находиться в пределах последовательности повторов, на основе размера данной последовательности повторов у конкретного субъекта. В случае, если общий размер последовательности повторов составляет 300 п.н.о., любое прочтение, начинающееся в пределах первых 200 п.н.о. данной последовательности повторов, будет полностью находиться в пределах последовательности повторов (прочтения, начинающиеся в пределах последних 100 п.н.о., будут по меньшей мере частично находиться за пределами последовательности повторов на основании длин прочтений в 100 п.н.о.). Поскольку ожидается, что прочтение будет выравниваться на каждых 6,7 п.н.о., ожидается, что 200 п.н.о. / (6,7 п.н.о. на каждое прочтение) = 30 прочтений будут полностью выравниваться в пределах последовательности повторов. Несмотря на то, что данное число может изменяться, это позволяет оценить общее число прочтений, которые будут полностью находиться в пределах последовательности повторов при любом размере экспансии. [00208] In some embodiments, instead of using an empirical variant of obtaining a recognition criterion from the number of reads of a large volume from control samples, or in addition to it, a recognition criterion can theoretically be obtained to determine the expansion of repeats. It is possible to calculate the expected number of reads that are completely within the repeat range given a number of parameters including the length of paired end reads, the length of the sequence having repeat expansion, and the sequencing depth. For example, sequencing depth can be used to calculate the average distance between reads in an aligned genome. In case a single sample was sequenced at 30x depth, the total number of bases sequenced equals the product of genome size times depth. In the case of applying the present method to a human, this amount will be about 3×10 9 30=9×10 10 . If each read is 100 bp long, then only 9 × 10 8 reads are required to reach this depth. Since the genome is diploid, half of these reads are sequencing results from one chromosome/haplotype, and the remaining reads are sequencing results from another chromosome/haplotype. For each haplotype, 4.5 × 10 8 reads are carried out, and when dividing the total genome size by this number, the average distance between the initial positions of each reading is obtained, i.e. on average 3 × 10 9 / 4.5 × 10 8 = 1 reading for every 6.7 b.p. You can use this number to estimate the number of reads that will fall entirely within a repeat sequence based on the size of a given repeat sequence in a particular subject. In case the total size of the repeat sequence is 300 bp, any read starting within the first 200 bp. of a given repeat sequence will be entirely within the repeat sequence (reads starting within the last 100 bp will be at least partially outside the repeat sequence based on 100 bp read lengths). Since the read is expected to level off every 6.7 bp, it is expected that 200 bp / (6.7 bp per read) = 30 reads will fully align within the repeat sequence. Although this number may vary, it gives an estimate of the total number of reads that will be completely within the repeat sequence at any expansion size.
[00209] В некоторых вариантах реализации критерий распознавания рассчитывают на основании расстояния между первым и последним наблюдениями последовательности повторов в пределах прочтений, таким образом допуская мутации в последовательности повторов и ошибки секвенирования. [00209] In some embodiments, a recognition criterion is calculated based on the distance between the first and last observation of a repeat sequence within reads, thus allowing for mutations in the repeat sequence and sequencing errors.
[00210] В некоторых вариантах реализации способ может дополнительно включать в себя диагностирование подверженности субъекта, от которого получен исследуемый образец, повышенному риску развития генетических заболеваний, таких как синдром ломкой X-хромосомы, АБС, болезнь Хантингтона, атаксия Фридрейха, спиномозжечковая атаксия, спинобульбарная мышечная атрофия, миотоническая дистрофия, болезнь Мачадо-Джозефа, дентато-рубро-паллидо-льюисова атрофия и т.д. Такой диагноз может основываться на определении вероятности присутствия экспансии повторов в исследуемом образце, а также на последовательности повторов и генов, связанных с экспансией повторов. В других вариантах реализации в случаях, если генетическое заболевание неизвестно, некоторые варианты реализации могут использоваться для обнаружения аномально большого количества повторов для выявления генетических предпосылок заболевания. [00210] In some embodiments, the method may further include diagnosing the susceptibility of the subject from which the test sample is obtained to an increased risk of developing genetic diseases, such as fragile X syndrome, ABS, Huntington's disease, Friedreich's ataxia, spinocerebellar ataxia, spinobulbar muscular atrophy, myotonic dystrophy, Machado-Joseph disease, dentato-rubro-pallido-Lewis atrophy, etc. Such a diagnosis can be based on determining the probability of the presence of repeat expansion in the test sample, as well as on the sequence of repeats and genes associated with repeat expansion. In other embodiments, in cases where the genetic disease is unknown, some embodiments may be used to detect an abnormally high number of repeats in order to identify the genetic preconditions for the disease.
[00211] На Фиг. 4 представлена блок-схема, иллюстрирующая другой способ обнаружения экспансии повторов в соответствии с некоторыми вариантами реализации. Для определения наличия экспансии повторов в процессе 400 вместо прочтений большого объема применяют число повторов в парных концевых прочтениях исследуемого образца. Процесс 400 начинают с секвенирования исследуемого образца, содержащего нуклеиновую кислоту, для получения парных концевых прочтений. См. блок 402, эквивалентный блоку 302 процесса 300. Процесс 400 продолжают, путемвыравнивания парных концевых прочтений с эталонной последовательностью, содержащей последовательность повторов. См. блок 404, эквивалентный блоку 304 процесса 300. Процесс продолжают путем определения базовых значений и базовых прочтений в парных концевых прочтениях, причем базовые прочтения осуществляются с выравниванием с последовательностью повторов или пространством вблизи нее, а закрепленные прочтения представляют собой невыровненные прочтения, которые сопряжены с базовыми прочтениями. В некоторых вариантах реализации невыровненные прочтения включают в себя как прочтения, которые не могут быть выровнены, так и прочтения, плохо выровненные с эталонной последовательностью. [00211] In Fig. 4 is a block diagram illustrating another method for detecting repeat expansion, in accordance with some embodiments. To determine the presence of repeat expansion in
[00212] После определения базовых и закрепленных прочтений в рамках процесса 400 получают количество повторов в базовых и/или закрепленных прочтениях исследуемого образца. См. блок 408. Затем в рамках процесса получают распределение количества повторов в базовых и/или закрепленных прочтениях исследуемого образца. В некоторых вариантах реализации анализируют только количество повторов, полученное в рамках закрепленных прочтений. В других вариантах реализации анализируют повторы как закрепленных прочтений, так и базовых прочтений. Затем распределение числа повторов исследуемого образца сравнивают с распределением числа повторов одного или более контрольных образцов. См. блок 410. В некоторых вариантах реализации в рамках процесса выполняют определение присутствия экспансии повторов последовательности повторов в исследуемом образце в случае, если распределение исследуемого образца имеет статистически значимые отличия от распределения контрольных образцов. См. блок 412. В процессе 400 анализируют количество повторов относительно прочтений, включая прочтения большого объема и прочтения малого объема, которое отличается от процесса, в рамках которого анализируются только прочтения большого объема, как описано выше относительно процесса 300. [00212] Once baseline and anchored reads are determined,
[00213] В некоторых вариантах реализации сравнение распределения исследуемого образца с распределением контрольных образцов включает в себя использование рангового критерия Манна-Уитни для определения значительности различий этих двух распределений. В некоторых вариантах реализации в рамках анализа выполняют определение вероятного присутствия экспансии повторов в исследуемом образце в случае, если распределение исследуемого образца в большей степени смещено к большему количеству повторов по сравнению с контрольными образцами, а p-значение рангового критерия Манна-Уитни составляет менее чем около 0,0001 или 0,00001. При необходимости можно выполнять корректировку р-значения для улучшения селективности или чувствительности теста. [00213] In some embodiments, comparing the distribution of a test sample with that of control samples includes using a Mann-Whitney rank test to determine whether the two distributions are significantly different. In some embodiments, the assay performs a determination of the likely presence of repeat expansion in a test sample if the distribution of the test sample is more skewed toward more repeats than controls and the p-value of the Mann-Whitney rank test is less than about 0.0001 or 0.00001. If necessary, you can adjust the p-value to improve the selectivity or sensitivity of the test.
[00214] В рамках процессов обнаружения экспансии повторов, описанной выше относительно Фиг. 2-4, применяют закрепленные прочтения, которые представляют собой невыровненные прочтения, спаренные с прочтениями, выровненными относительно исследуемой последовательности повторов. Вариации в данных процессах могут включать в себя поиск среди невыровненных прочтений таких пар прочтений, которые практически полностью состоят из последовательности повторов какого-либо типа для обнаружения новых ранее неопределенных экспансий повторов, которые могут являться значимыми с медицинской точки зрения. Данный способ не позволяет выполнить количественную оценку точного числа повторов, но является эффективным для определения крайних экспансий повторов или артефактов, которые должны быть помечены для дальнейшего выполнения количественного определения. В сочетании с более длинными прочтениями, в рамках данного способа можно выполнять как определение, так и количественную оценку повторов до 200 п.н.о. или более в пределах общей длины. [00214] As part of the repeat expansion detection processes described above with respect to FIG. 2-4, pinned reads are used, which are unaligned reads paired with reads aligned to the repeat sequence under study. Variations in these processes may include searching the misaligned reads for pairs of reads that consist almost entirely of a sequence of repeats of some type to discover new previously undetermined repeat expansions that may be medically significant. This method does not quantify the exact number of repeats, but is effective for determining extreme repeat expansions or artifacts that must be flagged for further quantification. Combined with longer reads, this method can both detect and quantify repeats up to 200 bp. or more within the total length.
[00215] На Фиг. 5 проиллюстрирована блок-схема процесса 500, в котором для определения экспансии повторов применяют невыровненные прочтения, не связанные с какой-либо исследуемой последовательностью повторов. В рамках процесса 500 для обнаружения экспансии повторов можно применять невыровненные прочтения целого генома. Процесс начинают с секвенирования исследуемого образца, содержащего нуклеиновые кислоты, для получения парных концевых прочтений. См. блок 502. Процесс 500 продолжают путем выравнивания парных концевых прочтений с эталонным геномом. См. блок 504. Затем в рамках процесса выполняют определение невыровненных прочтений целого генома. Невыровненные прочтения включают в себя парные концевые прочтения, которые не могут быть выровнены или являются плохо выровненными с эталонной последовательностью. См. блок 506. Затем в рамках процесса анализируют число повторов повторяющегося звена в невыровненных прочтениях для определения вероятности наличия экспансии повторов в исследуемом образце. Такой анализ может не зависеть от какой-либо конкретной последовательности повторов. Такой анализ можно применять к разнообразным повторяющимся звеньям, и число повторов в различных повторяющихся звеньях исследуемого образца можно сравнить с числом повторяющихся звеньев в нескольких контрольных образцах. В данном анализе можно применять методы сравнения исследуемого образца с контрольными образцами, описанными выше. В случае, если в результате сравнения было обнаружено, что исследуемый образец имеет аномально большое число повторений повторяющегося звена, можно провести дополнительный анализ для определения наличия экспансии повторов конкретной исследуемой последовательности повторов в исследуемом образце. См. блок 510. [00215] In Fig. 5 illustrates a flowchart of a
[00216] В некоторых вариантах реализации дополнительный анализ включает прочтение очень длинных последовательностей, которые потенциально могут охватывать длинные последовательности повторов, имеющие экспансии повторов, являющиеся значимыми с медицинской точки зрения. Прочтения, выполненные в рамках данного дополнительного анализа, длиннее парных концевых прочтений. В некоторых вариантах реализации для получения длинных прочтений используют одномолекулярное секвенирование или синтетическое секвенирование с применением длинных прочтений. В некоторых вариантах реализации связь между экспансией повторов и генетическим заболеванием является известной в данной области. Однако в других вариантах реализации связь между экспансией повторов и генетическим заболеванием может не являться известной в данной области. [00216] In some embodiments, the additional analysis includes reading very long sequences, which can potentially span long repeat sequences having repeat expansions that are medically significant. The reads performed in this additional analysis are longer than the paired end reads. In some embodiments, single molecule sequencing or synthetic sequencing using long reads is used to obtain long reads. In some embodiments, the association between repeat expansion and a genetic disease is known in the art. However, in other embodiments, the relationship between repeat expansion and the genetic disease may not be known in the art.
[00217] В некоторых вариантах реализации анализ числа повторов повторяющегося звена в невыровненных прочтениях операции 510 включает в себя выполнение анализа большого объема, сравнимого с анализом, выполняемым в рамках операции 308 (см. Фиг. 3). Анализ включает в себя получение количества прочтений большого объема, причем прочтения большого объема представляют собой невыровненные прочтения с большим количеством повторений, чем пороговое значение; и сравнение числа прочтений большого объема прочтений в исследуемом образце с критерием распознавания. В некоторых вариантах реализации пороговое значение для прочтений большого объема составляет по меньшей мере около 80% от максимального числа повторов, причем максимальное значение рассчитывают как отношение длины парных концевых прочтений к длине повторяющегося звена. В некоторых вариантах реализации прочтения большого объема также включают в себя прочтения, сопряженные с невыровненными прочтениями, и имеющие больше повторений, чем пороговое значение. [00217] In some implementations, the analysis of the number of repetitions of the repeating element in the misaligned reads of
[00218] В некоторых вариантах реализации перед дополнительным анализом операции 510 процесс дополнительно включает в себя (a) определение парных концевых прочтений, сопряженных с невыровненными прочтениями и выровненных с последовательностью повторов на эталонном геноме или с пространством вблизи нее; и (b) предоставление последовательности повторов в качестве конкретной исследуемой последовательности повторов для выполнения операции 510. Затем в рамках дополнительного анализа исследуемой последовательности повторов может использоваться любой из способов в соответствии с Фиг. 2-4, описанных выше. [00218] In some embodiments, prior to further analysis of
ОбразцыSamples
[00219] Образцы, применяемые для определения экспансии повторов, могут включать образцы, взятые из любой клетки, текучей среды, ткани или органа, включая нуклеиновые кислоты, в которых необходимо определить экспансию повторов в одной исследуемой последовательности повторов или более. В некоторых вариантах реализации, связанных с диагностикой плода, предпочтительно получать свободно-клеточные нуклеиновые кислоты, например, свободно-клеточную ДНК (скДНК), из жидкости материнского организма. Свободно-клеточные нуклеиновые кислоты, включая свободно-клеточную ДНК, можно получать разнообразными способами, известными в данной области, из биологических образцов, включая, без ограничений, плазму, серозный экссудат и мочу (см., например, Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; and Su et al., J Mol. Diagn. 6: 101-107 [2004]). [00219] Samples used to determine repeat expansion may include samples taken from any cell, fluid, tissue or organ, including nucleic acids, in which it is necessary to determine the expansion of repeats in one or more repeat sequences of interest. In some embodiments related to fetal diagnosis, it is preferable to obtain free-cell nucleic acids, such as free-cell DNA (scDNA), from maternal body fluid. Free-cell nucleic acids, including free-cell DNA, can be obtained by a variety of methods known in the art from biological samples, including, without limitation, plasma, serous exudate, and urine (see, for example, Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008] Koide et al., Prenatal Diagnosis 25:604-607 [2005] Chen et al., Nature Med. 2: 1033-1035 [1996] Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; and Su et al., J Mol. Diagn. 6: 101-107 [2004]).
[00220] В разнообразных вариантах реализации нуклеиновые кислоты (например, ДНК или РНК), присутствующие в образце, могут быть обогащены специфическим или неспецифическим образом перед применением (например, перед подготовкой библиотеки для секвенирования). В иллюстративных примерах, изображенных ниже, ДНК используются в качестве примера нуклеиновых кислот. Неспецифическое обогащение образца ДНК означает амплификацию всего генома фрагментов геномной ДНК образца, которые можно использовать для повышения уровня образца ДНК до момента подготовки библиотеки для секвенирования скДНК. Способы амплификации целого генома являются известными специалистам в данной области. Примерами способов амплификации целого генома является ПЦР, примированная вырожденным олигонуклеотидом (DOP), метод ПЦР с применением достройки праймера (PEP) и амплификация с множественным замещением (MDA). В некоторых вариантах реализации образец может представлять собой необогащенную ДНК. [00220] In various embodiments, nucleic acids (eg, DNA or RNA) present in a sample may be enriched in a specific or non-specific manner prior to use (eg, prior to preparing a library for sequencing). In the illustrative examples below, DNA is used as an example of nucleic acids. Non-specific enrichment of a DNA sample means genome-wide amplification of fragments of the sample's genomic DNA that can be used to increase the level of the DNA sample prior to preparation of the scDNA sequencing library. Whole genome amplification methods are known to those skilled in the art. Examples of whole genome amplification methods are degenerate oligonucleotide primed PCR (DOP), primer extension PCR (PEP), and multiple displacement amplification (MDA). In some embodiments, the sample may be unenriched DNA.
[00221] Образец, содержащий нуклеиновые кислоты, к которым применяют способы, описанные в настоящем документе, обычно включает в себя биологический образец («исследуемый образец»), как описано выше. В некоторых вариантах реализации нуклеиновые кислоты, подлежащие проверке на предмет экспансии повторов, очищают или выделяют любым из хорошо известных способов. [00221] A sample containing nucleic acids to which the methods described herein are applied typically includes a biological sample ("test sample") as described above. In some embodiments, nucleic acids to be tested for repeat expansion are purified or isolated by any of the well known methods.
[00222] Соответственно, в определенных вариантах реализации образец содержит или по существу состоит из очищенного или выделенного полинуклеотида, либо может содержать образцы, в том числе образец ткани, образец биологической текучей среды, клеточный образец и т. п. Подходящие образцы биологической текучей среды включают, без ограничений, образцы крови, плазмы, серозного экссудата, пота, слезной жидкости, мокроты, мочи, ушной жидкости, лимфы, слюны, спинномозговой жидкости, лаважа, суспензии костного мозга, влагалищной жидкости, трансцервикального лаважа, жидкости головного мозга, асцитической жидкости, секретов дыхательных, кишечных и мочеполовых путей, амниотической жидкости, молока и образцов лейкофореза. В некоторых вариантах реализации образец представляет собой образец, легко получаемый неинвазивными процедурами, например, кровь, плазму, серозный экссудат, пот, слезную жидкость, мокроту, мочу, ушную жидкость, слюну или фекалии. В некоторых вариантах реализации образец представляет собой образец периферической крови или фракции плазмы и/или серозного экссудата образца периферической крови. В других вариантах реализации биологический образец представляет собой материал, полученный путем выполнения биопсии, взятия смыва, мазка, либо клеточную культуру. В другом варианте реализации образец представляет собой смесь двух или более биологических образцов; например, биологический образец может включать в себя два или более образца биологической текучей среды, ткани или клеточной культуры. Используемые в настоящем документе термины «кровь», «плазма» и «серозный экссудат» относятся к фракциям или их обработанным частям. Аналогичным образом, в случае, если образец получают путем выполнения биопсии, взятия смыва, мазка и т.д., термин «образец» обозначает обработанную фракцию или часть, полученную путем выполнения биопсии, взятия смыва, мазка и т.д. [00222] Accordingly, in certain embodiments, the sample contains or essentially consists of a purified or isolated polynucleotide, or may contain samples, including a tissue sample, a biological fluid sample, a cellular sample, and the like. Suitable biological fluid samples include , without limitation, samples of blood, plasma, serous exudate, sweat, lacrimal fluid, sputum, urine, ear fluid, lymph, saliva, cerebrospinal fluid, lavage, bone marrow suspension, vaginal fluid, transcervical lavage, brain fluid, ascitic fluid, respiratory, intestinal and genitourinary tract secretions, amniotic fluid, milk and leukophoresis specimens. In some embodiments, the sample is a sample readily obtained by non-invasive procedures, such as blood, plasma, serous exudate, sweat, lacrimal fluid, sputum, urine, ear fluid, saliva, or feces. In some embodiments, the sample is a peripheral blood sample or a plasma fraction and/or serous exudate of a peripheral blood sample. In other embodiments, the biological sample is a biopsy, swab, swab, or cell culture material. In another embodiment, the sample is a mixture of two or more biological samples; for example, a biological sample may include two or more samples of a biological fluid, tissue, or cell culture. As used herein, the terms "blood", "plasma", and "serous exudate" refer to the fractions or processed portions thereof. Similarly, in the case where the sample is obtained by performing a biopsy, swab, swab, etc., the term "sample" means the processed fraction or portion obtained by performing a biopsy, swab, swab, etc.
[00223] В некоторых вариантах реализации образцы могут быть получены из источников, включая, без ограничений, образцы, полученные от разных субъектов, образцы от одних и тех же или разных субъектов с разными стадиями развития, образцы от разных заболевших субъектов (например, субъекты с подозрением на наличие генетического заболевания), здоровых субъектов, образцы, полученные на разных стадиях заболевания пациента, образцы, полученные от пациента, подвергнутого различным способам лечения заболевания, образцы, полученные от пациентов, подвергнутых воздействию различных факторов окружающей среды, образцы, полученные от пациентов, предрасположенных к проявлению патологий, образцы, полученные от пациентов, подверженных воздействию инфекционного возбудителя заболевания и т.п. [00223] In some embodiments, samples may be obtained from sources, including, without limitation, samples obtained from different subjects, samples from the same or different subjects at different developmental stages, samples from different diseased subjects (e.g., subjects with suspected genetic disease), healthy subjects, samples obtained at different stages of the patient's disease, samples obtained from a patient subjected to various treatments for the disease, samples obtained from patients exposed to various environmental factors, samples obtained from patients, predisposed to the manifestation of pathologies, samples obtained from patients exposed to an infectious agent of the disease, etc.
[00224] В одном иллюстративном варианте реализации, не имеющем ограничительного характера, образец представляет собой образец, полученный из организма беременной женщины. В данном случае образец можно анализировать с использованием способов, описанных в настоящем документе, для выполнения пренатальной диагностики потенциальных хромосомных аномалий плода. Образец, полученный из организма матери, может представлять собой образец ткани, образец биологической текучей среды или клеточный образец. Термин «биологическая текучая среда» подразумевает, без ограничений, кровь, плазму, серозный экссудат, пот, слезную жидкость, мокроту, мочу, ушную жидкость, лимфу, слюну, спинномозговую жидкость, лаваж, суспензию костного мозга, влагалищную жидкость, трансцервикальный лаваж, жидкость головного мозга, асцитическую жидкость, секреты дыхательных, кишечных и мочеполовых путей, амниотическую жидкость, молоко и лейкоциты крови. [00224] In one exemplary non-limiting embodiment, the sample is a sample obtained from a pregnant woman. In this case, the sample can be analyzed using the methods described herein to perform prenatal diagnosis of potential fetal chromosomal abnormalities. The sample obtained from the mother's body may be a tissue sample, a biological fluid sample, or a cell sample. The term "biological fluid" includes, without limitation, blood, plasma, serous exudate, sweat, lacrimal fluid, sputum, urine, ear fluid, lymph, saliva, cerebrospinal fluid, lavage, bone marrow suspension, vaginal fluid, transcervical lavage, fluid brain, ascitic fluid, secretions of the respiratory, intestinal and genitourinary tract, amniotic fluid, milk and blood leukocytes.
[00225] В некоторых вариантах реализации образцы также могут быть получены из тканей, клеток или других полинуклеотидсодержащих источников, культивированных в искусственных условиях. Культивируемые образцы могут получать из источников, включая, без ограничений, различные культуры (например, ткани или клетки), содержащиеся в различных средах и условиях (например, pH, давление и температура), культуры (например, ткани или клетки), хранящиеся в течение различных периодов времени, культуры (например, ткани или клетки), обработанные с применением различных факторов или реагентов (например, потенциальных лекарственных препаратов или модуляторов), либо культуры, принадлежащие к различным типам тканей и/или клеток. [00225] In some embodiments, samples can also be obtained from tissues, cells, or other polynucleotide-containing sources cultured under artificial conditions. Cultured specimens may be obtained from sources including, but not limited to, different cultures (e.g., tissues or cells) maintained under different media and conditions (e.g., pH, pressure, and temperature), cultures (e.g., tissues or cells) stored for different time periods, cultures (eg tissues or cells) treated with different factors or reagents (eg potential drugs or modulators), or cultures belonging to different tissue and/or cell types.
[00226] Способы выделения нуклеиновых кислот из биологических источников являются хорошо изученными и могут различаться в зависимости от свойств конкретного источника. Специалисты в данной области могут выполнять выделение нуклеиновых кислот из источника по мере необходимости в рамках способа, описанного в настоящем документе. В некоторых случаях фрагментация молекул нуклеиновой кислоты в образце нуклеиновой кислоты может являться предпочтительной. Фрагментацию могут выполнять в случайном порядке, а также в специфическом порядке, например, при расщеплении рестрикционной эндонуклеазой. Способы случайной фрагментации, выполняемой в случайном порядке, хорошо известны в рамках данной области и включают в себя, например, ограниченное расщепление дезоксирибонуклеазой, обработку щелочью и физическое гидродинамическое фрагментирование. [00226] Methods for isolating nucleic acids from biological sources are well understood and may vary depending on the properties of the particular source. Specialists in this field can perform the selection of nucleic acids from the source as needed in the framework of the method described in this document. In some cases, fragmentation of nucleic acid molecules in a nucleic acid sample may be preferable. Fragmentation can be performed in a random order, as well as in a specific order, for example, when digested with a restriction endonuclease. Methods for random fragmentation performed at random are well known in the art and include, for example, limited deoxyribonuclease digestion, alkaline treatment, and physical hydrodynamic fragmentation.
Подготовка библиотек для секвенированияPreparing Libraries for Sequencing
[00227] В разнообразных вариантах реализации секвенирование можно проводить на разнообразных платформах для секвенирования, требующих подготовки библиотеки для секвенирования. Подготовка, как правило, включает в себя фрагментирование ДНК (обработку ультразвуком, пульверизацию или гидродинамическое фрагментирование) с последующей репарацией ДНК и обработкой концов (тупого конца или нависающего конца А), а также лигирование адаптера, характерное для используемой платформы. В одном варианте реализации в рамках способов, описанных в настоящем документе, можно использовать технологии секвенирования следующего поколения (NGS), которые позволяют проводить секвенирование множества образцов по отдельности в виде геномных молекул (т. е. одноканальное секвенирование) или в виде объединенных образцов, содержащих индексированные геномные молекулы (например, многоканальное секвенирование) в рамках одного цикла секвенирования. В рамках данных способов могут генерировать до нескольких сотен миллионов прочтений последовательностей ДНК. В разнообразных вариантах реализации последовательности геномных нуклеиновых кислот и/или индексированных геномных нуклеиновых кислот могут определять, например, с использованием технологий секвенирования следующего поколения (NGS), описанных в настоящем документе. В разнообразных вариантах реализации анализ большого объема данных последовательности, полученных с использованием NGS, могут выполнять с применением одного или более процессоров, как описано в настоящем документе. [00227] In various embodiments, sequencing can be performed on a variety of sequencing platforms requiring the preparation of a sequencing library. Preparation typically includes DNA fragmentation (sonication, pulverization, or hydrodynamic fragmentation) followed by DNA repair and end processing (blunt end or overhanging A end), as well as platform-specific adapter ligation. In one embodiment, the methods described herein may use next generation sequencing (NGS) technologies that allow multiple samples to be sequenced individually as genomic molecules (i.e., single-channel sequencing) or as pooled samples containing indexed genomic molecules (for example, multichannel sequencing) within a single sequencing run. These methods can generate up to several hundred million reads of DNA sequences. In various embodiments, genomic nucleic acid and/or indexed genomic nucleic acid sequences can be determined, for example, using the next generation sequencing (NGS) technologies described herein. In various embodiments, analysis of a large amount of sequence data obtained using NGS can be performed using one or more processors, as described herein.
[00228] В разнообразных вариантах реализации применение таких технологий секвенирования не включает в себя подготовку библиотек для секвенирования. [00228] In various implementations, the use of such sequencing technologies does not include the preparation of libraries for sequencing.
[00229] Однако в определенных вариантах реализации предусмотренные в настоящем документе способы секвенирования включают в себя подготовку библиотек для секвенирования. В одном иллюстративном подходе подготовка библиотек для секвенирования включает в себя получение случайного набора модифицированных адаптером фрагментов ДНК (например, полинуклеотидов), готовых к секвенированию. Библиотеки для секвенирования полинуклеотидов можно получить из ДНК или РНК, включая эквиваленты, аналоги ДНК или кДНК, например ДНК или кДНК, которые являются комплементарными, или из копийной ДНК, полученной из матрицы РНК, под действием обратной транскриптазы. Полинуклеотиды могут образовываться, имея двухцепочечную форму (например, дцДНК, такая как фрагменты геномной ДНК, кДНК, продукты ПЦР-амплификации и т. п.) или в определенных вариантах реализации полинуклеотиды могут быть образованы, имея одноцепочечную форму (например, оцДНК, РНК и т.п.), и преобразованы в форму дцДНК. В качестве примера в определенных вариантах реализации одноцепочечные молекулы мРНК могут быть скопированы в двухцепочечные кДНК, пригодные для применения при подготовке библиотеки для секвенирования. Точная последовательность первичных полинуклеотидных молекул, в целом, не является материалом для применения в рамках способа подготовки библиотеки, и может быть как известной, так и неизвестной. В одном варианте реализации полинуклеотидные молекулы представляют собой молекулы ДНК. Более конкретно, в определенных вариантах реализации молекулы полинуклеотида представляют собой весь генетический комплемент организма или по существу весь генетический комплемент организма и представляют собой молекулы геномной ДНК (например, клеточной ДНК, свободно-клеточной ДНК (скДНК) и т.д.), которые, как правило, включают как интронную последовательность, так и экзонную последовательность (кодирующую последовательность), а также некодирующие регуляторные последовательности, такие как промоторные и энхансерные последовательности. В некоторых вариантах реализации первичные полинуклеотидные молекулы содержат молекулы геномной ДНК человека, например, молекулы скДНК, присутствующие в периферической крови беременного пациента. [00229] However, in certain embodiments, the sequencing methods provided herein include preparing libraries for sequencing. In one exemplary approach, preparing libraries for sequencing includes generating a random set of adapter-modified DNA fragments (eg, polynucleotides) ready for sequencing. Libraries for polynucleotide sequencing can be obtained from DNA or RNA, including equivalents, analogues of DNA or cDNA, such as DNA or cDNA that are complementary, or from copy DNA obtained from an RNA template by reverse transcriptase. Polynucleotides may be formed in double-stranded form (e.g., dsDNA such as genomic DNA fragments, cDNA, PCR amplification products, etc.) or in certain embodiments, polynucleotides may be formed in single-stranded form (e.g., ssDNA, RNA, and etc.), and converted into the form of dsDNA. By way of example, in certain embodiments, single-stranded mRNA molecules can be copied into double-stranded cDNA suitable for use in preparing a library for sequencing. The exact sequence of the primary polynucleotide molecules is generally not material for use in the library preparation process, and may or may not be known. In one embodiment, the polynucleotide molecules are DNA molecules. More specifically, in certain embodiments, the polynucleotide molecules represent the entire genetic complement of an organism, or substantially the entire genetic complement of an organism, and are genomic DNA molecules (e.g., cellular DNA, free-cellular DNA (scDNA), etc.) that, typically include both an intron sequence and an exon sequence (coding sequence), as well as non-coding regulatory sequences such as promoter and enhancer sequences. In some embodiments, the primary polynucleotide molecules comprise human genomic DNA molecules, for example, scDNA molecules present in the peripheral blood of a pregnant patient.
[00230] Получение библиотек для секвенирования для некоторых платформ секвенирования NGS облегчается применением полинуклеотидов, содержащих определенный диапазон размеров фрагментов. Получение таких библиотек обычно включает фрагментацию больших полинуклеотидов (например, клеточной геномной ДНК) для получения полинуклеотидов в желаемом диапазоне размеров для определения экспансии повторов. [00230] Obtaining libraries for sequencing for some NGS sequencing platforms is facilitated by the use of polynucleotides containing a certain range of fragment sizes. The preparation of such libraries typically involves the fragmentation of large polynucleotides (eg, cellular genomic DNA) to obtain polynucleotides in the desired size range to determine repeat expansion.
[00231] Длина фрагмента или вставки больше длины прочтения и, как правило, больше суммы длин двух прочтений. [00231] The length of a fragment or insert is greater than the length of a read, and typically greater than the sum of the lengths of two reads.
[00232] В некоторых примерах вариантов реализации образец нуклеиновой кислоты (нуклеиновых кислот) получают в виде геномной ДНК, которую (которые) подвергают фрагментации на фрагменты, содержащие около 100, 200, 300, 400, 500 или более пар нуклеотидных оснований и к которым можно применять способы NGS. В некоторых вариантах реализации парные концевые прочтения получают из вставок длиной около 100-5 000 п.н.о. В некоторых вариантах реализации вставки имеют длину около 100-1 000 п.н.о. Иногда их реализуют как обычные парные концевые прочтения с короткими вставками. В некоторых вариантах реализации вставки имеют длину около 1 000-5 000 п.н.о. Иногда их реализуют в виде прочтений сопряженных пар с длинными вставками, как описано выше. [00232] In some exemplary embodiments, a sample of nucleic acid(s) is obtained as genomic DNA, which is(are) fragmented into fragments containing about 100, 200, 300, 400, 500 or more nucleotide base pairs and to which apply NGS methods. In some embodiments, paired end reads are obtained from inserts of about 100-5,000 bp in length. In some embodiments, inserts are about 100-1000 bp in length. Sometimes they are implemented as ordinary paired end readings with short inserts. In some embodiments, inserts are about 1,000-5,000 bp in length. Sometimes they are implemented as conjugate pair reads with long insertions, as described above.
[00233] В некоторых вариантах реализации длинные вставки могут использоваться для оценки очень длинных расширенных последовательностей повторов. В некоторых вариантах реализации для получения прочтений, разделенных тысячами пар нуклеотидных оснований, могут применяться прочтения сопряженных пар. В данных вариантах реализации вставки или фрагменты находятся в диапазоне от сотен до тысяч пар нуклеотидных оснований с двумя адаптерами биотинового соединения на двух концах вставки. Затем адаптеры биотинового соединения соединяют два конца вставки с образованием круглой молекулы, которая затем дополнительно фрагментируется. Для секвенирования на платформе, выполненной с возможностью секвенирования более коротких фрагментов, выбрана субфрагмент, включающий в себя адаптеры биотинового соединения и два конца исходной вставки. [00233] In some implementations, long inserts may be used to evaluate very long extended repeat sequences. In some embodiments, conjugated pair reads may be used to obtain reads separated by thousands of nucleotide base pairs. In these embodiments, inserts or fragments range from hundreds to thousands of nucleotide base pairs with two biotin compound adapters at the two ends of the insert. The biotin junction adapters then connect the two ends of the insert to form a round molecule, which is then further fragmented. For sequencing on a platform capable of sequencing shorter fragments, a subfragment was selected that includes biotin compound adapters and the two ends of the original insert.
[00234] Фрагментация могут осуществлять любым из ряда способов, известных специалистам в данной области. Например, фрагментацию можно выполнять механическими средствами, включая, без ограничений, пульверизацию, обработку ультразвуком и гидродинамическое фрагментирование. Однако механическая фрагментация, как правило, расщепляет каркас ДНК по связям C-O, P-O и C-C с образованием гетерогенной смеси тупых и 3'- и 5'-нависающих концов с разорванными связями C-O, P-O и C-C (см., например, Alnemri and Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards and Boyer, J Mol Biol 11:327-240 [1965]), которым может потребоваться восстановление, поскольку в них может отсутствовать необходимый 5’-фосфат для проведения последующих ферментативных реакций, например, для лигирования адаптеров секвенирования, необходимых для получения ДНК для секвенирования. [00234] Fragmentation can be performed by any of a number of methods known to those skilled in the art. For example, fragmentation can be performed by mechanical means, including, but not limited to, pulverization, sonication, and hydrodynamic fragmentation. However, mechanical fragmentation typically cleaves the DNA backbone at the CO, PO, and CC bonds to form a heterogeneous mixture of blunt and 3' and 5' overhangs with broken CO, PO, and CC bonds (see, e.g., Alnemri and Liwack, J Biol Chem 265:17323-17333 [1990]; Richards and Boyer, J Mol Biol 11:327-240 [1965]), which may need to be reduced because they may lack the necessary 5'-phosphate for subsequent enzymatic reactions , for example, to ligate sequencing adapters needed to obtain DNA for sequencing.
[00235] Напротив, скДНК, как правило, существует в виде фрагментов менее около 300 пар нуклеотидных оснований, и, следовательно, фрагментация, как правило, не требуется для генерирования библиотеки для секвенирования с использованием образцов скДНК. [00235] In contrast, scDNA typically exists as fragments of less than about 300 bp, and hence fragmentation is generally not required to generate a sequencing library using scDNA samples.
[00236] Как правило, независимо от того, подвергались ли полинуклеотиды искусственной фрагментации (например, фрагментации в искусственных условиях), либо они существуют в виде фрагментов в естественных условиях, они конвертируются в ДНК с тупыми концами, содержащие 5’-фосфаты и 3’-гидроксил. В стандартных протоколах, например, протоколах секвенирования с использованием, в том числе, платформы Illumina, как описано в других разделах настоящего документа, приведены инструкции по восстановлению конца образца ДНК, очищению продуктов с восстановленными концами перед присоединением к концу dA и очищению продуктов, присоединенных к концу dA перед этапами подготовки библиотеки с применением лигирования адаптера. [00236] In general, whether polynucleotides have been artificially fragmented (e.g., fragmented under artificial conditions), or they exist as fragments in nature, they are converted to blunt-ended DNA containing 5'-phosphates and 3' -hydroxyl. Standard protocols, such as sequencing protocols using, among others, the Illumina platform, as described elsewhere in this document, provide instructions for repairing the end of a DNA sample, purifying end-repair products before joining the dA end, and purifying products attached to the dA end. end of dA prior to the library preparation steps using adapter ligation.
[00237] Разнообразные варианты реализации способов подготовки библиотек для секвенирования, описанные в настоящем документе, устраняют необходимость в выполнении одной или более стадий, выполнение которых обычно требуется в рамках стандартных протоколов для получения модифицированного продукта ДНК, который может быть секвенирован NGS. Сокращенный способ (сокр. способ), 1-стадийный способ и 2-стадийный способ представляют собой примеры способов подготовки библиотеки для секвенирования, которые можно найти в патентной заявке 13/555 037, поданной 20 июля 2012 г., содержание которой полностью включено в настоящий документ путем ссылки. [00237] The various implementations of the methods for preparing libraries for sequencing described herein eliminate the need for one or more steps that are typically required under standard protocols to obtain a modified DNA product that can be sequenced by NGS. Abbreviated method (abbr. method), 1-step method and 2-step method are examples of methods for preparing a library for sequencing, which can be found in patent application 13/555,037, filed July 20, 2012, the contents of which are fully incorporated herein. document by reference.
5.12. Способы секвенирования5.12. Sequencing methods
[00238] Как указано выше, полученные образцы (например, библиотеки для секвенирования) секвенируют в рамках методики определения вариации (вариаций) числа копий. Могутт применять любую из множества технологий секвенирования. [00238] As noted above, the resulting samples (eg, sequencing libraries) are sequenced as part of the copy number variation(s) technique. Can use any of a variety of sequencing technologies.
[00239] На рынке представлены устройства и технологии секвенирования, такие как платформа для секвенирования путем гибридизации, производимая компанией Affymetrix Inc. (г. Саннивейл, штат Калифорния, США), а также платформы для секвенирования путем синтеза производства компании 454 Life Sciences (г. Брэдфорд, штат Коннектикут, США), Illumina/Solexa (г. Сан-Диего, штат Калифорния, США) и Helicos Biosciences (г. Кембридж, штат Массачусетс, США), и платформа для секвенирования путем лигирования производства компании Applied Biosystems (г. Фостер-Сити, штат Калифорния, США), как описано ниже. В дополнение к одномолекулярному секвенированию, которое выполняют с использованием секвенирования путем синтеза методом Helicos Biosciences, другие технологии одномолекулярного секвенирования включают, без ограничений, технологию SMRT™ компании Pacific Biosciences, технологию ION TORRENTTM и метод секвенирования через нанопоры, разработанный, например, компанией Oxford Nanopore Technologies. [00239] Sequencing devices and technologies are on the market, such as the hybridization sequencing platform manufactured by Affymetrix Inc. (Sunnyvale, CA, USA), as well as sequencing-by-synthesis platforms from 454 Life Sciences (Bradford, CT, USA), Illumina/Solexa (San Diego, CA, USA), and Helicos Biosciences (Cambridge, MA, USA) and a ligation sequencing platform from Applied Biosystems (Foster City, CA, USA) as described below. In addition to single molecule sequencing, which is performed using sequencing by synthesis by Helicos Biosciences, other single molecule sequencing technologies include, without limitation, Pacific Biosciences' SMRT™ technology, ION TORRENT ™ technology, and nanopore sequencing developed by, for example, Oxford Nanopore. technologies.
[00240] Хотя автоматический метод Сэнгера считается технологией «первого поколения», в рамках применения способов, описанных в настоящем документе, также можно использовать секвенирование Сэнгера, включая автоматическое секвенирование Сэнгера. Дополнительные способы секвенирования включают, без ограничений, технологии визуализации нуклеиновых кислот, например, атомно-силовую микроскопию (АСМ) или просвечивающую электронную микроскопию (ТЭМ). Иллюстративные примеры технологий секвенирования более подробно описаны ниже. [00240] Although automated Sanger is considered a "first generation" technology, Sanger sequencing, including automated Sanger sequencing, can also be used within the scope of the methods described herein. Additional sequencing methods include, without limitation, nucleic acid imaging technologies such as atomic force microscopy (AFM) or transmission electron microscopy (TEM). Illustrative examples of sequencing technologies are described in more detail below.
[00241] В некоторых вариантах реализации описанные способы включают получение информации о последовательности нуклеиновых кислот в исследуемом образце путем массового параллельного секвенирования миллионов фрагментов ДНК с использованием секвенирования путем синтеза по методу Illumina и обратимого химического анализа способа секвенирования на основе терминатора (например, как описано в публикации Bentley et al., Nature 6:53-59 [2009]). Матричная ДНК может представлять собой геномную ДНК, например, клеточную ДНК или скДНК. В некоторых вариантах реализации в качестве матрицы используют геномную ДНК из выделенных клеток, затем ее фрагментируют для образования длин нескольких сотен пар нуклеотидных оснований. В других вариантах реализации в качестве матрицы используется скДНК, и выполнение фрагментации не требуется, поскольку скДНК существует в виде коротких фрагментов. Например, в кровотоке циркулирует скДНК плода в виде фрагментов длиной около в 170 пар нуклеотидных оснований (п.н.о.) (Fan et al., Clin Chem 56:1279-1286 [2010]), и фрагментация ДНК перед выполнением секвенирования не требуется. Технология секвенирования Illumina основана на закреплении фрагментированной геномной ДНК на прозрачной плоской поверхности, на которой находятся олигонуклеотидные якори. Матричную ДНК восстанавливают на конце для получения 5’-фосфорилированных тупых концов, а полимеразное действие фрагмента Кленова используют для добавления одного основания к 3’ концу тупых фосфорилированных фрагментов ДНК. В рамках данного добавления происходит подготовка фрагментов ДНК к лигированию с применением олигонуклеотидных адаптеров, которые имеют нависающий конец одного основания Т на 3’ конце для повышения эффективности лигирования. Олигонуклеотиды адаптера являются комплементарными по отношению к базовым олигонуклеотидам проточной кюветы (не следует путать с базовыми/закрепленными прочтениями в анализе экспансии повторов). В условиях лимитирования и разбавления модифицированную адаптером одноцепочечную матричную ДНК добавляли в проточную кювету и иммобилизовали путем гибридизации с базовыми олигонуклеотидами. Выполняют удлинение и мостиковую амплификацию присоединенных фрагментов ДНК для создания проточной кюветы со сверхвысокой плотностью секвенирования и сотнями миллионов кластеров, каждый из которых содержит около 1 000 копий одной и той же матрицы. В одном варианте реализации выполняется амплификация случайным образом фрагментированной геномной ДНК с использованием ПЦР до того, как ее подвергают кластерной амплификации. В качестве альтернативы используют способ подготовки неамплифицированной геномной библиотеки, а случайным образом фрагментированную геномную ДНК обогащают только с применением кластерной амплификации (Kozarewa et al., Nature Methods 6:291-295 [2009]). Матрицы секвенируют с использованием технологии глубокого четырехцветного секвенирования ДНК путем синтеза, в рамках которой используются обратимые терминаторы с удаляемыми флуоресцентными красителями. Высокочувствительное флуоресцентное детектирование выполняют при помощи возбуждения лазера и использования полного набора внутренних оптических отражающих элементов. Прочтение коротких последовательностей от около десятков до нескольких сотен пар нуклеотидных оснований выравнивают с эталонным геномом, и уникальное сопоставление прочтений коротких последовательностей с эталонным геномом определяют с помощью специально разработанного программного обеспечения для анализа данных. После завершения первого прочтения матрицы можно восстановить непосредственно на месте для обеспечения выполнения второго прочтения с противоположного конца фрагментов. Таким образом, можно использовать одиночное, либо парное концевое секвенирование фрагментов ДНК. [00241] In some embodiments, the described methods include obtaining information about the sequence of nucleic acids in the test sample by mass parallel sequencing of millions of DNA fragments using sequencing by synthesis according to the Illumina method and reversible chemical analysis of the terminator-based sequencing method (for example, as described in the publication Bentley et al., Nature 6:53-59 [2009]). The template DNA may be genomic DNA, such as cellular DNA or scDNA. In some embodiments, genomic DNA from isolated cells is used as a template, which is then fragmented to form lengths of several hundred base pairs. In other embodiments, the scDNA is used as a template and fragmentation is not required because the scDNA exists in short fragments. For example, fetal scDNA circulates in the circulation as fragments of about 170 base pairs (bp) in length (Fan et al., Clin Chem 56:1279-1286 [2010]), and DNA fragmentation prior to sequencing is not required. Illumina's sequencing technology is based on anchoring fragmented genomic DNA to a transparent, flat surface containing oligonucleotide anchors. The template DNA is terminated to produce 5'-phosphorylated blunt ends, and the polymerase action of the Klenow fragment is used to add one base to the 3' end of the blunt phosphorylated DNA fragments. As part of this addition, DNA fragments are prepared for ligation using oligonucleotide adapters that have an overhanging end of a single T base at the 3' end to improve ligation efficiency. The adapter oligonucleotides are complementary to the base oligonucleotides of the flow cell (not to be confused with the base/pinned reads in the repeat expansion assay). Under limiting and diluting conditions, adapter-modified single-stranded template DNA was added to a flow cell and immobilized by hybridization with base oligonucleotides. Extend and bridge amplify the attached DNA fragments to create an ultra-high-density sequencing flow cell with hundreds of millions of clusters, each containing about 1,000 copies of the same template. In one embodiment, amplification of randomly fragmented genomic DNA using PCR is performed before it is subjected to cluster amplification. Alternatively, a non-amplified genomic library preparation method is used and the randomly fragmented genomic DNA is enriched using cluster amplification alone (Kozarewa et al., Nature Methods 6:291-295 [2009]). The templates are sequenced using deep four-color DNA sequencing by synthesis, which uses reversible terminators with removable fluorescent dyes. Highly sensitive fluorescence detection is performed by laser excitation and the use of a complete set of internal optical reflectors. Short sequence reads of about tens to several hundred base pairs are aligned with the reference genome, and a unique mapping of the short sequence reads to the reference genome is determined using specially designed data analysis software. After the first read is completed, the matrices can be restored directly in place to allow a second read to be performed from the opposite end of the fragments. Thus, single or pairwise end-to-end sequencing of DNA fragments can be used.
[00242] В разнообразных вариантах реализации настоящего описания можно использовать секвенирование путем синтеза, обеспечивающего парное концевое секвенирование. В некоторых вариантах реализации платформа для секвенирования путем синтеза производства компании Illumina имеет функцию кластеризации фрагментов. Кластеризация представляет собой процесс, в рамках которого каждая молекула фрагмента изотермически амплифицирована. В некоторых вариантах реализации в качестве примера, описанного в настоящем документе, фрагмент имеет два разных адаптера, присоединенных к двум концам фрагмента; такие адаптеры позволяют фрагменту гибридизироваться с двумя разными олигонуклеотидами на поверхности полосы проточной кюветы. Фрагмент дополнительно включает в себя две индексные последовательности на двух концах фрагмента или имеет связь с ними, причем индексные последовательности позволяют использовать метки для определения различных образцов при многоканальном секвенировании. В рамках работы с некоторыми платформами для секвенирования фрагмент, подлежащий секвенированию, также называют вставкой. [00242] In various embodiments of the present disclosure, sequencing by synthesis providing paired end sequencing can be used. In some embodiments, the Illumina sequencing-by-synthesis platform has a fragment clustering feature. Clustering is a process in which each fragment molecule is isothermally amplified. In some embodiments of the example described herein, the fragment has two different adapters attached to the two ends of the fragment; such adapters allow the fragment to hybridize to two different oligonucleotides on the surface of the flow cell strip. The fragment further includes two index sequences at the two ends of the fragment or has a connection with them, and the index sequences allow the use of labels to identify different samples in multichannel sequencing. In some sequencing platforms, the fragment to be sequenced is also referred to as an insert.
[00243] В некоторых вариантах реализации проточная кювета для кластеризации, использующаяся на платформе Illumina, представляет собой предметное стекло с полосами. Каждая полоса представляет собой стеклянный канал, покрытый олигонуклеотидами двух типов. Гибридизацию выполняют с применением первого из двух типов олигонуклеотидов, находящихся на поверхности. Данный олигонуклеотид является комплементарным по отношению к первому адаптеру на одном конце фрагмента. Полимераза создает комплементарную цепь гибридизированного фрагмента. Двухцепочечную молекулу денатурируют, а исходную матричную цепь вымывают. Оставшаяся цепь клонально амплифицируется посредством применения мостиков параллельно с остальными цепями. [00243] In some embodiments, the clustering flow cell used on the Illumina platform is a streaked slide. Each lane is a glass channel coated with two types of oligonucleotides. Hybridization is performed using the first of two types of oligonucleotides that are on the surface. This oligonucleotide is complementary to the first adapter at one end of the fragment. The polymerase creates a complementary strand of the hybridized fragment. The double-stranded molecule is denatured and the parent template strand is washed out. The remaining strand is clonally amplified by the application of bridges in parallel with the rest of the strands.
[00244] При выполнении мостиковой амплификации вторая область адаптера на втором конце цепи гибридизируется с олигонуклеотидами второго типа на поверхности проточной кюветы. Полимераза создает комплементарную цепь, образуя двухцепочечную мостиковую молекулу. Данную двухцепочечную молекулу денатурируют, в результате чего образуются две одноцепочечные молекулы, присоединенные к проточной кювете двумя разными олигонуклеотидами. Затем процесс повторяет некоторое количество раз; данный процесс проводят одновременно с участием миллионов кластеров, что приводит к клональной амплификации всех фрагментов. После выполнения мостиковой амплификации обратные цепи отщепляют и вымывают, таким образом остаются только прямые цепи. 3’ концы блокируют для предотвращения нежелательного примирования. [00244] When performing bridge amplification, the second region of the adapter at the second end of the strand hybridizes to type 2 oligonucleotides on the surface of the flow cell. The polymerase creates a complementary chain, forming a double-stranded bridging molecule. This double-stranded molecule is denatured, resulting in two single-stranded molecules attached to the flow cell by two different oligonucleotides. The process then repeats a number of times; this process is carried out simultaneously with the participation of millions of clusters, which leads to clonal amplification of all fragments. After the bridge amplification is performed, the reverse strands are cleaved and washed out, leaving only the forward strands. The 3' ends are blocked to prevent unwanted priming.
[00245] После кластеризации процесс секвенирования начинают с удлинения первого праймера секвенирования, в результате чего получают первое прочтение. В рамках каждого цикла флуоресцентно-меченые нуклеотиды стремятся к добавлению в растущую цепь. На основе последовательности матрицы встраивается только один из них. После добавления каждого нуклеотида кластер возбуждают источником света, и излучается характерный флуоресцентный сигнал. Число циклов определяет длину прочтения. Длина волны излучения и интенсивность сигнала определяют процесс распознавания оснований. Для данного кластера считывание всех идентичных цепей выполняется одновременно. Сотни миллионов кластеров секвенируют путем массового параллельного секвенирования. После завершения первого прочтения продукт прочтения вымывают. [00245] After clustering, the sequencing process begins by extending the first sequencing primer, resulting in a first read. Within each cycle, fluorescently labeled nucleotides tend to be added to the growing chain. Based on the sequence of the matrix, only one of them is embedded. After adding each nucleotide, the cluster is excited with a light source, and a characteristic fluorescent signal is emitted. The number of cycles determines the length of the read. The emission wavelength and signal intensity determine the base calling process. For a given cluster, all identical nets are read at the same time. Hundreds of millions of clusters are sequenced by massively parallel sequencing. After completion of the first reading, the reading product is washed away.
[00246] На следующей стадии работы в соответствии с протоколами с применением двух индексных праймеров, индексный праймер 1 вводят в индексную область 1 матрицы и гибридизируют с ней. Индексные области позволяют выполнять определение фрагментов, которые можно использовать для демультиплексирования образцов в рамках процесса многоканального секвенирования. Прочтение индекса 1 генерируют аналогично первому прочтению. После завершения прочтения индекса 1 продукт прочтения вымывают, а также снимают защиту 3’ конца цепи. Затем матричная цепь складывается и связывается со вторым олигонуклеотидом на проточной кювете. Последовательность индекса 2 считывают таким же образом, как и индекс 1. Затем по завершении стадии продукт прочтения индекса 2 вымывают. [00246] At the next stage of work in accordance with the protocols using two index primers,
[00247] После прочтения двух показателей прочтение 2 начинается с использования полимераз для выполнения экспансии олигонуклеотидов второй проточной кюветы, в результате чего образуется двухцепочечный мостик. Данную двухцепочечную ДНК денатурируют, а 3’ конец блокируют. Исходную прямая цепь отщепляют и вымывают, таким образом остается только обратная цепь. Прочтение 2 начинают с введения праймера секвенирования прочтения 2. Как и в случае с прочтением 1, выполнение стадий секвенирования повторяют до момента достижения нужной длины. Продукт прочтения 2 вымывают. В рамках данного процесса можно получить миллионы прочтений, представляющих все фрагменты. Последовательности из объединенных библиотек образцов разделяют на основании уникальных индексов, присвоенных во время подготовки образцов. С участием каждого образца проводят локальную кластеризацию прочтений аналогичных отрезков результатов распознавания оснований. Прочтения в прямом и обратном направлениях спаривают, в результате чего создают связные последовательности. Данные связные последовательности выравнивают с эталонным геномом для определения вариантов. [00247] After reading two readings, reading 2 begins with the use of polymerases to perform expansion of the oligonucleotides of the second flow cell, resulting in the formation of a double-stranded bridge. This double-stranded DNA is denatured and the 3' end blocked. The original forward strand is cleaved off and washed out, leaving only the reverse strand. Read 2 is started by introducing the
[00248] Пример секвенирования путем синтеза включает в себя использование парных концевых прочтений, которые используют во многих вариантах реализации описанных способов. При парном концевом секвенировании производят 2 прочтения с двух концов фрагмента. Для устранения неоднозначности при выравниваниях используют парные концевые прочтения. При выполнении парного концевого секвенирования пользователи могут выбирать длину вставки (или фрагмента, подлежащего секвенированию) и секвенировать оба конца вставки, что приводит к генерации высококачественных выравниваемых данных последовательности. Поскольку известно расстояние между всеми парными прочтениями, алгоритмы выравнивания могут использовать данную информацию для более точного сопоставления повторяющихся областей. Это позволяет добиться лучшего выравнивания прочтений, особенно в трудно поддающихся секвенированию повторяющихся областях генома. С применением парного концевого секвенирования можно выполнять обнаружение перестроек, в том числе вставок, делеций и инверсий. [00248] An example of sequencing by synthesis involves the use of paired end reads, which are used in many embodiments of the described methods. Paired end sequencing produces 2 reads from both ends of the fragment. To eliminate ambiguity in alignments, paired end reads are used. When performing paired end sequencing, users can select the length of the insert (or fragment to be sequenced) and sequence both ends of the insert, resulting in the generation of high quality aligned sequence data. Since the distance between all paired reads is known, alignment algorithms can use this information to more accurately match repeating regions. This allows for better alignment of reads, especially in repetitive regions of the genome that are difficult to sequence. Paired end sequencing can detect rearrangements, including insertions, deletions, and inversions.
[00249] Для парных концевых прочтений можно использовать вставку разной длины (т.е. разный размер фрагмента для секвенирования). В качестве исходного значения в настоящем описании для обозначения прочтений, полученных с различных длин вставок, используются парные концевые прочтения. В некоторых случаях для отличия парных концевых прочтений с короткими вставками от парных концевых прочтений с длинными вставками, последние, в частности, называются прочтениями сопряженных пар. В некоторых вариантах реализации, включающих прочтения сопряженных пар, два адаптера биотинового соединения сначала прикрепляют к двум концам относительно длинной вставки (например, длиной в несколько т.п.н.). Затем адаптеры биотинового соединения связывают два конца вставки с образованием круглой молекулы. Субфрагмент, объединяющий в себе адаптеры биотинового соединения, можно получить путем дополнительного фрагментирования круглой молекулы. Затем субфрагмент, включающий в себя два конца исходного фрагмента в противоположном порядке последовательности, можно секвенировать с применением той же процедуры, что и отн. описанного выше парного концевого секвенирования с короткой вставкой. Дополнительная информация о выполнении секвенирования сопряженных пар с использованием платформы Illumina представлена в онлайн-публикации по следующему адресу: res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf. Данная публикация также полностью включена в настоящий документ путем ссылки. [00249] For paired end reads, inserts of different lengths (i.e., different fragment size for sequencing) can be used. Paired end reads are used as a starting point in this specification to refer to reads obtained from different insertion lengths. In some cases, to distinguish paired end reads with short insertions from paired end reads with long insertions, the latter, in particular, are called conjugate pair reads. In some embodiments involving conjugated pair reads, two biotin junction adapters are first attached to the two ends of a relatively long insert (eg, several kb in length). The biotin compound adapters then link the two ends of the insert to form a round molecule. A subfragment that combines biotin compound adapters can be obtained by additional fragmentation of the round molecule. Then, a subfragment including the two ends of the original fragment in opposite sequence order can be sequenced using the same procedure as rel. described above paired end sequencing with a short insert. For more information about performing conjugated pair sequencing using the Illumina platform, see the online post at the following URL: res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf. This publication is also incorporated herein by reference in its entirety.
[00250] После секвенирования фрагментов ДНК прочтения последовательностей заданной длины, например, 100 п.н.о., сопоставляют или выравнивают с известным эталонным геномом. Сопоставленные или выровненные прочтения и их соответствующие местоположения на эталонной последовательности также называются тегами. В анализах многих вариантов реализации, описанных в настоящем документе, для определения экспансии повторов используются прочтения, которые являются либо плохо выровненными, либо не могут быть выровнены в принципе, а также используются выровненные прочтения (метки). В одном варианте реализации эталонная геномная последовательность представляет собой последовательность NCBI36/hg18, данные которые можно найти в сети Интернет по следующему адресу: genome.ucsc.edu/cgi- bin/hgGateway?org=Human&db=hg18&hgsid=166260105). В альтернативном варианте реализации эталонная геномная последовательность представляет собой последовательность GRCh37/hg19, данные которые можно найти в сети Интернет по следующему адресу: genome.ucsc.edu/cgi-bin/hgGateway. К другим источникам общедоступной информации о последовательностях относятся база генетических данных, dbEST, dbSTS, EMBL (Европейская лаборатория по молекулярной биологии) и DDBJ (Банк данных ДНК Японии). Выравнивание последовательностей можно выполнять с применением ряда компьютерных алгоритмов, включая, без ограничений, BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock & Collins, 1993), FASTA (Person & Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10:R25.1- R25.10 [2009]) или ELAND (Illumina, Inc., г. Сан-Диего, штат Калифорния, США). В одном варианте реализации один конец клонально расширенных копий молекул скДНК плазмы секвенируют и обрабатывают путем выполнения биоинформационного анализа выравниваний для анализатора генома Illumina, в котором применяется ПО Efficient Large-Scale Alignment of Nucleotide Databases (ELAND). [00250] After sequencing of DNA fragments, reads of sequences of a given length, for example, 100 bp, are compared or aligned with a known reference genome. Matched or aligned reads and their respective locations on the reference sequence are also called tags. In the assays of many of the embodiments described herein, reads that are either poorly aligned or cannot be aligned in principle, and aligned reads (labels) are used to determine repeat expansion. In one embodiment, the reference genomic sequence is the NCBI36/hg18 sequence, which can be found on the Internet at the following address: genome.ucsc.edu/cgibin/hgGateway?org=Human&db=hg18&hgsid=166260105). In an alternative implementation, the reference genomic sequence is the GRCh37/hg19 sequence, which can be found on the Internet at the following address: genome.ucsc.edu/cgi-bin/hgGateway. Other sources of publicly available sequence information include the Genetic Database, dbEST, dbSTS, EMBL (European Molecular Biology Laboratory), and DDBJ (DNA Database of Japan). Sequence alignment can be performed using a number of computer algorithms including, but not limited to, BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock & Collins, 1993), FASTA (Person & Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]) or ELAND (Illumina, Inc., San Diego, CA, USA). In one embodiment, one end of the clonally expanded copies of plasma scDNA molecules is sequenced and processed by performing bioinformatic alignment analysis for the Illumina Genome Analyzer using the Efficient Large-Scale Alignment of Nucleotide Databases (ELAND) software.
[00251] В одном иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием технологии одномолекулярного секвенирования Helicos True Single Molecule Sequencing (tSMS) (например, описанной в публикации Harris T.D. et al., Science 320:106-109 [2008]). Согласно методике tSMS образец ДНК расщепляют на цепи длиной около от 100 до 200 нуклеотидов, и добавляют последовательность polyA к 3’ концу каждой цепи ДНК. Каждую цепь помечают путем добавления флуоресцентно-меченого аденозина. Затем цепи ДНК гибридизируют с проточной кюветой, содержащей миллионы сайтов захвата T-нуклеотидов, иммобилизованных на поверхности проточной кюветы. В определенных вариантах реализации матрицы могут иметь плотность, равную около 100 миллионам матриц/см2. Проточную кювету загружают в прибор, например, секвенатор HeliScopeTM, а лазером освещают поверхность проточной кюветы, выявляя положение каждой матрицы. ПЗС-камеру могут использовать для сопоставления положения матриц на поверхности проточной кюветы. Затем флуоресцентную метку матрицы отщепляют и вымывают. Реакцию секвенирования начинают с введения ДНК-полимеразы и флуоресцентно-меченого нуклеотида. Т-олигонуклеотидная кислота служит в качестве праймера. Полимераза выполняет встраивание меченых нуклеотидов в праймер под управлением матрицы. Полимераза и невстроенные нуклеотиды удаляются. Матрицы, в которые направленно встроен флуоресцентно-меченый нуклеотид, распознают путем визуализации поверхности проточной кюветы. После выполнения визуализации флуоресцентную метку удаляют в рамках стадии расщепления, и процесс повторяют с участием других флуоресцентно-меченых нуклеотидов до момента достижения желаемой длины прочтения. На каждом этапе добавления нуклеотидов собирают информацию о последовательности. Секвенирование целого генома с помощью технологий одномолекулярного секвенирования устраняет необходимость ПЦР-амплификации при подготовке библиотек для секвенирования, также способы позволяют проводить прямое измерение образца вместо измерения копий этого образца. [00251] In one illustrative, non-limiting embodiment, the methods described herein include obtaining information about the nucleic acid sequence in the test sample using Helicos True Single Molecule Sequencing (tSMS) technology (for example, described in the publication Harris TD et al., Science 320:106-109 [2008]). According to the tSMS technique, a DNA sample is cut into chains of about 100 to 200 nucleotides in length, and a polyA sequence is added to the 3' end of each DNA strand. Each strand is labeled by adding fluorescently labeled adenosine. The DNA strands are then hybridized to a flow cell containing millions of T-nucleotide capture sites immobilized on the surface of the flow cell. In certain embodiments, the matrices may have a density of about 100 million matrices/cm 2 . The flow cell is loaded into an instrument, such as a HeliScopeTM sequencer, and a laser is illuminated on the surface of the flow cell, revealing the position of each array. A CCD camera can be used to match the position of the arrays on the surface of the flow cell. The matrix fluorescent label is then cleaved off and washed out. The sequencing reaction begins with the introduction of DNA polymerase and a fluorescently labeled nucleotide. T-oligonucleotide acid serves as a primer. The polymerase inserts the labeled nucleotides into the primer under the control of a template. The polymerase and non-integrated nucleotides are removed. Arrays into which a fluorescently labeled nucleotide is directionally inserted are recognized by visualization of the surface of the flow cell. After imaging is complete, the fluorescent label is removed as part of the cleavage step and the process is repeated with other fluorescently labeled nucleotides until the desired read length is reached. Sequence information is collected at each step of adding nucleotides. Whole genome sequencing using single molecule sequencing technologies eliminates the need for PCR amplification in preparing libraries for sequencing, and the methods also allow direct measurement of a sample instead of measuring copies of that sample.
[00252] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с помощью секвенирования 454 (Roche) (например, как описано в публикации Margulies, M. et al. Nature 437:376-380 [2005]). Секвенирование 454, как правило, включает в себя две стадии. На первой стадии ДНК подвергают гидродинамическому фрагментированию для разделения ее на фрагменты, имеющие около по 300-800 пар нуклеотидных оснований в каждом и тупые концы. Затем олигонуклеотидные адаптеры лигируют с концами фрагментов. Адаптеры служат в качестве праймеров для выполнения амплификации и секвенирования фрагментов. Фрагменты могут присоединять к микросферам для захвата ДНК, например, микросферам, покрытым стрептавидином, с использованием, например, адаптера B, который содержит 5‘-биотиновую метку. Фрагменты, присоединенные к микросферам, амплифицируют с помощью ПЦР в каплях масляно-водной эмульсии. В результате получают множество копий клонально амплифицированных фрагментов ДНК на каждой микросфере. На втором этапе микросферы захватывают лунками (например, пиколитровыми). Пиросеквенирование каждого фрагмента ДНК проводят параллельным способом. Добавлением одного или более нуклеотидов генерируют световой сигнал, который регистрируют ПЗС-камерой в аппарате для секвенирования. Сила сигнала является пропорциональной числу встроенных нуклеотидов. При выполнении пиросеквенирования используют пирофосфат (PPi), который высвобождается при добавлении нуклеотидов. PPi превращается в АТФ при помощи АТФ-сульфурилазы в присутствии аденозина 5’-фосфосульфата. Люцифераза взаимодействует с АТФ для преобразования люциферина в оксилюциферин, и в результате данной реакции генерируется световое излучение, которое затем измеряется и анализируется. [00252] In another illustrative, non-limiting embodiment, the methods described herein include obtaining information about the nucleic acid sequence in the test sample using 454 sequencing (Roche) (for example, as described in Margulies, M et al Nature 437:376-380 [2005]). 454 sequencing typically involves two steps. At the first stage, DNA is subjected to hydrodynamic fragmentation to separate it into fragments having about 300-800 base pairs each and blunt ends. The oligonucleotide adapters are then ligated to the ends of the fragments. Adapters serve as primers for performing amplification and sequencing of fragments. The fragments can be attached to DNA capture microspheres, eg, streptavidin-coated microspheres, using, for example, Adapter B, which contains a 5'-biotin tag. The fragments attached to the microspheres are amplified by PCR in drops of an oil-water emulsion. The result is multiple copies of clonally amplified DNA fragments on each microsphere. In the second step, the microspheres are captured in wells (eg, picoliter). Pyrosequencing of each DNA fragment is carried out in a parallel manner. By adding one or more nucleotides, a light signal is generated, which is recorded by a CCD camera in a sequencing machine. The signal strength is proportional to the number of inserted nucleotides. When performing pyrosequencing, pyrophosphate (PPi) is used, which is released when nucleotides are added. PPi is converted to ATP by ATP sulfurylase in the presence of adenosine 5'-phosphosulfate. Luciferase interacts with ATP to convert luciferin to oxyluciferin, and as a result of this reaction, light is generated, which is then measured and analyzed.
[00253] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием технологии SOLiD™ (Applied Biosystems). При выполнении секвенирования путем лигирования в соответствии с технологией SOLiD™ геномную ДНК подвергают гидродинамическому фрагментированию для разделения ее на фрагменты, а адаптеры присоединяются к 5’ и 3’ концам фрагментов для генерирования библиотеки фрагментов. В альтернативном варианте реализации внутренние адаптеры могут вводить путем лигирования адаптеров с 5’ и 3’ концами фрагментов, округления фрагментов, расщепления круглого фрагмента для получения внутреннего адаптера и присоединения адаптеров к 5’ и 3’ концам полученных фрагментов для генерирования библиотеки сопряженных пар. Затем выполняется подготовка популяций клональных микросфер в микрореакторах, содержащих микросферы, праймеры, матрица и компоненты ПЦР. После ПЦР матрицы денатурируют и микросферы обогащают для разделения микросфер с удлиненными матрицами. Матрицы на выбранных микросферах подвергают модификации 3’, в результате которой устанавливают связи с предметным стеклом. Определение последовательности выполняют путем последовательной гибридизации и лигирования частично случайных олигонуклеотидов с центральным определенным основанием (или парой оснований), определяемым конкретным флуорофором. После регистрации цвета лигированный олигонуклеотид расщепляют и удаляют, затем процесс повторяют. [00253] In another illustrative non-limiting embodiment, the methods described herein include obtaining nucleic acid sequence information in a test sample using SOLiD™ technology (Applied Biosystems). In SOLiD™ ligation sequencing, genomic DNA is hydrodynamically fragmented to separate it into fragments, and adapters are attached to the 5' and 3' ends of the fragments to generate a library of fragments. In an alternative implementation, internal adapters can be introduced by ligating the adapters to the 5' and 3' ends of the fragments, rounding the fragments, splitting the round fragment to form an internal adapter, and attaching adapters to the 5' and 3' ends of the resulting fragments to generate a library of conjugated pairs. Then, populations of clonal microspheres are prepared in microreactors containing microspheres, primers, template, and PCR components. After PCR, the templates are denatured and the microspheres are enriched to separate extended array microspheres. The matrices on the selected microspheres are subjected to a 3' modification, as a result of which bonds are established with the glass slide. Sequencing is performed by sequential hybridization and ligation of partially random oligonucleotides to a specific central base (or base pair) defined by a particular fluorophore. After color registration, the ligated oligonucleotide is digested and removed, then the process is repeated.
[00254] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием технологии секвенирования в реальном времени (SMRT™) компании Pacific Biosciences. При секвенировании SMRT во время синтеза ДНК визуализируют непрерывное встраивание меченых красителем нуклеотидов. Одиночные молекулы ДНК-полимеразы прикрепляют к нижней поверхности отдельных детекторов длины волны с нулевой модой (детекторов ZMW), которые получают информацию о последовательности во время встраивания фосфосвязанных нуклеотидов в растущую праймерную цепь. Детектор ZMW содержит ограничивающую структуру, которая позволяет наблюдать встраивание одного нуклеотида с помощью ДНК-полимеразы на фоне флуоресцентных нуклеотидов, которые быстро диффундируют внутрь и за пределы ZMW (в течение микросекунд). Включение нуклеотида в растущую цепь, как правило, занимает несколько миллисекунд. В течение данного периода времени флуоресцентная метка возбуждается и продуцирует флуоресцентный сигнал, после чего флуоресцентная метка расщепляется. Измерение соответствующей флуоресценции красителя указывает на то, какое основание было встроено. Процесс выполняется повторно для получения последовательности. [00254] In another exemplary, non-limiting embodiment, the methods described herein include obtaining nucleic acid sequence information in a test sample using real-time sequencing technology (SMRT™) from Pacific Biosciences. SMRT sequencing visualizes continuous incorporation of dye-labeled nucleotides during DNA synthesis. Single molecules of DNA polymerase are attached to the bottom surface of separate zero-mode wavelength detectors (ZMW detectors) which acquire sequence information during the insertion of phospho-linked nucleotides into the growing primer strand. The ZMW detector contains a confining structure that allows one nucleotide insertion to be observed by DNA polymerase against a backdrop of fluorescent nucleotides that rapidly diffuse in and out of the ZMW (within microseconds). Inclusion of a nucleotide into a growing chain usually takes a few milliseconds. During this period of time, the fluorescent label is excited and produces a fluorescent signal, after which the fluorescent label is cleaved. Measuring the corresponding dye fluorescence indicates which base has been incorporated. The process is repeated to obtain a sequence.
[00255] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с помощью секвенирования через нанопоры (например, как описано в публикации Soni GV and Meller A. Clin Chem 53: 1996-2001 [2007]). Методики анализа ДНК путем секвенирования через нанопоры разработаны рядом компаний, включая, например, Oxford Nanopore Technologies (г. Оксфорд, Великобритания), Sequenom, NABsys и т.п. Секвенирование через нанопоры представляет собой технологию одномолекулярного секвенирования, при котором одиночную молекулу ДНК секвенируют непосредственно при прохождении через нанопору. Нанопора представляет собой небольшое отверстие диаметром, как правило, порядка 1 нанометра. Погружение нанопоры в электропроводящую текучую среду и подключение к ней источника потенциала (напряжения) приводит к появлению электрического тока небольшой силы вследствие проведения ионов через нанопоры. Сила протекающего тока зависит от размера и формы нанопоры. При прохождении молекулы ДНК через нанопору каждый нуклеотид молекулы ДНК перекрывает нанопору в разной степени, изменяя величину тока, проходящего через нанопору в разной степени. Таким образом, такое изменение тока при прохождении молекулы ДНК через нанопору позволяет получать прочтение последовательности ДНК. [00255] In another exemplary, non-limiting embodiment, the methods described herein include obtaining nucleic acid sequence information in a test sample using nanopore sequencing (e.g., as described in Soni GV and Meller A Clin Chem 53: 1996-2001 [2007]). Nanopore sequencing DNA analysis techniques have been developed by a number of companies including, for example, Oxford Nanopore Technologies (Oxford, UK), Sequenom, NABsys, and the like. Nanopore sequencing is a single molecule sequencing technology in which a single DNA molecule is sequenced directly as it passes through a nanopore. A nanopore is a small hole with a diameter, usually on the order of 1 nanometer. Immersing a nanopore in an electrically conductive fluid medium and connecting a potential (voltage) source to it results in the appearance of a small electric current due to the conduction of ions through the nanopores. The strength of the flowing current depends on the size and shape of the nanopore. When a DNA molecule passes through a nanopore, each nucleotide of the DNA molecule blocks the nanopore to a different extent, changing the amount of current passing through the nanopore to a different extent. Thus, such a change in current during the passage of a DNA molecule through a nanopore makes it possible to obtain a reading of the DNA sequence.
[00256] В другом иллюстративном варианте реализации, не имеющем ограничительного характера, способы, описанные в настоящем документе, включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием химически чувствительного транзистора с управляемым полем (chemFET) (например, как описано в опубликованной патентной заявке США № 2009/0026082). В одном примере реализации данной методики молекулы ДНК можно помещать в реакционные камеры, а матричные молекулы можно гибридизовать с праймером секвенирования, связанным с полимеразой. Встраивание одного или более трифосфатов в новую нуклеотидную цепочку на 3’ конце праймера секвенирования можно распознать с помощью chemFET по изменению тока. Массив может включать в себя множество датчиков chemFET. В другом примере отдельные нуклеиновые кислоты могут прикреплять к микросферам, также могут выполнять амплифицикацию нуклеиновых кислот на микросфере, и отдельные микросферы могут переносить в отдельные реакционные камеры на массиве chemFET, причем каждая из камер снабжена датчиком chemFET; кроме того, может проводиться секвенирование нуклеиновых кислот. [00256] In another exemplary, non-limiting embodiment, the methods described herein include obtaining nucleic acid sequence information in a test sample using a chemically sensitive field-controlled transistor (chemFET) (e.g., as described in US Patent Application Publication No. 2009/0026082). In one embodiment of this technique, DNA molecules can be placed in reaction chambers and template molecules can be hybridized to a polymerase-linked sequencing primer. The insertion of one or more triphosphates into a new nucleotide strand at the 3' end of a sequencing primer can be recognized by chemFET by a change in current. The array may include a plurality of chemFET sensors. In another example, individual nucleic acids can be attached to microspheres, nucleic acid amplification can also be performed on the microsphere, and individual microspheres can be transferred to separate reaction chambers on a chemFET array, each chamber equipped with a chemFET sensor; in addition, nucleic acid sequencing can be performed.
[00257] В другом варианте реализации технология секвенирования ДНК представляет собой одномолекулярное секвенирование с применением технологии Ion Torrent, которая объединяет полупроводниковую технологию с химическим анализом обычного способа секвенирования для прямого преобразования химически кодированной информации (A, C, G, T) в цифровую информацию (0, 1) с применением полупроводникового чипа. В природе, при встраивании полимеразой нуклеотида в цепь ДНК, побочный продукт в виде иона водорода высвобождается. В рамках технологии Ion Torrent используют массив микрообработанных лунок высокой плотности для выполнения данного биохимического процесса путем массового параллельного секвенирования. Каждая лунка содержит в себе отдельную молекулу ДНК. Под лунками находится чувствительный к ионам слой, а под ним находится ионный датчик. При добавлении нуклеотида, например C, в матрицу ДНК, и последующем встраивании в цепь ДНК высвобождается ион водорода. Заряд данного иона приведет к изменению pH-значения раствора, что, в свою очередь, регистрируют ионным датчиком Ion Torrent. Секвенатор, представляющий собой мельчайший в мире твердотельный измеритель значения pH, применяют для распознавания основания, конвертируя данные химического анализа в цифровые данные. Затем секвенатор Ion Personal Genome Machine (PGM™) последовательно заполняет чип нуклеотидами одним за другим. В случае несовпадения следующего нуклеотида, заполняющего чип. Изменения напряжения не будут регистрировать, и основания не будет распознавать. В случае, если на цепи ДНК имеются два идентичных основания, напряжение удваивается, и чип регистрирует два идентичных основания. Метод прямого обнаружения позволяет регистрировать включение нуклеотидов в течение нескольких секунд. [00257] In another embodiment, the DNA sequencing technology is single molecule sequencing using Ion Torrent technology, which combines semiconductor technology with the chemical analysis of a conventional sequencing method to directly convert chemically encoded information (A, C, G, T) into digital information (0 , 1) using a semiconductor chip. In nature, when a nucleotide is inserted into a DNA strand by a polymerase, a hydrogen ion by-product is released. The Ion Torrent technology uses a high-density array of micromachined wells to perform this biochemical process through mass parallel sequencing. Each well contains a single DNA molecule. Below the wells is an ion-sensing layer, and below that is an ion sensor. When a nucleotide, such as C, is added to the DNA template and then inserted into the DNA strand, a hydrogen ion is released. The charge on this ion will change the pH value of the solution, which in turn is recorded by the Ion Torrent ion sensor. The sequencer, the world's smallest solid-state pH meter, is used for base recognition by converting chemical analysis data into digital data. The Ion Personal Genome Machine (PGM™) sequencer then sequentially fills the chip with nucleotides one by one. In case of mismatch of the next nucleotide filling the chip. Voltage changes will not register and grounds will not be recognized. If there are two identical bases on the DNA strand, the voltage is doubled and the chip registers two identical bases. The direct detection method makes it possible to register the inclusion of nucleotides within a few seconds.
[00258] В другом варианте реализации настоящий способ включают в себя получение информации о последовательности нуклеиновых кислот в исследуемом образце с использованием секвенирования путем гибридизации. Секвенирование путем гибридизации содержит приведение множества полинуклеотидных последовательностей в контакт с множеством полинуклеотидных зондов, причем каждый из множества полинуклеотидных зондов может быть необязательно присоединен к субстрату. Субстрат может представлять собой плоскую поверхность, содержащую массив известных нуклеотидных последовательностей. Для определения полинуклеотидных последовательностей, присутствующих в образце, могут использовать паттерн для выполнения гибридизации с массивом. В других вариантах реализации каждый зонд прикрепляют к микросфере, например, к магнитной микросфере и т.п. Гибридизацию микросфер можно использовать для определения множества полинуклеотидных последовательностей в образце. [00258] In another embodiment, the present method includes obtaining information about the sequence of nucleic acids in the test sample using sequencing by hybridization. Sequencing by hybridization comprises bringing a plurality of polynucleotide sequences into contact with a plurality of polynucleotide probes, each of the plurality of polynucleotide probes may optionally be attached to a substrate. The substrate may be a flat surface containing an array of known nucleotide sequences. To determine the polynucleotide sequences present in the sample, you can use the pattern to perform hybridization with the array. In other embodiments, each probe is attached to a microsphere, such as a magnetic microsphere or the like. Microbead hybridization can be used to determine multiple polynucleotide sequences in a sample.
[00259] В некоторых вариантах реализации способов, описанных в настоящем документе, прочтения последовательностей имеют длину около в 20 п.н.о., около 25 п.н.о., около 30 bp, около 35 bp, около 40 bp, около 45 bp, около 50 п.н.о., около 55 п.н.о., около 60 п.н.о., около 65 п.н.о., около 70 п.н.о., около 75 п.н.о., около 80 п.н.о., около 85 п.н.о., около 90 п.н.о., около 95 п.н.о., около 100 п.н.о., около 110 п.н.о., около 120 п.н.о., около 130, около 140 п.н.о., около 150 п.н.о., около 200 п.н.о., около 250 п.н.о., около 300 п.н.о., около 350 п.н.о., около 400 п.н.о., около 450 п.н.о. или около 500 п.н.о. Ожидается, что при создании парных концевых прочтений технологические достижения обеспечат возможность одиночных концевых прочтений более 500 п.н.о. и прочтений более 1 000 п.н.о. В некоторых вариантах реализации для определения экспансии повторов используют парные концевые прочтения, которые содержат прочтения последовательностей длиной от около 20 п.н.о. до 1 000 п.н.о., от около 50 п.н.о. до 500 п.н.о. или от 80 п.н.о. до 150 п.н.о. В разнообразных вариантах реализации для оценки последовательности, имеющей экспансию повторов, применяют парные концевые прочтения. Последовательность, имеющая экспансию повторов, имеет большую длину, чем прочтения. В некоторых вариантах реализации последовательность, имеющая экспансию повторов, имеет большую длину, чем около 100 п.н.о., 500 п.н.о., 1 000 п.н.о. или 4 000 п.н.о. Сопоставление прочтений последовательностей осуществляется путем сравнения последовательности прочтений с последовательностью эталонного образца для определения хромосомного происхождения секвенированной молекулы нуклеиновой кислоты, и в таком случае специфическая информация о генетической последовательности не требуется. Допускается небольшая степень несоответствия (0-2 несовпадений на каждое прочтение) с учетом незначительных полиморфизмов, которые могут существовать между эталонным геномом и геномами в смешанном образце. В некоторых вариантах реализации прочтения, которые выровнены с эталонной последовательностью, используют в качестве базовых прочтений, а те прочтения, которые являются спаренными с базовыми прочтениями, но при этом не могут быть выровнены или являются плохо выровненными с эталонной последовательностью, используется в качестве закрепленных прочтений. В некоторых вариантах реализации плохо выровненные прочтения могут иметь относительно большое число несовпадений на каждое прочтение, например, по меньшей мере около 5%, 10%, 15% или 20% несовпадений на каждое прочтение. [00259] In some embodiments of the methods described herein, sequence reads are about 20 bp, about 25 bp, about 30 bp, about 35 bp, about 40 bp, about 45 bp, about 50 bp, about 55 bp, about 60 bp, about 65 bp, about 70 bp, about 75 bp, about 80 bp, about 85 bp, about 90 bp, about 95 bp, about 100 bp ., about 110 bp, about 120 bp, about 130, about 140 bp, about 150 bp, about 200 bp, about 250 bp, about 300 bp, about 350 bp, about 400 bp, about 450 bp or about 500 b.p. When creating paired end reads, technological advances are expected to enable single end reads greater than 500 bp. and reads over 1,000 b.p. In some embodiments, paired end reads are used to determine repeat expansion, which contain reads of sequences from about 20 bp in length. up to 1,000 bp, from about 50 bp up to 500 bp or from 80 b.p. up to 150 bp In various embodiments, paired end reads are used to evaluate a sequence having repeat expansion. A sequence with repeat expansion is longer than reads. In some embodiments, the sequence having repeat expansion is longer than about 100 bp, 500 bp, 1,000 bp. or 4,000 b.p. Sequence read matching is performed by comparing the read sequence with that of a reference sample to determine the chromosomal origin of the sequenced nucleic acid molecule, in which case no specific genetic sequence information is required. A small degree of mismatch (0-2 mismatches per read) is allowed, taking into account minor polymorphisms that may exist between the reference genome and the genomes in the mixed sample. In some implementations, reads that are aligned with the reference sequence are used as base reads, and those reads that are paired with the base reads but fail to align or are poorly aligned with the reference sequence are used as sticky reads. In some embodiments, poorly aligned reads may have a relatively high number of mismatches per read, such as at least about 5%, 10%, 15%, or 20% mismatches per read.
[00260] Как правило, для каждого образца получают множество меток последовательности (т. е. Прочтений, выравненных с эталонной последовательностью). В некоторых вариантах реализации по меньшей мере около 3 × 106 меток последовательности, по меньшей мере около 5 × 106 меток последовательности, по меньшей мере около 8 × 106 меток последовательности, по меньшей мере около 10 × 106 меток последовательности, по меньшей мере около 15 × 106 меток последовательности, по меньшей мере около 20 × 106 меток последовательности, по меньшей мере около 30 × 106 меток последовательности, по меньшей мере около 40 × 106 меток последовательности или по меньшей мере около 50 × 106 меток последовательности, включающих, например, 100 п.н.о. Получают путем сопоставления прочтений с эталонным геномом относительно каждого образца. В некоторых вариантах реализации все прочтения последовательностей сопоставлены со всеми областями эталонного генома, обеспечивая возможность выполнения прочтений по всему геному. В других вариантах реализации прочтения сопоставляют с исследуемой последовательностью, например, хромосомой, сегментом хромосомы или исследуемой последовательностью повторов. [00260] Typically, a plurality of sequence marks (i.e., reads aligned with a reference sequence) are obtained for each sample. In some embodiments, at least about 3 x 10 6 sequence marks, at least about 5 x 10 6 sequence marks, at least about 8 x 10 6 sequence marks, at least about 10 x 10 6 sequence marks, at least at least about 15 x 10 6 sequence marks, at least about 20 x 10 6 sequence marks, at least about 30 x 10 6 sequence marks, at least about 40 x 10 6 sequence marks, or at least about 50 x 10 6 sequence tags, including, for example, 100 bp. Obtained by matching reads against a reference genome for each sample. In some embodiments, all sequence reads are mapped to all regions of the reference genome, allowing genome-wide reads to be performed. In other embodiments, the reads are matched to a sequence of interest, such as a chromosome, segment of a chromosome, or sequence of repeats of interest.
5.13. Устройство и системы для определения экспансии повторов5.13. Device and systems for determining the expansion of repeats
[00261] Анализ данных секвенирования и диагностики, полученных из них, как правило, выполняют с использованием различных компьютерных алгоритмов и программ. Таким образом, в некоторых вариантах реализации применяют процессы, включающие в себя использование данных, хранящихся или передаваемых посредством одной или более компьютерных систем или иных систем обработки. Варианты реализации, описанные в настоящем документе, также относятся к устройству, использующемуся для выполнения данных операций. Данное устройство может быть специально сконструировано для достижения требуемых целей, также таким устройством может быть компьютер общего назначения (или группа компьютеров), специально настраиваемый компьютерной программой и/или структурой данных, хранящейся в компьютере. В некоторых вариантах реализации группа процессоров отвечает за выполнение некоторых или всех указанных аналитических операций в совместном (например посредством сетевых или облачных вычислений) и/или параллельном порядке. Процессор или группа процессоров, использующиеся для реализации способов, описанных в настоящем документе, могут быть различных типов, включая микроконтроллеры и микропроцессоры, такие как программируемые устройства (например, СПЛИС и ППВМ), и непрограммируемые устройства, такие как специализированные ИС вентильной матрицы или микропроцессоры общего назначения. [00261] The analysis of sequencing data and diagnostics obtained from them, as a rule, is performed using various computer algorithms and programs. Thus, in some embodiments, processes are employed that include the use of data stored or transmitted by one or more computer systems or other processing systems. The embodiments described in this document also apply to the device used to perform these operations. This device may be specially designed to achieve the desired purpose, and such a device may be a general purpose computer (or group of computers), specially configured by a computer program and/or data structure stored in the computer. In some embodiments, a group of processors is responsible for performing some or all of these analytics in a collaborative (eg, networked or cloud computing) and/or parallel fashion. The processor or group of processors used to implement the methods described herein can be of various types, including microcontrollers and microprocessors, such as programmable devices (for example, FPGAs and FPGAs), and non-programmable devices, such as specialized gate array ICs or general purpose microprocessors. destination.
[00262] В одном варианте реализации предлагается система определения генотипов вариантов в геномных локусах, включая последовательности повторов, также система включает в себя секвенатор для приема образцов нуклеиновой кислоты и предоставления информации о нуклеотидной последовательности таких образцов; процессор; и машиночитаемый носитель данных, содержащий инструкции, исполняемые на указанном процессоре и применяемые для генотипирования вариантов с применением следующих методов: (a) сбор прочтений последовательностей нуклеиновых кислот исследуемого образца из базы данных;(b) выравнивание прочтений последовательности с одной или более последовательностями повторов, каждая из которых представлена на графе последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности и направленные ребра, соединяющие вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) определение одного или более генотипов одной или более последовательностей повторов с использованием прочтений последовательности, выровненных с одной или более последовательностями повторов. [00262] In one embodiment, a system is provided for determining the genotypes of variants at genomic loci, including repeat sequences, the system also includes a sequencer for receiving nucleic acid samples and providing information about the nucleotide sequence of such samples; CPU; and a computer-readable storage medium containing instructions executable on said processor and used to genotype variants using the following methods: (a) collecting test sample nucleic acid sequence reads from a database; (b) aligning the sequence reads with one or more repeat sequences, each of which is represented on a sequence graph, wherein the sequence graph has a directed graph data structure, where the vertices represent nucleotide sequences and directed edges connecting the vertices, and the sequence graph contains one or more of its own simple cycles, with each own simple cycle being a subsequence of repeats , and each subsequence of repeats contains repeats of the repeating link of one or more nucleotides; and (c) determining one or more genotypes of one or more repeat sequences using sequence reads aligned with one or more repeat sequences.
[00263] В некоторых вариантах реализации любой из систем, предложенных в настоящем документе, секвенатор настраивают для выполнения секвенирования следующего поколения (NGS). В некоторых вариантах реализации секвенатор настраивается для выполнения массового параллельного секвенирования с применением секвенирования путем синтеза с использованием терминаторов обратимых красителей. В других вариантах реализации секвенатор настраивается для выполнения секвенирования путем лигирования. В других вариантах реализации секвенатор настраивается для выполнения одномолекулярного секвенирования. [00263] In some embodiments of any of the systems provided herein, the sequencer is configured to perform next generation sequencing (NGS). In some embodiments, the sequencer is configured to perform mass parallel sequencing using sequencing by synthesis using reversible dye terminators. In other embodiments, the sequencer is configured to perform sequencing by ligation. In other embodiments, the sequencer is configured to perform single molecule sequencing.
[00264] Кроме того, определенные варианты реализации относятся к материальным носителям и/или машиночитаемым носителям, предназначенным для долговременного хранения информации, или компьютерным программным продуктам, которые включают в себя программные команды и/или данные (включая структуры данных) для выполнения различных операций с помощью компьютера. Примеры машиночитаемых носителей включают в себя, без ограничений, полупроводниковые запоминающие устройства, магнитные носители, такие как дисковые накопители, магнитная лента, оптические носители, такие как диски, магнитооптические носители и аппаратные устройства, специально предусмотренные для хранения и выполнения программных команд, такие как постоянные запоминающие устройства (ПЗУ) и оперативные запоминающие устройства (ОЗУ). Машиночитаемые носители могут непосредственно или опосредованно управляться конечным пользователем. Примеры носителей с непосредственным управлением включают в себя носители, расположенные на объекте пользователя, и/или носители, данные с которых не являются общедоступными. Примеры носителей с опосредованным управлением включают в себя носители, опосредованно доступные пользователю через внешнюю сеть и/или сервис общего пользования, например, «облачный сервис». Примеры программных команд включают в себя как машинный код, в том числе создаваемый компилятором, так и файлы, содержащие код более высокого уровня, который может выполняться компьютером с использованием интерпретатора. [00264] In addition, certain embodiments relate to tangible media and/or computer-readable media designed for long-term storage of information, or computer program products that include program instructions and/or data (including data structures) for performing various operations with using a computer. Examples of computer-readable media include, but are not limited to, solid-state storage devices, magnetic media such as disk drives, magnetic tape, optical media such as disks, magneto-optical media, and hardware devices specifically provided for storing and executing program instructions such as permanent storage devices (ROM) and random access memory (RAM). Computer-readable media may be directly or indirectly controlled by the end user. Examples of directly managed media include media located at a user's site and/or media from which data is not publicly available. Examples of indirectly managed media include media indirectly available to a user through an external network and/or a public service, such as a "cloud service". Examples of program instructions include both machine code, including that generated by a compiler, and files containing higher-level code that can be executed by a computer using an interpreter.
[00265] В разнообразных вариантах реализации данные, используемые в рамках описанных способов, а также используемые в устройстве, представлены в электронном формате. Такие данные могут включать в себя прочтения и метки, полученные из образца нуклеиновой кислоты, эталонные последовательности (включая эталонные последовательности, исключительно или преимущественно приводящие к образованию полиморфизмов), распознавания, такие как распознавания экспансии повторов, рекомендации, противопоказания, диагнозы и т.п. В соответствии с содержанием настоящего документа, данные в электронном формате могут хранить в устройстве и передавать между устройствами. Обычно данные в электронном формате предоставляют в цифровом виде и могут хранить в виде набора битов и/или байтов в различных структурах данных, списках, базах данных и т.д. Данные могут быть реализованы в электронном, оптическом и ином виде. [00265] In various embodiments, the data used in the described methods, as well as used in the device, is in electronic format. Such data may include reads and labels derived from a nucleic acid sample, reference sequences (including reference sequences that exclusively or predominantly result in polymorphisms), recognitions such as repeat expansion recognitions, recommendations, contraindications, diagnoses, and the like. In accordance with the content of this document, data in electronic format can be stored in the device and transferred between devices. Typically, data in electronic format is provided in digital form and may be stored as a set of bits and/or bytes in various data structures, lists, databases, and so on. Data can be realized in electronic, optical and other form.
[00266] В одном варианте реализации предлагается компьютерный программный продукт для генерации выходных данных, указывающих на наличие или отсутствие экспансии повторов в исследуемом образце. Компьютерный продукт может содержать в себе инструкции по реализации любого одного или более из описанных выше способов определения экспансии повторов. Как объяснялось выше, компьютерный продукт может включать в себя материальный машиночитаемый носитель и/или носитель, предназначенный для долговременного хранения информации, содержащий записанный исполняемый или компилируемый программный код (например, инструкции), позволяющий процессору выполнять определение закрепленных прочтений и повторов в закрепленных прочтениях, а также наличие или отсутствие экспансии повторов. В одном примере компьютерный продукт содержит машиночитаемый носитель, содержащий записанный исполняемый или компилируемый программный код (например, инструкции), позволяющий процессору выполнять определение экспансии повторов и содержащий: процедуру получения данных секвенирования от по меньшей мере части молекул нуклеиновой кислоты, подвергнутых выравниванию с последовательностью повторов; машинный алгоритм для выполнения анализа экспансии повторов на основе указанных получаемых данных; и процедуру генерации выходных данных, указывающих на наличие, отсутствие и тип указанной экспансии повторов. [00266] In one embodiment, a computer program product is provided for generating output data indicative of the presence or absence of repeat expansion in a test sample. The computer product may include instructions for implementing any one or more of the methods for determining repeat expansion described above. As explained above, a computer product may include a tangible computer-readable medium and/or a non-volatile storage medium containing recorded executable or compiled program code (e.g., instructions) that allows the processor to perform determination of sticky reads and repetitions in sticky reads, and also the presence or absence of repeat expansion. In one example, the computer product includes a computer-readable medium containing written executable or compileable program code (eg, instructions) to enable the processor to perform repeat expansion determination and comprising: a procedure for obtaining sequencing data from at least a portion of nucleic acid molecules aligned with a repeat sequence; a machine algorithm for performing a repeat expansion analysis based on said output data; and a procedure for generating output data indicative of the presence, absence, and type of said repeat expansion.
[00267] Информация о последовательности в рассматриваемом образце может быть сопоставлена с эталонными хромосомными последовательностями для определения парных концевых прочтений, выровненных с исследуемой последовательностью повторов или закрепленных на ней, а также для определения экспансии повторов последовательности повторов. В разнообразных вариантах реализации эталонные последовательности хранят в базе данных, такой как реляционная или объектно-ориентированная база данных. [00267] Sequence information in a sample of interest can be compared to reference chromosomal sequences to determine paired end reads aligned with or anchored to the repeat sequence of interest, and to determine repeat expansion of the repeat sequence. In various embodiments, the reference sequences are stored in a database, such as a relational or object-oriented database.
[00268] Следует понимать, что в большинстве случаев выполнение вычислительных операций в рамках способов, описанных в настоящем документе, без посторонней помощи является непрактичным или даже невозможным. Например, для сопоставления одного прочтения из образца длиной в 30 п.н.о. с любой из хромосом человека может потребоваться несколько лет в случае, если не используется вычислительное устройство. Конечно, проблема усугубляется тем, что качественное распознавание экспансии повторов требует сопоставления тысяч (например, по меньшей мере около 10 000) или даже миллионов прочтений с одной хромосомой или более. [00268] It should be understood that in most cases, performing computational operations within the framework of the methods described herein without assistance is impractical or even impossible. For example, to match one read from a 30 bp sample. with any of the human chromosomes, it may take several years if a computing device is not used. Of course, the problem is exacerbated by the fact that qualitative recognition of repeat expansion requires matching thousands (eg, at least about 10,000) or even millions of reads with one or more chromosomes.
[00269] В разнообразных вариантах реализации необработанные прочтения последовательностей выравнивают с одним или более графами последовательностей, представляющими одну или более исследуемых последовательностей. В разнообразных вариантах реализации по меньшей мере 10 000, 100 000, 500 000, 1 000 000, 5 000 000 или 10 000 000 прочтений выровнены с одним или более графами последовательностей. В разнообразных вариантах реализации один или более графов последовательностей включают в себя по меньшей мере 1, 2, 5, 10, 50, 100, 500, 1 000, 5 000, 10 000 или 50 000 графов последовательностей. [00269] In various embodiments, raw sequence reads are aligned with one or more sequence graphs representing one or more sequences of interest. In various embodiments, at least 10,000, 100,000, 500,000, 1,000,000, 5,000,000, or 10,000,000 reads are aligned with one or more sequence graphs. In various embodiments, the one or more sequence graphs include at least 1, 2, 5, 10, 50, 100, 500, 1,000, 5,000, 10,000, or 50,000 sequence graphs.
[00270] В некоторых вариантах реализации необработанные прочтения последовательностей изначально выравнивают с эталонным геномом для определения геномных координат прочтений до того, как подмножество первоначально выровненных прочтений будет выровнено с одним или более графами последовательностей, представляющими одну или более исследуемых последовательностей. В разнообразных вариантах реализации по меньшей мере 10 000, 100 000, 500 000, 1 000 000, 5 000 000, 10 000 000 или 100 000 000 прочтений являются изначально выровненными с эталонным геномом. В некоторых вариантах реализации первоначально выровненные прочтения повторно выравнивают с графами последовательностей для определения экспансий повторов во множестве областей (каждая область соответствует графу последовательности). Общее число прочтений, которые повторно выравнивают с графами последовательностей во время каждого применения вариантов реализации, может находиться в диапазоне от тысяч до множества миллионов прочтений. В разнообразных вариантах реализации 10 000 000 прочтений повторно выравнивают с каждым графом последовательности. В разнообразных вариантах реализации один или более графов последовательностей включают в себя по меньшей мере 1, 2, 5, 10, 50, 100, 500, 1 000, 5 000, 10 000 или 50 000 графов последовательностей. [00270] In some embodiments, raw sequence reads are initially aligned with a reference genome to determine the genomic coordinates of the reads before a subset of the originally aligned reads are aligned with one or more sequence graphs representing one or more sequences of interest. In various embodiments, at least 10,000, 100,000, 500,000, 1,000,000, 5,000,000, 10,000,000, or 100,000,000 reads are initially aligned with the reference genome. In some embodiments, the originally aligned reads are realigned with sequence graphs to determine repeat expansions in multiple regions (each region corresponds to a sequence graph). The total number of reads that realign with the sequence graphs during each application of the implementation options may range from thousands to many millions of reads. In various implementations, 10,000,000 reads are realigned with each sequence graph. In various embodiments, the one or more sequence graphs include at least 1, 2, 5, 10, 50, 100, 500, 1,000, 5,000, 10,000, or 50,000 sequence graphs.
[00271] Способы, описанные в настоящем документе, могут реализовываться с применением системы для определения генотипов вариантов в геномном локусе, включающем в себя последовательность повторов. Система может включать в себя: (a) секвенатор для приема нуклеиновых кислот из исследуемого образца, предоставляющий информацию о нуклеотидной последовательности образца; (b) процессор; и (c) один или более машиночитаемых носителей данных, содержащий инструкции, исполняемые на указанном процессоре и применяемые для генотипирования вариантов в геномных локусах, включая последовательности повторов. В некоторых вариантах реализации инструкции по реализации способов могут получать с машиночитаемого носителя, на котором хранят машиночитаемые инструкции по выполнению определения экспансий повторов. Таким образом, в одном варианте реализации предлагается компьютерный программный продукт, содержащий машиночитаемый носитель, предназначенный для долговременного хранения информации, на котором хранится программный код, который при исполнении одним или более процессорами компьютерной системы приводит к реализации метода определенияикации экспансии повторов последовательности повторов в исследуемом образце, включающем нуклеиновые кислоты, где последовательность повторов включает повторы повторяющегося звена нуклеотидов. Программный код может включать в себя: (a) код для сбора прочтений последовательности исследуемого образца из базы данных; (b) код для выравнивания прочтений последовательности с одной или более последовательностями повторов, каждая из которых представлена на графе последовательности, причем граф последовательности имеет структуру данных направленного графа, где вершины представляют нуклеотидные последовательности и направленные ребра, соединяющие вершины, и при этом граф последовательности содержит один или более собственных простых циклов, причем каждый собственный простой цикл представляет собой подпоследовательность повторов, причем каждая подпоследовательность повторов содержит повторы повторяющегося звена одного или более нуклеотидов; и (c) код для определения одного или более генотипов одной или более последовательностей повторов с применением прочтений последовательности, выровненных с одной или более последовательностями повторов. [00271] The methods described herein can be implemented using a system for determining the genotypes of variants at a genomic locus that includes a sequence of repeats. The system may include: (a) a sequencer for receiving nucleic acids from a test sample, providing information about the nucleotide sequence of the sample; (b) a processor; and (c) one or more computer-readable storage media containing instructions executable on said processor and used to genotype variants at genomic loci, including repeat sequences. In some embodiments, instructions for implementing the methods may be obtained from a computer-readable medium that stores computer-readable instructions for performing the repeat expansion determination. Thus, in one embodiment, a computer program product is provided that contains a computer-readable medium for long-term storage of information, on which a program code is stored, which, when executed by one or more processors of a computer system, leads to the implementation of a method for determining the expansion of repetitions of a sequence of repetitions in a test sample, including nucleic acids, where the sequence of repeats includes repeats of a repeating link of nucleotides. The program code may include: (a) code for collecting test sample sequence reads from a database; (b) code for aligning sequence reads with one or more repeat sequences, each of which is represented on a sequence graph, wherein the sequence graph has a directed graph data structure, where vertices represent nucleotide sequences and directed edges connecting the vertices, and wherein the sequence graph contains one or more intrinsic simple cycles, each intrinsic simple cycle being a subsequence of repeats, each subsequence of repeats containing repeats of a repeating unit of one or more nucleotides; and (c) code for determining one or more genotypes of one or more repeat sequences using sequence reads aligned with the one or more repeat sequences.
[00272] В некоторых вариантах реализации инструкции могут дополнительно включать в себя автоматическую регистрацию информации, относящейся к способу, например относящемуся к повторам и закрепленным прочтениям, а также к наличию или отсутствию указаний на наличие экспансии повторов в медицинской документации субъекта-человека, у которого отбирают исследуемый образец. Медицинскую документацию пациента могут вести и хранить, например, в лаборатории, кабинете врача, больнице, учреждении здравоохранения, страховой компании, либо метод использования личной медицинской карты может дополнительно включать в себя назначение, начало и/или изменение лечения пациента, у которого отбирается исследуемый образец. Данный процесс может включать в себя выполнение одного или более дополнительных тестов или анализов дополнительных образцов, отобранных у субъекта. [00272] In some embodiments, the instructions may further include automatically recording information related to the method, such as relating to repeats and pinned reads, and the presence or absence of indications of repeat expansion in the medical records of the human subject from whom the test sample. The patient's medical records may be maintained and stored, for example, in a laboratory, doctor's office, hospital, health care facility, insurance company, or the method of using a personal medical record may additionally include the appointment, initiation and / or change of treatment of the patient from whom the test sample is taken . This process may include performing one or more additional tests or analyzes of additional samples taken from the subject.
[00273] Описанные способы также могут выполнять с применением компьютерной системы обработки, специально адаптированной для выполнения определения экспансий повторов. В одном варианте реализации предлагается реализация компьютерной системы обработки, специально настроенной для осуществления последовательности действий в рамках способа, описанного в настоящем документе. В одном варианте реализации аппарат включает в себя устройство для секвенирования, специально настроенное с возможностью секвенирования по меньшей мере части молекул нуклеиновой кислоты в образце для получения информации о типе последовательности, описанной в других разделах настоящего документа. Аппарат может также включать в себя компоненты для обработки образца. Такие компоненты описаны в других разделах настоящего документа. [00273] The described methods can also be performed using a computer processing system specially adapted to perform repeat expansion determinations. In one embodiment, an implementation of a computer processing system specifically configured to perform a sequence of steps in a method described herein is provided. In one embodiment, the apparatus includes a sequencing device specifically configured to sequence at least a portion of the nucleic acid molecules in a sample to obtain sequence type information described elsewhere herein. The apparatus may also include components for processing the sample. Such components are described elsewhere in this document.
[00274] Последовательность или другие данные могут вводить в компьютер или сохранять на машиночитаемом носителе в прямой или косвенной манере. В одном варианте реализации компьютерная система непосредственно связана с устройством для секвенирования, которое выполняет считывание и/или анализ последовательностей нуклеиновых кислот, полученных из образцов. Получение последовательностей или других данных с применением таких устройств выполняется путем взаимодействия с интерфейсом компьютерной системы. В альтернативном варианте реализации последовательности, обрабатываемые системой, получают из места хранения последовательностей, такого как база данных или другое хранилище. После получения доступа к устройству обработки запоминающее устройство или запоминающее устройство большой емкости используется для буферизации или хранения (в т.ч. временного) последовательностей нуклеиновых кислот. Кроме того, в запоминающем устройстве может храниться число меток для различных хромосом или геномов и т.п. В запоминающем устройстве также могут храниться различные подпрограммы и/или программы для анализа представления последовательности или сопоставленных данных. Такие программы/подпрограммы могут включать в себя программы для выполнения статистического анализа и т.д. [00274] The sequence or other data may be entered into a computer or stored on a computer-readable medium in a direct or indirect manner. In one embodiment, the computer system is directly connected to a sequencing device that reads and/or analyzes nucleic acid sequences obtained from samples. The acquisition of sequences or other data using such devices is accomplished by interacting with a computer system interface. In an alternative implementation, the sequences processed by the system are obtained from a storage location for the sequences, such as a database or other storage. Once the processing device is accessed, the storage device or mass storage device is used to buffer or store (including temporary) nucleic acid sequences. In addition, a number of marks for different chromosomes or genomes, or the like, may be stored in the storage device. The storage device may also store various subroutines and/or programs for parsing the sequence representation or associated data. Such programs/routines may include programs for performing statistical analysis, etc.
[00275] В одном примере пользователь помещает образец в аппарат для секвенирования. Сбор и/или анализ данных осуществляется с помощью аппарата для секвенирования, соединенного с компьютером. Программное обеспечение, установленное на компьютере, позволяет собирать и/или анализировать данные. Данные могут хранить, отображать (с помощью монитора или иного аналогичного устройства) и/или отправлять в другие места. Компьютер может быть соединен с сетью Интернет, используемой для передачи данных на мобильное устройство, используемое удаленным пользователем (например, врачом, ученым или лаборантом). Следует понимать, что данные могут хранить и/или анализировать перед осуществлением такой передачи. В некоторых вариантах реализации необработанные данные собирают и удаленно отправляют пользователю или на устройство анализа и/или хранения данных. Передачу данных могут выполнять посредством их хранения на машиночитаемом носителе, причем такой носитель может быть отправлен конечному пользователю (например, по почте). Удаленный пользователь может находиться в том же или ином географическом местоположении, включая, без ограничений, здание, город, штат, страну или континент. [00275] In one example, a user places a sample into a sequencing machine. Data collection and/or analysis is performed using a sequencing machine connected to a computer. The software installed on the computer makes it possible to collect and/or analyze data. Data may be stored, displayed (using a monitor or other similar device), and/or sent to other locations. The computer may be connected to the Internet used to transfer data to a mobile device used by a remote user (eg, a doctor, scientist, or laboratory assistant). It should be understood that data may be stored and/or analyzed prior to such transmission. In some embodiments, the raw data is collected and remotely sent to the user or to a data analysis and/or storage device. The transmission of data may be accomplished by storing it on a computer-readable medium, such medium being sent to the end user (eg, by mail). The remote user may be in the same or a different geographic location, including, without limitation, a building, city, state, country, or continent.
[00276] В некоторых вариантах реализации в рамках реализации способов также выполняют сбор данных множества полинуклеотидных последовательностей (например, прочтений, меток и/или эталонных хромосомных последовательностей) и отправку данных на компьютер или в другую вычислительную систему. Например, компьютер может быть подключен к лабораторному оборудованию, например, аппарату для сбора образцов, аппарату для амплификации нуклеотидов, аппарату для секвенирования нуклеотидов или аппарату для гибридизации. Затем компьютер может осуществлять сбор соответствующих данных, собранных с применением лабораторного оборудования. Данные могут хранить на компьютере на любом этапе, например, во время их сбора в режиме реального времени, перед их отправкой, во время отправки или после нее. Данные могут хранить на машиночитаемом носителе, который также может быть извлечен из компьютера. Собранные или сохраненные данные могут передавать с компьютера в удаленное местоположение, например через локальную сеть или глобальную сеть, такую как сеть Интернет. В удаленном местоположении с передаваемыми данными могут выполнять различные операции, как описано ниже. [00276] In some embodiments, the methods also collect multiple polynucleotide sequence data (eg, reads, tags, and/or reference chromosomal sequences) and send the data to a computer or other computing system. For example, the computer may be connected to laboratory equipment such as a sample collection apparatus, a nucleotide amplification apparatus, a nucleotide sequencing apparatus, or a hybridization apparatus. The computer can then collect the relevant data collected using the laboratory equipment. The data may be stored on the computer at any stage, such as during real-time collection, before it is sent, during or after it is sent. The data may be stored on a computer-readable medium, which may also be retrieved from a computer. The collected or stored data may be transmitted from a computer to a remote location, such as via a local area network or a wide area network such as the Internet. At a remote location, various operations may be performed on the transmitted data, as described below.
[00277] Ниже описаны типы данных, отформатированных с применением электронных устройств, которые можно хранить, передавать, анализировать и/или обрабатывать в системах, устройстве и в рамках реализации способов, описанных в настоящем документе. [00277] Described below are the types of electronically formatted data that can be stored, transmitted, parsed, and/or processed in systems, device, and implementation of the methods described herein.
Прочтения, полученные путем секвенирования нуклеиновых кислот в исследуемом образцеReads obtained by sequencing nucleic acids in the test sample
Метки, полученные путем выравнивания прочтений с эталонным геномом или другой эталонной последовательностью или последовательностямиLabels obtained by aligning reads with a reference genome or other reference sequence or sequences
Эталонный геном или последовательностьReference genome or sequence
Спецификация локуса, где указывается тип локуса, его местоположение и структура Locus specification, which indicates the type of locus, its location and structure
Охват прочтенийRead coverage
Генотип вариантов Variant genotype
Граф последовательности Sequence graph
Пути графаCount Ways
Информация о выравнивании графаGraph alignment information
Фактические распознавания экспансии повторовActual Recognitions of Repeat Expansion
Диагнозы (клиническое состояние, связанное с соответствующими распознаваниями)Diagnoses (clinical condition associated with relevant recognitions)
Рекомендации по выполнению дополнительных тестов, полученные на основе распознаваний и/или диагностикиRecommendations for performing additional tests based on recognitions and/or diagnostics
Планы лечения и/или мониторинга, полученные на основе распознаваний и/или диагностикиTreatment and/or monitoring plans derived from recognitions and/or diagnosis
[00278] Данные типы данных могут получать, сохранять, анализировать и/или обрабатывать в одном или более местах с помощью специализированных устройств. Насчитывается множество вариантов их обработки. В одном случае, вся или большую часть данной информации сохраняют и используют в месте обработки исследуемого образца, например, в кабинете врача или в иных клинических условиях. В ином случае, образец получают в одном местоположении, его обрабатывают и необязательно секвенируют в другом местоположении, прочтения выравнивают и выполняют распознавание в одном или более других местоположениях и подготавливают диагнозы, рекомендации и/или планы в еще одном местоположении (которое может представлять собой место отбора образца). [00278] These types of data may be received, stored, analyzed and/or processed in one or more locations using dedicated devices. There are many options for their processing. In one instance, all or most of this information is stored and used at the site of study sample processing, such as a doctor's office or other clinical setting. Otherwise, a sample is obtained at one location, processed and optionally sequenced at another location, reads are aligned and recognized at one or more other locations, and diagnoses, recommendations, and/or plans are prepared at yet another location (which may be the sampling location). sample).
[00279] В разнообразных вариантах реализации прочтения генерируются с помощью аппарата для секвенирования, а затем передают на удаленный сайт, где обрабатывают для распознавания наличия экспансии повторов. Например, в данном удаленном местоположении прочтения выровнены с эталонной последовательностью для создания базовых и закрепленных прочтений. К операциям обработки, которые могут применять в различных местах, относятся следующие: [00279] In various embodiments, reads are generated by a sequencing machine and then transmitted to a remote site where they are processed to recognize the presence of repeat expansion. For example, at a given remote location, reads are aligned with a reference sequence to create base and sticky reads. Processing operations that may be applied in various locations include the following:
Сбор образцовCollection of samples
Обработка образцов перед секвенированием Sample processing prior to sequencing
СеквенированиеSequencing
Анализ данных последовательности и распознавание наличия экспансии повторовAnalysis of sequence data and recognition of the presence of repeat expansion
ДиагностикаDiagnostics
Передача информации о диагнозе и/или результате распознавания пациенту или медицинскому работнику разработка плана дальнейшего лечения, тестирования и/или мониторинга Реализация планаCommunicating information about the diagnosis and/or recognition result to the patient or healthcare worker developing a plan for further treatment, testing and/or monitoring Implementing the plan
КонсультированиеConsulting
[00280] Данные операции могут быть автоматизированы в соответствии с содержанием других разделов настоящего документа. Как правило, секвенирование, анализ данных последовательности и распознавание наличия экспансии повторов выполняются путем вычислений. Другие операции могут выполняться вручную или автоматически. [00280] These operations can be automated in accordance with the contents of other sections of this document. Typically, sequencing, analysis of sequence data, and recognition of the presence of repeat expansion are performed by calculation. Other operations can be performed manually or automatically.
[00281] На Фиг. 6 проиллюстрирована одна реализация дисперсной системы для выполнения распознавания или диагностики на основании исследуемого образца. Место сбора образцов 01 используют для получения исследуемого образца у пациента. Затем образцы передают в место обработки и секвенирования 03, где исследуемые образцы обрабатывают и секвенируют, как описано выше. В местоположении 03 находится устройство для обработки образца, а также устройство для секвенирования обработанного образца. Результатом секвенирования, как описано в других разделах настоящего документа, является набор прочтений, которые, как правило, представлены в электронном формате и передают в сеть, такую как сеть Интернет; такой набор обозначен ссылочным номером 05 на Фиг. 6. [00281] In Fig. 6 illustrates one implementation of a dispersion system for performing recognition or diagnosis based on a test sample.
[00282] Данные последовательности передают в удаленное местоположение 07, в котором выполняют анализ и распознавание. В данном месте может находиться одно или более мощных вычислительных устройств, например, компьютеры или процессоры. После завершения анализа и выполнения распознавания на основе полученной информации о последовательности в местоположении 07, результаты данного распознавания возвращают в сеть 05. В некоторых вариантах реализации в местоположении 07 также генерируют не только результаты распознавания, но и информация о диагнозе. Затем результаты распознавания и/или диагностики передают по сети и возвращают в место сбора образцов 01, как изображено на Фиг. 6. Как объясняется выше, это лишь один из множества вариантов того, как различные операции, связанные с созданием результатов распознаваний или диагностики, могут разделяться между различными местоположениями. Один распространенный вариант реализации подразумевает выполнение сбора, обработки и секвенирования образцов в одном месте. Другой вариант включает в себя выполнение обработки и секвенирования в том же местоположении, где был выполнен анализ и создание результатов распознавания. [00282] The sequence data is transmitted to a
ЭКСПЕРИМЕНТАЛЬНЫЕEXPERIMENTAL
ПримерыExamples
[00283] Программа была применена к смоделированному набору данных, содержащему широкий диапазон размеров повторов CAG и CCG в локусе HTT. HTT или хантингтин представляет собой ген заболевания, связанный с болезнью Хантингтона (БХ), нейродегенеративным расстройством, характеризующимся потерей нейронов полосатого тела. Считается, что это вызвано увеличенным нестабильным тринуклеотидным повтором в гене под названием хантингтин, который транслируется как полиглутаминовый повтор в продуцируемом белке. В нормальных контрольных образцах был определеницирован достаточно широкий диапазон тринуклеотидных повторов (9-35), а количества повторов, превышающие 40, были названы патологическими. [00283] The program was applied to a simulated dataset containing a wide range of CAG and CCG repeat sizes at the HTT locus. HTT or huntingtin is a disease gene associated with Huntington's disease (HD), a neurodegenerative disorder characterized by loss of striatal neurons. This is believed to be caused by an increased, unstable trinucleotide repeat in a gene called huntingtin, which is translated as a polyglutamine repeat in the protein produced. In normal control samples, a fairly wide range of trinucleotide repeats (9-35) was determined, and the number of repeats exceeding 40 was called pathological.
[00284] Как и ожидалось, точность, достигнутая с применением способов, соответствующих некоторым вариантам осуществления, была существенно выше в случаях, когда прочтения выравнивались с графом последовательности, содержащим оба повтора, по сравнению со случаями, когда оба повтора подвергались анализу независимо. Наблюдали аналогичное улучшение по сравнению с другим процессом генотипирования КТП (Фиг. 7). [00284] As expected, the accuracy achieved using the methods of some embodiments was significantly higher in cases where reads aligned with a sequence graph containing both repeats compared to cases where both repeats were analyzed independently. A similar improvement was observed over the other CTP genotyping process (FIG. 7).
[00285] Для демонстрации возможности вырождения генотипов повторов ДНК в рамках методов реализации мы проанализировали полиаланиновый повтор в гене PHOX2B в 150 контрольных образцах, отобранных у здоровых субъектов, и одного образца, в котором содержалась известная экспансия патогенного типа. PHOX2B содержит полиаланиновый повтор 20 кодонов, который может расширяться, что вызывает проявление врожденного центрального гиповентиляционного синдрома. В соответствии с известным описанием повтора (Amiel et al. 2003), все контрольные образцы, кроме нескольких, генотипировали в соотношении 20/20. В рамках вариантов реализации выполняли точное генотипирование единственного образца с экспансией в соотношении 20/27; Правильность данного генотипа была подтверждена в рамках секвенирования Сэнгера. Также в рамках вариантов реализации был правильно определен патогенный ОНВ, смежный с гомополимером аденозина в гене MSH2, в трех репликатах, полученных в результате полногеномного секвенирования, образца, полученного от компании SeraCare Life Sciences (см. раздел «Дополнительные материалы»). [00285] To demonstrate the possibility of DNA repeat genotype degeneration within implementation methods, we analyzed the polyalanine repeat in the PHOX2B gene in 150 controls from healthy subjects and one sample containing a known pathogen type expansion. PHOX2B contains a 20-codon polyalanine repeat that can expand, causing congenital central hypoventilation syndrome. According to the well-known repeat description (Amiel et al. 2003), all but a few controls were genotyped in a 20/20 ratio. Within the implementation options performed accurate genotyping of a single sample with expansion in the ratio of 20/27; This genotype was confirmed by Sanger sequencing. Also within the embodiments, pathogenic NVD adjacent to the adenosine homopolymer in the MSH2 gene was correctly identified in three whole genome sequencing replicates of a sample obtained from SeraCare Life Sciences (see Supplementary Materials).
[00286] Таким образом, мы разработали новый способ, удовлетворяющий потребность в более точном генотипировании сложных локусов. Данный способ позволяет выполнять генотипирование полиаланиновых повторов и разделение сложных областей, содержащих повторы в непосредственной близости от малых вариантов и других повторов. Ожидается, что гибкость используемой в настоящем документе структуры графа последовательности позволит реализовать множество новых способов распознавания вариантов. [00286] Thus, we have developed a new method that satisfies the need for more accurate genotyping of complex loci. This method allows the genotyping of polyalanine repeats and the separation of complex regions containing repeats in close proximity to small variants and other repeats. It is expected that the flexibility of the sequence graph structure used in this document will allow the implementation of many new ways of recognizing variants.
Анализ КТП CAG и CCG в локусе HTTAnalysis of CAG and CCG CFT at the HTT locus
[00287] Для каждой комбинации генотипов повторов CAG и CCG был смоделирован образец короткого прочтения с использованием WGSIM (Li, н/о). Мы установили значение длины прочтения на 150, значение расстояния между концами сопряжения - на 350, значение стандартного отклонения расстояния между концами сопряжения - на 50, частоту мутаций и частоту базовых ошибок - на 0,0010 и долю делеций - на 0. Число пар устанавливали таким образом, чтобы получить 40-кратный охват локуса. Прочтения были выровнены с эталоном GRCh37 с BWA-MEM 0.7.17-r1194-грязн. (Li 2013). [00287] For each combination of CAG and CCG repeat genotypes, a short read pattern was modeled using WGSIM (Li, n/o). We set the read length value to 150, the distance between the ends of the pairing to 350, the value of the standard deviation of the distance between the ends of the pairing to 50, the mutation rate and the basic error rate to 0.0010, and the proportion of deletions to 0. The number of pairs was set as follows. way to get 40-fold coverage of the locus. The reads were aligned with the GRCh37 benchmark with BWA-MEM 0.7.17-r1194-dirty. (Li 2013).
[00288] Мы проанализировали эти данные двумя способами с применением некоторых вариантов реализации. Во-первых, мы указали структуру локуса HTT с использованием экспрессии (CAG)*CAACAG(CCG)*, обеспечивая выравнивание прочтений с графом последовательности, содержащим оба повтора. Затем мы использовали некоторые варианты реализации для выполнения независимого анализа каждого повтора. В данном режиме прочтения были выровнены с графом, представляющим КТП CAG, также они были по отдельности выровнены с графом, представляющим КТП CCG. Наконец, мы проанализировали оба повтора независимо с использованием последних версий GangSTR и TredParse, в которых не используются графы последовательностей для выравнивания прочтений с областью повторов (Фиг. 7). [00288] We analyzed this data in two ways using some implementation options. First, we indicated the structure of the HTT locus using (CAG)*CAACAG(CCG)* expression, ensuring read alignment with a sequence graph containing both repeats. We then used some implementations to perform an independent analysis of each iteration. In this mode, the reads were aligned with the graph representing the CAG QFT, and they were individually aligned with the graph representing the CCG QFT. Finally, we analyzed both repeats independently using the latest versions of GangSTR and TredParse, which do not use sequence graphs to align reads with the repeat region (Fig. 7).
[00289] На Фиг. 7 проиллюстрирована точность генотипирования КТП CAG и CCG в локусе HTT на основе смоделированных данных. (a) Характеристики варианта реализации, в котором прочтения выровнены с графом последовательности, содержащим оба повтора; (b) характеристики варианта реализации, в котором повторы анализируют независимо друг от друга; (c) характеристики GangSTR; (d) характеристики TredParse. Мы измерили максимальное процентное отклонение прогнозируемых длин КТП от ожидаемых длин КТП каждого смоделированного образца. Пунктирными синими линиями указан генотип в эталонном геноме, а сплошными красными линиями - пороговое значение патогенных экспансий. В рамках данного варианта реализации точно предсказывают верные генотипы всех образцов при совместном генотипировании обоих образцов. Совместное генотипирование имеет большое преимущество перед раздельным генотипированием обоих повторов при помощи любого из трех инструментов, для которого характерна высокая относительная частота ошибок, особенно в случаях, когда один из повторов значительно длиннее другого. [00289] In Fig. 7 illustrates the genotyping accuracy of CAG and CCG TTPs at the HTT locus based on simulated data. (a) Characteristics of an implementation in which reads are aligned with a sequence graph containing both repeats; (b) characteristics of an implementation in which the repeats are analyzed independently of each other; (c) GangSTR characteristics; (d) characteristics of TredParse. We measured the maximum percentage deviation of the predicted CHF lengths from the expected CHF lengths for each simulated sample. The dotted blue lines indicate the genotype in the reference genome, and the solid red lines indicate the threshold value of pathogenic expansions. Within this embodiment, the correct genotypes of all samples are accurately predicted when both samples are genotyped together. Joint genotyping has a great advantage over separate genotyping of both repeats using any of the three tools, which is characterized by a high relative error rate, especially in cases where one of the repeats is significantly longer than the other.
Наборы данныхDatasets
[00290] Данные полногеномного секвенирования без ПЦР, относящиеся к 150 неродственным контрольным образцам, использованные для анализа полиаланинового повтора PHOX2B, представляют собой группу Polaris Diversity. Данная группа состоит из образцов, выбранных из Международного ресурса по образцам генома (1000 Genomes Project Consortium et al. 2015) (www|.|internationalgenome|.|org/). Данные полногеномного секвенирования можно получить из Европейского архива генома-фенома (EGA; www|.|ebi|.|ac|.|uk/ega/home; PRJEB20654) и из архива прочтений последовательностей (АПП) Национального центра биотехнологической информации (АПП; www|.|ncbi|.|nlm|.|nih|.|gov/sra; bioproject:387148). Описание образцов (github|.|com/Illumina/Polaris/wiki/HiSeqX-Diversity-Cohort). [00290] Non-PCR whole genome sequencing data relating to 150 unrelated controls used to analyze the PHOX2B polyalanine repeat represent the Polaris Diversity group. This group consists of samples selected from the International Genome Sample Resource (1000 Genomes Project Consortium et al. 2015) (www|.|internationalgenome|.|org/). Whole genome sequencing data are available from the European Genome-Phenome Archive (EGA; www|.|ebi|.|ac|.|uk/ega/home; PRJEB20654) and from the Sequence Read Archive (RAR) of the National Center for Biotechnology Information (CBR; www |.|ncbi|.|nlm|.|nih|.|gov/sra; bioproject:387148). Description of samples (github|.|com/Illumina/Polaris/wiki/HiSeqX-Diversity-Cohort).
[00291] Образец, имеющий экспансию PHOX2B в соотношении 20/27, был предоставлен компанией Genetics Laboratories Molecular Genetics, медицинским исследовательским центром г. Адденбрук, штат Коннектикут, и Кембриджским университетом. [00291] A sample having a 20/27 expansion of PHOX2B was provided by Genetics Laboratories Molecular Genetics, Addenbrook Medical Research Center, Connecticut, and the University of Cambridge.
[00292] Образец под названием Seraseq Inherited Cancer DNA Mix v1, предоставленный компанией SeraCare Life Sciences, содержит определенно патогенные варианты, трудно поддающиеся распознаванию. Данные варианты были добавлены синтетическим методом в хорошо изученную клеточную линию GM24385; ожидаемые частоты таких вариантов составляют 50%. Одна из данный искусственных мутаций соответствует ОНВ в гене MSH2, который непосредственно примыкает к области длинного гомополимера А. [00292] A sample called Seraseq Inherited Cancer DNA Mix v1 provided by SeraCare Life Sciences contains distinctly pathogenic variants that are difficult to recognize. These variants were synthetically added to the well-studied GM24385 cell line; the expected frequencies of such variants are 50%. One of these artificial mutations corresponds to the OHV in the MSH2 gene, which is directly adjacent to the region of the long homopolymer A.
[00293] Подготовку трех репликатов образца SeraCare выполняли с использованием набора Illumina TruSeq PCR Free. Работу с репликатами проводили на одной полосе NovaSeq6000 с применением рабочего процесса XP, после чего проводилось секвенирование с длиной прочтения в 2 × 151. Репликаты анализировали с применением ПО Sentieon DNASeq FASTQ to VCF и ПО Whole Genome Resequencing v8.0.0 на облачной платформе Basespace (https://basespace.illumina.com). Sentieon можно рассматривать в качестве показателя эффективности распознавания вариантов с помощью программного пакета BWA-GATK производства Broad, в рамках которого реализуются такие же алгоритмы. Ни одна из единиц программного обеспечения не позволяла выполнить правильное определение ОНВ MSH2. Файлы Fastq и результаты анализа представлены в следующем разделе облачной платформы Basespace: https://basespace.illumina.com/s/HAQNxJyEtJLP [00293] The preparation of three replicates of the SeraCare sample was performed using the Illumina TruSeq PCR Free kit. Replicates were run on a single NovaSeq6000 lane using the XP workflow followed by sequencing at 2 × 151 read lengths. Replicates were analyzed using Sentieon DNASeq FASTQ to VCF software and Whole Genome Resequencing v8.0.0 software on the Basespace cloud platform (https http://basespace.illumina.com). Sentieon can be viewed as a measure of the performance of variant recognition using Broad's BWA-GATK software package, which implements the same algorithms. None of the software units allowed for the correct determination of the NVG MSH2. Fastq files and analysis results are provided in the following section of the Basespace cloud platform: https://basespace.illumina.com/s/HAQNxJyEtJLP
[00294] Содержание настоящего описания может быть реализовано в иных формах при условии сохранения его существенных характеристик. Описанные варианты реализации следует рассматривать только как иллюстративные варианты реализации, не имеющие ограничительного характера. Таким образом, область применения настоящего документа определяется соответствующими приложенными пунктами, а не приведенным выше описанием. Все изменения, соответствующие значению и диапазону эквивалентности пунктов, должны быть включены в область их применения. [00294] the Content of the present description can be implemented in other forms, provided that its essential characteristics are preserved. The described embodiments are to be considered as illustrative and non-limiting implementations only. Thus, the scope of this document is determined by the relevant appended clauses and not by the above description. All changes consistent with the value and range of item equivalence should be included in their scope.
Claims (45)
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US62/815,322 | 2019-03-07 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2023116499A Division RU2825664C2 (en) | 2019-03-07 | 2020-03-06 | Sequence graph tool for determining variations in regions of short tandem repeats |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RU2021108143A RU2021108143A (en) | 2023-04-07 |
| RU2799654C2 true RU2799654C2 (en) | 2023-07-07 |
Family
ID=
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017070096A1 (en) * | 2015-10-18 | 2017-04-27 | Affymetrix, Inc. | Multiallelic genotyping of single nucleotide polymorphisms and indels |
| RU2016139287A (en) * | 2014-03-28 | 2018-05-03 | Сиджен, Инк. | DETECTION OF NUCLEOTIDE TARGET SEQUENCES USING DIFFERENT DETECTION TEMPERATURES |
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| RU2016139287A (en) * | 2014-03-28 | 2018-05-03 | Сиджен, Инк. | DETECTION OF NUCLEOTIDE TARGET SEQUENCES USING DIFFERENT DETECTION TEMPERATURES |
| RU2019100495A (en) * | 2014-03-28 | 2019-01-31 | Сиджен, Инк. | DETECTION OF NUCLEOTIDE TARGET SEQUENCES USING DIFFERENT DETECTION TEMPERATURES |
| WO2017070096A1 (en) * | 2015-10-18 | 2017-04-27 | Affymetrix, Inc. | Multiallelic genotyping of single nucleotide polymorphisms and indels |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| AU2019250200B2 (en) | Error Suppression In Sequenced DNA Fragments Using Redundant Reads With Unique Molecular Indices (UMIs) | |
| US12374422B2 (en) | Sequence-graph based tool for determining variation in short tandem repeat regions | |
| US20220254442A1 (en) | Methods and systems for visualizing short reads in repetitive regions of the genome | |
| RU2799654C2 (en) | Sequence graph-based tool for determining variation in short tandem repeat areas | |
| RU2825664C2 (en) | Sequence graph tool for determining variations in regions of short tandem repeats | |
| EP4266314B1 (en) | Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis) | |
| HK40102784A (en) | Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis) | |
| HK40054694A (en) | Sequence-graph based tool for determining variation in short tandem repeat regions | |
| HK40040528B (en) | Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis) | |
| HK40040528A (en) | Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis) | |
| HK1244513B (en) | Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis) |