ES2687847T3 - Análisis mutacional de ADN de plasma para la detección de cáncer - Google Patents
Análisis mutacional de ADN de plasma para la detección de cáncer Download PDFInfo
- Publication number
- ES2687847T3 ES2687847T3 ES13807105.5T ES13807105T ES2687847T3 ES 2687847 T3 ES2687847 T3 ES 2687847T3 ES 13807105 T ES13807105 T ES 13807105T ES 2687847 T3 ES2687847 T3 ES 2687847T3
- Authority
- ES
- Spain
- Prior art keywords
- sequence
- tumor
- dna
- mutations
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 588
- 201000011510 cancer Diseases 0.000 title claims abstract description 227
- 238000004458 analytical method Methods 0.000 title description 63
- 238000001514 detection method Methods 0.000 title description 62
- 230000000869 mutational effect Effects 0.000 title description 18
- 108020004414 DNA Proteins 0.000 claims abstract description 308
- 239000000523 sample Substances 0.000 claims abstract description 117
- 238000000034 method Methods 0.000 claims abstract description 102
- 239000012634 fragment Substances 0.000 claims abstract description 60
- 239000012472 biological sample Substances 0.000 claims abstract description 51
- 108091035707 Consensus sequence Proteins 0.000 claims abstract description 23
- 238000012163 sequencing technique Methods 0.000 claims description 258
- 239000002773 nucleotide Substances 0.000 claims description 178
- 125000003729 nucleotide group Chemical group 0.000 claims description 178
- 108700028369 Alleles Proteins 0.000 claims description 51
- 238000009826 distribution Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 230000013011 mating Effects 0.000 claims 1
- 230000035772 mutation Effects 0.000 description 382
- 210000002381 plasma Anatomy 0.000 description 267
- 210000004027 cell Anatomy 0.000 description 80
- 210000001519 tissue Anatomy 0.000 description 61
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 41
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 40
- 230000008859 change Effects 0.000 description 39
- 206010061535 Ovarian neoplasm Diseases 0.000 description 29
- 230000035945 sensitivity Effects 0.000 description 25
- 238000011282 treatment Methods 0.000 description 25
- 210000000265 leukocyte Anatomy 0.000 description 24
- 210000004881 tumor cell Anatomy 0.000 description 24
- 238000013459 approach Methods 0.000 description 19
- 210000002966 serum Anatomy 0.000 description 18
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000002271 resection Methods 0.000 description 17
- 206010069754 Acquired gene mutation Diseases 0.000 description 15
- 208000031404 Chromosome Aberrations Diseases 0.000 description 15
- 210000001124 body fluid Anatomy 0.000 description 15
- 239000010839 body fluid Substances 0.000 description 15
- 230000002759 chromosomal effect Effects 0.000 description 15
- 231100000005 chromosome aberration Toxicity 0.000 description 15
- 230000037439 somatic mutation Effects 0.000 description 15
- 206010033128 Ovarian cancer Diseases 0.000 description 14
- 238000001712 DNA sequencing Methods 0.000 description 13
- 150000007523 nucleic acids Chemical class 0.000 description 13
- 238000012360 testing method Methods 0.000 description 13
- 210000004369 blood Anatomy 0.000 description 12
- 239000008280 blood Substances 0.000 description 12
- 238000012217 deletion Methods 0.000 description 12
- 230000037430 deletion Effects 0.000 description 12
- 239000000203 mixture Substances 0.000 description 12
- 101000716807 Arabidopsis thaliana Protein SCO1 homolog 1, mitochondrial Proteins 0.000 description 11
- 206010006187 Breast cancer Diseases 0.000 description 11
- 208000026310 Breast neoplasm Diseases 0.000 description 11
- 101001076715 Homo sapiens RNA-binding protein 39 Proteins 0.000 description 11
- 102100023361 SAP domain-containing ribonucleoprotein Human genes 0.000 description 11
- 230000003321 amplification Effects 0.000 description 11
- 238000003199 nucleic acid amplification method Methods 0.000 description 11
- 102000054765 polymorphisms of proteins Human genes 0.000 description 11
- 108700024394 Exon Proteins 0.000 description 10
- 102100029632 28S ribosomal protein S11, mitochondrial Human genes 0.000 description 9
- 101000716806 Arabidopsis thaliana Protein SCO1 homolog 2, mitochondrial Proteins 0.000 description 9
- 102100040543 FUN14 domain-containing protein 2 Human genes 0.000 description 9
- 101100391502 Homo sapiens FUNDC2 gene Proteins 0.000 description 9
- 230000004075 alteration Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000009467 reduction Effects 0.000 description 9
- 208000006994 Precancerous Conditions Diseases 0.000 description 8
- 210000000349 chromosome Anatomy 0.000 description 8
- 208000002672 hepatitis B Diseases 0.000 description 8
- 108020004707 nucleic acids Proteins 0.000 description 8
- 102000039446 nucleic acids Human genes 0.000 description 8
- 238000004393 prognosis Methods 0.000 description 8
- 239000000969 carrier Substances 0.000 description 7
- 230000032823 cell division Effects 0.000 description 7
- 239000012530 fluid Substances 0.000 description 7
- 206010061289 metastatic neoplasm Diseases 0.000 description 7
- 230000004077 genetic alteration Effects 0.000 description 6
- 102000054766 genetic haplotypes Human genes 0.000 description 6
- 238000009396 hybridization Methods 0.000 description 6
- 230000003211 malignant effect Effects 0.000 description 6
- 230000001394 metastastic effect Effects 0.000 description 6
- 230000002611 ovarian Effects 0.000 description 6
- 238000001356 surgical procedure Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000002146 bilateral effect Effects 0.000 description 5
- 238000001574 biopsy Methods 0.000 description 5
- 210000000601 blood cell Anatomy 0.000 description 5
- 210000000481 breast Anatomy 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 208000015181 infectious disease Diseases 0.000 description 5
- 230000003902 lesion Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000002203 pretreatment Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 208000000419 Chronic Hepatitis B Diseases 0.000 description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 4
- 208000005176 Hepatitis C Diseases 0.000 description 4
- 206010069755 K-ras gene mutation Diseases 0.000 description 4
- 206010027476 Metastases Diseases 0.000 description 4
- 208000007660 Residual Neoplasm Diseases 0.000 description 4
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000001747 exhibiting effect Effects 0.000 description 4
- 230000007614 genetic variation Effects 0.000 description 4
- 238000003205 genotyping method Methods 0.000 description 4
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 4
- 208000006454 hepatitis Diseases 0.000 description 4
- 231100000283 hepatitis Toxicity 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 210000004910 pleural fluid Anatomy 0.000 description 4
- 230000002980 postoperative effect Effects 0.000 description 4
- 230000001855 preneoplastic effect Effects 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 210000003296 saliva Anatomy 0.000 description 4
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 3
- 206010003445 Ascites Diseases 0.000 description 3
- 206010009944 Colon cancer Diseases 0.000 description 3
- 101100321992 Drosophila melanogaster ABCD gene Proteins 0.000 description 3
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 3
- 241000701806 Human papillomavirus Species 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 108091034117 Oligonucleotide Proteins 0.000 description 3
- 241000700605 Viruses Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 210000004602 germ cell Anatomy 0.000 description 3
- 230000012010 growth Effects 0.000 description 3
- 201000005787 hematologic cancer Diseases 0.000 description 3
- 230000002601 intratumoral effect Effects 0.000 description 3
- 150000002500 ions Chemical group 0.000 description 3
- 201000007270 liver cancer Diseases 0.000 description 3
- 208000014018 liver neoplasm Diseases 0.000 description 3
- 230000009401 metastasis Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 239000012071 phase Substances 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000008707 rearrangement Effects 0.000 description 3
- 230000000391 smoking effect Effects 0.000 description 3
- 239000007790 solid phase Substances 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 210000001138 tear Anatomy 0.000 description 3
- 210000002700 urine Anatomy 0.000 description 3
- 108700020463 BRCA1 Proteins 0.000 description 2
- 102000036365 BRCA1 Human genes 0.000 description 2
- 101150072950 BRCA1 gene Proteins 0.000 description 2
- 206010008342 Cervix carcinoma Diseases 0.000 description 2
- 241001327965 Clonorchis sinensis Species 0.000 description 2
- 206010061818 Disease progression Diseases 0.000 description 2
- 241000590002 Helicobacter pylori Species 0.000 description 2
- 241000701044 Human gammaherpesvirus 4 Species 0.000 description 2
- 108091092878 Microsatellite Proteins 0.000 description 2
- 206010061309 Neoplasm progression Diseases 0.000 description 2
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 2
- 208000005718 Stomach Neoplasms Diseases 0.000 description 2
- 210000001744 T-lymphocyte Anatomy 0.000 description 2
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 210000003567 ascitic fluid Anatomy 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 238000002869 basic local alignment search tool Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 201000010881 cervical cancer Diseases 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005750 disease progression Effects 0.000 description 2
- 238000010304 firing Methods 0.000 description 2
- 238000005194 fractionation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010017758 gastric cancer Diseases 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 229940037467 helicobacter pylori Drugs 0.000 description 2
- 229920001519 homopolymer Polymers 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000005170 neoplastic cell Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 201000011549 stomach cancer Diseases 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000004614 tumor growth Effects 0.000 description 2
- 230000005751 tumor progression Effects 0.000 description 2
- 238000007482 whole exome sequencing Methods 0.000 description 2
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 1
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 206010006223 Breast discharge Diseases 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 102000004594 DNA Polymerase I Human genes 0.000 description 1
- 108010017826 DNA Polymerase I Proteins 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 108060006698 EGF receptor Proteins 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 208000014061 Extranodal Extension Diseases 0.000 description 1
- 102100030708 GTPase KRas Human genes 0.000 description 1
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 1
- 206010071602 Genetic polymorphism Diseases 0.000 description 1
- 208000002250 Hematologic Neoplasms Diseases 0.000 description 1
- 241000700721 Hepatitis B virus Species 0.000 description 1
- 208000017604 Hodgkin disease Diseases 0.000 description 1
- 208000021519 Hodgkin lymphoma Diseases 0.000 description 1
- 208000010747 Hodgkins lymphoma Diseases 0.000 description 1
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 1
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 1
- 241000725303 Human immunodeficiency virus Species 0.000 description 1
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 1
- 208000002454 Nasopharyngeal Carcinoma Diseases 0.000 description 1
- 206010061306 Nasopharyngeal cancer Diseases 0.000 description 1
- 208000015914 Non-Hodgkin lymphomas Diseases 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 208000009608 Papillomavirus Infections Diseases 0.000 description 1
- 108010010677 Phosphodiesterase I Proteins 0.000 description 1
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 description 1
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 240000003705 Senecio vulgaris Species 0.000 description 1
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 238000011088 calibration curve Methods 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 229960005395 cetuximab Drugs 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 208000006990 cholangiocarcinoma Diseases 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 208000013772 cryohydrocytosis Diseases 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000741 diarrhetic effect Effects 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 238000005558 fluorometry Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 231100000118 genetic alteration Toxicity 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 210000003780 hair follicle Anatomy 0.000 description 1
- 201000010536 head and neck cancer Diseases 0.000 description 1
- 208000014829 head and neck neoplasm Diseases 0.000 description 1
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 description 1
- 208000021145 human papilloma virus infection Diseases 0.000 description 1
- 239000012678 infectious agent Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003426 interchromosomal effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000033607 mismatch repair Effects 0.000 description 1
- 230000011278 mitosis Effects 0.000 description 1
- 201000011216 nasopharynx carcinoma Diseases 0.000 description 1
- 210000002747 omentum Anatomy 0.000 description 1
- 229960001972 panitumumab Drugs 0.000 description 1
- 244000045947 parasite Species 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 238000002600 positron emission tomography Methods 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 238000003793 prenatal diagnosis Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011451 sequencing strategy Methods 0.000 description 1
- 208000019694 serous adenocarcinoma Diseases 0.000 description 1
- 208000004548 serous cystadenocarcinoma Diseases 0.000 description 1
- 210000004927 skin cell Anatomy 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 238000011277 treatment modality Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 231100000588 tumorigenic Toxicity 0.000 description 1
- 230000000381 tumorigenic effect Effects 0.000 description 1
- 229940121358 tyrosine kinase inhibitor Drugs 0.000 description 1
- 239000005483 tyrosine kinase inhibitor Substances 0.000 description 1
- 150000004917 tyrosine kinase inhibitor derivatives Chemical class 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01J—CHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
- B01J19/00—Chemical, physical or physico-chemical processes in general; Their relevant apparatus
- B01J19/0046—Sequential or parallel reactions, e.g. for the synthesis of polypeptides or polynucleotides; Apparatus and devices for combinatorial chemistry or for making molecular arrays
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1065—Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6853—Nucleic acid amplification reactions using modified primers or templates
- C12Q1/6855—Ligating adaptors
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/191—Modifications characterised by incorporating an adaptor
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2537/00—Reactions characterised by the reaction format or use of a specific feature
- C12Q2537/10—Reactions characterised by the reaction format or use of a specific feature the purpose or use of
- C12Q2537/16—Assays for determining copy number or wherein the copy number is of special importance
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2537/00—Reactions characterised by the reaction format or use of a specific feature
- C12Q2537/10—Reactions characterised by the reaction format or use of a specific feature the purpose or use of
- C12Q2537/165—Mathematical modelling, e.g. logarithm, ratio
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2539/00—Reactions characterised by analysis of gene expression or genome comparison
- C12Q2539/10—The purpose being sequence identification by analysis of gene expression or genome comparison characterised by
- C12Q2539/107—Representational Difference Analysis [RDA]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/106—Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/166—Oligonucleotides used as internal standards, controls or normalisation probes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- Plant Pathology (AREA)
- Cell Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
Un método para detectar cáncer o cambios premalignos en un sujeto, comprendiendo el método: obtener una secuencia consenso de un genoma del sujeto, en el que la secuencia consenso se deriva usando etiquetas de secuencia de una muestra del sujeto que contiene más del 50 % de ADN de células sanas; recibir una o más etiquetas de secuencia para cada una de una pluralidad de fragmentos de ADN en una muestra biológica del sujeto, incluyendo la muestra biológica ADN libre de células; determinar posiciones genómicas para las etiquetas de secuencia; comparar las etiquetas de secuencia con la secuencia consenso para determinar un primer número de primeros loci, en el que: en cada uno de los primeros loci, varias de las etiquetas de secuencia que tienen una variante de secuencia respecto a la secuencia consenso están por encima de un valor de corte, siendo el valor de corte mayor que uno; determinar un parámetro basándose en un recuento de etiquetas de secuencia que tienen una variante de secuencia en los primeros loci; y comparar el parámetro con un valor umbral para determinar una clasificación de un nivel de cáncer en el sujeto, correspondiendo el valor umbral a un rango del parámetro para sujetos que tienen la clasificación del nivel de cáncer.
Description
5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Análisis mutacional de ADN de plasma para la detección de cáncer Antecedentes
Se ha mostrado que el ADN derivado de tumor está presente en el plasma/suero libre de células de pacientes con cáncer (Chen XQ et al. Nat Med 1996; 2: 1033-1035). La mayoría de los métodos actuales se basan en el análisis directo de las mutaciones conocidas por estar asociadas con el cáncer (Diehl F et al. Proc Natl Acad Sci 2005; 102: 16368-16373; Forshew T et al. Sci Transl Med 2012; 4: 136ra68). Otro método ha investigado las variaciones en el número de copias asociadas con el cáncer detectadas mediante secuenciación aleatoria de ADN de plasma (Publicación de Patente de Estados Unidos 2013/0040824 de Lo et al.).
Se sabe que con el tiempo, más de una célula de cáncer adquirirá ventaja de crecimiento y producirá múltiples clones de células hijas. En última instancia, el crecimiento tumoral y/o sus focos metastásicos contendrían un conglomerado de grupos de células de cáncer clónales. Este fenómeno se conoce generalmente como heterogeneidad de tumor (Gerlinger M et al. N Engl J Med 2012; 366: 883-892; Yap TA et al. Sci Transl Med 2012; 4: 127 psl0).
Se sabe que los cánceres son muy heterogéneos, es decir el perfil de mutación de los cánceres del mismo tipo de tejido puede variar ampliamente. Por lo tanto, el análisis directo de mutaciones específicas generalmente puede detectar sólo un subconjunto de los casos dentro de un tipo particular de cáncer conocido por estar asociado con esas mutaciones específicas. Además, el ADN derivado de tumor es generalmente la especie menor de ADN en el plasma humano; la concentración absoluta de ADN en el plasma es baja. Por lo tanto, la detección directa de una o un pequeño grupo de mutaciones asociadas con el cáncer en el plasma o suero pueden lograr sensibilidad analítica baja incluso entre los pacientes con cánceres que se sabe que albergan las mutaciones dirigidas. Además, se ha observado que existe una heterogeneidad intratumoral significativa en términos de mutaciones incluso dentro de un solo tumor. Las mutaciones se pueden encontrar en sólo una subpoblación de las células tumorales. La diferencia en los perfiles mutacionales entre el tumor primario y las lesiones metastásicas es aún más grande. Un ejemplo de heterogeneidad intratumoral y de metástasis primaria implica los genes KRAS, BRAF y PIK3CA en pacientes que sufren cánceres colorrectales (Baldus et al. Clin Cancer Research 2010. 16:790-9).
En un escenario en el que un paciente tiene un tumor primario (que lleva una mutación KRAS pero no una mutación PIK3CA) y una lesión metastásica oculta (que lleva una mutación PIK3CA pero no una mutación KRAS), si uno se centra en la detección de la mutación KRAS en el tumor primario, la lesión metastásica oculta puede no ser detectada. Sin embargo, si se incluye ambas mutaciones en el análisis, tanto en el tumor primario como la lesión metastásica oculta pueden ser detectadas. Por lo tanto, la prueba que involucra ambas mutaciones tendría una mayor sensibilidad en la detección de tejidos de tumor residuales. Tal ejemplo sencillo se vuelve más complejo cuando se está buscando el cáncer, y cuando uno tiene poca o ninguna idea de los tipos de mutaciones que pudieran ocurrir.
Por tanto, es deseable proporcionar nuevas técnicas para llevar a cabo una amplia selección, detección o evaluación del cáncer.
Sumario
De acuerdo con la presente invención, se proporciona un método para detectar el cáncer o cambio premaligno en un sujeto, comprendiendo el método: obtener una secuencia consenso de un genoma del sujeto, en el que la secuencia consenso se obtiene usando etiquetas de secuencia de una muestra del sujeto que contiene más del 50% de ADN de células sanas; recibir una o más etiquetas de secuencia para cada una de una pluralidad de fragmentos de ADN en una muestra biológica del sujeto, incluyendo la muestra biológica ADN libre de células; determinar posiciones genómicas para las etiquetas de secuencia; comparar las etiquetas de secuencia con la secuencia consenso para determinar un primer número de primeros loci, en el que: en cada uno de los primeros loci, un número de etiquetas de secuencia que tienen una variante de secuencia relativa a la secuencia consenso está por encima de un valor de corte, siendo el valor de corte mayor que uno; determinar un parámetro basado en un recuento de etiquetas de secuencia que tienen una variante de secuencia en los primeros loci; y comparar el parámetro con un valor umbral para determinar una clasificación de un nivel de cáncer en el sujeto, correspondiendo el valor umbral a un rango del parámetro para sujetos que tienen la clasificación del nivel de cáncer.
Las realizaciones pueden observar una frecuencia de mutaciones somáticas en una muestra biológica (por ejemplo, plasma o suero) de un sujeto sometido a detección o control del cáncer, cuando se compara con la del ADN constitucional del mismo sujeto. La secuenciación aleatoria se puede utilizar para determinar estas frecuencias. Un parámetro puede derivarse de estas frecuencias y utilizarse para determinar una clasificación de un nivel de cáncer. Los falsos positivos pueden ser filtrados requiriendo que cualquier locus variante tenga al menos un número especificado de lecturas de secuencia variante (etiquetas), proporcionando así un parámetro más preciso. Las frecuencias relativas para los diferentes loci variantes pueden ser analizadas para determinar un nivel de
5
10
15
20
25
30
35
40
45
50
55
60
65
heterogeneidad de los tumores en un paciente.
En una realización, el parámetro se puede comparar con el mismo parámetro derivado de un grupo de sujetos sin cáncer, o con un bajo riesgo de cáncer. Una diferencia significativa en el parámetro obtenido del sujeto de prueba y la del grupo de sujetos sin cáncer, o con un bajo riesgo de cáncer, puede indicar un riesgo aumentado de que el sujeto de prueba tenga cáncer o una afección premaligna o que desarrolle cáncer en el futuro. Por lo tanto, en una realización, el análisis de ADN de plasma puede llevarse a cabo sin la información genómica previa del tumor. Tal realización es, por lo tanto, especialmente útil para la detección de cáncer.
En otra realización, las realizaciones también se pueden utilizar para controlar un paciente con cáncer después del tratamiento y para ver si hay un tumor residual o si el tumor ha recidivado. Por ejemplo, un paciente con tumor residual o en el que el tumor ha recidivado tendría una mayor frecuencia de mutaciones somáticas que uno en el que no hay tumor residual o en el que no se observa recidiva tumoral. El control puede implicar la obtención de muestras de un paciente con cáncer en múltiples puntos temporales después del tratamiento para determinar las variaciones temporales de aberraciones genéticas asociadas con el tumor en los fluidos corporales u otras muestras con ácidos nucleicos sin células, por ejemplo, plasma o suero.
De acuerdo con una realización, un método detecta el cáncer o cambio premaligno en un sujeto. Se obtiene un genoma constitucional del sujeto. Se reciben una o más etiquetas de secuencia por cada uno de una pluralidad de fragmentos de ADN en una muestra biológica del sujeto, donde la muestra biológica incluye ADN libre de células. Las posiciones genómicas están determinadas por las etiquetas de secuencia. Las etiquetas de secuencia se comparan con el genoma constitucional para determinar un primer número de primeros loci. En cada uno de los primeros loci, un número de las etiquetas de secuencia que tienen una variante de secuencia respecto al genoma constitucional está por encima de un valor de corte, donde el valor de corte es mayor que uno. Un parámetro se determina basándose en un recuento de las etiquetas de secuencia que tienen una variante de secuencia en los primeros loci. El parámetro se compara con un valor umbral para determinar una clasificación de un nivel de cáncer en el sujeto.
De acuerdo con otra realización, un método analiza una heterogeneidad de uno o más tumores de un sujeto. Se obtiene un genoma constitucional del sujeto. Una o más etiquetas de secuencia se reciben para cada una de una pluralidad de fragmentos de ADN en una muestra biológica del sujeto, donde la muestra biológica incluye ADN libre de células. Las posiciones genómicas están determinadas por las etiquetas de secuencia. Las etiquetas de secuencia se comparan con el genoma constitucional para determinar un primer número de primeros loci. En cada uno de los primeros loci, un número de las etiquetas de secuencia que tienen una variante de secuencia respecto al genoma constitucional está por encima de un valor de corte, donde el valor de corte es mayor que uno. Una medida de la heterogeneidad de los uno o más tumores se calcula basándose en los primeros números respectivos del conjunto de primeras ubicaciones genómicas.
De acuerdo con otra realización, un método determina una concentración fraccional de ADN de tumor en una muestra biológica que incluye ADN libre de células. Una o más etiquetas de secuencia se reciben para cada una de una pluralidad de fragmentos de ADN en la muestra biológica. Las posiciones genómicas están determinadas por las etiquetas de secuencia. Para cada una de una pluralidad de regiones genómicas, una cantidad respectiva de fragmentos de ADN dentro de la región genómica se determina a partir de las etiquetas de secuencia que tienen una posición genómica dentro de la región genómica. La cantidad respectiva se normaliza para obtener una densidad respectiva. La densidad respectiva se compara con una densidad de referencia para identificar si la región genómica exhibe una pérdida de 1-copia o una ganancia de 1-copia. Una primera densidad se calcula a partir de las densidades respectivas identificadas por exhibir una pérdida de 1 copia o a partir de las densidades respectivas identificadas que exhiben una ganancia de 1-copia. La concentración fraccional se calcula comparando la primera densidad con otra densidad para obtener un diferencial, en el que el diferencial se normaliza con la densidad de referencia.
Otras realizaciones están dirigidas a sistemas y medios legibles por ordenador asociados con los métodos descritos en la presente memoria.
Una mejor comprensión de la naturaleza y ventajas de la presente invención puede ser obtenida con referencia a la siguiente descripción detallada y las figuras adjuntas.
Breve descripción de los dibujos
La FIG. 1 es un diagrama de flujo de un método 100 para detectar cáncer o cambio premaligno en un sujeto de
acuerdo con las realizaciones de la presente invención.
La FIG. 2 muestra un diagrama de flujo de un método para comparar el genoma de muestra (SG) directamente
con el genoma constitucional (CG) de acuerdo con las realizaciones de la presente invención.
5
10
15
20
25
30
35
40
45
50
55
60
65
La FIG. 3 muestra un diagrama de flujo de un método 300 que compara el genoma de muestra (SG) con el genoma constitucional (CG), utilizando el genoma de referencia (RG) de acuerdo con las realizaciones de la presente invención.
La FIG. 4 es una tabla 400 que muestra el número de mutaciones de nucleótido único asociadas con el cáncer identificadas correctamente utilizando diferentes números de ocurrencias como el criterio de clasificación de una mutación como presente en la muestra de acuerdo con las realizaciones de la presente invención cuando la concentración fraccional de ADN derivado de tumor en la muestra se supone que es 10 %.
La FIG. 5 es una tabla que muestra el número esperado de loci falsos positivos y el número esperado de mutaciones identificadas cuando la concentración fraccional de ADN derivado de tumor en la muestra se supone que es 5 %.
La FIG. 6A es una gráfica 600 que muestra la velocidad de detección de mutaciones asociadas con el cáncer en el plasma con 10 % y 20 % de concentraciones fraccionales en plasma de ADN derivado de tumor y utilizando cuatro y seis ocurrencias (r) como criterios para las mutaciones potenciales asociadas con el cáncer. La FIG. 6B es una gráfica 650 que muestra el número esperado de posiciones de nucleótidos falsamente clasificadas de tener un cambio de nucleótido utilizando criterios de ocurrencia (r) de 4, 5, 6 y 7 frente a la profundidad de secuenciación.
La FIG. 7A es una gráfica 700 que muestra el número de verdaderos sitios de mutación asociados con el cáncer y sitios falsos positivos con profundidades de secuenciación de diferencia cuando la concentración fraccional de ADN derivado de tumor en la muestra se supone que es el 5 %. La FIG. 7B es una gráfica 750 que muestra el número predicho de sitios falsos positivos que implican el análisis del genoma completo (WG) y todos los exones.
La FIG. 8 es una tabla 800 que muestra los resultados de 4 pacientes con HCC antes y después del tratamiento, incluyendo concentraciones fraccionales de ADN derivado de tumor en plasma de acuerdo con las realizaciones de la presente invención.
La FIG. 9 es una tabla 900 que muestra la detección de los SNV asociados con HCC en 16 sujetos de control sanos de acuerdo con las realizaciones de la presente invención.
La FIG. 10A muestra una gráfica de distribución de las densidades de lectura de secuencias de la muestra de tumor de un paciente con HCC de acuerdo con las realizaciones de la presente invención. La FIG. 10B muestra una gráfica de distribución 1050 de las puntuaciones z para todas las agrupaciones en el plasma de un paciente con HCC de acuerdo con las realizaciones de la presente invención.
La FIG. 11 muestra una gráfica de distribución 1100 de las puntuaciones z para el plasma de un paciente con HCC de acuerdo con las realizaciones de la presente invención.
La FIG. 12 es un diagrama de flujo de un método 1200 para determinar una concentración fraccional de ADN de tumor en una muestra biológica que incluye ADN libre de células de acuerdo con las realizaciones de la presente invención.
La FIG. 13A muestra una tabla 1300 del análisis de mutaciones en el plasma del paciente con cáncer de ovarios y un cáncer de mama en el momento del diagnóstico de acuerdo con las realizaciones de la presente invención.
La FIG. 13B muestra una tabla 1350 del análisis de mutaciones en el plasma de un paciente con cáncer de ovarios bilateral y un cáncer de mama después de la resección del tumor de acuerdo con las realizaciones de la presente invención.
La FIG. 14A es una tabla 1400 que muestra la detección de variaciones de nucleótido único en el ADN de plasma para HCC1. La FIG. 14B es una tabla 1450 que muestra la detección de variaciones de nucleótido único en el ADN de plasma para HCC2.
La FIG. 15A es una tabla 1500 que muestra la detección de variaciones de nucleótido único en el ADN de plasma para HCC3. La FIG. 15B es una tabla 1550 que muestra la detección de variaciones de nucleótido único en el ADN de plasma para HCC4.
La FIG. 16 es una tabla 1600 que muestra la detección de variaciones de nucleótido único en el ADN de plasma para el paciente con cáncer de ovario (y mama).
La FIG. 17 es una tabla 1700 que muestra las sensibilidades predichas de diferentes requisitos de ocurrencia y profundidades de secuenciación.
5
10
15
20
25
30
35
40
45
50
55
60
65
La FIG. 18 es una tabla 1800 que muestra los números predichos de loci falsos positivos para diferentes puntos de corte y diferentes profundidades de secuenciación.
La FIG. 19 muestra un diagrama de árbol que ilustra el número de mutaciones detectadas en los diferentes sitios de tumor.
La FIG. 20 es una tabla 2000 que muestra el número de fragmentos que llevan las mutaciones derivadas de tumor en la muestra de plasma de pre-tratamiento y post-tratamiento.
La FIG. 21 es una gráfica 2100 que muestra las distribuciones de ocurrencia en el plasma para las mutaciones detectadas en un sitio de tumor único y mutaciones detectadas en los cuatro sitios de tumor.
La FIG. 22 es una gráfica 2200 que muestra la distribución predicha de ocurrencia en el plasma para las mutaciones procedentes de un tumor heterogéneo.
La FIG. 23 demuestra la especificidad de realizaciones para 16 sujetos control sanos que fueron reclutados.
La FIG. 24 es un diagrama de flujo de un método 24 00 para analizar una heterogeneidad de uno o más
tumores de un sujeto de acuerdo con las realizaciones de la presente invención.
La FIG. 25 muestra un diagrama de bloques de un ejemplo de sistema informático que se puede utilizar con el sistema y métodos de acuerdo con las realizaciones de la presente invención.
Definiciones
Como se utiliza en la presente memoria, el término “locus" o su forma plural “loci" es una ubicación o dirección de cualquier longitud de nucleótidos (o pares de bases) que puede tener una variación través de los genomas. Una “agrupación (bin)" es una región de longitud predeterminada en un genoma. Una pluralidad de agrupaciones puede tener una misma primera longitud (resolución), mientras que una pluralidad diferente puede tener una misma segunda longitud. En una realización, las agrupaciones no se superponen entre sí.
La expresión “secuenciación aleatoria" como se utiliza en la presente memoria, se refiere a la secuenciación mediante la cual los fragmentos de ácidos nucleicos secuenciados no han sido específicamente identificados o predeterminados antes del procedimiento de secuenciación. No se requieren cebadores específicos de la secuencia para dirigirse a loci de genes específicos. El término “secuenciación universal’ se refiere a la secuencia donde la secuenciación se puede iniciar en cualquier fragmento. En una realización, se añaden adaptadores al extremo de un fragmento, y los cebadores para la secuenciación se unen a los adaptadores. Por lo tanto, cualquier fragmento puede ser secuenciado con el mismo cebador, y por lo tanto la secuenciación puede ser aleatoria.
La expresión “etiqueta de secuencia" (también conocida como lectura de secuencia) como se utiliza en la presente memoria, se refiere a la cadena de nucleótidos secuenciados a partir de cualquier parte o la totalidad de una molécula de ácido nucleico. Por ejemplo, una etiqueta secuenciada puede ser una cadena corta de nucleótidos (por ejemplo, ~ 30) secuenciados de un fragmento de ácido nucleico, una cadena corta de nucleótidos en ambos extremos de un fragmento de ácido nucleico, o la secuenciación del fragmento de ácido nucleico completo que existe en la muestra biológica. Un fragmento de ácido nucleico es cualquier parte de una molécula de ácido nucleico más grande. Un fragmento (por ejemplo, un gen) puede existir por separado (es decir, no conectado) con las otras partes de la molécula de ácido nucleico más grandes.
La expresión “genoma constitucional" (también denominada como CG) se compone de los nucleótidos de consenso en los loci dentro del genoma, y por lo tanto se puede considerar una secuencia consenso. El CG puede abarcar el genoma completo del sujeto (por ejemplo, el genoma humano), o sólo partes del genoma. El genoma constitucional (CG) se puede obtener de ADN de las células, así como de ADN libre de células (por ejemplo, como se puede encontrar en el plasma). Idealmente, los nucleótidos de consenso deberían indicar que un locus es homocigoto para un alelo o heterocigoto para dos alelos. Un locus heterocigoto generalmente contiene dos alelos que son miembros de un polimorfismo genético. A modo de ejemplo, los criterios para determinar si un locus es heterocigoto puede ser un umbral de dos alelos cada uno apareciendo en al menos un porcentaje predeterminado (por ejemplo, 30 % o 40 %) de lecturas alineadas con el locus. Si un nucleótido aparece en un porcentaje suficiente (por ejemplo, 70 % o más), entonces el locus puede ser determinado como homocigoto en el Cg. Aunque el genoma de una célula sana puede diferir del genoma de otra célula sana debido a mutaciones aleatorias que ocurren de forma espontánea durante la división celular, el CG no debe variar cuando se usa tal consenso. Algunas células pueden tener genomas con reordenaciones genómicas, por ejemplo, linfocitos B y T, tales como las que implican genes del receptor de linfocitos T y anticuerpos. Tales diferencias a gran escala todavía serían una población relativamente pequeña de la población total de células nucleadas en la sangre, y por lo tanto, tales reordenaciones no afectarían a la determinación del genoma constitucional con muestreo suficiente (por ejemplo, profundidad de secuenciación) de las células sanguíneas. Otros tipos de células, incluyendo células bucales, células de la piel, folículos pilosos, o biopsias de diversos tejidos corporales normales, también pueden servir como fuentes de CG.
5
10
15
20
25
30
35
40
45
50
55
60
65
La expresión “ADN constitucional’ se refiere a cualquier fuente de ADN que es un reflejo de la composición genética con la que nace un sujeto. Para un sujeto, los ejemplos de “muestras constitucionales”, a partir de las cuales se puede obtener el ADN constitucional, incluyen ADN de células sanguíneas sanas, ADN de células bucales y ADN de la raíz del cabello. El ADN de estas células sanas define el CG del sujeto. Las células pueden ser identificadas como sanas de distintas maneras, por ejemplo, cuando una persona se sabe que no tiene cáncer o la muestra puede ser obtenida de tejido que no es probable que contenga células de cáncer o premalignas (por ejemplo, ADN de raíz del cabello cuando se sospecha de cáncer de hígado). En otro ejemplo, una muestra de plasma se puede obtener cuando un paciente está libre de cáncer, y el ADN constitucional determinado se compara con los resultados de una muestra de plasma posterior (por ejemplo, un año o más). En otra realización, se puede utilizar una muestra biológica única que contiene < 50 % del ADN de tumor para deducir el genoma constitucional y las alteraciones genéticas asociadas con el tumor. En tal muestra, las concentraciones de mutaciones de nucleótido único asociadas con el tumor serían menores que las de cada alelo de SNP heterocigotos en el CG. Tal muestra puede ser la misma que la muestra biológica utilizada para determinar un genoma de muestra, descrito a continuación.
La expresión “muestra biológica” como se utiliza en la presente memoria, se refiere a cualquier muestra que se toma de un sujeto (por ejemplo, un ser humano, una persona con cáncer, una persona con sospecha de tener cáncer, u otros organismos) y que contiene una o más moléculas de ácido nucleico libres de las células de interés. Una muestra biológica puede incluir ADN libre de células, algunas de las cuales puede tener su origen en las células sanas y alguna de las células tumorales. Por ejemplo, el ADN de tumor se puede encontrar en la sangre u otros fluidos, por ejemplo, orina, fluido pleural, fluido ascítico, líquido peritoneal, saliva, lágrimas o líquido cefalorraquídeo. Un ejemplo de una muestra que no es un líquido es una muestra de heces, la cual puede ser mezclada con el fluido diarreico. Para algunas de las muestras, la muestra biológica puede obtenerse de forma no invasiva. En algunas realizaciones, la muestra biológica puede ser utilizada como una muestra constitucional.
La expresión “genoma de muestra” (también denominada SG) es una colección de lecturas de secuencia que se han alineado con ubicaciones de un genoma (por ejemplo, un genoma humano). El genoma de muestra (SG) no es una secuencia consenso, pero incluye nucleótidos que pueden aparecer en sólo un número suficiente de lecturas (por ejemplo, al menos 2 o 3, o valores de corte mayores). Si un alelo aparece un número suficiente de veces y no es parte del CG (es decir, no es parte de la secuencia consenso), entonces ese alelo puede indicar una “mutación de nucleótido único” (también referida como una SNM). Otros tipos de mutaciones también se pueden detectar utilizando la presente invención, por ejemplo, mutaciones que implican dos o más nucleótidos, (como los que afectan al número de unidades de repetición en tándem en un microsatélite o polimorfismo de repetición en tándem simple), translocación cromosómica (que puede ser intracromosómica o intercromosómica) y la inversión de secuencia.
La expresión “genoma de referencia” (también denominada RG) se refiere a un genoma haploide o diploide con el cual se pueden alinear y comparar las lecturas de secuencia de la muestra biológica y la muestra constitucional. Para un genoma haploide, sólo hay un nucleótido en cada locus. Para un genoma diploide, los loci heterocigotos pueden ser identificados, teniendo cada locus dos alelos, donde cualquier alelo puede permitir una coincidencia para la alineación con el locus.
La expresión “nivel de cáncef puede referirse a si existe cáncer, un estadio de un cáncer, un tamaño de tumor, y/u otra medida de la gravedad de un cáncer. El nivel de cáncer podría ser varios u otros caracteres. El nivel podría ser cero. El nivel de cáncer también incluye afecciones (estados) premalignas o precancerosas asociadas con las mutaciones o varias mutaciones. El nivel de cáncer se puede utilizar de varias maneras. Por ejemplo, la detección puede comprobar si el cáncer está presente en alguien que no se sabe de antemano que tenía cáncer. La evaluación puede investigar a alguien que ha sido diagnosticado con cáncer. La detección puede significar “cribar” o puede significar comprobar si alguien, con características sugestivas de cáncer (por ejemplo, síntomas u otras pruebas positivos), tiene cáncer.
Descripción detallada
Las realizaciones se proporcionan para la detección de cáncer mediante el análisis de una muestra biológica (por ejemplo, una muestra de plasma/suero de la sangre) que no se toma directamente de un tumor e incluye ácidos nucleicos libres de células. Los ácidos nucleicos libres de células pueden obtenerse a partir de varios tipos de tejidos de todo el cuerpo. De esta manera, se puede realizar un amplio análisis para la detección de varios cánceres.
Las aberraciones genéticas (incluyendo mutaciones de nucleótido único, deleciones, amplificaciones, y reordenaciones) se acumulan en las células tumorales durante el desarrollo de los cánceres. En realizaciones, la secuenciación masivamente paralela se puede utilizar para detectar y cuantificar las mutaciones de nucleótido único (SNM), también llamadas variaciones de nucleótido único (SNV), en fluidos corporales (por ejemplo, plasma, suero, saliva, fluido ascítico, fluido pleural y líquido cefalorraquídeo) para detectar y controlar los cánceres. Una cuantificación del número de SNM (u otros tipos de mutaciones) puede proporcionar un mecanismo para identificar estadios tempranos del cáncer como parte de las pruebas de detección. En diversas aplicaciones, se procura distinguir los errores de secuenciación y distinguir las mutaciones espontáneas que se producen en las células sanas (por ejemplo, requiriendo que múltiples SNM se identifiquen en un locus particular, por ejemplo, al menos 3, 4, o 5).
5
10
15
20
25
30
35
40
45
50
55
60
65
Algunas realizaciones también proporcionan métodos no invasivos para el análisis de la heterogeneidad del tumor, que pueden implicar células dentro del mismo tumor (es decir, heterogeneidad intratumoral) o células de diferentes tumores (ya sea del mismo sitio o de diferentes sitios) dentro de un cuerpo. Por ejemplo, se puede analizar de forma no invasiva la estructura clonal de tal heterogeneidad del tumor, incluyendo una estimación de la masa de células tumorales relativa que contiene cada mutación. Las mutaciones que están presentes en concentraciones relativas mayores están presentes en un mayor número de células malignas en el cuerpo, por ejemplo, las células que han aparecido previamente durante el proceso tumorigénico con respecto a otras células malignas presentes todavía en el cuerpo (Welch JS et al. Cell 2012; 150: 264-278). Tales mutaciones, debido a su mayor abundancia relativa, se espera que exhiban una mayor sensibilidad de diagnóstico para detectar ADN de cáncer que aquellas con menor abundancia relativa. Un control seriado del cambio de la abundancia relativa de mutaciones permitiría controlar de forma no invasiva el cambio en la arquitectura clonal de los tumores, ya sea de forma espontánea cuando la enfermedad progresa, o en respuesta al tratamiento. Tal información sería de utilidad en el pronóstico de evaluación o en la detección temprana de resistencia del tumor al tratamiento.
I. INTRODUCCIÓN
Las mutaciones pueden ocurrir durante la división celular debido a los errores en la replicación del ADN y/o la reparación del aDn. Un tipo de tales mutaciones implica la alteración de nucleótidos únicos, que pueden implicar múltiples secuencias de diferentes partes del genoma. Se cree generalmente que los cánceres son debidos a la expansión clonal de una célula de cáncer única que ha adquirido ventaja de crecimiento. Esta expansión clonal conduciría a la acumulación de mutaciones (por ejemplo mutaciones de nucleótido único) en todas las células de cáncer procedentes de la célula de cáncer ancestral. Estas células tumorales de la progenie compartirían un conjunto de mutaciones (por ejemplo, mutaciones de nucleótido único). Como se describe en la presente memoria, las mutaciones de nucleótido único asociadas con el cáncer son detectables en el plasma/suero de pacientes con cáncer.
Algunas realizaciones pueden detectar con eficacia todas las mutaciones en una muestra biológica (por ejemplo, el plasma o suero). Ya que el número de mutaciones no es fijo (se pueden detectar cientos, miles o millones de mutaciones asociadas con el cáncer de diferentes subpoblaciones), las realizaciones pueden proporcionar una mejor sensibilidad que las técnicas que detectan mutaciones específicas. El número de mutaciones se puede utilizar para detectar el cáncer.
Para proporcionar tal nivel de detección de muchas o todas las mutaciones, las realizaciones pueden realizar una búsqueda (por ejemplo, una búsqueda aleatoria) de las variaciones genéticas en una muestra biológica (por ejemplo, fluidos corporales, incluyendo plasma y suero), que podrían contener ADN derivado de tumor. El uso de una muestra, tal como plasma, evita la necesidad de realizar una biopsia invasiva del tumor o cáncer. Además, como la detección puede cubrir la totalidad o grandes regiones del genoma, la detección no se limita a algunas mutaciones enumerables y conocidas, sino que también puede utilizar la existencia de cualquier mutación. Además, dado que el número de mutaciones se suma a través de todas o grandes regiones del genoma, se puede obtener una mayor sensibilidad.
Sin embargo, hay sitios polimórficos, incluyendo polimorfismos de nucleótido único (SNP), en el genoma humano, que no deben ser contados en las mutaciones. Las realizaciones pueden determinar si es probable que las variaciones genéticas que se han detectado sean mutaciones asociadas con el cáncer o sean polimorfismos en el genoma. Por ejemplo, como parte de la determinación entre las mutaciones asociadas con el cáncer y polimorfismos en el genoma, las realizaciones pueden determinar un genoma constitucional, que puede incluir polimorfismos. Los polimorfismos del genoma constitucional (CG) pueden limitarse a polimorfismos que se exhiben con un porcentaje suficientemente alto (por ejemplo, 30-40 %) en los datos de secuenciación.
Las secuencias obtenidas de la muestra biológica pueden a continuación ser alineadas con el genoma constitucional y se identifican las variaciones que son mutaciones de nucleótido único (SNM), u otros tipos de mutaciones. Estas SNM serían variaciones que no están incluidas en los polimorfismos conocidos, y por lo tanto pueden ser marcadas como asociadas con el cáncer, y no parte del genoma constitucional. Una persona sana puede tener un cierto número de SNM debido a las mutaciones aleatorias entre las células sanas, por ejemplo, creadas durante la división celular, pero una persona con cáncer tendría más.
Por ejemplo, en una persona con cáncer, el número de SNM detectables en un fluido corporal sería mayor que los polimorfismos presentes en el genoma constitucional de la misma persona. Se puede hacer una comparación entre las cantidades de las variaciones detectadas en una muestra de fluido corporal que contiene ADN derivado de tumor y una muestra de ADN que contiene mayoritariamente ADN constitucional. En una realización, el término “mayoritariamente” significaría más de 90 %. En otra realización preferida, el término “mayoritariamente” significaría más de 95, 97 %, 98 %, o 99 %. Cuando la cantidad de variaciones en el fluido corporal es superior a la de la muestra con ADN mayoritariamente constitucional, existe una mayor probabilidad de que el fluido corporal pueda contener ADN derivado de tumor.
5
10
15
20
25
30
35
40
45
50
55
60
65
Un método que podría utilizarse para buscar aleatoriamente las variaciones en las muestras de ADN es la secuenciación aleatoria o secuenciación de disparo de pistola (por ejemplo, utilizando secuenciación masivamente paralela). Cualquier plataforma de secuenciación masivamente paralela se puede usar, incluyendo una plataforma de secuenciación por ligación (por ejemplo, la plataforma Life Technologies SOLiD), la Ion Torrent/Ion Proton, la secuenciación por semiconductores, Roche 454 y las plataformas de secuenciación molecular única (por ejemplo Helicos, Pacific Biosciences y Nanopore). Sin embargo, se sabe que pueden producirse errores de secuenciación y pueden ser mal interpretados como una variación en el ADN constitucional o como mutaciones derivadas de ADN de tumor. Por lo tanto, para mejorar la especificidad de nuestro enfoque propuesto, la probabilidad del error de secuenciación u otros componentes de errores analíticos se puede explicar, por ejemplo, mediante el uso de una profundidad de secuenciación apropiada junto con el requisito de al menos un número especificado (por ejemplo, 2 o 3) de alelos detectados en un locus para que se cuente como una SNM.
Como se describe en la presente memoria, las realizaciones pueden proporcionar evidencia de la presencia de ADN derivado de tumor en una muestra biológica (por ejemplo, un fluido corporal) cuando la cantidad de variaciones genéticas aleatoriamente detectadas presentes en la muestra supera lo esperado para el ADN constitucional y a las variaciones que pueden ser inadvertidamente detectadas debido a los errores analíticos (por ejemplo, errores de secuenciación). La información podría ser utilizada para la detección, diagnóstico, pronóstico y control de cánceres. En las siguientes secciones, se describen las etapas analíticas que se pueden utilizar para la detección de mutaciones de nucleótido único en el plasma/suero u otras muestras (por ejemplo, fluidos corporales). Los fluidos corporales podrían incluir plasma, suero, líquido cefalorraquídeo, fluido pleural, fluido ascítico, secreción del pezón, saliva, fluido de lavado broncoalveolar, esputo, lágrimas, sudor y orina. Además de los fluidos corporales, la tecnología también se puede aplicar a muestras de heces, ya que se ha demostrado que estas últimas contienen ADN de tumor de cáncer colorrectal (Berger BM, Ahlquist DA. Pathology 2012; 44: 80- 5 88).
II. MÉTODO DE DETECCIÓN GENERAL
La FIG. 1 es un diagrama de flujo de un método 100 para detectar cáncer o un cambio premaligno en un sujeto de acuerdo con las realizaciones de la presente invención. Las realizaciones pueden analizar el ADN libre de células en una muestra biológica del sujeto para detectar las variaciones en el ADN libre de células que probablemente sean el resultado de un tumor. El análisis puede utilizar un genoma constitucional del sujeto para explicar los polimorfismos que son parte de las células sanas, y puede explicar los errores de secuenciación. El método 100 y cualquiera de los métodos descritos en la presente memoria pueden ser realizados total o parcialmente con un sistema informático que incluye uno o más procesadores.
En la etapa 110, se obtiene un genoma constitucional del sujeto. El genoma constitucional (CG) se puede determinar a partir del ADN constitucional del sujeto analizado. En diversas realizaciones, el CG se puede leer de la memoria o se determina de forma activa, por ejemplo, analizando las lecturas de secuencia del ADN constitucional, que pueden estar en las células de la muestra que incluye el ADN libre de células. Por ejemplo, cuando se sospecha de una neoplasia maligna no hematológica, las células sanguíneas pueden ser analizadas para determinar el ADN constitucional del sujeto.
En diversas aplicaciones, el análisis del ADN constitucional podría llevarse a cabo utilizando secuenciación masivamente paralela, hibridación basada en matriz, hibridación en solución basada en sonda, ensayos basados en ligación, ensayos de reacción de extensión de cebador, y espectrometría de masas. En una realización, el CG se puede determinar en un momento en la vida de un sujeto, por ejemplo, al nacer o incluso en el período prenatal (que se podría hacer usando células fetales o a través del fragmento de ADN libre de células, véase la Publicación de Estados Unidos 2011/0105353), y comparar después cuando los fluidos corporales u otras muestras se obtienen en otros momentos en la vida del sujeto. Por lo tanto, el CG simplemente puede leerse de la memoria del ordenador. El genoma constitucional puede leerse como una lista de loci donde el genoma constitucional difiere de un genoma de referencia.
En la etapa 120 se reciben una o más etiquetas de secuencia para cada una de una pluralidad de fragmentos de ADN en una muestra biológica del sujeto, donde la muestra biológica incluye ADN libre de células. En una realización, se generan una o más etiquetas de secuencia de una secuenciación aleatoria de fragmentos de ADN en la muestra biológica. Más de una etiqueta de secuencia se puede obtener cuando se realiza la secuenciación del extremo apareado. Una etiqueta correspondería a cada extremo del fragmento de ADN.
El ADN libre de células en la muestra (por ejemplo, plasma, suero u otro fluido corporal) se puede analizar para buscar variaciones genéticas. El ADN libre de células puede ser analizado utilizando la misma plataforma analítica que la que se ha utilizado para analizar el ADN constitucional. En otra alternativa, podría usarse una plataforma analítica diferente. Por ejemplo, la muestra de ADN libre de células puede ser secuenciada utilizando secuenciación masivamente paralela o partes del genoma podrían ser capturadas o enriquecidas antes de la secuenciación masivamente paralela. Si se utiliza el enriquecimiento, se podría, por ejemplo, utilizar captura en fase de solución o en fase sólida de partes seleccionadas del genoma. A continuación, la secuenciación masivamente paralela puede llevarse a cabo en el ADN capturado.
5
10
15
20
25
30
35
40
45
50
55
60
65
En la etapa 130, se determinan las posiciones genómicas para las etiquetas de secuencia. En una realización, las etiquetas de secuencia se alinean con un genoma de referencia, que se obtiene de uno o más de otros sujetos. En otra realización, las etiquetas de secuencia genómica están alineadas con el genoma constitucional del sujeto analizado. La alineación se puede realizar utilizando técnicas conocidas por un experto en la materia, por ejemplo, utilizando la Herramienta de Búsqueda de Alineación Local Básica (BLAST).
En la etapa 140, se determinan un primer número de loci donde al menos N etiquetas de secuencia tienen una variante de secuencia respecto al genoma constitucional (CG) . N es igual o mayor que dos. Como se describe más detalladamente a continuación, los errores de secuenciación, así como las mutaciones somáticas que ocurren aleatoriamente en las células (por ejemplo, debido a la división celular) pueden ser eliminados cuando tienen N igual a 2, 3, 4, 5, o mayor. Los loci que satisfacen uno o más criterios especificados pueden ser identificados como una mutación (variante) o loci de mutación (loci variantes), mientras que un locus que tiene una variante pero que no cumple uno o más criterios (por ejemplo, simplemente como una etiqueta de secuencia variante) se considera como una mutación potencial o putativa. La variante de secuencia podría ser solo un nucleótido o varios nucleótidos.
N puede determinarse como porcentaje de etiquetas totales para un locus, en lugar de un valor absoluto. Por ejemplo, un locus variante puede ser identificado cuando la concentración fraccional de ADN de tumor inferida de las lecturas variantes se determina que es igual o mayor que 10 % (o algún otro porcentaje). En otras palabras, cuando el locus está cubierto por 200 lecturas de secuencia, puede necesitarse un criterio de al menos 10 lecturas de secuencia que muestra el alelo variante para definir la variante como una mutación. Las 10 lecturas de secuencia del alelo variante y 190 lecturas del alelo tipo silvestre daría una concentración fraccional de ADN de tumor de 10 % (2x10/(10 + 190)).
En una realización, las etiquetas de secuencia (denominadas colectivamente como el genoma de muestra) se pueden comparar directamente con el CG para determinar las variantes. En otra realización, el genoma de muestra (SG) se compara con el CG a través de un genoma de referencia (RG) para determinar las variantes. Por ejemplo, tanto el CG como SG pueden ser comparados con el RG para determinar los números respectivos (por ejemplo, conjuntos) de loci que exhiben variantes, y luego se puede considerar una diferencia para obtener el primer número de loci. El primer número simplemente se puede obtener como un número o puede corresponder a un conjunto específico de loci, que luego pueden ser analizados adicionalmente para determinar un parámetro de las etiquetas de secuencia en los primeros loci.
En una aplicación, los resultados de la secuenciación de ADN constitucional y ADN de plasma se comparan para determinar si una mutación de nucleótido único está presente en el ADN de plasma. Las regiones en las que el ADN constitucional es homocigoto pueden ser analizadas. Para fines ilustrativos, se supone que el genotipo de un locus particular es homocigoto en el ADN constitucional y es AA. Luego en el plasma, la presencia de un alelo distinto de A indicaría la presencia potencial de una mutación de nucleótido único (SNM) en el locus particular. Los loci que indican la presencia potencial de una SNM pueden formar el primer número de loci en la etapa 140.
En una realización, podría ser útil seleccionar las partes del genoma que se sabe que son particularmente propensas a la mutación en un tipo de cáncer particular o en un subconjunto particular de la población. Es importante en este último aspecto, que las realizaciones puedan buscar tipos de mutaciones que son particularmente frecuentes en un grupo de población específica, por ejemplo, mutaciones que son especialmente comunes en los sujetos que son portadores del virus de la hepatitis B (para cáncer de hígado) o virus del papiloma humano (para cáncer cervical) o que tienen predisposición genética a mutaciones somáticas o sujetos con mutaciones de la línea germinal en un gen de reparación del mal apareamiento de ADN. La tecnología también podría ser útil para detectar mutaciones en los cánceres de ovario y mama en sujetos con mutaciones BRCA1 o BRCA2. La tecnología sería igualmente útil para detectar mutaciones en el cáncer colorrectal en sujetos con mutaciones en APC.
En la etapa 150, se determina un parámetro en función del recuento de las etiquetas de secuencia que tienen una variante de secuencia en los primeros loci. En un ejemplo, el parámetro es el primer número de loci donde al menos N fragmentos de ADN tienen una variante de secuencia en un locus respecto al genoma constitucional. Por lo tanto, el recuento puede ser utilizado simplemente para asegurar que un locus tiene más de N copias de una variante particular identificada antes de ser incluida en el primer número. En otra realización, el parámetro puede ser o incluir el número total de etiquetas de secuencia que tienen una variante de secuencia respecto al genoma constitucional en los primeros loci.
En la etapa 160, el parámetro para el sujeto se compara con un valor umbral (por ejemplo, derivado de uno o más otros sujetos) para determinar una clasificación de un nivel de cáncer en el sujeto. Los ejemplos de un nivel de cáncer incluyen si el sujeto tiene cáncer o una afección premaligna, o un aumento de la probabilidad de desarrollar cáncer. En una realización, el valor umbral puede determinarse de una muestra obtenida previamente del sujeto.
En otra realización, se puede determinar que uno o más otros sujetos no tienen cáncer o un bajo riesgo de cáncer. Por lo tanto, el valor umbral puede ser un valor normal, un rango normal, o indicar una desviación estadísticamente significativa de un valor o rango normal. Por ejemplo, el número de mutaciones con relación al CG de un sujeto
5
10
15
20
25
30
35
40
45
50
55
60
65
específico, detectable en el plasma de sujetos sin un cáncer o con un bajo riesgo de cáncer, se puede utilizar como el rango normal para determinar si el número de mutaciones detectadas en el sujeto analizado es normal. En otra realización, se podría conocer que otros sujetos tienen cáncer, y por lo tanto un número similar de mutaciones pueden indicar cáncer.
En una aplicación, los otros sujetos se pueden seleccionar de modo que tengan unas características clínicas que sean coincidentes con las del sujeto de prueba, por ejemplo, sexo, edad, dieta, antecedentes de tabaquismo, historial de consumo de drogas, enfermedad previa, antecedentes familiares, genotipos de loci genómicos seleccionados, estado de las infecciones virales (por ejemplo infección por virus de hepatitis B o C o virus del papiloma humano o virus de inmunodeficiencia humana o virus de Epstein-Barr) o infecciones con otros agentes infecciosos (tales como bacterias (por ejemplo, Helicobacter pylori) y parásitos (por ejemplo, Clonorchis sinensis), etc. Por ejemplo, los sujetos que son portadores del virus de la hepatitis B o C tienen un mayor riesgo de desarrollar carcinoma hepatocelular. Por lo tanto, los sujetos de prueba que tienen un número similar o patrón de mutaciones como un portador de la hepatitis B o C se puede considerar que tienen un aumento del riesgo de desarrollar carcinoma hepatocelular. Por otro lado, un paciente con hepatitis B o C que exhibe más mutaciones que otro paciente con hepatitis puede ser identificado apropiadamente y ser incluido en un nivel de clasificación del cáncer mayor, ya que se utiliza el valor basal apropiado (es decir, en relación con otro paciente con hepatitis). Del mismo modo, los sujetos que son portadores de la infección por virus del papiloma humano tienen mayor riesgo de cáncer cervical, y cáncer de cabeza y cuello. La infección con el virus de Epstein-Barr se ha asociado con el carcinoma nasofaríngeo, cáncer gástrico, linfoma de Hodgkin y linfoma no Hodgkin. La infección con Helicobacter pylori se ha asociado con el cáncer gástrico. La infección con Clonorchis sinensis se ha asociado con colangiocarcinoma.
El control de los cambios del número de mutaciones en diferentes puntos temporales se puede utilizar para controlar el progreso del cáncer y la respuesta al tratamiento. Tal control también se puede utilizar para documentar el progreso de una afección premaligna o cambio en el riesgo de que un sujeto desarrolle cáncer.
La cantidad de etiquetas de secuencia que muestran variaciones también se puede utilizar para el control. Por ejemplo, se puede usar una concentración fraccional de las lecturas variantes en un locus. En una realización, un aumento en las concentraciones fraccionales de aberraciones genéticas asociadas con el tumor en las muestras durante el control serial puede significar la progresión de la enfermedad o la recidiva inminente. Del mismo modo, una disminución en las concentraciones fraccionales de aberraciones genéticas asociadas con el tumor en las muestras durante el control serial puede significar la respuesta al tratamiento y/o remisión y/o buen pronóstico.
III. DETERMINACIÓN DE GENOMAS
Los diversos genomas discutidos anteriormente se explican con más detalle a continuación. Por ejemplo, se describen el genoma de referencia, el genoma constitucional y el genoma de muestra.
A. Genoma de referencia
El genoma de referencia (RG) se refiere a un genoma haploide o diploide de un sujeto o consenso de una población. El genoma de referencia es conocido y por lo tanto puede ser utilizado para comparar las lecturas de secuenciación de nuevos pacientes. Las lecturas de secuenciación de una muestra de un paciente pueden ser alineadas y comparadas para identificar variaciones en las lecturas del RG. Para un genoma haploide, sólo hay un nucleótido en cada locus, y por lo tanto cada locus puede ser considerado hemicigoto. Para un genoma diploide, los loci heterocigotos pueden ser identificados, teniendo tal locus dos alelos, donde cualquier alelo puede permitir una coincidencia para la alineación al locus.
Un genoma de referencia puede ser el mismo entre una población de sujetos. Este mismo genoma de referencia se puede utilizar para los sujetos sanos para determinar el umbral adecuado para ser utilizado para clasificar el paciente (por ejemplo, tiene cáncer o no). Sin embargo, se pueden usar diferentes genomas de referencia para diferentes poblaciones, por ejemplo, para diferentes grupos étnicos o incluso para diferentes agrupaciones.
B. Genoma constitucional
El genoma constitucional (CG) de un sujeto (por ejemplo, un ser humano u otro organismo diploide) se refiere a un genoma diploide del sujeto. El CG puede especificar loci heterocigotos donde un primer alelo es de un primer haplotipo y un segundo alelo diferente es de un segundo haplotipo. Hay que tener en cuenta que las estructuras de dos haplotipos que cubren dos loci heterocigotos no necesitan ser conocidas, es decir, qué alelo en un locus heterocigoto está en el mismo haplotipo ya que un alelo de otro locus heterocigoto no necesita ser conocido. Sólo la existencia de los dos alelos en cada locus heterocigoto puede ser suficiente.
El CG puede diferir del RG debido a los polimorfismos. Por ejemplo, un locus en el RG puede ser homocigoto para T, pero el CG es heterocigoto para T/A. Por lo tanto, el CG exhibiría una variación en este locus. El CG también puede ser diferente del RG debido a mutaciones heredadas (por ejemplo, transmitidas en la familia) o mutaciones de novo (que se producen en un feto, pero que no están presentes en sus padres). La mutación heredada se suele
5
10
15
20
25
30
35
40
45
50
55
60
65
llamar 'mutación de la línea germinal'. Algunas de tales mutaciones están asociadas con la predisposición al cáncer, tal como una mutación BRCA1 que se transmite en la familia. Tales mutaciones son diferentes de las 'mutaciones somáticas' que pueden ocurrir debido a la división celular durante la vida de una persona y que pueden empujar a una célula y su progenie a convertirse en un cáncer.
Un objetivo de la determinación del CG es eliminar tales mutaciones de la línea germinal y las mutaciones de novo de las mutaciones del genoma de muestra (SG) para identificar las mutaciones somáticas. La cantidad de mutaciones somáticas en el SG se puede utilizar después para evaluar la probabilidad de cáncer en el sujeto. Estas mutaciones somáticas pueden ser filtradas adicionalmente para eliminar errores de secuenciación, y potencialmente eliminar mutaciones somáticas que ocurren rara vez (por ejemplo, sólo una lectura que muestra una variante), ya que tales mutaciones somáticas no están probablemente relacionadas con el cáncer.
En una realización, un CG puede ser determinado utilizando células (ADN de capa leucocitaria). Sin embargo, el CG también se puede determinar a partir del ADN libre de células (por ejemplo, plasma o suero). Para un tipo de muestra en la que la mayoría de las células son no malignas, por ejemplo, la capa leucocitaria de un sujeto sano, el genoma mayoritario o consenso es el CG. Para el CG, cada locus genómico consiste en la secuencia de ADN poseída por la mayoría de las células en el tejido muestreado. La profundidad de la secuenciación debe ser suficiente para dilucidar sitios heterocigotos dentro del genoma constitucional.
En otro ejemplo, el plasma puede ser utilizado como la muestra constitucional para determinar el CG. Por ejemplo, para casos en los que el ADN de tumor en plasma es menor de 50 % y una SNM está en un estado heterocigoto, por ejemplo, la mutación es la adición de un nuevo alelo, entonces el nuevo alelo puede tener una concentración de menos de 25 %. Si bien. la concentración de los alelos heterocigotos de SNP en el CG debería ascender a aproximadamente 50 %. Por lo tanto, se puede hacer una distinción entre una mutación somática y un polimorfismo del CG. En una aplicación, un punto de corte adecuado puede estar entre 30-40 % para determinar una mutación somática de un polimorfismo cuando se usa plasma, u otras mezclas con una concentración significativa del tumor. Una medición de la concentración de ADN de tumor puede ser útil para asegurar que el ADN de tumor en plasma es menos de 50 %. Los ejemplos de la determinación de una concentración de ADN de tumor se describen en la presente memoria.
C. Genoma de muestra
El genoma de muestra (SG) no es simplemente un genoma haploide o diploide como es el caso del RG y del CG. El SG es una colección de lecturas de la muestra, y puede incluir: lecturas de ADN constitucional que corresponden al CG, lecturas de ADN de tumor, lecturas de células sanas que muestran mutaciones aleatorias relacionadas con el CG (por ejemplo, debido a mutaciones que resultan de la división celular), y errores de secuenciación. Se pueden utilizar varios parámetros para controlar exactamente que lecturas están incluidas en el SG. Por ejemplo, requerir un alelo para mostrar al menos 5 lecturas puede disminuir los errores de secuenciación presentes en el SG, así como disminuir las lecturas debido a las mutaciones aleatorias.
A modo de ejemplo, supongamos que el sujeto está sano, es decir, no tiene cáncer. Con fines ilustrativos, el ADN de 1000 células está en 1 ml de plasma (es decir, 1000 equivalentes de genoma de ADN) obtenido de este sujeto. El ADN de plasma consiste generalmente en fragmentos de ADN de aproximadamente 150 pb. Dado que el genoma humano tiene 3x109 pb, habría aproximadamente 2x107 fragmentos de ADN por genoma haploide. Ya que el genoma humano es diploide, habría aproximadamente 4x107 fragmentos de ADN por ml de plasma.
Ya que de millones a miles de millones de células están liberando su ADN en el plasma por unidad de tiempo y los fragmentos de estas células se mezclarían juntos durante la circulación, los 4x107 fragmentos de ADN podrían venir de 4x107 células diferentes. Si estas células no tienen una relación clonal entre sí reciente (es decir, que no comparten una célula ancestral reciente) (en oposición a distante, por ejemplo, el cigoto original) entonces es estadísticamente probable que ninguna mutación se vea más de una vez entre estos fragmentos.
Por otro lado, si entre los 1000 equivalentes de genoma por ml de ADN de plasma hay un cierto porcentaje de células que comparten una célula ancestral reciente (es decir, están relacionadas entre sí por clonación), entonces se podría ver que las mutaciones de este clon están representadas preferentemente en el ADN de plasma (por ejemplo, que exhiben un perfil mutacional clonal en el plasma). Tales células clonalmente relacionadas podrían ser células de cáncer o células que están en el proceso de convertirse en un cáncer, pero que aún no lo son (es decir, pre-neoplásicas). Por lo tanto, requerir que una mutación se muestre más de una vez puede eliminar esta variación natural en las “mutaciones” identificadas en la muestra, lo cual puede dejar más mutaciones relacionadas con las células de cáncer o células pre-neoplásicas, permitiendo así la detección, especialmente la detección temprana del cáncer o condiciones precancerosas.
En una aproximación, se ha establecido que, en promedio, una mutación se acumulará en el genoma después de cada división celular. Los trabajos anteriores han mostrado que la mayor parte del ADN de plasma es de células hematopoyéticas (Lui YY et al. Clin Chem 2002: 48: 421-427). Se ha estimado que las células madre hematopoyéticas se replican una vez cada 25-50 semanas (Catlin SN, et al. Blood 2011; 117: 4460-4466). Por lo
5
10
15
20
25
30
35
40
45
50
55
60
65
tanto, como una aproximación simplista, un sujeto sano de 40 años de edad habría acumulado unas 40 a 80 mutaciones por células madre hematopoyéticas.
Si hay 1000 equivalentes de genoma por ml en el plasma de esta persona, y si cada una de estas células se deriva de una célula madre hematopoyética diferente, entonces podrían esperarse de 40.000 a 80.000 mutaciones entre los 4x1010 fragmentos de ADN (es decir, 4x107 fragmentos de ADN por genoma, y 1000 equivalentes de genoma por ml de plasma). Sin embargo, como cada mutación se vería una vez, cada mutación puede seguir por debajo de un límite de detección (por ejemplo, si el valor de corte N es mayor que 1) , y por lo tanto, estas mutaciones se pueden filtrar, permitiendo de ese modo que el análisis se enfoque en las mutaciones que son más probables que resulten de afecciones cancerosas. El valor de corte puede ser cualquier valor (número entero o no entero) mayor que uno, y puede ser dinámico para diferentes loci y regiones. La profundidad de secuenciación y concentración fraccional de ADN de tumor también pueden afectar a la sensibilidad de la detección de mutaciones (por ejemplo, porcentaje de mutaciones detectables) de las células de cáncer o células pre-neoplásicas.
IV. COMPARACIÓN DEL SG DIRECTAMENTE CON EL CG
Algunas realizaciones pueden identificar posiciones de nucleótidos donde el CG es homocigoto, pero donde una especie minoritaria (es decir, el ADN de tumor) en el SG es heterocigota. Cuando se secuencia una posición con una elevada profundidad (por ejemplo, cobertura de más de 50 veces), se puede detectar si hay uno o dos alelos en esta posición en la mezcla de ADN de células sanas y cancerosas. Cuando hay dos alelos detectados, o bien (1) el CG es heterocigoto o (2) el CG es homocigoto pero el SG es heterocigoto. Estos dos escenarios se pueden diferenciar observando los recuentos relativos de los alelos mayoritarios y minoritarios. En el primer escenario, los dos alelos tendrían números similares de recuentos; pero para el último escenario, habría una gran diferencia en sus números de recuentos. Esta comparación de los recuentos de alelos relativos de las lecturas de la muestra de prueba es una realización para comparar las etiquetas de secuencia con el genoma constitucional. Los primeros loci del método 100 se pueden determinar como loci donde el número de alelos está por debajo de un umbral superior (umbral correspondiente a un polimorfismo en el CG) y por encima de un umbral inferior (umbral correspondiente a errores y mutaciones somáticas que ocurren a una velocidad suficientemente baja al no estar asociadas con una afección cancerosa). Por lo tanto, el genoma constitucional y los primeros loci pueden determinarse al mismo tiempo.
En otra realización, un proceso para identificar mutaciones puede determinar el CG primero, y luego determinar loci que tienen un número suficiente de mutaciones con relación al CG. El CG se puede determinar de una muestra constitucional que es diferente de la muestra de prueba.
La FIG. 2 muestra un diagrama de flujo de un método 200 que compara el genoma de muestra (SG) directamente con el genoma constitucional (CG) de acuerdo con las realizaciones de la presente invención. En el bloque 210, se obtiene un genoma constitucional del sujeto. El genoma constitucional puede obtenerse, por ejemplo, de una muestra tomada previamente a tiempo o una muestra constitucional que se obtiene y se analiza justo antes de que el método 200 se implemente.
En el bloque 220, una o más etiquetas de secuencia son recibidas para cada una de una pluralidad de fragmentos de ADN en una muestra biológica del sujeto. La secuenciación se puede realizar usando diversas técnicas, como se ha mencionado en la presente memoria. Las etiquetas de secuencia son una medida de lo que se cree que es la secuencia de un fragmento. Pero, una o más bases de una etiqueta de secuencia pueden ser erróneas.
En el bloque 230, al menos una porción de las etiquetas de secuencia están alineadas con el genoma constitucional. La alineación puede explicar que el CG sea heterocigoto en varios loci. La alineación no requeriría una coincidencia exacta de modo que se podrían detectar las variantes.
En el bloque 240, se identifican las etiquetas de secuencia que tienen una variante de secuencia en un locus respecto al genoma constitucional. Es posible que una etiqueta de secuencia pudiera tener más de una variante. Las variantes para cada locus y para cada etiqueta de secuencia pueden ser rastreadas. Una variante podría ser cualquier alelo que no está en el CG. Por ejemplo, el CG podría ser heterocigoto para A/T y la variante podría ser G o C.
En el bloque 250, para cada locus con una variante, un sistema informático puede contar un primer número respectivo de etiquetas de secuencia que se alinean con el locus y tienen una variante de secuencia en el locus. Por lo tanto, cada locus puede tener un recuento asociado del número de variantes vistas en el locus. Generalmente, un menor número de variantes serán vistas en un locus en comparación con las etiquetas de secuencia que corresponden al CG, por ejemplo, debido a que la concentración de ADN de tumor es menor que 50 %. Sin embargo, algunas muestras pueden tener una concentración de ADN de tumor que es mayor que 50 %.
En el bloque 260, un parámetro se determina basándose en los primeros números respectivos. En una realización, si un número respectivo es mayor que un valor de corte (por ejemplo, mayor que dos), entonces el número respectivo se puede añadir a una suma, que es el parámetro o se utiliza para determinar el parámetro. En otra realización, el
5
10
15
20
25
30
35
40
45
50
55
60
65
número de loci que tienen un número respectivo mayor que el valor de corte se utiliza como el parámetro.
En el bloque 270, el parámetro se compara con un valor umbral para clasificar a un nivel de cáncer. Como se describió anteriormente, el valor umbral puede determinarse a partir del análisis de las muestras de otros sujetos. Dependiendo del estado sano o con cáncer de estos otros sujetos, se puede determinar la clasificación. Por ejemplo, si los otros sujetos tenían cáncer en estadio 4, entonces si el parámetro actual estaba cerca (por ejemplo, dentro de un rango específico) al valor del parámetro obtenido de los otros sujetos, entonces el sujeto actual podría ser clasificado como que tiene cáncer de estadio 4. Sin embargo, si el parámetro supera el umbral (es decir, mayor o menor, dependiendo de cómo se define el parámetro), entonces la clasificación puede ser identificada como que es menor de estadio 4. Un análisis similar se puede hacer cuando los otros sujetos no tienen cáncer.
Se pueden utilizar múltiples umbrales para determinar la clasificación, donde cada umbral se determina de un conjunto diferente de sujetos. Cada conjunto de sujetos puede tener un nivel común de cáncer. Por lo tanto, el parámetro actual se puede comparar con los valores de cada conjunto de sujetos, lo que puede proporcionar una coincidencia con uno de los conjuntos o proporcionar un rango. Por ejemplo, el parámetro puede ser aproximadamente igual al parámetro obtenido para los sujetos que son precancerosos o en estadio 2. En otro ejemplo, el parámetro actual puede entrar en un rango que posiblemente puede coincidir con varios niveles diferentes de cáncer. Por lo tanto, la clasificación puede incluir más de un nivel de cáncer.
V. USO DEL GENOMA DE REFERENCIA
Las secuencias genómicas tanto del ADN constitucional como del ADN de la muestra biológica pueden ser comparadas con el genoma de referencia humano. Cuando hay más cambios en la muestra de plasma que en el ADN constitucional en comparación con el genoma de referencia, entonces hay una probabilidad más alta de cáncer. En una realización, se estudian los loci homocigotos en el genoma de referencia. Las cantidades de loci heterocigotos tanto en el ADN constitucional como en el ADN de la muestra biológica se comparan. Cuando la cantidad de sitios heterocigotos detectados del ADN de la muestra biológica supera a la del ADN constitucional, hay una mayor probabilidad de cáncer.
El análisis también podría limitarse a loci que son homocigotos en el GC. Las SNM también se pueden definir para loci heterocigotos, pero esto generalmente requeriría la generación de una tercera variante. En otras palabras, si el locus heterocigoto es A/T, una nueva variante sería C o G. La identificación de SNM para loci homocigotos es generalmente más fácil.
El grado de aumento en la cantidad de loci heterocigotos en el ADN de la muestra biológica respecto al ADN constitucional puede ser indicativo de cáncer o de un estado premaligno cuando se compara con la velocidad de cambio observado en sujetos sanos. Por ejemplo, si el grado de aumento de tales sitios es superior al observado en sujetos sanos en un cierto umbral, se puede considerar que los datos son indicativos de cáncer o de un estado premaligno. En una realización, la distribución de las mutaciones en sujetos sin cáncer se determina y se puede considerar un umbral como un cierto número de desviaciones estándar (por ejemplo, 2 o 3 desviaciones estándar).
Una realización puede requerir al menos un número especificado de variantes en un locus antes de que se cuente el locus. Otra realización proporciona una prueba incluso para los datos basándose en la observación de un cambio una vez. Por ejemplo, cuando el número total de variaciones (errores + mutaciones o polimorfismos auténticos) vistas en plasma es estadísticamente de manera significativa mayor que en el ADN constitucional, entonces no hay evidencia de cáncer.
La FIG. 3 muestra un diagrama de flujo de un método 300 que compara el genoma de muestra (SG) con el genoma constitucional (CG), utilizando el genoma de referencia (RG) de acuerdo con las realizaciones de la presente invención. El método 300 asume que el RG ya se ha obtenido, y que ya se han recibido las etiquetas de secuencia para la muestra biológica.
En el bloque 310, al menos una porción de las etiquetas de secuencia están alineadas con el genoma de referencia. La alineación puede permitir que se detecten malos apareamientos como variaciones. El genoma de referencia puede ser de una población similar a la del sujeto. Las etiquetas de secuencia alineadas comprenden efectivamente el genoma de muestra (SG).
En el bloque 320, se identifica un primer número (A) de variantes potenciales, por ejemplo, mutaciones de nucleótido único (SNM). Las SNM potenciales son loci donde una etiqueta de secuencia del Sg muestra un nucleótido que es diferente del RG. Se pueden usar otros criterios, por ejemplo, el número de etiquetas de secuencia que muestran una variación debe ser mayor que un valor de corte y si un locus es homocigoto en el RG. El conjunto de SNM potenciales puede ser representado como conjunto A cuando los loci específicos son identificados y rastreados mediante el almacenamiento de los loci en la memoria. Los loci específicos se pueden determinar o simplemente se puede determinar un número de tales SNM.
5
10
15
20
25
30
35
40
45
50
55
60
65
En el bloque 330, un genoma constitucional se determina mediante la alineación de las etiquetas de secuencia obtenidas mediante la secuenciación de fragmentos de ADN de una muestra constitucional respecto a un genoma de referencia. Esta etapa podría haber sido llevada a cabo en cualquier momento con anterioridad y utilizando una muestra constitucional obtenida en cualquier momento con anterioridad. El CG simplemente se podría leer de la memoria, donde la alineación se hizo anteriormente. En una realización, la muestra constitucional podría ser células sanguíneas.
En el bloque 340, se identifican un segundo número (B) de loci donde una etiqueta de secuencia alineada del CG tiene una variante (por ejemplo, una SNM) en un locus respecto al genoma de referencia. Si un conjunto de loci se rastrea específicamente, entonces B puede representar el conjunto, en lugar de sólo un número.
En el bloque 350, el conjunto B se resta del conjunto A para identificar variantes (SNM) que están presentes en el genoma de muestra, pero no en el CG. En una realización, el conjunto de SNM puede limitarse a las posiciones de nucleótidos donde el CG es homocigoto. Para lograr esta filtración, los loci específicos donde el CG es homocigoto pueden ser identificados en el conjunto C. En otra realización, un locus no se cuenta en el primer número A o el segundo número B, si el CG no es homocigoto en el locus. En otra realización, se puede filtrar cualquier polimorfismo conocido (por ejemplo, en virtud de su presencia en una base de datos de SNP).
En una realización, la sustracción en el bloque 350 puede ser simplemente una sustracción de números, y por lo tanto las SNM potenciales específicas no se eliminan, sino que simplemente se resta un valor. En otra realización, la sustracción considera una diferencia entre el conjunto A y el conjunto B (por ejemplo, donde el conjunto B es un subconjunto del conjunto A) para identificar las sNm específicas que no están en el conjunto B. En valores lógicos, esto puede expresarse como [A Y NO (B)]. El conjunto resultante de variantes identificadas puede ser marcado como C. El parámetro puede determinarse como el número C o determinarse a partir del conjunto C.
En algunas realizaciones se puede tener en cuenta la naturaleza de las mutaciones y diferentes ponderaciones atribuidas a diferentes clases de mutaciones. Por ejemplo, las mutaciones que se asocian comúnmente con el cáncer se pueden atribuir a una ponderación mayor (también llamado un valor de importancia cuando se hace referencia a las ponderaciones relativas de loci). Tales mutaciones se pueden encontrar en las bases de datos de mutaciones asociadas con el tumor, por ejemplo, el Catálogo de Mutaciones Somáticas en Cáncer (COSMIC) (
www.sanger.ac.uk/genetics /CGP/cosmic/). En otro ejemplo, las mutaciones asociadas con cambios no sinónimos se pueden atribuir a una ponderación mayor.
www.sanger.ac.uk/genetics /CGP/cosmic/). En otro ejemplo, las mutaciones asociadas con cambios no sinónimos se pueden atribuir a una ponderación mayor.
Por lo tanto, el primer número A podría ser determinado como una suma ponderada, donde el recuento de etiquetas que muestra una variante en un locus puede tener una ponderación diferente que el recuento de etiquetas en otro locus. El primer número A puede reflejar esta suma ponderada. Un cálculo similar se puede realizar para B, y por lo tanto el número C y el parámetro pueden reflejar esta ponderación. En otra realización, las ponderaciones se cuentan cuando se determina un conjunto C de loci específicos. Por ejemplo, una suma ponderada puede determinarse para los recuentos de los loci del conjunto C. Tales ponderaciones pueden ser utilizadas para otros métodos descritos en la presente memoria.
Por consiguiente, el parámetro que se compara con un umbral para determinar la clasificación de un nivel de cáncer puede ser el número de loci que exhiben una variación para el SG y el CG con respecto al RG. En otras realizaciones, se puede contar el número total de fragmentos de ADN (como se contó con las etiquetas de secuencia) que muestra una variación. En otras realizaciones, tales números se pueden utilizar en otra fórmula para obtener el parámetro.
En una realización, la concentración de la variante en cada locus puede ser un parámetro y se compara con un umbral. Este umbral puede ser utilizado para determinar si un locus es un locus variante potencial (además del punto de corte de un número específico de lecturas que muestra la variante), y posteriormente se contará el locus. La concentración también se podría utilizar como un factor de ponderación en una suma de las SNM.
VI. DISMINUCIÓN DE FALSOS POSITIVOS USANDO VALORES DE CORTE
Como se mencionó anteriormente, las mutaciones de nucleótido único pueden ser reconocidas en un gran número de fragmentos de ADN libres de células (por ejemplo, ADN circulante en plasma) para una región genómica grande (por ejemplo, el genoma completo) o un número de regiones genómicas para mejorar la sensibilidad del enfoque. Sin embargo, los errores analíticos, tales como errores de secuenciación pueden afectar a la viabilidad, precisión y la especificidad de este enfoque. Aquí, utilizamos la plataforma de secuenciación masivamente paralela como un ejemplo para ilustrar la importancia de los errores de secuenciación. La tasa de error de secuenciación de la plataforma Illumina de secuenciación por síntesis es de aproximadamente 0,1 % a 0,3 % por nucleótido secuenciado (Minoche et al. Genome Biol 2011, 12:R112). Cualquier plataforma de secuenciación masivamente paralela se puede usar, incluyendo una plataforma de secuenciación por ligación (por ejemplo, la plataforma de Life Technologies SOLiD), Ion Torrent/Ion Proton, la secuenciación por semiconductores, Roche 454, las plataformas de secuenciación molecular única (por ejemplo Helicos, Pacific Biosciences y Nanopore).
5
10
15
20
25
30
35
40
45
50
55
60
65
En un estudio previo sobre el carcinoma hepatocelular, se mostró que existen aproximadamente 3.000 mutaciones de nucleótido único para el genoma completo del cáncer (Tao Y et al. 2011 Proc Natl Acad Sci USA; 108: 1204212047). Suponiendo que sólo el 10 % del ADN total en la circulación se deriva de las células tumorales y el ADN de plasma es secuenciado con una profundidad de secuenciación media de cobertura del genoma haploide de una vez, nos encontraríamos 9 millones (3 x 109 x 0,3 %) de variaciones de nucleótido único (SNV) debido a los errores de secuenciación. Sin embargo, la mayoría de las mutaciones de nucleótido único se espera que ocurran en sólo uno de los dos cromosomas homólogos. Con una profundidad de secuenciación de cobertura del genoma haploide de una vez de una muestra con 100 % de ADN de tumor, esperaríamos detectar sólo la mitad de las 3.000 mutaciones, es decir, 1.500 mutaciones. Cuando secuenciamos la muestra de plasma que contiene 10 % de ADN derivado de tumor a una cobertura del genoma haploide, esperaríamos detectar sólo 150 (1.500 x 10 %) mutaciones de nucleótido único asociadas con el cáncer. Por lo tanto, la relación señal-ruido para la detección de mutaciones asociadas con el cáncer es 1 en 60.000. Esta relación señal-ruido muy baja sugiere que la exactitud de la utilización de este procedimiento para diferenciar los casos normales y cancerosos sería muy baja si simplemente se usaran todos los cambios de nucleótido único en la muestra biológica (por ejemplo, plasma) como un parámetro.
Se espera que con los avances en las tecnologías de secuenciación, se produzca una reducción continua de la tasa de error de secuenciación. También se puede analizar la misma muestra utilizando más de una plataforma de secuenciación y por medio de una comparación de los resultados de secuenciación de plataforma cruzada, localizar las lecturas que puedan resultar afectadas por los errores de secuenciación. Otro enfoque es analizar dos muestras tomadas en diferentes momentos del mismo sujeto. Sin embargo, estos procedimientos llevan mucho tiempo.
En una realización, una forma de aumentar la relación señal-ruido en la detección de mutaciones de nucleótido único en el plasma de pacientes con cáncer es contar una mutación sólo si hay múltiples ocurrencias de la misma mutación en la muestra. En las plataformas de secuenciación seleccionadas, los errores de secuenciación que implican sustituciones de nucleótidos particulares pueden ser más comunes y afectarían a los resultados de la secuenciación de la muestra de prueba y la muestra de ADN constitucional tanto del sujeto de prueba como de los sujetos de control. Sin embargo, en general, los errores de secuenciación se producen aleatoriamente.
La posibilidad de tener un error de secuenciación es exponencialmente más baja cuando se observa el mismo cambio en la misma posición de nucleótido en múltiples fragmentos de ADN. Por otro lado, la posibilidad de detectar un cambio mutacional genuino asociado con el cáncer en la muestra se ve afectado por la profundidad de secuenciación y la concentración fraccional del ADN de tumor en la muestra. La posibilidad de observar la mutación en múltiples fragmentos de ADN aumentaría con la profundidad de secuenciación y la concentración fraccional del ADN de tumor. En diversas realizaciones que utilizan muestras con ADN de tumor libre de células (tal como en el plasma), la concentración fraccional puede ser 5 %, 10 %, 20 % y 30 %. En una realización, la concentración fraccional es menos de 50 %.
La FIG. 4 es una tabla 400 que muestra el número de mutaciones de nucleótido único asociadas con el cáncer identificadas correctamente usando diferente número de ocurrencias como el criterio para clasificar una mutación como que está presente en la muestra de acuerdo con las realizaciones de la presente invención. También se muestran los números de posiciones de nucleótidos que se identifican falsamente de tener una mutación debido a un error de secuenciación basándose en los mismos criterios de clasificación. Se supone que la tasa de error de secuenciación es 0,1 % (Minoche et al. Genome Bio 2011, 12:R112). La concentración fraccional de ADN derivado de tumor en la muestra se supone que es 10 %.
La FIG. 4 muestra que la relación entre el número de mutaciones asociadas con el cáncer detectadas en el plasma y el número de resultados falsos positivos aumentaría exponencialmente con el aumento del número de veces que el mismo cambio se ve en la muestra para definir una mutación, cuando la concentración fraccional de ADN derivado de tumor en la muestra se supone que es del 10 %. En otras palabras, tanto la sensibilidad como la especificidad para la detección de mutaciones del cáncer mejorarían. Además, la sensibilidad para la detección de las mutaciones asociadas con el cáncer se ve afectada por la profundidad de la secuenciación. Con cobertura del genoma haploide de 100 veces de secuenciación, se pueden detectar 2.205 (73,5 %) de las 3.000 mutaciones incluso utilizando el criterio de la ocurrencia de la mutación particular en al menos 4 fragmentos de ADN en la muestra. Se pueden utilizar otros valores para el número mínimo de fragmentos, tales como 3, 5, 8, 10, y mayor que 10.
La FIG. 5 es una tabla 500 que muestra el número esperado de loci falsos positivos y el número esperado de mutaciones identificadas cuando la concentración fraccional de ADN derivado de tumor en la muestra se supone que es del 5 %. Con una concentración fraccional inferior de ADN derivado de tumor en la muestra, se requiere una profundidad de secuenciación mayor para lograr la misma sensibilidad de la detección de las mutaciones asociadas con el cáncer. Un criterio más riguroso también sería necesario para mantener la especificidad. Por ejemplo, tendría que ser utilizado el criterio de la ocurrencia de la mutación particular en al menos 5 fragmentos de ADN, en lugar del criterio de al menos 4 ocurrencias en la situación del 10 % de fracción de ADN de tumor, en la muestra. Las Tablas 400 y 500 proporcionan guía para el valor de corte a utilizar dada la cobertura de veces y una concentración de ADN de tumor, que puede suponerse o medirse como se describe en la presente memoria.
5
10
15
20
25
30
35
40
45
50
55
60
Otra ventaja del uso de los criterios de la detección de un cambio de nucleótido único más de una vez para definir una mutación es que se espera minimizar la detección de falsos positivos debido a los cambios de nucleótido único en los tejidos no malignos. Como pueden producirse cambios de nucleótidos durante la mitosis de las células normales, cada célula sana en el cuerpo puede albergar un número de cambios de nucleótido único. Estos cambios pueden potencialmente conducir a resultados falsos positivos. Sin embargo, los cambios de una célula estarían presentes en el plasma/suero cuando la célula muere. Aunque se espera que diferentes células normales lleven diferentes conjuntos de mutaciones, las mutaciones que ocurren en una célula es poco probable que estén presentes en numerosas copias en el plasma/suero. Esto contrasta con las mutaciones dentro de las células tumorales donde se espera ver múltiples copias en el plasma/suero porque el crecimiento del tumor es de naturaleza clonal. Por lo tanto, múltiples células de un clon morirían y liberarían las mutaciones de firma representativas de los clones.
En una realización, el enriquecimiento dirigido para las regiones genómicas especificas se puede realizar antes de la secuenciación. Esta etapa de enriquecimiento dirigido puede aumentar la profundidad de secuenciación de las regiones de interés con la misma cantidad total de secuenciación realizada. En otra realización más, primero se puede realizar una ronda de secuenciación con relativamente poca profundidad de secuenciación. A continuación, las regiones que muestran al menos un cambio de nucleótido único pueden ser enriquecidas por una segunda ronda de secuenciación que tiene una cobertura de veces mayor. Después, el criterio de múltiples ocurrencias se puede aplicar para definir una mutación de los resultados de secuenciación con un enriquecimiento dirigido.
VII. PUNTOS DE CORTE DINÁMICOS
Como se describió anteriormente, se puede utilizar un valor de corte N para el número de lecturas que soportan una variante (mutación potencial) para determinar si un locus califica como una mutación (por ejemplo, una SNM) a ser contada. La utilización de un punto de corte tal puede reducir los falsos positivos. La siguiente descripción proporciona métodos para seleccionar un punto de corte para diferentes loci. En las siguientes realizaciones, se supone que hay un único clon de cáncer predominante. Un análisis similar puede llevarse a cabo para los escenarios que implican múltiples clones de células de cáncer que liberan diferentes cantidades de ADN de tumor en el plasma.
A. Número de mutaciones asociadas con el cáncer detectadas en el plasma
El número de mutaciones asociadas con el cáncer detectables en el plasma puede verse afectado por diversos parámetros, por ejemplo: (1) El número de mutaciones en el tejido de tumor (Nt) - el número total de mutaciones presentes en el tejido de tumor es el número máximo de mutaciones asociadas con el tumor detectables en el plasma del paciente; (2) La concentración fraccional de ADN derivado de tumor en plasma (f) - cuanto mayor es la concentración fraccional de ADN derivado de tumor en plasma, mayor sería la posibilidad de detectar las mutaciones asociadas con el tumor en el plasma; (3) Profundidad de secuenciación (D) - la profundidad de secuenciación se refiere al número de veces que la región secuenciada está cubierta por las lecturas de secuencia. Por ejemplo, una profundidad de secuenciación promedio de 10 veces significa que cada nucleótido dentro de la región secuenciada está cubierta en un promedio por 10 lecturas de secuencia. La posibilidad de detectar una mutación asociada con el cáncer aumentaría cuando se aumenta la profundidad de secuenciación; y (4) El número mínimo de veces que un cambio de nucleótido se detecta en el plasma para definir como una mutación potencial asociada con el cáncer (r) , que es un valor de corte utilizado para discriminar los errores de secuenciación de mutaciones reales asociadas con el cáncer.
En una aplicación se usa la distribución de Poisson para predecir el número de mutaciones asociadas con el cáncer detectadas en el plasma. Suponiendo que una mutación está presente en una posición de nucleótido en uno de los dos cromosomas homólogos, con una profundidad de secuenciación de D, el número esperado de veces que una mutación está presente en el plasma (Mp) se calcula como: Mp = D x f/2.
La probabilidad de detectar la mutación en el plasma (Pb) en un sitio de mutación particular se calcula como:
r-1
Pb = 1 — ^ Poisson(i, MP)
i=o
donde r (valor de corte) es el número de veces que un cambio de nucleótido se ve en el plasma para definir como una mutación potencial asociada con el tumor; Poisson (i,MP) es la probabilidad de la distribución de Poisson que tiene i ocurrencias con un número promedio de Mp.
El número total de mutaciones asociadas con el cáncer esperadas para ser detectadas en el plasma (NP) se puede calcular como: Np = Nt x Pb, donde NT es el número de mutaciones presentes en el tejido de tumor. Las siguientes gráficas muestran los porcentajes de mutaciones asociadas con el tumor esperadas para ser detectadas en el plasma utilizando diferentes criterios de ocurrencias (r) para detectar una mutación potencial y diferentes
5
10
15
20
25
30
35
40
45
50
55
60
profundidades de secuenciación.
La FIG. 6A es una gráfica 600 que muestra la tasa de detección de mutaciones asociadas con el cáncer en el plasma con 10 % y 20 % de concentraciones fraccionales en plasma de ADN derivado de tumor y utilizando cuatro y seis ocurrencias (r) como criterios para detectar las mutaciones potenciales asociadas con el cáncer. Con la misma r, una concentración fraccional mayor de ADN derivado de tumor en plasma resultaría en un mayor número de mutaciones asociadas con el cáncer detectables en el plasma. Con la misma concentración fraccional de ADN derivado de tumor en plasma, una mayor r tendría como resultado un menor número de mutaciones detectadas.
B. Número de falsos positivos únicos detectados debido a errores
Los cambios de nucleótido único en los datos de secuenciación de ADN de plasma pueden ocurrir debido a errores de secuenciación y alineación. El número de posiciones de nucleótidos con cambios de nucleótido único falsos positivos se puede predecir matemáticamente basándose en una distribución binomial. Los parámetros que afectan al número de sitios falsos positivos (Nfp) pueden incluir: (1) Tasa de error de secuenciación (E) - La tasa de error de secuenciación se define como la proporción de nucleótidos secuenciados que es incorrecta; (2) Profundidad de secuenciación (D) - Con una profundidad de secuenciación mayor, el número de posiciones de nucleótidos que muestran un error de secuenciación aumentaría; (3) El número mínimo de ocurrencias del mismo cambio de nucleótido para la definición de una mutación potencial asociada con el cáncer (r) ; y (4) El número total de posiciones de nucleótidos dentro de la región de interés (NI) .
La ocurrencia de mutaciones puede considerarse en general como un proceso aleatorio. Por lo tanto, con el aumento de los criterios de ocurrencia para la definición de una mutación potencial, el número de posiciones de nucleótidos falsas positivas disminuiría exponencialmente con r. En algunas de las plataformas de secuenciación existentes, ciertos contextos de secuencia son más propensos a tener errores de secuenciación. Los ejemplos de tales contextos de secuenciación incluyen el motivo GGC, homopolímeros (por ejemplo AAAAAAA), y repeticiones simples (por ejemplo ATATATATAT). Estos contextos de secuencia aumentarán sustancialmente el cambio de nucleótido único o artefactos de inserción/deleción (Nakamura K et al. Nucleic Acids Res 2011; 39,e90 y Minoche AE et al. Genome Biol 2011; 12,R112). Además, las secuencias de repetición, tales como homopolímeros y repeticiones simples, introducirían computacionalmente ambigüedades en la alineación y, por lo tanto, conducirían a resultados falsos positivos para las variaciones de nucleótido único.
Cuanto más grande es la región de interés, mayor es el número de posiciones de nucleótidos falsas positivas. Si se está buscando mutaciones en el genoma completo, entonces la región de interés sería el genoma completo y el número de nucleótidos implicados sería de 3 mil millones. Por otro lado, si se centra en los exones, entonces el número de nucleótidos que codifican los exones, es decir, aproximadamente 45 millones, constituiría la región de interés.
El número de posiciones de nucleótidos falsas positivas asociadas con los errores de secuenciación se puede determinar basándose en los siguientes cálculos. La probabilidad (PEr) de tener el mismo cambio de nucleótido en la misma posición debido a errores de secuenciación se puede calcular como:
donde C(D, r) es el número de combinaciones posibles para la elección de elementos r de un total de elementos D; r es el número de ocurrencias para definir una mutación potencial; D es la profundidad de secuenciación; y E es la tasa de error de secuenciación. C(D, r) se puede calcular como:
El número de posiciones de nucleótidos (NFP) que son falsos positivos para mutaciones se puede calcular como:
NFP = N¡Pgr
donde NI es el número total de posiciones de nucleótidos en la región de interés.
La FIG. 6B es una gráfica 650 que muestra el número esperado de posiciones de nucleótidos falsamente clasificadas como que tienen un cambio de nucleótido utilizando criterios de ocurrencia (r) de 4, 5, 6 y 7 frente a la profundidad de secuenciación. En este cálculo, la región de interés se supone que es el genoma completo (3 mil millones de posiciones de nucleótidos). Se supone que la tasa de error de secuenciación es 0,3 % de los nucleótidos secuenciados. Como se puede ver, el valor de r tiene un impacto significativo en los falsos positivos. Pero, como se puede ver de la FIG. 6A, un valor mayor de r también reduce el número de mutaciones detectadas, al menos hasta que se usen profundidades de secuenciación significativamente mayores.
5
10
15
20
25
30
35
40
45
50
55
C. Elección de la ocurrencia mínima (r)
Como se ha descrito anteriormente, el número de sitios verdaderos de mutación asociada con el cáncer y los sitios falsos positivos debido a errores de secuenciación aumentaría con la profundidad de secuenciación. Sin embargo, sus tasas de aumento serían diferentes. Por lo tanto, es posible utilizar la elección de la profundidad de secuencia y el valor de r para maximizar la detección de mutaciones verdaderas asociadas con el cáncer mientras se mantiene el número de sitios falsos positivos en un valor bajo.
La FIG. 7A es una gráfica 700 que muestra el número de sitios verdaderos de mutación asociada con el cáncer y sitios falsos positivos con profundidades de secuenciación de diferencia. El número total de mutaciones asociadas con el cáncer en el tejido de tumor se supone que es 3.000 y la concentración fraccional de ADN derivado de tumor en plasma se supone que es 10 %. Se supone que la tasa de error de secuenciación es 0,3 %. En la leyenda, TP denota los sitios verdaderos positivos en los que una mutación correspondiente está presente en el tejido de tumor, y FP denota sitios falsos positivos en los que ninguna mutación correspondiente está presente en el tejido del tumor y los cambios de nucleótidos presentes en los datos de secuenciación son debido a errores de secuenciación.
De la gráfica 700, a una profundidad de secuenciación de 110 veces, aproximadamente 1.410 mutaciones verdaderas asociadas con el cáncer se detectarían si usamos la ocurrencia mínima de 6 como el criterio (r = 6) para definir un sitio de mutación potencial en el plasma. Usando este criterio, sólo aproximadamente 20 sitios falsos positivos serían detectados. Si utilizamos el mínimo de 7 ocurrencias (r = 7) como criterio para definir una mutación potencial, el número de mutaciones asociadas con el cáncer que podrían ser detectadas se reduciría en 470 a aproximadamente 940. Por lo tanto, el criterio de r = 6 haría más sensible la detección de mutaciones asociadas con el cáncer en el plasma.
Por otro lado, con una profundidad de secuenciación de 200 veces, el número de mutaciones verdaderas asociadas con el cáncer detectadas sería aproximadamente 2.800 y 2.600, si utilizamos los criterios de ocurrencia mínima (r) de 6 y 7, respectivamente, para definir las mutaciones potenciales. Utilizando estos dos valores de r, los números de sitios falsos positivos serían aproximadamente 740 y 20, respectivamente. Por lo tanto, con una profundidad de secuenciación de 200 veces, el uso de un criterio más riguroso de r = 7 para definir una mutación potencial puede reducir en gran medida el número de sitios falsos positivos sin afectar significativamente de forma negativa la sensibilidad para detectar las mutaciones verdaderas asociadas con el cáncer.
D. Punto de corte dinámico para datos de secuenciación para la definición de mutaciones potenciales en plasma
La profundidad de secuenciación de cada nucleótido dentro de la región de interés sería diferente. Si aplicamos un valor de corte fijo para la ocurrencia de un cambio de nucleótido para definir una mutación potencial en plasma, los nucleótidos que están cubiertos por más lecturas de secuencia (es decir, una profundidad de secuenciación mayor) tendrían mayores probabilidades de ser falsamente marcados como que tienen variación de nucleótidos en ausencia de tal cambio en el tejido de tumor debido a los errores de secuenciación en comparación con los nucleótidos que tienen profundidades de secuenciación menores. Una realización para superar este problema es aplicar un valor de corte dinámico de r a diferentes posiciones de nucleótidos de acuerdo con la profundidad de secuenciación real de la posición de nucleótido particular, y de acuerdo con el límite superior deseado de la probabilidad de detectar variaciones falsas positivas.
En una realización, la tasa de falsos positivos máxima permisible se puede fijar en 1 en 1,5x108 posiciones de nucleótidos. Con esta tasa de falsos positivos máxima permisible, el número total de sitios falsos positivos que se identifica en el genoma completo sería menos de 20. El valor de r para diferentes profundidades de secuenciación se puede determinar de acuerdo con las curvas mostradas en la FIG. 6B y estos puntos de corte se muestran en la Tabla 1. En otras realizaciones pueden utilizarse otras tasas de falsos positivos máximas permisibles diferentes, por ejemplo 1 de 3 x 108, 1 de 108 o 1 de 6 x 107, pueden ser utilizadas. El número total correspondiente de sitios falsos positivos sería menor de 10, 30 y 50, respectivamente.
Tabla 1. El número mínimo de apariciones de un cambio de nucleótidos presente en plasma para definir una posible mutación (r) para diferentes profundidades de secuenciación de la posición de nucleótido particular. La tasa máxima
de falsos positivos se fija en 1 de 1,5x108 nucleótidos.
- Profundidad de secuenciación de una posición de nucleótido particular
- Mínimo número de ocurrencia de un cambio de nucleótido presente en los datos de secuenciación del ADN de plasma para definir una mutación potencial (r)
- <50
- 5
- 50 - 110
- 6
- 111 - 200
- 7
- 201 - 310
- 8
- 311 - 450
- 9
- 451 - 620
- 10
5
10
15
20
25
30
35
40
45
50
- Profundidad de secuenciación de una posición de nucleótido particular
- Mínimo número de ocurrencia de un cambio de nucleótido presente en los datos de secuenciación del ADN de plasma para definir una mutación potencial (r)
- 621 - 800
- 11
E. Secuenciación de enriquecimiento dirigido
Como se muestra en la FIG. 7A, una profundidad de secuenciación mayor puede resultar en una mejor sensibilidad para la detección de mutaciones asociadas con el cáncer mientras se mantiene bajo el número de sitios falsos positivos permitiendo el uso de un valor mayor de r. Por ejemplo, a una profundidad de secuenciación de 110 veces, se pueden detectar en el plasma 1.410 mutaciones verdaderas asociadas con el cáncer utilizando un valor de r de 6 mientras que el número de mutaciones verdaderas asociadas con el cáncer detectadas sería 2.600 cuando la profundidad de secuenciación aumenta hasta 200 veces y se aplica un valor r de 7. Los dos conjuntos de datos darían un número esperado de sitios falsos positivos de aproximadamente 20.
Aunque la secuenciación del genoma completo a una profundidad de 200 veces es relativamente cara en la actualidad, una posible manera para lograr una profundidad de secuenciación sería centrarse en una región de interés menor. El análisis de una región diana se puede lograr por ejemplo mediante, pero sin limitarse a, el uso de cebos de ADN o ARN para capturar regiones genómicas de interés por hibridación. Las regiones capturadas se extraen a continuación, por ejemplo, por medios magnéticos y después se someten a secuenciación. Dicha captura dirigida se puede realizar, por ejemplo, utilizando el sistema de enriquecimiento de dianas Agilent SureSelect, el sistema de enriquecimiento de dianas Roche Nimblegen y el sistema de resecuenciación de dianas Illumina. Otro procedimiento es realizar la amplificación por PCR de las regiones diana y luego realizar la secuenciación. En una realización, la región de interés es el exoma. En dicha realización, la captura de la diana de todos los exones se puede realizar en el ADN del plasma, y el ADN del plasma enriquecido para regiones exónicas puede ser secuenciado a continuación.
Además de tener mayor profundidad de secuenciación, el enfoque en regiones específicas en lugar del análisis del genoma completo reduciría significativamente el número de posiciones de nucleótidos en el espacio de búsqueda y llevaría a una reducción en el número de sitios falsos positivos dada la misma tasa de error de secuenciación.
La FIG. 7B es una gráfica 750 que muestra el número predicho de sitios falsos positivos que implican el análisis del genoma completo (WG) y todos los exones. Para cada tipo de análisis, se utilizan dos valores diferentes, 5 y 6, para r. Con una profundidad de secuenciación de 200 veces, si r = 5 se utiliza para definir las mutaciones en plasma, el número predicho de sitios falsos positivos es aproximadamente 23.000 y 230 para el genoma completo y todos los exones, respectivamente. Si r = 6 se utiliza para definir las mutaciones en el plasma, el número predicho de sitios falsos positivos es 750 y 7, respectivamente. Por lo tanto, el límite del número de nucleótidos en la región de interés puede reducir significativamente el número de falsos positivos en el análisis mutacional de plasma.
En la secuenciación de captura de exón o incluso captura de exoma se reduce el número de nucleótidos en el espacio de búsqueda. Por lo tanto, incluso si permitimos una tasa de falsos positivos mayor para la detección de mutaciones asociadas con el cáncer, el número absoluto de sitios falsos positivos se puede mantener a un nivel relativamente bajo. La asignación de una tasa de falsos positivos mayor permitiría un criterio menos estricto de ocurrencias mínimas (r) para definir una variación de nucleótidos única en el plasma que se utiliza. Esto daría lugar a una mayor sensibilidad para la detección de mutaciones verdaderas asociadas con el cáncer.
En una realización, se puede utilizar una tasa de falsos positivos máxima permisible de 1,5 x 106. Con esta tasa de falsos positivos, el número total de sitios falsos positivos dentro de los exones diana sería sólo 20. Los valores de r para diferentes profundidades de secuenciación utilizando una tasa de falsos positivos máxima permisible de 1,5 x 106 se muestran en la Tabla 2. En otras realizaciones se pueden utilizar otras tasas de falsos positivos máximas permisibles diferentes, por ejemplo 1 de 3 x 106, 1 de 106 o 1 de 6 x 105. El número total correspondiente de sitios falsos positivos sería menor de 10, 30 y 50, respectivamente. En una realización, diferentes clases de mutaciones se pueden atribuir a diferentes ponderaciones, como se describió anteriormente.
Tabla 2. El número mínimo de aparición de un cambio de nucleótido presente en plasma para definir una posible mutación (r) para diferentes profundidades de secuenciación de la posición de nucleótido particular. La tasa máxima de falsos positivos se fija en 1 de 1,5x106 nucleótidos
- Profundidad de secuenciación de una posición de nucleótido particular
- Mínimo número de ocurrencia de un cambio de nucleótido presente en los datos de secuenciación del ADN de plasma para definir una mutación potencial (r)
- <50
- 4
- 50 - 125
- 5
- 126 - 235
- 6
- 236 - 380
- 7
5
10
15
20
25
30
35
40
45
50
55
- Profundidad de secuenciación de una posición de nucleótido particular
- Mínimo número de ocurrencia de un cambio de nucleótido presente en los datos de secuenciación del ADN de plasma para definir una mutación potencial (r)
- 381 - 560
- 8
- 561 - 760
- 9
VIII. DETECCION DE CANCER
Como se mencionó anteriormente, los recuentos de las etiquetas de secuencia en loci variantes se pueden utilizar en diversas formas para determinar el parámetro, el cual se compara con un umbral para clasificar un nivel de cáncer. La concentración fraccional de las lecturas variantes respecto a todas las lecturas en un locus o muchos loci es otro parámetro que puede ser utilizado. A continuación se presentan algunos ejemplos para calcular el parámetro y el umbral.
A. Determinación del parámetro
Si el CG es homocigoto en un locus particular para un primer alelo y en la muestra biológica se observa un alelo variante (por ejemplo, plasma), entonces la concentración fraccional se puede calcular como 2p / (p+q), donde p es el número de etiquetas de secuencia que tienen el alelo variante y q es el número de etiquetas de secuencia que tienen el primer alelo del CG. Esta fórmula asume que sólo uno de los haplotipos del tumor tiene la variante, que sería el caso habitual. Así, para cada locus homocigoto se puede calcular una concentración fraccional. Las concentraciones fraccionales pueden promediarse. En otra realización, el recuento de p puede incluir el número de etiquetas de secuencia para todos los loci, y de manera similar para el recuento q, para determinar la concentración fraccional. A continuación se describe un ejemplo.
Se ha analizado la detección del genoma completo de variantes de nucleótido único derivadas del tumor (SNV) en el plasma de los 4 pacientes con HCC. Se ha secuenciado el ADN de tumor y ADN de la capa leucocitaria para conseguir profundidades de 29,5 veces (rango, 27 veces a 33 veces) y 43 veces (rango, 39 veces a 46 veces) la cobertura del genoma haploide, respectivamente. Los datos de MPS del ADN de tumor y el ADN de la capa leucocitaria de cada uno de los 4 pacientes con HCC se compararon, y las SNV presentes en el ADN de tumor pero no en el ADN de la capa leucocitaria se extraen con un algoritmo de bioinformática riguroso. Este algoritmo requiere una SNV putativa que esté presente en al menos un número de umbral de fragmentos de ADN de tumor secuenciados (es decir, en una etiqueta de secuencia correspondiente) antes de que pudiera ser clasificado como una verdadera SNV. El número de umbral se determina teniendo en cuenta la profundidad de la secuenciación de un nucleótido particular y la tasa de error de secuenciación, por ejemplo, como se describe en la presente memoria.
La FIG. 8 es una tabla 800 que muestra los resultados para 4 pacientes con HCC antes y después del tratamiento, incluyendo concentraciones fraccionales de ADN derivado de tumor en el plasma de acuerdo con las realizaciones de la presente invención. El número de SNV asociadas a tumores varió de 1.334 a 3.171 en los 4 casos de HCC. Las proporciones de tales SNV que fueron detectables en el plasma se enumeran antes y después del tratamiento. Antes del tratamiento, se detectaron 15 %-94 % de las SNV asociada a tumores en plasma. Después del tratamiento, el porcentaje fue entre 1,5 %-5,5 %. Por lo tanto, el número de SNV detectados se correlaciona con un nivel de cáncer. Esto demuestra que el número de SNV se puede utilizar como un parámetro para clasificar un nivel de cáncer.
Las concentraciones fraccionales de ADN derivado de tumor en plasma se determinaron por los recuentos fraccionados del mutante con respecto a las secuencias totales (es decir, de tipo mutante más silvestre). La fórmula es 2p/(p+q), donde los 2 que corresponden a sólo un haplotipo se mutaron en el tumor. Estas concentraciones fraccionales se correlacionaron bien con aquellas determinadas con el análisis de pérdida alélica agregada del genoma completo (GAAL) (Chan KC et al. Clin Chem 2013; 59: 211-24) y se redujeron después de la cirugía. Por lo tanto, también se muestra la concentración fraccional como un parámetro útil para la determinación de un nivel de cáncer.
La concentración fraccional del análisis de SNV puede comportar una carga de tumor. Un paciente con cáncer con una carga de tumor superior (por ejemplo, una concentración fraccional mayor deducida) tendrá una mayor frecuencia de mutaciones somáticas que uno con una carga de tumor inferior. Por lo tanto, las realizaciones también pueden utilizarse para el pronóstico. En general, los pacientes con cáncer con cargas tumorales mayores tienen peor pronóstico que aquellos con cargas tumorales inferiores. El primer grupo tendría así una mayor probabilidad de morir a causa de la enfermedad. En algunas realizaciones, si la concentración absoluta de ADN en una muestra biológica, por ejemplo plasma, se puede determinar (por ejemplo, utilizando PCR en tiempo real o fluorometría), entonces se puede determinar la concentración absoluta de aberraciones genéticas asociadas al tumor y utilizar para la detección clínica y/o el control y/o pronóstico.
5
10
15
20
25
30
35
40
45
50
55
60
65
B. Determinación de umbral
La Tabla 800 se puede utilizar para determinar un umbral. Como se mencionó anteriormente, el número de SNV y una concentración fraccional determinada por análisis de SNV se correlacionan con un nivel de cáncer. El umbral se puede determinar en una base individual. Por ejemplo, el valor de pre-tratamiento se puede utilizar para determinar el umbral. En diversas aplicaciones, el umbral podría ser un cambio relativo de un valor absoluto respecto al valor del pre-tratamiento. Un umbral adecuado podría ser una reducción en el número de SNV o concentración fraccional en un 50 %. Dicho umbral podría proporcionar una clasificación de un nivel menor de cáncer para cada uno de los casos en la Tabla 800. Hay que observar que tal umbral puede depender de la profundidad de secuenciación.
En una realización, un umbral podría ser utilizado en las muestras, y puede o no tener en cuenta los valores de pretratamiento para el parámetro. Por ejemplo, un umbral de 100 SNV podría ser utilizado para clasificar al sujeto como que no tiene cáncer o que tiene un bajo nivel de cáncer. Este umbral de 100 SNV es satisfecho por cada uno de los cuatro casos en la tabla 800. Si la concentración fraccional se utilizó como el parámetro, un umbral de 1,0 % clasificaría HCC1-HCC3 como prácticamente nivel cero de cáncer, y un segundo umbral de 1,5 % clasificaría HCC4 como un nivel bajo de cáncer. Por lo tanto, se puede utilizar más de un umbral para obtener más de dos clasificaciones.
Para ilustrar otros posibles umbrales, se analizó el plasma de los controles sanos para las SNV asociadas a tumores. Se pueden realizar numerosas mediciones de sujetos sanos para determinar una rango de cuántas variaciones se espera de la muestra biológica respecto al genoma constitucional.
La FIG. 9 es una tabla 900 que muestra la detección de las SNV asociadas a HCC en 16 sujetos de control sanos de acuerdo con las realizaciones de la presente invención. La Tabla 900 se puede utilizar para estimar la especificidad de un enfoque de análisis de SNV. Los 16 controles sanos aparecen como diferentes filas. Las columnas muestran las SNV detectadas para los pacientes con HCC específicos, y muestran el número de lecturas de secuencia en loci variantes que tienen el alelo variante y el número de lecturas de secuencia con el alelo de tipo silvestre (es decir, el alelo del CG). Por ejemplo, para HCC1, el control C01 tuvo 40 lecturas variantes en dichos loci variantes, pero 31.261 lecturas del alelo de tipo silvestre. La última columna muestra la concentración fraccional total a través de todas las SNV para los pacientes HCC1. Como las SNV asociadas a HCC fueron específicas para los pacientes con HCC, la presencia de las SNV asociados a HCC representan falsos positivos. Si un valor de corte, como se describe en la presente memoria, se aplica a estas variantes de la secuencia aparentes, todos estos falsos positivos, serían filtrados a distancia.
La presencia de un pequeño número de estas mutaciones asociadas con el tumor putativo en el plasma de los 16 controles sanos representa el “ruido estocástico” de este método y fue probablemente debido a errores de secuenciación. La concentración media fraccional estimada de este tipo de ruido fue de 0,38 %. Estos valores muestran un rango de sujetos sanos. Por lo tanto, un valor umbral para una clasificación de nivel cero de cáncer para HCC podría ser de aproximadamente 0,5 %, ya que la mayor concentración fraccional fue de 0,43 %. Por consiguiente, si todas las células de cáncer se eliminan de un paciente con HCC, se esperarían estas concentraciones fraccionales bajas.
Haciendo referencia de nuevo a la tabla 800, si 0,5 % se utilizó como un umbral de nivel cero de cáncer, entonces los datos de plasma post-tratamiento para HCC1 y HCC3 serían determinados por tener nivel cero basado en el análisis SNV. HCC2 podría ser clasificado como un nivel por encima de cero. HCC4 también podría ser clasificado como un nivel por encima de cero, o algún nivel superior, pero todavía un nivel relativamente bajo en comparación con las muestras de pre-tratamiento.
En una realización donde el parámetro corresponde con el número de loci variantes, el umbral podría ser cero (es decir, un locus variante podría indicar un nivel de cáncer de no cero). Sin embargo, con muchos ajustes (por ejemplo, de la profundidad), el umbral podría ser más alto, por ejemplo, un valor absoluto de 5 o 10. En una aplicación donde una persona es controlada después del tratamiento, el umbral puede ser un cierto porcentaje de SNV (identificado mediante el análisis de los tumores directamente) que aparece en la muestra. Si el valor de corte para el número de lecturas de variante requerida en un locus era lo suficientemente grande, tener sólo un loci variante podría ser indicativo de un nivel distinto de no cero de cáncer.
Por lo tanto, el análisis cuantitativo de las variaciones (por ejemplo, variaciones de nucleótidos únicos) en el ADN de una muestra biológica (por ejemplo, plasma) se puede utilizar para el diagnóstico, control y pronóstico de cáncer. Para la detección de cáncer, el número de variaciones de nucleótido único detectado en el plasma de un sujeto probado se puede comparar con aquel de un grupo de sujetos sanos. En los sujetos sanos, las variaciones de nucleótido único aparentes en el plasma pueden ser debido a errores de secuenciación, mutaciones no clonales de las células sanguíneas y otros órganos. Se ha mostrado que las células en sujetos sanos normales podrían llevar a un pequeño número de mutaciones (Conrad DF et al. Nat Genet 2011; 43:712-4), como se muestra en la Tabla 900. Por lo tanto, el número total de variaciones de nucleótidos únicos aparentes en el plasma de un grupo de sujetos aparentemente sanos puede ser utilizado como un rango de referencia para determinar si el paciente analizado tiene un número anormalmente alto de variaciones de nucleótido único en el plasma correspondientes a un nivel de no
5
10
15
20
25
30
35
40
45
50
55
60
65
cero de cáncer.
Los sujetos sanos utilizados para establecer el rango de referencia pueden ser equiparados al sujeto analizado en términos de edad y sexo. En un estudio anterior, se ha demostrado que el número de mutaciones en las células somáticas aumentaría con la edad (Cheung NK et al, JAMA 2012; 307: 1062-71). Por lo tanto, a medida que envejecemos, sería “normal” acumular clones de células, a pesar de que son relativamente benignas la mayoría de las veces, o se necesitaría mucho tiempo para convertirse en clínicamente significativas. En una realización, los niveles de referencia pueden ser generados por diferentes grupos de sujetos, por ejemplo diferente edad, sexo, etnia y otros parámetros (por ejemplo, historial de tabaquismo, estado de hepatitis, alcohol, historial de consumo de drogas).
El rango de referencia puede variar basándose en el valor de corte utilizado (es decir, el número de etiquetas de secuencia variantes requeridas en un locus), así como también la tasa de falsos positivos asumida y otras variables (por ejemplo, edad). Por lo tanto, el rango de referencia se puede determinar para un conjunto particular de uno o más criterios, y los mismos criterios se podrían utilizar para determinar un parámetro para una muestra. A continuación, el parámetro se puede comparar con los rangos de referencia, ya que ambos se determinaron utilizando los mismos criterios.
Como se ha mencionado anteriormente, las realizaciones pueden utilizar varios umbrales para determinar un nivel de cáncer. Por ejemplo, un primer nivel podría determinar que no hay signos de cáncer para los parámetros por debajo del umbral, y por lo menos un primer nivel de cáncer, que podría ser un nivel pre-neoplásico. Otros niveles podrían corresponder a diferentes etapas del cáncer.
C. Dependencia de las variables experimentales
La profundidad de secuenciación puede ser importante para establecer el umbral mínimo de detección del genoma de la minoría (por ejemplo, tumor). Por ejemplo, si se utiliza una profundidad de secuenciación de genomas haploides, entonces la concentración mínima de ADN de tumor que se podría detectar incluso con una tecnología de secuenciación sin ningún error es 1/5, es decir, 20 %. Por otro lado, si se utiliza una profundidad de secuenciación de 100 genomas haploides, entonces podría disminuir hasta el 2 %. Este análisis se refiere al escenario donde solamente un locus de mutación está siendo analizando. Sin embargo, cuando se analizan más loci de mutación, la concentración mínima de ADN de tumor puede ser más baja y está gobernada por una función de probabilidad binomial. Por ejemplo, si la profundidad de la secuenciación es 10 veces y la concentración fraccional de ADN de tumor es de 20 %, entonces la probabilidad de detectar la mutación es del 10 %. Sin embargo, si tenemos 10 mutaciones, entonces la probabilidad de detectar al menos una mutación sería de 1 - (1 - 10 %)10 = 65 %.
Existen varios efectos relacionados con el aumento de la profundidad de secuenciación. Cuanto mayor sea la profundidad de la secuenciación, más errores de secuenciación se observarán, véanse las FIG. 4 y 5. Sin embargo, con una profundidad mayor de secuenciación, se pueden diferenciar más fácilmente los errores de secuenciación de mutaciones debido a la expansión clonal de una subpoblación de células (por ejemplo, células de cáncer) debido a que los errores de secuenciación se producirán al azar en el genoma, pero se producirían las mutaciones en la misma localización para la población dada de células.
Cuanto mayor sea la profundidad de secuenciación, más mutaciones de las “células sanas” se identificarán. Sin embargo, cuando no hay expansión clonal de estas células sanas y sus perfiles mutacionales son diferentes, entonces las mutaciones en estas células sanas pueden diferenciarse de las mutaciones por sus frecuencias de ocurrencia en el plasma (por ejemplo, usando un punto de corte N para un número requerido de lecturas que exhiben la mutación, tales como tener N igual a 2, 3, 4, 5, o mayor).
Como se mencionó anteriormente, el umbral puede depender de una cantidad de mutaciones en las células sanas que se expandieron clonalmente, y por lo tanto no pueden ser filtradas a través de otros mecanismos. Esta variación que se podría esperar se puede obtener mediante el análisis de los sujetos sanos. A medida que la expansión clonal se produce con el tiempo, la edad del paciente puede afectar a una variación que se ve en los sujetos sanos, y por lo tanto el umbral puede ser dependiente de la edad.
D. Combinación con enfoques dirigidos
En algunas realizaciones, una secuenciación aleatoria se puede utilizar en combinación con enfoques dirigidos. Por ejemplo, se puede realizar la secuenciación aleatoria de una muestra de plasma en la presentación de un paciente con cáncer. Los datos de secuenciación del ADN del plasma pueden ser analizados en cuanto a las aberraciones del número de copias y SNV. Las regiones que muestran aberraciones (por ejemplo, amplificación/deleción o alta densidad de SNV) pueden ser seleccionadas con fines de control seriado. El control se puede realizar durante un período de tiempo, o se hace inmediatamente después de la secuenciación aleatoria, efectivamente como un solo procedimiento. Para el análisis dirigido se han utilizado con éxito los enfoques de captura basados en la hibridación de fase en solución para enriquecer el ADN del plasma para el diagnóstico prenatal no invasivo (Liao GJ et al. Clin Chem 2011; 57:92-101). Tales técnicas se mencionaron anteriormente. Así, los enfoques aleatorios y objetivos
5
10
15
20
25
30
35
40
45
50
55
60
pueden ser utilizados en combinación para la detección y control del cáncer.
Por lo tanto, se podría llevar a cabo la secuenciación selectiva de los loci que se determinan que pueden ser potencialmente mutados utilizando el procedimiento no dirigido del genoma completo mencionado anteriormente. Tal secuenciación dirigida podría llevarse a cabo utilizando técnicas de hibridación en solución o de fase sólida (por ejemplo, utilizando el sistema de resecuenciación dirigida Agilent SureSelect, NimbleGen Sequence Capture, o Illumina) seguido por secuenciación masivamente paralela. Otro enfoque es realizar el sistema de amplificación (por ejemplo, basado en la PCR) para la secuenciación dirigida (Forshew T et al. Sci Transl Med 2012; 4: 135ra68).
IX. CONCENTRACIÓN FRACCIONAL
La concentración fraccional de ADN de tumor se puede utilizar para determinar el valor de corte para el número requerido de variaciones en un locus antes de que el locus sea identificado como una mutación. Por ejemplo, si la concentración fraccional era conocida por ser relativamente alta, entonces podría utilizarse un punto de corte alto para filtrar más falsos positivos, ya que se sabe que un número relativamente alto de las lecturas variantes debe existir para las SNV verdaderas. Por otro lado, si la concentración fraccional era baja, entonces podría ser necesario un punto de corte más bajo, de modo que algunas SNV no se pierdan. En este caso, la concentración fraccional sería determinada por un método diferente que el análisis de SNV, donde se utiliza como un parámetro.
Se pueden utilizar varias técnicas para determinar la concentración fraccional, algunas de las cuales se describen en la presente memoria. Estas técnicas se pueden utilizar para determinar la concentración fraccional de ADN derivado de tumor en una mezcla, por ejemplo, una muestra de biopsia que contiene una mezcla de células tumorales y células no malignas o una muestra de plasma de un paciente con cáncer que contiene el ADN liberado de las células tumorales y ADN liberado de células no malignas.
A. GAAL
La pérdida alélica agregada de genoma completo (GAAL) analiza loci que han perdido heterocigosidad (Chan KC et al. Clin Chem 2013; 59:211-24). En un sitio del genoma constitucional que es heterocigoto, un tumor a menudo tiene un locus que tiene una deleción de uno de los alelos. Así, las lecturas de secuencia para un locus mostrarán más de un alelo que otro, donde la diferencia es proporcional a la concentración fraccional de ADN de tumor en la muestra. Un ejemplo de tal cálculo se da a continuación.
El ADN extraído de la capa leucocitaria y los tejidos tumorales de los pacientes con HCC se genotipificaron con el sistema Affymetrix Genome-Wide Human SNP Array 6.0. Los datos de los microchips fueron procesados con el análisis de genotipificación Affymetrix Genotyping Console versión 4.1. y la detección de polimorfismo de nucléotido único (SNP) se realizó con el algoritmo Birdseed v2. Los datos de genotipificación para la capa leucocitaria y los tejidos tumorales fueron utilizados para la identificación de pérdida de regiones de heterocigosidad (LOH) y para realizar el análisis del número de copias. El análisis del número de copias se realizó con Genotyping Console con los parámetros por defecto de Affymetrix y con un tamaño de segmento genómico mínimo de 100 pb y un mínimo de 5 marcadores genéticos dentro del segmento.
Las regiones con LOH fueron identificadas como regiones que tienen 1 copia en el tejido tumoral y 2 copias en la capa leucocitaria, siendo los SNP dentro de estas regiones heterocigotos en la capa leucocitaria pero homocigotos en el tejido tumoral. Para una región genómica que exhibe LOH en un tejido tumoral, los alelos de SNP que estaban presentes en la capa leucocitaria, pero estaban ausentes del o con intensidad reducida en los tejidos tumorales fueron considerados como los alelos en el segmento suprimido de la región cromosómica. Los alelos que estaban presentes tanto en la capa leucocitaria como en el tejido del tumor fueron considerados como que habían sido derivados del segmento no suprimido de la región cromosómica. Para todas las regiones cromosómicas con una pérdida de copia única en el tumor, se contó el número total de lecturas de secuencias que llevan los alelos delecionados y los alelos no delecionados. Se utilizó la diferencia de estos dos valores para inferir la concentración fraccional de ADN derivado de tumor (FGAAL) en la muestra utilizando la siguiente ecuación:
rCMI. ~
AL
donde Nno del representa el número total de lecturas de secuencia que lleva los alelos no delecionados y Ndel representa el número total de lecturas de secuencia que lleva los alelos delecionados.
B. Estimación utilizando representación genómica
Un problema con la técnica GAAL es que se identifican los loci particulares (es decir, los que exhiben LOH) y sólo se utilizan lecturas de secuencia que alinean tales loci. Tal requisito puede agregar etapas adicionales, y por lo tanto costos. Ahora se describe una realización que utiliza sólo el número de copias, por ejemplo, una densidad de lectura de secuencia.
5
10
15
20
25
30
35
40
45
50
55
60
65
Las aberraciones cromosómicas, por ejemplo, deleciones y amplificaciones se observan con frecuencia en los genomas del cáncer. Las aberraciones cromosómicas observadas en tejidos de cáncer generalmente involucran regiones subcromosómicas y estas aberraciones pueden ser más cortas que 1 Mb. Y, las aberraciones cromosómicas asociadas con el cáncer son heterogéneas en diferentes pacientes, y por lo tanto diferentes regiones pueden verse afectadas en diferentes pacientes. Tampoco es raro que las decenas, cientos o incluso miles de aberraciones del número de copias se encuentren en un genoma del cáncer. Todos estos factores hacen difícil determinar la concentración de ADN del tumor.
Las realizaciones implican el análisis de los cambios cuantitativos que resultan de las aberraciones cromosómicas asociadas con el tumor. En una realización, las muestras de ADN que contienen ADN derivado de células de cáncer y las células normales son secuenciadas utilizando secuenciación masivamente paralela, por ejemplo, mediante la plataforma de secuenciación Illumina HiSeq2 000. El ADN derivado puede ser ADN libre de células en el plasma u otra muestra biológica adecuada.
Las regiones cromosómicas que se amplifican en los tejidos tumorales aumentarían la probabilidad de ser secuenciadas y las regiones que se suprimen en los tejidos tumorales reducirían la probabilidad de ser secuenciadas. Por consiguiente, la densidad de las lecturas de secuencia que se alinean con las regiones amplificadas se incrementaría y las que alinean las regiones suprimidas se reduciría. El grado de variación es proporcional a la concentración fraccional del ADN derivado de tumor en la mezcla de ADN. Cuanto mayor sea la proporción de ADN del tejido tumoral, mayor sería el cambio causado por las aberraciones cromosómicas.
1. Estimación de la muestra con alta concentración de tumor
Se extrajo el ADN de los tejidos tumorales de cuatro pacientes con carcinoma hepatocelular. El ADN se fragmentó usando el sistema de sonicación de ADN Covaria y se secuenció utilizando la plataforma Illumina HiSeq2000 como se describe (Chan KC et al. Clin Chem 2013; 59:211-24). Las lecturas de secuencia fueron alineadas al genoma de referencia humano (hgl8). A continuación, el genoma se dividió en agrupaciones (regiones) de 1 Mb y la densidad de lectura de secuencia se calculó para cada agrupación después del ajuste por desviaciones respecto al GC como se describe (Chen EZ et al. PLoS One. 2011;6:e21791).
Después de que las lecturas de secuencia se hayan alineado con un genoma de referencia, se puede calcular una densidad de lectura de secuencia para varias regiones. En una realización, la densidad de lectura de secuencia es una proporción determinada como el número de lecturas asignadas a una agrupación particular (por ejemplo, región de 1 Mb) dividido por las lecturas de secuencia total que pueden alinearse con el genoma de referencia (por ejemplo, a una posición única en el genoma de referencia). Se espera que las agrupaciones que se superponen con las regiones cromosómicas amplificadas en el tejido tumoral tengan una mayor densidad de lectura de secuencia que aquellos de las agrupaciones sin tales superposiciones. Por otra parte, se espera que las agrupaciones que se superponen con las regiones cromosómicas que se suprimen tengan densidades de lectura de secuencia inferiores que aquellas sin tales superposiciones. La magnitud de la diferencia en las densidades de lecturas de secuencia entre las regiones con y sin aberraciones cromosómicas se ve afectada principalmente por la proporción de ADN derivado de tumor en la muestra y el grado de amplificación/deleción en las células tumorales.
Se pueden utilizar varios modelos estadísticos para identificar las agrupaciones que tienen densidades de lectura de secuencia correspondientes a los diferentes tipos de aberraciones cromosómicas. En una realización, se puede utilizar un modelo de mezcla normal (McLachlan G and Peel D. Multvariate normal mixtures. In finite mixture models 2004: p81-116. John Wiley & Sons Press). También se pueden utilizar otros modelos estadísticos, por ejemplo el modelo de mezcla binomial y el modelo de regresión de Poisson (McLachlan G y Peel D. Mixtures with non-normal components, Finite mixture models 2004: p135-174. John Wiley & Sons Press).
La densidad de lectura de secuencia para una agrupación se puede normalizar utilizando la densidad de lectura de secuencia de la misma agrupación como se determina a partir de la secuenciación del ADN de la capa leucocitaria. Las densidades de lectura de secuencia de diferentes agrupaciones pueden estar afectadas por el contexto de la secuencia de una región cromosómica particular, y por lo tanto la normalización puede ayudar a identificar con más precisión regiones que muestran la aberración. Por ejemplo, la posibilidad de cartografía (que se refiere a la probabilidad de la alineación de una secuencia de nuevo con su posición original) de diferentes regiones cromosómicas puede ser diferente. Además, el polimorfismo del número de copias (es decir, variaciones en el número de copias) también afectaría a las densidades de lectura de secuencia de las agrupaciones. Por lo tanto, la normalización con el ADN de la capa leucocitaria potencialmente puede reducir al mínimo las variaciones asociadas con la diferencia en el contexto de secuencia entre diferentes regiones cromosómicas.
La FIG. 10A muestra una gráfica de distribución 1000 de las densidades de lectura de secuencia de la muestra de tumor de un paciente con HCC de acuerdo con las realizaciones de la presente invención. El tejido tumoral se obtuvo después de la resección quirúrgica del paciente con HCC. El eje x representa el log2 de la relación (R) de la densidad de lecturas de secuencia entre el tejido tumoral y la capa leucocitaria del paciente. El eje y representa el número de agrupaciones.
5
10
15
20
25
30
35
40
45
50
55
Los picos pueden ser ajustados a la curva de distribución para representar las regiones con deleción, amplificación y sin aberraciones cromosómicas utilizando el modelo de mezcla normal. En una realización, el número de picos puede ser determinado por el criterio de información de Akaike (AIC) a través de diferentes valores plausibles. El pico central con un log2R = 0 (es decir, R = 1) representa las regiones sin ninguna aberración cromosómica. El pico de la izquierda (respecto al central) representa regiones con pérdida de una copia. El pico de la derecha (respecto al central) representa las regiones con amplificación de una copia.
La concentración fraccional de ADN derivado de tumor puede reflejarse por la distancia entre los picos que representan las regiones amplificadas y suprimidas. Cuanto mayor es la distancia, mayor será la concentración fraccional de ADN derivado de tumor en la muestra. La concentración fraccional de ADN derivado de tumor en la muestra puede ser determinada por este procedimiento de representación genómica, denominado como FGR utilizando la siguiente ecuación: Fgr = Rderecho - Rizquierdo, donde Rderecho es el valor R del pico derecho y Rizquierdo es el valor R del pico izquierdo. La mayor diferencia sería 1, que corresponde a 100 %. La concentración fraccional de ADN derivado de tumor en la muestra de tumor obtenida del paciente con HCC se estima que es 66 %, donde los valores de Rderecho y Rizquierdo son 1.376 y 0.712, respectivamente.
Para verificar este resultado también se utilizó otro método que utiliza el análisis de pérdida de alelo agregado de genoma completo (GAAL) para determinar de forma independiente la concentración fraccional de proporción de ADN de tumor (Chan KC et al. Clin Chem 2013; 59: 211-24). La Tabla 3 muestra las concentraciones fraccionales de ADN derivado de tumor en los tejidos de tumor de los cuatro pacientes con HCC utilizando los enfoques de representación genómica (Fgr) y GAAL (Fgaal). Los valores determinados por estos dos enfoques diferentes concuerdan bien entre sí.
La Tabla 3 muestra la concentración fraccional determinada por GAAL y representación genómica (GR).
- Tumor HCC
- Fgaal Fgr
- 1
- 60,0% 66,5%
- 2
- 60,0% 61,4%
- 3
- 58,0% 58,9%
- 4
- 45,7% 42,2%
2. Estimación en la muestra con baja concentración de tumor
El análisis anterior ha mostrado que nuestro método de representación genómica se puede utilizar para medir la concentración fraccional de ADN de tumor cuando más de 50 % de la muestra de ADN deriva del tumor, es decir, cuando el ADN de tumor es una proporción mayoritaria. En el análisis anterior, hemos demostrado que este método también se puede aplicar a muestras en las que el ADN derivado de tumor representa una proporción menor (es decir, por debajo de 50 %). Las muestras que pueden contener una proporción menor de ADN de tumor incluyen, pero no se limitan a, la sangre, plasma, suero, orina, fluido pleural, líquido cefalorraquídeo, lágrimas, saliva, fluido ascítico y heces de pacientes con cáncer. En algunas muestras, la concentración fraccional de ADN derivado de tumor puede ser 49 %, 40 %, 30 %, 20 %, 10 %, 5 %, 2 %, 1 %, 0,5 %, 0,1 % o menor.
Para tales muestras, los picos de densidad de lectura de secuencia que representan las regiones con amplificación y deleción pueden no ser tan obvias como en las muestras que contienen una concentración relativamente alta de ADN derivado de tumor como se ilustra anteriormente. En una realización, las regiones con aberraciones cromosómicas en las células de cáncer se pueden identificar comparando con las muestras de referencia que se sabe que no contienen ADN de cáncer. Por ejemplo, el plasma de sujetos sin un cáncer se puede utilizar como referencia para determinar el rango normativo de las densidades de lectura de secuencia para las regiones cromosómicas. La densidad de lectura de secuencia del sujeto analizado puede ser comparada con el valor del grupo de referencia. En una realización se puede determinar la media y la desviación estándar (SD) de la densidad de lectura de secuencia. Para cada agrupación, la densidad de lectura de secuencia del sujeto analizado se compara con la media del grupo de referencia para determinar la puntuación z utilizando la siguiente fórmula:
„ . , (G7Í - GRnr)
puntuación z ~ -------------------
' SD,«
donde GRprueba representa la densidad de lectura de secuencia del paciente con cáncer; GRref representa la densidad de lectura de secuencia media de los sujetos de referencia y SDref representa la SD de las densidades de lectura de secuencia para los sujetos de referencia.
Las regiones con puntuación z <-3 significa subpresentación significativa de la densidad de lectura de secuencia para una agrupación particular en el paciente con cáncer que sugiere la presencia de una deleción en el tejido de tumor. Las regiones con puntuación z > 3 significa sobrepresentación significativa de la densidad de lectura de secuencia de una agrupación particular en el paciente con cáncer que sugiere la presencia de una amplificación en el tejido de tumor.
5
10
15
20
25
30
35
40
45
50
55
A continuación, se puede construir la distribución de las puntuaciones z de todas las agrupaciones para identificar regiones con diferentes números de ganancia y pérdida de copias, por ejemplo, deleción de 1 o 2 copias de un cromosoma; y amplificación, dando como resultado 1, 2, 3 y 4 copias adicionales de un cromosoma. En algunos casos, más de un cromosoma o más de una región de un cromosoma pueden estar involucrados.
La FIG. 10B muestra una gráfica de distribución 1050 de las puntuaciones z para todas las agrupaciones en el plasma de un paciente con HCC de acuerdo con las realizaciones de la presente invención. Los picos (de izquierda a derecha), que representan pérdida de 1 copia, ningún cambio de copia, ganancia de 1 copia y ganancia de 2 copias se ajustan a la distribución de la puntuación z. Las regiones con diferentes tipos de aberraciones cromosómicas se pueden identificar a continuación, por ejemplo, utilizando el modelo de mezcla normal como se describió anteriormente.
La concentración fraccional de ADN de cáncer en la muestra (F) se puede inferir después a partir de las densidades de lectura de secuencia de las agrupaciones que exhiben ganancia de una copia o pérdida de una copia. La concentración fraccional determinada para una agrupación particular, se puede calcular como
x 100%. Esto también se puede expresar como:
que puede reescribirse como: F = ¡puntuación z\x CVx 2, donde CV es el coeficiente de variación para la medición
, sd,.4
de la densidad de lectura de secuencia de los sujetos de referencia; y CV - —— .
Cxííre/'
En una realización, los resultados de las agrupaciones se combinan. Por ejemplo, las puntuaciones z de las agrupaciones que muestran una ganancia de 1 copia se pueden promediar o se promedian los valores F resultantes. En otra aplicación, el valor de la puntuación z utilizado para inferir F se determina mediante un modelo estadístico y está representado por los picos mostrados en la FIG. 10B y FIG. 11. Por ejemplo, la puntuación z del pico de la derecha se puede utilizar para determinar la concentración fraccional para las regiones que exhiben ganancia de 1 copia.
En otra realización, todas las agrupaciones con puntuación z <-3 y puntuación z > 3 se pueden atribuir a las regiones con pérdida de copia única y ganancia de copia única, respectivamente, debido a que estos dos tipos de aberraciones cromosómicas son los más comunes. Esta aproximación es más útil cuando el número de agrupaciones con aberraciones cromosómicas es relativamente pequeño y el ajuste de la distribución normal puede no ser exacto.
La FIG. 11 muestra una gráfica de distribución 1100 de puntuaciones z para el plasma de un paciente con HCC de acuerdo con las realizaciones de la presente invención. Aunque el número de agrupaciones superpuestas con aberraciones cromosómicas es relativamente pequeño, todas las agrupaciones con puntuación z <-3 y puntuación z > 3 se ajustan a las distribuciones normales de la pérdida de copia única y ganancia de copia única, respectivamente.
Las concentraciones fraccionales de ADN derivado de tumor en plasma de los cuatro pacientes con HCC se determinaron utilizando análisis de GAAL y este enfoque basado en GR. Los resultados se muestran en la Tabla 4. Como puede verse, la representación fraccional deducida se correlaciona bien entre el análisis de GAAL y el análisis de GR.
Tabla 4. Concentración fraccional de ADN derivado de tumor en plasma deducida por el análisis de aberraciones
cromosómicas.
- Concentración fraccional de ADN derivado de tumor en plasma
- Muestras
- Análisis GAAL Análisis GR
- caso11
- 4,3 % 4,5 %
- caso13
- 5 % 5,5 %
- caso 23
- 52 % 62 %
- caso 27
- 7,6 % 6,1 %
C. Método de determinación de la concentración fraccional
La FIG. 12 es un diagrama de flujo de un método 1200 para determinar una concentración fraccional de ADN de tumor en una muestra biológica incluyendo ADN libre de células de acuerdo con las realizaciones de la presente invención. El método 1200 puede realizarse a través de diversas realizaciones, incluyendo realizaciones descritas anteriormente.
5
10
15
20
25
30
35
40
45
50
55
60
65
En el bloque 1210, una o más etiquetas de secuencia son recibidas para cada una de una pluralidad de fragmentos de ADN en la muestra biológica. El bloque 1210 puede realizarse como se describe en la presente memoria para otros métodos. Por ejemplo, un extremo de un fragmento de ADN puede ser secuenciado de una muestra de plasma. En otra realización, ambos extremos de un fragmento de ADN pueden ser secuenciados, permitiendo de este modo la estimación de una longitud del fragmento.
En el bloque 1220, las posiciones genómicas están determinadas por las etiquetas de secuencia. Las posiciones genómicas se pueden determinar, por ejemplo, como se describe en la presente memoria mediante la alineación de las etiquetas de secuencia con un genoma de referencia. Si ambos extremos de un fragmento son secuenciados, entonces las etiquetas apareadas pueden estar alineadas como un par restringiendo la distancia entre las dos etiquetas a menos de una distancia especificada, por ejemplo, 500 o 1.000 bases.
En el bloque 1230, para cada una de una pluralidad de regiones genómicas se determina una cantidad respectiva de fragmentos de ADN dentro de la región genómica a partir de las etiquetas de secuencia que tienen una posición genómica dentro de la región genómica. Las regiones genómicas pueden ser agrupaciones no superpuestas de longitud igual en el genoma de referencia. En una realización, se puede contar un número de etiquetas que se alinean con una agrupación. Por lo tanto, cada agrupación puede tener un número correspondiente de etiquetas alineadas. Se puede calcular un histograma que ilustre la frecuencia de las agrupaciones que tienen un cierto número de etiquetas alineadas. El método 1200 se puede realizar para regiones genómicas que tienen cada una la misma longitud (por ejemplo, agrupaciones de 1 Mb), donde las regiones no están superpuestas. En otras realizaciones se pueden utilizar diferentes longitudes, que pueden ser tenidas en cuenta y las regiones se pueden superponer.
En el bloque 124 0, la cantidad respectiva se normaliza para obtener una densidad respectiva. En una realización, la normalización de la cantidad respectiva para obtener una densidad respectiva incluye el uso de un mismo número total de etiquetas de referencia alineadas para determinar la respectiva densidad y la densidad de referencia. En otra realización, la cantidad respectiva se puede dividir por un número total de etiquetas de referencia alineadas.
En el bloque 1250, la densidad respectiva se compara con una densidad de referencia para identificar si la región genómica exhibe una pérdida de 1 copia o una ganancia de 1 copia. En una realización, la diferencia se calcula entre la densidad respectiva y la densidad de referencia (por ejemplo, como parte de la determinación de una puntuación z) y se compara con un valor de corte. En diversas realizaciones, la densidad de referencia puede obtenerse de una muestra de células sanas (por ejemplo, de la capa leucocitaria) o de las propias cantidades respectivas (por ejemplo, tomando un valor mediano o promedio, suponiendo que la mayoría de las regiones no exhiben una pérdida o una ganancia).
En el bloque 1260, se calcula una primera densidad de una o más densidades respectivas identificadas que exhiben una pérdida de 1 copia o de una o más densidades respectivas identificadas que exhiben una ganancia de 1 copia. La primera densidad puede corresponder tan solo a una región genómica, o puede ser determinada a partir de las densidades de múltiples regiones genómicas. Por ejemplo, la primera densidad puede calcularse a partir de las densidades respectivas que tienen una pérdida de 1 copia. Las densidades respectivas proporcionan una medida de la cantidad de la diferencia de densidad resultante de la deleción de la región en un tumor, dada la concentración de tumor. Del mismo modo, si la primera densidad procede de densidades respectivas que tienen una ganancia de 1 copia, entonces se puede obtener una medida de la cantidad de diferencia de densidad resultante de la duplicación de la región en un tumor. Las secciones anteriores describen varios ejemplos de cómo las densidades de múltiples regiones se pueden utilizar para determinar una densidad promedio que se utiliza para la primera densidad.
En el bloque 1270, la concentración fraccional se calcula comparando la primera densidad con otra densidad para obtener un diferencial. El diferencial se normaliza con la densidad de referencia, lo cual puede hacerse en el bloque 1270. Por ejemplo, el diferencial puede ser normalizado con la densidad de referencia dividiendo el diferencial por la densidad de referencia. En otra realización, el diferencial puede ser normalizado en los bloques anteriores.
En una aplicación, la otra densidad es la densidad de referencia, por ejemplo, como en la sección 2 anterior. Por lo tanto, el cálculo de la concentración fraccional puede incluir multiplicar el diferencial por dos. En otra aplicación, la otra densidad es una segunda densidad calculada a partir de las densidades respectivas identificadas que exhiben una pérdida de 1 copia (donde la primera densidad se calcula utilizando densidades respectivas identificadas que exhiben una ganancia de 1 copia), por ejemplo, como se describe en la sección 1 anterior. En este caso, el diferencial normalizado se puede determinar calculando una primera relación (por ejemplo, Rderecho) de la primera densidad y la densidad de referencia y calculando una segunda relación (Rizquierdo) de la segunda densidad y la densidad de referencia, donde el diferencial está entre la primera relación y la segunda relación. Como se describió anteriormente, la identificación de región genómica que exhibe una pérdida de 1 copia o una ganancia de 1 copia se puede realizar ajustando los picos a una curva de distribución de un histograma de las densidades respectivas.
En resumen, las realizaciones pueden analizar la representación genómica de ADN de plasma en diferentes regiones cromosómicas para determinar simultáneamente si la región cromosómica se amplifica o suprime en el tejido de tumor y, si la región se amplifica o suprime, para utilizar su representación genómica para deducir la
5
10
15
20
25
30
35
40
45
50
55
60
concentración fracciona! del ADN derivado de tumor. Algunas aplicaciones utilizan un modelo de mezcla normal para analizar la distribución general de la representación genómica de diferentes regiones para determinar la representación genómica asociada con diferentes tipos de aberraciones, principalmente las ganancias de 1, 2, 3 o 4 copias y las pérdidas de 1 o 2 copias.
Las realizaciones tienen varias ventajas sobre otros métodos, por ejemplo el procedimiento de pérdida alélica agregada de genoma completo (GAAL) (solicitud de patente de Estados Unidos 13/308.473; Chan KC et al. Clin Chem 2013; 59:211-24) y el análisis de mutaciones de nucleótido único asociadas con el tumor (Forshew T et al. Sci Transl Med 2012;4:136ra68). Toda la cartografía de lecturas de secuencia con regiones con aberraciones cromosómicas se puede utilizar para determinar la densidad de lectura de secuencia de la región y, por lo tanto, son informativos con respecto a la concentración fraccional de ADN de tumor. Por otro lado, en el análisis de GAAL, sólo serían informativas las lecturas de secuencia que cubren los nucleótidos únicos que son heterocigotos en el individuo y localizados dentro de una región cromosómica con la ganancia o pérdida de cromosoma. Del mismo modo, para el análisis de mutaciones asociadas con el cáncer, sólo las lecturas de secuencia que cubren las mutaciones serían útiles para la deducción de la concentración de ADN de tumor. Por lo tanto, las realizaciones pueden permitir un uso más rentable de los datos de secuenciación, ya que lecturas de secuenciación relativamente menores pueden ser necesarias para lograr el mismo grado de precisión en la estimación de la concentración fraccional de ADN derivado de tumor en comparación con otros enfoques.
X. METODOLOGIAS ALTERNATIVAS
Aparte de utilizar el número de veces que se observa una mutación en una etiqueta de secuencia como criterio para identificar un locus que es una mutación verdadera (ajustando de ese modo el valor predictivo positivo), se podrían emplear otras técnicas en lugar de o además de utilizar un valor de corte para proporcionar un valor predictivo mayor en la identificación de una mutación cancerosa. Por ejemplo, se podrían utilizar filtros de bioinformática de diferente rigurosidad al procesar los datos de secuenciación, por ejemplo, teniendo en cuenta la puntuación de calidad de un nucleótido secuenciado. En una realización, se podrían utilizar secuenciadores de aDn y procesos químicos de secuenciación con diferentes perfiles de error de secuenciación. Los secuenciadores y los procesos químicos con tasas de error de secuenciación menores darían unos valores predictivos positivos mayores. También se puede utilizar la secuenciación repetida del mismo fragmento de ADN para aumentar la precisión de secuenciación. Una estrategia posible es la estrategia de secuenciación de consenso circular de Pacific Biosciences.
En otra realización, se podría incorporar información del tamaño de los fragmentos secuenciados en la interpretación de los datos. Ya que el ADN derivado de tumor es más corto que el ADN derivado de tumor en plasma (véase Solicitud de Patente de Estados Unidos N.° 13/308.473), el valor predictivo positivo de un fragmento de ADN de plasma más corto que contiene una mutación potencial derivada de tumor será mayor que el de un fragmento de ADN de plasma más largo. Los datos del tamaño se obtendrán fácilmente si se realiza la secuenciación de extremo apareado del ADN de plasma. Como alternativa, se podrían utilizar secuenciadores de ADN con longitudes de lectura largas, produciendo de este modo la longitud completa de un fragmento de ADN de plasma. También se podría realizar el fraccionamiento de tamaño de la muestra de ADN de plasma antes de la secuenciación del ADN. Los ejemplos de métodos que se podrían utilizar para el fraccionamiento de tamaño incluyen electroforesis en gel, el uso del procedimiento de microfluído (por ejemplo, el sistema de Caliper LabChip XT) y columnas de centrifugación de exclusión molecular.
En otra realización más, se esperaría que la concentración fraccional de mutaciones asociadas con el tumor en plasma en un paciente con cáncer no hematológico aumente si uno se centra en los fragmentos de ADN más cortos en el plasma. En una aplicación, se puede comparar la concentración fraccional de mutaciones asociadas con el tumor en plasma en fragmentos de ADN de dos o más distribuciones de tamaño diferentes. Un paciente con un cáncer no hematológico tendrá concentraciones fraccionales mayores de mutaciones asociadas con el tumor en los fragmentos más cortos en comparación con los fragmentos más grandes.
En algunas realizaciones, se podrían combinar los resultados de secuenciación de dos o más alícuotas de la misma muestra de sangre, o de dos o más muestras de sangre tomadas en las mismas ocasiones o en diferentes ocasiones. Las mutaciones potenciales observadas en más de una alícuota o muestras tendrían un valor predictivo positivo mayor de mutaciones asociadas con el tumor. El valor predictivo positivo aumentaría con el número de muestras que muestran tal mutación. Las mutaciones potenciales que están presentes en muestras de plasma tomadas en diferentes puntos temporales pueden ser consideradas como mutaciones potenciales.
XI. EJEMPLOS
Los siguientes son ejemplos de técnicas y datos, que no deben considerarse limitativos en las realizaciones de la presente invención.
5
10
15
20
25
30
35
40
45
50
55
60
65
A. Materiales y Métodos
En cuanto a la recolección de muestras, se reclutaron pacientes con carcinoma hepatocelular (HCC), portadores de hepatitis B crónica, y un paciente con cáncer de mama y ovario sincrónico. Todos los pacientes con CHC tenían enfermedad en estadio A1 según el sistema Barcelona-Clinic Liver Cancer. Las muestras de sangre periférica de todos los participantes se recolectaron en tubos que contienen EDTA. Los tejidos de tumor de los pacientes con HCC se obtuvieron durante sus cirugías de resección del cáncer.
Las muestras de sangre periférica se centrifugaron a 1.600 g durante 10 min a 4 °C. La porción de plasma se volvió a centrifugar a 16.000 g durante 10 min a 4 °C y luego se almacenó a 80 °C. Las moléculas de ADN libre de células de 4,8 ml de plasma se extrajeron según el protocolo de fluido sanguíneo y corporal del QIAamp DSP DNABlood Mini Kit (Qiagen). El ADN de plasma se concentró con un concentrador SpeedVac (Savant DNA120; Thermo Scientific) en un volumen final de 4 pl por caso para su posterior preparación de la biblioteca de secuenciación de ADN.
El ADN genómico se extrajo de muestras de capa leucocitaria de los pacientes de acuerdo con el protocolo de fluido sanguíneo y corporal del QIAamp DSP DNA Blood Mini Kit. Se extrajo el ADN de tejidos de tumor con el QIAamp DNA Mini Kit (Qiagen).
Las bibliotecas de secuenciación de las muestras de ADN genómico se construyeron con el Paired-End Sample Preparation Kit (Illumina) según las instrucciones del fabricante. Resumiendo, en primer lugar se cizallaron con un ultrasonicador focalizado Covaris S220 1-5 microgramos de ADN genómico en fragmentos de 200 pb. Después, las moléculas de ADN fueron reparadas en sus extremos con ADN polimerasa de T4 y polimerasa de Klenow; la polinucleótido quinasa de T4 se utilizó a continuación para fosforilar los extremos 5'. Se creó un saliente 3' con un fragmento de Klenow deficiente de exonucleasa 3' a 5'. Los oligonucleótidos adaptadores Illumina se ligaron a los extremos cohesivos. El ADN ligado al adaptador se enriqueció con una PCR de 12 ciclos. Debido a que las moléculas de ADN de plasma eran fragmentos cortos y las cantidades de ADN total en las muestras de plasma eran relativamente pequeñas, se omitieron las etapas de fragmentación y se utilizó una PCR de 15 ciclos para construir las bibliotecas de ADN de las muestras de plasma.
Se utilizó un Bioanalizador Agilent 2100 (Agilent Technologies) para verificar la calidad y el tamaño de las bibliotecas de ADN ligado al adaptador. Las bibliotecas de ADN se midieron a continuación con un KAPA Library Quantification Kit (Kapa Biosystems) de acuerdo con las instrucciones del fabricante. La biblioteca de ADN se diluyó y se hibridó con las células de flujo de secuenciación de extremo apareado. Los agrupamientos de ADN se generaron en un sistema de generación de agrupamiento cBot (Illumina) con el TruSeq Pe Cluster Generation Kit v2 (Illumina), seguido por 51_2 ciclos o 76_2 ciclos de secuenciación en un sistema HiSeq 2000 (Illumina) con el Kit TruSeq SBS v2 (Illumina).
Los datos de secuenciación de extremo apareado se analizaron por medio del Programa de Alineación de Oligonucleótidos Cortos 2 (SOAP2) en el modo de extremo apareado. Para cada lectura de extremo apareado, se alinean 50 pb o 75 pb de cada extremo con el genoma humano de referencia sin enmascaramiento de repetición (hgl8). Se permitieron hasta 2 mal apareamientos de nucleótidos para la alineación de cada extremo. Las coordenadas genómicas de estas alineaciones potenciales para los 2 extremos se analizaron después para determinar si alguna combinación permitiría que los 2 extremos estuviesen alineados con el mismo cromosoma con la orientación correcta, abarcando un tamaño de inserto de menor que o igual a 600 pb, y cartografiando una ubicación única en el genoma humano de referencia. Las lecturas duplicadas fueron definidas como lecturas de extremo apareado en las que la molécula de ADN de inserto mostró ubicaciones de inicio y fin idénticas en el genoma humano; las lecturas duplicadas se eliminaron como se ha descrito previamente (Lo et al. Sci Transl Med 2010; 2:61ra91).
En algunas realizaciones, se secuenciaron las muestras de ADN constitucional y de tumor apareadas para identificar las variantes de nucleótido único asociadas con el tumor (SNV). En algunas aplicaciones, nos centramos en las SNV que ocurren en los sitios homocigotos en el ADN constitucional (en este ejemplo es el ADN de capa leucocitaria). En principio, cualquier variación de nucleótido detectada en los datos de secuenciación de los tejidos de tumor pero ausente en el ADN constitucional podría ser una mutación potencial (es decir, una SNV). Sin embargo, debido a los errores de secuenciación (0,1 % - 0,3 % de los nucleótidos secuenciados), se identificarían millones de falsos positivos en el genoma si una ocurrencia única de cualquier cambio de nucleótido en los datos de secuenciación del tejido de tumor se considera como una SNV asociada con el tumor. Una forma de reducir el número de falsos positivos sería instituir el criterio de observar múltiples ocurrencias del mismo cambio de nucleótido en los datos de secuenciación en el tejido de tumor antes de que analizar una SNV asociada con el tumor.
Debido a que la ocurrencia de errores de secuenciación es un proceso estocástico, el número de falsos positivos debido a errores de secuenciación se reduciría de forma exponencial con el aumento del número de ocurrencias necesarias para que una SNV observada sea calificada como SNV asociada con el tumor. Por otro lado, el número de falsos positivos aumentaría con el aumento de la profundidad de secuenciación. Estas relaciones se podrían predecir con funciones de distribución binomial y de Poisson. Las realizaciones pueden determinar un punto de corte
5
10
15
20
25
30
35
40
45
50
55
60
65
dinámico de ocurrencia para calificar una SNV observada como asociada con el tumor. Las realizaciones pueden tener en cuenta la cobertura real del nucleótido particular en los datos de secuenciación de tumor, la tasa de error de secuenciación, la tasa de falsos positivos máxima permisible, y la sensibilidad deseada para la detección de mutación.
En algunos ejemplos, establecemos criterios muy estrictos para reducir los falsos positivos. Por ejemplo, se puede requerir que una mutación esté completamente ausente en la secuenciación de ADN constitucional, y la profundidad de secuenciación para la posición de nucleótido particular tiene que ser 20 veces. En algunas aplicaciones, el punto de corte de ocurrencia logra una velocidad de detección de falsos positivos de menos de 10-7. En algunos ejemplos, también se filtraron SNV que estaban dentro de las regiones centroméricas, teloméricas, y de baja complejidad para minimizar los falsos positivos debido a los artefactos de alineación. Además, también se eliminó la cartografía de SNV putativa con SNP conocidos en las 135 bases de datos
B. Resección antes y después
La FIG. 13A muestra una tabla 1300 del análisis de mutaciones en el plasma de la paciente con cáncer de ovario y cáncer de mama en el momento del diagnóstico de acuerdo con las realizaciones de la presente invención. Aquí, mostramos un ejemplo de una paciente con cáncer de ovario bilateral y un cáncer de mama. Los datos de secuenciación del plasma se compararon con los resultados de la secuenciación del ADN constitucional de la paciente (capa leucocitaria). Los cambios de nucleótido único que estaban presentes en el plasma, pero no en el ADN constitucional se consideraron como mutaciones potenciales. Los cánceres de ovario en el lado derecho e izquierdo de la paciente se muestrearon cada uno en dos sitios, lo que hace un total de cuatro muestras de tumor. Las mutaciones de tumor fueron mutaciones detectadas en los cuatro tejidos de tumor de ovario en cuatro sitios diferentes.
Se detectaron más de 3,6 millones de cambios de nucleótido único en el plasma durante al menos una vez por secuenciación. De estos cambios, sólo 2.064 también se detectaron en los tejidos de tumor, lo que da un valor de predicción positiva de 0,06 %. Utilizando el criterio de que se detectan al menos dos veces en el plasma, el número de mutaciones potenciales se redujo significativamente en un 99,5 % hasta 18.885. El número de mutaciones de tumor sólo se redujo en un 3 % hasta 2.003, y el valor de predicción positiva aumentó hasta el 11 %.
Usando los criterios de detección de al menos cinco veces en plasma, se detectaron sólo 2.572 mutaciones potenciales y entre éstas, 1.814 eran mutaciones detectadas en todos los tejidos de tumor, dando, por lo tanto, un valor predictivo positivo de 71 %. Otros criterios para determinar el número de ocurrencias (por ejemplo, 2, 3, 4, 6, 7, 8, 9, 10, etc.) se pueden utilizar para definir las mutaciones potenciales dependiendo de la sensibilidad y valor predictivo positivo requerido. Cuanto mayor sea el número de ocurrencias utilizadas como criterio, mayor será el valor predictivo positivo con una reducción en la sensibilidad.
La FIG. 13B muestra una tabla 1350 del análisis de mutaciones en el plasma de la paciente con cáncer de ovario bilateral y un cáncer de mama después de la resección del tumor de acuerdo con las realizaciones de la presente invención. Se realizó la resección quirúrgica de los cánceres de la paciente. Se obtuvo una muestra de sangre un día después de la resección de los tumores de ovario y el cáncer de mama. El ADN de plasma se secuenció a continuación. Para este ejemplo, sólo se analizaron las mutaciones de los cánceres de ovario. Más de 3 millones de mutaciones potenciales se detectaron al menos una vez en una muestra de plasma. Sin embargo, utilizando el criterio de tener al menos cinco ocurrencias, el número de mutaciones potenciales se redujo a 238. Se observó una reducción significativa en comparación con el número de mutaciones potenciales para la muestra tomada en el diagnóstico y utilizando el mismo criterio de cinco mutaciones.
En una realización, el número de cambios de nucleótido único detectados en el plasma se puede utilizar como un parámetro para la detección, control y pronóstico de un paciente con cáncer. Se puede usar diferente número de ocurrencias como criterio para lograr la sensibilidad y especificidad deseadas. Se espera que un paciente con una carga de tumor mayor y, por lo tanto, un peor pronóstico tenga una carga mutacional en el plasma mayor.
Para este análisis, se podría establecer el perfil de carga mutacional para diferentes tipos de cáncer. Con fines de control, se vería que se reduciría la carga mutacional en el plasma de un paciente que responde al tratamiento. Si el tumor ha recurrido, por ejemplo, durante una recidiva, entonces se espera que la carga mutacional aumente. Tal control permitiría controlar la eficacia de la modalidad seleccionada de tratamiento para un paciente y detectar la ocurrencia de resistencia a un tratamiento particular.
Mediante el análisis de las mutaciones específicas que se podrían ver en los resultados de la secuenciación del ADN de plasma, se podría también identificar dianas que podrían predecir la sensibilidad (por ejemplo, las mutaciones en el gen del receptor del factor de crecimiento epidérmico y la respuesta al tratamiento con inhibidor de la tirosina quinasa) y la resistencia al tratamiento dirigido particular (por ejemplo, mutaciones KRAS en el cáncer colorrectal y la resistencia al tratamiento con panitumumab y cetuximab), y podrían guiar la planificación de los regímenes de tratamiento.
5
10
15
20
25
30
35
40
45
50
55
El ejemplo anterior se refería al cáncer de ovario bilateral. También se podría realizar el mismo análisis en las mutaciones del cáncer de mama, pudiendo entonces rastrear las mutaciones de ambos tipos de cáncer en el plasma. También se puede utilizar una estrategia similar para rastrear las mutaciones de un cáncer primario y su metástasis o metástasis.
Las realizaciones serían útiles para la detección de cáncer en sujetos aparentemente sanos o en sujetos con factores de riesgo particulares (por ejemplo, historial de tabaquismo, estado viral (tales como portadores del virus de la hepatitis, sujetos infectados con virus del papiloma humano). La carga mutacional que se podría ver en el plasma de tales sujetos sería indicativa del riesgo de que el sujeto desarrolle cáncer sintomático en un plazo determinado. Por lo tanto, se esperaría que los sujetos con una mayor carga mutacional en el plasma tengan un mayor riesgo que aquellos con una carga mutacional menor. Además, el perfil temporal de tal carga mutacional en plasma también sería un potente indicador de riesgo. Por ejemplo, si un sujeto tiene una carga mutacional en plasma determinada cada año y si las cargas mutacionales están aumentando progresivamente, entonces este sujeto debe ser derivado para modalidades de detección adicionales del cáncer, por ejemplo, radiografía torácica, ecografía, tomografía computarizada, resonancia magnética o tomografía por emisión de positrones.
C. Puntos de corte dinámicos para deducir las mutaciones de secuenciación en plasma
Para este estudio se reclutaron cuatro pacientes con carcinoma hepatocelular (HCC) y una paciente con cáncer de ovario y mama. En esta última paciente, nos centramos en el análisis del cáncer de ovario. Las muestras de sangre se recolectaron de cada paciente antes y después de la resección quirúrgica de los tumores. También se recolectaron los tejidos de tumor resecados. El ADN extraído del tejido de tumor, los leucocitos de la muestra de sangre preoperatoria y las muestras de plasma pre- y post-operatorias se secuenciaron utilizando el sistema de secuenciación HiSeq2000 (Illumina). Los datos de secuenciación se alinearon con la secuencia del genoma humano de referencia (hg18) utilizando el Paquete de Análisis de Oligonucleótidos Cortos 2 (SOAP2) (Li R et al. Bioinformatics 2009; 25: 1966-1967). Las secuencias de ADN de los leucocitos fueron consideradas como secuencia de ADN constitucional para cada sujeto de estudio.
En este ejemplo, las SNM asociadas con el tumor se dedujeron primero de los datos de secuenciación de ADN de plasma y el CG sin referencia a los tejidos de tumor. A continuación, los resultados deducidos del plasma se compararon con los datos de secuenciación generados de los tejidos de tumor (como datos referencia) para determinar la exactitud de los resultados deducidos. En este sentido, los datos de referencia se obtuvieron comparando los datos de secuenciación de los tejidos de tumor y la secuencia constitucional para determinar las mutaciones en los tejidos de tumor. En este análisis, nos centramos en las posiciones de nucleótidos en las que el ADN constitucional del sujeto estudiado era homocigoto.
1. Análisis del genoma completo no dirigido
Las profundidades de secuenciación para los leucocitos, los tejidos de tumor y el ADN de plasma de cada paciente se muestran en la Tabla 5.
Tabla 5. Mediana de las profundidades de secuenciación de diferentes muestras de los cuatro casos de CHC.
- Caso
- Mediana de la profundidad de secuenciación (veces)
- Leucocitos
- Tejido tumoral Plasma preoperatorio Plasma postoperatorio
- HCC1
- 39 29 23 24
- HCC2
- 39 29 25 28
- HCC3
- 46 33 18 21
- HCC4
- 46 27 20 23
- Paciente con cáncer de ovario
- 44 53 37 28
Los puntos de corte dinámicos para las ocurrencias mínimas para la definición de las mutaciones de plasma (r) como se muestra en la tabla 1 se utilizan para identificar las mutaciones en el plasma de cada paciente. Como la profundidad de secuenciación de cada locus puede variar, el punto de corte puede variar, lo que proporciona eficazmente una dependencia del punto de corte en el número total de lecturas para un locus. Por ejemplo, aunque la mediana de la profundidad es menor de 50 (Tabla 5), la profundidad de secuenciación de loci individuales puede variar mucho y ser cubierta > 100 veces.
Además de los errores de secuenciación, otra fuente de error serían los errores de alineación. Para minimizar este tipo de errores, la lecturas de secuenciación que llevan una mutación fueron realineadas con el genoma de referencia utilizando el programa de alineación Bowtie (Langmead B et al. Genome Biol 2009, 10:R25). Sólo las lecturas que podían ser alineadas con una posición única del genoma de referencia por SOAP2 y Bowtie se utilizaron para el análisis aguas abajo para las mutaciones de plasma. También se podrían utilizar otras combinaciones de paquetes de software de alineación basados en diferentes algoritmos.
5
10
15
20
25
30
35
40
45
50
Para minimizar adicionalmente los errores de secuenciación y alineación en los datos de secuenciación reales, se aplicaron dos algoritmos de filtración adicionales para determinar las posiciones de nucleótidos que mostraron variaciones de nucleótido único en las lecturas de secuencia: (1) > 70 % de las lecturas de secuencia que llevan la mutación podrían ser realineadas con la misma coordenada genómica utilizando Bowtie con calidad de cartografía > Q20 (es decir, probabilidad de mala alineación < 1 %); (2) > 70 % de las lecturas de secuencia que llevan la mutación no estaban dentro de las 5 pb de ambos extremos (es decir, extremos 5' y 3') de la lecturas de secuencia. Esta regla de filtración fue implantada porque los errores de secuenciación eran más prevalentes en ambos extremos de una lectura de secuencia.
También se investigaron los factores que afectan a la deducción de un tumor sin previo conocimiento del genoma de tumor. Tal parámetro fue la concentración fraccional de ADN derivado de tumor en plasma. Este parámetro podría ser considerado como otro parámetro de referencia y se dedujo como una referencia conociendo previamente el genoma de tumor utilizando GAAL.
La Tabla 6 muestra variaciones de nucleótido detectadas en el plasma antes y durante el tratamiento. Para HCC1, sin conocimiento previo del genoma del tumor, se detectaron un total de 961 variaciones de nucleótido único. Entre estas variaciones de nucleótido detectadas en el plasma, 828 eran mutaciones asociadas con el cáncer. Después de la resección quirúrgica de HCC, el número total de variaciones de nucleótido se redujo a 43 y ninguna de ellas fueron mutaciones asociadas con el cáncer.
Con fines de referencia, la concentración fraccional de ADN derivado de tumor en la muestra de plasma postoperatorio fue 53 % y se dedujo con el conocimiento previo del genoma del tumor. Para HCC2, HCC3 y HCC4, sin conocimiento previo de los genomas del tumor, los números de variaciones de nucleótido único en el plasma se dedujeron, variando desde 27 hasta 32 para las muestras de plasma preoperatorio. Estos resultados son compatibles con la predicción matemática de que, con una profundidad de secuenciación de aproximadamente 20 veces, un porcentaje muy bajo de mutaciones asociadas con el cáncer podría ser detectado en el plasma y la mayoría de las variaciones de secuencia detectadas en el plasma fueron debido a errores de secuenciación. Después de la resección del tumor, no hubo cambio significativo en el número de variaciones de la secuencia detectadas. Con fines de referencia, se dedujo que las concentraciones fraccionales de ADN derivado de tumor en plasma variaban desde 2,1 % hasta 5 % y se dedujeron con el conocimiento previo de los genomas del tumor.
Tabla 6. Variaciones de nucleótido detectadas en el plasma.
- Plasma preoperatorio Plasma postoperatorio
- Concentración fraccional de ADN derivado de tumor N.° total de variaciones de nucleótido único N.° de mutaciones asociadas con el cáncer identificadas Concentración fraccional de ADN derivado de tumor N.° total de variaciones de nucleótido único N.° de mutaciones asociadas con el cáncer identificadas
- HCC1
- 53% 961 828 0,4% 43 0
- HCC2
- 5% 32 0 0,6% 49 0
- HCC3
- 2,1% 29 0 0,2% 32 0
- HCC4
- 2,6% 27 0 1,3% 35 1
- Paciente con cáncer de ovario (y de mama)
- 46% 1718 1502 0,2% 2 0
2. Enriquecimiento de objetivo de los exones
Como se ha descrito anteriormente, el aumento de la profundidad de secuenciación para la región de interés puede aumentar tanto la sensibilidad como la especificidad para identificar mutaciones asociadas con el cáncer en plasma y, por lo tanto, aumentando la potencia de discriminación entre los pacientes con cáncer y sujetos sin cáncer. Aunque el aumento de la profundidad de secuenciación del genoma completo es todavía muy costoso, una alternativa es enriquecer ciertas regiones para la secuenciación. En una realización, los exones seleccionados o de hecho todo el exoma pueden ser enriquecidos de forma dirigida para la secuenciación. Este procedimiento puede aumentar significativamente la profundidad de secuenciación de la región diana sin aumentar la cantidad total de lecturas de secuencia.
Las bibliotecas de secuenciación del ADN de plasma de los pacientes con HCC y el paciente con cáncer de ovario (y mama) fueron capturadas utilizando el kit Agilent SureSelect All Exon para el enriquecimiento de diana del exoma. Las bibliotecas de secuenciación enriquecidas con exón se secuenciaron después utilizando el sistema de secuenciación HiSeq 2000. Las lecturas de secuencia se alinearon con el genoma de referencia humano (hgl8). Después de la alineación, las lecturas de secuencia cartografiadas únicamente para los exones se analizaron para determinar las variaciones de nucleótido único. Para la identificación de las variaciones de nucleótido único en
5
10
15
20
25
30
35
40
45
50
55
plasma para el análisis de captura de exorna, se utilizan los valores de corte dinámico que se muestran en la tabla 2.
La FIG. 14A es una tabla 1400 que muestra la detección de variaciones de nucleótido único en ADN de plasma para HCC1. Sin conocimiento previo del genoma del tumor, se dedujo de los datos de secuenciación de diana un total de 57 variaciones de nucleótido único en plasma. En la validación posterior de los datos de secuenciación obtenidos de los tejidos de tumor, 55 resultaron ser mutaciones verdaderas asociadas con el tumor. Como se ha discutido antes, la concentración fraccional de ADN derivado de tumor en plasma pre-operatorio fue 53 %. Después de la resección del tumor, no se detectaron variaciones de nucleótido único en los datos de secuenciación de diana obtenidos del plasma. Estos resultados indican que el análisis cuantitativo del número de variaciones de nucleótido único en plasma se puede utilizar para controlar la progresión de la enfermedad de los pacientes con cáncer.
La FIG. 14B es una tabla 1450 que muestra la detección de variaciones de nucleótido único en ADN de plasma para HCC2. Sin el conocimiento previo del genoma del tumor, se dedujo de los datos de secuenciación de diana en el plasma un total de 18 variaciones de nucleótido único. Todas estas mutaciones se encontraron en los tejidos de tumor. Como se ha descrito anteriormente, la concentración fraccional de ADN derivado de tumor en plasma preoperatorio fue 5 %. Después de la resección del tumor, no se detectaron variaciones de nucleótido único en el plasma. En comparación con HCC1 que tuvo una concentración fraccional mayor de ADN derivado de tumor en plasma, se detectaron pocas variaciones de nucleótido único en el plasma del caso HCC2. Estos resultados sugieren que el número de variaciones de nucleótido único en plasma se puede utilizar como un parámetro para reflejar la concentración fraccional de ADN derivado de tumor en plasma y, por lo tanto, la carga de tumor en el paciente, ya que se ha demostrado que la concentración de ADN derivado de tumor en plasma se correlaciona positivamente con la carga de tumor (Chan KC et al. Clin Chem 2005; 51:2192-5).
La FIG. 15A es una tabla 1500 que muestra la detección de variaciones de nucleótido único en el ADN de plasma para HCC3. Sin conocimiento previo del genoma del tumor, no se observó a partir de los datos de secuenciación de diana ninguna variación de nucleótido único ni en las muestras de plasma de pre-resección ni post-resección. Esto es probable que sea debido a una concentración fraccional relativamente baja (2,1 %) de ADN derivado de tumor en plasma en este paciente. El aumento adicional de la profundidad de secuenciación se predice para mejorar la sensibilidad para la detección de mutaciones asociadas con el cáncer en los casos con baja concentración fraccional de ADN derivado de tumor.
La FIG. 15B es una tabla 1550 que muestra la detección de variaciones de nucleótido único en el ADN de plasma para HCC4. Sin el conocimiento previo del genoma del tumor, se dedujo a partir de los datos de secuenciación de diana del plasma un total de 3 variaciones de nucleótido único. Todas estas mutaciones se encontraron en los tejidos de tumor. En comparación con HCC1 y HCC2 que tenían mayores concentraciones fraccionales de ADN derivado de tumor en plasma, se detectaron pocas variaciones de nucleótido único en el plasma del caso HCC4, el cual tenía un ADN de tumor fraccional en plasma de 2,6 %. Estos resultados sugieren que el número de variaciones de nucleótido único en plasma se puede utilizar como un parámetro para reflejar la concentración fraccional de ADN derivado de tumor en plasma y la carga tumoral en un paciente.
La FIG. 16 es una tabla 1600 que muestra la detección de variaciones de nucleótido único en el ADN de plasma para la paciente con cáncer de ovario (y mama). Sin conocimiento previo del genoma tumoral, se dedujo a partir de los datos de secuenciación de diana del plasma un total de 64 variaciones de nucleótido único. Entre estas, 59 se detectaron en los tejidos de tumor de ovario. La concentración fraccional estimada de ADN derivado de tumor de ovario en el plasma fue 46 %. Se detectó una reducción significativa en el número total de variaciones de nucleótido único en plasma después de la resección del cáncer de ovario.
Además de la utilización del sistema de enriquecimiento de diana SureSelect (Agilent), también se utilizó el sistema de enriquecimiento de diana Nimblegen SeqCap EZ Exome+UTR (Roche) para enriquecer las secuencias de exones para la secuenciación. El sistema Nimblegen SeqCap cubre las regiones de exón del genoma, así como la región no traducida 5' y 3'. Se analizaron las muestras de plasma pretratamiento de los cuatro pacientes con HCC, dos sujetos de control sanos y dos portadores de hepatitis B crónica sin cáncer (Tabla 7). En otras realizaciones se pueden utilizar otros sistemas de enriquecimiento de diana, incluyendo, pero sin limitarse a aquellos que utilizan la hibridación en fase de solución o en fase sólida.
5
10
15
20
25
30
35
40
45
Tabla 7. Resultados de secuenciación del exoma para los cuatro pacientes con HCC (HCC1-4) utilizando el sistema de enriquecimiento de diana Nimblegen SeqCap EZ Exome+UTR de la captura de secuencia. El análisis de secuenciación del plasma pre-tratamiento de HCC3 fue sub-óptimo debido a un mayor porcentaje de lecturas _____________________________________duplicadas de PCR.______________________________________
- Plasma pretratamiento Plasma postratamiento
- Concentración fraccional de ADN derivado de tumor en plasma por análisis de GAAL N.° de variación de secuencia detectada en plasma que cumple los puntos de corte dinámicos N.° de variación de secuencia que se superpone con las mutaciones detectadas en el tejido de tumor correspondiente N.° de variación de secuencia detectada en plasma que cumple los puntos de corte dinámicos N.° de variación de secuencia que se superpone con las mutaciones detectadas en el tejido de tumor correspondiente
- HCC1
- 53% 69 64 1 1
- HCC2
- 5% 51 47 3 0
- HCC3
- 2,1% 0 0 1 0
- HCC4
- 2,6% 8 7 0 0
En los dos portadores de hepatitis B crónica y los dos sujetos de control sanos, se detectaron una o menos variaciones de nucleótido único que cumplían los criterios de punto de corte dinámico (Tabla 8). En tres de los cuatro pacientes con HCC, el número de variaciones de secuencia detectadas en el plasma que cumplía con el requisito de punto de corte dinámico fue al menos 8. En HCC3, no se detectó SNV que cumpliese con el punto de corte dinámico. En esta muestra, hubo una alta proporción de lectura duplicada de PCR en las lecturas secuenciadas, lo que conduce a un menor número de lecturas secuenciadas no duplicadas. Se observó una reducción marcada de SNV detectables en plasma después de la resección quirúrgica del tumor.
Tabla 8. Resultados de secuenciación del exoma de 2 portadores de hepatitis B crónica (HBV1 y HBV2) y 2 sujetos de control sanos (Ctrll y Ctrl2) utilizando el sistema de enriquecimiento de diana Nimblegen SeqCap EZ Exome+UTR ______________________________para la captura de secuencia._______________________________
- N.° de variación de secuencia detectada en plasma que cumple con los puntos de corte dinámicos
- HBV1
- 0
- HBV2
- 1
- Ctrl1
- 1
- Ctrl2
- 1
XII. HETEROGENEIDAD DEL TUMOR
La cuantificación de mutaciones de nucleótido único en una muestra biológica (por ejemplo, plasma/suero) también es útil para el análisis de la heterogeneidad del tumor, tanto la heterogeneidad intra-tumoral como inter-tumoral. La heterogeneidad intra-tumoral se refiere a la existencia de múltiples clones de células tumorales dentro del mismo tumor. La heterogeneidad inter-tumoral se refiere a la existencia de múltiples clones de células tumorales para dos o más tumores del mismo tipo histológico, pero presentes en diferentes sitios (ya sea en los mismos órganos, o en diferentes órganos). En ciertos tipos de tumores, la existencia de heterogeneidad de tumor es un indicador de mal pronóstico (Yoon HH et al. J Clin Oncol 2012; 30: 3932 a 3938; Merlo LMF et al. Cancer Prev Res 2010; 3: 13881397). En ciertos tipos de tumores, cuanto mayor sea el grado de heterogeneidad del tumor, mayor sería la posibilidad de progresión del tumor o el desarrollo de clones resistentes después del tratamiento dirigido.
Aunque se cree que los cánceres surgen de la expansión clonal de una célula tumoral, el crecimiento y la evolución de un cáncer darían lugar a la acumulación de nuevas y diferentes mutaciones en diferentes partes de un cáncer. Por ejemplo, cuando un paciente con cáncer desarrolla metástasis, el tumor situado en el órgano original y el tumor metastásico compartirían un número de mutaciones. Sin embargo, las células de cáncer de los dos sitios también serían portadoras de un conjunto único de mutaciones que están ausentes en el otro sitio del tumor. Se espera que las mutaciones que son compartidas por los dos sitios estén presentes a concentraciones mayores que aquellas mutaciones que sólo se observan en un sitio de tumor.
A. Ejemplo
Se analizó el plasma sanguíneo de una paciente que tenía cáncer de ovario bilateral y cáncer de mama. Ambos tumores de ovario eran del tipo adenocarcinoma seroso. El de la izquierda medía 6 cm y el de la derecha medía 12 cm en la dimensión más larga. También hubo múltiples lesiones metastásicas en el colon y el omentum. El ADN extraído de los leucocitos se secuenció utilizando la plataforma de secuenciación por síntesis de Illumina hasta un promedio de cobertura de genoma haploide de 44 veces. Las localizaciones de nucleótidos que muestran sólo un alelo, es decir homocigotos, fueron analizadas adicionalmente para determinar mutaciones de nucleótido único en
5
10
15
20
25
30
35
40
45
plasma.
El ADN se extrajo de cuatro sitios diferentes de los tumores izquierdo y derecho y se secuenció utilizando la plataforma de secuenciación de Illumina. Dos sitios (sitios A y B) eran del tumor derecho y los otros dos sitios (sitios C y D) eran del tumor izquierdo. Los sitios A y B tenían un tamaño de aproximadamente 4 cm. La distancia entre los sitios C y D también era de aproximadamente 4 cm. Las muestras de plasma se recogieron de la paciente antes y después de la resección quirúrgica de los tumores de ovario. El ADN se extrajo a continuación del plasma de la paciente. La profundidad de secuenciación del tumor de los sitios A, B, C y D, así como las muestras de plasma, se muestran en la tabla 9.
Tabla 9. Profundidad de secuenciación del tumor de los sitios A, B, C y D.
- Muestra
- N.° lecturas de secuenciación sin procesar N.° de lecturas alineadas Veces de cobertura de genoma haploide
- ADN constitucional de capa leucocitaria
- 1.091.250.072 876.269.922 43,81
- Tumor de ovario derecho (sitio A)
- 1.374.495.256 1.067.277.229 53,36
- Tumor de ovario derecho (sitio B)
- 934.518.588 803.007.464 40,15
- Tumor de ovario izquierdo (sitio C)
- 1.313.051.122 1.036.643.946 51,83
- Tumor de ovario izquierdo (sitio D)
- 1.159.091.833 974.823.207 48,74
- Muestra de plasma recogida antes de la cirugía
- 988.697.457 741.982.535 37,10
- Muestra de plasma recogida después de la cirugía
- 957.295.879 564.623.127 28,23
En el ejemplo actual, para definir una mutación única de nucleótido único asociada con el tumor, la localización de los nucleótidos es secuenciada al menos 20 veces en el tejido de tumor y 30 veces en el ADN constitucional. En otras realizaciones se pueden usar otras profundidades de secuenciación, por ejemplo, 35, 40, 45, 50, 60, 70, 80, 90, 100 y > 100 veces. La reducción de los costos de secuenciación permitiría que se realizaran profundidades mayores mucho más fácilmente. La posición de nucleótidos es homocigota en el ADN constitucional mientras que se observa un cambio de nucleótido en el tejido de tumor. El criterio para la ocurrencia del cambio de nucleótido en el tejido de tumor depende de la profundidad de secuenciación total de la posición de nucleótido particular en el tejido de tumor. Para la cobertura de nucleótidos de 20 a 30 veces, la ocurrencia de cambio de nucleótido (valor de corte) es al menos cinco veces. Para la cobertura de 31 a 50 veces, la ocurrencia del cambio de nucleótido es al menos seis veces. Para la cobertura de 51 a 70 veces, la ocurrencia necesaria es al menos siete veces. Estos criterios se derivan de la predicción de la sensibilidad de la detección de las mutaciones verdaderas y el número esperado de loci falsos positivos utilizando la distribución de Poisson.
La FIG. 17 es una tabla 1700 que muestra las sensibilidades predichas de diferentes requisitos de ocurrencia y profundidades de secuenciación. La sensibilidad correspondería con el número de mutaciones verdaderas detectadas a una profundidad de veces particular, utilizando un punto de corte particular. Cuanto mayor es la profundidad de secuenciación, más probable es que se detecte una mutación con un punto de corte dado, ya que se obtendrán más lecturas de secuencia de mutación. Para puntos de corte mayores, es menos probable que se detecte un mutante, ya que los criterios son más estrictos.
La FIG. 18 es una tabla 1800 que muestra los números predichos de loci falsos positivos para diferentes puntos de corte y diferentes profundidades de secuenciación. El número de falsos positivos aumenta al aumentar la profundidad de secuenciación, ya que se obtienen más lecturas de secuencia. Sin embargo, no se predicen falsos positivos para un punto de corte de cinco o más, incluso hasta una profundidad de secuenciación de 70. En otras realizaciones se pueden usar diferentes criterios de ocurrencia para lograr la sensibilidad y especificidad deseadas.
La FIG. 19 muestra un diagrama de árbol que ilustra el número de mutaciones detectadas en los diferentes sitios de tumor. Las mutaciones se determinaron mediante la secuenciación directa de los tumores. El sitio A tiene 71 mutaciones que son específicas de ese tumor, y el sitio B tiene 122 mutaciones específicas del sitio, a pesar de que estaban sólo a 4 cm de distancia. Se observaron 10 mutaciones en ambos sitios A y B. El sitio C tiene 168 mutaciones que son específicas de ese tumor, y el sitio D tiene 248 mutaciones específicas del sitio, a pesar de que estaban sólo a 4 cm de distancia. Se observaron 12 mutaciones en ambos sitios C y D. Existe una heterogeneidad significativa en los perfiles mutacionales para los diferentes sitios de tumor. Por ejemplo, sólo se detectaron 248 mutaciones en el sitio del tumor D pero no se detectaron en los otros tres sitios del tumor. Un total de 2.129
5
10
15
20
25
30
35
40
45
50
55
60
65
mutaciones se observaron en todos los sitios. Por lo tanto, muchas mutaciones eran compartidas entre los diferentes tumores. Por lo tanto, había siete grupos de SNV. No hubo diferencias observables entre estas cuatro regiones en términos de aberraciones del número de copias.
La FIG. 20 es una tabla 2000 que muestra el número de fragmentos que llevan las mutaciones derivadas de tumor en la muestra de plasma pre-tratamiento y post-tratamiento. También se muestran las concentraciones fraccionales inferidas del ADN derivado de tumor que llevan las mutaciones respectivas. La categoría de mutación se refiere a los sitios del tumor donde se detectaron las mutaciones. Por ejemplo, las mutaciones de categoría A se refieren a las mutaciones que están sólo presentes en el sitio A mientras que las mutaciones de categoría ABCD se refieren a las mutaciones presentes en los cuatro sitios de tumor.
De las 2.129 mutaciones que estaban presentes en los cuatro sitios de tumor, 2.105 (98,9 %) fueron detectables en al menos un fragmento de ADN de plasma. Por otro lado, para las 609 mutaciones que estaban presentes en sólo uno de los cuatro sitios de tumor, sólo 77 (12,6 %) fueron detectables en al menos un fragmento de ADN de plasma. Por lo tanto, la cuantificación de mutaciones de nucleótido único en el plasma se puede utilizar para reflejar la abundancia relativa de estas mutaciones en los tejidos de tumor. Esta información sería útil para el estudio de la heterogeneidad del cáncer. En este ejemplo, se consideró una mutación potencial cuando se observaba una vez en los datos de secuenciación.
Las concentraciones fraccionales de ADN de tumor circulante se determinaron con cada grupo de SNV. Las concentraciones fraccionales de ADN de tumor en el plasma antes de la cirugía y después de la cirugía, como se determina por SNV compartidas por las 4 regiones (es decir, grupo ABCD), fueron 46 % y 0,18 %, respectivamente. Estos últimos porcentajes se correlacionan bien con los obtenidos en el análisis de GAAL, 46 % y 0,66 %. Las mutaciones compartidas por las 4 regiones (es decir, grupo ABCD) aportaron la mayor contribución fraccional de ADN derivado de tumor al plasma.
Las concentraciones fraccionales de ADN derivado de tumor en plasma preoperatorio determinadas con SNV de los grupos AB y CD fueron 9,5 % y 1,1 %, respectivamente. Estas concentraciones fueron consistentes con los tamaños relativos de los tumores de ovario derecho e izquierdo. Las concentraciones fraccionales de ADN derivado de tumor determinadas con las SNV de región única (es decir, aquellas en los grupos A, B, C y D) fueron generalmente bajas. Estos datos sugieren que para una medición exacta de la carga tumoral total en un paciente con cáncer, el uso de un enfoque de disparo de pistola del genoma completo podría proporcionar una imagen más representativa, en comparación con el enfoque más tradicional de seleccionar las mutaciones asociadas con el tumor específicas. En el último enfoque, si sólo un subconjunto de las células tumorales posee las mutaciones dirigidas, se podría perder información importante con respecto a la inminente recidiva o progresión de la enfermedad causada por las células tumorales que no poseen las mutaciones seleccionadas, o se podría perder la aparición de un clon resistente al tratamiento.
La FIG. 21 es una gráfica 2100 que muestra las distribuciones de ocurrencia en el plasma de las mutaciones detectadas en un sitio de tumor único y mutaciones detectadas en los cuatro sitios de tumor. La gráfica de barras 2100 muestra los datos para dos tipos de mutación: (1) mutaciones detectadas en un sólo sitio y (2) mutaciones detectadas en los cuatro sitios de tumor. El eje horizontal es el número de veces que se detecta una mutación en el plasma. El eje vertical muestra el porcentaje de mutaciones que corresponde a un valor particular en el eje horizontal. Por ejemplo, aproximadamente 88 % de las mutaciones de tipo (1) mostradas sólo una vez en el plasma. Como se puede ver, las mutaciones que se observaron en un sitio, se detectaron la mayoría de las veces una vez, y no más de cuatro veces. Las mutaciones presentes en un sitio de tumor único se detectaron con mucha menos frecuencia en el plasma en comparación con las mutaciones presentes en los cuatro sitios de tumor.
Una aplicación de esta tecnología sería permitir a los médicos estimar la carga de las células tumorales que llevan las diferentes clases de mutaciones. Una proporción de estas mutaciones podría ser potencialmente tratable con fármacos específicos. Se esperaría que los agentes dirigidos a las mutaciones presentes en una mayor proporción de células tumorales tengan unos efectos terapéuticos más prominentes.
La FIG. 22 es una gráfica 2200 que muestra la distribución predicha de ocurrencia en el plasma de las mutaciones procedentes de un tumor heterogéneo. El tumor contiene dos grupos de mutaciones. Un grupo de mutaciones está presente en todas las células tumorales y el otro grupo de mutaciones sólo está presente en % de las células tumorales, basándose en la aproximación de que dos sitios son representativos de cada tumor de ovario. La concentración fraccional total de ADN derivado de tumor en plasma se supone que es 40 %. Se supone que la muestra de plasma es secuenciada a una profundidad promedio de 50 veces por posición del nucleótido. De acuerdo con esta distribución predicha de ocurrencia en el plasma, las mutaciones que están presentes en todos los tejidos de tumor pueden ser diferenciadas de las mutaciones sólo presentes en % de las células tumorales por su ocurrencia en el plasma. Por ejemplo, la ocurrencia de 6 veces puede ser utilizada como un punto de corte. Para las mutaciones presentes en todas las células tumorales, el 92,3 % de las mutaciones estarían presentes en el plasma al menos 6 veces. Por el contrario, para las mutaciones que están presentes en % de las células tumorales, sólo 12,4 % de las mutaciones estarían presentes en el plasma al menos 6 veces.
5
10
15
20
25
30
35
40
45
50
55
60
65
La FIG. 23 es una tabla 2300 que demuestra la especificidad de las realizaciones para 16 sujetos de control sanos. Sus muestras de ADN de plasma se secuenciaron a una cobertura media de 30 veces. La detección de las mutaciones presentes en el plasma de la paciente con cáncer de ovario anterior se realizó en las muestras de plasma de estos sujetos sanos. Las mutaciones presentes en el tumor de la paciente con cáncer de ovario se detectaron con muy poca frecuencia en los datos de secuenciación del plasma de los sujetos de control sanos y ninguna de la categoría de mutaciones tuvo una concentración fraccional aparente de > 1 %. Estos resultados muestran que este método de detección es altamente específico.
B. Método
La FIG. 24 es un diagrama de flujo de un método 2400 para el análisis de una heterogeneidad de uno o más tumores de un sujeto de acuerdo con las realizaciones de la presente invención. Ciertas etapas del método 2400 se pueden realizar como se describe en la presente memoria,
En el bloque 2410, se obtiene un genoma constitucional del sujeto. En el bloque 2420, una o más etiquetas de secuencia se reciben para cada una de una pluralidad de fragmentos de ADN en una muestra biológica del sujeto, donde la muestra biológica incluye ADN libre de células. En el bloque 2430, las posiciones genómicas se determinan por las etiquetas de secuencia. En el bloque 2440, las etiquetas de secuencia se comparan con el genoma constitucional para determinar un primer número de primeros loci. En cada uno de los primeros loci, un número de las etiquetas de secuencia que tienen una variante de secuencia respecto al genoma constitucional está por encima de un valor de corte, donde el valor de corte es mayor que uno.
En el bloque 2450, una medida de la heterogeneidad de uno o más tumores se calcula basándose en los primeros números respectivos del conjunto de primeras ubicaciones genómicas. En un aspecto, las medidas pueden proporcionar un valor que representa un número de mutaciones que son compartidas por tumores respecto a un número de mutaciones que no son compartidas por los tumores. Aquí, varios tumores pueden existir como un objeto único, con diferentes tumores dentro del objeto, que pueden representar lo que normalmente se llama heterogeneidad intra-tumoral. La medida también puede referirse a si algunas mutaciones están en uno o unos cuantos tumores en comparación con las mutaciones que están en muchos o la mayoría de los tumores. Se puede calcular más de una medida de heterogeneidad.
En el bloque 2460, la medida de la heterogeneidad se puede comparar con un valor umbral para determinar una clasificación de un nivel de heterogeneidad. Una o más medidas se pueden utilizar de varias maneras. Por ejemplo, una o más medidas de heterogeneidad se pueden utilizar para predecir la posibilidad de progresión del tumor. En algunos tumores, cuanta más heterogeneidad mayor es la posibilidad de progresión y mayor es la posibilidad de aparición de un clon resistente después del tratamiento (por ejemplo tratamiento dirigido).
C. Medidas de heterogeneidad del tumor
Un ejemplo de una medida de heterogeneidad es el número de 'bandas de concentración' de los diferentes grupos de mutaciones en el plasma. Por ejemplo, si hay dos clones de tumor predominantes dentro de un paciente, y si estos clones están presentes en diferentes concentraciones, entonces se esperaría ver dos mutaciones diferentes con diferentes concentraciones en el plasma. Estos diferentes valores se pueden calcular mediante la determinación de la concentración fraccional para diferentes conjuntos de mutaciones, donde cada conjunto corresponde a uno de los tumores.
Cada una de estas concentraciones se puede denominar una 'banda de concentración' o 'clase de concentración'. Si un paciente tiene más clones, entonces se verán más bandas/clases de concentración. Por lo tanto, cuantas más bandas, más heterogénea. El número de bandas de concentración se puede ver trazando las concentraciones fraccionales para diversas mutaciones. Se puede crear un histograma para las distintas concentraciones, donde diferentes picos corresponden a diferentes tumores (o diferentes clones de un tumor). Un pico grande corresponderá probablemente a mutaciones que son compartidas por todos o algunos tumores (o clones de un tumor). Estos picos pueden ser analizados para determinar qué picos más pequeños se combinan para determinar un pico más grande. Se puede usar un procedimiento de ajuste, por ejemplo, similar al procedimiento apropiado para las FIGS. 10B y 11.
En una aplicación, el histograma es una gráfica donde el eje Y es la cantidad (por ejemplo, número o proporción) de loci y el eje x es la concentración fraccional. Las mutaciones que son compartidas por todos o algunos tumores darían como resultado una concentración fraccional mayor. El tamaño de pico representaría la cantidad de loci que dan lugar a una concentración fraccional particular. El tamaño relativo de los picos a concentración baja y alta reflejaría el grado de heterogeneidad de los tumores (o clones de un tumor). Un pico mayor a la concentración alta refleja que la mayoría de las mutaciones son compartidas por la mayoría o todos los tumores (o clones de un tumor) e indica un menor grado de heterogeneidad del tumor. Si el pico a la concentración baja es mayor, entonces la mayoría de las mutaciones son compartidas por unos cuantos tumores (o unos cuantos clones de un tumor). Esto indicaría un mayor grado de heterogeneidad del tumor.
5
10
15
20
25
30
35
40
45
50
55
60
65
Cuantos más picos existan, más mutaciones específicas del sitio hay. Cada pico puede corresponder a un conjunto diferente de mutaciones, donde el conjunto de mutaciones son de un subconjunto de los tumores (por ejemplo, sólo uno o dos tumores - como se ilustra anteriormente). Para el ejemplo de la FIG. 19, puede haber un total de 7 picos, teniendo los 4 picos de un sitio único probablemente la concentración más pequeña (dependiendo del tamaño relativo de los tumores), dos picos para los sitios AB y sitios CD, y un pico para las mutaciones compartidas por todos los sitios.
La ubicación de los picos también puede proporcionar un tamaño relativo de los tumores. Una mayor concentración se correlacionaría con un tumor más grande, ya que un tumor más grande liberaría más ADN de tumor en la muestra, por ejemplo, en plasma. Por lo tanto, se podría estimar la carga de células tumorales que llevan las diferentes clases de mutaciones.
Otro ejemplo de una medida de heterogeneidad es la proporción de sitios de mutación que tienen relativamente pocas lecturas de variantes (por ejemplo, 4, 5, o 6) en comparación con la proporción de lecturas de mutación que tienen lecturas de variante relativamente altas (por ejemplo, 9-13). Haciendo referencia de nuevo a la FIG. 22, se puede ver que las mutaciones de sitio específico tienen menos lecturas de variante (lo cual también tiene como resultado una concentración fraccional menor). Las mutaciones compartidas tienen más lecturas de variante (lo cual también tiene como resultado una concentración fraccional más grande). Una relación de una primera proporción a 6 (recuento menor) dividida por una segunda proporción a 10 (recuento mayor) lleva una medida de heterogeneidad. Si la relación es pequeña, entonces hay pocas mutaciones que son específicas del sitio, y por lo tanto el nivel de heterogeneidad es bajo. Si la relación es grande (o al menos más grande que los valores calibrados de las muestras conocidas), entonces el nivel de heterogeneidad es mayor.
D. Determinación de umbrales
Los valores de umbral se pueden determinar de sujetos cuyos tumores son sometidos a biopsia (por ejemplo, como se describe anteriormente) para determinar directamente un nivel de heterogeneidad. El nivel se puede definir de varias maneras, tales como relaciones entre mutaciones específicas del sitio y mutaciones compartidas. Las muestras biológicas (por ejemplo, muestras de plasma) se pueden analizar a continuación para determinar las medidas de heterogeneidad, donde una medida de heterogeneidad de las muestras biológicas puede estar asociada con el nivel de heterogeneidad determinado por el análisis de las células de los tumores directamente.
Tal procedimiento puede proporcionar una calibración de umbrales con relación a los niveles de heterogeneidad. Si la medida de heterogeneidad de la prueba cae entre dos umbrales, entonces el nivel de heterogeneidad se puede estimar que está entre los niveles correspondientes a los umbrales.
En una realización, se puede calcular una curva de calibración entre los niveles de heterogeneidad determinados a partir de las biopsias y la medida de la heterogeneidad correspondiente determinada de la muestra de plasma (u otra muestra). En dicho ejemplo, los niveles de heterogeneidad son numéricos, donde estos niveles numéricos pueden corresponder a diferentes clasificaciones. Diferentes rangos de niveles numéricos pueden corresponder a diferentes diagnósticos, por ejemplo, diferentes estadios del cáncer.
E. Método que utiliza la concentración fraccional de la representación genómica
La heterogeneidad del tumor también puede ser analizada utilizando la concentración fraccional, por ejemplo, como se determina utilizando realizaciones del método 1200. Las regiones genómicas que exhiben pérdida de una copia pueden provenir de diferentes tumores. Por lo tanto, la concentración fraccional determinada para diversas regiones del genoma puede ser diferente dependiendo de si existe la amplificación (o deleción para la pérdida de 1 copia) sólo en un tumor o múltiples tumores. Por lo tanto, las mismas medidas de heterogeneidad se pueden utilizar para las concentraciones fraccionales determinadas mediante las realizaciones del método 1200.
Por ejemplo, una región genómica puede ser identificada como correspondiente a una pérdida de 1 copia, y una concentración fraccional puede ser determinada sólo a partir de una densidad respectiva en cada región genómica (la densidad respectiva podría ser utilizada como una concentración fraccional). Se puede crear un histograma de las diversas densidades respectivas contando el número de regiones que tienen diferentes densidades. Si sólo un tumor o un clon tumoral o un depósito tumoral tiene una ganancia en una región particular, entonces la densidad de esa región sería menor que la densidad en una región que tenía una ganancia en múltiples tumores o múltiples clones de tumor o múltiples depósitos de tumor (es decir, la concentración fraccional de aDn de tumor en la región compartida sería mayor que la región específica del sitio). Las medidas de heterogeneidad descritas anteriormente por lo tanto se pueden aplicar a picos identificados usando la ganancia o pérdida de números de copias en diversas regiones, al igual que la concentración fraccional de diferentes sitios mostraba una distribución de concentraciones fraccionales.
En una aplicación, si las densidades respectivas se utilizan para el histograma, se obtendrían ganancias y pérdidas separadas. Las regiones que muestran una ganancia podrían ser analizadas por separado mediante la creación de un histograma sólo para las ganancias, y crear un histograma aparte sólo para las pérdidas. Si se utiliza la
5
10
15
20
25
30
35
40
45
50
55
60
65
concentración fracciona!, entonces los picos de pérdidas y ganancias pueden ser analizados juntos. Por ejemplo, las concentraciones fraccionales utilizan una diferencia (por ejemplo, como un valor absoluto) respecto a la densidad de referencia, y por lo tanto las concentraciones fraccionales para las ganancias y pérdidas pueden contribuir al mismo pico.
XIII. SISTEMA INFORMÁTICO
Cualquiera de los sistemas informáticos mencionados en la presente memoria puede utilizar cualquier número adecuado de subsistemas. Los ejemplos de tales subsistemas se muestran en la FIG. 25 en un aparato informático 2500. En algunas realizaciones, un sistema informático incluye un aparato informático único, donde los subsistemas pueden ser los componentes del aparato informático. En otras realizaciones, un sistema informático puede incluir múltiples aparatos informáticos, siendo cada uno un subsistema, con componentes internos.
Los subsistemas mostrados en la FIG. 25 están interconectados a través de un bus de sistema 2575. Se muestran los subsistemas adicionales como una impresora 2574, teclado 2578, disco fijo 2579, monitor 2576, que se acoplan al adaptador de pantalla 2582, y otros. Los dispositivos periféricos y de entrada/salida (I/O), que se acoplan al controlador I/O 2571, se pueden conectar al sistema informático a través de cualquier número de medios conocidos en la técnica, tales como puerto en serie 2577. Por ejemplo, el puerto en serie 2577 o interfaz externa 2581 (por ejemplo, Ethernet, Wi-Fi, etc.) se puede utilizar para conectar el sistema informático 2500 a una red de área amplia tal como Internet, un dispositivo de entrada del ratón, o un escáner. La interconexión a través del bus de sistema 2575 permite que el procesador central 2573 se comunique con cada subsistema y controle la ejecución de instrucciones desde la memoria del sistema 2572 o el disco fijo 2579, así como el intercambio de información entre los subsistemas. La memoria del sistema 2572 y/o el disco fijo 2579 puede incorporar un medio legible por ordenador. Cualquiera de los valores mencionados en la presente memoria puede ser obtenido a través de un componente a otro componente y puede ser la salida para el usuario.
Un sistema informático puede incluir una pluralidad de los mismos componentes o subsistemas, por ejemplo, conectados entre sí por la interfaz externa 2581 o por una interfaz interna. En algunas realizaciones, los sistemas informáticos, subsistema, o aparatos pueden comunicarse a través de una red. En tales casos, un ordenador puede ser considerado un cliente y otro ordenador un servidor, donde cada uno puede ser parte de un mismo sistema informático. Un cliente y un servidor pueden incluir cada uno múltiples sistemas, subsistemas o componentes.
Debe entenderse que cualquiera de las realizaciones de la presente invención se puede implementar en la forma de control lógico utilizando el hardware (por ejemplo, una disposición de compuerta programable de campo o circuito integrado especifico de la aplicación) y/o el uso de software con un procesador generalmente programable de manera modular o integrada. Como se usa en la presente memoria, un procesador incluye un procesador de múltiples núcleos en un mismo chip integrado, o múltiples unidades de procesamiento en una sola placa de circuito o en red. Basándose en la divulgación y enseñanzas proporcionadas en la presente memoria, una persona con experiencia ordinaria en la técnica conocerá y apreciará otras formas y/o métodos para poner en práctica las realizaciones de la presente invención usando hardware y una combinación de hardware y software.
Cualquiera de los componentes o funciones del software descritos en esta solicitud pueden implementarse como un código de software para ser ejecutado por un procesador utilizando cualquier lenguaje de programación adecuado, tal como, por ejemplo, Java, C++ o Perl usando, por ejemplo, técnicas convencionales u orientadas a objetos. El código de software puede ser almacenado como una serie de instrucciones o comandos en un medio legible por ordenador para su almacenamiento y/o transmisión, los medios adecuados incluyen memoria de acceso aleatorio (RAM), una memoria de sólo lectura (ROM), un medio magnético tal como un disco duro o disco flexible, o un medio óptico tal como un disco compacto (CD) o DVD (disco versátil digital), memoria flash, y similares. El medio legible por ordenador puede ser cualquier combinación de tales dispositivos de almacenamiento o transmisión.
Tales programas también pueden ser codificados y transmitidos utilizando señales portadoras adaptadas para la transmisión a través de redes cableadas, ópticas, y/o inalámbricas conformes a una variedad de protocolos, incluyendo la Internet. Como tal, un medio legible por ordenador de acuerdo con una realización de la presente invención puede ser creado utilizando una señal de datos codificada con tales programas. Los medios legibles por ordenador codificados con el código del programa se pueden envasar con un dispositivo compatible o disponer por separado de otros dispositivos (por ejemplo, a través de descarga de Internet). Cualquier medio legible por ordenador puede residir en o dentro de un producto de programa informático simple (por ejemplo, un disco duro, un CD, o un sistema informático completo), y puede estar presente en o dentro de diferentes productos de programa informático dentro de un sistema o red. Un sistema informático puede incluir un monitor, impresora, u otra pantalla adecuada para proporcionar cualquiera de los resultados mencionados en la presente memoria a un usuario.
Cualquiera de los métodos descritos en la presente memoria puede llevarse a cabo total o parcialmente con un sistema informático que incluye uno o más procesadores, que pueden ser configurados para realizar las etapas. Por lo tanto, las realizaciones pueden estar dirigidas a los sistemas informáticos configurados para realizar las etapas de cualquiera de los métodos descritos en la presente memoria, potencialmente con diferentes componentes que realizan una etapa respectiva o un grupo de etapas respectivas. Aunque se presentan como etapas numeradas, las
etapas de los métodos en la presente memoria se pueden realizar al mismo tiempo o en un orden diferente. Además, las porciones de estas etapas se pueden utilizar con porciones de otras etapas de otros métodos. Además, todas o partes de una etapa pueden ser opcionales. Además, cualquiera de las etapas de cualquiera de los métodos se pueden realizar con módulos, circuitos, u otros medios para realizar estas etapas.
5
Los detalles específicos de realizaciones particulares se pueden combinar en cualquier manera adecuada sin apartarse del espíritu y alcance de las realizaciones de la invención. Sin embargo, otras realizaciones de la invención pueden ser dirigidas a realizaciones específicas con relación a cada aspecto individual, o combinaciones específicas de estos aspectos individuales.
10
La descripción anterior de realizaciones ilustrativa de la invención se ha presentado con fines ilustrativos y de descripción. No se pretende que sea exhaustiva o limitar la invención a la forma precisa descrita, y muchas modificaciones y variaciones son posibles a la luz de las enseñanzas anteriores. Las realizaciones se eligieron y describieron con el fin de explicar mejor los principios de la invención y sus aplicaciones prácticas para permitir de 15 esta manera que otros expertos en la técnica utilicen mejor la invención en varias realizaciones y con varias modificaciones que sean adecuadas al uso particular contemplado.
Una repetición de “un”, “una” o “el”, “la” se pretende que signifique “uno o más” a menos que se indique específicamente lo contrario.
20
Claims (16)
- 51015202530354045505560REIVINDICACIONES1. Un método para detectar cáncer o cambios premalignos en un sujeto, comprendiendo el método:obtener una secuencia consenso de un genoma del sujeto, en el que la secuencia consenso se deriva usando etiquetas de secuencia de una muestra del sujeto que contiene más del 50 % de ADN de células sanas; recibir una o más etiquetas de secuencia para cada una de una pluralidad de fragmentos de ADN en una muestra biológica del sujeto, incluyendo la muestra biológica ADN libre de células; determinar posiciones genómicas para las etiquetas de secuencia;comparar las etiquetas de secuencia con la secuencia consenso para determinar un primer número de primeros loci, en el que:en cada uno de los primeros loci, varias de las etiquetas de secuencia que tienen una variante de secuencia respecto a la secuencia consenso están por encima de un valor de corte, siendo el valor de corte mayor que uno;determinar un parámetro basándose en un recuento de etiquetas de secuencia que tienen una variante de secuencia en los primeros loci; ycomparar el parámetro con un valor umbral para determinar una clasificación de un nivel de cáncer en el sujeto, correspondiendo el valor umbral a un rango del parámetro para sujetos que tienen la clasificación del nivel de cáncer.
- 2. El método de la reivindicación 1, en el que el valor de corte para un locus depende de un número total de etiquetas de secuencia que tienen una posición genómica en el locus.
- 3. El método de la reivindicación 1, en el que se usan diferentes valores de corte para al menos dos de los primeros loci, comprendiendo además el método:determinar dinámicamente un primer valor de corte para uno de los primeros loci, residiendo uno de los primeros loci dentro de una primera región.
- 4. El método de la reivindicación 3, en el que el primer valor de corte se determina basándose en una profundidad de secuenciación de uno de los primeros loci, o en el que el primer valor de corte se determina basándose en una tasa de falsos positivos que depende de una tasa de error de secuenciación, una profundidad de secuenciación de la primera región, y varias posiciones de nucleótidos en la primera región.
- 5. El método de la reivindicación 3, en el que el primer valor de corte se determina basándose en una tasa de falsos positivos que depende de una tasa de error de secuenciación, una profundidad de secuenciación de la primera región y varias posiciones de nucleótidos en la primera región, y en el que el primer valor de corte se determina adicionalmente basándose en un número de verdaderos positivos en la primera región, comprendiendo además el método el cálculo del número de verdaderos positivos para el primer valor de corte basándose en la profundidad de secuenciación D de la primera región y una concentración fraccional f de ADN derivado de tumor en la muestra biológica.
- 6. El método de la reivindicación 5, en el que calcular el número de verdaderos positivos usa la probabilidad de distribución de Poisson de acuerdo con la fórmula:
imagen1 donde Pb es una probabilidad de detectar verdaderos positivos, y r es el primer valor de corte, y Mp = D x f/2. - 7. El método de la reivindicación 3, en el que el primer valor de corte se determina usando uno cualquiera de los siguientes criterios:
si la profundidad de secuenciación es menor que 50, entonces el primer valor de corte es 5,si la profundidad de secuenciación es 50 - 110, entonces el primer valor de corte es 6,si la profundidad de secuenciación es 111-200, entonces el primer valor de corte es 7,
si la profundidad de secuenciación es 201 - 310, entonces el primer valor de corte es 8,
si la profundidad de secuenciación es 311 - 450, entonces el primer valor de corte es 9,
si la profundidad de secuenciación es 451 - 620, entonces el primer valor de corte es 10, y
si la profundidad de secuenciación es 621 - 800, entonces el primer valor de corte es 11. - 8. El método de la reivindicación 1, en el que el parámetro es una suma ponderada del primer número de primeros loci, en el que una contribución de cada uno de los primeros loci se pondera basándose en un valor de importancia asignado a los primeros loci respectivos.5101520253035404550556065
- 9. El método de la reivindicación 1, en el que el parámetro incluye una suma de las etiquetas de secuencia que indican una variante de secuencia en el primer número de primeros loci.
- 10. El método de la reivindicación 13, en el que la suma es una suma ponderada, y en el que uno de los primeros loci tiene un primer peso que es diferente de un segundo peso de un segundo de los primeros loci, en el que el primer peso es mayor que el segundo peso y en el que el uno de los primeros loci está asociado con cáncer, y el segundo de los primeros loci no está asociado con cáncer.
- 11. El método de la reivindicación 1, en el que la determinación de una posición genómica para una etiqueta de secuencia incluye:alinear al menos una porción de las etiquetas de secuencia con un genoma de referencia, en el que la alineación de una etiqueta de secuencia permite uno o más mal apareamientos entre la etiqueta de secuencia y la secuencia consenso,en el que la comparación de las etiquetas de secuencia con la secuencia consenso incluye:comparar la secuencia consenso con el genoma de referencia para determinar un segundo número de segundos loci que tienen una variante respecto al genoma de referencia; basándose en la alineación, determinar un tercer número de terceros loci, en el que:en cada uno de los terceros loci, varias de las etiquetas de secuencia que tienen una variante de secuencia con respecto al genoma de referencia están por encima de un valor de corte; y la diferencia entre el tercer número y el segundo número permite obtener el primer número de primeros loci,en el que la diferencia entre el tercer número y el segundo número identifica los primeros loci, y en el que la determinación del parámetro incluye: para cada locus del primer número de primeros loci:contar las etiquetas de secuencia que se alinean con el locus y tienen una variante de secuencia en el locus; ydeterminar el parámetro basado en los recuentos respectivos.
- 12. El método de la reivindicación 1, en el que la determinación de una posición genómica para una etiqueta de secuencia incluye:alinear al menos una porción de las etiquetas de secuencia con la secuencia consenso, en el que la alineación de una etiqueta de secuencia permite uno o más mal apareamientos entre la etiqueta de secuencia y la secuencia consenso,en el que la comparación de las etiquetas de secuencia con la secuencia consenso incluye:basándose en la alineación, identificar etiquetas de secuencia que tienen una variante genómica en una ubicación genómica respecto al genoma constitucional del sujeto; presentando para cada ubicación genómica una variante de secuencia;contar un primer número respectivo de etiquetas de secuencia que se alinean con la ubicación genómica y tienen una variante de secuencia en la ubicación genómica; y determinar un parámetro basado en los primeros números respectivos.
- 13. El método de la reivindicación 12, en el que la determinación del parámetro basándose en los primeros números respectivos incluye:sumar los primeros números respectivos para obtener una primera suma; y usar la primera suma para determinar el parámetro, yen el que usar la primera suma para determinar el parámetro incluye:restar el número de localizaciones genómicas que muestran una variante de secuencia de la primera suma, o normalizar la primera suma basándose en una cantidad de etiquetas de secuencia alineadas.
- 14. El método de la reivindicación 1, que comprende además:obtener una muestra constitucional del sujeto que contiene más del 90 % de ADN constitucional;realizar la secuenciación aleatoria de los fragmentos de ADN en la muestra constitucional para obtener una omás segundas etiquetas de secuencia para cada una de una pluralidad de fragmentos de ADN en la muestraconstitucional;alinear al menos una porción de las segundas etiquetas de secuencia con un genoma de referencia, en el que laalineación de una segunda etiqueta de secuencia permite un mal apareamiento entre la segunda etiqueta de secuencia y el genoma de referencia en M o menos ubicaciones genómicas, donde M es un número entero igual a o mayor que uno; yconstruir la secuencia consenso basándose en las segundas etiquetas de secuencia y la alineación, en el que la 5 muestra constitucional es la muestra biológica, y en el que construir la secuencia consenso incluye:determinar un locus homocigoto o un locus heterocigoto que tiene dos alelos.
- 15. El método de la reivindicación 1, en el que la una o más etiquetas de secuencia se generan a partir de una secuenciación aleatoria de fragmentos de ADN en la muestra biológica.10
- 16. Un programa informático que comprende una pluralidad de instrucciones capaces de ejecución por un sistema informático, que cuando se ejecuta de esta manera controla el sistema informático para realizar el método de una cualquiera de las reivindicaciones precedentes.
Applications Claiming Priority (11)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201261662878P | 2012-06-21 | 2012-06-21 | |
| US201261662878P | 2012-06-21 | ||
| US201261682725P | 2012-08-13 | 2012-08-13 | |
| US201261682725P | 2012-08-13 | ||
| US201261695795P | 2012-08-31 | 2012-08-31 | |
| US201261695795P | 2012-08-31 | ||
| US201261711172P | 2012-10-08 | 2012-10-08 | |
| US201261711172P | 2012-10-08 | ||
| US201313801748 | 2013-03-13 | ||
| US13/801,748 US11261494B2 (en) | 2012-06-21 | 2013-03-13 | Method of measuring a fractional concentration of tumor DNA |
| PCT/IB2013/054898 WO2013190441A2 (en) | 2012-06-21 | 2013-06-14 | Mutational analysis of plasma dna for cancer detection |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2687847T3 true ES2687847T3 (es) | 2018-10-29 |
Family
ID=52274459
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES13807105.5T Active ES2687847T3 (es) | 2012-06-21 | 2013-06-14 | Análisis mutacional de ADN de plasma para la detección de cáncer |
| ES18185290T Active ES2894479T3 (es) | 2012-06-21 | 2013-06-14 | Análisis mutacional de ADN de plasma para la detección de cáncer |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES18185290T Active ES2894479T3 (es) | 2012-06-21 | 2013-06-14 | Análisis mutacional de ADN de plasma para la detección de cáncer |
Country Status (18)
| Country | Link |
|---|---|
| US (3) | US11261494B2 (es) |
| EP (4) | EP3919627B1 (es) |
| JP (4) | JP6371280B2 (es) |
| KR (7) | KR102237923B1 (es) |
| CN (3) | CN113151474A (es) |
| AU (4) | AU2013278994C1 (es) |
| CA (2) | CA2876327C (es) |
| DK (2) | DK3456843T3 (es) |
| EA (2) | EA202092900A3 (es) |
| ES (2) | ES2687847T3 (es) |
| HU (1) | HUE056915T2 (es) |
| IL (5) | IL298810B2 (es) |
| MX (3) | MX360264B (es) |
| PT (1) | PT3456843T (es) |
| SG (2) | SG11201408113QA (es) |
| TW (4) | TWI803505B (es) |
| WO (1) | WO2013190441A2 (es) |
| ZA (1) | ZA201409281B (es) |
Families Citing this family (117)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| MX2010000846A (es) | 2007-07-23 | 2010-04-21 | Univ Hong Kong Chinese | Diagnostico de aneuploide cromosomico fetal mediante el uso de secuenciacion genomica. |
| US8583380B2 (en) | 2008-09-05 | 2013-11-12 | Aueon, Inc. | Methods for stratifying and annotating cancer drug treatment options |
| US11939634B2 (en) | 2010-05-18 | 2024-03-26 | Natera, Inc. | Methods for simultaneous amplification of target loci |
| US11322224B2 (en) | 2010-05-18 | 2022-05-03 | Natera, Inc. | Methods for non-invasive prenatal ploidy calling |
| US10316362B2 (en) | 2010-05-18 | 2019-06-11 | Natera, Inc. | Methods for simultaneous amplification of target loci |
| US11408031B2 (en) | 2010-05-18 | 2022-08-09 | Natera, Inc. | Methods for non-invasive prenatal paternity testing |
| US20190010543A1 (en) | 2010-05-18 | 2019-01-10 | Natera, Inc. | Methods for simultaneous amplification of target loci |
| US12152275B2 (en) | 2010-05-18 | 2024-11-26 | Natera, Inc. | Methods for non-invasive prenatal ploidy calling |
| US9677118B2 (en) | 2014-04-21 | 2017-06-13 | Natera, Inc. | Methods for simultaneous amplification of target loci |
| US12221653B2 (en) | 2010-05-18 | 2025-02-11 | Natera, Inc. | Methods for simultaneous amplification of target loci |
| EP3572528A1 (en) | 2010-09-24 | 2019-11-27 | The Board of Trustees of the Leland Stanford Junior University | Direct capture, amplification and sequencing of target dna using immobilized primers |
| JP6054303B2 (ja) | 2010-12-30 | 2016-12-27 | ファウンデーション メディシン インコーポレイテッドFoundation Medicine, Inc. | 腫瘍試料の多重遺伝子分析の最適化 |
| EP2673729B1 (en) | 2011-02-09 | 2018-10-17 | Natera, Inc. | Methods for non-invasive prenatal ploidy calling |
| US9892230B2 (en) | 2012-03-08 | 2018-02-13 | The Chinese University Of Hong Kong | Size-based analysis of fetal or tumor DNA fraction in plasma |
| US11261494B2 (en) | 2012-06-21 | 2022-03-01 | The Chinese University Of Hong Kong | Method of measuring a fractional concentration of tumor DNA |
| US20150011396A1 (en) | 2012-07-09 | 2015-01-08 | Benjamin G. Schroeder | Methods for creating directional bisulfite-converted nucleic acid libraries for next generation sequencing |
| US20140100126A1 (en) | 2012-08-17 | 2014-04-10 | Natera, Inc. | Method for Non-Invasive Prenatal Testing Using Parental Mosaicism Data |
| DE202013012824U1 (de) | 2012-09-04 | 2020-03-10 | Guardant Health, Inc. | Systeme zum Erfassen von seltenen Mutationen und einer Kopienzahlvariation |
| US20160040229A1 (en) | 2013-08-16 | 2016-02-11 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
| US10876152B2 (en) | 2012-09-04 | 2020-12-29 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
| US11913065B2 (en) | 2012-09-04 | 2024-02-27 | Guardent Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
| US20130309666A1 (en) | 2013-01-25 | 2013-11-21 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
| EP2971130A4 (en) | 2013-03-15 | 2016-10-05 | Nugen Technologies Inc | SEQUENTIAL SEQUENCING |
| EP4253558B1 (en) * | 2013-03-15 | 2025-07-02 | The Board of Trustees of the Leland Stanford Junior University | Identification and use of circulating nucleic acid tumor markers |
| CN105849264B (zh) | 2013-11-13 | 2019-09-27 | 纽亘技术公司 | 用于鉴别重复测序读数的组合物和方法 |
| EP3771745A1 (en) | 2013-12-28 | 2021-02-03 | Guardant Health, Inc. | Methods and systems for detecting genetic variants |
| CN113774132A (zh) * | 2014-04-21 | 2021-12-10 | 纳特拉公司 | 检测染色体片段中的突变和倍性 |
| US20240352513A1 (en) * | 2014-04-21 | 2024-10-24 | Natera, Inc. | Detecting mutations and ploidy in chromosomal segments |
| US20180173845A1 (en) | 2014-06-05 | 2018-06-21 | Natera, Inc. | Systems and Methods for Detection of Aneuploidy |
| EP3169813B1 (en) | 2014-07-18 | 2019-06-12 | The Chinese University Of Hong Kong | Methylation pattern analysis of tissues in dna mixture |
| JP2017522908A (ja) * | 2014-07-25 | 2017-08-17 | ユニヴァーシティ オブ ワシントン | セルフリーdnaを生じる組織及び/又は細胞タイプを決定する方法、並びにそれを用いて疾患又は異常を識別する方法 |
| US10102337B2 (en) | 2014-08-06 | 2018-10-16 | Nugen Technologies, Inc. | Digital measurements from targeted sequencing |
| SMT202000005T1 (it) * | 2014-08-07 | 2020-03-13 | Pharmassist Ltd | Metodo di determinazione dello stato della mutazione di pik3ca in un campione |
| US12391985B2 (en) | 2014-08-07 | 2025-08-19 | Pharmassist Ltd | Method of determining PIK3CA mutational status in a sample |
| US11085084B2 (en) | 2014-09-12 | 2021-08-10 | The Board Of Trustees Of The Leland Stanford Junior University | Identification and use of circulating nucleic acids |
| EP4112738B1 (en) * | 2014-12-05 | 2024-07-24 | Foundation Medicine, Inc. | Multigene analysis of tumor samples |
| EP3502273B1 (en) | 2014-12-12 | 2020-07-08 | Verinata Health, Inc. | Cell-free dna fragment |
| WO2016109452A1 (en) * | 2014-12-31 | 2016-07-07 | Guardant Health , Inc. | Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results |
| US10364467B2 (en) | 2015-01-13 | 2019-07-30 | The Chinese University Of Hong Kong | Using size and number aberrations in plasma DNA for detecting cancer |
| ES2908347T3 (es) * | 2015-02-10 | 2022-04-28 | Univ Hong Kong Chinese | Detección de mutaciones para cribado de cáncer y análisis fetal |
| CA2983833C (en) * | 2015-05-01 | 2024-05-14 | Guardant Health, Inc. | Diagnostic methods |
| DK3294906T3 (en) | 2015-05-11 | 2024-08-05 | Natera Inc | Methods for determining ploidy |
| CN104894268B (zh) * | 2015-06-05 | 2018-02-09 | 上海美吉生物医药科技有限公司 | 定量样本中源自细胞凋亡的dna浓度的方法及其应用 |
| WO2017002943A1 (ja) * | 2015-07-01 | 2017-01-05 | 学校法人慶應義塾 | 癌組織の不均一性マーカー及びその使用 |
| JP2017016665A (ja) * | 2015-07-03 | 2017-01-19 | 国立大学法人東北大学 | 配列のデータからの変異情報の選択方法、システム、及び、コンピュータプログラム |
| CA2993588A1 (en) | 2015-07-20 | 2017-01-26 | The Chinese University Of Hong Kong | Methylation pattern analysis of haplotypes in tissues in dna mixture |
| AU2016295616B2 (en) * | 2015-07-23 | 2022-06-02 | The Chinese University Of Hong Kong | Analysis of fragmentation patterns of cell-free DNA |
| CA2995422A1 (en) * | 2015-08-12 | 2017-02-16 | The Chinese University Of Hong Kong | Single-molecule sequencing of plasma dna |
| CN108475296A (zh) | 2015-08-25 | 2018-08-31 | 南托米克斯有限责任公司 | 用于对转移进行遗传分析的系统和方法 |
| CN108603228B (zh) | 2015-12-17 | 2023-09-01 | 夸登特健康公司 | 通过分析无细胞dna确定肿瘤基因拷贝数的方法 |
| CN116640847A (zh) * | 2016-02-02 | 2023-08-25 | 夸登特健康公司 | 癌症进化检测和诊断 |
| US10095831B2 (en) | 2016-02-03 | 2018-10-09 | Verinata Health, Inc. | Using cell-free DNA fragment size to determine copy number variations |
| KR101810528B1 (ko) * | 2016-03-29 | 2017-12-21 | 한국과학기술원 | 단백질을 변화시키지 않는 암 돌연변이의 기능적 recurrence를 구하는 방법 및 장치 |
| US20190085406A1 (en) * | 2016-04-14 | 2019-03-21 | Guardant Health, Inc. | Methods for early detection of cancer |
| ES2913468T3 (es) | 2016-04-15 | 2022-06-02 | Natera Inc | Métodos para la detección del cáncer de pulmón. |
| WO2017191076A1 (en) | 2016-05-01 | 2017-11-09 | Genome Research Limited | Method of characterising a dna sample |
| GB2555765A (en) | 2016-05-01 | 2018-05-16 | Genome Res Ltd | Method of detecting a mutational signature in a sample |
| CN105969656B (zh) * | 2016-05-13 | 2019-09-10 | 万康源(天津)基因科技有限公司 | 一种单细胞外显子测序肿瘤体细胞突变检测及分析平台 |
| CN105969856B (zh) * | 2016-05-13 | 2019-11-12 | 万康源(天津)基因科技有限公司 | 一种单细胞外显子测序肿瘤体细胞突变检测方法 |
| CN106355045B (zh) * | 2016-08-30 | 2019-03-15 | 天津诺禾致源生物信息科技有限公司 | 一种基于扩增子二代测序小片段插入缺失检测的方法及装置 |
| WO2018064629A1 (en) * | 2016-09-30 | 2018-04-05 | Guardant Health, Inc. | Methods for multi-resolution analysis of cell-free nucleic acids |
| CN110100013A (zh) | 2016-10-24 | 2019-08-06 | 香港中文大学 | 用于肿瘤检测的方法和系统 |
| GB201618485D0 (en) * | 2016-11-02 | 2016-12-14 | Ucl Business Plc | Method of detecting tumour recurrence |
| CN114774520B (zh) * | 2016-11-17 | 2025-09-05 | 阅尔基因技术(苏州)有限公司 | 检测肿瘤发展的系统和方法 |
| KR20230062684A (ko) | 2016-11-30 | 2023-05-09 | 더 차이니즈 유니버시티 오브 홍콩 | 소변 및 기타 샘플에서의 무세포 dna의 분석 |
| CN110383385B (zh) * | 2016-12-08 | 2023-07-25 | 生命科技股份有限公司 | 从肿瘤样品中检测突变负荷的方法 |
| CN106845153A (zh) * | 2016-12-29 | 2017-06-13 | 安诺优达基因科技(北京)有限公司 | 一种用于利用循环肿瘤dna样本检测体细胞突变的装置 |
| CN106874710A (zh) * | 2016-12-29 | 2017-06-20 | 安诺优达基因科技(北京)有限公司 | 一种用于利用肿瘤ffpe样本检测体细胞突变的装置 |
| US10633713B2 (en) | 2017-01-25 | 2020-04-28 | The Chinese University Of Hong Kong | Diagnostic applications using nucleic acid fragments |
| US11342047B2 (en) * | 2017-04-21 | 2022-05-24 | Illumina, Inc. | Using cell-free DNA fragment size to detect tumor-associated variant |
| ES2991960T3 (es) * | 2017-05-16 | 2024-12-05 | Guardant Health Inc | Identificación del origen somático o germinal del ADN libre de células |
| KR102145417B1 (ko) * | 2017-05-24 | 2020-08-19 | 지니너스 주식회사 | 무세포 핵산으로부터 수득된 서열 분석 데이터에 대한 배경 대립인자의 빈도 분포를 생성하는 방법 및 이를 이용하여 무세포 핵산으로부터 변이를 검출하는 방법 |
| IL272030B2 (en) | 2017-07-26 | 2025-03-01 | Univ Hong Kong Chinese | Enhancement of cancer screening using cell-free viral nucleic acids |
| EP3682035B1 (en) * | 2017-09-15 | 2025-02-05 | The Regents of the University of California | Detecting somatic single nucleotide variants from cell-free nucleic acid with application to minimal residual disease monitoring |
| CN111357054B (zh) * | 2017-09-20 | 2024-07-16 | 夸登特健康公司 | 用于区分体细胞变异和种系变异的方法和系统 |
| WO2019074933A2 (en) * | 2017-10-10 | 2019-04-18 | Nantomics, Llc | COMPLETE GENOMIC TRANSCRIPTOM ANALYSIS OF A PANEL OF NORMAL-TUMOR GENES FOR ENHANCED PRECISION IN PATIENTS WITH CANCER |
| US11099202B2 (en) | 2017-10-20 | 2021-08-24 | Tecan Genomics, Inc. | Reagent delivery system |
| EP4549588A3 (en) * | 2017-11-03 | 2025-07-23 | Guardant Health, Inc. | Normalizing tumor mutation burden |
| CN110870016B (zh) | 2017-11-30 | 2024-09-06 | 伊鲁米那股份有限公司 | 用于序列变体呼出的验证方法和系统 |
| US12084720B2 (en) | 2017-12-14 | 2024-09-10 | Natera, Inc. | Assessing graft suitability for transplantation |
| US20190249229A1 (en) * | 2018-02-12 | 2019-08-15 | Nant Holdings Ip, Llc | Bam signatures from liquid and solid tumors and uses therefor |
| WO2019200228A1 (en) | 2018-04-14 | 2019-10-17 | Natera, Inc. | Methods for cancer detection and monitoring by means of personalized detection of circulating tumor dna |
| US20210104297A1 (en) * | 2018-04-16 | 2021-04-08 | Grail, Inc. | Systems and methods for determining tumor fraction in cell-free nucleic acid |
| TW202410055A (zh) | 2018-06-01 | 2024-03-01 | 美商格瑞爾有限責任公司 | 用於資料分類之卷積神經網路系統及方法 |
| JP2021526791A (ja) * | 2018-06-04 | 2021-10-11 | ガーダント ヘルス, インコーポレイテッド | セルフリー核酸の細胞起源を決定するための方法およびシステム |
| SG11202011696TA (en) | 2018-06-11 | 2020-12-30 | Foundation Medicine Inc | Compositions and methods for evaluating genomic alterations |
| US12234509B2 (en) | 2018-07-03 | 2025-02-25 | Natera, Inc. | Methods for detection of donor-derived cell-free DNA |
| CA3107983A1 (en) | 2018-07-23 | 2020-01-30 | Guardant Health, Inc. | Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage |
| BR112020026259A2 (pt) | 2018-11-01 | 2021-07-27 | Illumina, Inc. | métodos e composições para detecção de variante de linhagem germinativa |
| JP7499239B2 (ja) * | 2018-11-13 | 2024-06-13 | ミリアド・ジェネティックス・インコーポレイテッド | 体細胞変異のための方法およびシステム、ならびにそれらの使用 |
| US11581062B2 (en) | 2018-12-10 | 2023-02-14 | Grail, Llc | Systems and methods for classifying patients with respect to multiple cancer classes |
| KR20210113237A (ko) | 2018-12-19 | 2021-09-15 | 더 차이니즈 유니버시티 오브 홍콩 | 무 세포 dna 말단 특성 |
| EP3899956A4 (en) * | 2018-12-21 | 2022-11-23 | Grail, LLC | SYSTEMS AND METHODS FOR USING FRAGMENT LENGTH AS A PREDICTOR OF CANCER |
| CN109686414A (zh) * | 2018-12-28 | 2019-04-26 | 陈洪亮 | 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法 |
| CN109616198A (zh) * | 2018-12-28 | 2019-04-12 | 陈洪亮 | 仅用于肝癌单一癌种筛查的特异甲基化检测位点组合的选取方法 |
| CN109817279B (zh) * | 2019-01-18 | 2022-11-04 | 臻悦生物科技江苏有限公司 | 肿瘤突变负荷的检测方法、装置、存储介质及处理器 |
| KR102381252B1 (ko) * | 2019-02-19 | 2022-04-01 | 주식회사 녹십자지놈 | 혈중 무세포 dna 기반 간암 치료 예후예측 방법 |
| CN109841265B (zh) * | 2019-02-22 | 2021-09-21 | 清华大学 | 使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用 |
| CN109920480B (zh) * | 2019-03-14 | 2020-02-21 | 深圳市海普洛斯生物科技有限公司 | 一种校正高通量测序数据的方法和装置 |
| CN111755075B (zh) * | 2019-03-28 | 2023-09-29 | 深圳华大生命科学研究院 | 对免疫组库高通量测序样本间序列污染进行过滤的方法 |
| CN114072523B (zh) | 2019-05-03 | 2025-05-13 | 阿尔缇玛基因组学公司 | 用于检测核酸变体的方法 |
| US12437839B2 (en) | 2019-05-03 | 2025-10-07 | Ultima Genomics, Inc. | Methods for detecting nucleic acid variants |
| US20200392584A1 (en) * | 2019-05-17 | 2020-12-17 | Ultima Genomics, Inc. | Methods and systems for detecting residual disease |
| KR20220011140A (ko) * | 2019-05-20 | 2022-01-27 | 파운데이션 메디신 인코포레이티드 | 종양 분획 평가를 위한 시스템 및 방법 |
| CN111223525A (zh) * | 2020-01-07 | 2020-06-02 | 广州基迪奥生物科技有限公司 | 一种肿瘤外显子测序数据分析方法 |
| US12059674B2 (en) | 2020-02-03 | 2024-08-13 | Tecan Genomics, Inc. | Reagent storage system |
| US11475981B2 (en) | 2020-02-18 | 2022-10-18 | Tempus Labs, Inc. | Methods and systems for dynamic variant thresholding in a liquid biopsy assay |
| US11211144B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Methods and systems for refining copy number variation in a liquid biopsy assay |
| US11211147B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing |
| JP7022861B1 (ja) * | 2021-06-25 | 2022-02-18 | 株式会社日立パワーソリューションズ | アレイ型超音波送受信装置 |
| US20240321396A1 (en) * | 2021-06-30 | 2024-09-26 | Memorial Sloan-Kettering Cancer Center | Detection of somatic mutational signatures from whole genome sequencing of cell-free dna |
| CN114242172B (zh) * | 2021-07-12 | 2025-04-25 | 广州燃石医学检验所有限公司 | 基于血液测序的肿瘤内异质性的评估方法及其用于预测免疫疗法的应答 |
| KR20230085239A (ko) * | 2021-12-06 | 2023-06-14 | 주식회사 지씨지놈 | 혈중 무세포 dna 기반 유방암 치료 예후예측 방법 |
| CN115064212B (zh) * | 2022-06-24 | 2023-03-14 | 哈尔滨星云生物信息技术开发有限公司 | 基于wgs数据的预设区域人群肿瘤特异突变识别方法 |
| WO2024003936A1 (en) | 2022-06-29 | 2024-01-04 | Raman Govindarajan | Method for detecting cancer susceptibility, early detection and predicting cancer behaviour |
| KR20240051739A (ko) * | 2022-10-13 | 2024-04-22 | 인하대학교 산학협력단 | cfDNA의 구조 변이 서열 검출을 통한 미세잔존질환 진단 방법 |
| CN117012274B (zh) * | 2023-10-07 | 2024-01-16 | 北京智因东方转化医学研究中心有限公司 | 基于高通量测序识别基因缺失的装置 |
Family Cites Families (48)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1169347B1 (en) | 1999-04-02 | 2008-07-02 | Corixa Corporation | Compounds and methods for therapy and diagnosis of lung cancer |
| US20030219765A1 (en) | 2000-03-23 | 2003-11-27 | Jose Costa | Methods for evaluating cancer risk |
| US20030211522A1 (en) | 2002-01-18 | 2003-11-13 | Landes Gregory M. | Methods for fetal DNA detection and allele quantitation |
| ATE552349T1 (de) | 2002-05-10 | 2012-04-15 | Hope City | Pyrophosphorolyse-aktivierte polymerisation (pap) |
| US7704687B2 (en) | 2002-11-15 | 2010-04-27 | The Johns Hopkins University | Digital karyotyping |
| US20060188889A1 (en) * | 2003-11-04 | 2006-08-24 | Christopher Burgess | Use of differentially expressed nucleic acid sequences as biomarkers for cancer |
| US8394582B2 (en) | 2003-03-05 | 2013-03-12 | Genetic Technologies, Inc | Identification of fetal DNA and fetal cell markers in maternal plasma or serum |
| PL201608B1 (pl) | 2003-06-13 | 2009-04-30 | Cezary Cybulski | Sposób i zestaw do wykrywania wysokiej genetycznie uwarunkowanej predyspozycji do raka prostaty oraz zastosowanie zmiany germinalnej w obrębie genu NBS1 |
| DE60328193D1 (de) | 2003-10-16 | 2009-08-13 | Sequenom Inc | Nicht invasiver Nachweis fötaler genetischer Merkmale |
| WO2005108621A1 (en) | 2004-04-30 | 2005-11-17 | Yale University | Methods and compositions for cancer diagnosis |
| CN101137760B (zh) * | 2005-03-18 | 2011-01-26 | 香港中文大学 | 检测染色体非整倍性的方法 |
| US20070122823A1 (en) | 2005-09-01 | 2007-05-31 | Bianchi Diana W | Amniotic fluid cell-free fetal DNA fragment size pattern for prenatal diagnosis |
| SI3002338T1 (sl) | 2006-02-02 | 2019-11-29 | Univ Leland Stanford Junior | Neinvaziven genetski pregled zarodka z digitalno analizo |
| EP2351858B1 (en) | 2006-02-28 | 2014-12-31 | University of Louisville Research Foundation | Detecting fetal chromosomal abnormalities using tandem single nucleotide polymorphisms |
| WO2008024009A1 (en) | 2006-08-15 | 2008-02-28 | Institut Molekulyarnoi Genetiki Rossiiskoi Akademii Nauk (Img Ran) | Transcriptional level of a timp3 gene in the form of a diagnosis marker of a non-small cell carcinoma of lung |
| WO2008146309A2 (en) | 2007-05-25 | 2008-12-04 | Decode Genetics Ehf. | Genetic variants on chr 5pl2 and 10q26 as markers for use in breast cancer risk assessment, diagnosis, prognosis and treatment |
| MX2010000846A (es) | 2007-07-23 | 2010-04-21 | Univ Hong Kong Chinese | Diagnostico de aneuploide cromosomico fetal mediante el uso de secuenciacion genomica. |
| US20090053719A1 (en) | 2007-08-03 | 2009-02-26 | The Chinese University Of Hong Kong | Analysis of nucleic acids by digital pcr |
| WO2009051842A2 (en) * | 2007-10-18 | 2009-04-23 | The Johns Hopkins University | Detection of cancer by measuring genomic copy number and strand length in cell-free dna |
| US20100041048A1 (en) | 2008-07-31 | 2010-02-18 | The Johns Hopkins University | Circulating Mutant DNA to Assess Tumor Dynamics |
| LT2334812T (lt) * | 2008-09-20 | 2017-04-25 | The Board Of Trustees Of The Leland Stanford Junior University | Neinvazinis fetalinės aneuploidijos diagnozavimas sekvenavimu |
| WO2010053980A2 (en) * | 2008-11-04 | 2010-05-14 | The Johns Hopkins University | Dna integrity assay (dia) for cancer diagnostics, using confocal fluorescence spectroscopy |
| US20100136560A1 (en) | 2008-12-02 | 2010-06-03 | The Johns Hopkins University | Integrated Analyses of Breast and Colorectal Cancers |
| WO2010091046A2 (en) * | 2009-02-03 | 2010-08-12 | President & Fellows Of Harvard College | Systems and methods for high throughput, high fidelity, single molecule nucleic acid sequencing using time multiplexed excitation |
| NZ595993A (en) | 2009-03-31 | 2013-05-31 | Oridis Biomarkers Gmbh | Method for diagnosis of cancer and monitoring of cancer treatments |
| WO2011038507A1 (en) | 2009-10-02 | 2011-04-07 | Centre For Addiction And Mental Health | Method for analysis of dna methylation profiles of cell-free circulating dna in bodily fluids |
| WO2011053790A2 (en) | 2009-10-30 | 2011-05-05 | Fluidigm Corporation | Assay of closely linked targets in fetal diagnosis and coincidence detection assay for genetic analysis |
| CN105779280B (zh) | 2009-11-05 | 2018-09-25 | 香港中文大学 | 由母本生物样品进行胎儿基因组的分析 |
| JP5770737B2 (ja) | 2009-11-06 | 2015-08-26 | ザ チャイニーズ ユニバーシティ オブ ホンコン | サイズに基づくゲノム分析 |
| GB0922006D0 (en) | 2009-12-17 | 2010-02-03 | Genome Res Ltd | Diagnostic |
| CA2785718C (en) | 2010-01-19 | 2017-04-04 | Verinata Health, Inc. | Methods for determining fraction of fetal nucleic acid in maternal samples |
| CA2786564A1 (en) | 2010-01-19 | 2011-07-28 | Verinata Health, Inc. | Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing |
| EP2536854B1 (en) | 2010-02-18 | 2017-07-19 | The Johns Hopkins University | Personalized tumor biomarkers |
| EP2426217A1 (en) | 2010-09-03 | 2012-03-07 | Centre National de la Recherche Scientifique (CNRS) | Analytical methods for cell free nucleic acids and applications |
| SG10201509766YA (en) | 2010-11-30 | 2015-12-30 | Univ Hong Kong Chinese | Detection of genetic or molecular aberrations associated with cancer |
| AU2011373694A1 (en) | 2011-07-26 | 2013-05-02 | Verinata Health, Inc. | Method for determining the presence or absence of different aneuploidies in a sample |
| EP2764459B1 (en) | 2011-10-06 | 2021-06-30 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
| WO2013060762A1 (en) * | 2011-10-25 | 2013-05-02 | Roche Diagnostics Gmbh | Method for diagnosing a disease based on plasma-dna distribution |
| WO2013086352A1 (en) | 2011-12-07 | 2013-06-13 | Chronix Biomedical | Prostate cancer associated circulating nucleic acid biomarkers |
| US9892230B2 (en) | 2012-03-08 | 2018-02-13 | The Chinese University Of Hong Kong | Size-based analysis of fetal or tumor DNA fraction in plasma |
| CA2867293C (en) | 2012-03-13 | 2020-09-01 | Abhijit Ajit PATEL | Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing |
| US11261494B2 (en) | 2012-06-21 | 2022-03-01 | The Chinese University Of Hong Kong | Method of measuring a fractional concentration of tumor DNA |
| DE202013012824U1 (de) | 2012-09-04 | 2020-03-10 | Guardant Health, Inc. | Systeme zum Erfassen von seltenen Mutationen und einer Kopienzahlvariation |
| SG11201506660RA (en) | 2013-02-21 | 2015-09-29 | Toma Biosciences Inc | Methods, compositions, and kits for nucleic acid analysis |
| WO2014145078A1 (en) | 2013-03-15 | 2014-09-18 | Verinata Health, Inc. | Generating cell-free dna libraries directly from blood |
| US10174375B2 (en) | 2013-09-20 | 2019-01-08 | The Chinese University Of Hong Kong | Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases |
| US10262755B2 (en) | 2014-04-21 | 2019-04-16 | Natera, Inc. | Detecting cancer mutations and aneuploidy in chromosomal segments |
| JP2017522908A (ja) | 2014-07-25 | 2017-08-17 | ユニヴァーシティ オブ ワシントン | セルフリーdnaを生じる組織及び/又は細胞タイプを決定する方法、並びにそれを用いて疾患又は異常を識別する方法 |
-
2013
- 2013-03-13 US US13/801,748 patent/US11261494B2/en active Active
- 2013-06-14 HU HUE18185290A patent/HUE056915T2/hu unknown
- 2013-06-14 EP EP21185002.9A patent/EP3919627B1/en active Active
- 2013-06-14 ES ES13807105.5T patent/ES2687847T3/es active Active
- 2013-06-14 WO PCT/IB2013/054898 patent/WO2013190441A2/en not_active Ceased
- 2013-06-14 IL IL298810A patent/IL298810B2/en unknown
- 2013-06-14 KR KR1020207009028A patent/KR102237923B1/ko active Active
- 2013-06-14 EP EP24201699.6A patent/EP4512907A3/en active Pending
- 2013-06-14 DK DK18185290.6T patent/DK3456843T3/da active
- 2013-06-14 KR KR1020217009799A patent/KR102375645B1/ko active Active
- 2013-06-14 CN CN202110493949.XA patent/CN113151474A/zh active Pending
- 2013-06-14 KR KR1020187021883A patent/KR102096611B1/ko active Active
- 2013-06-14 AU AU2013278994A patent/AU2013278994C1/en active Active
- 2013-06-14 KR KR1020247011005A patent/KR102720785B1/ko active Active
- 2013-06-14 KR KR1020157001225A patent/KR101884909B1/ko active Active
- 2013-06-14 IL IL311127A patent/IL311127B2/en unknown
- 2013-06-14 ES ES18185290T patent/ES2894479T3/es active Active
- 2013-06-14 MX MX2014016058A patent/MX360264B/es active IP Right Grant
- 2013-06-14 PT PT18185290T patent/PT3456843T/pt unknown
- 2013-06-14 EA EA202092900A patent/EA202092900A3/ru unknown
- 2013-06-14 KR KR1020227008276A patent/KR102521842B1/ko active Active
- 2013-06-14 SG SG11201408113QA patent/SG11201408113QA/en unknown
- 2013-06-14 EP EP13807105.5A patent/EP2864501B1/en active Active
- 2013-06-14 EA EA201500027A patent/EA037292B1/ru unknown
- 2013-06-14 CA CA2876327A patent/CA2876327C/en active Active
- 2013-06-14 CN CN201711070698.4A patent/CN107779506B/zh active Active
- 2013-06-14 SG SG10201808217WA patent/SG10201808217WA/en unknown
- 2013-06-14 DK DK13807105.5T patent/DK2864501T3/en active
- 2013-06-14 JP JP2015517896A patent/JP6371280B2/ja active Active
- 2013-06-14 CN CN201380042981.XA patent/CN104662168B/zh active Active
- 2013-06-14 CA CA3080937A patent/CA3080937A1/en active Pending
- 2013-06-14 KR KR1020237012164A patent/KR102656030B1/ko active Active
- 2013-06-14 EP EP18185290.6A patent/EP3456843B1/en active Active
- 2013-06-20 TW TW107128593A patent/TWI803505B/zh active
- 2013-06-20 TW TW111143054A patent/TW202328458A/zh unknown
- 2013-06-20 TW TW109127987A patent/TWI786428B/zh active
- 2013-06-20 TW TW102122036A patent/TWI636255B/zh active
-
2014
- 2014-11-27 IL IL235967A patent/IL235967B/en active IP Right Grant
- 2014-12-17 ZA ZA2014/09281A patent/ZA201409281B/en unknown
- 2014-12-19 MX MX2018013085A patent/MX2018013085A/es unknown
- 2014-12-19 MX MX2023001154A patent/MX2023001154A/es unknown
-
2017
- 2017-07-04 AU AU2017204558A patent/AU2017204558B2/en active Active
- 2017-12-22 US US15/853,288 patent/US20180202003A1/en active Pending
-
2018
- 2018-07-12 JP JP2018132118A patent/JP6930948B2/ja active Active
-
2019
- 2019-05-08 US US16/406,715 patent/US20190264291A1/en not_active Abandoned
- 2019-08-12 IL IL26864519A patent/IL268645A/en active IP Right Grant
-
2020
- 2020-01-08 AU AU2020200122A patent/AU2020200122B2/en active Active
- 2020-11-19 IL IL278867A patent/IL278867B2/en unknown
-
2021
- 2021-08-12 JP JP2021131682A patent/JP7408161B2/ja active Active
-
2022
- 2022-07-28 AU AU2022209294A patent/AU2022209294A1/en not_active Abandoned
-
2023
- 2023-12-13 JP JP2023210140A patent/JP2024026360A/ja active Pending
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2687847T3 (es) | Análisis mutacional de ADN de plasma para la detección de cáncer | |
| HK40065246B (en) | Mutational analysis of plasma dna for cancer detection | |
| HK40065246A (en) | Mutational analysis of plasma dna for cancer detection | |
| HK40006067B (en) | Mutational analysis of plasma dna for cancer detection | |
| HK40006067A (en) | Mutational analysis of plasma dna for cancer detection | |
| HK1246830B (en) | Mutational analysis of plasma dna for cancer detection | |
| EA048297B1 (ru) | Мутационный анализ днк в плазме для детектирования рака | |
| HK1204013B (en) | Mutational analysis of plasma dna for cancer detection | |
| EA042093B1 (ru) | Мутационный анализ днк в плазме для детектирования рака | |
| EA047100B1 (ru) | Мутационный анализ днк в плазме для детектирования рака |