[go: up one dir, main page]

RS60736B1 - Postupci i sistemi za analizu podataka sa slika - Google Patents

Postupci i sistemi za analizu podataka sa slika

Info

Publication number
RS60736B1
RS60736B1 RS20201044A RSP20201044A RS60736B1 RS 60736 B1 RS60736 B1 RS 60736B1 RS 20201044 A RS20201044 A RS 20201044A RS P20201044 A RSP20201044 A RS P20201044A RS 60736 B1 RS60736 B1 RS 60736B1
Authority
RS
Serbia
Prior art keywords
phasing
cycle
nucleotide
sequencing
signal
Prior art date
Application number
RS20201044A
Other languages
English (en)
Inventor
Paul Belitz
Stephen Tanner
John S Vieceli
Xiaoyu Chen
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Publication of RS60736B1 publication Critical patent/RS60736B1/sr

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Image Processing (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)

Description

Opis pronalaska
UNAKRSNO POVEZIVANJE SA SRODNIM PRIJAVAMA
[0001] Predmetna prijava zahteva pravo prvenstva i prednost u odnosu na Privremenu SAD prijavu br.
61/911,319, podnetu 3. decembra 2013. godine; 61/915,455, podnetu 12. decembra 2013. godine; i 61/915,426, podnetu 12. decembra 2013. godine.
POZNATO STANJE TEHNIKE
[0002] Analiza podataka sa slika postavlja brojne izazove, posebno u pogledu poređenja slika predmeta ili strukture koje su snimlјene iz različitih referentnih tačaka. Jedna od oblasti koja obiluje primerima mnogih od ovakvih izazova je analiza sekvenci nukleinskih kiselina.
[0003] Detektovanje specifičnih sekvenci nukleinskih kiselina prisutnih u biološkom uzorku ima širok spektar primena, kao što su identifikovanje i klasifikovanje mikroorganizama, podstavljanje dijagnoze infektivnih oboljenja, detektovanje i karakterizacija genetičkih abnormalnosti, identifikovanje genetičkih promena povezanih sa kancerom, proučavanje genetičke podložnosti oboljenju i merenje odgovora na razne vrste lečenja. Dragocena tehnika za detektovanje specifičnih sekvenci nukleinskih kiselina u biološkom uzorku je sekvenciranje nukleinskih kiselina.
[0004] Metodologija sekvenciranja nukleinskih kiselina se značajno razvila od postupaka hemijske razgradnje koje su koristili Maxam i Gilbert, kao i od postupaka elongacije lanaca koje je koristio Sanger. Danas, postoje brojni različiti procesi koji se koriste da bi se razjasnila sekvenca nukleinskih kiselina. Posebno popularan proces sekvenciranja je sekvenciranje-po-sintezi. Jedan od razloga njegove popularnosti je što ova tehnika može biti lako primenjena u projektima masovnog uporednog sekvenciranja. Na primer, upotrebom automatizovane platforme je moguće istovremeno izvesti stotine hilјada reakcija sekvenciranja. Sekvenciranje-po-sintezi se razlikuje od klasičnog pristupa didezoksi sekvenciranja po tome što se, umesto generisanja velikog broja sekvenci i zatim njihove karakterizacije u kasnijem koraku, koristi praćenje ugradnje svake baze u rastući lanac u realnom vremenu. Iako se ovaj pristup u kontekstu pojedinačne reakcije sekvenciranja može posmatrati kao spor, on može biti upotrebljen za generisanje velikih količina informacija o sekvenci u svakom ciklusu sekvenciranja, kada se uporedo sprovode stotine hilјada do milioni reakcija. Uprkos ovim prednostima, ogromna veličina i količina informacija o sekvencama koje se dobijaju takvim postupkom, mogu ograničiti brzinu i kvalitet analize podataka o sekvenci. Stoga, postoji potreba za postupcima i sistemima koji bi pobolјšali brzinu i tačnost analize podataka dobijenih sekvenciranjem nukleinskih kiselina.
[0005] Kirchner i saradnici, "Improved base Galling for the Illumina Genome Analyzer using machine learning strategies" GENOME BIOLOGY, BIOMED CENTRAL LTD., LONDON, GB, vol. 10, br. 8, opisuju postupak i sistem za identifikovanje nukleotida iz podataka dobijenih sekvenciranjem nukleinskih kiselina, kao i četvorokanalno očitavanje baza. Dobijaju se zapravo četiri slike i analiziraju se četiri vrednosti intenziteta. Na podatke sekvenciranja se primenjuje korekcija faziranja da bi se dobile korigovane vrednosti intenziteta.
KRATKO IZLAGANJE SUŠTINE PRONALASKA
[0006] Ovde su obezbeđeni postupci za procenu kvaliteta očitavanja baza u okviru očitavanja sekvenciranja. U pojedinim primerima izvođenja, postupci mogu obuhvatati korake: izračunavanja skupa prediktorskih vrednosti za očitavanje baza; i zatim upotrebu prediktorskih vrednosti za pretragu ocene kvaliteta u okviru tabele kvaliteta. U pojedinim primerima izvođenja, očitavanje sekvenciranja koristi dvokanalno očitavanje baza. U pojedinim primerima izvođenja, očitavanje sekvenciranja koristi jednokanalno očitavanje baza. Prema određenim aspektima, tabela kvaliteta se generiše upotrebom Phred sistema za procenu na skupu kalibracionih podataka, pri čemu je skup kalibracionih podataka reprezentativan za varijabilnost jedne analize i same sekvence. Prema određenim aspektima, prediktorske vrednosti su izabrane iz grupe koja se sastoji od: preklapanja u toku procesa (online preklapanja); čistoće signala; faziranja; start5; heksamerske procene; akumulacije motiva; poretka informacija po veličini; procene približnosti homopolimeru; raspadanja intenziteta; specifičnosti signala u pretposlednjem koraku; i preklapanja signala sa signalom pozadine (SOWB). Prema određenim aspektima, skup prediktorskih vrednosti obuhvata preklapanje u toku procesa; čistoću signala; faziranje; i start5. Prema određenim aspektima, skup prediktorskih vrednosti obuhvata heksamersku procenu; i procenu akumulacije motiva.
[0007] Prema određenim aspektima, postupak dalјe obuhvata korake: umanjivanje zastupljenosti nepouzdanih mera kvaliteta na kraju svakog očitavanja; identifikovanje očitavanja u kojima je vrednost specifičnosti signala druga po redu od najlošijih vrednosti u prvih 25 očitavanja baza i ispod unapred određenog praga; i označavanje očitavanja kao podataka lošeg kvaliteta. Prema određenim aspektima, postupak dalјe obuhvata upotrebu algoritma za identifikovanje praga pouzdanosti. Prema određenim aspektima, pouzdana očitavanja baza podrazumevaju q-vrednosti, ili druge vrednosti koje ukazuju na kvalitet podataka ili statističku značajnost, koje su iznad praga, dok nepouzdana očitavanja baza podrazumevaju q-vrednosti ili druge vrednosti koje ukazuju na kvalitet podataka ili statističku značajnost koje su ispod praga. Prema određenim aspektima, algoritam sadrži algoritam Maksimalnog bodovanja segmenata na osnovu krajnjeg usidravanja (EAMSS). Prema određenim aspektima, algoritam koristi Skriveni Markovljev model koji identifikuje pomeraje u lokalnoj distribuciji mera kvaliteta.
[0008] Ovde je takođe obezbeđen sistem za procenu kvaliteta očitavanja baza u okviru očitavanja sekvenciranja, sistem koji sadrži: procesor; kapacitet za skladištenje; i program za procenu kvaliteta očitavanja baza u okviru očitavanja sekvenciranja, program koji sadrži uputstva za: izračunavanje skupa prediktorskih vrednosti za očitavanje baza; a zatim upotrebu prediktorskih vrednosti za pretragu ocene kvaliteta u okviru tabele kvaliteta. Prema određenim aspektima, tabela kvaliteta se generiše upotrebom Phred sistema za procenu na skup kalibracionih podataka, pri čemu je skup kalibracionih podataka reprezentativan za varijabilnost jedne analize i same sekvence. Prema određenim aspektima, prediktorske vrednosti su izabrane iz grupe koja se sastoji od: preklapanja u toku procesa; čistoće signala; faziranja; start5; heksamerske procene; akumulacije motiva; poretka informacija po veličini; procene približnosti homopolimeru; raspadanja intenziteta; specifičnosti signala u pretposlednjem koraku; i preklapanja signala sa signalom pozadine (SOWB). Prema određenim aspektima, skup prediktorskih vrednosti obuhvata preklapanje u toku procesa; čistoću signala; faziranje; i start5. Prema određenim aspektima, skup prediktorskih vrednosti obuhvata heksamersku procenu; i procenu akumulacije motiva.
[0009] Prema određenim aspektima, sistem dalјe sadrži uputstva za: umanjivanje zastupljenosti nepouzdanih mera kvaliteta na kraju svakog očitavanja; identifikovanje očitavanja u kojima je vrednost specifičnosti signala druga po redu od najlošijih vrednosti u prvih 25 očitavanja baza i ispod unapred određenog praga; i označavanje očitavanja kao podataka lošeg kvaliteta. Prema određenim aspektima, sistem dalje sadrži uputstva za upotrebu algoritma za identifikovanje praga pouzdanosti. Prema određenim aspektima, pouzdana očitavanja baza podrazumevaju q-vrednosti, ili druge vrednosti koje ukazuju na kvalitet podataka ili statističku značajnost, koje su iznad praga, dok nepouzdana očitavanja baza podrazumevaju q-vrednosti ili druge vrednosti koje ukazuju na kvalitet podataka ili statističku značajnost koje su ispod praga. Prema određenim aspektima, algoritam sadrži algoritam Maksimalnog bodovanja segmenata na osnovu krajnjeg usidravanja (EAMSS). Prema određenim aspektima, algoritam koristi Skriveni Markovljev model koji identifikuje pomeraje u lokalnoj distribuciji mera kvaliteta.
[0010] Ovde su takođe predstavlјeni postupci i sistem za generisanje vrednosti intenziteta koje su korigovane u kontekstu faziranja. Postupci mogu obuhvatati: obavlјanje mnoštva ciklusa reakcija sekvenciranja-po-sintezi, tako da se u svakom ciklusu generiše signal koji ukazuje na ugrađivanje istog nukleotida u mnoštvo identičnih polinukleotida, čime se deo signala šuma povezuje sa nukleotidima koji su ugrađeni tokom prethodnog ciklusa; detektovanje signala u svakom ciklusu, pri čemu signal karakteriše određena vrednost intenziteta; i korigovanje vrednosti intenziteta u odnosu na faziranje, primenom korekcije faziranja prvog reda na vrednost intenziteta; pri čemu se za svaki ciklus izračunava nova korekcija faziranja prvog reda.
[0011] Prema pojedinim aspektima, korekcija faziranja prvog reda podrazumeva oduzimanje vrednosti intenziteta iz neposredno prethodnog ciklusa od vrednosti intenziteta iz ciklusa koji se trenutno odvija. Postupak može dalјe obuhvatati oduzimanje vrednosti intenziteta iz neposredno sledećeg ciklusa od vrednosti intenziteta iz ciklusa koji se trenutno odvija. Prema pojedinim aspektima, korekcija faziranja se izračunava na sledeći način: I(ciklus)korigovan= I(ciklus) N- X<∗>I(ciklus) N-1- Y<∗>I(ciklus) N+1. Prema određenim aspektima, vrednosti X i/ili Y se biraju tako da se optimizuje postupak utvrđivanje specifičnosti signala. Prema određenim aspektima, utvrđivanje specifičnosti signala se odnosi na srednju vrednost specifičnosti signala. Prema određenim aspektima, analiza sekvenciranja može koristiti jednokanalno, dvokanalno ili četvorokanalno očitavanje baza.
[0012] Ovde su takođe predstavljeni sistemi za generisanje vrednosti intenziteta korigovanih u odnosu na faziranje. Sistem može sadržavati: procesor; kapacitet za skladištenje; i program za generisanje vrednosti intenziteta korigovanih u odnosu na faziranje, pri čemu program sadrži uputstva za: obavlјanje mnoštva ciklusa reakcija sekvenciranja-po-sintezi, a tako da se u svakom ciklusu generiše signal koji ukazuje na ugrađivanje istog nukleotida u mnoštvo identičnih polinukleotida, čime se deo signala šuma povezuje sa nukleotidima koji su ugrađeni tokom prethodnog ciklusa; detektovanje signala u svakom ciklusu, pri čemu signal karakteriše određena vrednost intenziteta; i korigovanje vrednosti intenziteta u odnosu na faziranje, primenom korekcije faziranja prvog reda na vrednost intenziteta; pri čemu se za svaki ciklus izračunava nova korekcija faziranja prvog reda.
[0013] Prema pojedinim aspektima, korekcija faziranja prvog reda podrazumeva oduzimanje vrednosti intenziteta iz neposredno prethodnog ciklusa od vrednosti intenziteta iz ciklusa koji se trenutno odvija. Postupak može dalјe obuhvatati oduzimanje vrednosti intenziteta iz neposredno sledećeg ciklusa od vrednosti intenziteta iz ciklusa koji se trenutno odvija. Prema pojedinim aspektima, korekcija faziranja se izračunava na sledeći način: I(ciklus)korigovan= I(ciklus) N- X<∗>I(ciklus) N-1- Y<∗>I(ciklus) N+1. Prema određenim aspektima, vrednosti X i/ili Y se biraju tako da se optimizuje određivanje specifičnosti signala. Prema određenim aspektima, utvrđivanje specifičnosti signala se odnosi na srednju vrednost specifičnosti signala. Prema određenim aspektima, analiza sekvenciranja može koristiti jednokanalno, dvokanalno ili četvorokanalno očitavanje baza.
[0014] Ovde su takođe predstavlјeni postupci i sistemi za identifikovanje nukleotidnih baza iz podataka sekvenciranja koji se dobijaju sa dve odvojene slike i nizom karakteristika na svojoj površini. U pojedinim primerima izvođenja, postupak obuhvata: detektovanje prisustva ili odsustva signala na dva različita kanala za svaku od mnoštva karakteristika na genskom čipu u određeno vreme, čime se generiša prvi skup vrednosti intenziteta i drugi skup vrednosti intenziteta za svaku od karakteristika, pri čemu kombinacija vrednosti intenziteta na svakom od dva kanala odgovara jednoj od četiri različite nukleotidne baze; uklapanje četiri Gausove raspodele u vrednosti intenziteta, pri čemu svaku raspodelu karakteriše centroid; izračunavanje verovatne vrednosti koja ukazuje na verovatnoću da određena karakteristika pripada svakoj od četiri raspodele; i odabir raspodele sa najviše verovatnom vrednošću za svaku karakteristiku iz navedenog mnoštva karakteristika, pri čemu navedena raspodela odgovara identitetu nukleotidne baze koja je prisutna u navedenoj specifičnoj karakteristici.
[0015] Ovde je predstavljen i sistem za sistem za procenu kvaliteta očitavanja baza u okviru očitavanja sekvenciranja, sistem koji sadrži: procesor; uređaj za skladištenje podataka; i program za identifikovanje nukleotidne baze, pri čemu program sadrži uputstva za: detektovanje prisustva ili odsustva signala na dva različita kanala za svaku od mnoštva karakteristika na genskom čipu u određeno vreme, čime se generiša prvi skup vrednosti intenziteta i drugi skup vrednosti intenziteta za svaku od karakteristika, pri čemu kombinacija vrednosti intenziteta na svakom od dva kanala odgovara jednoj od četiri različite nukleotidne baze; uklapanje četiri Gausove raspodele u vrednosti intenziteta, pri čemu svaku raspodelu karakteriše centroid; izračunavanje verovatne vrednosti koja ukazuje na verovatnoću da određena karakteristika pripada svakoj od četiri raspodele; i odabir raspodele sa najviše verovatnom vrednošću za svaku karakteristiku iz navedenog mnoštva karakteristika, pri čemu navedena raspodela odgovara identitetu nukleotidne baze koja je prisutna u navedenoj specifičnoj karakteristici.
[0016] Ovde je takođe predstavljen postupak identifikovanja nukleotidne baze, postupak koji obuhvata: dobijanje prvog skupa vrednosti intenziteta i drugog skupa vrednosti intenziteta za svaku od mnoštva karakteristika na genskom čipu, pri čemu vrednost intenziteta za svaku karakteristiku u jednom ili u oba skupa odgovara prisustvu ili odsustvu određene nukleotidne baze od četiri moguće nukleotidne baze za tu karakteristiku; uklapanje četiri Gausove raspodele u vrednosti intenziteta, pri čemu svaku raspodelu karakteriše centroid; izračunavanje verovatne vrednosti koja ukazuje na verovatnoću da određena karakteristika pripada svakoj od četiri raspodele; i odabir raspodele sa najviše verovatnom vrednošću za svaku karakteristiku iz navedenog mnoštva karakteristika, pri čemu navedena raspodela odgovara identitetu nukleotidne baze koja je prisutna u navedenoj specifičnoj karakteristici.
[0017] Ovde je takođe predstavljen sistem za procenu kvaliteta očitavanja baza u okviru očitavanja sekvenciranja, pri čemu sistem sadrži: procesor; uređaj za skladištenje podataka; i program za identifikovanje nukleotidne baze, program koji sadrži uputstva za: dobijanje prvog skupa vrednosti intenziteta i drugog skupa vrednosti intenziteta za svaku od mnoštva karakteristika na genskom čipu, pri čemu vrednost intenziteta za svaku karakteristiku u jednom ili u oba skupa odgovara prisustvu ili odsustvu određene nukleotidne baze od četiri moguće nukleotidne baze za tu karakteristiku; uklapanje četiri Gausove raspodele u vrednosti intenziteta,, pri čemu svaku raspodelu karakteriše centroid; izračunavanje verovatne vrednosti koja ukazuje na verovatnoću da određena karakteristika pripada svakoj od četiri raspodele; i odabir raspodele sa najviše verovatnom vrednošću za svaku karakteristiku iz navedenog mnoštva karakteristika, pri čemu navedena raspodela odgovara identitetu nukleotidne baze koja je prisutna u navedenoj specifičnoj karakteristici.
[0018] U bilo kom od prethodno opisanih postupaka i sistema, određeni aspekti mogu obuhvatati primere izvođenja u kojima uklapanje može uključivati upotrebu jednog ili više algoritama iz grupe koja se sastoji od: algoritma klaster analize postupkom k-srednjih vrednosti, algoritma klaster analize postupkom vrednosti sličnih k-srednjim vrednostima, povećanja očekivanja na maksimum i postupka zasnovanog na histogramu. Prema pojedinim aspektima, uklapanje može obuhvatati upotrebu algoritma za Maksimalno povećanje očekivanja. Prema pojedinim aspektima, postupak može obuhvatati normalizaciju vrednosti intenziteta. Prema određenim aspektima, vrednost specifičnosti signala se izračunava za svaku karakteristiku. Prema određenim aspektima, vrednost specifičnosti signala je funkcija relativnog rastojanja od karakteristike do dva najbliža centroida Gausove raspodele. Prema pojedinim aspektima, karakteristike sa vrednostima specifičnosti signala ispod vrednosti praga se izdvajaju postupkom filtriranja.
[0019] Detalјi jednog ili više primera izvođenja su navedeni u priloženim nacrtima i opisani su u nastavku teksta. Ostale karakteristike, ciljevi i prednosti će postati jasne iz opisa i nacrta, kao i iz patetnih zahteva.
KRATAK OPIS SLIKA NACRTA
[0020]
Slike 1A i 1B prikazuju podatke intenziteta dobijene upotrebom dvokanalnog sistema. Sl. 1A je tačkasti dijagram koji prikazuje sirove podatke intenzita za određenu pločicu i određeni ciklus, gde je nukleotid C predstavlјen signalom samo na kanalu 1, nukleotid A je predstavlјen signalom samo na kanalu 2, nukleotid T je predstavlјen signalom na oba od kanala 1 i 2, a G nukleotid je „zatamljen“. Sl. 1B prikazuje iste podatke koji su fazno korigovani upotrebom korekcije faziranja u skladu sa jednim primerom izvođenja postupaka koji su ovde prikazani.
Slika 2 prikazuje podatke intenziteta dobijene upotrebom dvokanalnog sistema koji su podvrgnuti raznim korekcijama faziranja.
Slika 3 prikazuje primer tačkastog dijagrama za intenzitete slike dobijene nakon dvokanalnog sekvenciranja.
Slika 4 prikazuje pristup uklapanja Gausove raspodele u podatke intenziteta dobijene nakon dvokanalnog sekvenciranja, prema jednom primeru izvođenja.
Slika 5 navodi primenu Maksimalnog povećanja očekivanja na podatke dobijene jednokanalnim sekvenciranjem (slika levo) i na podatke dobijene dvokanalnim sekvenciranjem (slika desno).
Slika 6 je dijagram toka koji ilustruje postupak u skladu sa jednim primerom izvođenja.
Slika 7 je dijagram toka koji ilustruje postupak u skladu sa jednim primerom izvođenja.
Slika 8 je dijagram toka koji ilustruje postupak u skladu sa jednim primerom izvođenja.
Slika 9 je dijagram toka koji ilustruje postupak u skladu sa jednim primerom izvođenja.
Slika 10 je blok dijagram sistema u skladu sa jednim primerom izvođenja.
DETALJAN OPIS PRONALASKA
[0021] Predmetna prijava opisuje razne postupke i sisteme za izvođenje postupaka. Primeri pojedinih postupaka su opisani kao serija koraka. Ipak, podrazumeva se da primeri izvođenja nisu ograničeni na određene korake i/ili redosled koraka koji su ovde opisani. Koraci mogu biti izostavljeni, koraci mogu biti modifikovani i/ili drugi koraci mogu biti dodati. Štaviše, koraci koji su ovde opisani se mogu kombinovati, koraci se mogu izvoditi simultano, koraci se mogu izvoditi istovremeno, koraci mogu biti podeljeni na mnoštvo pod-koraka, koraci mogu biti izvedeni po različitom rasporedu ili koraci (ili serije koraka) mogu biti ponovo izvođeni na iterativan način. Dodatno, iako su ovde navedeni različiti postupci, podrazumeva se da se različiti postupci (ili koraci različitih postupaka) mogu kombinovati u drugim primerima izvođenja.
[0022] Analiza podataka sa slika postavlja brojne izazove, posebno u pogledu poređenja slika predmeta ili strukture koje su snimljene iz različitih referentnih tačaka. Većina metodologija za analizu slike koristi, barem delimično, korake za poravnavanje mnoštva odvojenih slika jednih u odnosu na druge, na osnovu karakteristika ili elemenata koji su prisutni na obe slike. Razni primeri izvođenja kompozicija i postupaka koji su ovde opisani, poboljšavaja prethodne postupke analize slika. Pojedini od prethodnih postupaka analize slike su navedeni u U.S. Patent Application Publication No.2012/0020537, podnetoj 13. januara 2011. godine, pod nazivom, "DATA PROCESSING SYSTEM AND METHODS". Primeri izvođenja koji su opisani u tekstu koji sledi, takođe su opisani u Privremenoj SAD prijavi br.61/911,319, podnetoj 3. decembra 2013. godine. Jedan ili više primera izvođenja mogu takođe biti upotrebljeni u primerima izvođenja opisanim u U.S. Patent Application Publication No.2016/0085910, objavljenoj 24. marta 2016. godine.
[0023] Nedavno je razvijena oprema koja snima i analizira podatke u okviru slika generisanih u različitim vremenskim tačkama ili iz različitih perspektiva. Pojedini primeri obuhvataju opremu za analizu satelitskih snimaka, kao i opremu molekularne biologije za sekvenciranje i karakterizaciju molekulskog identiteta uzorka. U bilo kom od takvih sistema, za prikupljanje i čuvanje velikog broja slika visokog kvaliteta je obično potrebna ogromna količina kapaciteta za čuvanje podataka. Dodatno, jednom kada su slike prikupljene i sačuvane, analiza podataka može postati previše zahtevna u kontekstu kapaciteta i ometati izvođenje ostalih bitnih funkcija, poput daljeg kontrinuiranog snimanja i skladištenja podataka u vidu slika. Kao takvi, postupci i sistemi koji poboljšavaju brzinu i tačnost analize prikupljenih podataka i analizu podataka sa slika bi bili od koristi.
[0024] U oblasti molekularne biologije, jedan od procesa sekvenciranja nukleinskih kiselina u upotrebi je sekvenciranje-po-sintezi. Tehnika može biti primenjena na projekte masovnog uporednog sekvenciranja. Na primer, upotrebom automatizovane platforme je moguće istovremeno izvesti stotine hilјada reakcija sekvenciranja. Stoga, opis se odnosi na instrumente i postupke za pribavlјanje, skladištenje i analizu podataka sa slika generisanih tokom sekvenciranja nukleinskih kiselina.
[0025] Ogromni dobici u količini podataka koji mogu biti snimljeni i sačuvani, čine pojednostavlјene postupke analize slika još korisnijim. Na primer, postupci analize slika koji su ovde opisani omogućavaju i dizajnerima i krajnjim korisnicima da efikasno koriste postojeće kompjuterske sisteme. Shodno tome, ovde su predstavlјeni postupci i sistemi koji smanjuju opterećenje računara sa obradom podataka u trenutku brzog povećanja broja izlaznih podataka. Na primer, u oblasti sekvenciranja DNK, prinosi su se tokom poslednjih godina uvećali za 15 puta i sada mogu dostići stotine gigabaza u jednom ciklusu rada uređaja za sekvenciranje DNK. Ukoliko bi zahtevi za infrastrukturom računara srazmerno rasli, veliki eksperimenti tipa analize genoma bi postali nedostupni većini istraživača. Tako bi naime generisanje sirovijih podataka o sekvencama povećalo potrebu za sekundarnima uređajem za analizu i čuvanje podataka, čineći optimizaciju transporta i skladištenja podataka izuzetno važnima. Pojedini primeri izvođenja postupaka i sistema koji su ovde predstavljeni mogu smanjiti vreme, hardverske zahteve, zahteve umrežavanja i labaratorijske infrastrukture koji su potrebni za proizvodnju upotreblјivih podataka o sekvencama.
[0026] Kao što se ovde upotrebljava, "karakteristika" je površina od interesa unutar uzorka ili vidnog polja. Kada se upotrebljava u vezi uređaja sa mikročipovima ili drugim molekulskim analitičkim uređajima, karakteristika se odnosi na površinu koja je zauzeta sličnim ili identičnim molekulima. Na primer, karakteristika može biti amplifikovani oligonukleotid ili bilo koja druga grupa polinukleotida ili polipeptida sa istom ili sličnom sekvencom. U drugim primerima izvođenja, karakteristika može biti bilo koji element ili grupa elemenata koja fizički zauzima neku površinu unutar uzorka. Na primer, karakteristika bi mogla biti parcela zemlјe, vodeni objekat ili slično. Kada se karakteristika snima, svaka karakteristika će zauzimati neku površinu. Prema tome, u mnogim primerima izvođenja, karakteristika nije naprosto jedan piksel.
[0027] Rastojanja između karakteristika mogu biti opisana na bilo koji od brojnih načina. U pojedinim primerima izvođenja, rastojanja između karakteristika mogu biti opisana u vidu udaljenosti od centra jedne karakteristike do centra druge karakteristike. U drugim primerima izvođenja, karakteristika može biti opisana rastojanjem od ivice jedne karakteristike do ivice druge karakteristike ili između tačaka koje se mogu identifikovati kao one koje su najviše spolja za svaku karakteristiku. Ivica karakteristike može biti opisana kao teorijska ili stvarna fizička granica na genskom čipu ili kao neka tačka unutar granice te karakteristike. U drugim primerima izvođenja, rastojanja mogu biti opisana u odnosu na fiksnu tačku na uzorku ili na slici uzorka.
[0028] Višestruke kopije nukleinskih kiselina u okviru karakteristike mogu biti sekvencirane, na primer, obezbeđivanjem obeleženih nukleotidnih baza na molekulskom čipu, čime se produžava prajmer hibridizovan sa nukleinskom kiselinom unutar karakteristike, a tako da se proizvodi signal koji odgovara karakteristici koja sadrži nukleinsku kiselinu. U poželјnim primerima izvođenja, nukleinske kiseline unutar karakteristike su identične ili suštinski identične jedna drugoj.
[0029] U pojedinim od postupaka analize slika koji su ovde opisani, svaka slika u skupu slika sadrži signale u boji, pri čemu drugačija boja odgovara različitoj nukleotidnoj bazi. Prema pojedinim aspektima, svaka slika iz skupa slika sadrži signale koji su jedne boje izabrane od najmanje četiri različite boje. Prema određenim aspektima, svaka slika iz skupa slika sadrži signale koji su jedne boje izabrane od četiri različite boje.
[0030] U pogledu određenih četvorokanalnih postupaka koji su ovde opisani, nukleinske kiseline mogu biti sekvencirane obezbeđivanjem četiri različito obeležene nukleotidne baze na genskom molekulskom čipu, tako da se proizvode četiri različite slike, pri čemu svaka slika sadrži signale jedne boje i pri čemu je boja signala različita za svaku od četiri različite slike, čime se stvara ciklus od četiri slike u boji koje odgovaraju četiri moguća tipa nukleotida koji mogu biti prisutni na određenoj poziciji u nukleinskoj kiselini. Prema određenim aspektima, takvi postupci mogu dodatno obuhvatati obezbeđivanje dodatnih obeleženih nukleotidnih baza na molekulskom čipu, čime se proizvodi mnoštvo ciklusa slika u boji.
[0031] U pogledu određenih dvokanalnih postupaka koji su ovde opisani, nukleinske kiseline mogu biti sekvencirane upotrebom postupaka i sistema koji su opisani u U.S. Patent Application Publication No.
2013/0079232. U vidu prvog primera, nukleinska kiselina može biti sekvencirana obezbeđivanjem prvog tipa nukleotida koji se detektuje na prvom kanalu, drugog tipa nukleotida koji se detektuje na drugom kanalu, trećeg tipa nukleotida koji se detektuje i na prvom i na drugom kanalu i četvrtog tipa nukleotida kome nedostaje obeleživač i koji se ne detektuje ili se minimalno detektuje na bilo kom od kanala. Prema određenim aspektima, takvi postupci mogu dalјe obuhvatati obezbeđivanje dodatnih obeleženih nukleotidnih baza na molekulskom čipu, čime se proizvodi mnoštvo ciklusa slika u boji.
Procena kvaliteta
[0032] Procena kvaliteta se odnosi na proces dodelјivanja ocene kvaliteta za svako očitavanje baza. U pojedinim primerima izvođenja, gde se četiri različita nukleotida detektuju upotrebom manje od četiri različita obeleživača, očitavanje baza zahteva drugačiji skup analitičkih pristupa u poređenju sa sistemima koji koriste tradicionalnu detekciju sa četiri obeleživača. Na primer, SBS može biti urađen upotrebom dvokanalnih postupaka i sistema opisanih u U.S. Patent Application Publication No.
2013/0079232. Na primer, u primerima izvođenja u kojima se upotrebljava dvokanalna detekcija, očitavanje baza se vrši ekstrahovanjem podataka sa dve slike, pre nego sa četiri. Usled fundamentalnih razlika uključenih u dvokanalno očitavanje baza, tradicionalni pristupi procene kvaliteta koji se primenjuju za četvorokanalno očitavanje baza, nisu kompatibilni sa podacima dvokanalnog očitavanja baza. Na primer, profil grešaka dobijen za dvokanalne podatke se bitno razlikuje od profila grešaka za podatke sa četiri kanala. U pogledu ovih razlika, potreban je novi pristup za evaluaciju kvaliteta očitavanje baza.
[0033] Shodno navedenom, ovde su predstavlјeni postupci i sistemi za evaluaciju kvaliteta očitavanja baza u okviru očitavanja sekvenciranja. U pojedinim primerima izvođenja, očitavanje sekvenciranja koristi dvokanalno očitavanje baza. U pojedinim primerima izvođenja, očitavanje sekvenciranja koristi jednokanalno očitavanje baza.
[0034] Procena kvaliteta se obično navodi kao QXX, gde je XX rezultat, što označava da je to određeno očitavanje sa verovatnoćom greške od 10^(-XX/10). Na primer, Q30 je jednak stopi greške od 1 na 1000 ili 0,1%, dok je Q40 jednak stopi greške od 1 na 10000 ili 0,01%.
[0035] U pojedinim primerima izvođenja, tabela kvaliteta se generiše upotrebom Phred sistema za procenu na skup kalibracionih podataka, pri čemu je skup kalibracionih podataka reprezentativan za varijabilnost jedne analize i same sekvence. Phred sistema za procenu je detalјnije opisan u U.S. Patent No.8,392,126, pod nazivom, "METHOD AND SYSTEM FOR DETERMINING THE ACCURACY OF DNA BASE IDENTIFICATIONS."
[0036] U pojedinim primerima izvođenja, postupci mogu sadržavati korake: (a) izračunavanja skupa prediktorskih vrednosti za očitavanje baza; (b) upotrebu prediktorskih vrednosti za pretragu ocene kvaliteta u okviru tabele kvaliteta. U određenim primerima izvođenja, procena kvaliteta se vrši izračunavanjem skupa prediktora za svako očitavanje baza i upotrebom ovih prediktorskih vrednosti za pretragu ocene kvaliteta u okviru tabele kvaliteta. U pojedinim primerima izvođenja, tabela kvaliteta se generiše upotrebom modifikacije Phred algoritma na skup kalibracionih podataka koji su reprezentativni za varijabilnost jedne analize i same sekvence. Prediktorske vrednosti za svako očitavanje baza mogu predstavljati bilo koji pogodan aspekt koji može ukazivati ili predvideti kvalitet očitavanja baza za datu analizu sekvenciranja. Na primer, pojedini podogni predikotri su navedeni u U.S. Patent Application Publication No. 2012/0020537, podnetoj 13. januara 2011. godine, pod nazivom, "DATA PROCESSING AND METHODS". Kao što je detalјnije opisano u nastavku, pogodne prediktorske vrednosti mogu obuhvatati, na primer: preklapanje u toku procesa; čistoću signala; faziranje; start5; heksamersku procenu; akumulaciju motiva; poredak informacija po veličini; procenu približnosti homopolimeru; raspadanje intenziteta; specifičnosti signala u pretposlednjem koraku; preklapanje signala sa signalom pozadine (SOWB) i pomeraj u podešavanju čistoće za G. Bilo koja pogodna kombinacija prethodno navedenih prediktivnih vrednosti može biti upotrebljena u postupcima koji su ovde predstavljeni.
[0037] U određenim primerima izvođenja, prediktori kvaliteta koji se upotrebljavaju u Phred algoritmu obuhvataju preklapanje u toku procesa; čistoću signala; faziranje; start5; heksamersku procenu; akumulaciju motiva; poredak informacija po veličini; procenu približnosti homopolimeru; raspadanje intenziteta; specifičnosti signala u pretposlednjem koraku; i preklapanje signala sa signalom pozadine (SOWB).
[0038] Kao što se ovde upotrebljava, "preklapanje u toku procesa" ("online preklapanje") se odnosi na meru razdvajanja očitanog intenziteta signala koji je u prvom planu i intenziteta signala pozadine. Na primer, u pojedinim primerima izvođenja, ova ocena predstavlja statističko merenje signala u odnosu na šum očitavanja do postignutog očitavanja baza i procenjuje se tako da bude uračunato više od nekoliko poslednjih očitavanja baza, iako čak i prva očitavanja baza u okviru očitavanja sekvenciranja imaju uticaj.
[0039] Kao što se ovde upotrebljava, "čistoća signala" (engl. purity) se odnosi na merenje koje hvata koliko je verovatno da se pouzdanost očitane baze zasniva na ciklusu koji je u toku, odnosno meri kako je očitavanje baza značajno kada se uporedi sa ostale tri baze.
[0040] Kao što se ovde upotrebljava, "faziranje" se odnosi na merenje šuma koje je prenet iz prethodnih i u sledeće cikluse, što je suštinski zbir pondera faziranja i predfaziranja.
[0041] Kao što se ovde upotrebljava, "Start5" se odnosi na binarnu metriku koja beleži fragmentaciju preparata uzorka na početku očitavanja. Na primer, u primeru izvođenja za primer, ovakav prediktor može primiti binarni kod „1“ tokom prvih 5 ciklusa i „0“ za svaki ciklus nakon toga.
1
[0042] Kao što se ovde upotrebljava, „heksamerska procena“ se odnosi na merenje koje analizira heksamere i vraća faktor obogaćivanja koji odražava koliko je heksamer obogaćen blizu grešaka specifičnih za sekvencu. Na primer, u pojedinim primerima izvođenja, ovaj rezultat povezuje meru poteškoća u sekvenciranju sa svakom od sekvenci od šest baza i primenjuje se počevši od ciklusa 6 ciklusa analize. Tako, vrednosti primenjene pre ciklusa 6 predstavljaju srednju vrednost prediktora kada su svi heksameri usrednjeni zajedno.
[0043] Kao što se ovde upotrebljava, "akumulacija motiva" se odnosi na merenje koje održava kumulativni zbir Heksamerskih procena kao prediktora, uračunavajući tako koliko je kontekst sekvenci bio poteškoća u prethodnim ciklusima očitavanja. Na primer, u pojedinim primerima izvođenja, ova procena je kumulativni zbir heksamerskih procena i predviđeno je da meri celokupnu poteškoću u očitavanju sekvenciranja do postignutog očitavanje baza.
[0044] Kao što se ovde upotrebljava, "poredak informacija po veličini" (engl. endiness) se odnosi na merenje koje prati koliko je očitavanje blizu završetka. Na primer, u pojedinim primerima izvođenja, ova ocena je recipročna broju ciklusa.
[0045] Kao što se ovde upotrebljava, "procena približnosti homopolimeru" odnosi se na izračunavanje broja uzastopnih identičnih očitavanja baza koji su prethodili trenutnom očitavanju baze. U određenim primerima izvođenja, izračunavanje može dozvoliti jedan izuzetak, kako bi se identifikovali problematični konteksti sekvenci kao što su homopolimerski ciklusi analize i problematični motivi poput "GGCGG".
[0046] Kao što se ovde upotrebljava, "raspadanje intenziteta" se odnosi na identifikovanje očitavanja baza koja trpe gubitak signala kako sekvenciranje napreduje. Na primer, navedeno može biti dobijeno upoređivanjem najsjajnijeg intenziteta u ciklusu koji se trenutno odvija sa najsjajnijim intenzitetom u ciklusu 1.
[0047] Kao što se ovde upotrebljava, "specifičnosti signala u pretposlednjem ciklusu" (engl. "penultimate chastity") se odnosi na merenje kvaliteta ranih očitavanja u prvih 25 baza zasnovano na drugoj po redu od najlošijih vrednosti specifičnosti signala. Na primer, u pojedinim primerima izvođenja, ova ocena je povezana sa kvalitetom očitavanja, koji je u korelaciji sa ukupnim nivoom kvaliteta u prvih 25 ciklusa. Ovaj prediktor je veoma sličan kriterijumima koji se upotrebljavaju za obeležavanje očitavanja kao filtriranog ili nefiltriranog i ima za posledicu da ocene kvaliteta budu nezavisne od toga da li su analizirani svi podaci iz ciklusa analize ili samo oni koji su prošli kroz postupak filtriranja. Specifičnost signala može biti određena kao najveća vrednost intenziteta podelјena sa zbirom najviše vrednosti intenziteta i druge po redu najviše vrednosti intenziteta, pri čemu se vrednosti intenziteta dobijaju sa četiri kanala boja. Na primer, u pojedinim primerima izvođenja, postupci evaluacije kvaliteta mogu dalјe obuhvatatai identifikovanje da li je očitavanje sa drugom po redu od najlošijih vrednosti specifičnosti signala u prvom podskupu očitavanja baza ispod praga, i dalje obeležavanje ovakvih očitavanja kao podataka lošeg kvaliteta. Prvi podskup očitavanja baza može biti bilo koji pogodan broj očitavanja baza koji obezbeđuje dovolјan Na primer, podskup može biti prvih 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25 ili više od prvih 25 očitavanja baza. Ovo može biti označeno kao filtriranje očitavanja, tako da se u određenim primerima izvođenja, klasteri koji ispunjavaju uslove predviđene ovakvom graničnom vrednošću označavaju kao oni koji su "prošli postupak filtriranja".
[0048] Kao što se ovde upotrebljava, „preklapanje signala sa signalom pozadine“ (SOWB), odnosi se na merenje razdvajanja signala od šuma u prethodnim i sledećim ciklusima. U poželјnom primeru izvođenja, merenje koristi 5 ciklusa koji su neposredno prethodili ili slede nakon ciklusa koji se odvija u datom trenutku.
[0049] Kao što se ovde upotrebljava, "podešavanje pomeraja u čistoći signala za G " se odnosi na merenje razdvajanja signala od šuma samo za očitavanje baza koje je u toku, uz istovremeno uračunavanje efekata prigušivanja za G. Usled interakcije između boje i DNK baze koja je ugrađena u prethodnom ciklusu, intenziteti u određenim kanalima za boju mogu biti smanjeni (prigušeni) u ciklusima koji prate one cikluse u kojima se ugrađuje G nukleotid.
[0050] Nakon izračunavanja ocena kvaliteta, mogu biti opciono obavljene dodatne operativne radnje. Tako, u pojedinim primerima izvođenja, postupak za procenu kvaliteta očitavanja baza dalјe obuhvata umanjivanje zastupljenosti nepouzdanih mera kvaliteta na kraju svakog očitavanja. U poželјnim primerima izvođenja, korak umanjivanja nepouzdanih mera kvaliteta podrazumeva upotrebu algoritma za identifikovanje praga pouzdanosti. U poželјnijem primeru izvođenja, pozdana očitavanja baza karakteriše q-vrednosti iznad praga, dok nepouzdana očitavanja baza karakteriše q-vrednosti ispod praga. Algoritam za određivanje praga pouzdanosti može, na primer, sadržavati algoritam Maksimalnog bodovanja segmenata na osnovu krajnjeg usidravanja (EAMSS). Kao što se ovde upotrebljava, "EAMSS algoritam" je algoritam koji identifikuje tačke gde dobra i pouzdana očitavanja baza (sa uglavnom visokim q-vrednostima) postaju nepouzdana očitavanja baza (sa uglavnom niskim q-vrednostima). Identifikacija takvih tačaka prelaza može biti urađena, na primer, upotrebom Skrivenog Markovljevog modela koji identifikuje pomeraje u lokalnoj distribuciji ocena kvaliteta. Na primer, može biti upotrebljen Skriveni Markovljev model. Korisni Skriveni Markovljev model su opisani, na primer, u Lawrence R. Rabiner (februar 1989). "A tutorial on Hidden Markov Models and selected applications in speech recognition". Proceedings of the IEEE 77 (2): 257-286. doi: 10.1109/5.18626. Ipak, kao što stručnjaci iz obasti tehnike mogu lako i predvideti, može biti upotrebljen bilo koji pogodan model umanjivanja nepouzdanih ocena kvaliteta. U poželјnom primeru izvođenja, nepouzdana očitavanja baza mogu obuhvatati očitavanja baza sa snažnom pristrasnošću ka G očitavanjima baza.
Metrike u realnom vremenu
[0051] Postupci i sistemi koji su ovde obezbeđeni mogu takođe koristiti metrike u realnom vremenu da bi korisniku prikazao kvalitet analize. Metrike mogu biti prikazane u vidu grafika, dijagrama, tabela, slika ili u vidu bilo kog od drugih pogodnih posupaka prikazivanja koji obezbeđuje smisleni ili koristan prikaz pojedinih aspekata kvaliteta ciklusa analize korisniku. Na primer, metrike u realnom vremenu koje se prikazuju korisniku mogu obuhvatati prikaz vrednosti intenziteta tokom ciklusa analize, kvalitet fokusa optičke opreme i gustinu klastera u svakoj traci. Dodatni metrički prikazi mogu obuhvatati Q skor, prikazan kao raspodela zasnovana na Q skoru, ili kao toplotna mapa, na primer, po ciklusu analize. U pojedinim primerima izvođenja, metrike u realnom vremenu mogu uključivati sumarnu tabelu raznih parametara, poređanih po, na primer, traci, pločici ili broju ciklusa. Podaci slike sa celokupne pločice ili podregiona pločice mogu biti prikazani radi vizuelne povrde kvaliteta slike. Takvi podaci slika mogu obuhvatati bliske, srodne slike pojedinih ili svih delova slike.
[0052] Dodatno, pojedini metrički prikazi podataka mogu uklјučivati stopu greške po ciklusu. Stopa greške može biti izračunata upotrebu kontrolne nukleinske kiseline.
Postupci sekvenciranja
[0053] Postupci koji su ovde opisani mogu biti upotrebljeni u kombinaciji sa raznovrsnim tehnikama sekvenciranja nukleinskih kiselina. Posebno su primenlјive one tehnike gde su nukleinske kiseline vezane za fiksne lokacije na genskom čipu tako da se njihove relativne pozicije ne menjaju i gde se čip stalno ponavlјano snima. Primeri izvođenja u kojima se slike dobijaju na različitim kanalima boja, na primer, koji se podudaraju sa različitim obeleživačima koji su upotrebljeni za razlikovanje jednog tipa nukleotidne baze od drugog, posebno su primenljivi. U pojedinim primerima izvođenja, proces za utvrđivanje nukleotidne sekvence cilјne nukleinske kiseline može biti automatizovan proces. Poželјni primeri izvođenja podrazumevaju tehnike sekvenciranja-po-sintezi (SBS).
[0054] SBS tehnike uglavnom uklјučuju enzimatsko produžavanje matičnog lanca nukleinske kiseline kroz iterativno dodavanje nukleotida shodno lancu koji je matrica. U tradicionalnim SBS postupcima, jedan nukleotidni monomer može biti obezbeđen cilјnom nukleotidu u prisustvu polimeraze pri svakoj isporuci. Ipak, u postucima koji su ovde opisani, više od jednog tipa nukleotidnog monomera može biti obezbeđen cilјnoj nukleinskoj kiselini u prisustvu polimeraze prilikom isporuke.
[0055] SBS može koristiti nukleotidne monomere koji sadrže ostatak za terminaciju ili one kojima ostatak za terminaciju nedostaje. Postupci koji koriste nukleotidne monomer kome nedostaje ostatak za terminaciju obuhvataju, na primer, pirosekvenciranje i sekvenciranje upotrebom nukleotida obeleženih γ-fosfatom, kao što je detaljnije navedeno u nastavku teksta. U postupcima u kojima se uporebljavaju monomeri kojima nedostaje ostatak za terminaciju, broj nukleotida koji se dodaje u svakom ciklusu je generalno varijabilan i zavisi od sekvence matrice, kao i od načina isporuke nukleotida. Za SBS tehnike koje koriste nukleotidne monomere sa ostatkom za terminaciju, terminator može biti efektivno vezana na ireverzibilan način u uslovima sekvenciranja koji se upotrebljavaju, kao što je to slučaj kod tradicionalnog Sangerovog sekvenciranja u kome se koriste didezoksinukleotidi, ili terminator može biti reverzibilano vezan, kao što je to slučaj kod postupaka sekvenciranja razvijenih od strane kompanije Solexa (sada Illumina, Inc.)
[0056] SBS tehnike mogu koristiti nukleotidne monomere koji sadrže ostatak za obeležavanje ili one kojima ostatak za obeležavanje nedostaje. Shodno tome, događaji ugrađivanja mogu biti detektovani na osnovu karakteristika obeleživača, kao što je to fluorescencija obeleživača; na osnovu karakteristika nukleotidnog monomera poput molekulske težine ili naelektrisanja; sporednog proizvoda ugrađivanja nukleotida, kao što je oslobađanje pirofosfata; ili sličnog. U primerima izvođenja gde su dva ili više od različitih nukleotida prisutni u reagensu za sekvenciranje, različiti nukleotidi se mogu razlikovati jedan od drugog, ili alternativno, dva ili više različitih obeleživača se ne mogu razlikovati u tehnikama detekcije koje se upotrebljavaju. Na primer, različiti nukleotidi koji su prisutni u reagensu za sekvenciranje mogu sadržavati različite obeleživače i mogu se razlikovati upotrebom odgovarajućih optika, kao što to slučaj kod postupaka sekvenciranja za primer koji su razvijeni od strane kompanije Solexa (sada Illumina, Inc.).
[0057] Poželјni primeri izvođenja obuhvataju tehnike pirosekvenciranja. Pirosekvenciranjem se detektuje oslobađanje neorganskog pirofosfata (PPi) kada se određeni nukleotidi ugrade u nastajući lanac (Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. i Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res.11(1), 3-11; Ronaghi, M., Uhlen, M. i Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science
1
281(5375), 363; U.S. Pat. No. 6,210,891; U.S. Pat. No. 6,258,568 and U.S. Pat. No. 6,274,320). U piroskvenciranju, oslobođeni PPi može biti detektovan time što se odmah prevodi u adenozin trifosfat (ATP), dejstvom ATP sulfurilaze, a nivo generisanog ATP-a se detektuje putem fotona koje proizvodi luciferaza. Nukleinske kiseline koje će biti sekvencirane mogu biti vezane za karakteristike na genskom čipu i čip može biti sniman da bi se uhvatili hemiluminscentni signali koji se proizvode usled ugrađivanja nukleotida na karakteristike genskog čipa. Slika može biti dobijena nakon tretiranja čipa sa određenim tipom nukleotida (npr. A, T, C ili G). Slike dobijene nakon dodavanja svakog tipa nukleotida će se razlikovati u kontekstu karakteristika na genskom čipu koje se mogu detektovati. Ovakve razlike na slici odražavaju različit sadržaj sekvenci koje predstavljaju karakteristike na genskom čipu. Ipak, relativne pozicije svake od karakteristika će na slikama ostati nepromenjene. Slike mogu biti sačuvane, obrađene i analizirane upotrebom postupaka koji su ovde navedeni. Na primer, slike dobijene nakon tretmana genskog čipa sa svakim od različitih tipova nukleotida mogu biti obrađene na isti nakčin kao što je to ovde prikazano u vidu primera za slike koje su dobijene sa različitih kanala detekcije u reverzibilnim postupcima sekvenciranja zasnovanim na terminaciji.
[0058] U drugom tipu SBS za primer, ciklusi sekvenciranja se ostvaruju postupnim dodavanjem reverzibilnih terminacionih nukleotida koji sadrže, na primer, obeleživač koji se može podvrgnuti enzimskom cepanju ili je sa bojom koja se gubi, kao što je opisano, na primer, u WO 04/018497 i U.S. Pat. No.7,057,026. Ovakav pristup je komercijalizovala kompanija Solexa (sada Illumina Inc.), a opisan je takođe u WO 91/06678 i WO 07/123,744. Dostupnost fluorescentno označenih terminatora koji mogu biti i tipa terminacije koja može biti revertovana i tipa cepanja fluorescentnog obeleživača, može olašati efikasnu cikličnu reverzibilnu terminaciju (CRT) sekvenciranja. Postupak može biti dizajniran i tako da istovremeno budu prisutne i polimeraze, a da bi se ovako modifikovani nukleotidi efikasno ugradili i na njih nastavila dalja ugradnja nukleotida.
[0059] Poželјno je da u primerima izvođenja sekvenciranja zasnovanog na reverzibilnoj terminaciji, obeleživači suštinski ne inhibiraju ekstenziju pod uslovima SBS reakcija. Ipak, obeleživači za detekciju mogu biti takvi da se mogu ukloniti, na primer, cepanjem ili razgradnjom. Slike mogu biti snimane nakon ugrađivanja obeleživača u nukleinske kiseline koje predstavljaju karakteristike genskog čipa. U posebnim primerima izvođenja, svaki ciklus obuhvata simultanu isporuku četiri različita tipa nukleotida na genski čip, pri čemu svaki tip nukleotida sadrži spektralno različit obeleživač. Potom mogu biti dobijene četiri slike, od kojih svaka koristi kanal za detekciju koji je selektivan za jedan od četiri različita obeleživača. Alternativno, različiti tipovi nukleotida mogu biti dodati sekvencijalno, a između svakog koraka dodavanja može biti snimana slika genskog čipa. U takvim primerima izvođenja, svaka slika će prkazivati karakteristike nukleinskih kiselina koje su ugradile nukleotid određenog tipa. Različite karakteristike će biti prisutne ili odsutne na različitim slikama usled različitog sadržaja sekveni svake karakteristike. Ipak, relativna pozicija karakteristika će na slikama ostati nepromenjena. Slike dobijene iz takvih SBS postupaka sa reverzibilnom terminacijom mogu biti sačuvane, obrađene i analizirane kao što je to ovde navedeno. Nakon koraka snimanja slika, obeleživači mogu biti uklonjeni, a mogu biti uklonjeni i reverzibilni ostaci za terminaciju da bi se nastavilo sa narednim ciklusima dodavanja i detekcije nukleotida. Uklanjanje obeleživača nakon njihove detektcije u određenom ciklusu i pre narednog ciklusa može obezbediti prednost tipa smanjenja signala pozadine i ukrštene reaktivnosti između ciklusa. Primeri korisnih obleleživača i postupaka uklanjanja su navedeni u nastavku teksta.
[0060] U posebnim primerima izvođenja, pojedini ili svi nukleotidni monomeri mogu sadržavati reverzibilne terminatore. U takvim primerima izvođenja, reverzibilni terminatori/fluorofore koje se mogu isecati cepanjem, mogu sadržavati fluoroforu koja je povezana sa ostatkom riboze preko 3' estarske veze (Metzker, Genome Res.15:1767-1776 (2005)). U drugim pristupima, hemija terminacije je razdvojena od cepanja fluorescentnog obeleživača (Ruparel i saradnici, Proc Natl Acad Sci USA 102: 5932-7 (2005)). Ruparel i saradnici su opisali razvoj reverzibilnih terminatora koji upotrebljavaju malu 3' alilnu grupu za blokiranje ekstenzije, ali koje je moguće lako odblokirati kratkim tretmanom sa paladijumskim katalizatorom. Fluorofora se pričvršćuje za bazu preko linkera koji se može cepati dejstvom svetlosti, odnosno koji lako može biti odvojen cepanjem pri izlaganju UV svetlosti, dugih talasnih dužina, tokom 30 sekundi. Tako, bilo redukcija disulfidnih veza ili cepanje svetlošću može biti upotrebljeno za linkere koji su podložni cepanju. Drugi pristup reverzibilnoj terminaciji je upotreba prirodne terminacije koja nastupa nakon postavljanja kabaste boje na dNTP. Prisustvo naelektrisane kabaste boje na dNTP može delovati kao efektivan terminator usled steričkog i/ili elektrostatičnog ometanja. Prisustvo jednog događaja ugrađivanja sprečava dalјe ugrađivanje, osim ukoliko se boja ukloni. Cepanjem boje se uklanja fluorofora i efektivno se revertuje terminacija. Primeri modifikovanih nukleotida su takođe opisani u U.S. Pat. No.7,427,673 i U.S. Pat. No.7,057,026.
[0061] Dodatni primeri SBS sistema i postupaka koji mogu biti upotrebljeni u postupcima i sistemima koji su ovde prikazani, opisani su u U.S. Patent Application Publication No.2007/0166705, U.S. Patent Application Publication No.2006/0188901, U.S. Pat. No.7,057,026, U.S. Patent Application Publication No. 2006/0240439, U.S. Patent Application Publication No. 2006/0281109, PCT Publication No. WO 05/065814, U.S. Patent Application Publication No. 2005/0100900, PCT Publication No. WO 06/064199, PCT Publication No. WO 07/010,251, U.S. Patent Application Publication No.
2012/0270305 i U.S. Patent Application Publication No.2013/0260372.
[0062] Pojedini primeri izvođenja mogu koristiti detekciju četiri različita nukleotida upotrebom manje od četiri različita obeleživača. Na primer, SBS može biti izveden upotrebom postupaka i sistema opisanih u U.S. Patent Application Publication No.2013/0079232. U vidu prvog primera, par različitih tipova nukleotida može biti detektovan na istoj talasnoj dužini, ali se oni mogu razlikovati na osovu razlike u intenzitetu jednog člana para u poređenju sa drugim, ili na osnovu promene jednog člana para (npr. putem hemijske modifikacije, fotohemijske modifikacije ili fizičke modifikacije) koja prouzrokuje pojavu ili nestajanje jasnog signala u poređenju sa signalom koji se detektuje za drugog člana para. U vidu drugog primera, pod određenim uslovima mogu biti detektovana tri od četiri različita tipa nukleotida, dok četvrtom tipu nukleotida nedostaje obeleživač koji se može detektovati pod tim uslovima, ili koji je pod tim uslovima sa minimumom detekcije (npr. minimalna detekcija je posledica fluorescencije pozadine itd.). Ugradnja prva tri tipa nukleotida u nukleinsku kiselinu može biti utvrđena na osnovu prisustva njihovih odgovarajućih signala, dok ugradnja četvrtog tipa nukleotida u nukleinsku kiselinu može biti utvrđena na osnovu odsustva ili minimalne detekcije bilo kog signala. Treći primer je da jedan tip nukleotida može sadržavati obeleživač(e) koji se detektuje na dva različita kanala, dok se drugi tipovi nukleotida detektuju na ne više od jednog kanala. Prethodno navedene tri konfiguracije za primer se ne smatraju međusobno isklјučivim i mogu biti upotrebljene u raznim kombinacijama. Prioritetan primer izvođenja koji kombinuje sva tri primera, predstavlja SBS postupak zasnovan na fluorescenciji u kome se upotrebljava prvi tip nukleotida koji se detektuje na prvom kanalu (npr. dATP sa obeleživačem koji se detektuje na prvom kanalu kada se on ekscitira prvom ekscitacionom talasnom dužinom), drugi tip nukleotida koji se detektuje na drugom kanalu (npr. dCTP sa obeleživačem koji se detektuje na drugom kanalu kada se on ekscitira drugom ekscitacionom talasnom dužinom), treći tip nukleotida koji se detektuje i na prvom i na drugom kanalu (npr. dTTP sa najmanje jednim obeleživačem koji se detektuje na oba kanala kada se oni ekscitiraju prvom/drugom ekscitacionom
1
talasnom dužinom) i četvrti tip nukleotida kome nedostaje obeleživač i koji se ne detektuje ili je sa minimalnom detekcijom na bilo kom kanalu (npr. dGTP koji ne sadrži obeleživač).
[0063] Dodatno, kao što je opisano u pridruženim materijalima iz U.S. Patent Application Publication No. 2013/0079232, podaci sekvenciranja mogu biti dobijeni upotrebom jednog kanala. U ovim takozvanim jednobojnim pristupima sekvenciranja, prvi tip nukleotida se obeležava, ali se obeleživač uklanja nakon generisanja prve slike, dok se drugi tip nukleotida obeležava jedino nakon generisanja prve slike. Treći tip nukleotida zadržava svoj obleleživač i na prvoj i na drugoj od slika, dok četvrti tip nukleotida ostaje neobeležen na obe slike.
[0064] Pojedini primeri izvođenja mogu koristiti tehnike sekvenciranja-po-ligaciji. Takve tehnike koriste DNK ligazu za ugradnju oligonukleotida i zatim identifikovanje ugrađivanja takvih oligonukleotida. Oligonukleotidi obično sadrže različite obeleživača koje su u korelaciji sa identitetom određenog nukleotida u sekvenci sa kojim oligonukleotidi hibridizuju. Kao i kod drugih SBS postupaka, slike mogu biti dobijene nakon tretmana genskog čipa sa karakteristikama u vidu nukleinskih kiselina, sa obeleženim reagensima za sekvenciranje. Svaka slika će prikazati karakteristike u vidu nukleinskih kiselina koje su ugradile obeleživače određenog tipa. Različite karakteristike će biti prisutne ili odsutne na različitim slikama usled različitog sadržaja sekvenci svake karakteristike, ali će relativna pozicija karakteristika na slikama ostati nepromenjena. Slike dobijene postupcima sekvenciranja zasnovanim na ligaciji mogu biti sačuvane, obrađene i analizirane kao što je ovde navedeno. SBS sistemi i postupci za primer koji mogu biti iskorišćeni u postupcima i sistemima koji su ovde navedeni, opisani su u U.S. Pat. No.6,969,488, U.S. Pat. No.6,172,218, i U.S. Pat. No.6,306,597.
[0065] Pojedini primeri izvođenja mogu koristiti sekvenciranje na nanoporama (Deamer, D. W. i Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol.18, 147-151 (2000); Deamer, D. i D. Branton, "Characterization of nucleic acids by nanopore analysis". Acc. Chem. Res. 35:817-825 (2002); Li, J., M. Gershow, D. Stein, E. Brandin, i J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater.2:611-615 (2003)). U takvim primerima izvođenja, cilјna nukleinska kiselina prolazi kroz nanopore. Nanopore mogu biti sintetske pore ili protein biološke membrane, kao što je α-hemolizin. Dok cilјna nukleinska kiselina prolazi kroz nanopore, svaki par baza može biti identifikovan merenjem fluktuacija u električnoj provodlјivosti pore. (U.S. Pat. No. 7,001,792; Soni, G. V. i Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001 (2007); Healy, K. "Nanoporebased single-molecule DNA analysis." Nanomed.2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with singlenucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008)). Podaci dobijeni sekvenciranjem na nanoporama mogu biti sačuvani, obrađeni i analizirani kao što je ovde navedeno. Preciznije, podaci mogu biti tretirani kao slika u skladu sa postupkom obrade optičkih slika i drugih slika za primer koji su ovde navedeni.
[0066] Pojedini primeri izvođenja mogu koristiti postupke koje uključuju praćenje aktivnosti DNK polimeraze u realnom vremenu. Ugrađivanja nukleotida mogu biti detektovana posredstvom fluorescentnog rezonantnog prenosa energije (FRET) interakcija između polimeraze koja nosi fluoroforu i nukleotida obeleženih γ-fosfatom, kao što je to opisano, na primer, u U.S. Pat. No.
7,329,492 i U.S. Pat. No.7,211,414, ili se ugrađivanja nukleotida mogu detektovati upotrebom nultogmoda usmeravanja talasnih dužina, kao što je to opisano, na primer, u U.S. Pat. No. 7,315,019 i
1
upotrebom fluorescentnih nukleotidnih analoga i konstruisanih polimeraza kao što je opisano, na primer, u U.S. Pat. No.7,405,281 i U.S. Patent Application Publication No.2008/0108082. Osvetlјenost može biti ograničena na zapremine u zeptolitarskoj skali oko površine za koju je premošćivanjem vezana polimeraza, tako da se ugrađivanje fluorescentno obeleženog nuklotida može uočiti sa niskim signalom pozadine (Levene, M. J. i saradnici, "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686 (2003); Lundquist, P. M. i saradnici, "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008); Korlach, J. i saradnici, "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)). Slike dobijene takvim postupcima mogu biti sačuvane, obrađene i analizirane kao što je ovde navedeno.
[0067] Prednost prethodno navedenih SBS postupaka je što mogu biti izvedeni u multipleksnim formatima tako da se istovremeno manipuliše sa mnoštvom različitih cilјnih nukleinskih kiselina. U posebnim primerima izvođenja, različite cilјne nukleinske kiseline mogu biti tretirane u zajedničkoj reakcionoj posudi ili na površini određenog supstrata. Navedeno omogućava pogodnu isporuku reagenasa za sekvenciranje, uklanjanje reagensa koji nisu izreagovali i detekciju događaja ugrađivanja na multipleksni način. U primerima izvođenja u kojima se upotrebljavaju ciljne nukleinske kiseline vezane za površinu, cilјne nukleinske kiseline mogu biti u formatu genskog čipa. U formatu genskog čipa, cilјne nukleinske kiseline mogu biti uobičajeno vezane za površinu na prostorno raspoznatljiv način. Cilјne nukleinske kiseline mogu biti vezane direktnim kovalentnim vezivanjem, vezivanjem za globule ili druge čestice, ili vezivanjem za polimerazu ili drugi molekul koji je pričvršćen za površinu. Genski čip može sadržavati jednu kopiju cilјne nukleinske kiseline na svakoj poziciji (označenoj ovde i kao karakteristika) ili mnoštvo kopija sa istom sekvencom može biti prisutno na svakom mestu ili karakteristici. Višestruke kopije mogu biti proizvedene postupcima amplifikacije, kao što su premošćena amplifikacija ili PCR u emulziji, koji su dodatno detaljno opisani u nastavku teksta.
[0068] Postuci koji su ovde navedeni mogu upotrebljavati genske čipove sa karakteristikama bilo koje od raznovrsnih gustina, uklјučujući, na primer, najmanje oko 10 karakteristika/cm<2>, 100 karakteristika/cm<2>, 500 karakteristika/cm<2>, 1.000 karakteristika/cm<2>, 5.000 karakteristika/cm<2>, 10.000 karakteristika/cm<2>, 50.000 karakteristika/cm<2>, 100.000 karakteristika/cm<2>, 1.000.000 karakteristika/cm<2>, 5.000.000 karakteristika/cm<2>ili više.
[0069] Potrebno je naglasiti da bilo koji od prethodno opisanih procesa sekvenciranja može biti inkorporiran u bilo koji od postupaka i/ili sistema koji su ovde opisani. Štaviše, potrebno je naglasiti da ostali poznati procesi sekvenciranja lako mogu biti implementirani za upotrebu sa postupcima i/ili sistema koji su ovde opisani. Takođe je potrebno naglastiti da su postupci i sistemi koji su ovde opisani dizajnirani tako da budu primenlјivi sa bilo kojom od tehnologija sekvenciranja nukleinskih kiselina. Dodatno, potrebno je naglasiti da postupci i sistemi koji su ovde opisani imaju još širu primenlјivost u bilo kojoj oblasti u kojoj je važno praćenje i analiza karakteristika u uzorku tokom vremena ili iz različitih perspektiva. Na primer, postupci i sistemi koji su ovde opisani mogu biti primenjemi kada se podaci dobijaju nadgledanjem, tehnologijama snimanja iz vazduha ili sa satelitima, odnosno kada se slični podaci snimaju u različitim vremenskim tačkama ili iz različitih perspektiva i analiziraju.
Sistemi
1
[0070] Sistem sposoban da sprovode postupak koji je ovde naveden, bilo da je sa integrisanim sposobnostima detekcije ili ne, može obuhvatati i kontroler sistema koji je u stanju da izvšava skup instrukcija da bi se sproveo jedan ili više koraka postupka, tehnike ili procesa koji je ovde naveden. Na primer, uputstva mogu usmeravati izvođenje koraka za kreiranje skupa amplikona in situ. Opciono, uputstva mogu dalјe usmeravati izvođenje koraka za detektovanje nukleinskih kiselina upotrebom prethodno navedenih postupaka. Korisan sistemski kontroler može uključivati bio koji sistem zasnovan na procesorima ili mikroprocesorima, uklјučujući sisteme koji koriste mikrokontrolere, računare sa redukovanim skupovima instrukcija (RISC), integrisana kola specifična za aplikacije (ASIC), čipove sa ograničenjima oblasti koje se mogu programirati (FPGA), logičke sklopove i bilo koje druge tipove kola ili procesora koji su u stanju da izvršavaju funkcije koje su ovde opisane. Skup uputstava za sistemski kontroler može biti u obliku kompjuterskog programa. Kako se ovde upotrebljava, termini "softver" i "firmver" se mogu naizmenično koristiti, a mogu obuhvatati bilo koji kompjuterski program koji je pohranjen u memoriji da bi bio izvršen od strane računara, uklјučujući RAM memoriju, ROM memoriju, EPROM memoriju, EEPROM memoriju i postojanu RAM (NVRAM) memoriju. Softver može biti u raznim oblicima, kao što su sistemski softver ili softver u vidu aplikacije. Dodatno, softver može biti u obliku kolekcije odvojenih programa ili programskog modula unutar većeg programa ili dela programskog modula. Softver takođe može uključivati modularno programiranje u obliku programiranja orijentisanog na objekte.
[0071] Predviđeno je da termin obuhvata ovde bude sa širim značenjem, uključujući ne samo nabrojane elemente, već dalje obuhvatajući sve dodatne elemente.
[0072] Opisani su brojni primeri izvođenja pronalaska. Ipak, podrazumeva se da mogu biti uvedene i razne modifikacije.
[0073] Opis koji sledi se odnosi na Slike 1A, 1B i 2. Primeri izvođenja koji su opisani u nastavku teksta su takođe opisani u U.S. Provisional Application No.61/915,455, podnetoj 12. decembra 2013. godine.
[0074] Analiza podataka dobijenih sa slika postavlja brojne izazove, posebno u pogledu poređenja slika predmeta ili strukture koje su snimljene iz različitih referentnih tačaka. Većina metodologija za analizu slike koristi, barem delimično, korake za poravnavanje mnoštva odvojenih slika jednih u odnosu na druge, na osnovu karakteristika ili elemenata koji su prisutni na obe slike. Razni primeri izvođenja kompozicija i postupaka koji su ovde opisani, poboljšavaja prethodne postupke analize slika. Pojedini od prethodnih postupaka analize slika su navedeni u U.S. Patent Application Publication No.
2012/0020537, podnetoj 13. januara 2011. godine, pod nazivom, "DATA PROCESSING SYSTEM AND METHODS".
[0075] Nedavno je razvijena oprema koja snima i analizira podatke u okviru slika generisanih u različitim vremenskim tačkama ili iz različitih perspektiva. Pojedini primeri obuhvataju opremu za analizu satelitskih snimaka, kao i opremu molekularne biologije za sekvenciranje i karakterizaciju molekulskog identiteta uzorka. U bilo kom od takvih sistema, za prikupljanje i čuvanje velikog broja slika visokog kvaliteta je obično potrebna ogromna količina kapaciteta za čuvanje podataka. Dodatno, jednom kada su slike prikupljene i sačuvane, analiza podataka može postati previše zahtevna u kontekstu kapaciteta i ometati izvođenje ostalih bitnih funkcija, poput daljeg kontrinuiranog snimanja i skladištenja podataka u vidu slika. Kao takvi, postupci i sistemi koji poboljšavaju brzinu i tačnost analize prikupljenih podataka i analizu podataka sa slika bi bili od koristi.
1
[0076] U oblasti molekularne biologije, jedan od procesa sekvenciranja nukleinskih kiselina u upotrebi je sekvenciranje-po-sintezi. Tehnika može biti primenjena na projekte masovnog uporednog sekvenciranja. Na primer, upotrebom automatizovane platforme je moguće istovremeno izvesti stotine hilјada reakcija sekvenciranja. Stoga, opis se odnosi na instrumente i postupke za pribavlјanje, skladištenje i analizu podataka sa slika generisanih tokom sekvenciranja nukleinskih kiselina.
[0077] Ogromni dobici u količini podataka koji mogu biti snimljeni i sačuvani, čine pojednostavlјene postupke analize slika još korisnijim. Na primer, postupci analize slika koji su ovde opisani omogućavaju i dizajnerima i krajnjim korisnicima da efikasno koriste postojeće kompjuterske sisteme. Shodno tome, ovde su predstavlјeni postupci i sistemi koji smanjuju opterećenje računara sa obradom podataka u trenutku brzog povećanja broja izlaznih podataka. Na primer, u oblasti sekvenciranja DNK, prinosi su se tokom poslednjih godina uvećali za 15 puta i sada mogu dostići stotine gigabaza u jednom ciklusu rada uređaja za sekvenciranje DNK. Ukoliko bi zahtevi za infrastrukturom računara srazmerno rasli, veliki eksperimenti tipa analize genoma bi postali nedostupni većini istraživača. Tako bi naime generisanje sirovijih podataka o sekvencama povećalo potrebu za sekundarnima uređajem za analizu i čuvanje podataka, čineći optimizaciju transporta i skladištenja podataka izuzetno važnima. Pojedini primeri izvođenja postupaka i sistema koji su ovde predstavljeni mogu smanjiti vreme, hardverske zahteve, zahteve umrežavanja i labaratorijske infrastrukture koji su potrebni za proizvodnju upotreblјivih podataka o sekvencama.
[0078] Kao što se ovde upotrebljava, "karakteristika" je površina od interesa unutar uzorka ili vidnog polja. Kada se upotrebljava u vezi uređaja sa mikročipovima ili drugim molekulskim analitičkim uređajima, karakteristika se odnosi na površinu koja je zauzeta sličnim ili identičnim molekulima. Na primer, karakteristika može biti amplifikovani oligonukleotid ili bilo koja druga grupa polinukleotida ili polipeptida sa istom ili sličnom sekvencom. U drugim primerima izvođenja, karakteristika može biti bilo koji element ili grupa elemenata koja fizički zauzima neku površinu unutar uzorka. Na primer, karakteristika bi mogla biti parcela zemlјe, vodeni objekat ili slično. Kada se karakteristika snima, svaka karakteristika će zauzimati neku površinu. Prema tome, u mnogim primerima izvođenja, karakteristika nije naprosto jedan piksel.
[0079] Rastojanja između karakteristika mogu biti opisana na bilo koji od brojnih načina. U pojedinim primerima izvođenja, rastojanja između karakteristika mogu biti opisana u vidu udaljenosti od centra jedne karakteristike do centra druge karakteristike. U drugim primerima izvođenja, karakteristika može biti opisana rastojanjem od ivice jedne karakteristike do ivice druge karakteristike ili između tačaka koje se mogu identifikovati kao one koje su najviše spolja za svaku karakteristiku. Ivica karakteristike može biti opisana kao teorijska ili stvarna fizička granica na genskom čipu ili kao neka tačka unutar granice te karakteristike. U drugim primerima izvođenja, rastojanja mogu biti opisana u odnosu na fiksnu tačku na uzorku ili na slici uzorka.
[0080] Višestruke kopije nukleinskih kiselina u okviru karakteristike mogu biti sekvencirane, na primer, obezbeđivanjem obeleženih nukleotidnih baza na molekulskom čipu, čime se produžava prajmer hibridizovan sa nukleinskom kiselinom unutar karakteristike, a tako da se proizvodi signal koji odgovara karakteristici koja sadrži nukleinsku kiselinu. U poželјnim primerima izvođenja, nukleinske kiseline unutar karakteristike su identične ili suštinski identične jedna drugoj.
[0081] U pojedinim od postupaka analize slika koji su ovde opisani, svaka slika u skupu slika sadrži signale u boji, pri čemu drugačija boja odgovara različitoj nukleotidnoj bazi. Prema pojedinim
1
aspektima, svaka slika iz skupa slika sadrži signale koji su jedne boje izabrane od najmanje četiri različite boje. Prema određenim aspektima, svaka slika iz skupa slika sadrži signale koji su jedne boje izabrane od četiri različite boje.
[0082] U pogledu određenih četvorokanalnih postupaka koji su ovde opisani, nukleinske kiseline mogu biti sekvencirane obezbeđivanjem četiri različito obeležene nukleotidne baze na genskom molekulskom čipu, tako da se proizvode četiri različite slike, pri čemu svaka slika sadrži signale jedne boje i pri čemu je boja signala različita za svaku od četiri različite slike, čime se stvara ciklus od četiri slike u boji koje odgovaraju četiri moguća tipa nukleotida koji mogu biti prisutni na određenoj poziciji u nukleinskoj kiselini. Prema određenim aspektima, takvi postupci mogu dodatno obuhvatati obezbeđivanje dodatnih obeleženih nukleotidnih baza na molekulskom čipu, čime se proizvodi mnoštvo ciklusa slika u boji.
[0083] U pogledu određenih dvokanalnih postupaka koji su ovde opisani, nukleinske kiseline mogu biti sekvencirane upotrebom postupaka i sistema koji su opisani u U.S. Patent Application Publication No.
2013/0079232. U vidu prvog primera, nukleinska kiselina može biti sekvencirana obezbeđivanjem prvog tipa nukleotida koji se detektuje na prvom kanalu, drugog tipa nukleotida koji se detektuje na drugom kanalu, trećeg tipa nukleotida koji se detektuje i na prvom i na drugom kanalu i četvrtog tipa nukleotida kome nedostaje obeleživač i koji se ne detektuje ili se minimalno detektuje na bilo kom od kanala. Prema određenim aspektima, takvi postupci mogu dalјe obuhvatati obezbeđivanje dodatnih obeleženih nukleotidnih baza na molekulskom čipu, čime se proizvodi mnoštvo ciklusa slika u boji.
Procena faziranja
[0084] Procena faziranja je analitički alat za smanjenje šuma tokom višestrukih ciklusa analize sekvenciranja. Na primer, u bilo kom datom ciklusu sekvenciranja, jedan ili više molekula mogu postati "u fazi" tokom svakog ciklusa. Kako se ovde upotrebljavaju, termini "u fazi", "faziranje" i slični termini odnose se na situaciju kada molekul određene karakteristike potpadne najmanje u jednoj bazi iza ostalih molekula na istoj karakteristici koje je rezultat sekveciranja karakteristike u određenom ciklusu. Kako se ovde upotrebljavaju, termini "predfazno", "predfaziranje" i slični termini se odnose na situaciju kada molekul karakteristike preskoči najmanje jednu bazu ispred drugih molekula iste karakteristike koje je rezultat sekveciranja karakteristike u tom određenom ciklusu. Efekti faziranja i predfaziranja postaju naglašeniji sa višim stopama faziranja/predfaziranja i dužim očitavanjima. Stoga, da bi se održalo tačno očitavanje baza tokom produženog broja ciklusa, važno je korigovanje ovog fenomena. Postupci i sistemi koji su ovde predstavljeni obezbeđuju računarsko rešenje koje iznenađujuće proizvodi pobolјšano očitavanje baza tokom produžavanja ciklusa sekvenciranja u poređenju sa tradicionalnim postupcima korekcije faziranja.
[0085] Postupci i sistemi koji su ovde obezbeđeni mogu pretpostaviti da fiksni udeo molekula u okviru svake karakteristike postaje faziran u svakom ciklusu, u kontekstu da ovi molekuli potpadaju jedan iza drugoj po bazama u sekvenciranju. Tako, u poželjnom primeru izvođenja, procena faziranja se vrši radi podešavanja utvrđenih intenziteta na način kojim se smanjuje šum nastao molekulima koji se razlikuju u fazi.
[0086] Tradicionalna korekcija faziranja može biti obavljena postupcima koji su kao što je opisano u pridruženim materijalima U.S. Patent Application Publication No. 2012/0020537. Kao što je tamo opisano, tradicionalan pristup fazne korekciji obuhvata kreiranje matrice faziranja da bi se napravio
2
model efekata faziranja za svaki od datih ciklusa. Navedeno može biti urađeno, na primer, stvaranjem NxN matrice gde je N ukupni broj ciklusa. Radi korekcije faziranja intenziteta za dati ciklus, uzima se zatim invertovani matrica faziranja i izdvaja se red matrice koji odgovara ciklusu. Kao rezultat navedenog, vektor stvarnih intenziteta za cikluse od 1 do N je proizvod inverzne matrice faziranja i utvrđenih intenziteta za cikluse od 1 do N. Kao jedan primer takvog pristupa, procena faziranja može biti izvršena izračunavanjem stope faziranja i predfaziranja u prvih 12 ciklusa dobijenih podataka o intenzitetu. Korekcije izvedene iz ovakvih stopa se zatim primenjuju na sve cikluse da bi se pobolјšale stope grešaka pri očitavanju baza. Pošto se stope faziranja procenjuju tokom ranog dela analize sekvenciranja, ukoliko je procena stope faziranja koja je urađena tokom ranih ciklusa (npr. tokom ciklusa 1-12) nepouzdana, to može potencijalno uticati na podatke dobijene tokom kasnijih ciklusa.
[0087] Na primer, u tradicionalnim postupcima korekcije faziranja, ukoliko je procena stope faziranja isključena, tačnost očitavanja baza je izmenjena tokom celokupne analize, odnosno nije podešena. Ovaj efekat je pojačan pri sekvenciranju uzoraka male raznolikosti, poput pojedinačnih amplikona. Stoga, ukoliko se stope faziranja procenjene tokom ranih ciklusa zasnivaju na niskoj raznolikosti baza, stope možda neće tačno odražavati stope faziranja tokom kasnijih ciklusa tog sekvenciranja. Tradicionalni pristupi korekcije faziranja nisu efektivni u podrešavanja na promene u stopama faziranja u kasnijim ciklusima. Dodatno, tradicionalni pristupi faznih korekcija nisu dizajnirani za procenu stopa faziranja kod podataka dobijenih na 2 kanala.
Empirijska fazna korekcija
[0088] Ovde su predstavlјeni pobolјšani postupci za izvođenje korekcije faziranja. Postupci koji su ovde opisani obezbeđuju iznenađujuće prednosti u poređenju sa tradicionalnim pristupima korekcije faziranja koji su prethodno opisani. Na primer, postupci koji su ovde predstavljeni obuhvataju utvrđivanje korekcije faziranja za analizu koja je u toku u analizi sekvenciranja koja se odvija. Kao rezultat ovakvog pristupa, netačna procena stope faziranja koja se obavlja tokom ranih ciklusa (npr. tokom ciklusa 1-12) neće imati neželjen uticaj na kasnije cikluse.
[0089] Ovde je predstavlјen postupak izvođenja korekcije faziranja koji obuhvata empirijsku analizu. Postupci koji su ovde prikazani su alternativa ili mogu dopuniti tradicionalne analize korekcije faziranja koji su prethodno opisani. Postuci koji su ovde predstavljeni su iznenađujuće efektivni kada se primenjuju na podatke dobijene sa 1 ili 2 kanala.
[0090] U pojedinim primerima izvođenja, postupci obuhvataju empirijsku korekciju faziranja. Posebni primeri izvođenja koriste korak primene korekcije faziranja prvog reda. Na primer, u pojedinim primerima izvođenja, postupak obuhvata korekciju faziranja prvog reda za dati ciklus, kao što je to definisano na sledeći način:
I(ciklus) = I(ciklus) – X*I(ciklus-1) – Y*I(ciklus+1)
gde I predstavlјa intenzitet, a X i Y predstavlјaju težine faziranja i prefaziranja izračunate za ovaj ciklus. Podrazumeva se da se, upotrebom ovog pristupa, ukoliko se izaberu pravilne vrednosti X i Y, srednja vrednost specifičnosti signala (kvaliteta) za vrednosti intenziteta povećava do maksimuma. Na primer, moguće je brojčano optimizovanje putem obrasca pretrage za sve X i Y da bi se srednja vrednost specifičnosti signala povećala do maksimuma. Jednom kada se vrednosti X i Y identifikuju kao one se maksimalnom srednjom vrednošću specifičnosti signala, tada može biti primenjena prethodno navedena korekcija, nakon čega se direktno može izvršiti očitavanje baza.
[0091] U pojedinim primerima izvođenja, odvojena korekcija faziranja se izračunava više puta od jednom tokom izvođenja postupka sekvenciranja. Na primer, u pojedinim primerima izvođenja, izračunava se odvojena korekcija faziranja 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 ili više od 100 puta tokom izvođenja jedne analize sekvenciranja. U pojedinim primerima izvođenja, fazna korekcija se izračunava u gotovo svakom ciklusu tokom jedne analize sekvenciranja. U pojedinim primerima izvođenja, fazna korekcija se izračunava u svakom ciklusu tokom jedne analize sekvenciranja.
[0092] U pojedinim primerima izvođenja, odvojena korekcija faziranja se izračunava za različite lokacije na površini koja je slikana u istom ciklusu. Na primer, u pojedinim primerima izvođenja, posebna korekcija faziranja se izračunava za svaku pojedinačnu traku slikane površine, kao što je pojedinačna traka protočne ćelije. U pojedinim primerima izvođenja, izračunava se odvojena korekcija faziranja za svaki podskup trake, kao što je snimanje svakog snopa unutar svake trake protočne ćelije. U pojedinim primerima izvođenja, odvojena korekcija faziranja se izračunava za svaku pojedinačnu sliku, kao što je, na primer, svaka pločica. U pojedinim primerima izvođenja, za svaku pločicu se u svakom ciklusu izračunava posebna korekcija faziranja.
[0093] U posebnim primerima izvođenja, prethodno opisan pristup empirijske korekcije faziranja služi za optimizaciju korekcija faziranja i prefaziranja za svaki ciklus i pločicu da bi se srednja vrednost specifičnosti signala povećala do maksimuma za podatake intenziteta. Rezultat toga je da RTA više ne zavisi od tačnog stope izračunavanja, pošto se najbolјa korekcija primenjuje u svakom ciklusu, već se umesto toga vrše korekcije od ciklusa do ciklusa koja se analiziraju u kasnijem ciklusu, na primer u 25. ciklusu. Ova analiza daje izračunatu stopu koja može biti sačuvana u datoteci i/ili prikazana na korisničkom interfejsu.
[0094] Kao što je prikazano na Slici 1, efekti primene prethodno navedenog pristupa mogu rezultovati u dramatičnoj rezoluciji očitavanja baza. Slika 1A prikazuje sirove intenzitete za određenu pločicu i određeni ciklus sa dvokanalnog sistema, gde je nukleotid C predstavlјen samo signalom na kanalu 1, nukleotid A je predstavlјen signalom samo na kanalu 2, nukleotid T je predstavlјen signalom na oba kanala 1 i 2, a G nukleotid je „zatamnjen“. Slika 1B prikazuje fazno korigovane intenzitete istih podataka upotrebom prethodno opisane korekcije faziranja. Kao što je prikazano na Slici 1B, primena prethodno opisanog pristupa korekcije faziranja dramatično povećava rezoluciju intenziteta koji je dodeljen svakoj od četiri baze. Da bi se potpomoglo razlikovanje pojedinačnih podataka, podaci za nukleotide mogu biti označeni različitim bojama. Na primer, podaci za nukleotid A mogu biti označeni zelenom bojom, nukleotid C može biti označen crnom bojom, nukleotid T može biti označen ružičastom bojom, a G nukleotid može biti označen plavom bojom.
[0095] U posebnim primerima izvođenja, usled fizike faziranja, kako očitavanja postaju duža, termini višeg reda mogu postati sve važniji u korekciji faziranja. Tako, u posebnim primerima izvođenja, da bi se navedeno korigovalo, može biti izračunata empirijska korekcija faziranja drugog reda. Na primer, u pojedinim primerima izvođenja, postupak obuhvata korekciju faziranja drugog reda, definisanu na sledeći način:
I(ciklus) = -a*I(ciklus-2) A*I(ciklus-1) I(ciklus) B*I(ciklus+1)-b*I(ciklus+2)
gde I predstavlјa intenzitet i a, A, B i b predstavlјaju pojmove prvog i drugog reda korekcije faziranja. U posebnim primerima izvođenja, izračunavanje je optimizovano za a, A, B, b.
[0096] U pojedinim primerima izvođenja, termini višeg reda mogu biti upotrebljeni za korigovanje stopa visokog faziranja i/ili prefaziranja. U posebnim primerima izvođenja, što je veća stopa faziranja i/ili prefaziranja, to je veća i razlika koju čine termini višeg reda. U posebnim primerima izvođenja, što je veća stopa faziranja i/ili prefaziranja i očitavanje je duže, to postaju važniji termini višeg reda.
[0097] Postupci koji su ovde obezbeđeni su superiorni i obezbeđuju značajne prednosti u odnosu na tradicionalne pristupe korekciji faziranja. Na primer, za razliku od tradicionalnih postupaka, ne postoji zahtev tačne procene stope faziranja u prvih 10 ciklusa analize. Nadalјe, za razliku od tradicionalnih postupaka, ne postoji zahtev za objedinjavanjem procena faziranja duž pločica da bi se došlo do korekcije faziranja koja je generalizovana za sve pločice. Dodatno, za razliku od tradicionalnih postupaka gde se korekcija faziranja izvodi i primenjuje na sve cikluse, u postupcima korekcije koji su ovde predstavljeni, korekcije od ciklusa do ciklusa su nezavisne. Preciznije, trajna greška se ne uvodi u algoritam korekcije faziranja sa nekoliko ciklusa loših podataka.
[0098] Na postupke koji su vode prikazani ne utiču značajno analize niske raznovrsnosti. Na primer, u sekvenciranjima u kojima se određuje samo jedna ili samo nekoliko sekvenci, kao što je sekvenciranje jednog amplikona ili u metagenomskim primenama, korekcija faziranja nije u potpunosti zavisna od tačnosti proračuna urađenog na osovnu ograničenog skupa ranih ciklusa i umesto toga se korekcije faziranja mogu optimizovati za svaku pločicu i za svaki ciklus.
[0099] Iako su postupci i sistemi koji su ovde prikazani primeri prvenstveno u kontekstu dvokanalnih podataka sekvenciranja, potrebno je napomenuti da isti postupci i algoritmovi mogu biti direktno primenjeni i na četvorokanalne podatke u cilju suštinskog umanjenja stopa grešaka sa povećanim rezultatima poravnavanja. Primer proračuna korekcije faziranja upotrebom dvokanalnih podataka je predstavlje ispod, kao Primer 1. Primer proračuna korekcije faziranja upotrebom četvorokanalnih podataka je predstavlje ispod, kao Primer 2.
Postupci sekvenciranja
[0100] Postupci koji su ovde opisani mogu biti upotrebljeni u kombinaciji sa raznovrsnim tehnikama sekvenciranja nukleinskih kiselina. Posebno su primenlјive one tehnike gde su nukleinske kiseline vezane za fiksne lokacije na genskom čipu tako da se njihove relativne pozicije ne menjaju i gde se čip stalno ponavlјano snima. Primeri izvođenja u kojima se slike dobijaju na različitim kanalima boja, na primer, koji se podudaraju sa različitim obeleživačima koji su upotrebljeni za razlikovanje jednog tipa nukleotidne baze od drugog, posebno su primenljivi. U pojedinim primerima izvođenja, proces za utvrđivanje nukleotidne sekvence cilјne nukleinske kiseline može biti automatizovan proces. Poželјni primeri izvođenja podrazumevaju tehnike sekvenciranja-po-sintezi (SBS).
[0101] SBS tehnike uglavnom uklјučuju enzimatsko produžavanje matičnog lanca nukleinske kiseline kroz iterativno dodavanje nukleotida shodno lancu koji je matrica. U tradicionalnim SBS postupcima, jedan nukleotidni monomer može biti obezbeđen cilјnom nukleotidu u prisustvu polimeraze pri svakoj isporuci. Ipak, u postucima koji su ovde opisani, više od jednog tipa nukleotidnog monomera može biti obezbeđen cilјnoj nukleinskoj kiselini u prisustvu polimeraze prilikom isporuke.
2
[0102] SBS može koristiti nukleotidne monomere koji sadrže ostatak za terminaciju ili one kojima ostatak za terminaciju nedostaje. Postupci koji koriste nukleotidne monomer kome nedostaje ostatak za terminaciju obuhvataju, na primer, pirosekvenciranje i sekvenciranje upotrebom nukleotida obeleženih γ-fosfatom, kao što je detaljnije navedeno u nastavku teksta. U postupcima u kojima se uporebljavaju monomeri kojima nedostaje ostatak za terminaciju, broj nukleotida koji se dodaje u svakom ciklusu je generalno varijabilan i zavisi od sekvence matrice, kao i od načina isporuke nukleotida. Za SBS tehnike koje koriste nukleotidne monomere sa ostatkom za terminaciju, terminator može biti efektivno vezana na ireverzibilan način u uslovima sekvenciranja koji se upotrebljavaju, kao što je to slučaj kod tradicionalnog Sangerovog sekvenciranja u kome se koriste didezoksinukleotidi, ili terminator može biti reverzibilano vezan, kao što je to slučaj kod postupaka sekvenciranja razvijenih od strane kompanije Solexa (sada Illumina, Inc.)
[0103] SBS tehnike mogu koristiti nukleotidne monomere koji sadrže ostatak za obeležavanje ili one kojima ostatak za obeležavanje nedostaje. Shodno tome, događaji ugrađivanja mogu biti detektovani na osnovu karakteristika obeleživača, kao što je to fluorescencija obeleživača; na osnovu karakteristika nukleotidnog monomera poput molekulske težine ili naelektrisanja; sporednog proizvoda ugrađivanja nukleotida, kao što je oslobađanje pirofosfata; ili sličnog. U primerima izvođenja gde su dva ili više od različitih nukleotida prisutni u reagensu za sekvenciranje, različiti nukleotidi se mogu razlikovati jedan od drugog, ili alternativno, dva ili više različitih obeleživača se ne mogu razlikovati u tehnikama detekcije koje se upotrebljavaju. Na primer, različiti nukleotidi koji su prisutni u reagensu za sekvenciranje mogu sadržavati različite obeleživače i mogu se razlikovati upotrebom odgovarajućih optika, kao što to slučaj kod postupaka sekvenciranja za primer koji su razvijeni od strane kompanije Solexa (sada Illumina, Inc.).
[0104] Poželјni primeri izvođenja obuhvataju tehnike pirosekvenciranja. Pirosekvenciranjem se detektuje oslobađanje neorganskog pirofosfata (PPi) kada se određeni nukleotidi ugrade u nastajući lanac (Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. i Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res.11(1), 3-11; Ronaghi, M., Uhlen, M. i Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science 281(5375), 363; U.S. Pat. No. 6,210,891; U.S. Pat. No. 6,258,568 and U.S. Pat. No. 6,274,320). U piroskvenciranju, oslobođeni PPi može biti detektovan time što se odmah prevodi u adenozin trifosfat (ATP), dejstvom ATP sulfurilaze, a nivo generisanog ATP-a se detektuje putem fotona koje proizvodi luciferaza. Nukleinske kiseline koje će biti sekvencirane mogu biti vezane za karakteristike na genskom čipu i čip može biti sniman da bi se uhvatili hemiluminscentni signali koji se proizvode usled ugrađivanja nukleotida na karakteristike genskog čipa. Slika može biti dobijena nakon tretiranja čipa sa određenim tipom nukleotida (npr. A, T, C ili G). Slike dobijene nakon dodavanja svakog tipa nukleotida će se razlikovati u kontekstu karakteristika na genskom čipu koje se mogu detektovati. Ovakve razlike na slici odražavaju različit sadržaj sekvenci koje predstavljaju karakteristike na genskom čipu. Ipak, relativne pozicije svake od karakteristika će na slikama ostati nepromenjene. Slike mogu biti sačuvane, obrađene i analizirane upotrebom postupaka koji su ovde navedeni. Na primer, slike dobijene nakon tretmana genskog čipa sa svakim od različitih tipova nukleotida mogu biti obrađene na isti nakčin kao što je to ovde prikazano u vidu primera za slike koje su dobijene sa različitih kanala detekcije u reverzibilnim postupcima sekvenciranja zasnovanim na terminaciji.
[0105] U drugom tipu SBS za primer, ciklusi sekvenciranja se ostvaruju postupnim dodavanjem reverzibilnih terminacionih nukleotida koji sadrže, na primer, obeleživač koji se može podvrgnuti enzimskom cepanju ili je sa bojom koja se gubi, kao što je opisano, na primer, u WO 04/018497 i U.S. Pat. No.7,057,026. Ovakav pristup je komercijalizovala kompanija Solexa (sada Illumina Inc.), a opisan je takođe u WO 91/06678 i WO 07/123,744. Dostupnost fluorescentno označenih terminatora koji mogu biti i tipa terminacije koja može biti revertovana i tipa cepanja fluorescentnog obeleživača, može olašati efikasnu cikličnu reverzibilnu terminaciju (CRT) sekvenciranja. Postupak može biti dizajniran i tako da istovremeno budu prisutne i polimeraze, a da bi se ovako modifikovani nukleotidi efikasno ugradili i na njih produžila dalja ugradnja.
[0106] Poželјno je da u primerima izvođenja sekvenciranja zasnovanog na reverzibilnoj terminaciji, obeleživači suštinski ne inhibiraju ekstenziju pod uslovima SBS reakcija. Ipak, obeleživači za detekciju mogu biti takvi da se mogu ukloniti, na primer, cepanjem ili razgradnjom. Slike mogu biti snimane nakon ugrađivanja obeleživača u nukleinske kiseline koje predstavljaju karakteristike genskog čipa. U posebnim primerima izvođenja, svaki ciklus obuhvata simultanu isporuku četiri različita tipa nukleotida na genski čip, pri čemu svaki tip nukleotida sadrži spektralno različit obeleživač. Potom mogu biti dobijene četiri slike, od kojih svaka koristi kanal za detekciju koji je selektivan za jedan od četiri različita obeleživača. Alternativno, različiti tipovi nukleotida mogu biti dodati sekvencijalno, a između svakog koraka dodavanja može biti snimana slika genskog čipa. U takvim primerima izvođenja, svaka slika će prkazivati karakteristike nukleinskih kiselina koje su ugradile nukleotid određenog tipa. Različite karakteristike će biti prisutne ili odsutne na različitim slikama usled različitog sadržaja sekveni svake karakteristike. Ipak, relativna pozicija karakteristika će na slikama ostati nepromenjena. Slike dobijene iz takvih SBS postupaka sa reverzibilnom terminacijom mogu biti sačuvane, obrađene i analizirane kao što je to ovde navedeno. Nakon koraka snimanja slika, obeleživači mogu biti uklonjeni, a mogu biti uklonjeni i reverzibilni ostaci za terminaciju da bi se nastavilo sa narednim ciklusima dodavanja i detekcije nukleotida. Uklanjanje obeleživača nakon njihove detektcije u određenom ciklusu i pre narednog ciklusa može obezbediti prednost tipa smanjenja signala pozadine i ukrštene reaktivnosti između ciklusa. Primeri korisnih obleleživača i postupaka uklanjanja su navedeni u nastavku teksta.
[0107] U posebnim primerima izvođenja, pojedini ili svi nukleotidni monomeri mogu sadržavati reverzibilne terminatore. U takvim primerima izvođenja, reverzibilni terminatori/fluorofore koje se mogu isecati cepanjem, mogu sadržavati fluoroforu koja je povezana sa ostatkom riboze preko 3' estarske veze (Metzker, Genome Res.15:1767-1776 (2005)). U drugim pristupima, hemija terminacije je razdvojena od cepanja fluorescentnog obeleživača (Ruparel i saradnici, Proc Natl Acad Sci USA 102: 5932-7 (2005)). Ruparel i saradnici su opisali razvoj reverzibilnih terminatora koji upotrebljavaju malu 3' alilnu grupu za blokiranje ekstenzije, ali koje je moguće lako odblokirati kratkim tretmanom sa paladijumskim katalizatorom. Fluorofora se pričvršćuje za bazu preko linkera koji se može cepati dejstvom svetlosti, odnosno koji lako može biti odvojen cepanjem pri izlaganju UV svetlosti, dugih talasnih dužina, tokom 30 sekundi. Tako, bilo redukcija disulfidnih veza ili cepanje svetlošću može biti upotrebljeno za linkere koji su podložni cepanju. Drugi pristup reverzibilnoj terminaciji je upotreba prirodne terminacije koja nastupa nakon postavljanja kabaste boje na dNTP. Prisustvo naelektrisane kabaste boje na dNTP može delovati kao efektivan terminator usled steričkog i/ili elektrostatičnog ometanja. Prisustvo jednog događaja ugrađivanja sprečava dalјe ugrađivanje, osim ukoliko se boja ukloni. Cepanjem boje se uklanja fluorofora i efektivno se revertuje terminacija. Primeri modifikovanih nukleotida su takođe opisani u U.S. Pat. No.7,427,673 i U.S. Pat. No.7,057,026.
2
[0108] Dodatni primeri SBS sistema i postupaka koji mogu biti upotrebljeni u postupcima i sistemima koji su ovde prikazani, opisani su u U.S. Patent Application Publication No.2007/0166705, U.S. Patent Application Publication No.2006/0188901, U.S. Pat. No.7,057,026, U.S. Patent Application Publication No. 2006/0240439, U.S. Patent Application Publication No. 2006/0281109, PCT Publication No. WO 05/065814, U.S. Patent Application Publication No. 2005/0100900, PCT Publication No. WO 06/064199, PCT Publication No. WO 07/010,251, U.S. Patent Application Publication No.
2012/0270305 i U.S. Patent Application Publication No.2013/0260372.
[0109] Pojedini primeri izvođenja mogu koristiti detekciju četiri različita nukleotida upotrebom manje od četiri različita obeleživača. Na primer, SBS može biti izveden upotrebom postupaka i sistema opisanih u U.S. Patent Application Publication No.2013/0079232. U vidu prvog primera, par različitih tipova nukleotida može biti detektovan na istoj talasnoj dužini, ali se oni mogu razlikovati na osovu razlike u intenzitetu jednog člana para u poređenju sa drugim, ili na osnovu promene jednog člana para (npr. putem hemijske modifikacije, fotohemijske modifikacije ili fizičke modifikacije) koja prouzrokuje pojavu ili nestajanje janog signala u poređenju sa signalom koji se detektuje za drugog člana para. U vidu drugog primera, pod određenim uslovima mogu biti detektovana tri od četiri različita tipa nukleotida, dok četvrtom tipu nukleotida nedostaje obeleživač koji se može detektovati pod tim uslovima, ili koji je pod tim uslovima sa minimumom detekcije (npr. minimalna detekcija je posledica fluorescencije pozadine itd.). Ugradnja prva tri tipa nukleotida u nukleinsku kiselinu može biti utvrđena na osnovu prisustva njihovih odgovarajućih signala, dok ugradnja četvrtog tipa nukleotida u nukleinsku kiselinu može biti utvrđena na osnovu odsustva ili minimalne detekcije bilo kog signala. Treći primer je da jedan tip nukleotida može sadržavati obeleživač(e) koji se detektuje na dva različita kanala, dok se drugi tipovi nukleotida detektuju na ne više od jednog kanala. Prethodno navedene tri konfiguracije za primer se ne smatraju međusobno isklјučivim i mogu biti upotrebljene u raznim kombinacijama. Prioritetan primer izvođenja koji kombinuje sva tri primera, predstavlja SBS postupak zasnovan na fluorescenciji u kome se upotrebljava prvi tip nukleotida koji se detektuje na prvom kanalu (npr. dATP sa obeleživačem koji se detektuje na prvom kanalu kada se on ekscitira prvom ekscitacionom talasnom dužinom), drugi tip nukleotida koji se detektuje na drugom kanalu (npr. dCTP sa obeleživačem koji se detektuje na drugom kanalu kada se on ekscitira drugom ekscitacionom talasnom dužinom), treći tip nukleotida koji se detektuje i na prvom i na drugom kanalu (npr. dTTP sa najmanje jednim obeleživačem koji se detektuje na oba kanala kada se oni ekscitiraju prvom/drugom ekscitacionom talasnom dužinom) i četvrti tip nukleotida kome nedostaje obeleživač i koji se ne detektuje ili je sa minimalnom detekcijom na bilo kom kanalu (npr. dGTP koji ne sadrži obeleživač).
[0110] Dodatno, kao što je opisano u pridruženim materijalima iz U.S. Patent Application Publication No. 2013/0079232, podaci sekvenciranja mogu biti dobijeni upotrebom jednog kanala. U ovim takozvanim jednobojnim pristupima sekvenciranja, prvi tip nukleotida se obeležava, ali se obeleživač uklanja nakon generisanja prve slike, dok se drugi tip nukleotida obeležava jedino nakon generisanja prve slike. Treći tip nukleotida zadržava svoj obleleživač i na prvoj i na drugoj od slika, dok četvrti tip nukleotida ostaje neobeležen na obe slike.
[0111] Pojedini primeri izvođenja mogu koristiti tehnike sekvenciranja-po-ligaciji. Takve tehnike koriste DNK ligazu za ugradnju oligonukleotida i zatim identifikovanje ugrađivanja takvih oligonukleotida. Oligonukleotidi obično sadrže različite obeleživača koje su u korelaciji sa identitetom određenog nukleotida u sekvenci sa kojim oligonukleotidi hibridizuju. Kao i kod drugih SBS postupaka, slike mogu biti dobijene nakon tretmana genskog čipa sa karakteristikama u vidu nukleinskih kiselina, sa
2
obeleženim reagensima za sekvenciranje. Svaka slika će prikazati karakteristike u vidu nukleinskih kiselina koje su ugradile obeleživače određenog tipa. Različite karakteristike će biti prisutne ili odsutne na različitim slikama usled različitog sadržaja sekvenci svake karakteristike, ali će relativna pozicija karakteristika na slikama ostati nepromenjena. Slike dobijene postupcima sekvenciranja zasnovanim na ligaciji mogu biti sačuvane, obrađene i analizirane kao što je ovde navedeno. SBS sistemi i postupci za primer koji mogu biti iskorišćeni u postupcima i sistemima koji su ovde navedeni, opisani su u U.S. Pat. No.6,969,488, U.S. Pat. No.6,172,218, i U.S. Pat. No.6,306,597.
[0112] Pojedini primeri izvođenja mogu koristiti sekvenciranje na nanoporama (Deamer, D. W. i Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol.18, 147-151 (2000); Deamer, D. i D. Branton, "Characterization of nucleic acids by nanopore analysis". Acc. Chem. Res. 35:817-825 (2002); Li, J., M. Gershow, D. Stein, E. Brandin, i J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater.2:611-615 (2003)). U takvim primerima izvođenja, cilјna nukleinska kiselina prolazi kroz nanopore. Nanopore mogu biti sintetske pore ili protein biološke membrane, kao što je α-hemolizin. Dok cilјna nukleinska kiselina prolazi kroz nanopore, svaki par baza može biti identifikovan merenjem fluktuacija u električnoj provodlјivosti pore. (U.S. Pat. No. 7,001,792; Soni, G. V. i Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001 (2007); Healy, K. "Nanoporebased single-molecule DNA analysis." Nanomed.2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with singlenucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008)). Podaci dobijeni sekvenciranjem na nanoporama mogu biti sačuvani, obrađeni i analizirani kao što je ovde navedeno. Preciznije, podaci mogu biti tretirani kao slika u skladu sa postupkom obrade optičkih slika i drugih slika za primer koji su ovde navedeni.
[0113] Pojedini primeri izvođenja mogu koristiti postupke koje uključuju praćenje aktivnosti DNK polimeraze u realnom vremenu. Ugrađivanja nukleotida mogu biti detektovana posredstvom fluorescentnog rezonantnog prenosa energije (FRET) interakcija između polimeraze koja nosi fluoroforu i nukleotida obeleženih γ-fosfatom, kao što je to opisano, na primer, u U.S. Pat. No.
7,329,492 i U.S. Pat. No.7,211,414, ili se ugrađivanja nukleotida mogu detektovati upotrebom nultogmoda usmeravanja talasnih dužina, kao što je to opisano, na primer, u U.S. Pat. No. 7,315,019 i upotrebom fluorescentnih nukleotidnih analoga i konstruisanih polimeraza kao što je opisano, na primer, u U.S. Pat. No.7,405,281 i U.S. Patent Application Publication No.2008/0108082. Osvetlјenost može biti ograničena na zapremine u zeptolitarskoj skali oko površine za koju je premošćivanjem vezana polimeraza, tako da se ugrađivanje fluorescentno obeleženog nuklotida može uočiti sa niskim signalom pozadine (Levene, M. J. i saradnici, "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686 (2003); Lundquist, P. M. i saradnici, "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008); Korlach, J. i saradnici, "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)). Slike dobijene takvim postupcima mogu biti sačuvane, obrađene i analizirane kao što je ovde navedeno.
[0114] Prednost prethodno navedenih SBS postupaka je što mogu biti izvedeni u multipleksnim formatima tako da se istovremeno manipuliše sa mnoštvom različitih cilјnih nukleinskih kiselina. U posebnim primerima izvođenja, različite cilјne nukleinske kiseline mogu biti tretirane u zajedničkoj reakcionoj posudi ili na površini određenog supstrata. Navedeno omogućava pogodnu isporuku
2
reagenasa za sekvenciranje, uklanjanje reagensa koji nisu izreagovali i detekciju događaja ugrađivanja na multipleksni način. U primerima izvođenja u kojima se upotrebljavaju ciljne nukleinske kiseline vezane za površinu, cilјne nukleinske kiseline mogu biti u formatu genskog čipa. U formatu genskog čipa, cilјne nukleinske kiseline mogu biti uobičajeno vezane za površinu na prostorno raspoznatljiv način. Cilјne nukleinske kiseline mogu biti vezane direktnim kovalentnim vezivanjem, vezivanjem za globule ili druge čestice, ili vezivanjem za polimerazu ili drugi molekul koji je pričvršćen za površinu. Genski čip može sadržavati jednu kopiju cilјne nukleinske kiseline na svakoj poziciji (označenoj ovde i kao karakteristika) ili mnoštvo kopija sa istom sekvencom može biti prisutno na svakom mestu ili karakteristici. Višestruke kopije mogu biti proizvedene postupcima amplifikacije, kao što su premošćena amplifikacija ili PCR u emulziji, koji su dodatno detaljno opisani u nastavku teksta.
[0115] Postuci koji su ovde navedeni mogu upotrebljavati genske čipove sa karakteristikama bilo koje od raznovrsnih gustina, uklјučujući, na primer, najmanje oko 10 karakteristika/cm<2>, 100 karakteristika/cm<2>, 500 karakteristika/cm<2>, 1.000 karakteristika/cm<2>, 5.000 karakteristika/cm<2>, 10.000 karakteristika/cm<2>, 50.000 karakteristika/cm<2>, 100.000 karakteristika/cm<2>, 1.000.000 karakteristika/cm<2>, 5.000.000 karakteristika/cm<2>ili više.
Sistemi
[0116] Sistem sposoban da sprovode postupak koji je ovde naveden, bilo da je sa integrisanim sposobnostima detekcije ili ne, može obuhvatati i kontroler sistema koji je u stanju da izvšava skup instrukcija da bi se sproveo jedan ili više koraka postupka, tehnike ili procesa koji je ovde naveden. Na primer, uputstva mogu usmeravati izvođenje koraka za kreiranje skupa amplikona in situ. Opciono, uputstva mogu dalјe usmeravati izvođenje koraka za detektovanje nukleinskih kiselina upotrebom prethodno navedenih postupaka. Korisan sistemski kontroler može uključivati bio koji sistem zasnovan na procesorima ili mikroprocesorima, uklјučujući sisteme koji koriste mikrokontrolere, računare sa redukovanim skupovima instrukcija (RISC), integrisana kola specifična za aplikacije (ASIC), čipove sa ograničenjima oblasti koje se mogu programirati (FPGA), logičke sklopove i bilo koje druge tipove kola ili procesora koji su u stanju da izvršavaju funkcije koje su ovde opisane. Skup uputstava za sistemski kontroler može biti u obliku kompjuterskog programa. Kako se ovde upotrebljava, termini "softver" i "firmver" se mogu naizmenično koristiti, a mogu obuhvatati bilo koji kompjuterski program koji je pohranjen u memoriji da bi bio izvršen od strane računara, uklјučujući RAM memoriju, ROM memoriju, EPROM memoriju, EEPROM memoriju i postojanu RAM (NVRAM) memoriju. Softver može biti u raznim oblicima, kao što su sistemski softver ili softver u vidu aplikacije. Dodatno, softver može biti u obliku kolekcije odvojenih programa ili programskog modula unutar većeg programa ili dela programskog modula. Softver takođe može uključivati modularno programiranje u obliku programiranja orijentisanog na objekte.
[0117] Potrebno je naglasiti da bilo koji od prethodno opisanih procesa sekvenciranja može biti inkorporiran u bilo koji od postupaka i/ili sistema koji su ovde opisani. Štaviše, potrebno je naglasiti da ostali poznati procesi sekvenciranja lako mogu biti implementirani za upotrebu sa postupcima i/ili sistema koji su ovde opisani. Takođe je potrebno naglastiti da su postupci i sistemi koji su ovde opisani dizajnirani tako da budu primenlјivi sa bilo kojom od tehnologija sekvenciranja nukleinskih kiselina. Dodatno, potrebno je naglasiti da postupci i sistemi koji su ovde opisani imaju još širu primenlјivost u bilo kojoj oblasti u kojoj je važno praćenje i analiza karakteristika u uzorku tokom vremena ili iz različitih perspektiva. Na primer, postupci i sistemi koji su ovde opisani mogu biti primenjemi kada se podaci
2
dobijaju nadgledanjem, tehnologijama snimanja iz vazduha ili sa satelitima, odnosno kada se slični podaci snimaju u različitim vremenskim tačkama ili iz različitih perspektiva i analiziraju.
PRIMERI
PRIMER 1
EMPIRIJSKA KOREKCIJA FAZIRANJA NA PODACIMA SA DVA KANALA
[0118] Empirijsko faziranje je implemetirano u dvokanalni sistem za sekvenciranje koji analizira sekvenciranje celokupnog genoma humanih uzorka. Slika 1 prikazuje reprezentativne podatke sa određene pločice i iz određenog ciklusa. Preciznije, kao što je prikazano na Slici 1B, upotrebom postupka korekcije faziranja koji je opisan u nastavku teksta, dobijeni su rezultati dramatično povećane rezolucije intenziteta koji su utrđeni za svaku od četiri baze.
[0119] Osnovna ideja algoritma empirijske korekcije je da korekcija faziranja povećava kumulativnu specifičnost signala podataka do maksimuma. Uporebom algoritma za korekciju koji je prethodno opisan, moguće je iterisati sve vrednosti korekcije faziranja i ustanoviti koja daje najbolјe rezultate. Na Slici 2 je naveden primer koji prikazuje podatke intenziteta sa dvokanalnog sistema koji su bili podvrgnuti raznim korekcijama faziranja. Sa leve strane je ciklus 150 analize sekvenciranja, gde je fazirnje nedovoljno korigovano. U sredini su optimalno korigovani podaci. Sa desne strane su previše korigovani podaci. Jasno je da je srednja vrednost podataka specifičnosti signala povećana do maksimuma kada pretpostavlјena stopa faziranja predstavlja tačnu vrednost.
[0120] Navedeno znanje može biti dodatno iskorišćeno za procenu parametra korekcije faziranja ili predfaziranja u svakom ciklusu i da bi se srednja vrednost specifičnosti signala podataka povećala do maksimuma za taj ciklus. Da bi se to postiglo, implementira se fazna korekcija prvog reda:
I(ciklus) = I(ciklus) – A*I(ciklus-1) – B*I(ciklus+1)
[0121] Konstante A i B se obično izračunavaju iz procenjenih stope faziranja/predfaziranja i njihova težina se određuje shodno broju ciklusa. U jednom primeru izvođenje u kome se upotrebljava empirijska korekcija faziranja, postupak može biti optimizovan sa A i B u svakom ciklusu, upotrebom pretrage obrasca. Funkcija troškova postupka predstavlјa broj klastera koji ne mogu da prođu filter specifičnosti signala. Stoga, A i B se biraju tako da se kvalitet podataka poveća na maksimum.
[0122] Da bi se računarski troškovi efektivne korekcije kod mnogih različitih stopa faziranja sveli na minimum, bira se zatim onaj koji je najbolji, a optimalne vrednosti A i B u svakom ciklusu se čuvaju u sledećoj datoteci:
\Data\Intensities\BaseCalls\Phasing\EmpiricalPhasingCorrection_lane_read_tile.txt.
[0123] Ove datoteke podataka imaju sledeću strukturu:
Ciklus KorekcijaFaziranja KorekcijaPrefaziranja
[0124] Da bi se utvrdila stopa faziranja ili predfaziranja, lista KorekcijaFaziranja se unosi na tačkasti dijagram u odnosu na broj ciklusa. Stopa faziranja predstavlja nagib rezultirajuće linije.
2
PRIMER 2
EMPIRIJSKA KOREKCIJA FAZIRANJA NA PODACIMA SA ČETIRI KANALA ZA UZORKE MALE RAZNOLIKOSTI
[0125] Četvorokanalno sekvenciranje uzoraka male raznolikosti, kao što su pojedinačni amplikoni, uvodi nekoliko izazova, uklјučujući nisku propusnost, nizak %PF i rezultate slabog kvaliteta. Ovi izazovi nastavljaju da budu prisutni čak i kada je poznat fagni genom (PhiX) ubrizgan u uzorak do nivoa koji se približava 50%.
[0126] Analiza sekvenciranja jednog amplikona je urađena uz korišćenje empirijske korekcije faziranja, da bi se dobili podaci visokog kvaliteta pod uslovima izuzetno niske raznolikosti. U ovom eksperimentu, urađene su 3 odvojene analize jednog amlikona tipa uparenih krajeva sa 101 ciklusom sa svakog kraja. Za analizu četvorokanalnih podataka je upotrebljena verzija softvera za analizu u realnom vremenu (RTA, verzija 1.17.23). Ova RTA verzija je uklјučivala empirijsko faziranje. U svim eksperimentima, sve gustine klastera su bile veće od 1000k/mm<2>, a broj klastera koji je prošao postupak filtriranja je bio veći od 90%. Svi podaci sekvenciranja su bili sa sličnim procentom ocene kvaliteta iznad Q30 od 93%. Ovi rezultati pokazuju da empirijsko faziranje podataka pri sekvenciranju uzoraka niske raznolikosti proizvodi vrhunski kvalitet podataka.
[0127] Predviđeno je da termin obuhvata ovde bude sa širim značenjem, uključujući ne samo nabrojane elemente, već dalje obuhvatajući sve dodatne elemente.
[0128] Opisani su brojni primeri izvođenja pronalaska. Ipak, podrazumeva se da mogu biti uvedene i razne modifikacije.
[0129] Opis koji sledi se odnosi na Slike 3-5. Primeri izvođenja koji su opisani u nastavku teksta su takođe opisani u U.S. Provisional Application No.61/915,455, podnetoj 12. decembra 2013. godine.
[0130] Analiza podataka sa slika podrazumeva brojne izazove, posebno u pogledu poređenja slika predmeta ili strukture koje su snimljene iz različitih referentnih tačaka. Većina metodologija za analizu slike koristi, barem delimično, korake za poravnavanje mnoštva odvojenih slika jednih u odnosu na druge, na osnovu karakteristika ili elemenata koji su prisutni na obe slike. Razni primeri izvođenja kompozicija i postupaka koji su ovde opisani, poboljšavaja prethodne postupke analize slika. Pojedini od prethodnih postupaka analize slike su navedeni u U.S. Patent Application Publication No.
2012/0020537, podnetoj 13. januara 2011. godine, pod nazivom, "DATA PROCESSING SYSTEM AND METHODS".
[0131] Nedavno je razvijena oprema koja snima i analizira podatke u okviru slika generisanih u različitim vremenskim tačkama ili iz različitih perspektiva. Pojedini primeri obuhvataju opremu za analizu satelitskih snimaka, kao i opremu molekularne biologije za sekvenciranje i karakterizaciju molekulskog identiteta uzorka. U bilo kom od takvih sistema, za prikupljanje i čuvanje velikog broja slika visokog kvaliteta je obično potrebna ogromna količina kapaciteta za čuvanje podataka. Dodatno, jednom kada su slike prikupljene i sačuvane, analiza podataka može postati previše zahtevna u kontekstu kapaciteta i ometati izvođenje ostalih bitnih funkcija, poput daljeg kontrinuiranog snimanja i skladištenja podataka u vidu slika. Kao takvi, postupci i sistemi koji poboljšavaju brzinu i tačnost analize prikupljenih podataka i analizu podataka sa slika bi bili od koristi.
[0132] U oblasti molekularne biologije, jedan od procesa sekvenciranja nukleinskih kiselina u upotrebi je sekvenciranje-po-sintezi. Tehnika može biti primenjena na projekte masovnog uporednog sekvenciranja. Na primer, upotrebom automatizovane platforme je moguće istovremeno izvesti stotine hilјada reakcija sekvenciranja. Stoga, opis se odnosi na instrumente i postupke za pribavlјanje, skladištenje i analizu podataka sa slika generisanih tokom sekvenciranja nukleinskih kiselina.
[0133] Ogromni dobici u količini podataka koji mogu biti snimljeni i sačuvani, čine pojednostavlјene postupke analize slika još korisnijim. Na primer, postupci analize slika koji su ovde opisani omogućavaju i dizajnerima i krajnjim korisnicima da efikasno koriste postojeće kompjuterske sisteme. Shodno tome, ovde su predstavlјeni postupci i sistemi koji smanjuju opterećenje računara sa obradom podataka u trenutku brzog povećanja broja izlaznih podataka. Na primer, u oblasti sekvenciranja DNK, prinosi su se tokom poslednjih godina uvećali za 15 puta i sada mogu dostići stotine gigabaza u jednom ciklusu rada uređaja za sekvenciranje DNK. Ukoliko bi zahtevi za infrastrukturom računara srazmerno rasli, veliki eksperimenti tipa analize genoma bi postali nedostupni većini istraživača. Tako bi naime generisanje sirovijih podataka o sekvencama povećalo potrebu za sekundarnima uređajem za analizu i čuvanje podataka, čineći optimizaciju transporta i skladištenja podataka izuzetno važnima. Pojedini primeri izvođenja postupaka i sistema koji su ovde predstavljeni mogu smanjiti vreme, hardverske zahteve, zahteve umrežavanja i labaratorijske infrastrukture koji su potrebni za proizvodnju upotreblјivih podataka o sekvencama.
[0134] Kao što se ovde upotrebljava, "karakteristika" je površina od interesa unutar uzorka ili vidnog polja. Kada se upotrebljava u vezi uređaja sa mikročipovima ili drugim molekulskim analitičkim uređajima, karakteristika se odnosi na površinu koja je zauzeta sličnim ili identičnim molekulima. Na primer, karakteristika može biti amplifikovani oligonukleotid ili bilo koja druga grupa polinukleotida ili polipeptida sa istom ili sličnom sekvencom. U drugim primerima izvođenja, karakteristika može biti bilo koji element ili grupa elemenata koja fizički zauzima neku površinu unutar uzorka. Na primer, karakteristika bi mogla biti parcela zemlјe, vodeni objekat ili slično. Kada se karakteristika snima, svaka karakteristika će zauzimati neku površinu. Prema tome, u mnogim primerima izvođenja, karakteristika nije naprosto jedan piksel.
[0135] Rastojanja između karakteristika mogu biti opisana na bilo koji od brojnih načina. U pojedinim primerima izvođenja, rastojanja između karakteristika mogu biti opisana u vidu udaljenosti od centra jedne karakteristike do centra druge karakteristike. U drugim primerima izvođenja, karakteristika može biti opisana rastojanjem od ivice jedne karakteristike do ivice druge karakteristike ili između tačaka koje se mogu identifikovati kao one koje su najviše spolja za svaku karakteristiku. Ivica karakteristike može biti opisana kao teorijska ili stvarna fizička granica na genskom čipu ili kao neka tačka unutar granice te karakteristike. U drugim primerima izvođenja, rastojanja mogu biti opisana u odnosu na fiksnu tačku na uzorku ili na slici uzorka.
[0136] Višestruke kopije nukleinskih kiselina u okviru karakteristike mogu biti sekvencirane, na primer, obezbeđivanjem obeleženih nukleotidnih baza na molekulskom čipu, čime se produžava prajmer hibridizovan sa nukleinskom kiselinom unutar karakteristike, a tako da se proizvodi signal koji odgovara karakteristici koja sadrži nukleinsku kiselinu. U poželјnim primerima izvođenja, nukleinske kiseline unutar karakteristike su identične ili suštinski identične jedna drugoj.
[0137] U pojedinim od postupaka analize slika koji su ovde opisani, svaka slika u skupu slika sadrži signale u boji, pri čemu drugačija boja odgovara različitoj nukleotidnoj bazi. Prema pojedinim
1
aspektima, svaka slika iz skupa slika sadrži signale koji su jedne boje izabrane od najmanje četiri različite boje. Prema određenim aspektima, svaka slika iz skupa slika sadrži signale koji su jedne boje izabrane od četiri različite boje.
[0138] U pogledu određenih četvorokanalnih postupaka koji su ovde opisani, nukleinske kiseline mogu biti sekvencirane obezbeđivanjem četiri različito obeležene nukleotidne baze na genskom molekulskom čipu, tako da se proizvode četiri različite slike, pri čemu svaka slika sadrži signale jedne boje i pri čemu je boja signala različita za svaku od četiri različite slike, čime se stvara ciklus od četiri slike u boji koje odgovaraju četiri moguća tipa nukleotida koji mogu biti prisutni na određenoj poziciji u nukleinskoj kiselini. Prema određenim aspektima, takvi postupci mogu dodatno obuhvatati obezbeđivanje dodatnih obeleženih nukleotidnih baza na molekulskom čipu, čime se proizvodi mnoštvo ciklusa slika u boji.
[0139] U pogledu određenih dvokanalnih postupaka koji su ovde opisani, nukleinske kiseline mogu biti sekvencirane upotrebom postupaka i sistema koji su opisani u U.S. Patent Application Publication No.
2013/0079232. U vidu prvog primera, nukleinska kiselina može biti sekvencirana obezbeđivanjem prvog tipa nukleotida koji se detektuje na prvom kanalu, drugog tipa nukleotida koji se detektuje na drugom kanalu, trećeg tipa nukleotida koji se detektuje i na prvom i na drugom kanalu i četvrtog tipa nukleotida kome nedostaje obeleživač i koji se ne detektuje ili se minimalno detektuje na bilo kom od kanala. Prema određenim aspektima, takvi postupci mogu dalјe obuhvatati obezbeđivanje dodatnih obeleženih nukleotidnih baza na molekulskom čipu, čime se proizvodi mnoštvo ciklusa slika u boji.
Očitavanje baza
[0140] Ovde su predstavlјeni postupci i sistemi za identifikovanje nukleotidne baze u sekvenci nukleinske kiseline ili "očitavanje baza". Očitavanje baza se odnosi na postupak određivanja očitane baze (A, C, G, T) za svaku karakteristiku na datoj pločici u određenom ciklusu. Na primer, SBS može biti urađen upotrebom dvokanalnih postupaka i sistema opisanih u U.S. Patent Application Publication No.
2013/0079232. Na primer, u primerima izvođenja u kojima se upotrebljava dvokanalna detekcija, očitavanje baza se vrši ekstrahovanjem podataka sa dve slike, pre nego sa četiri. Usled fundamentalnih razlika uključenih u dvokanalno očitavanje baza, tradicionalni pristupi dvokanalnog očitavanja baza, tradicionalni pristupi očitavanja baza koji se primenjuju za četvorokanalno očitavanje baza, nisu kompatibilni sa podacima dvokanalnog očitavanja baza. Imajući u vidu ove razlike, potreban je novi pristup očitavanja baze. Shodno navedenom, ovde su predstavlјeni postupci i sistemi za očitavanje baza u dvokanalnom sistemu. U pojedinim primerima izvođenja, postupci sadrže iterativno uklapanje četiri Gausove raspodele sa podacima intenziteta sa dva kanala. Kada se signali sa kanala 1 unesu na dijagram nasuprot signalima sa kanala 2, intenzitet signala se obično razdvaja na četiri opšte populacije intenziteta. Kao što je prikazano na Slici 3, podaci iz dvokanalnog sistema za sekvenciranje mogu biti prikazani na dijagramu u vidu vrednosti intenziteta sa kanala 1 (x-osa) u odnosu na vrednosti intenziteta sa kanala 2 (y-osa). U uobičajenim primerima izvođenja, jedan od četiri nukleotida je neobeležen (zatamnjen), kao što je to nukleotid "G" prikazan na Slici 3, čiji je signal blizu nule i na kanalu 1 i na kanalu 2. Signali iz određenog dela tačkastog dijagrama su grupisani u klastere blizu nulte tačke na svakoj osi. Slično navedenom, signali iz određenih delova tačkastog dijagrama koji su obeleženi sa jednom ili sa oba obeleživača (prikazani kao nukleotidi "C", "A" i "T" na Slici 3) obrazuju populacije koje se mogu identifikovati kada se unesu na dvodimenzionalni grafik poput onog prikazanog na Slici 3. Tako, na primer, za razliku od četvorokanalnih podataka sekvenciranja, sam
2
intenzitet određenog obeleživača ne kodira bazu. Umeto toga, kombinacije intenziteta, [prisutan, nije prisutan], [nije prisutan, prisutan], [prisutan, prisutan], [nije prisutan, nije prisutan] pružaju kodirajuću informacije za identitet baze.
[0141] Postupci i sistemi koji su ovde prikazani obezbeđuju alat za identifikovanje baza povezanih sa bilo kojim pojedinačnim podatkom u takvim skupovima podataka. Cilј postupaka i sistema koji su ovde prikazani je da se razdvoje četiri populacije što je tačnije moguće.
Klasifikatori
[0142] U pojedinim primerima izvođenja koji su ovde prikazani, očitavanje baza se vrši uklapanjem matematičkog modela u skup podataka o intenzitetu. Bilo koji pogodan matematički model može biti upotrebljen u postupcima koji su ovde predstavljeni da bi se podaci intenziteta uklopili u skup raspodela. Matematički modeli koji mogu biti upotrebljeni u postupcima koji su ovde predstavljeni, mogu uklјučivati klasifikatore kao što su, na primer, algoritam klaster analize postupkom k-srednjih vrednosti, algoritam klaster analize postupkom sa vrednostima sličnim k-srednjim vrednostima, povećavanjem očekivanja na maksimum, postupak zasnovan na histogramu i slični.
[0143] Na primer, u određenim primerima izvođenja, jedna ili više Gausovih raspodela se uklapa u skup podataka intenziteta. U određenim primerima izvođenja, 4 Gausove raspodele se uklapaju u skup dvokanalnih podataka za intenzitete tako da se jedna raspodela primenjuje za svaki od četiri nukleotida koji su prisutni u skupu podataka. U određenim primerima izvođenja, vrednosti intenziteta mogu biti normalizovane pre uklapanja sa Gasovom raspodelom. Na primer, kao što je prikazano u primeru izvođenja koji je predstavljen na Slici 4, vrednosti intenziteta se normalizuju tako da 5. i 95. procenat imaju vrednosti 0, odnosno 1. Četiri Gausove raspodele se zatim uklapaju u podatke upotrebom algoritma kao što je, na primer, algoritam klasterovanja sa povećavanjem očekivanja na maksimum (EM). EM algoritmi su poznati u oblasti tehnike i korisni su alati za konstruisanje statističkih modela osnovnog izvora podataka i prirodno generalizuju klastere baza podataka koje sadrže i podatke diskretnih vrednosti i podatke sa kontinuiranim vrednostima. Tako, na primer, u određenim primerima izvođenja, EM algoritam se primenjuje da bi se iteretivno povećala verovatnoća uočavanja datih podataka na maksimum. Na primer, EM algoritam se primenjuje da bi se iteretivno povećala ova verovatnoća iznad srednje vrednosti i kovarijanse za svaku od Gausovih raspodela do maksimuma. U određenim primerima izvođenja, podskup pojedinačnih podataka u skupu podataka je uklјučen u proračun. Dodatno ili alternativno, u određenim primerima izvođenja, svi ili suštinski svi pojedinačni podaci u skupu podataka su uključeni u proračun.
[0144] Kao rezultat EM algoritma, za svaku vrednost X, Y (koje se odnose na svaki od intenziteta sa dva kanala, tim redom) može biti generisana vrednost koja predstavlјa verovatnoću da određena vrednost intenziteta X, Y pripada jednoj od četiri raspodele. U primeru izvođenja gde četiri baze karakterišu četiri odvojene raspodele, svaka vrednost intenziteta X,Y će takođe imati četiri povezane verovante vrednosti, po jednu za svaku od četiri baze. Maksimalna od četiri verovatne vrednosti ukazuje na očitavanje baze. Prema tome, kao što je prikazano u primeru izvođenja za primer koji je predstavlјen na Slici 5, vrednostima intenziteta za dvokanalni skup podataka se dodelјuje očitavanje baze nakon izvođenja Gausovog uklapanja u skup podataka. Svaki pojedinačni podatak na grafiku sa Slike 5 je sa bojom koja je povezana sa dodeljenim očitavanjem baze, što predstavlja maksimum verovatne predviđene vrednosti. Poređenje podataka očitavanja baza je prikazano sa dva grafika na Slici 5 i ukazuje da su postupci očitavanja baza koji su ovde predstavljeni vrlo tačni i robusni za raznovrsne tipove hemija sekvenciranja. Na primer, levi panel sa Slike 5 je primer hemije koja obrazuje četiri raspodele intenziteta, a koje kada se vrednosti intenziteta unesu u grafik, obrazuju kvadrat. Nasuprot tome, tačkasti dijagram na desnom panelu sadrži četiri raspodele intenziteta koje čine trougao, što se zasniva na manjim intenzitetima duplo obeleženog nukleotida. U obe vrste hemija, postupci očitavanja baza koji su ovde prikazani, obzebeđuju tačna očitavanja baza.
[0145] U primerima izvođenja postupaka koji su ovde predstavljeni, ocena kvaliteta će takođe biti generisana na osnovu pristupa očitavanje baza upotrebom Gausove raspodele. Na primer, rastojanje tačke od centra raspodele “očitavanja“ daje meru čistoće očitavanja baze. Naime, što je pojedinačni podatak bliže centru raspodele očitanih baza, više je verovatno da je očitavanje baze tačno. Bilo koji pogodan postupak za izračunavanje i izražavanje odnosa između udalјenosti do centra i verovatne čistoće očitavanja baze, može biti upotrebljen u postupcima koji su ovde obezbeđeni. U pojedinim primerima izvođenja, kvalitet čistoće očitavanja baze može biti izražen u vidu rastojanja do najbližeg centroida, podelјenog sa zbirom svih rastojanja do svakog od ostala tri centroida. U pojedinim primerima izvođenja, kvalitet ili čistoća očitavanja baze za dati pojedinačni podatak može biti izražen u vidu rastojanja do najbližeg centroida, podeljenog sa drugim najbižim centroidom, kao što je opisano u nastavku teksta u vezi sa postupcima filtriranja specifičnosti signala.
Filtriranje specifičnosti signala
[0146] Ovde su takođe predstavlјeni postupci izdvajanja klastera sa slabim kvalitetom postupkom filtriranja. Pojam filtiranja, kako se upotrebljava u kontektu klastera i očitavanja baza, odnosi se na odbacivanje ili zanemarivanje klastera kao pojedinačnog podataka. Tako, svi klasteri lošeg intenziteta ili kvaliteta mogu biti uklonjeni postupkom filtriranja i time neće biti uključeni u skup izlaznih podataka. U određenim primerima izvođenja, kvalitet klastera je određen metričkim parametrom koji je označen kao specifičnost signala (engl. chastity). Specifičnost signala za dvokanalno očitavanje baza ima različito značenje od istog termina kod četvorokanalnog očitavanja baza. Na primer, kao što je opisano u pridruženim materijalima U.S. Patent Application Publication No.2012/0020537, specifičnost signala se definiše u smislu intenziteta klastera („tačka/mesto“) u odnosu na obližnje mesto), a može biti izračunata kao najveća vrednost intenziteta podeljena sa zbirom najveće vrednosti intenziteta i druge najveće vrednosti intenziteta, pri čemu se vrednosti intenziteta dobijaju sa četiri kanala boja. Ipak, pošto dvokanalno očitavanje baza obično koristi neobeležene nukleotide koji emituju veoma nizak ili ne emituju signal, tradicionalno određivanje specifičnosti signala nije pogodno za dvokanalno očitavanje baza.
[0147] Prema tome, pojedini primeri izvođenja predmetnog opisa se odnose na određivanje specifičnosti signala klastera u funkciji relativnih rastojanja do Gausovih centroida. U pojedinim primerima izvođenja, klasteri koji nisu dovolјno bliski nekon određenom Gausovom centroidu u datom broju ciklusa, proizvode nisku vrednost specifičnosti sigala i izdvajaju se filtriranjem podataka. Na primer, u jednom specifičnom primeru izvođenja, specifičnost sigala se izračunava upotrebom izraza:
Specifičnost signala = 1-D1/(D1+D2)
gde je D1 udalјenost do najbližeg Gausovog centroida, a D2 je udalјenost do sledećeg najbližeg centroida. Postupci uklapanja Gausove raspodele u dvokanalni skup podataka su opisani u prethodnom odeljku gde su opisani postupci očitavanja baza.
4
[0148] U pojedinim primerima izvođenja, filtriranje klastera niske specifičnosti se vrši u jednoj ili u više diskretnih tačaka tokom izvođenja sekvenciranja. U pojedinim primerima izvođenja, postupak filtriranja se odvija tokom generisanja matrice. Alternativno ili dodatno, u pojedinim primerima izvođenja, filtriranje se odvija nakon unapred definisanog ciklusa. U pojedinim primerima izvođenja, filtriranje se odvija u ili nakon ciklusa 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 ili nakon ciklusa 30 ili kasnije. U uobičajenim primerima izvođenja, filtriranje se odvija u ciklusu 25, tako da se klasteri koji nisu dovolјno bliski Gausovom centroidu u prvih 25 ciklusa izdvajaju postupkom filtriranja.
Postupci sekvenciranja
[0149] Postupci koji su ovde opisani mogu biti upotrebljeni u kombinaciji sa raznovrsnim tehnikama sekvenciranja nukleinskih kiselina. Posebno su primenlјive one tehnike gde su nukleinske kiseline vezane za fiksne lokacije na genskom čipu tako da se njihove relativne pozicije ne menjaju i gde se čip stalno ponavlјano snima. Primeri izvođenja u kojima se slike dobijaju na različitim kanalima boja, na primer, koji se podudaraju sa različitim obeleživačima koji su upotrebljeni za razlikovanje jednog tipa nukleotidne baze od drugog, posebno su primenljivi. U pojedinim primerima izvođenja, proces za utvrđivanje nukleotidne sekvence cilјne nukleinske kiseline može biti automatizovan proces. Poželјni primeri izvođenja podrazumevaju tehnike sekvenciranja-po-sintezi (SBS).
[0150] SBS tehnike uglavnom uklјučuju enzimatsko produžavanje matičnog lanca nukleinske kiseline kroz iterativno dodavanje nukleotida shodno lancu koji je matrica. U tradicionalnim SBS postupcima, jedan nukleotidni monomer može biti obezbeđen cilјnom nukleotidu u prisustvu polimeraze pri svakoj isporuci. Ipak, u postucima koji su ovde opisani, više od jednog tipa nukleotidnog monomera može biti obezbeđen cilјnoj nukleinskoj kiselini u prisustvu polimeraze prilikom isporuke.
[0151] SBS može koristiti nukleotidne monomere koji sadrže ostatak za terminaciju ili one kojima ostatak za terminaciju nedostaje. Postupci koji koriste nukleotidne monomer kome nedostaje ostatak za terminaciju obuhvataju, na primer, pirosekvenciranje i sekvenciranje upotrebom nukleotida obeleženih γ-fosfatom, kao što je detaljnije navedeno u nastavku teksta. U postupcima u kojima se uporebljavaju monomeri kojima nedostaje ostatak za terminaciju, broj nukleotida koji se dodaje u svakom ciklusu je generalno varijabilan i zavisi od sekvence matrice, kao i od načina isporuke nukleotida. Za SBS tehnike koje koriste nukleotidne monomere sa ostatkom za terminaciju, terminator može biti efektivno vezana na ireverzibilan način u uslovima sekvenciranja koji se upotrebljavaju, kao što je to slučaj kod tradicionalnog Sangerovog sekvenciranja u kome se koriste didezoksinukleotidi, ili terminator može biti reverzibilano vezan, kao što je to slučaj kod postupaka sekvenciranja razvijenih od strane kompanije Solexa (sada Illumina, Inc.)
[0152] SBS tehnike mogu koristiti nukleotidne monomere koji sadrže ostatak za obeležavanje ili one kojima ostatak za obeležavanje nedostaje. Shodno tome, događaji ugrađivanja mogu biti detektovani na osnovu karakteristika obeleživača, kao što je to fluorescencija obeleživača; na osnovu karakteristika nukleotidnog monomera poput molekulske težine ili naelektrisanja; sporednog proizvoda ugrađivanja nukleotida, kao što je oslobađanje pirofosfata; ili sličnog. U primerima izvođenja gde su dva ili više od različitih nukleotida prisutni u reagensu za sekvenciranje, različiti nukleotidi se mogu razlikovati jedan od drugog, ili alternativno, dva ili više različitih obeleživača se ne mogu razlikovati u tehnikama detekcije koje se upotrebljavaju. Na primer, različiti nukleotidi koji su prisutni u reagensu za sekvenciranje mogu sadržavati različite obeleživače i mogu se razlikovati upotrebom odgovarajućih optika, kao što to slučaj kod postupaka sekvenciranja za primer koji su razvijeni od strane kompanije Solexa (sada Illumina, Inc.).
[0153] Poželјni primeri izvođenja obuhvataju tehnike pirosekvenciranja. Pirosekvenciranjem se detektuje oslobađanje neorganskog pirofosfata (PPi) kada se određeni nukleotidi ugrade u nastajući lanac (Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. i Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res.11(1), 3-11; Ronaghi, M., Uhlen, M. i Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science 281(5375), 363; U.S. Pat. No. 6,210,891; U.S. Pat. No. 6,258,568 and U.S. Pat. No. 6,274,320). U piroskvenciranju, oslobođeni PPi može biti detektovan time što se odmah prevodi u adenozin trifosfat (ATP), dejstvom ATP sulfurilaze, a nivo generisanog ATP-a se detektuje putem fotona koje proizvodi luciferaza. Nukleinske kiseline koje će biti sekvencirane mogu biti vezane za karakteristike na genskom čipu i čip može biti sniman da bi se uhvatili hemiluminscentni signali koji se proizvode usled ugrađivanja nukleotida na karakteristike genskog čipa. Slika može biti dobijena nakon tretiranja čipa sa određenim tipom nukleotida (npr. A, T, C ili G). Slike dobijene nakon dodavanja svakog tipa nukleotida će se razlikovati u kontekstu karakteristika na genskom čipu koje se mogu detektovati. Ovakve razlike na slici odražavaju različit sadržaj sekvenci koje predstavljaju karakteristike na genskom čipu. Ipak, relativne pozicije svake od karakteristika će na slikama ostati nepromenjene. Slike mogu biti sačuvane, obrađene i analizirane upotrebom postupaka koji su ovde navedeni. Na primer, slike dobijene nakon tretmana genskog čipa sa svakim od različitih tipova nukleotida mogu biti obrađene na isti nakčin kao što je to ovde prikazano u vidu primera za slike koje su dobijene sa različitih kanala detekcije u reverzibilnim postupcima sekvenciranja zasnovanim na terminaciji.
[0154] U drugom tipu SBS za primer, ciklusi sekvenciranja se ostvaruju postupnim dodavanjem reverzibilnih terminacionih nukleotida koji sadrže, na primer, obeleživač koji se može podvrgnuti enzimskom cepanju ili je sa bojom koja se gubi, kao što je opisano, na primer, u WO 04/018497 i U.S. Pat. No.7,057,026. Ovakav pristup je komercijalizovala kompanija Solexa (sada Illumina Inc.), a opisan je takođe u WO 91/06678 i WO 07/123,744. Dostupnost fluorescentno označenih terminatora koji mogu biti i tipa terminacije koja može biti revertovana i tipa cepanja fluorescentnog obeleživača, može olašati efikasnu cikličnu reverzibilnu terminaciju (CRT) sekvenciranja. Postupak može biti dizajniran i tako da istovremeno budu prisutne i polimeraze, a da bi se ovako modifikovani nukleotidi efikasno ugradili i na njih produžila dalja ugradnja.
[0155] Poželјno je da u primerima izvođenja sekvenciranja zasnovanog na reverzibilnoj terminaciji, obeleživači suštinski ne inhibiraju ekstenziju pod uslovima SBS reakcija. Ipak, obeleživači za detekciju mogu biti takvi da se mogu ukloniti, na primer, cepanjem ili razgradnjom. Slike mogu biti snimane nakon ugrađivanja obeleživača u nukleinske kiseline koje predstavljaju karakteristike genskog čipa. U posebnim primerima izvođenja, svaki ciklus obuhvata simultanu isporuku četiri različita tipa nukleotida na genski čip, pri čemu svaki tip nukleotida sadrži spektralno različit obeleživač. Potom mogu biti dobijene četiri slike, od kojih svaka koristi kanal za detekciju koji je selektivan za jedan od četiri različita obeleživača. Alternativno, različiti tipovi nukleotida mogu biti dodati sekvencijalno, a između svakog koraka dodavanja može biti snimana slika genskog čipa. U takvim primerima izvođenja, svaka slika će prkazivati karakteristike nukleinskih kiselina koje su ugradile nukleotid određenog tipa. Različite karakteristike će biti prisutne ili odsutne na različitim slikama usled različitog sadržaja sekveni svake karakteristike. Ipak, relativna pozicija karakteristika će na slikama ostati nepromenjena. Slike dobijene iz takvih SBS postupaka sa reverzibilnom terminacijom mogu biti sačuvane, obrađene i analizirane kao što je to ovde navedeno. Nakon koraka snimanja slika, obeleživači mogu biti uklonjeni, a mogu biti uklonjeni i reverzibilni ostaci za terminaciju da bi se nastavilo sa narednim ciklusima dodavanja i detekcije nukleotida. Uklanjanje obeleživača nakon njihove detektcije u određenom ciklusu i pre narednog ciklusa može obezbediti prednost tipa smanjenja signala pozadine i ukrštene reaktivnosti između ciklusa. Primeri korisnih obleleživača i postupaka uklanjanja su navedeni u nastavku teksta.
[0156] U posebnim primerima izvođenja, pojedini ili svi nukleotidni monomeri mogu sadržavati reverzibilne terminatore. U takvim primerima izvođenja, reverzibilni terminatori/fluorofore koje se mogu isecati cepanjem, mogu sadržavati fluoroforu koja je povezana sa ostatkom riboze preko 3' estarske veze (Metzker, Genome Res.15:1767-1776 (2005)). U drugim pristupima, hemija terminacije je razdvojena od cepanja fluorescentnog obeleživača (Ruparel i saradnici, Proc Natl Acad Sci USA 102: 5932-7 (2005)). Ruparel i saradnici su opisali razvoj reverzibilnih terminatora koji upotrebljavaju malu 3' alilnu grupu za blokiranje ekstenzije, ali koje je moguće lako odblokirati kratkim tretmanom sa paladijumskim katalizatorom. Fluorofora se pričvršćuje za bazu preko linkera koji se može cepati dejstvom svetlosti, odnosno koji lako može biti odvojen cepanjem pri izlaganju UV svetlosti, dugih talasnih dužina, tokom 30 sekundi. Tako, bilo redukcija disulfidnih veza ili cepanje svetlošću može biti upotrebljeno za linkere koji su podložni cepanju. Drugi pristup reverzibilnoj terminaciji je upotreba prirodne terminacije koja nastupa nakon postavljanja kabaste boje na dNTP. Prisustvo naelektrisane kabaste boje na dNTP može delovati kao efektivan terminator usled steričkog i/ili elektrostatičnog ometanja. Prisustvo jednog događaja ugrađivanja sprečava dalјe ugrađivanje, osim ukoliko se boja ukloni. Cepanjem boje se uklanja fluorofora i efektivno se revertuje terminacija. Primeri modifikovanih nukleotida su takođe opisani u U.S. Pat. No.7,427,673 i U.S. Pat. No.7,057,026.
[0157] Dodatni primeri SBS sistema i postupaka koji mogu biti upotrebljeni u postupcima i sistemima koji su ovde prikazani, opisani su u U.S. Patent Application Publication No.2007/0166705, U.S. Patent Application Publication No.2006/0188901, U.S. Pat. No.7,057,026, U.S. Patent Application Publication No. 2006/0240439, U.S. Patent Application Publication No. 2006/0281109, PCT Publication No. WO 05/065814, U.S. Patent Application Publication No. 2005/0100900, PCT Publication No. WO 06/064199, PCT Publication No. WO 07/010,251, U.S. Patent Application Publication No.
2012/0270305 i U.S. Patent Application Publication No.2013/0260372.
[0158] Pojedini primeri izvođenja mogu koristiti detekciju četiri različita nukleotida upotrebom manje od četiri različita obeleživača. Na primer, SBS može biti izveden upotrebom postupaka i sistema opisanih u U.S. Patent Application Publication No.2013/0079232. U vidu prvog primera, par različitih tipova nukleotida može biti detektovan na istoj talasnoj dužini, ali se oni mogu razlikovati na osovu razlike u intenzitetu jednog člana para u poređenju sa drugim, ili na osnovu promene jednog člana para (npr. putem hemijske modifikacije, fotohemijske modifikacije ili fizičke modifikacije) koja prouzrokuje pojavu ili nestajanje janog signala u poređenju sa signalom koji se detektuje za drugog člana para. U vidu drugog primera, pod određenim uslovima mogu biti detektovana tri od četiri različita tipa nukleotida, dok četvrtom tipu nukleotida nedostaje obeleživač koji se može detektovati pod tim uslovima, ili koji je pod tim uslovima sa minimumom detekcije (npr. minimalna detekcija je posledica fluorescencije pozadine itd.). Ugradnja prva tri tipa nukleotida u nukleinsku kiselinu može biti utvrđena na osnovu prisustva njihovih odgovarajućih signala, dok ugradnja četvrtog tipa nukleotida u nukleinsku kiselinu može biti utvrđena na osnovu odsustva ili minimalne detekcije bilo kog signala. Treći primer je da jedan tip nukleotida može sadržavati obeleživač(e) koji se detektuje na dva različita kanala, dok se drugi tipovi nukleotida detektuju na ne više od jednog kanala. Prethodno navedene tri konfiguracije za primer se ne smatraju međusobno isklјučivim i mogu biti upotrebljene u raznim kombinacijama. Prioritetan primer izvođenja koji kombinuje sva tri primera, predstavlja SBS postupak zasnovan na fluorescenciji u kome se upotrebljava prvi tip nukleotida koji se detektuje na prvom kanalu (npr. dATP sa obeleživačem koji se detektuje na prvom kanalu kada se on ekscitira prvom ekscitacionom talasnom dužinom), drugi tip nukleotida koji se detektuje na drugom kanalu (npr. dCTP sa obeleživačem koji se detektuje na drugom kanalu kada se on ekscitira drugom ekscitacionom talasnom dužinom), treći tip nukleotida koji se detektuje i na prvom i na drugom kanalu (npr. dTTP sa najmanje jednim obeleživačem koji se detektuje na oba kanala kada se oni ekscitiraju prvom/drugom ekscitacionom talasnom dužinom) i četvrti tip nukleotida kome nedostaje obeleživač i koji se ne detektuje ili je sa minimalnom detekcijom na bilo kom kanalu (npr. dGTP koji ne sadrži obeleživač).
[0159] Dodatno, kao što je opisano u pridruženim materijalima iz U.S. Patent Application Publication No. 2013/0079232, podaci sekvenciranja mogu biti dobijeni upotrebom jednog kanala. U ovim takozvanim jednobojnim pristupima sekvenciranja, prvi tip nukleotida se obeležava, ali se obeleživač uklanja nakon generisanja prve slike, dok se drugi tip nukleotida obeležava jedino nakon generisanja prve slike. Treći tip nukleotida zadržava svoj obleleživač i na prvoj i na drugoj od slika, dok četvrti tip nukleotida ostaje neobeležen na obe slike.
[0160] Pojedini primeri izvođenja mogu koristiti tehnike sekvenciranja-po-ligaciji. Takve tehnike koriste DNK ligazu za ugradnju oligonukleotida i zatim identifikovanje ugrađivanja takvih oligonukleotida. Oligonukleotidi obično sadrže različite obeleživača koje su u korelaciji sa identitetom određenog nukleotida u sekvenci sa kojim oligonukleotidi hibridizuju. Kao i kod drugih SBS postupaka, slike mogu biti dobijene nakon tretmana genskog čipa sa karakteristikama u vidu nukleinskih kiselina, sa obeleženim reagensima za sekvenciranje. Svaka slika će prikazati karakteristike u vidu nukleinskih kiselina koje su ugradile obeleživače određenog tipa. Različite karakteristike će biti prisutne ili odsutne na različitim slikama usled različitog sadržaja sekvenci svake karakteristike, ali će relativna pozicija karakteristika na slikama ostati nepromenjena. Slike dobijene postupcima sekvenciranja zasnovanim na ligaciji mogu biti sačuvane, obrađene i analizirane kao što je ovde navedeno. SBS sistemi i postupci za primer koji mogu biti iskorišćeni u postupcima i sistemima koji su ovde navedeni, opisani su u U.S. Pat. No.6,969,488, U.S. Pat. No.6,172,218, i U.S. Pat. No.6,306,597.
[0161] Pojedini primeri izvođenja mogu koristiti sekvenciranje na nanoporama (Deamer, D. W. i Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol.18, 147-151 (2000); Deamer, D. i D. Branton, "Characterization of nucleic acids by nanopore analysis". Acc. Chem. Res. 35:817-825 (2002); Li, J., M. Gershow, D. Stein, E. Brandin, i J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater.2:611-615 (2003)). U takvim primerima izvođenja, cilјna nukleinska kiselina prolazi kroz nanopore. Nanopore mogu biti sintetske pore ili protein biološke membrane, kao što je α-hemolizin. Dok cilјna nukleinska kiselina prolazi kroz nanopore, svaki par baza može biti identifikovan merenjem fluktuacija u električnoj provodlјivosti pore. (U.S. Pat. No. 7,001,792; Soni, G. V. i Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001 (2007); Healy, K. "Nanoporebased single-molecule DNA analysis." Nanomed.2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with singlenucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008)). Podaci dobijeni sekvenciranjem na nanoporama mogu biti sačuvani, obrađeni i analizirani kao što je ovde navedeno. Preciznije, podaci mogu biti tretirani kao slika u skladu sa postupkom obrade optičkih slika i drugih slika za primer koji su ovde navedeni.
[0162] Pojedini primeri izvođenja mogu koristiti postupke koje uključuju praćenje aktivnosti DNK polimeraze u realnom vremenu. Ugrađivanja nukleotida mogu biti detektovana posredstvom fluorescentnog rezonantnog prenosa energije (FRET) interakcija između polimeraze koja nosi fluoroforu i nukleotida obeleženih γ-fosfatom, kao što je to opisano, na primer, u U.S. Pat. No.
7,329,492 i U.S. Pat. No.7,211,414, ili se ugrađivanja nukleotida mogu detektovati upotrebom nultogmoda usmeravanja talasnih dužina, kao što je to opisano, na primer, u U.S. Pat. No. 7,315,019 i upotrebom fluorescentnih nukleotidnih analoga i konstruisanih polimeraza kao što je opisano, na primer, u U.S. Pat. No.7,405,281 i U.S. Patent Application Publication No.2008/0108082. Osvetlјenost može biti ograničena na zapremine u zeptolitarskoj skali oko površine za koju je premošćivanjem vezana polimeraza, tako da se ugrađivanje fluorescentno obeleženog nuklotida može uočiti sa niskim signalom pozadine (Levene, M. J. i saradnici, "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686 (2003); Lundquist, P. M. i saradnici, "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008); Korlach, J. i saradnici, "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)). Slike dobijene takvim postupcima mogu biti sačuvane, obrađene i analizirane kao što je ovde navedeno.
[0163] Prednost prethodno navedenih SBS postupaka je što mogu biti izvedeni u multipleksnim formatima tako da se istovremeno manipuliše sa mnoštvom različitih cilјnih nukleinskih kiselina. U posebnim primerima izvođenja, različite cilјne nukleinske kiseline mogu biti tretirane u zajedničkoj reakcionoj posudi ili na površini određenog supstrata. Navedeno omogućava pogodnu isporuku reagenasa za sekvenciranje, uklanjanje reagensa koji nisu izreagovali i detekciju događaja ugrađivanja na multipleksni način. U primerima izvođenja u kojima se upotrebljavaju ciljne nukleinske kiseline vezane za površinu, cilјne nukleinske kiseline mogu biti u formatu genskog čipa. U formatu genskog čipa, cilјne nukleinske kiseline mogu biti uobičajeno vezane za površinu na prostorno raspoznatljiv način. Cilјne nukleinske kiseline mogu biti vezane direktnim kovalentnim vezivanjem, vezivanjem za globule ili druge čestice, ili vezivanjem za polimerazu ili drugi molekul koji je pričvršćen za površinu. Genski čip može sadržavati jednu kopiju cilјne nukleinske kiseline na svakoj poziciji (označenoj ovde i kao karakteristika) ili mnoštvo kopija sa istom sekvencom može biti prisutno na svakom mestu ili karakteristici. Višestruke kopije mogu biti proizvedene postupcima amplifikacije, kao što su premošćena amplifikacija ili PCR u emulziji, koji su dodatno detaljno opisani u nastavku teksta.
[0164] Postuci koji su ovde navedeni mogu upotrebljavati genske čipove sa karakteristikama bilo koje od raznovrsnih gustina, uklјučujući, na primer, najmanje oko 10 karakteristika/cm<2>, 100 karakteristika/cm<2>, 500 karakteristika/cm<2>, 1.000 karakteristika/cm<2>, 5.000 karakteristika/cm<2>, 10.000 karakteristika/cm<2>, 50.000 karakteristika/cm<2>, 100.000 karakteristika/cm<2>, 1.000.000 karakteristika/cm<2>, 5.000.000 karakteristika/cm<2>ili više.
Sistemi
[0165] Sistem sposoban da sprovode postupak koji je ovde naveden, bilo da je sa integrisanim sposobnostima detekcije ili ne, može obuhvatati i kontroler sistema koji je u stanju da izvšava skup instrukcija da bi se sproveo jedan ili više koraka postupka, tehnike ili procesa koji je ovde naveden. Na primer, uputstva mogu usmeravati izvođenje koraka za kreiranje skupa amplikona in situ. Opciono, uputstva mogu dalјe usmeravati izvođenje koraka za detektovanje nukleinskih kiselina upotrebom prethodno navedenih postupaka. Korisan sistemski kontroler može uključivati bio koji sistem zasnovan na procesorima ili mikroprocesorima, uklјučujući sisteme koji koriste mikrokontrolere, računare sa redukovanim skupovima instrukcija (RISC), integrisana kola specifična za aplikacije (ASIC), čipove sa ograničenjima oblasti koje se mogu programirati (FPGA), logičke sklopove i bilo koje druge tipove kola ili procesora koji su u stanju da izvršavaju funkcije koje su ovde opisane. Skup uputstava za sistemski kontroler može biti u obliku kompjuterskog programa. Kako se ovde upotrebljava, termini "softver" i "firmver" se mogu naizmenično koristiti, a mogu obuhvatati bilo koji kompjuterski program koji je pohranjen u memoriji da bi bio izvršen od strane računara, uklјučujući RAM memoriju, ROM memoriju, EPROM memoriju, EEPROM memoriju i postojanu RAM (NVRAM) memoriju. Softver može biti u raznim oblicima, kao što su sistemski softver ili softver u vidu aplikacije. Dodatno, softver može biti u obliku kolekcije odvojenih programa ili programskog modula unutar većeg programa ili dela programskog modula. Softver takođe može uključivati modularno programiranje u obliku programiranja orijentisanog na objekte.
[0166] Potrebno je naglasiti da bilo koji od prethodno opisanih procesa sekvenciranja može biti inkorporiran u bilo koji od postupaka i/ili sistema koji su ovde opisani. Štaviše, potrebno je naglasiti da ostali poznati procesi sekvenciranja lako mogu biti implementirani za upotrebu sa postupcima i/ili sistema koji su ovde opisani. Takođe je potrebno naglastiti da su postupci i sistemi koji su ovde opisani dizajnirani tako da budu primenlјivi sa bilo kojom od tehnologija sekvenciranja nukleinskih kiselina. Dodatno, potrebno je naglasiti da postupci i sistemi koji su ovde opisani imaju još širu primenlјivost u bilo kojoj oblasti u kojoj je važno praćenje i analiza karakteristika u uzorku tokom vremena ili iz različitih perspektiva. Na primer, postupci i sistemi koji su ovde opisani mogu biti primenjemi kada se podaci dobijaju nadgledanjem, tehnologijama snimanja iz vazduha ili sa satelitima, odnosno kada se slični podaci snimaju u različitim vremenskim tačkama ili iz različitih perspektiva i analiziraju.
PRIMERI
PRIMER 1
OČITAVANJE BAZA UPOTREBOM GAUSOVE RASPODELE NA DVOKANALNE PODATKE
[0167] Očitavanje baza se izvodi u dvokanalnom sistemu sekvenciranja prikom sekvenciranja celokupnog genoma humanih uzoraka. Nakon generisanja matrice, generišu se vrednosti intenziteta sa dva odvojena kanala za snimanje slika. Vrednosti intenziteta se normalizuju tako da 5. i 95. procenat imaju vrednosti 0, odnosno 1, a četiri Gausove raspodele se zatim uklapaju u podatke upotrebom algoritma sa Povećavanjem očekivanja na maksimum. Izračunava se centroid (srednja vrednost X, Y) za svaku od četiri raspodele koja odgovara svakom od četiri nukleotida.
[0168] Očitavanje baza za svaki klaster se odvija merenjem verovatne izračunate vrednosti, što predstavlja verovatnoću da klaster pripada svakoj od četiri raspodele. Centroid povezan sa maksimalno verovatnom vrednošću se selektuje kao očitavanje baze. Proces očitavanja baze se izvodi za svaki od klastera u skupu podataka za svaki od ciklusa.
4
[0169] Predviđeno je da termin obuhvata ovde bude sa širim značenjem, uključujući ne samo nabrojane elemente, već dalje obuhvatajući sve dodatne elemente.
[0170] Opisani su brojni primeri izvođenja pronalaska. Ipak, podrazumeva se da mogu biti uvedene i razne modifikacije.
[0171] Slike 6-9 sadrže dijagrame toka koji ilustruju jedan ili više postupaka. Slika 6 ilustruje postupak 100 u skladu sa jednim primerom izvođenja. Postupak 100 može biti, na primer, postupak procene kvaliteta očitavanja baza u okviru očitavanja sekvenciranja. Postupak 100 može obuhvatiti primanje, navedeno kao postupak 102, kao i očitavanje sekvenciranja sa brojnim očitavanjima baza. Postupak 100 može takođe obuhvatiti izračunavanje, navedeno kao postupak 104, skupa prediktorskih vrednosti za očitavanje baza i upotrebu, navedenu kao postupak 106, prediktorskih vrednosti za pretragu ocene kvaliteta (ili slične metrike) u okviru tabele kvaliteta (ili bazi podataka).
[0172] Prema jednom aspektu, očitavanje sekvenciranja koristi dvokanalno očitavanje baza.
[0173] Prema drugom aspektu, očitavanje sekvenciranja koristi jednokanalno očitavanje baza.
[0174] Prema sledećem aspektu, tabela kvaliteta se generiše upotrebom Phred sistema za procenu u okviru skupa kalibracionih podataka. Skup kalibracionih podataka je reprezentativan za varijabilnost jedne analize i same sekvence. U pojedinim primerima izvođenja, postupak 100 može obuhvatati generisanje tabele kvaliteta.
[0175] Prema sledećem aspektu, prediktorske vrednosti su izabrane iz grupe koja se sastoji od: preklapanja u toku procesa; čistoće signala; faziranja; start5; heksamerske procene; akumulacije motiva; poretka informacija po veličini; procene približnosti homopolimeru; raspadanja intenziteta; specifičnosti signala u pretposlednjem koraku; i preklapanja signala sa signalom pozadine (SOWB). U posebnim primerima izvođenja, skup prediktorskih vrednosti sadrži preklapanje u toku procesa; čistoću signala; faziranje; i start5. U pojedinim primerima izvođenja, skup prediktorskih vrednosti sadrži heksamersku procenu; i procenu akumulacije motiva.
[0176] Prema sledećem aspektu, postupak takođe obuhvata korake umanjivanja, navedene kao 108, zastupljenosti nepouzdanih mera kvaliteta na kraju svakog očitavanja. Postupak 100 takođe može obuhvatati identifikovanje, navedeno kao postupak 110, očitavanja u kojima je vrednost specifičnosti signala drugog po redu od najlošijih vrednosti u prvih 25 očitavanja baza ispod unapred određenog praga, kao i označavanje očitavanja kao podataka lošeg kvaliteta.
[0177] Prema drugom aspektu, umanjivanje, navedeno kao postupak 108, može dalјe obuhvatati upotrebu algoritma za identifikovanje praga pouzdanosti.
[0178] Prema sledećem aspektu, pouzdana očitavanja baza podrazumevaju q-vrednosti, ili druge vrednosti koje ukazuju na kvalitet podataka ili statističku značajnost, koje su iznad praga, dok nepouzdana očitavanja baza podrazumevaju q-vrednosti ili druge vrednosti koje ukazuju na kvalitet podataka ili statističku značajnost koje su ispod praga.
[0179] Prema sledećem aspektu, algoritam sadrži algoritam Maksimalnog bodovanja segmenata na osnovu krajnjeg usidravanja (EAMSS).
[0180] Prema sledećem aspektu, algoritam koristi Skriveni Markovljev model koji identifikuje pomeraje u lokalnoj distribuciji mera kvaliteta.
[0181] U jednom primeru izvođenja, obezbeđen je sistem za procenu kvaliteta očitavanja baza u okviru očitavanja sekvenciranja. Sistem sadrži procesor, kapacitet za skladištenje i program za procenu kvaliteta očitavanja baza u okviru očitavanja sekvenciranja. Program sadrži uputstva za (a) izračunavanje skupa prediktorskih vrednosti za očitavanje baza i (b) upotrebu prediktorskih vrednosti za pretragu ocene kvaliteta u okviru tabele kvaliteta.
[0182] Prema jednom aspektu, očitavanje sekvenciranja koristi dvokanalno očitavanje baza.
[0183] Prema drugom aspektu, očitavanje sekvenciranja koristi jednokanalno očitavanje baza.
[0184] Prema sledećem aspektu, tabela kvaliteta se generiše upotrebom Phred sistema za procenu u okviru skupa kalibracionih podataka, pri čemu je skup kalibracionih podataka reprezentativan za varijabilnost jedne analize i same sekvence.
[0185] Prema sledećem aspektu, prediktorske vrednosti su izabrane iz grupe koja se sastoji od: preklapanja u toku procesa; čistoće signala; faziranja; start5; heksamerske procene; akumulacije motiva; poretka informacija po veličini; procene približnosti homopolimeru; raspadanja intenziteta; specifičnosti signala u pretposlednjem koraku; i preklapanja signala sa signalom pozadine (SOWB). Opciono, skup prediktorskih vrednosti sadrži preklapanje u toku procesa; čistoću signala; faziranje; i start5. Opciono, skup prediktorskih vrednosti sadrži heksamersku procenu; i procenu akumulacije motiva.
[0186] Prema sledećem aspektu, program takođe sadrži uputstva za (c) umanjivanje zastupljenosti nepouzdanih mera kvaliteta na kraju svakog očitavanja i za (d) identifikovanje očitavanja u kojima je vrednost specifičnosti signala druga po redu od najlošijih vrednosti u prvih 25 očitavanja baza i ispod unapred određenog praga, kao i za označavanje ovakvih očitavanja kao podataka lošeg kvaliteta.
[0187] Prema sledećem aspektu, korak (c) može obuhvatati upotrebu algoritma za identifikovanje praga pouzdanosti.
[0188] Prema sledećem aspektu, pouzdana očitavanja baza podrazumevaju q-vrednosti, ili druge vrednosti koje ukazuju na kvalitet podataka ili statističku značajnost, koje su iznad praga, dok nepouzdana očitavanja baza podrazumevaju q-vrednosti ili druge vrednosti koje ukazuju na kvalitet podataka ili statističku značajnost koje su ispod praga.
[0189] Prema sledećem aspektu, algoritam sadrži algoritam Maksimalnog bodovanja segmenata na osnovu krajnjeg usidravanja (EAMSS).
[0190] Prema sledećem aspektu, algoritam koristi Skriveni Markovljev model koji identifikuje pomeraje u lokalnoj distribuciji mera kvaliteta.
[0191] Slika 7 ilustruje postupak 120 u skladu sa jednim primerom izvođenja. Postupak 120 može obuhvatati, na primer, postupak generisanja vrednosti intenziteta sa korigovanim faziranjem. Postupak obuhvata (a) izvođenje, u vidu postupka 122, mnoštva ciklusa reakcija sekvenciranja-posintezi, čime se u svakom ciklusu generiše signal koji ukazuje na ugrađivanje istog nukleotida u mnoštvo identičnih polinukleotida, pri čemu jedan deo signala predstavlja šum povezan sa nukleotidom ugrađenim tokom prethodnog ciklusa. Postupak takođe obuhvata (b) detektovanje, kao postupak 124, signala u svakom ciklusu. Signal karakteriše vrednost intenziteta. Postupak 120 takođe obuhvata (c) korekciju, postupak 126, vrednosti intenziteta u kontekstu faziranja, primenom korekcije faziranja prvog reda na vrednost intenziteta, pri čemu se za svaki ciklus izračunava nova korekcija faziranja prvog reda.
[0192] Prema jednom aspektu, korekcija faziranja prvog reda podrazumeva oduzimanje vrednosti intenziteta iz neposredno prethodnog ciklusa od vrednosti intenziteta iz ciklusa koji se odvija u datom trenutku.
[0193] Prema drugom aspektu, postupak podrazumeva oduzimanje vrednosti intenziteta iz neposredno sledećeg ciklusa od vrednosti intenziteta iz ciklusa koji se odvija u datom trenutku.
[0194] Prema sledećem aspektu, korekcija faziranja se izračunava kao:
I(ciklus)korigovan= I(ciklus) N– X*I(ciklus) N-1– Y*I(ciklus) N+1
[0195] Prema sledećem aspektu, vrednosti X i/ili Y su izabrane tako da se optimizuje utvrđivanje specifičnosti signala. Opciono, utvrđivanje specifičnosti signala podrazumeva srednju vrednost specifičnosti signala.
[0196] Prema sledećem aspektu, analiza sekvenciranja koristi dvokanalno očitavanje baza.
[0197] Prema sledećem aspektu, analiza sekvenciranja koristi jednokanalno očitavanje baza.
[0198] Prema sledećem aspektu, analiza sekvenciranja koristi četvorokanalno očitavanje baza.
[0199] Prema jednom aspektu, obezbeđen je sistem za generisanja vrednosti intenziteta sa korigovanim faziranjem. Sistem obuhvata procesor, kapacitet za skladištenje i program za generisanja vrednosti intenziteta sa korigovanim faziranjem. Program sadrži uputstva za (a) izvođenje mnoštva ciklusa reakcija sekvenciranja-po-sintezi, čime se u svakom ciklusu generiše signal koji ukazuje na ugrađivanje istog nukleotida u mnoštvo identičnih polinukleotida, pri čemu jedan deo signala predstavlja šum povezan sa nukleotidom ugrađenim tokom prethodnog ciklusa. Program takođe sadrži uputstva za (b) detektovanje signala u svakom ciklusu, pri čemu signal karakteriše vrednost intenziteta, i za (c) korekciju vrednosti intenziteta u pogledu faziranja, primenom korekcije faziranja prvog reda na vrednost intenziteta. Za svaki ciklus se izračunava nova korekcija faziranja prvog reda.
[0200] Prema jednom aspektu, korekcija faziranja prvog reda podrazumeva oduzimanje vrednosti intenziteta iz neposredno prethodnog ciklusa od vrednosti intenziteta iz ciklusa koji se odvija u datom trenutku.
[0201] Prema drugom aspektu, postupak podrazumeva oduzimanje vrednosti intenziteta iz neposredno sledećeg ciklusa od vrednosti intenziteta iz ciklusa koji se odvija u datom trenutku.
[0202] Prema sledećem aspektu, korekcija faziranja se izračunava kao:
I(ciklus)korigovan= I(ciklus) N– X*I(ciklus) N-1– Y*I(ciklus) N+1.
4
[0203] Prema sledećem aspektu, vrednosti X i/ili Y su izabrane tako da se optimizuje utvrđivanje specifičnosti signala. Opciono, utvrđivanje specifičnosti signala podrazumeva srednju vrednost specifičnosti signala.
[0204] Prema sledećem aspektu, analiza sekvenciranja koristi dvokanalno očitavanje baza.
[0205] Prema sledećem aspektu, analiza sekvenciranja koristi jednokanalno očitavanje baza.
[0206] Prema sledećem aspektu, analiza sekvenciranja koristi četvorokanalno očitavanje baza.
[0207] Slika 8 ilustruje postupak 140 u skladu sa jednim primerom izvođenja. Postupak 140 može biti, na primer, postupak identifikacije nukleotidne baze. Postupak 140 obuhvata detektovanje, postupak 142, prisusva ili odsustva signala na dva različita kanala za svaku od mnoštva karakteristika na genskom čipu u određeno vreme, čime se generiše prvi skup vrednosti intenziteta i drugi skup vrednosti intenziteta za svaku od karakteristika. Kombinacija vrednosti intenziteta za svaki od dva kanala odgovara jednoj od četiri različite nukleotidne baze. Postupak takođe obuhvata postupak 144, uklapanje četiri Gausove raspodele u vrednosti intenziteta. Svaku raspodelu karakteriše centroid. Postupak takođe obuhvata izračunavanje, postupak 146, verovatne vrednosti koja ukazuje na verovatnoću da neka karakteristika pripada svakoj od četiri raspodele. Postupak takođe obuhvata odabir raspodele, u vidu postupka 148, za svaku od karakteristika iz navedenog mnoštva karakteristika sa najviše verovatnom vrednošću. Ovakva raspodela odgovara identitetu nukleotidne baze koja je prisutna u okviru određene karakteristike.
[0208] Prema jednom aspektu, uklapanje obuhvata upotrebu jednog ili više algoritama iz grupe koja se sastoji od: algoritma klaster analize postupkom k-srednjih vrednosti, algoritma klaster analize postupkom vrednosti sličnih k-srednjim vrednostima, algoritma povećanja očekivanja na maksimum i postupka zasnovanog na histogramu. U posebnim primerima izvođenja, uklapanje obuhvata upotrebu algoritma povećanja očekivanja na maksimum.
[0209] Prema drugom aspektu, postupak obuhvata normalizovanje vrednosti intenziteta.
[0210] Prema sledećem aspektu, za svaku karakteristiku se izračunava vrednost specifičnosti signala. Vrednost specifičnosti signala može biti funkcija relativnog rastojanja od karakteristike do dva najbliža Gausova centroida.
[0211] Prema sledećem aspektu, karakteristike sa vrednošću specifičnosti signala ispod praga se isključuju postupkom filtriranja.
[0212] U jednom primeru izvođenja, obezbeđen je sistem za procenu kvaliteta očitavanja baza u okviru očitavanja sekvenciranja. Sistem sadrži procesor, uređaj za skladištenje podataka i program za identifikovanje nukleotidne baze. Program sadrži uputstva za detektovanje prisusva ili odsustva signala na dva različita kanala za svaku od mnoštva karakteristika na genskom čipu u određeno vreme, čime se generiše prvi skup vrednosti intenziteta i drugi skup vrednosti intenziteta za svaku od karakteristika. Kombinacija vrednosti intenziteta za svaki od dva kanala odgovara jednoj od četiri različite nukleotidne baze. Program takođe sadrži uputstva za uklapanje četiri Gausove raspodele u vrednosti intenziteta. Svaku raspodelu karakteriše centroid. Program takođe sadrži uputstva za izračunavanje verovatne vrednosti koja ukazuje na verovatnoću da neka karakteristika pripada svakoj od četiri raspodele, kao i za odabir raspodele za svaku od karakteristika iz navedenog mnoštva karakteristika sa najviše verovatnom vrednošću. Ovakva raspodela odgovara identitetu nukleotidne baze koja je prisutna u okviru određene karakteristike.
[0213] Prema jednom aspektu, uklapanje obuhvata upotrebu jednog ili više algoritama iz grupe koja se sastoji od: algoritma klaster analize postupkom k-srednjih vrednosti, algoritma klaster analize postupkom vrednosti sličnih k-srednjim vrednostima, algoritma povećanja očekivanja na maksimum i postupka zasnovanog na histogramu. U posebnim primerima izvođenja, uklapanje obuhvata upotrebu algoritma povećanja očekivanja na maksimum.
[0214] Prema drugom aspektu, program sadrži uputstva za normalizovanje vrednosti intenziteta.
[0215] Prema sledećem aspektu, program sadrži uputstva za izračunavnje specifičnosti signala za svaku karakteristiku. Vrednost specifičnosti signala može biti funkcija relativnog rastojanja od karakteristike do dva najbliža Gausova centroida. Opciono, karakteristike sa vrednošću specifičnosti signala ispod praga se isključuju postupkom filtriranja.
[0216] Slika 9 ilustruje postupak 160 u skladu sa jednim primerom izvođenja. Postupak 160 može biti, na primer, postupak identifikovanja nukleotidne baze. Postupak 160 obuhvata dobijanje, postupak 162, prvog skupa vrednosti intenziteta i drugog skupa vrednosti intenziteta za svaku od mnoštva karakteristika na genskom čipu. Vrednost intenziteta za svaku karakteristiku, u jednom ili u oba skupa, odgovara prisustvu ili odsustvu određene nukleotidne baze od četiri moguće nukleotidne baze u okviru karakteristike. Postupak takođe obuhvata uklapanje, postupak 164, četiri Gausove raspodele u vrednosti intenziteta. Svaku raspodelu karakteriše centroid. Postupak takođe obuhvata izračunavanje, postupak 166, četiri verovatne vrednosti za svaku karakteristiku, pri čemu svaka verovatna vrednost ukazuje na verovatnoću da određena karakteristika pripada jednoj od četiri raspodele. Postupak takođe obuhvata odbir raspodele, postupak 168, za svaku karakteristiku od navedenog mnoštva karakteristika sa najvećom od četiri verovatne vrednosti. Raspodela odgovara identitetu nukleotidne baze prisutne u okviru određene karakteristike.
[0217] Prema jednom aspektu, uklapanje obuhvata upotrebu jednog ili više algoritama iz grupe koja se sastoji od: algoritma klaster analize postupkom k-srednjih vrednosti, algoritma klaster analize postupkom vrednosti sličnih k-srednjim vrednostima, algoritma povećanja očekivanja na maksimum i postupka zasnovanog na histogramu. U posebnim primerima izvođenja, uklapanje obuhvata upotrebu algoritma povećanja očekivanja na maksimum.
[0218] Prema sledećem aspektu, postupak takođe obuhvata normalizovanje vrednosti intenziteta.
[0219] Prema sledećem aspektu, za svaku karakteristiku se izračunava vrednost specifičnosti signala. Vrednost specifičnosti signala može biti funkcija relativnog rastojanja od karakteristike do dva najbliža Gausova centroida. Opciono, karakteristike sa vrednošću specifičnosti signala ispod praga se isključuju postupkom filtriranja.
[0220] Prema jednom aspektu, obezbeđen je sistem za procenu kvaliteta očitavanja baza u okviru očitavanja sekvenciranja. Sistem sadrži procesor, uređaj za skladištenje podataka i program za identifikovanje nukleotidne baze. Program sadrži uputstva za dobijanje prvog skupa vrednosti intenziteta i drugog skupa vrednosti intenziteta za svaku od mnoštva karakteristika na genskom čipu. Vrednost intenziteta za svaku karakteristiku, u jednom ili u oba skupa, odgovara prisustvu ili odsustvu određene nukleotidne baze od četiri moguće nukleotidne baze u okviru karakteristike. Program sadrži
4
uputstva za uklapanje četiri Gausove raspodele u vrednosti intenziteta. Svaku raspodelu karakteriše centroid. Program takođe sadrži uputstva za izračunavanje četiri verovatne vrednosti za svaku karakteristiku, pri čemu svaka verovatna vrednost ukazuje na verovatnoću da određena karakteristika pripada jednoj od četiri raspodele. Program takođe sadrži uputstva za odbir raspodele za svaku karakteristiku od navedenog mnoštva karakteristika sa najvećom od četiri verovatne vrednosti, pri čemu raspodela odgovara identitetu nukleotidne baze prisutne u okviru određene karakteristike.
[0221] Prema jednom aspektu, uklapanje obuhvata upotrebu jednog ili više algoritama iz grupe koja se sastoji od: algoritma klaster analize postupkom k-srednjih vrednosti, algoritma klaster analize postupkom vrednosti sličnih k-srednjim vrednostima, algoritma povećanja očekivanja na maksimum i postupka zasnovanog na histogramu. U posebnim primerima izvođenja, uklapanje obuhvata upotrebu algoritma povećanja očekivanja na maksimum.
[0222] Prema drugom aspektu, program sadrži uputstva za normalizovanje vrednosti intenziteta.
[0223] Prema sledećem aspektu, za svaku karakteristiku se izračunava vrednost specifičnosti signala. Opciono, vrednost specifičnosti signala može biti funkcija relativnog rastojanja od karakteristike do dva najbliža Gausova centroida. Opciono, karakteristike sa vrednošću specifičnosti signala ispod praga se isključuju postupkom filtriranja.
[0224] Slika 10 ilustruje sistem 200 obrazovan u skladu sa jednim primerom izvođenja, a koji može biti upotrebljen za izvođenje raznih postupaka koji su ovde navedeni. Na primer, sistem 200 može biti upotrebljen za izvođenje jednog ili više od postupka 100 (Slika 6), 120 (Slika 7), 140 (Slika 8) ili 160 (Slika 9). Sistem 200 može automatizovati razne korake, kao što je sekvenciranje, dok se jedan ili više koraka mogu izvoditi manuelno ili na drugi način koji zahteva interakciju korisnika. U posebnim primerima izvođenja, korisnik može obezbediti uzorak (npr. krv, pljuvačku, koren dlake itd.), a sistem 200 može automatski pripremiti, sekvencirati i analizirati uzorak i obezbediti genetički profil iz izvora uzorka(uzoraka). U pojedinim primerima izvođenja, sistem 200 je integrisan samostalni sistem koji se nalazi na jednom mestu. U drugim primerima izvođenja, jedna ili više komponenti sistema su međusobno udaljene.
[0225] Kao što je prikazano, sistem 200 obuhvata generator uzorka 202, sekvenator 204 i analizator uzoraka 206. Generator uzorka 202 može pripremiti uzorak za određeni protokol sekvenciranja. Na primer, generator uzorka može pripremiti uzorak za SBS. Sekvenator 204 može izvoditi sekvenciranje da bi se generisali podaci sekvenciranja. Kao što je prethodno opisano, podaci sekvenciranja mogu obuhvatati mnoštvo očitavanja sekvenciranja koji uključuju brojna očitavanja baza.
[0226] Analizator uzoraka 206 može primiti podatke sekvenciranja sa sekvenatora 204. Slika 10 ilustruje blok dijagram analizatora uzoraka 206 obrazovanog u skladu sa jednim primerom izvođenja. Analizator uzoraka 206 može se koristiti za, na primer, analizu očitavanja sekvenciranja da bi se obezbedila očitavanja baza. Analizator uzoraka 206 obuhvata sistemski kontroler 212 i korisnički interfejs 214. Sistemski kontroler 212 je u komunikaciji sa korisničkim interfejsom 214 i može takođe biti u komunikaciji sa sekvenatorom 204 i/ili generatorom uzorka 202.
[0227] U prioritetnom primeru izvođenja, sistemski kontroler 212 sadrži jedan ili više procesora/modula konfigurisanih za obradu i, opciono, analizu podataka u skladu sa jednim ili sa više od postupaka koji su ovde navedeni. Na primer, sistemski kontroler 212 može sadržavati jedan ili više
4
modula konfigurisanih tako da izvršavaju skup instrukcija koji je pohranjen u jednom ili u više elemenata za čuvanje podataka (npr. uputstva se čuvaju na prenosivom ili neprenosivom medijumu za skladištenje podataka koji može biti očitan od strane računara, izuzev signala) radi dalje obrade podataka sekvenciranja. Skup uputstava može sadržavati razne naredbe koje se upućuju sistemskom kontroleru 212 kao mašini za obradu koja izvodi određene operativne postupke poput toka rada, procesa i postupaka koji su ovde opisani. Na primer, analizator uzoraka 206 može biti ili podrazumevati desktop računar, laptop, notebook, tablet ili pametni telefon. Korisnički interfejs 214 može sadržavati hardver, firmver, softver ili njihovu kombinaciju koja omogućava pojedincu (npr. korisniku) da direktno ili indirektno kontroliše rad sistemskog kontrolera 212 i njegovih raznih komponenti.
[0228] U ilustrativnom primeru izvođenja, sistemski kontroler 212 sadrži mnoštvo modula ili podmodula koji upravlјaju radom sistemskog kontrolera 212. Na primer, sistemski kontroler 212 može sadržavati module 221-223 i sistem za skladištenje (ili uređaj za skladištenje podataka) 226 koji su u komunikaciji sa najmanje jednim od modula 221-223. Moduli 221-223 mogu, u pojedinim primerima izvođenja, biti programi. Moduli obuhvata modul za korekciju faziranja 221, modul za evaluaciju kvaliteta 222 i modul za identifikovanje baze 223. Sistem 200 može sadržavati i druge module ili podmodule modula koji su konfigurisani tako da izvode operativne postupke koji su ovde opisani. Modul za korekciju faziranja 221 je konfigurisan za generisanje vrednosti intenziteta korigovanih shodno faziranju, na način koji je ovde naveden. Modul za evaluaciju kvaliteta 222 je konfigurisan za procenu kvaliteta očitavanja baza iz očitavanja sekvenciranja na način koji je ovde naveden. Modul 223 za identifikovanje baze je konfigurisan za identifikovanje nukleotidne baze kao što je ovde navedeno.
[0229] Kao što se ovde upotrebljavaju, termini „modul“, „sistem“ ili „sistemski kontroler“ mogu sadržavati hardverski i/ili softverski sistem i integratina koja koji vrše operativne postupke tako da se izvede jedna ili više od funkcija. Na primer, modul, sistem ili sistemski kontroler mogu sadržavati računarski procesor, kontroler ili drugi uređaj zasnovan na logičkim operacijama kojima se izvode operativni postuci na osnovu uputstava koja su sačuvana na prenosivom ili neprenosivom medijumu koji može biti očitan od strane računara, kao što je memorija računara. Alternativno, modul, sistem ili sistemski kontroler mogu sadržavati uređaj koji je sa njima povezan kablovima i koji izvodi operativne postupke na osnovu informacija koje kablovima pristižu na računar. Modul, sistem ili sistemski kontroler prikazani na priloženim slikama mogu predstavlјati hardver i integrisana kola koja rade na osnovu softvera ili uputstava koji stižu preko kablova, kao i softver koji usmerava hardver da izvršava operativne postupke, ili kombinaciju istih. Modul, sistem ili sistemski kontroler mogu sadržavati ili prestavljati hardverske sisteme ili integrisana kola koja sadrže i/ili su povezani sa jednim ili sa više procesora, kao što je jedan ili računarski mikroprocesor.
[0230] Kao što se ovde upotrebljava, termini "softver" i "firmvare" se mogu koristiti naizmenično i obuhvataju bilo koji kompjuterski program koji je sačuvan u memoriji, a da bi računar mogao da ga izvrši operativni postupak, uklјučujući RAM memoriju, ROM memoriju, EPROM memoriju, EEPROM memoriju i postojanu RAM (NVRAM ) memoriju. Prethodno navedene vrste memorija su navedene samo kao primeri i stoga ne ograničavaju vrste memorija koje mogu biti upotrebljene za čuvanje računarskog programa.
[0231] U pojedinim primerima izvođenja, procesna jedinica, procesor, modul ili kompjuterski sistem koji je "konfigurisan" za obavlјanje zadatka ili operativnog postupka, može podrazumevati onaj koji je posebno struktuiran za obavlјanje zadatka ili operativnog postupka (npr. tako da je na njemu sačuvan
4
jedan ili više od programa ili uputstava ili da se upotrebljava zajedno sa onim koji je prilagođen ili predviđen za obavlјanje zadatka ili operativnog postupka i/ili koji je sa rasporedom integrisanih kola za obradu koji su prilagođeni ili predviđeni za obavlјanje zadatka ili opertivnog postupka). Radi jasnoće i izbegavanja nedoumica, računar opšte namene (koji može postati "konfigurisan za" obavlјanje zadatka ili operativnog postupka ukoliko je programiran na odgovarajući način) nije "konfigurisan za" obavlјanje zadatka ili operativnog postupka, osim ukoliko nije posebno programiran ili strukturno modifikovan tako da izvodi zadatak ili operativni postupak.
[0232] Štaviše, operativno izvođenje postupaka koji su ovde opisani može biti dovoljno složeno tako da operativni postupci ne mogu biti mentalno izvedeni od strane prosečnog ljudskog bića ili osobe sa prosečnim iskustvom iz oblasti tehnike, a unutar komercijalno razumnog vremenskog perioda. Na primer, postupci se mogu oslanjati na relativno složene obračune tako da takva osoba ne može završiti postupke unutar komercijalno razumnog vremenskog roka.
4

Claims (15)

Patentni zahtevi
1. Postupak koji obuhvata:
(a) izvođenje mnoštva ciklusa reakcija sekvenciranja-po-sintezi, tako da se, u svakom ciklusu, generiše signal koji ukazuje na ugrađivanje istog nukleotida u mnoštvo identičnih polinukleotida, pri čemu deo signala predstavlja šum povezan sa faziranjem ili predfaziranjem;
(b) detektovanje signala u svakom ciklusu, pri čemu detektovanje signala u svakom ciklusu obuhvata detektovanje vrednosti intenziteta signala na prvom kanalu i detektovanje vrednosti intenziteta signala na drugom kanalu; i
(c) vršenje korekcija faziranja od ciklusa do ciklusa, primenom nove korekcije faziranja prvog reda na vrednosti intenziteta u svakom ciklusu;
gde se nova korekcija faziranja prvog reda izračunava za svaki ciklus, pri čemu se nova korekcija faziranja prvog reda za svaki ciklus izračunava oduzimanjem vrednosti intenziteta iz neposredno prethodnog ciklusa od vrednosti intenziteta iz ciklusa koji se trenutno odvija, kao i oduzimanjem vrednosti intenziteta iz neposredno sledećeg ciklusa od vrednosti intenziteta iz ciklusa koji se trenutno odvija; i
pri čemu se nukleotid ugrađen u mnoštvo identičnih polinukleotida identifikuje na osnovu kombinacije vrednosti intenziteta koje su detektovane na prvom i drugom kanalu.
2. Postupak prema patentnom zahtevu 1, gde se prvi tip nukleotida detektuje na prvom kanalu, drugi tip nukleotida se detektuje na drugom kanalu, treći tip nukleotida se detektuje na oba od prvog i drugog kanala, a četvrti tip nukleotida se ne detektuje ili je sa minimumom detekcije na prvom i drugom kanalu.
3. Postupak prema patentnom zahtevu 1 ili patentnom zahtevu 2, gde se dvokanalno očitavanje baza izvodi ekstrahovanjem podataka sa slika upotrebom smo dva kanala.
4. Postupak prema bilo kom od patentnih zahteva 1-3, gde nova korekcija faziranja prvog reda uključuje ponderisanje faziranja i predfaziranja, a postupak dodatno obuhvata biranje pondera faziranja X i ponder predfaziranja Y, pri čemu odabrani ponderi faziranja i predfaziranja optimizuju srednju vrednost specifičnosti signala.
5. Postupak prema bilo kom od patentnih zahteva 1-4, gde dvokanalno očitavanje baza dalje podrazumeva uklapanje četiri Gausove raspodele u skup podataka dvokanalnih podataka intenziteta, i tako da se jedna raspodela primenjuje za svaki od četiri nukleotida koji su predstavlјeni u skupu podataka.
6. Postupak prema patentnom zahtevu 5, gde se Gausove raspodele uklapaju u skup podataka upotrebom algoritma klaster analize, pri čemu je poželјnije da polinukleotidi obrazuju mnoštvo klastera i da svaki od klastera karakteriše par X,Y vrednosti intenziteta, gde se X i Y odnose na podatke dobijene na prvom i drugom kanalu, tim redom, pri čemu se za svaki par X,Y vrednosti
4
intenziteta generiše verovatna vrednost koja predstavlja verovatnoću da određeni par X,Y vrednosti intenziteta pripada jednoj od četiri raspodele; poželjnije je takođe da svaki par X,Y vrednosti intenziteta karakterišu četiri verovatne vrednosti, jedna za svaki od četiri tipa nukleotida, pri čemu maksimalna od četiri verovatne vrednosti ukazuje na identitet ugrađenog nukleotida.
7. Postupak prema patentnom zahtevu 5, koji dodatno obuhvata filtriranje pojedinačnih podataka sa niskom specifičnosti signala, određivanjem specifičnosti signala za svaki pojedinačni podatak u vidu funkcije relativnih rastojanja do Gausovih centroida
8. Postupak prema bilo kom od patentnih zahteva 1-7, gde je vrednost intenziteta iz neposredno prethodnog ciklusa (X*I(ciklus)N-1), a vrednost intenziteta iz neposredno sledećeg ciklusa je (Y*I)(ciklus) N+1), pri čemu X i Y predstavlјaju pondere faziranja i predfaziranja, tim redom.
9. Postupak prema patentnom zahtevu 8, gde se X i Y biraju tako da se optimizuje postupak za utvrđivanje specifičnosti signala.
10. Postupak prema bilo kom od patentnih zahteva 1-3, gde se nova korekcija faziranja prvog reda izračunava na sledeći način:
I(ciklus)korigovan= I(ciklus) N– A*I(ciklus) N-1– B*I(ciklus) N+1;
pri čemu se konstante A i B izračunavaju iz procene stopa faziranja i predfaziranja i ponderišu brojem ciklusa; a, poželjno,
postupak dodatno obuhvata optimizaciju preko A i B u svakom ciklusu, upotrebom pretraživanja obrasca.
11. Sistem koji sadrži:
procesor;
uređaj za skladištenje podataka; i
program za generisanje vrednosti intenziteta sa korekcijom faziranja, program koji sadrži uputstva za:
(a) izvođenje mnoštva ciklusa reakcija sekvenciranja-po-sintezi tako da se, u svakom ciklusu, generiše signal koji ukazuje na ugrađivanje istog nukleotida u mnoštvo identičnih polinukleotida, pri čemu deo signala predstavlja šum povezan sa faziranjem ili predfaziranjem; (b) detektovanje signala u svakom ciklusu, pri čemu detektovanje signala u svakom ciklusu obuhvata detektovanje vrednosti intenziteta signala na prvom kanalu i detektovanje vrednosti intenziteta signala na drugom kanalu; i
(c) vršenje korekcija faziranja od ciklusa do ciklusa, primenom nove korekcije faziranja prvog reda na vrednosti intenziteta u svakom ciklusu;
gde se nova korekcija faziranja prvog reda izračunava za svaki ciklus, pri čemu se nova korekcija faziranja prvog reda za svaki ciklus izračunava oduzimanjem vrednosti intenziteta iz neposredno prethodnog ciklusa od vrednosti intenziteta iz ciklusa koji se trenutno odvija, kao i oduzimanjem vrednosti intenziteta iz neposredno sledećeg ciklusa od vrednosti intenziteta iz ciklusa koji se trenutno odvija; i
pri čemu se nukleotid ugrađen u mnoštvo identičnih polinukleotida identifikuje na osnovu kombinacije vrednosti intenziteta koje su detektovane na prvom i drugom kanalu.
12. Sistem prema patentnom zahtevu 11, gde se prvi tip nukleotida detektuje na prvom kanalu, drugi tip nukleotida se detektuje na drugom kanalu, treći tip nukleotida se detektuje i na prvom i na drugom kanalu, a četvrti tip nukleotida se ne detektuje ili je sa minimumom detekcije na prvom i drugom kanalu.
13. Sistem prema patentnom zahtevu 11 ili patentnom zahtevu 12, gde se u svakom ciklusu, dvokanalno očitavanje baza izvodi ekstrahovanjem podataka sa slika upotrebom smo dva kanala.
14. Sistem prema bilo kom od patentnih zahteva 11-13, gde nova korekcija faziranja prvog reda uključuje ponderisanje faziranja i predfaziranja, a program dodatno obuhvata biranje pondera faziranja X i pondera predfaziranja Y, pri čemu odabrani ponderi faziranja X i predfaziranja Y optimizuju srednju vrednost specifičnosti signala.
15. Sistem prema patentnom zahtevu 14, gde su ponderi faziranja i predfaziranja izabrani upotrebom pretrage obrasca za moguće pondere faziranja i predfaziranja.
1
RS20201044A 2013-12-03 2014-12-03 Postupci i sistemi za analizu podataka sa slika RS60736B1 (sr)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361911319P 2013-12-03 2013-12-03
US201361915426P 2013-12-12 2013-12-12
US201361915455P 2013-12-12 2013-12-12
EP14867596.0A EP3077943B1 (en) 2013-12-03 2014-12-03 Methods and systems for analyzing image data
PCT/US2014/068409 WO2015084985A2 (en) 2013-12-03 2014-12-03 Methods and systems for analyzing image data

Publications (1)

Publication Number Publication Date
RS60736B1 true RS60736B1 (sr) 2020-09-30

Family

ID=53274278

Family Applications (1)

Application Number Title Priority Date Filing Date
RS20201044A RS60736B1 (sr) 2013-12-03 2014-12-03 Postupci i sistemi za analizu podataka sa slika

Country Status (16)

Country Link
US (3) US10689696B2 (sr)
EP (3) EP3715467A1 (sr)
AU (3) AU2014360530B2 (sr)
CA (2) CA3181696A1 (sr)
CY (1) CY1123264T1 (sr)
DK (1) DK3077943T3 (sr)
ES (1) ES2808824T3 (sr)
HR (1) HRP20201397T1 (sr)
HU (1) HUE050641T2 (sr)
LT (1) LT3077943T (sr)
PL (1) PL3077943T3 (sr)
PT (1) PT3077943T (sr)
RS (1) RS60736B1 (sr)
SI (1) SI3077943T1 (sr)
SM (1) SMT202000434T1 (sr)
WO (1) WO2015084985A2 (sr)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10648027B2 (en) 2016-08-08 2020-05-12 Roche Sequencing Solutions, Inc. Basecalling for stochastic sequencing processes
CA3049142A1 (en) * 2017-01-06 2018-07-12 Illumina, Inc. Phasing correction
US11288576B2 (en) 2018-01-05 2022-03-29 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
JP6959364B2 (ja) 2018-01-05 2021-11-02 イルミナ インコーポレイテッド シーケンシングシステムにおける試薬冷却器の不安定性およびフローセル加熱器の障害の予測
CA3065934A1 (en) 2018-01-08 2019-07-11 Illumina, Inc. High-throughput sequencing with semiconductor-based detection
NL2020621B1 (en) 2018-01-08 2019-07-15 Illumina Inc Multiplexing of an active sensor detector using structured illumination
US11561196B2 (en) 2018-01-08 2023-01-24 Illumina, Inc. Systems and devices for high-throughput sequencing with semiconductor-based detection
CN108629765B (zh) * 2018-04-20 2020-09-08 山东第一医科大学(山东省医学科学院) 基于序列阈值差的精子显微视频序列滤波质量客观评价方法
NL2023314B1 (en) * 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
US11783917B2 (en) 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
WO2020191390A2 (en) 2019-03-21 2020-09-24 Illumina, Inc. Artificial intelligence-based quality scoring
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
US11423306B2 (en) 2019-05-16 2022-08-23 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
MX2022010276A (es) 2020-02-20 2022-09-19 Illumina Inc Llamada de base de muchos a muchos basada en inteligencia artificial.
US12354008B2 (en) 2020-02-20 2025-07-08 Illumina, Inc. Knowledge distillation and gradient pruning-based compression of artificial intelligence-based base caller
US20210265016A1 (en) 2020-02-20 2021-08-26 Illumina, Inc. Data Compression for Artificial Intelligence-Based Base Calling
US11188778B1 (en) 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator
US20220067489A1 (en) * 2020-08-28 2022-03-03 Illumina, Inc. Detecting and Filtering Clusters Based on Artificial Intelligence-Predicted Base Calls
US12469162B2 (en) 2020-08-31 2025-11-11 Element Biosciences, Inc. Primary analysis in next generation sequencing
US11200446B1 (en) 2020-08-31 2021-12-14 Element Biosciences, Inc. Single-pass primary analysis
US11361194B2 (en) 2020-10-27 2022-06-14 Illumina, Inc. Systems and methods for per-cluster intensity correction and base calling
US12444482B2 (en) 2021-04-15 2025-10-14 Illumina, Inc. Multi-channel protein voxelization to predict variant pathogenicity using deep convolutional neural networks
US12217829B2 (en) 2021-04-15 2025-02-04 Illumina, Inc. Artificial intelligence-based analysis of protein three-dimensional (3D) structures
CN117730372A (zh) 2021-06-29 2024-03-19 因美纳有限公司 用于确定核苷酸碱基检出和碱基检出质量的信噪比度量
US11455487B1 (en) 2021-10-26 2022-09-27 Illumina Software, Inc. Intensity extraction and crosstalk attenuation using interpolation and adaptation for base calling
WO2023003757A1 (en) 2021-07-19 2023-01-26 Illumina Software, Inc. Intensity extraction with interpolation and adaptation for base calling
WO2023004065A1 (en) * 2021-07-23 2023-01-26 Illumina, Inc. Characterizing analytes in a sample using normalized signals
WO2023049215A1 (en) * 2021-09-22 2023-03-30 Illumina, Inc. Compressed state-based base calling
US12412387B2 (en) 2021-09-22 2025-09-09 Illumina, Inc. State-based base calling
JP2024543762A (ja) * 2021-12-02 2024-11-26 イルミナ インコーポレイテッド ヌクレオチド塩基コールを決定するためのクラスタ固有シグナル補正の生成
WO2024059852A1 (en) 2022-09-16 2024-03-21 Illumina, Inc. Cluster segmentation and conditional base calling
US20250210137A1 (en) 2023-12-20 2025-06-26 Illumina, Inc. Directly determining signal-to-noise-ratio metrics for accelerated convergence in determining nucleotide-base calls and base-call quality
WO2025190902A1 (en) 2024-03-13 2025-09-18 Illumina, Inc. Improving base calling quality scores

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
US5916747A (en) 1995-06-30 1999-06-29 Visible Genetics Inc. Method and apparatus for alignment of signals for use in DNA based-calling
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
JP2002503954A (ja) 1997-04-01 2002-02-05 グラクソ、グループ、リミテッド 核酸増幅法
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
CN101525660A (zh) 2000-07-07 2009-09-09 维西根生物技术公司 实时序列测定
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
EP3795577A1 (en) 2002-08-23 2021-03-24 Illumina Cambridge Limited Modified nucleotides
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
US7315019B2 (en) 2004-09-17 2008-01-01 Pacific Biosciences Of California, Inc. Arrays of optical confinements and uses thereof
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3722409A1 (en) 2006-03-31 2020-10-14 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US20100034444A1 (en) 2008-08-07 2010-02-11 Helicos Biosciences Corporation Image analysis
WO2010039553A1 (en) 2008-10-03 2010-04-08 Illumina, Inc. Method and system for determining the accuracy of dna base identifications
US8965076B2 (en) * 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US20130060482A1 (en) * 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
CA2859660C (en) 2011-09-23 2021-02-09 Illumina, Inc. Methods and compositions for nucleic acid sequencing
US9200274B2 (en) 2011-12-09 2015-12-01 Illumina, Inc. Expanded radix for polymeric tags
JP6159391B2 (ja) 2012-04-03 2017-07-05 イラミーナ インコーポレーテッド 核酸シークエンシングに有用な統合化した読取りヘッド及び流体カートリッジ
KR102538753B1 (ko) 2014-09-18 2023-05-31 일루미나, 인코포레이티드 핵산 서열결정 데이터를 분석하기 위한 방법 및 시스템

Also Published As

Publication number Publication date
AU2020277261B2 (en) 2022-11-10
CY1123264T1 (el) 2021-12-31
AU2014360530A1 (en) 2016-04-28
US20200377938A1 (en) 2020-12-03
AU2020277261A1 (en) 2021-01-07
LT3077943T (lt) 2020-10-12
EP3077943B1 (en) 2020-06-03
HUE050641T2 (hu) 2020-12-28
CA2928209A1 (en) 2015-06-11
WO2015084985A2 (en) 2015-06-11
DK3077943T3 (da) 2020-09-07
CA3181696A1 (en) 2015-06-11
PL3077943T3 (pl) 2020-11-30
AU2014360530B2 (en) 2020-09-03
EP3940082A1 (en) 2022-01-19
US20180274023A1 (en) 2018-09-27
US20210310065A1 (en) 2021-10-07
SI3077943T1 (sl) 2020-10-30
AU2023200758A1 (en) 2023-03-09
WO2015084985A3 (en) 2015-07-30
SMT202000434T1 (it) 2020-09-10
US10689696B2 (en) 2020-06-23
EP3077943A4 (en) 2017-06-28
EP3077943A2 (en) 2016-10-12
EP3715467A1 (en) 2020-09-30
ES2808824T3 (es) 2021-03-02
HRP20201397T1 (hr) 2020-11-27
PT3077943T (pt) 2020-08-21
CA2928209C (en) 2023-09-26

Similar Documents

Publication Publication Date Title
AU2020277261B2 (en) Methods and systems for analyzing image data
US12380561B2 (en) Creating a template of nucleic acid site locations on a flow cell
JP7561799B2 (ja) フェージング補正方法
HK40059762A (en) Methods and systems for analyzing image data
RU2765996C9 (ru) Коррекция фазирования