[go: up one dir, main page]

WO2013019075A9 - 핵산분자의 제조방법 - Google Patents

핵산분자의 제조방법 Download PDF

Info

Publication number
WO2013019075A9
WO2013019075A9 PCT/KR2012/006147 KR2012006147W WO2013019075A9 WO 2013019075 A9 WO2013019075 A9 WO 2013019075A9 KR 2012006147 W KR2012006147 W KR 2012006147W WO 2013019075 A9 WO2013019075 A9 WO 2013019075A9
Authority
WO
WIPO (PCT)
Prior art keywords
nucleic acid
sequence
fragments
acid fragments
oligonucleotides
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2012/006147
Other languages
English (en)
French (fr)
Other versions
WO2013019075A2 (ko
WO2013019075A3 (ko
Inventor
방두희
김황범
한효준
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yonsei University
Original Assignee
Yonsei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yonsei University filed Critical Yonsei University
Priority to US14/235,799 priority Critical patent/US9340826B2/en
Publication of WO2013019075A2 publication Critical patent/WO2013019075A2/ko
Publication of WO2013019075A9 publication Critical patent/WO2013019075A9/ko
Publication of WO2013019075A3 publication Critical patent/WO2013019075A3/ko
Anticipated expiration legal-status Critical
Priority to US15/132,245 priority patent/US10358642B2/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • C12N15/1027Mutagenizing nucleic acids by DNA shuffling, e.g. RSR, STEP, RPR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • C12N15/1031Mutagenizing nucleic acids mutagenesis by gene assembly, e.g. assembly by oligonucleotide extension PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay

Definitions

  • the technology disclosed herein relates to a method for preparing nucleic acid molecules, and more particularly, to a method for efficiently synthesizing long nucleic acid molecules.
  • the DNA synthesis process that is generally practiced has the following difficulties for building scalable DNA: (a) high-cost oligonucleotides; (b) low assembly efficiency of oligonucleotides into long DNA sequences; (c) time-consuming cloning process; And (d) high-cost target DNA sequence identification process. Above all, oligonucleotide and sequencing costs are the main synthetic costs. Therefore, it is desirable to devise a method (protocol) for parallelizing a large amount of synthetic products in order to realize highly scalable DNA synthesis.
  • DNA oligonucleotides derived from DNA microchips have been used for scalable low-cost DNA synthesis (Tian, J., et al. , 2004).
  • nucleic acid fragments constituting at least a portion of the entire sequence of the nucleic acid molecule of interest;
  • tagging the nucleic acid fragments with barcode sequences identifying the sequence of nucleic acid fragments tagged with the barcode sequences;
  • identifying the sequence of nucleic acid fragments tagged with the barcode sequences And
  • nucleic acid fragments constituting at least a portion of the entire sequence of the target nucleic acid molecule; (b) assembling the nucleic acid fragments to synthesize intermediates of sequential size by parallel sequencing technique; (c) tagging the intermediates with barcode sequences; (d) identifying the sequence of intermediates tagged with the barcode sequences; (e) recovering desired intermediates of the sequenced intermediates using the barcode sequences; And (f) assembling the recovered intermediates to form long nucleic acid molecules.
  • a method for preparing a pool of oligonucleotides comprising: (a) providing a pool of oligonucleotides having a restriction enzyme cleavage sequence and a common flanking sequence; (b) cleaving a portion of the restriction enzyme cleavage sequence to provide a pool of oligonucleotides having the common flanking sequence at one end and oligonucleotides having no common flanking sequence; And (c) assembling the oligonucleotides using the common flanking sequence to optionally synthesize nucleic acid fragments.
  • FIG. 1 is a process flow diagram showing a method for producing a nucleic acid molecule according to an embodiment of the present invention.
  • Figure 2 is a process flow diagram showing an arbitrary gene synthesis method according to an embodiment of the present invention.
  • 3 and 4 show the process of synthesizing nucleic acid fragments by an arbitrary synthesis method.
  • FIG. 5 shows embodiments showing two processes for tagging nucleic acid fragments with barcode sequences.
  • FIG. 6 shows the process of recovering and assembling the desired nucleic acid fragments from a pool of barcode tagged nucleic acid fragments to form long nucleic acid molecules.
  • FIG. 7 is a schematic showing that many oligonucleotides can be used simultaneously for shotgun synthesis to obtain large target DNA molecules.
  • nucleic acid fragments constituting at least a part of the entire sequence of the target nucleic acid molecule are provided.
  • Nucleic acid fragments used in the present invention may be those derived from nature or synthesized.
  • the nucleic acid fragments may be derived from DNA microchips that provide millions or more sequences at low cost or from pools of synthetic oligonucleotides.
  • the pool of synthetic oligonucleotides can be prepared according to methods well known in the art, for example, but not limited to resin-based oligonucleotides.
  • the nucleic acid fragments may be from a DNA microchip.
  • the nucleic acid fragments may be free of sequence errors such as insertion, deletion, translation, translation, and the like.
  • the nucleic acid fragments of (a) of step S110 may be those extracted directly from a pool of oligonucleotides or may be those obtained by amplifying and assembling oligonucleotides to have a predetermined length or more.
  • the nucleic acid fragments can be made in a variety of ways, including hierarchical gene synthesis ( Journal of Biotechnology 151 (2011) 319-324) or optional gene synthesis methods described below.
  • shotgun synthesis arbitrary gene synthesis
  • shotgun products nucleic acid fragments produced by such shotgun synthesis
  • Shotgun sequencing is a method of randomly fragmenting the DNA to be analyzed and connecting the sequencing adapter to the generated nucleic acid fragments and analyzing the same by high speed sequencing. This involves using a computer program to sequence the fragments to identify the entire sequence of the original DNA to be analyzed. Shotgun synthesis proceeds in exactly the reverse order to the shotgun sequencing described above. Oligonucleotides constituting some sequence of the nucleic acid molecule to be synthesized are prepared and optionally assembled to produce nucleic acid fragments, which are analyzed by high speed sequencing. The desired nucleic acid fragments are then recovered from the analyzed nucleic acid fragments and used to produce the final nucleic acid molecule.
  • the nucleic acid fragments provided in step S110 (a) may be shotgun products prepared by shotgun synthesis. Oligonucleotides designed to include common flanking sequences can be used to make shotgun products.
  • FIG. 2 is a process flow diagram showing an arbitrary gene synthesis method according to an embodiment of the present invention.
  • step S210 provides a pool of oligonucleotides having at least one terminal with a restriction enzyme cleavage sequence and a common flanking sequence.
  • Cutting the restriction enzyme cleavage sequence portion in step S220 provides a pool of oligonucleotides having the common flanking sequence at one end and oligonucleotides having no common flanking sequence.
  • the oligonucleotides in the mixture are assembled using the common flanking sequence to randomly synthesize nucleic acid fragments.
  • the common flanking sequence may be present at one or both ends of the oligonucleotide.
  • the oligonucleotide used in the random gene synthesis (shotgun synthesis) method may be a 5'-terminal common flanking sequence in the 5 'to 3' direction, an oligonucleotide sequence constituting the target nucleic acid molecule. And 3′-terminal consensus flanking sequences.
  • the 5'-terminal common flanking sequence and the 3'-terminal common flanking sequence at the ends of the oligonucleotides are priming sites for amplifying the amount of oligonucleotides derived from the DNA chip, producing a sufficient amount of oligonucleotides. It is used as the annealing position of the primer set for.
  • the oligonucleotide may comprise a restriction enzyme cleavage sequence.
  • the nucleic acid fragment may comprise a 5'-limiting enzyme cleavage sequence with the 5'-terminal consensus flanking sequence, and may comprise a 3'-limiting enzyme cleavage sequence with the 3'-terminal consensus flanking sequence.
  • the 5'-restriction cleavage sequence and the 3'-restriction cleavage sequence in the oligonucleotide may be the same or different from each other.
  • the oligonucleotide has a length of 50-500 bp (base pair), more preferably 100-300 bp, even more preferably 120-200 bp, most preferably about 150 bp.
  • the oligonucleotide may comprise a sequence of part or all of the target nucleic acid molecule.
  • the oligonucleotide may be synthesized into the target nucleic acid molecule having the entire sequence through sequential assembly between the target oligonucleotides having various sizes.
  • the pool of oligonucleotides may be cleaved from a DNA microchip.
  • the pool of oligonucleotides may be a mixture of oligonucleotides synthesized on a solid phase.
  • the oligonucleotides cleaved to ensure the amount needed for long gene synthesis can be amplified.
  • the amplification may be performed by polymerase chain reaction (PCR) using the common flanking sequence.
  • the common flanking sequences are then cleaved using restriction enzymes that recognize the restriction enzyme cleavage sequences in the amplified oligonucleotides.
  • the pool of cleaved oligonucleotides is completely cleaved at both terminal restriction enzyme cleavage sequences so that only oligonucleotides having no common flanking sequence and only one terminal restriction enzyme cleavage sequence are cleaved, thereby leaving a common flanking sequence at one terminal. It may take the form of a mixture containing them.
  • the common flanking sequence can be used to polymerize chain oligonucleotides of the mixture to a polymerase chain reaction assembly (PCA).
  • PCA polymerase chain reaction assembly
  • the oligonucleotides are then assembled sequentially to produce fragments of varying lengths, which may be optionally assembled with one another.
  • small or large fragments at various positions in the PCR solution can be synthesized into arbitrary fragments having the entire sequence of the desired nucleic acid molecules or some sequence of the entire target nucleic acid molecules through arbitrary assembly.
  • the assembly may proceed until the oligonucleotides having a common flanking sequence at one end overlap each other to form a nucleic acid fragment having common flanking sequences at both ends.
  • the oligonucleotides of step S210 are carefully designed. Complementary sequences of some of the oligonucleotide sequences can be assembled in such a way that several oligonucleotides overlap each other.
  • the oligonucleotides are then designed to allow arbitrary assembly to form the shotgun product. For example, when the shotgun product including the 5'-terminal portion of the target nucleic acid molecule among the shotgun products is composed of five target oligonucleotides, the shotgun product including the 5'-terminal portion of the target nucleic acid molecule is It can be produced through the sequential assembly between the oligonucleotides cleaved with restriction enzymes as follows.
  • a first oligonucleotide comprising a 5'-terminal consensus flanking sequence with a restriction enzyme cleavage sequence partially cut to generate a 5'-terminal site and a partial sequence of the nucleic acid molecule of interest
  • a second oligonucleotide comprising a region overlapping the 3'-terminal portion of the first oligonucleotide (eg, 20-50 bp), and a site overlapping the 3'-terminal region of the second oligonucleotide
  • a sequence comprising a third oligonucleotide, a fourth oligonucleotide comprising a site overlapping the 3'-terminal site of the third oligonucleotide, and a site overlapping the 3'-terminal site of the fourth oligonucleotide, and 3
  • the sequential assembly between the fifth oligonucleotides comprising the '-terminal common flanking sequence results in the 5'-
  • nucleic acid fragments can be prepared by the following method.
  • nucleic acid fragments are synthesized by assembling raw oligonucleotides to which a common flanking sequence and the like are not added.
  • the amplified nucleic acid fragments can be obtained by linking the base sequence for amplification to the randomly synthesized nucleic acid fragments and then amplifying the nucleic acid fragments with a primer that binds to the base sequence for amplification.
  • nucleic acid molecules are prepared by using an arbitrary synthesis method, several kinds of nucleic acid fragment libraries can be prepared simultaneously.
  • the nucleic acid fragments of (a) of step S110 may include the entire sequence of the target nucleic acid molecule.
  • the nucleic acid fragments can be sequenced in parallel sequencing instruments for the synthesis of error free long DNA. Given the length of the nucleic acid fragments that can be sequenced with the parallel sequencing instrument, the preferred length of the nucleic acid fragments is 20-3,000 bp, more preferably 200-1,000 bp, more preferably 300-500 bp, more More preferably 350-450 bp, most preferably 380-420 bp.
  • the size of the nucleic acid fragments can be extended to DNA having a size of several thousand bp or more.
  • nucleotide is a deoxyribonucleotide or ribonucleotide present in single- or double-stranded form and includes analogs of natural nucleotides unless otherwise specifically indicated (Scheit, Nucleotide Analogs, John Wiley, New). York (1980); Uhlman and Peyman, Chemical Reviews, 90: 543-584 (1990)).
  • oligonucleotide as used herein means an oligomer, polymer or mimetic thereof.
  • the gene amplification of the invention is carried out by PCR.
  • the primers eg, common flanking sequences
  • the invention are used for gene amplification reactions.
  • amplification reactions means a reaction that amplifies the nucleic acid sequence of interest.
  • Various amplification reactions are reported in the art, which include polymerase chain reaction (PCR) (US Pat. Nos. 4,683,195, 4,683,202, and 4,800,159), reverse transcriptase-polymerase chain reaction (RT-PCR) (Sambrook et al., Molecular Cloning. A Laboratory Manual, 3rd ed.Cold Spring Harbor Press (2001)), Miller, HI (WO 89/06700) and Davey, C. et al.
  • PCR polymerase chain reaction
  • RT-PCR reverse transcriptase-polymerase chain reaction
  • nucleic acid sequence based amplification nucleic acid sequence based amplification
  • NASBA nucleic acid sequence based amplification
  • Other amplification methods that can be used are described in US Pat. Nos. 5,242,794, 5,494,810, 4,988,617 and US Pat. No. 09 / 854,317.
  • the amplification process is carried out according to the PCR disclosed in US Pat. Nos. 4,683,195, 4,683,202 and 4,800,159.
  • PCR is the best known nucleic acid amplification method, and many modifications and applications thereof have been developed. For example, touchdown PCR, hot start PCR, nested PCR, and booster PCR have been developed by modifying traditional PCR procedures to enhance the specificity or sensitivity of PCR.
  • multiplex PCR, real-time PCR, differential display PCR (DD-PCR), rapid amplification of cDNA ends (RACE), inverse polymerase chain reaction (inverse polymerase) chain reaction (IPCR), vectorette PCR and thermal asymmetric interlaced PCR (TAIL-PCR) have been developed for specific applications. For more information on PCR, see McPherson, M.J., and Moller, S.G. PCR.
  • the target nucleic acid molecule which can be used in the present invention is not particularly limited, and preferably includes DNA (gDNA or cDNA) and RNA, and more preferably DNA.
  • nucleic acid of interest may be, for example, prokaryotic nucleic acid, eukaryotic (eg protozoan and parasitic, fungi, yeast, higher plants, lower animals and higher animals, including mammals and humans) nucleic acids, viruses (eg, herpes virus) , HIV, influenza virus, Epstein-Barr virus, hepatitis virus, poliovirus, etc.) nucleic acid or non-loid nucleic acid.
  • prokaryotic nucleic acid eukaryotic (eg protozoan and parasitic, fungi, yeast, higher plants, lower animals and higher animals, including mammals and humans) nucleic acids, viruses (eg, herpes virus) , HIV, influenza virus, Epstein-Barr virus, hepatitis virus, poliovirus, etc.) nucleic acid or non-loid nucleic acid.
  • eukaryotic eg protozoan and parasitic, fungi, yeast, higher plants, lower animals and higher animals, including mammals and humans
  • Primers used in the present invention are hybridized or annealed to one site of the template to form a double chain structure.
  • Suitable nucleic acid hybridization conditions for forming such a double-chain structure include Joseph Sambrook, et al., Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY (2001) and Haymes, BD, et al., Nucleic Acid Hybridization , A Practical Approach, IRL Press, Washington, DC (1985).
  • thermostable DNA polymerase obtained from various bacterial species, which include Thermus aquaticus (Taq) , Thermus thermophilus (Tth) , Thermus filiformis, Thermis flavus, Thermococcus literalis, Pyrococcus furiosus (Pfu) , Thermus antranikianii, Thermus caldophilus, Thermus chliarophilus, Thermus flavus, Thermus igniterrae, Thermus lacteus, Thermus oshimai, Thermus ruber, Thermus rubens, Thermus scotoductus, Thermus silvanus, Thermus species Z05, Thermus species thermosigaphila, Thermus aquaticus (Taq) , Thermus thermophilus (Tth) , Thermus filiformis, Thermis flavus, Thermococcus literalis, Pyrococcus furiosus (Pfu) , Thermus antran
  • the amplification reaction When carrying out the polymerization reaction, it is preferable to provide an excess amount of components necessary for the reaction to the reaction vessel.
  • components required for the amplification reaction means an amount such that the amplification reaction is not substantially limited to the concentration of the components. It is desired to provide cofactors such as Mg 2+ , dATP, dCTP, dGTP and dTTP to the reaction mixture such that the desired degree of amplification can be achieved. All enzymes used in the amplification reaction may be active under the same reaction conditions. In fact, the buffer ensures that all enzymes are close to optimal reaction conditions. Thus, the amplification process of the present invention can be carried out in a single reactant without changing conditions such as addition of reactants.
  • Annealing in the present invention is carried out under stringent conditions that enable specific binding between the target nucleotide sequence (eg, the common flanking sequence of the desired oligonucleotide) and the primer.
  • Stringent conditions for annealing are sequence-dependent and vary depending on the surrounding environmental variables.
  • the oligonucleotide pool thus amplified can be used to generate primary amplification products and to prepare secondary amplification products to assemble into larger target nucleic acid molecules (eg, 10 kb or more nucleic acid molecules).
  • the term "primer” refers to an oligonucleotide, which is a condition in which the synthesis of a primer extension product complementary to a nucleic acid chain (template) is induced, i.e., the presence of a polymerizer such as nucleotide and DNA polymerase, and It can serve as a starting point for the synthesis at conditions of suitable temperature and pH.
  • the primer is deoxyribonucleotide and single chain.
  • Primers used in the present invention can include naturally occurring dNMPs (ie, dAMP, dGMP, dCMP and dTMP), modified nucleotides or non-natural nucleotides.
  • the primer may also include ribonucleotides.
  • the primer should be long enough to prime the synthesis of the extension product in the presence of a polymerizer (eg DNA polymerase). Suitable lengths of primers are typically 15-30 nucleotides, although varying depending on a number of factors, such as temperature, application and source of the primer. Short primer molecules generally require lower temperatures to form hybrid complexes that are sufficiently stable with the template.
  • a polymerizer eg DNA polymerase
  • the term “annealing” or “priming” refers to the placement of an oligodioxynucleotide or nucleic acid into a template nucleic acid, wherein the polymerase polymerizes the nucleotide to the template nucleic acid or a portion thereof.
  • hybridization means that two single stranded nucleic acids form a duplex structure by pairing of complementary base sequences. Hybridization may occur when the complementarity between single stranded nucleic acid sequences is perfect or even when some mismatch base is present. The degree of complementarity required for hybridization may vary depending on the hybridization reaction conditions, and in particular, may be controlled by temperature.
  • complementary means having complementarity that is capable of selectively hybridizing to the above-described nucleotide sequence under certain specific hybridization or annealing conditions, and substantially complementarily. complementary and perfectly complementary are meant to encompass both, and are preferably completely complementary.
  • the nucleic acid fragments are tagged with barcode sequences in step S120.
  • the barcode sequences are introduced into the nucleic acid fragments to recover error-free fragments or other desired fragments from among the nucleic acid fragments provided in the previous step or to selectively amplify and assemble them to synthesize the desired nucleic acid molecule.
  • the barcode sequence can be added to a common flanking sequence present at the end of the nucleic acid fragment.
  • the barcode sequences are not particularly limited as long as they are added to the nucleic acid fragments to distinguish different nucleic acid fragments.
  • the number of types of barcode sequences is greater than the number of types of nucleic acid fragments in order to distinguish between respective nucleic acid fragments.
  • the barcode sequences may be a mixture of two or more oligonucleotides, optionally or deliberately designed.
  • the degenerate-barcode sequence of poly N (poly N) of the barcode sequence is two randomly made using computer programs well known in the art, in addition to the degenerate DNA of poly N (poly N) Sequences barcoded with the above other sequences can also be used.
  • the tagging of the barcode sequences is not particularly limited, but may be performed by any one method selected from the group consisting of PCR, emulsion PCR, and ligation.
  • FIG. 5 shows embodiments showing two processes for tagging nucleic acid fragments with barcode sequences.
  • FIG. 5A illustrates a barcode tagging process using PCR
  • FIG. 5B illustrates a barcode tagging process using ligation.
  • step S130 the sequences of nucleic acid fragments tagged with the barcode sequences are identified. Identification of the sequences of the tagged nucleic acid fragments may preferably be carried out by a parallel sequencing method. As a result, the sequence of the tagged nucleic acid fragments can be identified together with the tagged barcode sequence.
  • the parallel sequencing or high-throughput sequencing of the invention is carried out by high speed sequencing methods well known in the art, for example Roche-454 or other read lengths. It can be performed by a high speed sequencing device that is 100 bp or more.
  • a sequencing adapter sequence may be further added to the barcode sequence of the present invention.
  • a sequence comprising a barcode sequence added to a nucleic acid fragment herein is named "barcode primer” for convenience.
  • adapter sequence is a sequence that allows for rapid sequencing analysis of the nucleic acid fragments, including all sequences commercially available for, for example, 454-sequencing used in the present invention.
  • the adapter sequences of the present invention include, but are not limited to, adapter sequences of the Roche-454 sequencing platform and adapter sequences of other types of next-generation sequencing technologies.
  • flanking sequence is a nucleotide sequence added to both ends of oligonucleotides to selectively amplify only specific oligonucleotides in a pool of oligonucleotides.
  • the base sequences added to the 5'-end of the different oligonucleotides required for assembly to the target nucleic acid molecule are the same, and the base sequences added to the 3'-end of the different oligonucleotides are the same.
  • an amplification process using a primer that binds to the adapter sequence using the tagged nucleic acid fragments as a template for sequence identification may be performed.
  • the length of the barcode sequence is not particularly limited and is, for example, 5-300 bp, preferably 10-100 bp, more preferably 12-40 bp, considering the sequencing performance of the entire sequence including the nucleic acid fragment. More preferably 15-30 bp.
  • the numerical range may change as the sequencing technology evolves. For example, if the poly N degenerate-barcode sequence is 20 bp in length, the number of possible barcode sequences may be 4 20 .
  • the barcode primer may comprise, for example, a 454-adapter sequence, a degenerate-barcode sequence of poly N, a restriction enzyme cleavage sequence and a consensus flanking sequence in the 5 'to 3' direction. Primers used for amplification can be designed to bind to the 454-adapter sequence.
  • the sequencing may identify error-free nucleic acid fragments among the nucleic acid fragments and barcode sequences added thereto.
  • the restriction enzyme cleavage sequence included in the barcode primer is for removing the sequencing adapter sequence of the nucleic acid fragments. This is because the presence of the adapter sequence interferes with the assembly of subsequent nucleic acid fragments (interference due to bound beads during sequencing analysis).
  • Desired nucleic acid fragments among the nucleic acid fragments identified in step S140 are recovered using the barcode sequences. Since the sequence of the desired nucleic acid fragments and the tagged barcode sequences have been identified through the sequencing of the previous step, the desired nucleic acid fragments can be recovered using the barcode sequences. Specifically, the recovering step may be performed by selectively amplifying and recovering the desired nucleic acid fragments with primers corresponding to the barcode sequences. Alternatively, the recovering step may be performed by selectively hybridizing the desired nucleic acid fragments to oligonucleotides corresponding to the barcode sequences to recover. For example, the desired nucleic acid fragments may be error free nucleic acid fragments.
  • Computer programs can be used for the recovery of the desired nucleic acid fragments. Specifically, the sequences of the nucleic acid fragments are virtually assembled using a computer program to compare with the entire sequence of the desired nucleic acid molecule. The desired nucleic acid fragments can then be recovered by using a primer synthesized based on sequence information flanking the most optimized DNA fragment or a primer hybridizing thereto.
  • the computer program comprises a computer program known in the art, more preferably a self-made python program, and Perl, C, C ++, or other Contains programs produced using programming languages.
  • a computer program is used to synthesize the oligo sequence complementary to the selected barcode sequence.
  • the synthesis of the target DNA in nucleic acid fragments i.e., a mixture of faulty and error-free fragments
  • PCR amplification
  • hybridization with the synthesized barcode oligo retrieve only error-free fragments that can be optimized.
  • the method for acquiring error-free fragments using the synthetic barcode sequence may include DNA capture methods using microchips in addition to PCR, a desired barcode sequence attached to biotinylated beads, or magnetic beads. Hybridization methods such as but not limited to obtaining error free fragments.
  • the error-free barcoded nucleic acid fragments when the nucleic acid fragments of the present invention are provided by shotgun assembly, may be 200 bp or more in length.
  • error-free barcoded nucleic acid fragments using a device capable of analyzing DNA over 1,000 bp in length for next-generation sequencing, can be over 1,000 bp in length. More preferably, the error-free barcoded nucleic acid fragments of the present invention may be between 200 bp and about 10 kb, or more.
  • the nucleic acid fragments recovered in step S150 may be assembled to form long nucleic acid molecules.
  • the target nucleic acid molecule of the present invention is a target gene, a target gene cluster, a target genome, and a natural or synthetic nucleic acid. Including but not limited to molecules.
  • target gene cluster or “target genome” means a cluster or genome comprising at least two genes encoding a desired target (gene), said cluster Alternatively, the genome may comprise a cluster or genomic region capable of generating two or more gene products (eg, genomic regions comprising at least one or more multiple splicing products of the same gene).
  • the target gene cluster or target genome which can be synthesized by the method of the present invention may have a length of about 10 kb, or more, for example penicillin chrysogenum Penicillin biosynthetic gene cluster from (11, 376 bp), wherein the penicillin biosynthetic gene cluster may comprise the pcbAB, pcbC and penDE gene.
  • nucleic acid molecule encompasses DNA (gDNA and cDNA) and RNA molecules inclusively, and the nucleotides that are the basic building blocks of nucleic acid molecules are naturally modified nucleotides, as well as modified sugar or base sites.
  • Analogues Schott-Propanediol, RNA RNA molecules, and the nucleotides that are the basic building blocks of nucleic acid molecules are naturally modified nucleotides, as well as modified sugar or base sites.
  • Analogues Schot, Nucleotide Analogs, John Wiley, New York (1980); Uhlman and Peyman, Chemical Reviews , 90: 543-584 (1990)).
  • the nucleic acid molecule may be prepared by the following method.
  • step (a) providing nucleic acid fragments which constitute at least a portion of the entire sequence of the desired nucleic acid molecule.
  • the size of the nucleic acid fragments of step (a) may be 20 to 300 bp.
  • the nucleic acid fragments are assembled to synthesize intermediates of sequential size by parallel sequencing technique.
  • the size of the intermediates is not particularly limited, but for example, the size of the intermediates may be 50 to 3,000 bp. With the development of parallel sequencing technology such as next generation sequencing technology, the size can be increased by any amount.
  • the synthesis of the intermediates can be performed by various synthesis methods including hierarchical synthesis or random synthesis (shotgun synthesis). have.
  • a sequencing adapter sequence may be added to the barcode sequence for sequence identification.
  • step (d) Identify the sequence of intermediates tagged with the barcode sequences. Identification of the tagged intermediates of step (d) can be performed by parallel sequencing techniques. The method may further include amplifying the tagged nucleic acid fragments using the sequencing adapter sequence between step (c) and step (d).
  • the desired intermediates of the sequenced intermediates are recovered using the barcode sequences.
  • the desired intermediates of step (e) may have error free sequences.
  • the recovered intermediates are assembled to form long nucleic acid molecules.
  • the size of the long nucleic acid molecules may be 1,000 bp or more.
  • FIG. 7 is a schematic showing that many oligonucleotides can be used simultaneously for shotgun synthesis to obtain large target DNA molecules. Shotgun synthesis using about 200 oligonucleotides can result in arbitrary fragments of various sizes ranging from 100 bp (the monomeric form of oligonucleotides) to 1,000 bp. Intermediate assembly fragments are effectively barcoded by degenerate primers for fast sequencing. Sequence-identified fragments are then used in the assembly process.
  • oligonucleotides are prepared from chips. Oligonucleotides of the invention are designed to have flanking sequences and type IIS restriction enzyme sites ( Ear I or Bts I) and synthesized on DNA microarray chips. After cleaving oligonucleotides from the chip, we perform PCR amplification to increase the concentration of the oligonucleotides. Amplified oligonucleotides are cleaved with type II restriction enzymes to remove flanking sequences. Since the efficiency of the restriction enzymes is not 100%, there are still flanking flanking sequences. Shotgun DNA assembly PCR using the uncleaved flanking sequence is performed to synthesize arbitrary fragments of the genes of interest.
  • type IIS restriction enzyme sites Ear I or Bts I
  • PCR is performed using the barcode primers to tag the synthesized fragments.
  • the PCR products were sequenced 454 to identify error-free gene fragments and linked barcode sequences through analysis using a self-fabricated Python program.
  • PCR is performed from a pool of shotgun assembled gene fragments using primers for the barcode sequence. After degenerate barcode sequences and flanking sequences are removed from the fragments recovered by type IIS restriction digestion, the error-free gene fragments are finally assembled to synthesize a full length target gene.
  • FIG. 8 shows the results of PCR products produced in each step.
  • 8A shows the PCR product produced by second round PCR using chip flanking primers.
  • Figure 8b is the result of electrophoresis of 4% agarose gel PCR product cleaved with type II restriction enzyme. The two bands indicated were cut and gel-purified.
  • FIG. 8C shows the spread bands of the PCR product optionally assembled using the Pen gene cluster fragments of FIG. 8B amplified by chip flanking primers. The spread band was cut and gel-purified.
  • 8D shows the PCR product re-amplified the bands in the white box of FIG. 8C using chip flanking primers. Bands in the white box were cut and gel-purified.
  • 8E shows spread bands prepared from PCR conducted using barcode primers.
  • FIG. 8F shows the product amplified using a 454-adapter primer after 100-fold dilution of the product obtained from the band of FIG. 8E. At this time, if the concentration of the product obtained from the band of Figure 8e is too high, PCR is not made properly.
  • the amplified product was digested and purified, and then diluted in concentration, cloned into a TOPO vector, and requested for Roche-454 sequencing.
  • Figure 8g shows the result of PCR amplification of the daughter fragment 11-d produced from the PCR with a primer containing a degenerate sequence.
  • FIG. 8H shows three bands prepared by cleaving the bands shown in FIG. 8G with type II restriction enzyme.
  • FIG. 8I is a result showing fragment 11 prepared by assembling the band and other daughter fragments shown in FIG. 8H (arrow).
  • 8J is the result of assembling 11 fragments to finally show the gene cluster synthesis.
  • 9 shows the results of analyzing 454 sequencing data for shotgun synthesis using a computer program.
  • 9A is a result showing the number of 454 sequencing reads with increasing length of the gene fragment.
  • the upper and lower lines represent a total of 454 sequential reads and correct reads of error free fragments, respectively. It is shown that the most abundant and correct number of readings is about 400 bp including barcoding sites (typically about 300 bp except for barcoding flanking sites).
  • the inner graph of FIG. 9A shows that as the length of the gene fragment increases, the percentage (%) of error free gene fragments tends to decrease.
  • FIG. 9B is a computer analysis of two independent experiments (first and second experiments), showing error-free gene fragments that are graphically aligned after removing flanking sequences.
  • the first arrow (adipate-activation domain), the second arrow (cysteine-activation domain), and the third arrow (valine-activation domain) at the top of the graph represent gene clusters.
  • the Y axis refers to the number of error free gene fragments corresponding to a portion of the target gene, and the scale bars at the bottom left and top right represent 100 bp fragments and 1,000 bp base pairs, respectively.
  • 9C shows the hierarchical shotgun synthesis results.
  • the target gene penicillin synthetic gene cluster (N- (5-amino-5-carboxypentanoyl) -L-cysteinyl-D-valine synthase) (About 11.4 kb).
  • the present invention provides the following advantages.
  • the present invention provides a scalable method for more economically and efficiently synthesizing large target nucleic acid molecules.
  • the method of the present invention uses an elaborately designed pool of target oligonucleotides to prepare an amplification product encompassing the target nucleic acid sequence, which optionally comprises 300-500 bp of error-free shotgun assembly fragments as barcode sequences. This can be used to synthesize larger target nucleic acid molecules (eg, greater than about 10 kb).
  • the cost of gene synthesis through the method of the present invention is very low compared to conventional methods using resin-based oligonucleotides.
  • the present invention can be applied as a novel method for synthesizing large target nucleic acid molecules, as well as providing a very good means for significantly reducing the cost of gene synthesis.
  • AccuPrep TM gel purification kits and AccuPrep TM plasmid extraction kits were purchased from Bioneer (Korea).
  • Pfu and Taq polymerase pre-mixes were purchased from SolGent (Korea).
  • Phusion polymerase pre-mix, restriction enzymes [ Ear I (20,000 U / ml) and Bts I (10,000 U / ml), NEB buffer 4 (10) and competent cells (C-2566) were NEB (New England Biolabs)
  • TOP Cloner TM Blunt core kits (6 TOP cloner buffer, sterile water, pTop blunt V2) were purchased from Enzynomics, Inc.
  • Microchip oligonucleotides and primers were obtained from Agilent (USA) and Macrogen, respectively. Purchased from (Korea) Sanger sequencing and Roche-454 sequencing were performed by Macrogene (Korea).
  • a penicillin biosynthetic gene cluster (N- (5-amino-5-carboxypentanoyl) -L-cysteinyl-D-valine synthase) DNA sequence (11, 376 bp) from Penicillium chrysogenum was selected as a synthetic model. Codon-optimized penicillin biosynthetic gene cluster sequences were designed using the web-based program Optimizer (Puigb, P. et al. , 2007). Twenty-four nucleotide sequences (5-GCAGAGTAAAGACCGTGCACTTAT-3) were added to the microchip oligonucleotides.
  • the Agilent chip oligonucleotide was 150 nucleotides in length consisting of a flanking sequence and a target DNA sequence. Each 114 plus and minus strand oligonucleotides was designed to include complementary oligonucleotides that contain overlapping sites for DNA assembly during annealing for the target DNA sequence. The 228 oligonucleotide sequences were flanked by common PCR primer sequences.
  • Lyophilized Agilent microchip oligonucleotides were suspended in 100 ⁇ l of water.
  • the amount of each PCR reagent was as follows: 8 ⁇ l of water, 10 ⁇ l of 2 Pfu polymerase pre-mix, 0.5 ⁇ l of cleaved oligonucleotide pool and 1 ⁇ l of forward and reverse primer (10 ⁇ M).
  • the first PCR conditions were carried out as follows: (a) a total denaturation step, 3 min at 95 ° C .; (b) 20 cycles of a PCR step consisting of 30 seconds at 95 ° C., 30 seconds at 55 ° C. and 1 minute at 72 ° C .; And (c) final extension step, 10 minutes at 72 ° C. Then, in order to amplify the oligos, the inventors performed a PCR reaction on the template of the PCR product amplified by the first PCR. The amount of each PCR reagent was as follows: 18 ⁇ l of water, 25 ⁇ l of 2 Pfu polymerase pre-mix, 3 ⁇ l of first PCR product and 2 ⁇ l of forward and reverse primer (10 ⁇ M).
  • Each fragment has a 454 DNA sequencing-adapter sequence in the 5 'to 3' direction, a 454 high-throughput sequencing key sequence (e.g. 5-TCAG-3), a 20 mer (poly N) degenerate primer position, It was barcoded with a pair of primers comprising the EcoP15I type IIS enzyme location and flanking primer sequence.
  • the Ear I or Bts I position was located at the 3 'end of the flanking sequence of the chip oligonucleotide and the EcoP15I position was introduced in the PCR amplification process for shotgun assembly of fragments using barcoded primers.
  • the amount of each reagent used for PCR is as follows: 6 ⁇ l of water, 20 ⁇ l of Pfu polymerase pre-mix, 10 ⁇ l of the assembled gene fragment pool and 2 ⁇ l of forward and reverse barcode primers, respectively.
  • PCR conditions were as follows: (a) a total denaturation step, 95 min at 95 ° C .; (b) 18 cycles of a PCR step consisting of 30 seconds at 95 ° C., 30 seconds at 55 ° C. and 1 minute at 72 ° C .; And (c) final extension step, 10 minutes at 72 ° C. We cut the gel after 1.5% agarose gel electrophoresis to purify the assembled fragments (450-600 bp).
  • the purified fragments were diluted 100-fold and finally PCR amplified using 454 DNA sequencing-adapter primer (Macrogene, Korea).
  • the amount of each reagent used in the PCR was as follows: 17.5 ⁇ l of water, 25 ⁇ l of Pfu, 2.5 ⁇ l of 100-fold dilution gel-purified product and 2.5 ⁇ l of forward and reverse primers, respectively.
  • the 20 ⁇ l of PCR reaction was performed in 8 replicates independent of each other.
  • the PCR conditions were as follows: (a) a total denaturation step, 95 min at 95 ° C .; (b) 25 cycles of a PCR step consisting of 30 seconds at 95 ° C., 30 seconds at 71 ° C.
  • the inventors confirmed the sequence of the gene fragment and barcode primer using Lasergene (DNAstar, Madison, WI). After confirming this sequence, we selected a pool of assembly PCR products for Roche-454 fast sequencing. The inventors analyzed the sequencing data via a self-made in-house python program to select error-free gene fragments.
  • the main purpose of a computer program is to select an error-free shotgun assembly product that can be used in future assembly processes.
  • 454 sequencing reads (454 reads) were aligned to target the penicillin biosynthetic gene cluster sequence, a target gene, using a self-made Python programming language.
  • high quality scores of sequencing data Phred-like consensus quality of at least 30; base-call accuracy of at least 99.9%
  • desired restriction enzyme positions ie, EcoP15I
  • flanking sequences comprising restriction enzyme positions were removed from the processed gene fragments and the flanking sequence-removed internal sequences were aligned with the target penicillin biosynthetic gene cluster sequences. If the internal sequence perfectly matches the reference sequence, the internal sequence was graphically listed in the target gene cluster sequence (FIG. 9B). The program then determines the optimal set of internal sequences that overlap at least 15 bp with other fragments needed for subsequent assembly.
  • the selected gene fragments are recombined into complete target genes (FIG. 9C). All analysis scripts included in the Python program are freely available upon request.
  • each reagent used for the amplification was as follows: 8 ⁇ l of water, 10 ⁇ l of Phusion polymerase pre-mix, 1 ⁇ l of forward and reverse barcode primers, and 1 ⁇ l of shotgun assembly DNA mixture.
  • PCR conditions were as follows: (a) a total denaturation step, 95 min at 95 ° C .; (b) 30 cycles of a PCR step consisting of 30 seconds at 95 ° C., 30 seconds at 60 ° C. and 1 minute at 72 ° C .; And (c) final extension step, 10 minutes at 72 ° C.
  • the barcode primers are listed in Tables 1-7 below.
  • Desired PCR amplification product sequences are set forth in Tables 8-19 below.
  • the desired PCR amplification product was electrophoresed on an agarose gel to cut a band of a desired size to purify DNA with an AcPrep TM gel purification kit (Bionia, Korea).
  • an AcPrep TM gel purification kit (Bionia, Korea).
  • gel-purified 3-8 gene fragments were pooled. Restriction digestion was performed in each pool as follows: When using Ear I or EcoP15I, 2 ⁇ l of Ear I or EcoP15I, 5 ⁇ l of NEB buffer, 0.5 ⁇ l of 100 ⁇ BSA, 10 ⁇ l of water, and 30 ⁇ l of The purified (and pooled) DNA fragments were mixed and digested at 37 ° C.
  • the 11 gene cluster fragments were constructed using (FIG. 8i): 3 ⁇ l of water, 10 ⁇ l of Phusion polymerase pre-mix (NEB, MA), 1 ⁇ l of forward and reverse primers, and 5 ⁇ l of Flanking sequence-cut shotgun assembly DNA fragment.
  • the 1 kb DNA fragments were cloned into TOPO vectors using TOP ClonerTM Blunt core kits (Enzynomics, Korea) and sequenced for Sanger.
  • the PCR was carried out using 11 approximately 1 kb fragments (1 ⁇ l each) and 15 ⁇ l Phusion polymerase pre-mix (NEB, MA) without primers: (a) a transmutation step At 95 ° C. for 3 minutes; (b) 10 cycles of PCR consisting of 30 seconds at 95 ° C., 30 seconds at 70 ° C. and 3 minutes 30 seconds at 72 ° C .; And (c) final extension step, 5 minutes at 72 ° C.
  • PCR was performed by adding primer pairs (1 ⁇ l each) containing restriction enzyme cleavage sequences (BglII or NotI) to the mixture (about 1 kb fragments (1 ⁇ l each) and 15 ⁇ l Phusion polymerase pre-mix). (25 cycles or more) was carried out and the product was used for cloning.
  • primer pairs (1 ⁇ l each) containing restriction enzyme cleavage sequences (BglII or NotI)
  • BglII or NotI restriction enzyme cleavage sequences
  • oligonucleotide pools can be shotgun assembled at one-pot to produce heterogeneous assembly products, and the products can be identified by fast sequencing.
  • the inventors used oligonucleotides at least one truncated for shotgun DNA synthesis.
  • very heterogeneous DNA fragments of 100-1,000 bp in length were produced (FIG. 8C).
  • FIG. 8C very heterogeneous DNA fragments of 100-1,000 bp in length were produced (FIG. 8C).
  • FIG. 8C very heterogeneous DNA fragments of 100-1,000 bp in length were produced (FIG. 8C).
  • the size range of the above-described DNA fragments was determined in consideration of the limitation of the current 454 fast sequencing read length (about 400-500 bp).
  • the inventors focused on developing a method for identifying arbitrary fragment compositions and obtaining sequence validated error-free fragments from the entire DNA fragment pool using fast sequencing techniques.
  • FIG. 7 the present inventors gel purified barcode-tagged DNA fragments through amplification using barcode primer sequences (FIG. 8).
  • the DNA fragments would contain flanking sequences common to both ends. The reason is as follows: The efficiency of flanking sequence cleavage of amplified chip oligonucleotides may not reach 100%. As a result, the flanking sequences in the chip oligonucleotides that are not cleaved at both ends cause termination of the DNA assembly process.
  • flanking sequences contained in the fragments are linked to primers (linking the flanking sequences and degenerate barcode sequences included in the fragments). It was expected that PCR amplification using would be a great help in tagging sequences with degenerate barcoded sequences against randomly assembled products.
  • the tagging barcode primer sequence consists of three parts comprising the original primer sequence used for amplification of the DNA chip: (a) the consensus primer sequence used when designing the oligonucleotide; (b) 20 bp degenerate-barcode sequence; And (c) 454 primer sequence. Barcode sequence-attached shotgun assembly fragments were further amplified with 454 primer sequences to increase the concentration of barcoded assembly products.
  • Amplicons using the selected DNA include flanking sequences containing the type IIS restriction enzyme recognition sequence used in the processing of the chip oligonucleotide.
  • the barcode sequences of the amplified fragments were cleaved with type II restriction enzymes (TypeIIS restriction enzymes, Ear I, Bts I or EcoP15I) (FIG. 7).
  • type II restriction enzymes TypeIIS restriction enzymes, Ear I, Bts I or EcoP15I
  • the inventors performed the assembly using a 5-terminal and 3-terminal primer set of 11 gene fragments each having the same base sequence as the target gene fragment as illustrated in FIG. 7.
  • Sanger sequencing by TOPO cloning.
  • the inventors selected and sequenced 1-3 colonies from each of the 11 constructs, with 9 constructs containing at least one desired DNA sequence (16 out of 21 errors). Construct was absent) (error rate-0.022%; 5 bp error per 22,903 bp).
  • FOG. 8J final nested PCR assembly using 11 sequence-identified DNA fragments for the construction of a penicillin biosynthetic gene cluster, cloned the product, and sequenced the resulting desired penicillin gene cluster. (0 errors per 11,400 bp).
  • our shotgun synthesis method can provide a solution to the intrinsic challenges associated with low DNA synthesis efficiency.
  • the DNA assembly process occurs less efficiently due to the presence of an increased number of oligonucleotides in the sub-pool (ie resulting in low oligonucleotide concentrations) and partially removed flanking sequences present in the oligonucleotides.
  • the inventors constantly observed about 100-500 bp of very heterogeneous by-products corresponding to small size DNA fragments.
  • the shotgun DNA synthesis method of the present inventors has a greater advantage than the conventional gene synthesis method, because the heterogeneous products can be used in the next step of the DNA assembly process.
  • the cost assessment of DNA synthesis and fast sequencing using Agilent chip-oligonucleotides is as follows.
  • the cost for large DNA synthesis is mainly for oligonucleotides and sequencing.
  • the synthesis cost of chip oligonucleotides is expected to be $ 0.00085 / nt, which is more than 100 times cheaper than resin-based oligonucleotides (Kim et al ., 2011).
  • computer analysis of the 454 sequencing reads performed by the inventors for sequencing cost-analysis confirmed that about 3% of the 300 bp DNA fragments prepared in the first round of shotgun synthesis were error free DNA fragments.
  • DNA synthesis companies currently charge $ 0.5 / bp
  • our synthesis method reduces DNA synthesis costs by at least five times. The importance of our approach is the uneven coverage of DNA assembly fragments. From repeated assembly experiments, we found that the application of a particular site from the DNA assembly process is dependent on the DNA sequence. Therefore, it would be desirable to develop a shotgun assembly method for a more uniform assembly process.
  • Borovkov AY et al ., High-quality gene assembly directly from unpurified mixtures of microarray-synthesized oligonucleotides. Nucleic Acids Research . 1-10 (2010).

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

(a) 목적 핵산분자의 전체 서열의 적어도 일부를 구성하는 핵산 단편들을 제공하는 단계; (b) 상기 핵산 단편들을 바코드 서열들(barcode sequences)로 태깅(tagging)하는 단계; (c) 상기 바코드 서열들로 태깅된 핵산 단편들의 서열을 확인하는 단계; 및 (d) 상기 서열 확인된 핵산 단편들 중 소망하는 핵산 단편들을 상기 바코드 서열들을 이용하여 회수하는 단계를 포함하는 핵산분자의 제조방법이 제공된다.

Description

[규칙 제26조에 의한 보정 25.09.2012] 핵산분자의 제조방법
본 명세서에 개시된 기술은 핵산분자의 제조방법으로서, 더욱 상세하게는 긴 핵산분자를 효율적으로 합성할 수 있는 방법에 관한 것이다.
일반적으로 실시되는 DNA 합성 과정은 확장 가능한(scalable) DNA 구축을 위해 다음과 같은 난점을 가진다: (a) 고-비용의 올리고뉴클레오타이드; (b) 올리고뉴클레오타이드의 긴 DNA 서열로의 낮은 어셈블리 효율; (c) 시간을 요하는 클로닝 과정; 및 (d) 고-비용의 타겟 DNA 서열 확인 과정. 무엇보다도, 올리고뉴클레오타이드 및 시퀀싱 비용이 주요한 합성 비용이다. 따라서, 효과적으로 확장 가능한(highly scalable) DNA 합성을 실현하기 위해 합성 산물을 대량으로 병렬화(parallelize)시키는 방법(프로토콜)을 고안하는 것이 바람직하다. 이전까지, 확장 가능한 저-비용 DNA 합성을 위해 DNA 마이크로칩으로부터 유래된 DNA 올리고뉴클레오타이드가 이용되었다(Tian, J., et al., 2004). 하지만, 칩-유래된 올리고뉴클레오타이드의 낮은 어셈블리 효율이 타겟 유전자 구축을 방해하여 번거로운 DNA 어셈블리 최적화 과정이 종종 요구된다. 상기 칩-유래된 올리고뉴클레오타이드를 이용한 DNA 어셈블리의 비효율성은 어셈블리 전 이중가닥(double strand, ds)-올리고뉴클레오타이드의 플랭킹 부위의 불완전한 제거 및 각각의 칩-절단된 올리고뉴클레오타이드의 상이한 농도와 밀접하게 연관되어 있다(Kim H., et al., 2011). 더욱이, DNA 어셈블리 풀에서 더 많은 수의 올리고들(즉, 높은 복잡성)은 비효율적인 DNA 어셈블리를 야기하는 것으로 관찰되었다(Kim H., et al., 2011; Borovkov A. Y., et al., 2010). 결과적으로, 많은 경우에서 작은 서브-풀의 올리고뉴클레오타이드들(즉, 20개 미만) 만이 높은 어셈블리 효율로 증폭된다. 초-저비용(ultra-low cost) DNA 마이크로칩 올리고뉴클레오타이드의 모든 장점을 얻기 위해, 풀 내에 존재하는 많은 수의 마이크로칩 올리고뉴클레오타이드를 이용하는 고-효율 DNA 어셈블리 기법을 개발하는 것이 요구되고 있다.
확장 가능한 DNA 합성을 실시하기 위해, 타겟 DNA 유효화(확인, validation)를 위한 시퀀싱 비용을 절감하는 것이 바람직하다. 최근에 고속(high-throughput) 시퀀싱 기술을 위한 비용이 현저하게 감소되었기 때문에, 합성 DNA 서열 확인을 위한 고속 시퀀싱 기술을 이용하는 것은 초-저비용 DNA 합성을 위해 큰 장점을 가진다. 하지만, 콜로니-기반된 Sanger 시퀀싱 확인과는 달리, 고속 시퀀싱된 DNA 혼합물의 풀로부터 소망하는 DNA를 수득하는 것은 용이하지 않다. 최근 고속 DNA 시퀀싱 과정이 부분적으로 어드레스할 수 있는 스팟(예컨대, Roche-454, Illumina 및 SOLid 사의 클론성 스팟(clonal spots), 그리고 Helicos사 및 PacBio사의 단일 분자 스팟)에 적용될 수 있을 지라도, 고속 시퀀싱 플레이트로부터 소망하는 DNA를 수득하는 것과 관련된 어려움으로 인해 타겟 DNA의 분리는 쉽지 않다. 한 가지 흥미로운 보고(Matzas M., et al., 2010)로, 칩-절단된 올리고뉴클레오타이드들이 454 시퀀싱 기술로 시퀀싱되고, 비드 선택기 파이펫(bead picker pipette)을 이용하여 454 시퀀싱 플레이트로부터 직접 분리되었다. 이후, 상기 서열-확인된 ‘올리고뉴클레오타이드들’은 프로세싱되어 200 bp의 타겟 DNA 단편들의 어셈블리에 이용되었다. 상술한 연구는 DNA 합성 비용의 절감에 있어서 차세대(next-generation) 시퀀싱 기술 및 마이크로칩 올리고뉴클레오타이드의 융합 가능성을 증명한다. 하지만, 상기 연구는 어셈블리된 DNA 단편들이 아닌 칩 올리고뉴클레오타이드들의 고속 시퀀싱을 실시하였다. 따라서, 더 큰 서열로의 DNA 어셈블리와 관계된 도전은 이제 시작되는 단계이다. 더 나아가, 효과적인 오류없는 올리고뉴클레오타이드 선택(picking) 과정은 매우 정밀한(highly-tuned) 비드 선택 로보트(bead picking robot) 및 이미징 프로세스 기계를 필요로 한다.
본 명세서 전체에 걸쳐 다수의 논문 및 특허문헌이 참조되고 그 인용이 표시되어 있다. 인용된 논문 및 특허문헌의 개시 내용은 그 전체로서 본 명세서에 참조로 삽입되어 본 발명이 속하는 기술 분야의 수준 및 본 발명의 내용이 보다 명확하게 설명된다.
본 발명의 일 구현예에 따르면, (a) 목적 핵산분자의 전체 서열의 적어도 일부를 구성하는 핵산 단편들을 제공하는 단계; (b) 상기 핵산 단편들을 바코드 서열들(barcode sequences)로 태깅(tagging)하는 단계; (c) 상기 바코드 서열들로 태깅된 핵산 단편들의 서열을 확인하는 단계; 및 (d) 상기 서열 확인된 핵산 단편들 중 소망하는 핵산 단편들을 상기 바코드 서열들을 이용하여 회수하는 단계를 포함하는 핵산분자의 제조방법이 제공된다.
본 발명의 다른 구현예에 따르면, (a) 목적 핵산분자의 전체 서열의 적어도 일부를 구성하는 핵산 단편들을 제공하는 단계; (b) 상기 핵산 단편들을 조립하여 병렬적 시퀀싱(parallel sequencing) 기술로 서열 확인 가능한 크기의 중간체들을 합성하는 단계; (c) 상기 중간체들을 바코드 서열들(barcode sequences)로 태깅(tagging)하는 단계; (d) 상기 바코드 서열들로 태깅된 중간체들의 서열을 확인하는 단계; (e) 상기 서열 확인된 중간체들 중 소망하는 중간체들을 상기 바코드 서열들을 이용하여 회수하는 단계; 및 (f) 상기 회수된 중간체들을 조립하여 긴 핵산분자들을 형성하는 단계를 포함하는 핵산분자의 제조방법이 제공된다.
본 발명의 또 다른 구현예에 따르면, (a) 제한효소 절단 서열 및 공통적 플랭킹 서열을 구비한 올리고뉴클레오타이드들의 풀을 제공하는 단계; (b) 상기 제한효소 절단 서열 부분을 절단함으로써 상기 공통적 플랭킹 서열을 일 말단에 구비한 올리고뉴클레오타이드들과 상기 공통적 플랭킹 서열을 구비하지 않은 올리고뉴클레오타이드들을 포함하는 혼합물의 풀을 제공하는 단계; 및 (c) 상기 공통적 플랭킹 서열을 이용하여 상기 올리고뉴클레오타이드들을 어셈블리하여 임의적으로 핵산 단편들을 합성하는 단계를 포함하는 핵산분자의 제조방법이 제공된다.
본 발명의 또 다른 구현예에 따르면, (a) 올리고뉴클레오타이드들의 풀을 제공하는 단계; (b) 상기 올리고뉴클레오타이드들을 어셈블리하여 임의적으로 핵산 단편들을 합성하는 단계; (c) 상기 임의적으로 합성된 핵산 단편들에 증폭용 염기 서열을 연결하는 단계; 및 (d) 증폭용 염기 서열에 결합하는 프라이머로 상기 핵산 단편들을 증폭하는 단계를 포함하는 핵산분자의 제조방법이 제공된다.
도 1은 본 발명의 일 구현예에 따른 핵산분자의 제조방법을 나타낸 공정흐름도이다.
도 2는 본 발명의 일 구현예에 따른 임의적 유전자 합성 방식을 나타내는 공정흐름도이다.
도 3 및 도 4는 임의적 합성 방식에 의해 핵산 단편들을 합성하는 과정을 나타낸다.
도 5는 바코드 서열들로 핵산 단편들을 태깅하는 두 가지 과정을 나타낸 구현예들이다.
도 6은 바코드 태깅된 핵산 단편들의 풀로부터 소망하는 핵산 단편들을 회수하고 조립하여 긴 핵산분자를 형성하는 과정을 나타낸다.
도 7은 거대 목적 DNA 분자들을 얻기 위해 많은 올리고뉴클레오타이드들이 샷건 합성에 동시적으로 이용될 수 있음을 보여주는 개략도이다.
도 8은 각 단계에서 생산되는 PCR 산물을 보여주는 결과이다.
도 9는 샷건 합성에 대한 454 시퀀싱 데이터를 컴퓨터 프로그램을 이용하여 분석한 결과이다.
이하, 도면을 참조하여 본 발명의 구현예들에 대해 상세히 설명하고자 한다. 다음에 소개되는 구현예들은 당업자에게 개시된 사상이 충분히 전달될 수 있도록 하기 위해 제공되어지는 것이다. 따라서 본 발명은 이하 설명된 구현예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 그리고 도면들에 있어서, 구성요소의 폭, 길이, 두께 등은 편의를 위하여 과장되어 표현될 수도 있다. 제1 구성요소가 제2 구성요소에 연결되거나 부가될 경우 제1 구성요소가 제2 구성요소에 직접 연결되거나 부가되는 것뿐아니라 제3 구성요소가 제1 구성요소와 제2 구성요소 사이에 개재되는 것을 포함한다.
도 1은 본 발명의 일 구현예에 따른 핵산분자의 제조방법을 나타낸 공정흐름도이다. 도 1을 참조하면, 단계 S110에서 목적 핵산분자의 전체 서열의 적어도 일부를 구성하는 핵산 단편들을 제공한다. 본 발명에 이용되는 핵산 단편들은 자연에서 유래하거나 합성된 것들이 사용될 수 있다. 바람직하게는 상기 핵산 단편들은 낮은 가격으로 수백만 종 이상의 염기서열을 제공하는 DNA 마이크로칩으로부터 유래하거나 합성 올리고뉴클레오타이드들의 풀로부터 유래한 것일 수 있다. 상기 합성 올리고뉴클레오타이드들의 풀은 당업계에 잘 알려진 방법에 따라 제조될 수 있으며, 예를 들어 레진(resin)-기반된 올리고뉴클레오타이드들로 제조될 수 있지만, 이에 한정되는 것은 아니다. 바람직하게는 상기 핵산 단편들은 DNA 마이크로칩으로부터 유래한 것일 수 있다.
거대 목적 핵산분자의 합성을 위해서는 상기 핵산 단편들은 삽입(insertion), 결실(deletion), 전이(transtion), 역전(transversion) 등과 같은 서열 오류들이 없는 것일 수 있다.
단계 S110의 (a)의 핵산 단편들은 올리고뉴클레오타이드들의 풀로부터 직접 추출한 것들이거나 일정 길이 이상을 갖도록 하기 위해 올리고뉴클레오타이드들을 증폭하고 조립한 것들일 수 있다. 긴 목적 핵산 분자를 합성할 경우, 상기 핵산 단편들은 계층적 유전자 합성 방식(Journal of Biotechnology 151 (2011) 319-324) 또는 후술할 임의적 유전자 합성 방식을 포함한 다양한 방식으로 만들어질 수 있다.
본 명세서에 있어서, 임의적 유전자 합성을 "샷건 합성"("Shotgun synthesis")으로 명명하며, 이러한 샷건 합성법으로 만들어진 핵산 단편들을 "샷건 산물"("Shotgun products")이라고 명명하기로 한다.
샷건 시퀀싱은 분석하고자 하는 DNA를 임의적으로 절편화하고 생성된 핵산 단편들에 시퀀싱 어댑터를 연결하여 고속 시퀀싱을 통해 분석하는 방식이다. 여기에는 컴퓨터 프로그램을 이용하여 각 단편들을 배열하여 분석하고자 하는 최초의 DNA의 전체 서열을 동정하는 과정이 포함된다. 샷건 합성은 상술한 샷건 시퀀싱과 정확하게 역순으로 진행된다. 합성하고자 하는 핵산 분자의 일부 서열을 구성하는 올리고뉴클레오타이드들을 제작하고 이들을 임의적으로 조립하여 핵산 단편들을 만들어내고 이를 고속 시퀀싱을 통해 분석한다. 다음 분석된 핵산 단편들 중 소망하는 핵산 단편들을 회수하여 이를 이용하여 최종 핵산 분자를 만든다.
본 발명의 일 구현예에 따르면 단계 S110의 (a)에서 제공되는 핵산 단편들은 샷건 합성법에 의해 제조된 샷건 산물일 수 있다. 샷건 산물을 만들기 위해 공통적 플랭킹 서열들(generic flanking sequences)을 포함하도록 디자인된 올리고뉴클레오타이드들이 사용될 수 있다.
도 2는 본 발명의 일 구현예에 따른 임의적 유전자 합성 방식을 나타내는 공정흐름도이다. 도 2를 참조하면, 단계 S210에서 제한효소 절단 서열 및 공통적 플랭킹 서열을 적어도 일 말단에 구비한 올리고뉴클레오타이드들의 풀을 제공한다. 단계 S220에서 상기 제한효소 절단 서열 부분을 절단함으로써 상기 공통적 플랭킹 서열을 일 말단에 구비한 올리고뉴클레오타이드들과 상기 공통적 플랭킹 서열을 구비하지 않은 올리고뉴클레오타이드들을 포함하는 혼합물의 풀을 제공한다. 단계 S230에서 상기 공통적 플랭킹 서열을 이용하여 상기 혼합물 내의 상기 올리고뉴클레오타이드들을 어셈블리하여 핵산 단편들을 임의적으로 합성한다.
단계 S210에서, 상기 공통적 플랭킹 서열은 상기 올리고뉴클레오타이드의 일 말단 또는 양 말단에 존재할 수 있다. 예를 들어, 상기 임의적 유전자 합성(샷건 합성) 방식에 사용되는 올리고뉴클레오타이드는 5' to 3' 방향으로 5'-말단 공통적 플랭킹 서열(generic flanking sequence), 상기 목적 핵산분자를 구성하는 올리고뉴클레오타이드 서열 및 3'-말단 공통적 플랭킹 서열을 포함할 수 있다.
상기 올리고뉴클레오타이드의 말단에 존재하는 5'-말단 공통적 플랭킹 서열 및 3'-말단 공통적 플랭킹 서열은 DNA 칩으로부터 유래된 올리고뉴클레오타이드의 양을 증폭하기 위한 프라이밍 위치로, 충분한 양의 올리고뉴클레오타이드들을 생산하기 위한 프라이머 세트의 어닐링 위치로 이용된다.
상기 올리고뉴클레오타이드는 제한효소 절단 서열을 포함할 수 있다. 상기 핵산 단편은 상기 5'-말단 공통적 플랭킹 서열과 함께 5'-제한효소 절단 서열을 포함하고, 상기 3'-말단 공통적 플랭킹 서열과 함께 3'-제한효소 절단 서열을 포함할 수 있다. 이때 상기 올리고뉴클레오타이드 내 5'-제한효소 절단 서열과 3'-제한효소 절단 서열은 서로 동일하거나 또는 상이할 수 있다.
상기 올리고뉴클레오타이드의 길이는 50-500 bp (base pair)이며, 보다 바람직하게는 100-300 bp이고, 보다 더 바람직하게는 120-200 bp이며, 가장 바람직하게는 약 150 bp이다.
본 발명의 일 구현예에 따르면, 상기 올리고뉴클레오타이드는 상기 목적 핵산분자의 일부 또는 전체의 서열을 구비할 수 있다. 상기 올리고뉴클레오타이드가 상기 목적 핵산분자의 일부 서열을 구비할 경우, 여러 크기를 갖는 상기 목적 올리고뉴클레오타이드들 간의 순차적인 조립(assembly)을 통해 전체 서열을 갖는 목적 핵산분자로 합성될 수 있다.
상기 올리고뉴클레오타이드들의 풀은 DNA 마이크로칩으로부터 절단된 것일 수 있다. 또는 상기 올리고뉴클레오타이드들의 풀은 고체상에서 합성된 올리고뉴클레오타이드들의 혼합물일 수있다. 긴 유전자 합성에 필요한 양을 확보하기 위해 절단된 상기 올리고뉴클레오타이드들은 증폭될 수 있다. 상기 증폭은 상기 공통적 플랭킹 서열을 이용한 PCR(polymerase chain reaction)에 의해 수행될 수 있다.
다음 상기 증폭된 올리고뉴클레오타이드들 내의 제한효소 절단 서열을 인지하는 제한효소를 이용하여 공통적 플랭킹 서열을 절단해낸다. 이때 절단된 올리고뉴클레오타이드들의 풀은 양 말단 제한효소 절단 서열이 완벽히 절단되어 공통적 플랭킹 서열이 없는 올리고뉴클레오타이드들과 일 말단의 제한효소 절단 서열만 절단되어 공통적 플랭킹 서열이 일 말단에 남아있는 올리고뉴클레오타이드들을 함유하는 혼합물의 형태를 가질 수 있다.
상기 공통적 플랭킹 서열을 이용하여 상기 혼합물의 올리고뉴클레오타이드들을 PCR 어셈블리(polymerase chain reaction assembly, PCA)할 수 있다. 이때 올리고뉴클레오타이드들이 순차적으로 어셈블리되어 다양한 길이의 단편들을 만들어내며, 이러한 단편들 간에도 서로 임의적으로 어셈블리될 수 있다. 그리하여, PCR 용액 내의 다양한 위치에서 작은 또는 큰 단편들이 임의적 어셈블리를 통해 전체 목적 핵산분자들 또는 전체 목적 핵산분자의 일부 서열을 갖는 보다 긴 단편들로 합성될 수 있다. 상기 어셈블리는 일 말단에 공통적 플랭킹 서열이 구비된 올리고뉴클레오타이들이 서로 중첩되어 양 말단에 공통적 플랭킹 서열들을 구비한 핵산 단편이 만들어질 때까지 진행될 수 있다.
소망하는 샷건 산물들을 형성하기 위해, 단계 S210의 올리고뉴클레오타이드는 정교하게 디자인된다. 상기 올리고뉴클레오타이드 서열 중 일부의 상보적인 서열을 통해 여러 올리고뉴클레오타이드들이 서로 중첩되는 방식으로 어셈블리될 수 있다. 이때 상기 올리고뉴클레오타이드들은 임의적 어셈블리가 가능하도록 디자인되어 샷건 산물을 형성한다. 예를 들어, 상기 샷건 산물들 중 목적 핵산분자의 5'-말단 부위를 포함하는 샷건 산물이 5개의 목적 올리고뉴클레오타이드들로 구성되는 경우, 목적 핵산분자의 5'-말단 부위를 포함하는 샷건 산물은 다음과 같이 제한효소로 절단된 올리고뉴클레오타이드들 간의 순차적인 어셈블리를 통해 생성될 수 있다. 즉, 5' to 3' 방향으로, 5'-말단 부위를 생성시키기 위해 제한효소 절단 서열이 부분적으로 절단된 5'-말단 공통적 플랭킹 서열 및 목적 핵산분자의 일부 서열을 포함하는 제1 올리고뉴클레오타이드, 상기 제1 올리고뉴클레오타이드의 3'-말단 부위에 중첩하는 부위(예컨대, 20-50 bp)를 포함하는 제2 올리고뉴클레오타이드, 상기 제2 올리고뉴클레오타이드의 3'-말단 부위에 중첩하는 부위를 포함하는 제3 올리고뉴클레오타이드, 상기 제3 올리고뉴클레오타이드의 3'-말단 부위에 중첩하는 부위를 포함하는 제4 올리고뉴클레오타이드, 그리고 상기 제4 올리고뉴클레오타이드의 3'-말단 부위에 중첩하는 부위를 포함하는 서열 및 3'-말단 공통적 플랭킹 서열을 포함하는 제5 올리고뉴클레오타이드 간의 순차적인 어셈블리를 통해 상기 목적 핵산분자의 5'-말단 부위를 포함하는 샷건 산물(예컨대, 약 400 bp)이 생성될 수 있다. 도 3 및 도 4는 임의적 합성 방식에 의해 핵산 단편들을 합성하는 과정을 나타낸다.
변형된 구현예로서, 핵산 단편들은 이하의 방법으로 제조될 수 있다.
먼저 올리고뉴클레오타이드들의 풀을 제공한다. 다음 앞의 구현예와 달리 공통적 플랭킹 서열 등이 부가되지 않은 원료 올리고뉴클레오타이드들을 어셈블리하여 임의적으로 핵산 단편들을 합성한다. 그리고 상기 임의적으로 합성된 핵산 단편들에 증폭용 염기 서열을 연결한 다음 증폭용 염기 서열에 결합하는 프라이머로 상기 핵산 단편들을 증폭함으로써 증폭된 핵산 단편들을 얻을 수 있다.
상술한 바와 같이 임의적 합성 방식을 이용하여 핵산분자를 제조할 경우 여러 종류의 핵산 단편 라이브러리를 동시에 제조할 수 있다는 장점이 있다.
본 발명의 일 구현예에 따르면, 단계 S110의 (a)의 핵산 단편들은 목적 핵산분자의 전체 서열을 포함할 수 있다. 오류없는 긴 DNA를 합성을 위해 상기 핵산 단편들은 병렬적 시퀀싱 기기들로 서열확인될 수 있다. 상기 병렬적 시퀀싱 기기로 서열확인 가능한 핵산 단편의 길이를 고려할 때 바람직한 상기 핵산 단편의 길이는 20-3,000 bp이고, 보다 바람직하게는 200-1,000 bp이며, 보다 바람직하게는 300-500 bp이고, 보다 더 바람직하게는 350-450 bp이며, 가장 바람직하게는 380-420 bp이다. 또한, 상기 바람직한 수치 범위에 불구하고 병렬적 시퀀싱 기기의 성능향상에 의해 수천 bp가 넘는 DNA를 분석할 수 있을 경우, 상기 핵산 단편들의 크기는 수천 bp 이상의 크기를 가지는 DNA로 확대 적용될 수 있다.
본 명세서에서 용어 "뉴클레오타이드"는 단일가닥 또는 이중가닥 형태로 존재하는 디옥시리보뉴클레오타이드 또는 리보뉴클레오타이드이며, 다르게 특별하게 언급되어 있지 않은 한 자연의 뉴클레오타이드의 유사체를 포함한다(Scheit, Nucleotide Analogs, John Wiley, New York(1980); Uhlman 및 Peyman, Chemical Reviews, 90:543-584(1990)).
본 명세서에서 용어 "올리고뉴클레오타이드"는 뉴클레오타이드의 올리고머, 폴리머 또는 이의 모방체를 의미한다. 본 발명의 일 구현예에 따르면, 본 발명의 유전자 증폭은 PCR에 의해 실시된다. 본 발명의 일 구현예에 따르면, 본 발명의 프라이머(예컨대, 공통적 플랭킹 서열)는 유전자 증폭 반응(amplification reactions)에 이용된다.
본 명세서에 기재된 용어 "증폭 반응(amplification reactions)"은 목적 핵산서열을 증폭하는 반응을 의미한다. 다양한 증폭 반응들이 당업계에 보고 되어 있으며, 이는 중합효소 연쇄반응(PCR)(미국 특허 제4,683,195, 4,683,202, 및 4,800,159호), 역전사-중합효소 연쇄반응(RT-PCR)(Sambrook 등, Molecular Cloning. A Laboratory Manual, 3rd ed. Cold Spring Harbor Press(2001)), Miller, H. I.(WO 89/06700) 및 Davey, C. 등(EP 329,822)의 방법, 멀티플렉스 PCR(McPherson and Moller, 2000), 리가아제 연쇄 반응(ligase chain reaction; LCR)(17, 18), Gap-LCR(WO 90/01069), 복구 연쇄 반응(repair chain reaction; EP439,182), 전사-중재 증폭(transcription-mediated amplification; TMA)(19) (WO88/10315), 자가 유지 염기서열 복제(self sustained sequence replication)(20)(WO 90/06995), 목적 폴리뉴클레오타이드 염기서열의 선택적 증폭(selective amplification of target polynucleotide sequences)(미국 특허 제6,410,276호), 컨센서스 서열 프라이밍 중합효소 연쇄 반응(consensus sequence primed polymerase chain reaction; CP-PCR)(미국 특허 제4,437,975호), 임의적 프라이밍 중합효소 연쇄 반응(arbitrarily primed polymerase chain reaction; APPCR)(미국 특허 제5,413,909호 및 제5,861,245호), 핵산 염기서열 기반 증폭(nucleic acid sequence based amplification; NASBA)(미국 특허 제5,130,238호, 제5,409,818호, 제5,554,517호, 및 제6,063,603호) 및 가닥 치환 증폭(strand displacement amplification)(21, 22)을 포함하지만, 이에 한정되지는 않는다. 사용 가능한 다른 증폭 방법들은 미국특허 제5,242,794, 5,494,810, 4,988,617호 및 미국 특허 제09/854,317호에 기술되어 있다.
본 발명의 가장 바람직한 구현예에서, 증폭 과정은 미국특허 제4,683,195호, 제4,683,202호 및 제4,800,159호에 개시된 PCR에 따라 실시된다.
PCR은 가장 잘 알려진 핵산 증폭 방법으로, 그의 많은 변형과 응용들이 개발되어 있다. 예를 들어, PCR의 특이성 또는 민감성을 증진시키기 위해 전통적인 PCR 절차를 변형시켜 터치다운(touchdown) PCR, 핫 스타트(hot start) PCR, 네스티드(nested) PCR 및 부스터(booster) PCR이 개발되었다. 또한, 멀티플렉스 PCR, 실시간(real-time) PCR, 분별 디스플레이 PCR(differential display PCR: DD-PCR), cDNA 말단의 신속 증폭(rapid amplification of cDNA ends: RACE), 인버스 중합효소 연쇄반응(inverse polymerase chain reaction: IPCR), 벡토레트(vectorette) PCR 및 TAIL-PCR(thermal asymmetric interlaced PCR)이 특정한 응용을 위해 개발되었다. PCR에 대한 자세한 내용은 McPherson, M.J., 및 Moller, S.G. PCR. BIOS Scientific Publishers, Springer-Verlag New York Berlin Heidelberg, N.Y. (2000)에 기재되어 있으며, 그의 교시사항은 본 명세서에 참조로 삽입된다. 본 발명에서 이용될 수 있는 목적 핵산분자는 특별하게 제한되지 않으며, 바람직하게는 DNA(gDNA 또는 cDNA) 및 RNA를 포함하며, 보다 바람직하게는 DNA를 포함한다. 또한, 목적 핵산은 예컨대, 원핵세포 핵산, 진핵세포(예컨대, 원생동물과 기생동물, 균류, 효모, 고등 식물, 하등 동물 및 포유동물과 인간을 포함하는 고등동물) 핵산, 바이러스(예컨대, 헤르페스 바이러스, HIV, 인플루엔자 바이러스, 엡스타인-바 바이러스, 간염 바이러스, 폴리오바이러스 등) 핵산 또는 비로이드 핵산을 포함한다.
본 발명에 이용되는 프라이머는 주형의 한 부위에 혼성화 또는 어닐링되어, 이중쇄 구조를 형성한다. 이러한 이중쇄 구조를 형성하는 데 적합한 핵산 혼성화의 조건은 Joseph Sambrook, 등, Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.(2001) 및 Haymes, B. D., 등, Nucleic Acid Hybridization, A Practical Approach, IRL Press, Washington, D.C. (1985)에 개시되어 있다.
다양한 DNA 중합효소(polymerase)가 본 발명의 증폭에 이용될 수 있으며, E. coli DNA 중합효소 I의 "클레나우" 단편, 열안정성 DNA 중합효소 및 박테리오파아지 T7 DNA 중합효소를 포함한다. 바람직하게는, 중합효소는 다양한 박테리아 종으로부터 얻을 수 있는 열안정성 DNA 중합효소이고, 이는 Thermus aquaticus(Taq), Thermus thermophilus(Tth), Thermus filiformis, Thermis flavus, Thermococcus literalis, Pyrococcus furiosus(Pfu), Thermus antranikianii, Thermus caldophilus, Thermus chliarophilus, Thermus flavus, Thermus igniterrae, Thermus lacteus, Thermus oshimai, Thermus ruber, Thermus rubens, Thermus scotoductus, Thermus silvanus, Thermus species Z05, Thermus species sps 17, Thermus thermophilus, Thermotoga maritima, Thermotoga neapolitana 및 Thermosipho africanus의 DNA 중합효소 및 Phusion 중합효소를 포함하며, 가장 바람직하게는 Pyrococcus furiosus(Pfu) 또는 Phusion High-Fidelity DNA 중합효소를 이용한다.
중합 반응을 실시할 때, 반응 용기에 반응에 필요한 성분들을 과량으로 제공하는 것이 바람직하다. 증폭 반응에 필요한 성분들의 과량은, 증폭반응이 성분의 농도에 실질적으로 제한되지 않는 정도의 양을 의미한다. Mg2+와 같은 조인자, dATP, dCTP, dGTP 및 dTTP를 소망하는 증폭 정도가 달성될 수 있을 정도로 반응 혼합물에 제공하는 것이 소망된다. 증폭 반응에 이용되는 모든 효소들은 동일한 반응 조건에서 활성 상태일 수 있다. 사실, 완충액은 모든 효소들이 최적의 반응 조건에 근접하도록 한다. 따라서, 본 발명의 증폭 과정은 반응물의 첨가와 같은 조건의 변화 없이 단일 반응물에서 실시될 수 있다.
본 발명에 있어서 어닐링은 타겟 뉴클레오타이드 서열(예컨대, 목적 올리고뉴클레오타이드의 공통적 플랭킹 서열)과 프라이머 사이에 특이적 결합을 가능하게 하는 엄격조건 하에서 실시된다. 어닐링을 위한 엄격조건은 서열-의존적이며 주위 환경적 변수에 따라 다양하다. 이렇게 증폭된 올리고뉴클레오타이드 풀을 이용하여 제1차 증폭산물들을 생성시키고 이를 이용하여 제2차 증폭산물들을 제조하여 보다 더 큰 목적 핵산분자(예컨대, 10 kb 이상의 핵산분자)로 어셈블리시킬 수 있다.
본 명세서에서 사용되는 용어 "프라이머"는 올리고뉴클레오타이드를 의미하는 것으로, 핵산쇄(주형)에 상보적인 프라이머 연장 산물의 합성이 유도되는 조건, 즉, 뉴클레오타이드와 DNA 중합효소와 같은 중합제의 존재, 그리고 적합한 온도와 pH의 조건에서 합성의 개시점으로 작용할 수 있다. 바람직하게는, 프라이머는 디옥시리보뉴클레오타이드이며 단일쇄이다. 본 발명에서 이용되는 프라이머는 자연(naturally occurring) dNMP(즉, dAMP, dGMP, dCMP 및 dTMP), 변형 뉴클레오타이드 또는 비-자연 뉴클레오타이드를 포함할 수 있다. 또한, 프라이머는 리보뉴클레오타이드도 포함할 수 있다.
프라이머는 중합제(예컨대, DNA 폴리머라제)의 존재 하에서 연장 산물의 합성을 프라이밍시킬 수 있을 정도로 충분히 길어야 한다. 프라이머의 적합한 길이는 다수의 요소, 예컨대, 온도, 응용분야 및 프라이머의 소스(source)에 따라 변화가 있지만 전형적으로 15-30 뉴클레오타이드이다. 짧은 프라이머 분자는 주형과 충분히 안정된 혼성 복합체를 형성하기 위하여 일반적으로 보다 낮은 온도를 요구한다.
본 명세서에서 사용되는 용어 "어닐링" 또는 "프라이밍"은 주형 핵산에 올리고디옥시뉴클레오타이드 또는 핵산이 병치(apposition)되는 것을 의미하며, 상기 병치는 중합효소가 뉴클레오타이드를 중합시켜 주형 핵산 또는 그의 일 부분에 상보적인 핵산 분자를 형성하게 한다. 본 명세서에서 사용되는 용어 "혼성화(hybridization)" 는 2개의 단일 가닥 핵산이 상보적인 염기 서열들의 페어링(pairing)에 의하여 이합체 구조(duplex structure)를 형성하는 것을 의미한다. 혼성화는 단일 가닥 핵산 서열 간의 상보성이 완전할 경우(perfect match) 일어나거나 일부 미스매치(mismatch) 염기가 존재하여도 일어날 수 있다. 혼성화에 필요한 상보성의 정도는 혼성화 반응 조건에 따라 달라질 수 있으며, 특히 온도에 의하여 조절될 수 있다.
본 명세서에서 언급되는 용어 "상보적(complementary)"은 어떤 특정한 혼성화(hybridization) 또는 어닐링 조건 하에서 상술한 뉴클레오티드 서열에 선택적으로 혼성화할 수 있을 정도의 상보성을 갖는 것을 의미하며, 실질적으로 상보적(substantially complementary) 및 완전히 상보적(perfectly complementary)인 것을 모두 포괄하는 의미를 가지며, 바람직하게는 완전히 상보적인 것을 의미한다.
도 1을 재참조하면, 단계 S120에서 상기 핵산 단편들을 바코드 서열들(barcode sequences)로 태깅(tagging)한다. 상기 바코드 서열들은 전 단계에서 제공된 핵산 단편들 중에서 오류없는 단편들 또는 기타 소망하는 단편들을 회수하거나 이들을 선택적으로 증폭하고 어셈블리하여 목적 핵산분자를 합성하기 위해 상기 핵산 단편들에 도입된다. 상기 바코드 서열은 상기 핵산 단편의 말단에 존재하는 공통적 플랭킹 서열에 부가될 수 있다.
상기 바코드 서열들은 상기 핵산 단편들에 부가되어 서로 다른 핵산 단편들을 구분할 수 있도록 하는 물질이라면 특별히 그 종류가 제한되는 것은 아니다. 각 핵산 단편들간의 구분을 위해 상기 바코드 서열들의 종류의 수는 상기 핵산 단편들의 종류의 수보다 많은 것이 바람직하다. 예를 들어 상기 바코드 서열들은 임의 또는 계획적으로 설계된 2종 이상의 올리고뉴클레오타이이드들의 혼합물일 수 있다.
본 발명의 일 구현예에 따르면, 상기 바코드 서열 중에서 폴리 N(poly N)의 degenerate-바코드 서열은 폴리 N(poly N)의 degenerate DNA 이외에도 당업계에 잘 알려진 컴퓨터 프로그램을 이용하여 임의적으로 만든 2개 이상의 다른 서열로 바코딩된 서열을 이용할 수도 있다.
또한, 상기 바코드 서열들의 태깅은 특별히 제한되지 않으나, PCR, 에멀젼 PCR 및 라이게이션(ligation)으로 이루어진 군 중에서 선택되는 어느 하나의 방법에 의해 수행될 수 있다. 예를 들어, 상기 바코드 서열을 PCR을 이용하여 샷건 합성된 DNA 단편에 어셈블리시키는 방법이나, 폴리 N(poly N)의 degenerate-바코드 서열을 포함한 ds(double strand)-DNA를 라이게이션(ligation)하는 방법이 사용될 수 있다.
도 5는 바코드 서열들로 핵산 단편들을 태깅하는 두 가지 과정을 나타낸 구현예들이다. 도 5의 (a)는 PCR을 이용한 바코드 태깅 과정을 나타내고, 도 5의 (b)는 라이게이션을 이용한 바코드 태깅 과정을 나타낸다.
단계 S130에서 상기 바코드 서열들로 태깅된 핵산 단편들의 서열을 확인한다. 상기 태깅된 핵산 단편들의 서열의 확인은 바람직하게는 병렬적 시퀀싱(parallel sequencing) 방법에 의해 수행될 수 있다. 그 결과 상기 태깅된 핵산 단편들의 서열을 태깅된 바코드 서열과 함께 확인할 수 있다.
본 발명의 일 구현예에 따르면, 본 발명의 상기 병렬적 시퀀싱 또는 고속 시퀀싱(high-throughput sequencing)은 당업계에 잘 알려진 고속 시퀀싱 방법에 의해 실시되며, 예를 들어 Roche-454 또는 기타 판독 길이가 100 bp 이상인 고속 시퀀싱 기기에 의해 실시될 수 있다.
본 발명의 일 구현예에 따르면, 본 발명의 바코드 서열에는 시퀀싱 어댑터 서열이 더 부가될 수 있다. 본 명세서에서 핵산 단편에 부가되는 바코드 서열을 포함하는 서열을 편의상 "바코드 프라이머"라고 명명한다.
본 명세서의 용어 "어댑터 서열"은 상기 핵산 단편의 고속 시퀀싱 분석을 가능하게 하는 서열로, 예를 들어 본 발명에서 이용된 454-시퀀싱을 위해 상업적으로 이용가능한 모든 서열을 포함한다. 바람직하게는, 본 발명의 어댑터 서열은 Roche-454 시퀀싱 플랫폼의 어댑터 서열 및 다른 종류의 차세대 시퀀싱 기술의 어댑터 서열을 포함하지만, 이에 한정되는 것은 아니다.
본 명세서의 용어 "공통적 플랭킹 서열"은 올리고뉴클레오타이드들의 풀에서 특정 올리고뉴클레오타이드들만을 선택적으로 증폭하기 위해 올리고뉴클레오타이드들의 양 말단에 부가된 염기서열이다. 목적 핵산분자로의 조립을 위해 필요한 서로 다른 올리고뉴클레오타이드들의 5'-말단에 부가된 염기서열들은 서로 동일하고, 서로 다른 올리고뉴클레오타이들의 3'-말단에 부가된 염기서열들은 서로 동일하다.
본 발명의 일 구현예에 따르면, 서열확인을 위해 상기 태깅된 핵산 단편들을 템플레이트로 하여 상기 어댑터 서열에 결합하는 프라이머를 이용한 증폭 과정이 수행될 수 있다.
상기 바코드 서열의 길이는 특별히 제한되지 않으며, 핵산 단편을 포함한 전체 서열에 대한 시퀀싱 성능을 고려하여 예를 들어 5-300 bp, 바람직하게는 10-100 bp, 보다 바람직하게는 12-40 bp, 보다 더 바람직하게는 15-30 bp일 수 있다. 시퀀싱 기술의 발전에 따라 상기 수치 범위는 변경될 수 있다. 예를 들어 폴리 N degenerate-바코드 서열의 길이가 20 bp일 경우 가능한 바코드 서열의 종류는 420 개가 될 수 있다.
상기 바코드 프라이머는 예를 들어 5' to 3' 방향으로 454-어댑터 서열, 폴리 N(poly N)의 degenerate-바코드 서열, 제한효소 절단 서열 및 공통적 플랭킹 서열을 포함할 수 있다. 증폭을 위해 사용되는 프라이머는 상기 454-어댑터 서열에 결합하도록 디자인할 수 있다.
상기 서열확인을 통해 상기 핵산 단편들 중 오류없는 핵산 단편들 및 이에 부가된 바코드 서열을 동정할 수 있다.
한편, 상기 바코드 프라이머 내에 포함된 제한효소 절단 서열은 핵산 단편들의 시퀀싱 어댑터 서열을 제거시키기 위한 것이다. 상기 어댑터 서열의 존재는 이후의 핵산 단편들의 어셈블리에 방해(시퀀싱분석 시 결합된 비드로 인한 방해)가 되기 때문이다.
단계 S140에서 상기 서열 확인된 핵산 단편들 중 소망하는 핵산 단편들을 상기 바코드 서열들을 이용하여 회수한다. 전 단계의 시퀀싱을 통해 소망하는 핵산 단편들과 이에 태깅된 바코드 서열들의 서열이 확인되었으므로 상기 바코드 서열들을 이용하여 소망하는 핵산 단편들을 회수할 수 있다. 구체적으로, 상기 회수 단계는 상기 바코드 서열들에 상응하는 프라이머들로 소망하는 상기 핵산 단편들을 선택적으로 증폭하여 회수하는 방식으로 수행될 수 있다. 또는 상기 회수 단계는 상기 바코드 서열들에 상응하는 올리고뉴클레오타이드들로 소망하는 상기 핵산 단편들을 선택적으로 혼성화하여 회수하는 방식으로 수행될 수 있다. 예를 들어 상기 소망하는 핵산 단편들은 오류없는 핵산 단편들일 수 있다.
소망하는 핵산 단편들의 회수를 위해 컴퓨터 프로그램이 이용될 수 있다. 구체적으로, 상기 핵산 단편들의 서열을 컴퓨터 프로그램을 이용하여 가상적으로 어셈블리시켜 소망하는 목적 핵산분자의 전체 서열과 비교한다. 이후, 가장 최적화된 DNA 단편에 플랭킹하는 서열 정보를 기반으로 합성한 프라이머 또는 이에 혼성화하는 프라이머를 이용함으로써 소망하는 핵산 단편들을 회수할 수 있다.
본 발명의 일 구현예에 따르면, 상기 컴퓨터 프로그램은 당업계에 알려진 컴퓨터 프로그램을 포함하며, 보다 바람직하게는 자체-제작된 파이선 프로그램(in-house python program), 및 Perl, C, C++, 또는 다른 프로그램 언어를 이용하여 제작된 프로그램을 포함한다.
본 발명의 일 구현예에 따르면, 컴퓨터 프로그램을 이용하여 선택된 바코드 서열에 상보적인 서열을 올리고로 합성한다. 다음 합성된 바코드 올리고를 이용한 증폭(PCR) 또는 혼성화(hybridization)를 통해 핵산 단편들(즉, 오류를 가진 단편들과 오류없는 단편들(error-free fragments)의 혼합물) 중, 목적 DNA의 합성을 최적화할 수 있는 오류없는 단편들만을 회수한다. 예를 들어, 상기 합성 바코드 서열을 이용한 오류없는 단편들을 획득하기 위한 방법은 PCR 이외에도, 마이크로 칩을 이용한 DNA 캡쳐 방법, 소망하는 바코드 서열을 바이오틴-비드(biotinylated beads), 또는 마그네틱 비드에 붙여서 소망하는 오류없는 단편들을 획득하는 방법 등과 같은 혼성화 방법을 포함하지만, 이에 한정되는 것은 아니다.
본 발명의 일 구현예에 따르면, 본 발명의 핵산 단편들이 샷건 어셈블리에 의해 제공될 경우 오류없는 바코딩된 핵산 단편들의 길이는 200 bp 이상일 수 있다. 또한, 차세대 시퀀싱의 길이가 1,000 bp가 넘는 DNA를 분석할 수 있는 기기를 사용한다면 오류없는 바코딩된 핵산 단편의 길이가 1,000 bp 이상이 될 수 있다. 보다 바람직하게는, 본 발명의 오류없는 바코딩된 핵산 단편들의 길이는 200 bp 내지 약 10 kb, 또는 그 이상일 수 있다.
단계 S150에서 회수된 핵산 단편들을 조립하여 긴 핵산분자를 형성할 수 있다.
본 발명의 일 구현예에 따르면, 본 발명의 목적 핵산분자(target nucleic acid molecule)는 목적 유전자(target gene), 목적 유전자 클러스터(target gene cluster), 타겟 유전체(target genome), 그리고 천연 또는 합성 핵산분자를 포함하지만 이에 한정되는 것은 아니다.
본 명세서의 용어 "목적 유전자 클러스터(target gene cluster)"또는 "목적 유전체(target genome)"는 소망하는 타겟(유전자)를 코딩하는 최소 2개 이상의 유전자를 포함하는 클러스터 또는 유전체를 의미하며, 상기 클러스터 또는 유전체는 2개 이상의 유전자 산물을 발생시킬 수 있는 클러스터 또는 게놈 부위(예컨대, 동일한 유전자의 최소 1개 이상의 다양한 스플라이싱 산물(multiple splicing products)을 포함하는 게놈 부위)를 포함할 수 있다.
본 발명의 일 구현예에 따르면, 본 발명의 방법에 의해 합성될 수 있는 목적 유전자 클러스터 또는 목적 유전체는 약 10 kb, 또는 그 이상의 길이를 가질 수 있으며, 예를 들어 페니실린 크리소제늄(Penicillium chrysogenum)으로부터 페니실린 생합성 유전자 클러스터 DNA 서열(11, 376 bp)을 포함하고, 상기 페니실린 생합성 유전자 클러스터는 pcbAB, pcbC 및 penDE 유전자를 포함할 수 있다.
본 명세서에서, 용어 "천연 또는 합성 핵산분자"는 DNA(gDNA 및 cDNA) 그리고 RNA 분자를 포괄적으로 포함하며, 핵산 분자에서 기본 구성 단위인 뉴클레오타이드는 자연의 뉴클레오타이드 뿐만 아니라, 당 또는 염기 부위가 변형된 유사체(analogue)도 포함한다(Scheit, Nucleotide Analogs, John Wiley, New York(1980); Uhlman 및 Peyman, Chemical Reviews, 90:543-584(1990)).
도 6은 바코드 태깅된 핵산 단편들의 풀로부터 소망하는 핵산 단편들을 회수하고 조립하여 긴 핵산분자를 형성하는 과정을 나타낸다. 본 발명의 일 구현예에 따르면 핵산분자는 이하의 방법으로 제조될 수 있다.
(a) 목적 핵산분자의 전체 서열의 적어도 일부를 구성하는 핵산 단편들을 제공한다. 이때 상기 (a) 단계의 핵산 단편들의 크기는 20 내지 300 bp일 수 있다.
(b) 상기 핵산 단편들을 조립하여 병렬적 시퀀싱(parallel sequencing) 기술로 서열 확인 가능한 크기의 중간체들을 합성한다. 상기 중간체들의 크기는 특별히 제한되는 것은 아니지만 예를 들어 상기 중간체들의 크기는 50 내지 3,000 bp일 수 있다. 차세대 시퀀싱 기술과 같은 병렬적 시퀀싱 기술의 발전에 따라 상기 크기는 얼마든지 증가할 수 있다.상기 중간체들의 합성은 계층적 합성 방식 또는 임의적 합성(샷건 합성) 방식을 포함한 다양한 합성 방식에 의해 수행될 수 있다.
(c) 상기 중간체들을 바코드 서열들(barcode sequences)로 태깅(tagging)한다. 바람직하게는 서열 확인을 위해 상기 바코드 서열에 시퀀싱 어댑터 서열이 부가될 수 있다.
(d) 상기 바코드 서열들로 태깅된 중간체들의 서열을 확인한다. 상기 (d) 단계의 태깅된 중간체들의 서열의 확인은 병렬적 시퀀싱 기술에 의해 수행될 수 있다. 상기 (c) 단계와 상기 (d) 단계 사이에 상기 시퀀싱 어댑터 서열을 이용하여 상기 태깅된 핵산 단편들을 증폭하는 단계를 더 포함할 수 있다.
(e) 상기 서열 확인된 중간체들 중 소망하는 중간체들을 상기 바코드 서열들을 이용하여 회수한다. 상기 (e) 단계의 소망하는 중간체들은 오류없는 서열을 가질 수 있다.
(f) 상기 회수된 중간체들을 조립하여 긴 핵산분자들을 형성한다. 이때 상기 긴 핵산분자들의 크기는 1,000 bp 이상일 수 있다.
도 7은 거대 목적 DNA 분자들을 얻기 위해 많은 올리고뉴클레오타이드들이 샷건 합성에 동시적으로 이용될 수 있음을 보여주는 개략도이다. 약 200개의 올리고뉴클레오타이드들을 이용한 샷건 합성은 100 bp(올리고뉴클레오타이드들의 모노머 형태) 내지 1,000 bp의 다양한 크기의 임의적인 단편들을 초래할 수 있다. 중간형태의 어셈블리 단편들은 고속 시퀀싱을 위한 degenerate 프라이머들에 의해 효과적으로 바코딩된다. 서열-확인된 단편들은 이후 어셈블리 과정에 이용된다.
도 7을 참조하면, 먼저 칩으로부터 올리고뉴클레오타이드를 제조한다. 본 발명의 올리고뉴클레오타이드들은 제IIS형 제한효소 위치(EarI 또는 BtsI)와 플랭킹 서열을 가지도록 디자인되어 DNA 마이크로어레이 칩 상에 합성된다. 칩으로부터 올리고뉴클레오타이드들을 절단한 후, 본 발명자들은 상기 올리고뉴클레오타이드들의 농도를 증가시키기 위해 PCR 증폭을 실시한다. 증폭된 올리고뉴클레오타이드들은 제IIS형 제한효소로 절단하여 플랭킹 서열을 제거한다. 상기 제한효소들의 효율이 100%가 아니기 때문에, 여전히 절단되지 않은 플랭킹 서열들이 존재한다. 상기 절단되지 않은 플랭킹 서열을 이용한 샷건 DNA 어셈블리 PCR을 실시하여 목적 유전자들의 임의적인 단편들을 합성한다. 합성된 임의적인 단편들에 대해 고속 시퀀싱 기술로 상기 서열을 분석하기 위해, 상기 바코드 프라이머를 이용한 PCR을 실시하여 합성된 단편들에 태깅한다. 상기 PCR 산물들은 454 고속 시퀀싱되어 자체-제작된 파이선 프로그램을 이용한 분석을 통해 오류없는 유전자 단편들 및 연결된 바코드 서열을 동정한다. 오류없는 유전자 단편을 회수하기 위해, 바코드 서열에 대한 프라이머를 이용하여 샷건 어셈블리된 유전자 단편들의 풀로부터 PCR을 실시한다. 제IIS형 제한효소 절단을 통해 회수된 단편들로부터 degenerate 바코드 서열 및 플랭킹 서열을 제거시킨 후, 상기 오류없는 유전자 단편들을 최종적으로 어셈블리시켜 완전한 길이의 목적 유전자를 합성한다.
도 8은 각 단계에서 생산되는 PCR 산물을 보여주는 결과이다. 도 8a는 칩 플랭킹 프라이머를 이용한 두 번째 라운드 PCR에 의해 생산된 PCR 산물을 나타낸다. 도 8b는 제IIS형 제한효소로 절단된 PCR 산물을 4% 아가로오스 젤에 전기영동한 결과이다. 지시된 2개의 밴드들이 절단되어 젤-정제되었다. 도 8c는 칩 플랭킹 프라이머에 의해 증폭된 도 8b의 Pen 유전자 클러스터 단편들을 이용하여 임의적으로 어셈블리된 PCR 산물의 퍼진 밴드(smear bands)를 보여준다. 상기 퍼진 밴드가 절단되어 젤-정제되었다. 도 8d는 칩 플랭킹 프라이머를 이용하여 도 8c의 흰색 박스 내 밴드들을 재-증폭한 PCR 산물을 나타낸다. 흰색 박스 내 밴드들이 절단되어 젤-정제되었다. 도 8e는 바코드 프라이머를 이용하여 실시한 PCR로부터 제조된 퍼진 밴드들을 보여준다. 흰색 박스 내 퍼진 밴드들이 절단되어 젤-정제되었다. 도 8f는 도 8e의 밴드로부터 얻어진 산물을 100배 희석한 후 454-어댑터 프라이머를 이용하여 증폭된 산물을 나타낸다. 이때, 도 8e의 밴드로부터 얻어진 산물의 농도가 너무 높으면 PCR이 제대로 이루어지지 않는다. 상기 증폭산물을 절단하여 정제한 후 농도를 희석하여, TOPO 벡터에 클로닝하고 Roche-454 시퀀싱을 의뢰하였다. 도 8g는 상기 PCR로부터 생산된 daughter 단편 11-d을 degenerate 서열을 포함하는 프라이머로 PCR 증폭한 산물을 나타내는 결과이다.
도 8h는 도 8g에서 보여지는 밴드들을 제IIS형 제한효소로 절단시켜 제조된 3개의 밴드들을 보여준다. 도 8i는 도 8h에 보여지는 밴드 및 다른 daughter 단편들을 어셈블리시켜 제조된 단편 11을 보여주는 결과이다(화살표). 도 8j는 11개의 단편을 어셈블리하여 최종적으로 유전자 클러스터 합성물을 보여주는 결과이다.
도 9는 샷건 합성에 대한 454 시퀀싱 데이터를 컴퓨터 프로그램을 이용하여 분석한 결과이다. 도 9a는 유전자 단편의 길이 증가에 따른 454 시퀀싱 판독(reads)의 수를 나타내는 결과이다. 위쪽 및 아래쪽 라인은 각각 총 454 시퀀싱 판독(total reads) 및 오류없는 단편의 판독(correct reads)을 나타낸다. 가장 풍부한 판독 및 올바른 판독의 수는 바코딩 부위를 포함하는 약 400 bp(전형적으로, 바코딩 플랭킹 부위를 제외하면 약 300 bp)라는 것을 보여준다. 하지만, 도 9a의 안쪽 그래프는 유전자 단편의 길이가 증가할수록 오류없는 유전자 단편들의 퍼센트(%)가 감소하는 경향을 가진다는 것을 나타낸다. 도 9b는 두 개의 독립적인 실험(1차 실험 및 2차 실험)에 대한 컴퓨터 분석 결과로, 플랭킹 서열을 제거한 후 도식적으로 정렬된 오류없는 유전자 단편들을 나타낸다. 그래프 위쪽의 첫째 화살표(아디페이트-활성화 도메인), 둘째 화살표(시스테인- 활성화 도메인) 및 세째 화살표(발린-활성화 도메인)는 유전자 클러스터를 나타낸다. Y축은 타겟 유전자의 일부에 상응하는 오류없는 유전자 단편의 수를 의미하며, 왼쪽 하단 및 오른쪽 상단의 막대 바(scale bar)는 각각 100 bp의 단편들 및 1,000 bp의 염기쌍을 나타낸다. 도 9c는 계층적 shotgun 합성 결과를 보여준다. 최적화하여 선택된 약 300 bp의 유전자 단편들이 약 1,000 bp의 유전자 단편들으로 어셈블리된 후, 타겟 유전자(페니실린 합성 유전자 클러스터(N-(5-amino-5-carboxypentanoyl)-L-cysteinyl-D-valine synthase); 약 11.4 kb)로 연속적으로 합성되었다.
지금까지 상술한 본 발명의 구현예들에 따르면 본 발명은 다음과 같은 이점들을 제공한다.
본 발명은 거대 목적 핵산분자를 보다 경제적이고 효율적으로 합성하는 확장가능한(scalable) 방법을 제공한다. 본 발명의 방법은 정교하게 디자인된 목적 올리고뉴클레오타이드 풀을 이용하여 목적 핵산서열을 포괄하는 증폭산물을 제조하고, 이를 바코드 서열로 선택적으로 300-500 bp의 오류없는(error-free) shotgun 어셈블리 단편들을 수득하여 이를 이용하여 보다 더 거대한 목적 핵산분자(예컨대, 약 10 kb 이상)를 합성할 수 있다. 또한, 본 발명의 방법을 통한 유전자 합성 비용은 레진-기반된 올리고뉴클레오타이드를 이용한 종래 방법에 비해 매우 저렴하다. 따라서, 본 발명은 거대 목적 핵산분자를 합성하는 신규한 방법으로서 적용될 수 있을 뿐 아니라, 이에 따른 유전자 합성 비용을 현저하게 감소시킬 수 있는 매우 우수한 수단을 제공한다.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.
실시예
실험재료
DNA 정제 키트(AccuPrepTM gel purification kit) 및 플라스미드 추출 키트(AccuPrepTM plasmid extraction kit)는 바이오니아(한국)로부터 구매하였다. Pfu 및 Taq 폴리머라제 프리-믹스는 SolGent 사(한국)로부터 구매하였다. Phusion 폴리머라제 프리-믹스, 제한효소들[EarI(20,000 U/ml) 및 BtsI(10,000 U/ml], NEB 완충액 4(10) 및 컴피턴트 세포(C-2566)은 NEB(New England Biolabs, 미국)로부터 구매하였다. TOP ClonerTM Blunt core kits(6 TOP cloner buffer, sterile water, pTop blunt V2)는 Enzynomics(한국)으로부터 구매하였다. 마이크로칩 올리고뉴클레오타이드 및 프라이머들은 각각 Agilent 사(미국) 및 마크로젠(한국)로부터 구매하였다. Sanger 시퀀싱 및 Roche-454 시퀀싱은 Macrogene(한국)에 의뢰하여 실시하였다.
목적 페니실린 생합성 유전자 클러스터 서열 및 올리고뉴클레오타이드 서열 디자인
페니실린 크리소제늄(Penicillium chrysogenum)으로부터 페니실린 생합성 유전자 클러스터(N-(5-amino-5-carboxypentanoyl)-L-cysteinyl-D-valine synthase) DNA 서열(11, 376 bp)이 합성 모델로 선택되었다. 코돈-최적화된 페니실린 생합성 유전자 클러스터 서열이 웹-기반된 프로그램인 Optimizer(Puigb, P. et al., 2007)를 이용하여 디자인되었다. 24개의 뉴클레오타이드 서열(5-GCAGAGTAAAGACCGTGCACTTAT-3)이 마이크로칩 올리고뉴클레오타이드에 첨가되었다.
Agilent 칩 올리고뉴클레오타이드의 길이는 플랭킹 서열 및 타겟 DNA 서열로 구성된 150개의 뉴클레오타이드였다. 각각 114개의 플러스(+) 및 마이너스(-) 가닥 올리고뉴클레오타이드들이 타겟 DNA 서열을 위해 어닐링 동안 DNA 어셈블리를 위한 중첩하는 부위를 포함하는 상보적인 올리고뉴클레오타이드들을 포함하도록 디자인되었다. 상기 228개의 올리고뉴클레오타이드 서열은 공통적 PCR 프라이머 서열에 의해 플랭킹되었다.
Agilent 마이크로칩 올리고뉴클레오타이드 서브-풀의 프로세싱
동결건조된 Agilent 마이크로칩 올리고뉴클레오타이드는 100 ㎕의 물에 현탁되었다. 본 발명자들은 플랭킹 프라이머를 이용한 PCR 증폭을 통해 더 높은 농도의 마이크로칩 올리고뉴클레오타이드 서브-풀(페니실린 생합성 유전자 클러스터를 타겟팅하는 228개의 올리고뉴클레오타이드들)을 제조하였다. 각 PCR 시약의 양은 다음과 같았다: 8 ㎕의 물, 10 ㎕의 2 Pfu 폴리머라제 프리-믹스, 0.5 ㎕의 절단된 올리고뉴클레오타이드 풀 및 1 ㎕의 정방향 및 역방향 프라이머(10 μM). 첫 번째 PCR 조건은 다음과 같이 실시하였다: (a) 전변성 단계, 95℃에서 3분; (b) 95℃에서 30초, 55℃에서 30초 및 72℃에서 1분으로 이루어진 20 사이클 의 PCR 단계; 및 (c) 최종 연장 단계, 72℃에서 10분. 이후 올리고들을 증폭하기 위해, 본 발명자들은 첫 번째 PCR로 증폭된 PCR 산물을 템플레이트로 다시 PCR 반응을 실시하였다. 각 PCR 시약의 양은 다음과 같았다: 18 ㎕의 물, 25 ㎕의 2 Pfu 폴리머라제 프리-믹스, 3 ㎕의 첫 번째 PCR 산물 및 2 ㎕의 정방향 및 역방향 프라이머(10 μM). 2차 PCR 조건은 12 사이클의 PCR 단계를 이용하는 것을 제외하고 상술한 조건과 동일하였다. 소망하는 산물을 4% 아가로오스 젤 전기영동으로 확인한 후, 제한효소 절단을 다음과 같이 실시하였다: EarI을 이용하는 경우, 2.5 ㎕의 EarI, 5 ㎕의 NEB 완충액, 0.5 ㎕의 100× BSA 및 50 ㎕의 PCR 산물을 혼합하여 37 ℃에서 3시간 동안 절단; 및 BtsI을 이용하는 경우, 2.5 ㎕의 BtsI, 5 ㎕의 NEB 완충액, 0.5 ㎕의 100× BSA 및 50 ㎕의 PCR 산물을 혼합하여 55℃에서 3시간 동안 절단. 이후, 절단 산물은 4% 아가로오스 젤 전기영동하여 젤-정제되었다.
Shotgun 어셈블리
젤-정제된 산물들은 첫 번째 라운드 샷건 어셈블리 PCR을 이용하여 어셈블리하였다. 각 PCR 시약의 양은 다음과 같았다: 20 ㎕의 Pfu 폴리머라제 프리-믹스 및 20 ㎕의 정제된 산물(228개의 마이크로칩 올리고뉴클레오타이드들의 서브-풀). 이때, PCR 조건은 다음과 같았다: (a) 전변성 단계, 95℃에서 3분; (b) 95℃에서 30초, 60℃에서 30초 및 72℃에서 1분으로 이루어진 36 사이클의 PCR 단계; 및 (c) 최종 연장 단계, 72℃에서 10분. 1.5% 아가로오스 젤 전기영동 후, 본 발명자들은 300 bp 내지 500 bp의 젤 부위(타겟 크기 = 약 350 bp)를 절단하였다.
바코딩 및 454 시퀀싱에 의한 shotgun 어셈블리 산물들의 프로세싱
상세 과정은 도 7에 예시되어 있다. 젤-정제된 shotgun 어셈블리 단편들은 PCR용 플랭킹 프라이머로 증폭하였다. 상기 PCR에 이용된 각 시약의 양은 다음과 같다: 10 ㎕의 물, 25 ㎕의 Pfu 폴리머라제 프리-믹스, 10 ㎕의 정제된 shotgun 어셈블리 단편 및 각각 2.5 ㎕의 정방향 및 역방향 프라이머. 상기 PCR 조건은 다음과 같았다: (a) 전변성 단계, 95℃에서 3분; (b) 95℃에서 30초, 55℃에서 30초 및 72℃에서 1분으로 이루어진 18 사이클의 PCR 단계; 및 (c) 최종 연장 단계, 72℃에서 10분. 그 결과, 300 bp와 450 bp 사이의 밴드들이 절단되어 AccuPrepTM DNA 정제키트(바이오니아, 한국)를 이용하여 정제되었다.
각 단편들은 5' to 3' 방향으로 454 DNA 시퀀싱-어댑터 서열, 454 고속 시퀀싱 핵심 서열(high-throughput sequencing key sequence; 예컨대, 5-TCAG-3), 20 mer(폴리 N)의 degenerate 프라이머 위치, EcoP15I 제IIS형 효소 위치 및 플랭킹 프라이머 서열을 포함하는 프라이머 쌍으로 바코딩되었다. 이때, EarI 또는 BtsI 위치는 칩 올리고뉴클레오타이드의 플랭킹 서열의 3' 말단에 위치하고 EcoP15I 위치는 바코딩된 프라이머를 이용한 단편들의 shotgun 어셈블리용 PCR 증폭과정에 도입되었다. PCR에 이용된 각 시약의 양은 다음과 같다: 6 ㎕의 물, 20 ㎕의 Pfu 폴리머라제 프리-믹스, 10 ㎕의 상기 어셈블리된 유전자 단편 풀 및 각각 2 ㎕의 정방향 및 역방향 바코드 프라이머. PCR 조건은 다음과 같았다: (a) 전변성 단계, 95℃에서 3분; (b) 95℃에서 30초, 55℃에서 30초 및 72℃에서 1분으로 이루어진 18 사이클의 PCR 단계; 및 (c) 최종 연장 단계, 72℃에서 10분. 본 발명자들은 1.5% 아가로오스 젤 전기영동 후 젤을 절단하여 어셈블리된 단편들(450-600 bp)을 정제하였다. 상기 정제된 단편들을 100배 희석하여 454 DNA 시퀀싱-어댑터 프라이머(Macrogene, 한국)를 이용하여 최종적으로 PCR 증폭하였다. 상기 PCR에 이용된 각 시약의 양은 다음과 같다: 17.5 ㎕의 물, 25 ㎕의 Pfu, 2.5 ㎕의 100배-희석된 젤-정제된 산물 및 각각 2.5 ㎕의 정방향 및 역방향 프라이머. 상기 20 ㎕의 PCR 반응물은 서로 독립적으로 8개의 복제물(replicates)로 실시하였다. 상기 PCR 조건은 다음과 같았다: (a) 전변성 단계, 95℃에서 3분; (b) 95℃에서 30초, 71℃에서 30초 및 72℃에서 1분으로 이루어진 25 사이클의 PCR 단계; 및 (c) 최종 연장 단계, 72℃에서 10분. 이후, 1.5% 아가로오스 젤 전기영동 후 젤 정제(450-500 bp)되었다. 상기 복제물들은 454 시퀀싱 전에 서로 풀링되었다.
454 시퀀싱 전에, 본 발명자들은 바코딩된 타겟 유전자 단편들을 클로닝하여 다수의 콜로니들을 선택하여 Sanger 시퀀싱을 통해 확인하였다: 젤-정제된 바코딩된 산물들을 TOP ClonerTM Blunt core kits(Enzynomics, 한국)를 이용하여 TOPO 벡터에 클로닝하였다. 이후, 클론된 산물들을 대장균 스트레인인 NEB c-2566(New England Biolabs, 미국) 컴피턴트 세포로 형질전환시켜 아가 플레이트에서 하룻밤 동안 37℃에서 배양하였다. 본 발명자들은 성장한 콜로니를 여러 개 선택하여 M13F-pUC 및 M13R-pUC 유니버셜 프라이머 쌍을 이용하여 콜로니 PCR을 실시하였다. 인서트 DNA를 확인한 후, Roche-454 시퀀싱 전에 Sanger 시퀀싱을 의뢰하여 확인하였다. 이후, 본 발명자들은 Lasergene(DNAstar, Madison, WI)을 이용하여 유전자 단편 및 바코드 프라이머의 서열을 확인하였다. 상기 서열을 확인한 후, 본 발명자들은 Roche-454 고속 시퀀싱을 위해 어셈블리 PCR 산물의 풀을 선택하였다. 본 발명자들은 상기 시퀀싱 테이터를 자체-제작한 파이선 프로그램(in-house python program)을 통해 분석하여 오류없는(error-free) 유전자 단편들을 선택하였다.
454 고속 시퀀싱의 분석을 위한 자체-제작한 파이선 프로그램(inhouse python program)의 알고리즘
컴퓨터 프로그램의 주요 목적은 향후 어셈블리 과정에 이용될 수 있는 오류없는 shotgun 어셈블리 산물을 선택하는 것이다. 454 시퀀싱 판독 결과(454 reads)는 자체-제작한 파이선 프로그램밍 언어를 이용하여 목적(target) 유전자인 페니실린 생합성 유전자 클러스터 서열을 타겟하도록 정렬되었다. 시퀀싱 데이터의 높은 퀄리티 스코어(30 이상의 Phred-유사 일치도(consensus quality); 99.9% 이상의 베이스-콜 정확성)로 판독함으로써, 본 발명자들은 판독 단편의 양 말단에 존재하는 소망하는 제한효소 위치(즉, EcoP15I, EarI 및 BtsI 중 하나)를 포함하는 DNA 단편들을 선택하였다. 상기 프로세싱된 유전자 단편들로부터 제한효소 위치를 포함하는 플랭킹 서열을 제거하고 상기 플랭킹 서열-제거된 내부 서열을 타겟 페니실린 생합성 유전자 클러스터 서열과 정렬하였다. 상기 내부 서열이 레퍼런스 서열과 완벽하게 일치하는 경우에, 상기 내부 서열이 타겟 유전자 클러스터 서열에 도식적으로 나열되었다(도 9b). 이후, 상기 프로그램은 이후의 어셈블리 과정에 필요한 다른 단편들과 15 bp 이상 중첩되는 최적의 내부 서열 세트를 결정하여 준다.
상기 선택된 유전자 단편들은 완전한 타겟 유전자로 재결합된다(도 9c). 파이선 프로그램에 포함된 모든 분석 스크립트들은 요청에 따라 자유롭게 이용 가능하다.
타겟 어셈블리 산물로부터 타겟 유전자 클러스터의 합성
소망하는 shotgun 어셈블리 산물의 증폭 및 상기 shotgun 어셈블리 산물로부터 플랭킹 서열의 제거
상술한 바와 같이, 본 발명자들은 최적 세트의 shotgun 어셈블리 산물을 선택하기 위해 자체-제작된 파이선 프로그램을 이용하였다. 상기 중첩하는 오류없는 DNA 단편들이 선택된 바코딩된 프라이머 쌍을 이용하여 shotgun 어셈블리 DNA 혼합물로부터 선택적으로 증폭되었다. 상기 증폭에 이용된 각 시약의 양은 다음과 같다: 8 ㎕의 물, 10 ㎕의 Phusion 폴리머라제 프리-믹스, 1 ㎕의 정방향 및 역방향 바코드 프라이머, 그리고 1 ㎕의 shotgun 어셈블리 DNA 혼합물.
PCR 조건은 다음과 같았다: (a) 전변성 단계, 95℃에서 3분; (b) 95℃에서 30초, 60℃에서 30초 및 72℃에서 1분으로 이루어진 30 사이클의 PCR 단계; 및 (c) 최종 연장 단계, 72℃에서 10분. 상기 바코드 프라이머는 하기 표 1 내지 표 7에 기재되어 있다.
[표 1]
오류없는 단편을 획득하기 위한 PCR에 이용된 degenerate 프라이머의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-123
[표 2]
오류없는 단편을 획득하기 위한 PCR에 이용된 degenerate 프라이머의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-127
[표 3]
오류없는 단편을 획득하기 위한 PCR에 이용된 degenerate 프라이머의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-131
[표 4]
[규칙 제91조에 의한 정정 25.09.2012] 
오류없는 단편을 획득하기 위한 PCR에 이용된 degenerate 프라이머의 서열.
Figure WO-DOC-FIGURE-134
[표 5]
오류없는 단편을 획득하기 위한 PCR에 이용된 degenerate 프라이머의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-138
[표 6]
오류없는 단편을 획득하기 위한 PCR에 이용된 degenerate 프라이머의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-142
[표 7]
오류없는 단편을 획득하기 위한 PCR에 이용된 degenerate 프라이머의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-146
소망하는 PCR 증폭 산물 서열은 하기 표 8 내지 표 19에 기재되어 있다.
[표 8]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-151
[표 9]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-155
[표 10]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-159
[표 11]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-163
[표 12]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-167
[표 13]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-171
[표 14]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-175
[표 15]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-179
[표 16]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-183
[표 17]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-187
[표 18]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-191
[표 19]
PCR 회수 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-195
상기 소망하는 PCR 증폭 산물을 아가로오스 젤에 전기영동하여 소망하는 크기의 밴드를 절단하여 젤 정제 키트(AccuPrepTM gel purification kit; 바이오니아, 한국)로 DNA를 정제하였다. 약 1,000 bp의 DNA 서열을 구축하기 위해, 젤-정제된 3-8개의 유전자 단편들을 풀링(pool)하였다. 각 풀에서 제한효소 절단을 다음과 같이 실시하였다: EarI 또는 EcoP15I을 이용하는 경우, 2 ㎕의 EarI 또는 EcoP15I, 5 ㎕의 NEB 완충액, 0.5 ㎕의 100× BSA, 10 ㎕의 물 및 30 ㎕의 정제된(및 풀링된) DNA 단편을 혼합하여 37℃에서 3시간 동안 절단(EcoP15I의 경우, 10 ATP가 추가적으로 첨가되었음); 및 BtsI을 이용하는 경우, 2 ㎕의 BtsI, 5 의 NEB 완충액, 0.5 ㎕의 100× BSA, 10 ㎕의 물 및 30 ㎕의 PCR 산물을 혼합하여 55 ℃에서 3시간 동안 절단. 이후, 절단 산물은 1.5% 아가로오스 젤에 전기영동하여 예상된 밴드(daughter 단편, 300 bp; 도 8h)를 얻었다. 절단 후, 예상되는 DNA 단편 서열들(제IIS형 제한효소 절단 또는 오류-수정(error-correction) PCR로 생성된 결과물)은 표 20 내지 표 28에 기재되어 있다.
[표 20]
제IIS형 제한효소 절단 또는 네스티드 PCR 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-200
[표 21]
제IIS형 제한효소 절단 또는 네스티드 PCR 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-204
[표 22]
제IIS형 제한효소 절단 또는 네스티드 PCR 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-208
[표 23]
제IIS형 제한효소 절단 또는 네스티드 PCR 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-212
[표 24]
제IIS형 제한효소 절단 또는 네스티드 PCR 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-216
[표 25]
제IIS형 제한효소 절단 또는 네스티드 PCR 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-220
[표 26]
제IIS형 제한효소 절단 또는 네스티드 PCR 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-224
[표 27]
제IIS형 제한효소 절단 또는 네스티드 PCR 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-228
[표 28]
제IIS형 제한효소 절단 또는 네스티드 PCR 후 얻어진 daughter 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-232
플랭킹 서열-제거된 shotgun 어셈블리 산물을 이용한 1 kb DNA 합성을 위한 네스티드 PCR
본 발명자들은 플랭킹 서열-제거된 shotgun 어셈블리 산물들을 어셈블리시켜 11개의 유전자 클러스터 단편들(645-1,325 bp)을 제조하였다. 타겟 DNA 서열들은 표 29 내지 표 31에 기재되어 있다.
[표 29]
본 발명의 방법에 따라 제조된 11개의 유전자 클러스터 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-239
[표 30]
본 발명의 방법에 따라 제조된 11개의 유전자 클러스터 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-243
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-244
[표 31]
본 발명의 방법에 따라 제조된 11개의 유전자 클러스터 단편들의 서열.
[규칙 제91조에 의한 정정 25.09.2012] 
Figure WO-DOC-FIGURE-248
상기 11개의 유전자 클러스터 단편들은 다음을 이용하여 구축되었다(도 8i): 3 ㎕의 물, 10 ㎕의 Phusion 폴리머라제 프리-믹스(NEB, MA), 1 ㎕의 정방향 및 역방향 프라이머, 그리고 5 ㎕의 플랭킹 서열-절단된 shotgun 어셈블리 DNA 단편. 상기 약 1 kb DNA 단편들은 TOP ClonerTM Blunt core kits(Enzynomics, 한국)를 이용하여 TOPO 벡터에 클로닝되어 Sanger 시퀀싱하였다. 본 발명자들은 몇 개의 콜로니를 선택하여 M13 프라이머 쌍(M13F-pUC 및 M13R-pUC 유니버셜 프라이머 쌍)을 이용하여 콜로니 PCR을 실시하였다. 본 발명자들은 Lasergene(DNAstar, Madison, WI) 프로그램을 이용하여 DNA 시퀀싱 데이터를 분석하였다.
플랭킹 서열-제거된 shotgun 어셈블리 산물을 이용한 11.4 kb 유전자 클러스터의 네스티드 PCR 어셈블리
본 발명자들은 11개의 약 1 kb 단편들을 이용한 네스티드 PCR 방법을 이용하여 타겟 페니실린 생합성 유전자 클러스터의 전장 길이를 제조하였다.
상기 PCR은 프라이머를 포함하지 않고 11개의 약 1 kb 단편들(각 1 ㎕) 및 15 ㎕의 Phusion 폴리머라제 프리-믹스(NEB, MA)를 이용하여 다음과 같이 실시하였다: (a) 전변성 단계, 95℃에서 3분; (b) 95℃에서 30초, 70℃에서 30초 및 72℃에서 3분 30초로 이루어진 10 사이클의 PCR 단계; 및 (c) 최종 연장 단계, 72℃에서 5분.
또한, 상기 혼합물(약 1 kb 단편들(각 1 ㎕) 및 15 ㎕의 Phusion 폴리머라제 프리-믹스)에 제한효소 절단 서열(BglII 또는 NotI)을 포함하는 프라이머 쌍(각 1 ㎕)을 첨가하여 PCR(25 사이클 이상)을 실시하여 그 산물을 클로닝에 이용하였다.
젤 전기영동 후, 본 발명자들은 소망하는 크기의 밴드를 절단하여 DNA를 정제하였다. 본 발명자들은 BglII 및 NotI 제한효소를 이용하여 상기 산물들을 pBK3 벡터(Kim, H., et al., 2010)에 클로닝하여 대장균 스트레인인 C2566 컴피턴트 세포에 형질전환시켰다. 하룻밤 동안 37℃에서 배양시킨 후, 수 개의 콜로니들을 선택하여 콜로니 PCR을 실시하여 소망하는 DNA 인서트 크기가 삽입된 pBK3 벡터를 포함하는 콜로니를 스크리닝하였다. 몇 개의 콜로니들을 LB 배지에서 배양하여 플라스미드 추출 키트(AccuPrepTM plasmid extraction kit; 바이오니아, 한국)를 이용하여 플라스미드를 추출하였다. 추출된 플라스미드를 시퀀싱 의뢰하였다. 본 발명자들은 Lasergene 프로그램(DNAstar, Madison, WI, 미국)을 이용하여 시퀀싱 데이터를 분석하였다.
실험결과 및 논의
고속 DNA 구축을 위한 일련의 장애들(challenges)을 해결하기 위해, 본 발명자들은 shotgun DNA 합성 기술을 개발하였다. 본 발명자들은 페니실린 생합성 유전자 클러스터[N-(5-amino-5-carboxypentanoyl)-L-cysteinyl-D-valine synthase; 11,376bp]를 위한 228개의 올리고뉴클레오타이드를 디자인하였다. 칩 올리고뉴클레오타이드들은 공통적인 플랭킹 서열을 포함하도록 디자인되어 55 K Agilent DNA 마이크로칩으로부터 절단되었다. 본 발명자들은 플랭킹 서열을 이용하여 선택적 증폭을 실시하고 제IIS형 제한효소를 이용하여 증폭 프라이머 서열을 제거하여 칩 올리고뉴클레오타이드의 서브-풀을 얻었다(도 8a 및 8b).
본 발명의 방법의 성공에 있어서 중요 포인트는 이질적인 어셈블리 산물을 생산하기 위해 올리고뉴클레오타이드 풀이 one-pot에서 shotgun 어셈블리될 수 있으며, 상기 산물들이 고속 시퀀싱에 의해 동정될 수 있다는 예측에 기반한다. 이에, 본 발명자들은 shotgun DNA 합성을 위해 적어도 일 말단이 절단된 올리고 뉴클레오타이드들을 이용하였다. 예상한 바와 같이, 100-1,000 bp 길이의 매우 이질적인(heterogeneous) DNA 단편들을 생산하였다(도 8c). 본 발명자들은 아가로오스 젤 전기영동을 통해 매우 이질적인 DNA 단편들로부터 300-500 bp 부위에 상응하는 DNA를 분리하였다. 상술한 DNA 단편들의 크기 범위는 현재 454 고속 시퀀싱 판독 길이(read length)의 한계(약 400-500 bp)를 고려하여 결정되었다.
다음으로, 본 발명자들은 고속 시퀀싱 기술을 이용하여 임의적 단편 조성물의 동정방법 및 전체 DNA 단편 풀로부터 서열-검증된 오류없는 단편(sequence validated error-free fragments)을 얻기 위한 방법을 개발하는 데 주안점을 두었다(도 7). 상술한 목적을 달성하기 위해, 본 발명자들은 바코드 프라이머 서열을 이용한 증폭을 통해 바코드 태깅된 DNA 단편을 젤 정제하였다(도 8). 본 발명자들은 상기 DNA 단편들이 양 말단에 공통적인 플랭킹 서열을 포함할 것으로 추측하였다. 그 이유는 다음과 같다: 증폭된 칩 올리고뉴클레오타이드들의 플랭킹 서열 절단의 효율은 100%에 이를 수 없다. 그 결과, 양 말단이 모두 절단되지 않은 칩 올리고뉴클레오타이드에서 플랭킹 서열은 DNA 어셈블리 과정의 종결을 야기한다. 상기 종결은 양 말단에 공통적인 플랭킹 서열을 가진 중간체들(intermediates)을 생산한다. 비록 이전까지 상기 전-종결이 칩 DNA 합성 기술의 개발에서 해로운 것으로 고려되었을지라도, 본 발명자들은 단편에 포함된 플랭킹 서열들이 (단편에 포함된 플랭킹 서열과 degenerate 바코딩 서열을 연결한) 프라이머를 이용한 PCR 증폭에 의해 degenerate 바코딩 서열을 가지는 시퀀스를 임의적으로 어셈블리된 산물에 대해 태깅하는 데 큰 도움을 줄 것으로 예상하였다.
상기 태깅 바코드 프라이머 서열은 DNA 칩의 증폭에 이용된 원형(original) 프라이머 서열을 포함하는 세 부분으로 구성된다: (a) 올리고뉴클레오타이드를 디자인할 때 사용한 공통 프라이머 서열; (b) 20 bp degenerate-바코드 서열; 및 (c) 454 프라이머 서열. 바코드 서열-부착된 shotgun 어셈블리 단편들은 454 프라이머 서열로 추가적으로 증폭되어 바코딩된 어셈블리 산물의 농도를 증가시켰다.
shotgun 어셈블리 단편들의 454 시퀀싱 분석을 통해, 본 발명자들은 3%의 DNA 단편들(약 400 bp)이 오류없는 DNA 단편들을 포함한다는 것을 확인하였다(도 9a). 본 발명자들은 이후의 어셈블리 과정에 이용될 수 있는 오류없는 서열을 결정하기 위해 자체-제작된 파이선 컴퓨터 프로그램(in-house python computer program)을 개발하였다(도 9a 및 도 9b). 간략하게는, 상기 프로그램은 시퀀싱 데이터에서 제IIS형 효소 위치를 포함하는 플랭킹 서열을 스캔하여 내부 서열(internal sequences)을 타겟 레퍼런스 서열(target reference sequences)과 정렬(align)시킨다. 상기 내부 서열들(300 bp 미만의 크기)이 레퍼런스 서열과 완전하게 일치하는 경우, 상기 프로그램은 다른 단편들과 20-50 bp의 중첩 서열(overlapping sequences)을 가지는 최적 세트의 내부 서열을 알려줌으로써, 이후 어셈블리 과정의 다음 라운드에 적용시킨다(도 8g).
상기 파이선 프로그램을 실시한 후, 본 발명자들은 타겟 서열(총 11,376 bp)의 88%를 포괄하는 오류없는 shotgun 어셈블리된 DNA 단편들(약 300 bp)을 얻었다. 나머지 약 12%의 DNA 서열들의 경우, 본 발명자들은 오류를 포함하는 각 서열들을 분석하여 프라이머를 이용한 재-증폭을 통해 결정하였다. 61개의 PCR 바코드 프라이머 쌍이 임의적인 어셈블리 산물들의 풀로부터 선택되었다.
본 발명자들은 degenerate-바코드 프라이머 서열을 이용하여 DNA 혼합물로부터 소망하는 shotgun 어셈블리 단편들을 선택적으로 증폭하였다. 젤 데이터(약 400 bp)에 기반하여, 77%(61개의 증폭물 중 47개)의 선택적 증폭물이 소망하는 서열을 포함하였다. 비증폭된 타겟 서열들은 파이선 프로그램을 통해 다시 평가되어 또 다른 올리고뉴클레오타이드 서열이 주문되었다. 본 발명자들은 재-주문된 프라이머 서열을 이용하여 타겟 DNA 합성에 이용될 수 있는 100%의 서열을 얻을 수 있었다. 본 발명자들은 상기 서열들(약 10%)을 TOPO 클로닝하여 Sanger DNA 시퀀싱을 실시함으로써 그 유효성을 평가하였다. Sanger 시퀀싱-평가된 서열들의 약 99.98 %가 타겟 레퍼런스 서열과 일치하였다.
선택된 DNA를 이용한 앰플리콘들(amplicons)은 칩 올리고뉴클레오타이드의 프로세싱 과정에 이용된 제IIS형 제한효소 인지서열을 포함하는 플랭킹 서열들을 포함한다. 따라서, 증폭된 오류없는 단편들을 이용한 타겟 DNA의 어셈블리 과정 전에, 상기 증폭된 단편들의 바코드 서열이 제II형 제한효소(TypeIIS 제한 효소, EarI, BtsI 또는 EcoP15I)로 절단되었다(도 7). 두 번째 라운드의 DNA 어셈블리를 위해, 본 발명자들은 3-7개의 플랭킹 서열-절단된 단편들(각각, 약 300 bp)을 혼합하여 11개의 단편들(각각 단편의 길이는 약 1 kb)의 구축을 위한 네스티드(nested) PCR을 실시하였다(도 8i). DNA 어셈블리를 위해, 본 발명자들은 도 7에 예시된 바와 같이 타겟 유전자 조각과 동일한 염기 서열을 갖는, 각각 11개 유전자 조각의 5-말단 및 3-말단의 프라이머 세트를 이용하여 어셈블리를 진행하였다. 화학적으로 합성된 상기 1 kb DNA 단편들의 서열을 확인하기 위해, 본 발명자들은 TOPO 클로닝하여 Sanger 시퀀싱을 의뢰하였다. 요약하면, 본 발명자들은 상기 11개의 컨스트럭트들 중에서 각각 1-3개의 콜로니들을 선택하여 시퀀싱하였는데, 9개의 컨스트럭트들이 최소 1개 이상의 소망하는 DNA 서열을 포함한다(21개 중 16개가 오류없는 컨스트럭트였음)는 것을 확인하였다(오차율 - 0.022%; 22,903 bp 당 5 bp 오류). 본 발명자들은 페니실린 생합성 유전자 클러스터의 구축을 위해 서열-확인된 11개의 DNA 단편들을 이용하여 최종 네스티드 PCR 어셈블리(도 8j)를 실시하고 그 산물을 클로닝하여 시퀀싱한 결과, 성공적으로 소망하는 페니실린 유전자 클러스터를 얻었다(11,400 bp 당 0개의 오류).
본 발명의 독창적 특징을 예증하기 위해 여러 가지 포인트가 추가적으로 논의될 가치가 있다. 첫째로, 본 발명자들의 shotgun 합성방법은 낮은 DNA 합성 효율과 관계된 내적 어려움(intrinsic challenges)에 대한 해법을 제공할 수 있다. DNA 어셈블리 과정은 서브-풀 내에 증가된 수의 올리고뉴클레오타이드들(즉, 낮은 올리고뉴클레오타이드 농도를 야기함) 및 상기 올리고뉴클레오타이드 내에 존재하는 부분적으로 제거된 플랭킹 서열의 존재로 인해 덜 효율적으로 일어난다. 예를 들어, 타겟 유전자 클러스터들의 어셈블리를 위한 실시과정 동안 본 발명자들은 작은 크기의 DNA 단편들에 상응하는 약 100-500 bp의 매우 이질적인 부산물(by-products)을 끊임없이 관찰하였다. 하지만 본 발명을 이용하면, 상기 이질적인 산물들이 다음 단계의 DNA 어셈블리 과정에 이용될 수 있기 때문에, 본 발명자들의 shotgun DNA 합성방법은 종래에 실시된 유전자 합성방법보다 더 큰 장점을 가진다.
둘째로, 많은 수의 임의적인 어셈블리 (shotgun assembly) 산물들로부터 오류없는 DNA 단편들의 동정 및 분리를 위한 방법이 성공적으로 개발되었다. 합성 DNA 서열의 바코딩된-프라이머 서열은 고속 시퀀싱에 의해 유효화되었으며, 상기 바코드 서열은 DNA 분자의 풀로부터 소망하는 DNA 분자의 선택적 PCR 증폭에 이용될 수 있었다. 선택적으로 증폭된 타겟 DNA 단편들에서 증폭 프라이머 서열이 제거된 후, 상기 단편들이 타겟 서열의 어셈블리에 계층적으로 이용되었다. 또한, 타겟 DNA 분자들의 크기가 차세대 시퀀싱에 의해 단번에 시퀀싱되기에 충분한 경우 첫 번째 라운드의 shotgun 합성 단계에서 얻어진 산물들이 바로 이용될 수 있음은 자명하다.
셋째로, Agilent 칩-올리고뉴클레오타이드를 이용한 DNA 합성 및 고속 시퀀싱의 비용 평가는 다음과 같다. 거대 DNA 합성에 대한 비용은 주로 올리고뉴클레오타이드 및 시퀀싱에 소요된다. 칩 올리고뉴클레오타이드의 합성 비용은 레진-기반된 올리고뉴클레오타이드보다 100배 이상 저렴한 $0.00085/nt로 예상된다(Kim et al., 2011). 또한, 시퀀싱 비용-분석을 위해 본 발명자들이 실시한 454 시퀀싱 판독의 컴퓨터 분석 결과, shotgun 합성의 첫 번째 라운드에서 제조된 300 bp의 DNA 단편들 중 약 3%가 오류없는 DNA 단편이라는 것을 확인하였다. 본 발명자들은 Roche-454 시퀀싱 시퀀싱 1/8 레인을 사용하여 시퀀싱 판독을 수행하였고, 그 비용은 약 $1,500였다. 즉, 10 kb 유전자 클러스터의 합성 비용은 약 $3,000이었다(올리고뉴클레오타이드 합성 비용 = $0.00085/nt * 2 * 228 * 150nt = $60; 및 각종 프라이머 비용 = $0.1/nt * 200개 * 20nt = $400; Sanger 시퀀싱 비용 = $3 * 100 reaction = $300; Roche-454 시퀀싱 비용 = $1,500; 각종 정제 키트 및 효소 비용 = $800). 현재 DNA 합성 회사들이 $0.5/bp의 비용을 청구하고 있는 것을 고려해 볼 때, 본 발명자들의 합성 방법은 DNA 합성 비용을 최소 5 배 이상 절감시킨다. 본 발명자들의 접근방식의 중요성은 DNA 어셈블리 단편들의 균일하지 않은 적용범위(uneven coverage)이다. 반복된 어셈블리 실험들로부터, 본 발명자들은 DNA 어셈블리 과정으로부터 특정 부위의 적용이 DNA 서열에 의존적이라는 것을 발견하였다. 따라서, 보다 균일한 어셈블리 과정을 위한 shotgun 어셈블리 방법을 개발하는 것이 바람직할 것이다.
이상으로 본 발명의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적인 기술은 단지 바람직한 구현 예일 뿐이며, 이에 본 발명의 범위가 제한되는 것이 아닌 점은 명백하다. 따라서, 본 발명 의 실질적인 범위는 첨부된 청구항과 그의 등가물에 의하여 정의된다고 할 것이다.
참고문헌
Tian, J., et al., Accurate multiplex gene synthesis from programmable DNA microchips. Nature, 432, 1050-1054(2004).
Kim H., et al., Hierarchical gene synthesis using DNA microchip oligonucleotides. J. Biotech., 151, 319-324(2011).
Kim, H., et al., A Fluorescence Seletion Method for Accurate Large-Gene Synthesis. Chembiochem, 11(17): 2448-2452(2010).
John Eid, et al., Real-Time DNA Sequencing from Single Polymerase Molecules. Science, 323, 133(2009).
Puigb, P., et al., : 2007 OPTIMIZER: A web server for optimizing the codon usage of DNA sequences. Nucleic Acids Research, 35:W126-W131(2007)
Ben Yehezkel, T., et al., De novo DNA synthesis using single molecule PCR. Nucleic Acids Res., 36, e107(2008).
Zhang, K., et al., Sequencing genomes from single cells by polymerase cloning. Nat. Biotechnol., 24, 680-686(2006).
Hutchison, C. A., et al., Cell-free cloning using phi29 DNA polymerase. Proc. Natl. Acad. Sci. USA, 102, 17332-17336(2005).
Borovkov A. Y., et al., High-quality gene assembly directly from unpurified mixtures of microarray-synthesized oligonucleotides. Nucleic Acids Research. 1-10(2010).
Kosuri S., et al., Scalable gene synthesis by selective amplification of DNA pools from high-fidelity microchips. Nature biotechnology. 28, 1295-1299(2010).
Matzas M., et al., High-fidelity gene synthesis by retrieval of sequence-verified DNA identified using high-throughput pyrosequencing. Nature biotechnology. 28, 1291-1294(2010).

Claims (21)

  1. (a) 목적 핵산분자의 전체 서열의 적어도 일부를 구성하는 핵산 단편들을 제공하는 단계;
    (b) 상기 핵산 단편들을 바코드 서열들로 태깅하는 단계;
    (c) 상기 바코드 서열들로 태깅된 핵산 단편들의 서열을 확인하는 단계; 및
    (d) 상기 서열 확인된 핵산 단편들 중 소망하는 핵산 단편들을 상기 바코드 서열들을 이용하여 회수하는 단계를 포함하는 핵산분자의 제조방법.
  2. 제1 항에 있어서,
    (e) 상기 회수된 핵산 단편들을 조립하여 긴 핵산분자를 형성하는 단계를 더 포함하는 핵산분자의 제조방법.
  3. 제1 항에 있어서,
    상기 (a) 단계는
    (a-1) 제한효소 절단 서열 및 공통적 플랭킹 서열을 적어도 일 말단에 구비한 올리고뉴클레오타이드들의 풀을 제공하는 단계;
    (a-2) 상기 제한효소 절단 서열 부분을 절단함으로써 상기 공통적 플랭킹 서열을 일 말단에 구비한 올리고뉴클레오타이드들과 상기 공통적 플랭킹 서열을 구비하지 않은 올리고뉴클레오타이드들을 포함하는 혼합물의 풀을 제공하는 단계; 및
    (a-3) 상기 공통적 플랭킹 서열을 이용하여 상기 혼합물 내의 상기 올리고뉴클레오타이드들을 어셈블리하여 핵산 단편들을 임의적으로 합성하는 단계를 포함하는 핵산분자의 제조방법.
  4. 제3 항에 있어서,
    상기 (a-3)의 임의적으로 합성된 더 긴 핵산 단편들의 적어도 일 말단이 상기 공통적 플랭킹 서열을 구비하는 핵산분자의 제조방법.
  5. 제1 항에 있어서,
    상기 (a) 단계의 핵산 단편들이 DNA 마이크로어레이로부터 유래된 경우, 상기 핵산 단편들의 추가적인 증폭 단계를 더 포함하는 핵산분자의 제조방법.
  6. 제1 항에 있어서,
    상기 (a) 단계의 핵산 단편들의 크기는 20 내지 3,000 bp인 핵산분자의 제조방법.
  7. 제1 항에 있어서,
    상기 바코드 서열들은 임의 또는 계획적으로 설계된 2종 이상의 올리고뉴클레오타이드들의 혼합물인 핵산분자의 제조방법.
  8. 제1 항에 있어서,
    상기 바코드 서열의 길이는 5 내지 300 bp인 핵산분자의 제조방법.
  9. 제1 항에 있어서,
    상기 바코드 서열들의 태깅은 PCR, 에멀젼 PCR 및 라이게이션(ligation)으로 이루어진 군 중에서 선택되는 어느 하나의 방법에 의해 수행되는 핵산분자의 제조방법.
  10. 제1 항에 있어서,
    상기 바코드 서열에 시퀀싱 어댑터 서열이 부가된 핵산분자의 제조방법.
  11. 제1 항에 있어서,
    상기 태깅된 핵산 단편들의 서열의 확인은 병렬적 시퀀싱 방법에 의해 수행되는 핵산분자의 제조방법.
  12. 제1 항에 있어서,
    상기 (d) 단계는 상기 바코드 서열들에 상응하는 프라이머들로 소망하는 상기 핵산 단편들을 선택적으로 증폭하여 회수하는 방식으로 수행되는 핵산분자의 제조방법.
  13. 제1 항에 있어서,
    상기 (d) 단계는 상기 바코드 서열들에 상응하는 올리고뉴클레오타이드들로 소망하는 상기 핵산 단편들을 선택적으로 혼성화하여 회수하는 방식으로 수행되는 핵산분자의 제조방법.
  14. (a) 목적 핵산분자의 전체 서열의 적어도 일부를 구성하는 핵산 단편들을 제공하는 단계;
    (b) 상기 핵산 단편들을 조립하여 병렬적 시퀀싱 기술로 서열 확인 가능한 크기의 중간체들을 합성하는 단계;
    (c) 상기 중간체들을 바코드 서열들로 태깅하는 단계;
    (d) 상기 바코드 서열들로 태깅된 중간체들의 서열을 확인하는 단계;
    (e) 상기 서열 확인된 중간체들 중 소망하는 중간체들을 상기 바코드 서열들을 이용하여 회수하는 단계; 및
    (f) 상기 회수된 중간체들을 조립하여 긴 핵산분자들을 형성하는 단계를 포함하는 핵산분자의 제조방법.
  15. 제14 항에 있어서,
    상기 (a) 단계의 핵산 단편들의 크기는 20 내지 300 bp인 핵산분자의 제조방법.
  16. 제14 항에 있어서,
    상기 바코드 서열에 시퀀싱 어댑터 서열이 부가된 핵산분자의 제조방법.
  17. 제16 항에 있어서,
    상기 (c) 단계와 상기 (d) 단계 사이에 상기 시퀀싱 어댑터 서열을 이용하여 상기 태깅된 핵산 단편들을 증폭하는 단계를 더 포함하는 핵산분자의 제조방법.
  18. 제14 항에 있어서,
    상기 (d) 단계의 태깅된 중간체들의 서열의 확인은 병렬적 시퀀싱 기술에 의해 수행되는 핵산분자의 제조방법.
  19. 제14 항에 있어서,
    상기 (e) 단계의 소망하는 중간체들은 오류없는 서열을 갖는 핵산분자의 제조방법.
  20. 제14 항에 있어서,
    상기 중간체들의 크기는 50 내지 3,000 bp인 핵산분자의 제조방법.
  21. 제14 항에 있어서,
    상기 긴 핵산분자들의 크기는 1,000 bp 이상인 핵산분자의 제조방법.
PCT/KR2012/006147 2011-08-01 2012-08-01 핵산분자의 제조방법 Ceased WO2013019075A2 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/235,799 US9340826B2 (en) 2011-08-01 2012-08-01 Method of preparing nucleic acid molecules
US15/132,245 US10358642B2 (en) 2011-08-01 2016-04-19 Method of preparing nucleic acid molecules

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2011-0076408 2011-08-01
KR20110076408 2011-08-01

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/235,799 A-371-Of-International US9340826B2 (en) 2011-08-01 2012-08-01 Method of preparing nucleic acid molecules
US15/132,245 Continuation US10358642B2 (en) 2011-08-01 2016-04-19 Method of preparing nucleic acid molecules

Publications (3)

Publication Number Publication Date
WO2013019075A2 WO2013019075A2 (ko) 2013-02-07
WO2013019075A9 true WO2013019075A9 (ko) 2013-05-02
WO2013019075A3 WO2013019075A3 (ko) 2013-07-04

Family

ID=47629808

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/006147 Ceased WO2013019075A2 (ko) 2011-08-01 2012-08-01 핵산분자의 제조방법

Country Status (3)

Country Link
US (2) US9340826B2 (ko)
KR (2) KR101454886B1 (ko)
WO (1) WO2013019075A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11845986B2 (en) 2016-05-25 2023-12-19 Becton, Dickinson And Company Normalization of nucleic acid libraries

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602005009324D1 (de) 2005-04-06 2008-10-09 Maurice Stroun Methode zur Krebsdiagnose mittels Nachweis von DNA und RNA im Kreislauf
US9315857B2 (en) 2009-12-15 2016-04-19 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse label-tags
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US8481292B2 (en) 2010-09-21 2013-07-09 Population Genetics Technologies Litd. Increasing confidence of allele calls with molecular counting
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
EP2820174B1 (en) 2012-02-27 2019-12-25 The University of North Carolina at Chapel Hill Methods and uses for molecular tags
US10941396B2 (en) 2012-02-27 2021-03-09 Becton, Dickinson And Company Compositions and kits for molecular counting
ES2741099T3 (es) 2012-02-28 2020-02-10 Agilent Technologies Inc Método de fijación de una secuencia de recuento para una muestra de ácido nucleico
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
SG10202000486VA (en) 2012-09-04 2020-03-30 Guardant Health Inc Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014092458A1 (ko) 2012-12-11 2014-06-19 연세대학교 산학협력단 코돈 조합화 및 변이유발을 이용한 유전자 라이브러리의 합성 방법
KR101576709B1 (ko) * 2013-06-19 2015-12-10 연세대학교 산학협력단 서열 확인된 핵산 단편들을 회수하는 방법 및 서열 확인된 핵산 단편들을 증폭시키기 위한 장치
KR101648252B1 (ko) * 2014-01-28 2016-08-16 연세대학교 산학협력단 염기서열 확인 과정에서 분리된 핵산 단편들을 회수하는 방법
US20150051117A1 (en) * 2013-08-16 2015-02-19 President And Fellows Of Harvard College Assembly of Nucleic Acid Sequences in Emulsions
EP3039158B1 (en) 2013-08-28 2018-11-14 Cellular Research, Inc. Massively parallel single cell analysis
EP3055676A1 (en) 2013-10-07 2016-08-17 Cellular Research, Inc. Methods and systems for digitally counting features on arrays
CA2926934A1 (en) * 2013-10-09 2015-04-16 Stc.Unm Synthetic long read dna sequencing
SG10201804519RA (en) 2013-12-28 2018-07-30 Guardant Health Inc Methods and systems for detecting genetic variants
US10900065B2 (en) 2014-11-14 2021-01-26 University Of Washington Methods and kits for labeling cellular molecules
WO2016134078A1 (en) 2015-02-19 2016-08-25 Becton, Dickinson And Company High-throughput single-cell analysis combining proteomic and genomic information
US9727810B2 (en) 2015-02-27 2017-08-08 Cellular Research, Inc. Spatially addressable molecular barcoding
JP7508191B2 (ja) 2015-03-30 2024-07-01 ベクトン・ディキンソン・アンド・カンパニー コンビナトリアルバーコーディングのための方法および組成物
WO2016172373A1 (en) 2015-04-23 2016-10-27 Cellular Research, Inc. Methods and compositions for whole transcriptome amplification
WO2016196229A1 (en) 2015-06-01 2016-12-08 Cellular Research, Inc. Methods for rna quantification
WO2016195382A1 (ko) * 2015-06-01 2016-12-08 연세대학교 산학협력단 바코드 서열을 포함하는 어댑터를 이용한 차세대 염기서열 분석 방법
US11302416B2 (en) 2015-09-02 2022-04-12 Guardant Health Machine learning for somatic single nucleotide variant detection in cell-free tumor nucleic acid sequencing applications
KR102395450B1 (ko) 2015-09-11 2022-05-09 셀룰러 리서치, 인크. 핵산 라이브러리 정규화를 위한 방법 및 조성물
US20190040461A1 (en) * 2015-11-04 2019-02-07 Celemics, Inc. Method for extracting and characterizing molecular clones
WO2017106768A1 (en) 2015-12-17 2017-06-22 Guardant Health, Inc. Methods to determine tumor gene copy number by analysis of cell-free dna
US20190085406A1 (en) 2016-04-14 2019-03-21 Guardant Health, Inc. Methods for early detection of cancer
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
EP3452614B1 (en) 2016-05-02 2023-06-28 Becton, Dickinson and Company Accurate molecular barcoding
EP3465502B1 (en) 2016-05-26 2024-04-10 Becton, Dickinson and Company Molecular label counting adjustment methods
US10640763B2 (en) 2016-05-31 2020-05-05 Cellular Research, Inc. Molecular indexing of internal sequences
US10202641B2 (en) 2016-05-31 2019-02-12 Cellular Research, Inc. Error correction in amplification of samples
EP3516400B1 (en) 2016-09-26 2023-08-16 Becton, Dickinson and Company Measurement of protein expression using reagents with barcoded oligonucleotide sequences
CA3126055C (en) 2016-09-30 2025-08-12 Guardant Health, Inc. MULTIRESOLUTION ANALYSIS METHODS FOR ACELLULAR NUCLEIC ACIDS
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
US11667951B2 (en) 2016-10-24 2023-06-06 Geneinfosec, Inc. Concealing information present within nucleic acids
ES2980967T3 (es) 2016-11-08 2024-10-03 Becton Dickinson Co Métodos para la clasificación de perfiles de expresión
KR102790039B1 (ko) 2016-11-08 2025-04-04 벡톤 디킨슨 앤드 컴퍼니 세포 표지 분류 방법
JP7104048B2 (ja) 2017-01-13 2022-07-20 セルラー リサーチ, インコーポレイテッド 流体チャネルの親水性コーティング
US11319583B2 (en) 2017-02-01 2022-05-03 Becton, Dickinson And Company Selective amplification using blocking oligonucleotides
KR20180124789A (ko) 2017-05-12 2018-11-21 서울대학교산학협력단 고순도 뉴클레오타이드 획득 방법 및 장치
JP7536450B2 (ja) 2017-06-05 2024-08-20 ベクトン・ディキンソン・アンド・カンパニー 単一細胞用のサンプルインデックス付加
US11680283B2 (en) 2017-09-22 2023-06-20 University Of Washington In situ combinatorial labeling of cellular molecules
CN111492068B (zh) 2017-12-19 2025-03-21 贝克顿迪金森公司 与寡核苷酸相关联的颗粒
CN118910215A (zh) 2018-05-03 2024-11-08 贝克顿迪金森公司 在相对的转录物末端进行分子条形码化
CN112272710A (zh) 2018-05-03 2021-01-26 贝克顿迪金森公司 高通量多组学样品分析
US11639517B2 (en) 2018-10-01 2023-05-02 Becton, Dickinson And Company Determining 5′ transcript sequences
US11932849B2 (en) 2018-11-08 2024-03-19 Becton, Dickinson And Company Whole transcriptome analysis of single cells using random priming
CN113195717A (zh) 2018-12-13 2021-07-30 贝克顿迪金森公司 单细胞全转录组分析中的选择性延伸
WO2020150356A1 (en) 2019-01-16 2020-07-23 Becton, Dickinson And Company Polymerase chain reaction normalization through primer titration
EP4242322B1 (en) 2019-01-23 2024-08-21 Becton, Dickinson and Company Oligonucleotides associated with antibodies
WO2020160414A1 (en) 2019-01-31 2020-08-06 Guardant Health, Inc. Compositions and methods for isolating cell-free dna
US12071617B2 (en) 2019-02-14 2024-08-27 Becton, Dickinson And Company Hybrid targeted and whole transcriptome amplification
GB201905303D0 (en) * 2019-04-15 2019-05-29 Thermo Fisher Scient Geneart Gmbh Multiplex assembly of nucleic acid molecules
WO2020214642A1 (en) 2019-04-19 2020-10-22 Becton, Dickinson And Company Methods of associating phenotypical data and single cell sequencing data
US11939622B2 (en) 2019-07-22 2024-03-26 Becton, Dickinson And Company Single cell chromatin immunoprecipitation sequencing assay
JP7522189B2 (ja) 2019-11-08 2024-07-24 ベクトン・ディキンソン・アンド・カンパニー 免疫レパートリーシーケンシングのための完全長v(d)j情報を得るためのランダムプライミングの使用
US12163189B2 (en) 2019-11-27 2024-12-10 University Of Washington Method for preparation and high-throughput microbial single-cell RNA sequencing of bacteria
WO2021146207A1 (en) 2020-01-13 2021-07-22 Becton, Dickinson And Company Methods and compositions for quantitation of proteins and rna
ES2993319T3 (en) 2020-01-29 2024-12-27 Becton Dickinson Co Barcoded wells for spatial mapping of single cells through sequencing
CN115151810A (zh) 2020-02-25 2022-10-04 贝克顿迪金森公司 实现使用单细胞样品作为单色补偿对照的双特异性探针
CN115605614A (zh) 2020-05-14 2023-01-13 贝克顿迪金森公司(Us) 用于免疫组库谱分析的引物
CN115803445A (zh) 2020-06-02 2023-03-14 贝克顿迪金森公司 用于5撇基因表达测定的寡核苷酸和珠
US11932901B2 (en) 2020-07-13 2024-03-19 Becton, Dickinson And Company Target enrichment using nucleic acid probes for scRNAseq
WO2022026909A1 (en) 2020-07-31 2022-02-03 Becton, Dickinson And Company Single cell assay for transposase-accessible chromatin
WO2022109343A1 (en) 2020-11-20 2022-05-27 Becton, Dickinson And Company Profiling of highly expressed and lowly expressed proteins
US12392771B2 (en) 2020-12-15 2025-08-19 Becton, Dickinson And Company Single cell secretome analysis
US20250304953A1 (en) * 2021-02-18 2025-10-02 Seoul National University R&Db Foundation Method for purifying nucleic acid library
WO2022181858A1 (ko) * 2021-02-26 2022-09-01 지니너스 주식회사 분자 바코딩 효율을 향상시키기 위한 조성물 및 이의 용도
KR20220122095A (ko) 2021-02-26 2022-09-02 지니너스 주식회사 분자 바코딩 효율을 향상시키기 위한 조성물 및 이의 용도
KR102852820B1 (ko) 2024-05-24 2025-08-28 방석권 합성 유전자 제조방법 및 이에 의하여 제조된 유전자 합성물

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602005022443D1 (de) 2004-06-09 2010-09-02 Wisconsin Alumni Res Found Schnelle synthese von oligonukleotiden
EP1812598A1 (en) * 2004-10-18 2007-08-01 Codon Devices, Inc. Methods for assembly of high fidelity synthetic polynucleotides
US8383345B2 (en) * 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
US20140045728A1 (en) * 2010-10-22 2014-02-13 President And Fellows Of Harvard College Orthogonal Amplification and Assembly of Nucleic Acid Sequences

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11845986B2 (en) 2016-05-25 2023-12-19 Becton, Dickinson And Company Normalization of nucleic acid libraries

Also Published As

Publication number Publication date
US20160222380A1 (en) 2016-08-04
KR101454886B1 (ko) 2014-11-03
KR101467969B1 (ko) 2014-12-02
WO2013019075A2 (ko) 2013-02-07
US9340826B2 (en) 2016-05-17
KR20130018575A (ko) 2013-02-25
WO2013019075A3 (ko) 2013-07-04
KR20140004053A (ko) 2014-01-10
US20140309118A1 (en) 2014-10-16
US10358642B2 (en) 2019-07-23

Similar Documents

Publication Publication Date Title
WO2013019075A9 (ko) 핵산분자의 제조방법
WO2016021973A1 (ko) 캄필로박터 제주니 crispr/cas 시스템 유래 rgen을 이용한 유전체 교정
WO2016076672A1 (ko) 유전체에서 유전자 가위의 비표적 위치를 검출하는 방법
US20140309142A1 (en) Method of on-chip nucleic acid molecule synthesis
WO2015126078A1 (ko) 핵산과 신호 프로브의 비대칭 등온증폭을 이용한 핵산의 검출방법
US9422549B2 (en) Methods for the production of libraries for directed evolution
WO2015183025A1 (ko) 표적 특이적 뉴클레아제를 이용한 표적 dna의 민감한 검출 방법
WO2013133680A1 (ko) 핫스타트 역전사반응 또는 핫스타트 역전사 중합효소 연쇄반응용 조성물
WO2021133088A1 (ko) 이중 가닥 핵산 분자 및 이를 이용한 dna 라이브러리 내 유리 어댑터 제거 방법
WO2021006570A1 (ko) 압타머의 선별 방법 및 압타머를 이용한 면역 분석 방법
Wang et al. Uracil base PCR implemented for reliable DNA walking
WO2021075750A1 (ko) 자가 증폭이 가능한 헤어핀 구조의 ngs 라이브러리 제작용 어댑터 및 이를 이용한 ngs 라이브러리 제조방법
WO2023229222A1 (ko) 확장된 표적 범위를 갖는 엔지니어링된 cas12f 단백질 및 이의 용도
WO2022098191A1 (ko) 하이드로겔화 핵산을 이용한 고분자량 단백질 생산용 원형 핵산 템플릿의 제조방법 및 고분자량 단백질 생산 시스템
WO2013105801A1 (ko) 만성 골수성 백혈병 융합 유전자형 타이핑용 프로브, 프라이머 및 이의 이용방법
CN115925969A (zh) 一种可实现dna小片段精准删除的腺嘌呤碱基编辑器及其构建与应用
WO2024063273A1 (en) Novel adenine deaminase variants and a method for base editing using the same
Okulova et al. PCR-based genome walking methods
WO2016209037A1 (ko) 대용량 메타지놈 분석을 통한 유용 유전자원 탐색 방법 및 이의 이용
US7771974B2 (en) Degenerate oligonucleotide gene shuffling
WO2020159069A1 (ko) 압타머를 이용한 다중 multiplex pcr 방법
WO2024072006A1 (ko) 효소 반응을 통한 총 mrna 기반 무작위 sgrna 라이브러리 생성 방법
Khan et al. Optimizing PCR amplification of GC-rich nicotinic acetylcholine receptor subunits from invertebrates
WO2022124848A1 (en) Computer-implemented method for preparing oligonucleotides used to detect nucleotide mutation of interest
WO2023146243A1 (ko) 샘플 내 타겟 핵산을 검출하는 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12819214

Country of ref document: EP

Kind code of ref document: A2

WWE Wipo information: entry into national phase

Ref document number: 14235799

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 12819214

Country of ref document: EP

Kind code of ref document: A2