KR20160001455A - DNA Memory for Data Storage - Google Patents
DNA Memory for Data Storage Download PDFInfo
- Publication number
- KR20160001455A KR20160001455A KR1020140080021A KR20140080021A KR20160001455A KR 20160001455 A KR20160001455 A KR 20160001455A KR 1020140080021 A KR1020140080021 A KR 1020140080021A KR 20140080021 A KR20140080021 A KR 20140080021A KR 20160001455 A KR20160001455 A KR 20160001455A
- Authority
- KR
- South Korea
- Prior art keywords
- dna
- letters
- data
- character
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 DNA를 이용한 데이터 저장 및 해독 방법에 관한 것으로 더욱 자세하게는, 문자를 염기서열로 인코딩하는 단계, 인코딩된 염기서열을 합성하여 DNA를 수득하는 단계 및 수득한 DNA를 증폭한 다음, 벡터에 삽입하는 단계를 포함하는 DNA를 이용한 데이터 저장방법에 관한 것이다. 본 발명은 또한 상기 방법에 의해 문자가 저장된 DNA를 시퀀싱하는 단계 및 상기 시퀀싱된 염기서열을 디코딩하여 문자 데이터를 수득하는 단계를 포함하는 문자가 인코딩된 DNA 데이터의 해독방법에 관한 것이다.
본 발명에 따른 DNA 저장매체는 기존의 저장매체의 단점인 데이터 저장 밀도를 뛰어 넘을 수 있고, 물리적인 충격에도 안정적으로 정보를 저장할 수 있으므로 빅데이터 시대에 차세대 저장매체로서 중요한 역할을 할 수 있다.The present invention relates to a method for storing and decoding data using DNA, and more particularly, to a method for storing and decoding data using DNA, comprising the steps of encoding a character into a base sequence, synthesizing an encoded base sequence to obtain a DNA, amplifying the obtained DNA, And a method of storing data using DNA. The present invention also relates to a method for decoding character-encoded DNA data comprising the steps of sequencing DNA in which the characters are stored by the above method and decoding the sequenced nucleotide sequence to obtain character data.
The DNA storage medium according to the present invention can play an important role as a next generation storage medium in a big data era because it can exceed data storage density which is a disadvantage of existing storage media and can store information stably even in a physical impact.
Description
본 발명은 DNA를 이용한 데이터 저장 및 해독 방법에 관한 것으로 더욱 자세하게는, 문자를 염기서열로 인코딩하는 단계, 인코딩된 염기서열을 합성하여 DNA를 수득하는 단계 및 수득한 DNA를 증폭한 다음, 벡터에 삽입하는 단계를 포함하는 DNA를 이용한 데이터 저장방법에 관한 것이다. 본 발명은 또한 상기 방법에 의해 문자가 저장된 DNA를 시퀀싱하는 단계 및 상기 시퀀싱된 염기서열을 디코딩하여 문자 데이터를 수득하는 단계를 포함하는 문자가 인코딩된 DNA 데이터의 해독방법에 관한 것이다.
The present invention relates to a method for storing and decoding data using DNA, and more particularly, to a method for storing and decoding data using DNA, comprising the steps of encoding a character into a base sequence, synthesizing an encoded base sequence to obtain a DNA, amplifying the obtained DNA, And a method of storing data using DNA. The present invention also relates to a method for decoding character-encoded DNA data comprising the steps of sequencing DNA in which the characters are stored by the above method and decoding the sequenced nucleotide sequence to obtain character data.
2020년이면 전세계 데이터량이 40 ZB에 이를 것으로 예측되며, 이미 2007년부터 전세계에서 생산되는 데이터량이 저장장치를 초과하여 새로운 방식의 저장장치가 필요하게 되었다. 현재 장기 기록매체로서 널리 사용되고 있는 자기 테이프의 경우, 데이터 저장 수명이 10년 정도로 제한되어 유지 및 관리비용이 지속적으로 요구 되고 있다. 반도체 저장장치의 경우, HDD와 SSD가 대표적인데, HDD의 경우 충격에 매우 취약하다는 점과 수명이 25만시간, 그리고 현재 기술로는 4TB가 최대 용량치이다. SSD의 경우 충격에는 강하지만, 수명이 상대적으로 HDD보다 짧다고 알려져 있다. By 2020, worldwide data volume is expected to reach 40 ZB, and since 2007, the amount of data produced worldwide has exceeded the storage capacity, requiring a new type of storage device. In the case of a magnetic tape widely used as a long-term recording medium, the data storage life is limited to about 10 years, and maintenance and management costs are continuously required. In the case of semiconductor storage devices, HDDs and SSDs are typical. In HDDs, they are very vulnerable to shocks and have a life span of 250,000 hours. Currently, 4TB is the maximum capacity. It is known that SSD is strong against impact, but its life is relatively shorter than HDD.
기존 정보 저장 매체가 직면한 데이터 저장밀도 한계를 해결 가능한 대체 기술로서 DNA 염기서열이 초대용량 정보의 장기 보존 가능한 스토리지 매체로 거론되었고, 최근 DNA 구조로 초대용량 데이터를 저장하는 새로운 기술의 가능성을 발견하였다. DNA는 잘 알려져 있듯이, 생물체의 가장 작은 단위인 세포 안에 들어있으며, 모든 유전정보를 담고 있다. DNA가 가지고 있는 정보에 따라 마치 모든 생물체는 프로그램 되어있는 대로 움직인다. 인간의 경우, 1개의 단일 세포에 들어있는 DNA는 30억쌍의 염기 서열로 구성되어 있고, 이를 모두 해독한 유전정보의 크기를 환산한다면 약 1TB정도의 용량이다. 그리고 1개의 단일세포에는 폭이 2nm, 길이가 3m나 되는 두 가닥의 DNA가 들어있다. 따라서 이론적으로 EB(1018)이상 저장할 수 있는 차세대 바이오스토리지인 DNA는 초집약적으로 정보를 저장하기위한 바이오소재로서 매우 적합하다. 저장 수명도 1,000년 이상이며, 저비용으로 저장이 용이할 것으로 보인다.As an alternative technology capable of solving the data storage density limitations faced by existing information storage media, the DNA sequence has been considered as a storage medium capable of long-term storage of large capacity information and the possibility of a new technology to store large capacity data with recent DNA structures Respectively. DNA, as it is well known, is contained in the cell, the smallest unit of an organism, and contains all the genetic information. Depending on the information that DNA has, all organisms move as programmed. In humans, the DNA contained in a single cell is composed of 3 billion pairs of nucleotide sequences, and the capacity of about 1 TB is calculated if the size of the genetic information is all converted. One single cell contains two strands of DNA with a width of 2 nm and a length of 3 m. Therefore, theoretically, DNA, the next generation bio-storage capable of storing more than EB (10 18 ), is very suitable as a biomaterial for storing information intensively. The shelf life is over 1,000 years and it seems to be easy to store at low cost.
최근에는 폭발적으로 생산되는 데이터량이 저장매체의 용량을 초과하여 과부하를 일으키고 있는 실정이고, 이로 인해 새로운 저장매체를 개발하기 위한 시도가 계속해서 이루어지고 있다. 그 중 DNA를 이용하여 새로운 저장매체 개발의 시도는 매우 흥미롭다. DNA를 저장매체로 이용할 경우, 기존의 저장매체의 단점인 데이터 저장 밀도를 뛰어 넘을 수 있고, 물리적인 충격에도 안정적으로 정보를 저장할 수 있다. In recent years, the amount of data generated explosively exceeds the capacity of a storage medium, causing an overload. As a result, attempts to develop a new storage medium continue to be made. Among them, the attempt to develop a new storage medium using DNA is very interesting. When DNA is used as a storage medium, it can exceed data storage density, which is a disadvantage of conventional storage media, and can store information stably even under physical impact.
한편, 동영상 파일을 DNA로 저장하려는 시도가 있었다(Nick Goldman, et al, Nature 494(7435):77-80, 2013). 구체적으로, 특정 동영상 일부인 760킬로바이트 상당의 디지털 자료를 호프만코드 방식으로 5~6개의 디지트(digits)로 인코딩 한 후, 상기 각각의 디지트(digit)를 DNA 염기서열로 인코딩 하는 방법을 제시하고 있다. 하지만 디지털 자료에서 디지트(digits)로의 인코딩, 디지트(digits)에서 DNA로의 인코딩 및 DNA에서 DNA 단편으로의 인코딩 으로 이어지는 총 3단계의 인코딩이 수행되어 비교적 번거롭다는 단점이 있다. On the other hand, attempts have been made to store video files in DNA (Nick Goldman, et al., Nature 494 (7435): 77-80, 2013). Specifically, a method of encoding digital data corresponding to 760 kilobytes, which is a part of a specific moving picture, into 5 to 6 digits by the Hoffman code method, and encoding each of the digits into a DNA base sequence is proposed. However, there is a disadvantage that the encoding of digital data to digits, the encoding of digits to DNA, and the encoding of DNA to DNA fragments are performed, which is relatively cumbersome.
이에, 본 발명자들은 초고집적 스토리지 개발을 위해 생체분자 DNA를 이용한 저장매체를 개발하고자 예의 노력한 결과, 문서 정보를 DNA 단편으로 한 단계에 걸쳐 인코딩 하고, 상기 인코딩된 염기서열을 합성증폭하여 문자정보를 DNA 염기서열로 저장할 수 있다는 것과 상기 DNA 염기서열을 디코딩 시켜 다시 원래 문서로 복원할 수 있다는 것을 확인하고, 본 발명을 완성하게 되었다.
As a result of intensive efforts to develop a storage medium using biomolecule DNA for development of an ultra-high-density storage, the present inventors have found that a method of encoding a DNA fragment in a single step, synthesizing and amplifying the encoded nucleotide sequence, DNA base sequence, and that the DNA base sequence can be decoded and restored to the original document, thereby completing the present invention.
본 발명의 목적은 DNA를 이용한 문자 데이터의 저장방법을 제공하는데 있다.An object of the present invention is to provide a method for storing character data using DNA.
본 발명의 다른 목적은 상기 방법으로 문자가 인코딩된 DNA를 데이터의 해독방법을 제공하는데 있다.
Another object of the present invention is to provide a method of decrypting data of a character-encoded DNA by the above method.
상기 목적을 달성하기 위하여, 본 발명은, (a) 문자를 A, T, G 및 C로 구성되는 염기서열로 인코딩하는 단계; (b) 문자가 인코딩된 염기서열을 합성하여 문자가 인코딩된 DNA를 수득하는 단계; 및 (c) 상기 수득된 DNA를 증폭한 다음, 벡터에 삽입하는 단계를 포함하는 DNA를 이용한 문자 데이터의 저장방법을 제공한다.In order to achieve the above object, the present invention provides a method for producing a polypeptide comprising: (a) encoding a letter into a base sequence consisting of A, T, G and C; (b) synthesizing a nucleotide sequence encoding a letter to obtain a character-encoded DNA; And (c) amplifying the obtained DNA and then inserting the amplified DNA into a vector.
본 발명은 또한, (a) 상기 방법에 의해 문자가 저장된 DNA를 시퀀싱하는 단계; 및 (b) 상기 시퀀싱된 염기서열을 디코딩하여 문자 데이터를 수득하는 단계를 포함하는 문자가 인코딩된 DAN 데이터의 해독방법을 제공한다.
The present invention also relates to a method for producing DNA comprising the steps of: (a) sequencing DNA in which a character is stored by the method; And (b) decoding the sequenced base sequence to obtain character data.
본 발명에 따른 DNA 저장매체는 기존의 저장매체의 단점인 데이터 저장 밀도를 뛰어 넘을 수 있고, 물리적인 충격에도 안정적으로 정보를 저장할 수 있으므로 빅데이터 시대에 차세대 저장매체로서 중요한 역할을 할 수 있다.
The DNA storage medium according to the present invention can play an important role as a next generation storage medium in a big data era because it can exceed data storage density which is a disadvantage of existing storage media and can store information stably even in a physical impact.
도 1은 인코딩(Encoding) 단계, 합성(Synthesizing) 단계, 디코딩(Decoding) 단계로 구성된 DNA 메모리 또는 스토리지 개념을 나타낸 것이다.
도 2는 문서정보를 DNA 염기서열로 인코딩 하기 위해 설정한 Look-Up Table을 나타낸 것이다.
도 3은 본 발명에서 저장하고자 하는 문서정보의 예시로 선택한 텍스트로 국제연합(UN)에서 제창한 세계인권선언전문을 나타낸 것이다.
도 4는 세계인권선언문서의 내용을 도 2에서 제시된 Look-Up Table 설정에 따라 인코팅 된 DNA 염기서열을 나타낸 것이다.
도 5는 문서정보가 인코딩된 22개의 DNA 단편(372 bp)들이 각각 삽입되어 있는 플라스미드의 구조를 나타낸 것이며, DNA 단편(372 bp) 양쪽 말단에 서로 다른 염기서열의 14 bp DNA가 결합되어 있는데, 이는 372 bp DNA 단편들 순서를 지정해 주는 염기서열을 의미한다.
도 6은 22개의 DNA 염기서열 앞뒤에 결합되어 있는 14 bp의 말단 염기서열로 각각 서로 다른 14 bp로 구성된 44개(22개 2)의 염기서열을 나타낸 것이다.FIG. 1 illustrates a DNA memory or storage concept consisting of an encoding step, a synthesizing step, and a decoding step.
Fig. 2 shows a look-up table set up to encode document information into a DNA sequence.
FIG. 3 shows the Universal Declaration of Human Rights declared by the United Nations as text selected as an example of document information to be stored in the present invention.
Fig. 4 shows the contents of the Universal Declaration of Human Rights, which is the nucleotide sequence of the coated DNA according to the look-up table setting shown in Fig.
FIG. 5 shows the structure of a plasmid in which 22 DNA fragments (372 bp) encoded with encoded document information are inserted, and 14 bp DNAs of different base sequences are bound to both ends of a DNA fragment (372 bp) This means a sequence that specifies the sequence of 372 bp DNA fragments.
FIG. 6 shows a sequence of 44 (22 2) nucleotides consisting of 14 bp, each of which is a 14 bp terminal nucleotide sequence before and after 22 DNA nucleotides.
본 발명에서는 생체분자 DNA를 이용한 저장 밀도가 높고, 물리적인 충격에도 안정적으로 정보를 저장할 수 있는 저장매체를 개발하고자 하였다.In the present invention, a storage medium capable of storing information with high storage densities using biomolecule DNA and stable to physical impacts was developed.
본 발명에서는 펄(Perl) 프로그래밍을 이용하여 특정문자를 염기서열로 인코딩하고, 인코딩된 염기서열을 연결효소 연쇄반응법(Ligase Chain Reaction; LCR)을 이용하여 DNA를 합성수득하였다. 상기 수득된 DNA를 증폭한 다음, 벡터에 삽입하였다. 그 결과, 문자 데이터가 저장된 DNA를 확인할 수 있었다.In the present invention, a specific character is encoded into a nucleotide sequence using Perl programming, and the encoded nucleotide sequence is synthesized using Ligase Chain Reaction (LCR). The obtained DNA was amplified and then inserted into a vector. As a result, the DNA in which the character data is stored can be confirmed.
따라서, 본 발명은 일 관점에서, (a) 문자를 A, T, G 및 C로 구성되는 염기서열로 인코딩하는 단계; (b) 문자가 인코딩된 염기서열을 합성하여 문자가 인코딩된 DNA를 수득하는 단계; 및 (c) 상기 수득된 DNA를 증폭한 다음, 벡터에 삽입하는 단계를 포함하는 DNA를 이용한 문자 데이터의 저장방법에 관한 것이다. Thus, in one aspect, the present invention provides a method of producing a polypeptide comprising: (a) encoding a letter with a nucleotide sequence consisting of A, T, G and C; (b) synthesizing a nucleotide sequence encoding a letter to obtain a character-encoded DNA; And (c) amplifying the obtained DNA and then inserting it into a vector.
본 발명에 있어서, 상기 문자는 알파벳, 한글, 로마자 및 그리스 문자 등의 다양한 문자를 포함하며, 각각의 문자는 3~6 residue 길이의 특정 염기서열로 표현될 수 있고, 더욱 바람직하게는 3~5 residue 길이의 특정 염기서열로 표현될 수 있으며, 가장 바람직하게는 4 residue 길이의 특정 염기서열로 표현될 수 있다. 따라서, 27(33)~46656(66)개의 문자를 염기서열로 인코딩 가능하다. 상기 문자로부터 염기서열로의 인코딩은 Look-Up Table을 사용하여 프로그래밍 된다.In the present invention, the letters include various letters such as alphabets, Korean, Roman and Greek letters, and each letter can be represented by a specific nucleotide sequence having a length of 3 to 6 residues, more preferably 3 to 5 can be represented by a specific nucleotide sequence having a length of 4 residues, and most preferably can be represented by a specific nucleotide sequence having a length of 4 residues. Therefore, 27 (3 3 ) to 46656 (6 6 ) characters can be encoded as base sequences. The encoding of the characters into base sequences is programmed using the Look-Up Table.
본 발명에서, 문자가 인코딩된 염기서열은 연결효소 연쇄반응법(Ligase Chain Reaction; LCR)을 이용하여 DNA로 합성한 후 PCR을 통해 증폭하였다. 또한, 증폭된 DNA는 안정하게 저장하기 위하여 플라스미드 벡터에 삽입하였다.In the present invention, a nucleotide sequence encoding a letter was synthesized by DNA using Ligase Chain Reaction (LCR) and amplified by PCR. In addition, the amplified DNA was inserted into a plasmid vector for stable storage.
본 발명에서, PCR은 가장 잘 알려진 핵산 증폭 방법으로, 그의 많은 변형과 응용들이 개발되어 있다. 예를 들어, PCR의 특이성 또는 민감성을 증진시키기 위해 전통적인 PCR 절차를 변형시켜 터치다운(touchdown) PCR, 핫 스타트(hot start) PCR, 네스티드(nested) PCR 및 부스터(booster) PCR이 개발되었다. 또한, 멀티플렉스 PCR, 실시간(real-time) PCR, 분별 디스플레이 PCR(differential display PCR: DD-PCR), cDNA 말단의 신속 증폭(rapid amplification of cDNA ends: RACE), 인버스 중합효소 연쇄반응(inverse polymerase chain reaction: IPCR), 벡토레트(vectorette) PCR 및 TAIL-PCR(thermal asymmetric interlaced PCR)이 특정한 응용을 위해 개발되었다. PCR에 대한 자세한 내용은 McPherson, M.J., 및 Moller, S.G. PCR. BIOS Scientific Publishers, Springer-Verlag New York Berlin Heidelberg, N.Y. (2000)에 기재되어 있으며, 본 발명에서 이용될 수 있는 목적 핵산분자는 바람직하게는 DNA를 포함한다. In the present invention, PCR is the best known nucleic acid amplification method, and many modifications and applications thereof have been developed. For example, touchdown PCR, hot start PCR, nested PCR and booster PCR have been developed by modifying traditional PCR procedures to enhance the specificity or sensitivity of PCR. In addition, multiplex PCR, real-time PCR, differential display PCR (DD-PCR), rapid amplification of cDNA ends (RACE), inverse polymerase chain reaction chain reaction (IPCR), vectorette PCR and thermal asymmetric interlaced PCR (TAIL-PCR) have been developed for specific applications. For more information on PCR see McPherson, M.J., and Moller, S.G. PCR. BIOS Scientific Publishers, Springer-Verlag New York Berlin Heidelberg, N.Y. (2000), and the target nucleic acid molecule that can be used in the present invention preferably includes DNA.
본 발명에서, "벡터(vector)"는 DNA 단편을 안정하게 저장시킬 수 있는 DNA 보관 수단이 된다. 본 발명의 목적상, DNA 단편을 안정적으로 보관하기 위해서는 플라스미드 벡터를 이용하는 게 바람직하다. 이러한 목적에 사용될 수 있는 전형적인 플라스미드 벡터는 DNA 절편이 삽입될 수 있는 제한효소 절단부위를 포함하는 구조를 지니고 있다. 적절한 제한효소 절단부위가 존재하지 않을지라도, 통상의 방법에 따른 합성 올리고뉴클레오타이드 어댑터(oligonucleotide adaptor) 또는 링커(linker)를 사용하면 벡터와 외래 DNA를 용이하게 라이게이션(ligation)할 수 있다. 따라서, DNA를 해독하기 전까지 벡터에 보관하며 안정적인 메모리 보존이 가능할 수 있다. 또한 단편의 형태로 합성한 DNA의 경우, 증폭산물을 만들기 위해서는 primer를 제작하여 PCR을 수행해야 하는 번거로움이 있지만, 합성된 DNA를 벡터에 보관하면, E.coli 형질전환과 배양을 통해 천문학적인 수의 플라스미드를 얻을 수 있다. In the present invention, a "vector" is a DNA storage means capable of stably storing a DNA fragment. For the purpose of the present invention, a plasmid vector is preferably used for stably storing a DNA fragment. A typical plasmid vector that can be used for this purpose has a structure comprising a restriction enzyme cleavage site into which a DNA fragment can be inserted. Even if an appropriate restriction enzyme cleavage site is not present, using a synthetic oligonucleotide adapter or a linker according to a conventional method can easily ligate the vector and the foreign DNA. Therefore, it may be stored in a vector until the DNA is decoded and stable memory preservation possible. In addition, in the case of DNA synthesized in the form of a fragment, it is troublesome to perform PCR by preparing a primer in order to produce an amplification product. However, when the synthesized DNA is stored in a vector, it can be transformed into an astronomical A number of plasmids can be obtained.
본 발명에서는 문자 데이터가 인코딩된 DNA를 디코딩할 수 있도록 DNA의 염기서열을 시퀀싱하고, 시퀀싱된 데이터를 문자로 복원하고자 하였다.In the present invention, the nucleotide sequence of the DNA is sequenced so that the encoded DNA can be decoded, and the sequenced data is recovered as a character.
본 발명에서는 생거법(Sanger's sequencing Method)을 이용하여 문자가 인코딩된 DNA 염기서열을 분석하였으며, 분석된 염기서열은 펄(Perl) 프로그램을 이용하여 문자로의 디코딩을 진행하였고 그 결과, 원본 문자와 디코딩된 문자가 일치한다는 것을 확인할 수 있다.In the present invention, the nucleotide sequence encoding the character was analyzed using the Sanger's sequencing method, and the analyzed nucleotide sequence was decoded using a Perl program. As a result, It can be confirmed that the decoded characters match.
따라서, 본 발명은 다른 관점에서, (a) 상기 방법에 의해 문자가 저장된 DNA를 시퀀싱하는 단계; 및 (b) 상기 시퀀싱된 염기서열을 디코딩하여 문자 데이터를 수득하는 단계를 포함하는 문자가 인코딩된 DAN 데이터의 해독방법에 관한 것이다.Accordingly, in another aspect, the present invention provides a method for detecting a DNA sequence comprising the steps of: (a) sequencing DNA in which a character is stored by the method; And (b) decoding the sequenced base sequence to obtain character data.
본 발명의 상기 문자는 알파벳, 한글, 로마자 및 그리스문자 등의 다양한 문자를 포함할 수 있으며, 염기서열에서 문자로의 매핑은 역방향 Look-Up Table을 사용하여 프로그래밍 된다.The characters of the present invention may include various characters such as alphabets, Korean, Roman and Greek characters, and the mapping from the base sequence to the characters is programmed using a reverse look-up table.
도 1은 상기 인코딩(Encoding) 단계, 합성(Synthesizing) 단계, 디코딩(Decoding) 단계로 구성된 DNA 메모리 또는 스토리지 개념을 전반적으로 나타낸 것이다.FIG. 1 generally shows a concept of a DNA memory or storage composed of the encoding step, the synthesizing step, and the decoding step.
본 발명의 일 양태에서는, DNA 메모리 기술을 이용하여 세계인권선언문서의 내용을 염기서열로 인코딩 및 DNA 합성 및 염기서열로부터 문자로 디코딩하는 과정을 통해 DNA 메모리가 빅데이터 시대에 차세대 저장매체로 중요한 역할을 할 수 있음을 확인하였다. In one aspect of the present invention, the content of the Universal Declaration of Human Rights is encoded into a nucleotide sequence using a DNA memory technology, and the DNA is synthesized and decoded from a nucleotide sequence to a character, so that the DNA memory is important as a next generation storage medium I can confirm that I can play a role.
이하 본 발명을 실시예에 의하여 더욱 상세하게 설명한다. 이들 실시예는 단지 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 범위가 이들 실시예에 국한되지 않는다는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.Hereinafter, the present invention will be described in more detail with reference to Examples. It will be apparent to those skilled in the art that these embodiments are merely illustrative of the present invention and that the scope of the present invention is not limited to these embodiments.
다만, 본 발명에서는 하나의 문자를 4개의 염기로 표현한 실시예만 기재하였으나, 3개나 5개 또는 6개의 염기로 표현하여 인코딩할 수 있다는 것은 당업자에게 자명하다 할 것이다.
However, in the present invention, only one embodiment is described in which one character is represented by four bases, but it will be apparent to those skilled in the art that encoding can be expressed by three, five, or six bases.
실시예 1: 인코딩 단계Example 1: Encoding step
영어 알파벳, 특수기호 및 문장부호와 같은 문자들은 각각 4 residue 길이의 특정 염기서열인 4-mer로 표현될 수 있다(도 2). 이러한 문자에서 4-mer 염기서열로의 매핑은 펄(Perl) 프로그래밍 언어의 변수 타입인 순방향 해쉬(Forward hash)의 형태로 효율적으로 저장될 수 있다. 이 해쉬(Hash) 변수에 기반 하여 인코딩을 수행하는 펄(Perl) 프로그램을 만들었다. 펄(Perl) 프로그램에서 운영되는 인코딩 모드는 영문 문장을 개별 문자들로 쪼갠 후, 이들을 순방향 해쉬변수를 사용하여 연속적인 4-mer 염기서열로 변환할 수 있다. Characters such as the English alphabet, special symbols and punctuation marks can be represented by a 4-mer, a specific base sequence of 4 residues in length (Fig. 2). The mapping from these characters to the 4-mer nucleotide sequence can be efficiently stored in the form of a forward hash, a variable type in the Perl programming language. I created a Perl program that performs encoding based on this hash variable. The encoding mode that is run in the Perl program can split English sentences into individual characters and then convert them into consecutive 4-mer sequences using forward hash variables.
예시로, 세계인권선언 텍스트(도 3)를 이용하여 인코딩을 실시하였다. 먼저, 해당 텍스트를 _original.txt' 파일명으로 메모장으로 만들어 저장한 후 그 파일이 저장되어 있는 폴더에 윈도우 명령 프롬프트(CMD)를 연다. 명령 창에 "C:₩ Users₩Hwang₩Desktop₩Moonil_Kim₩2014.04.23.>string_converter.exe example1_original.txt example1_encoded.txt encode"와 같이 입력하고 enter를 누르면 인코딩된 파일(example1_encoded.txt)이 생성된다. 도 4는 세계인권선언문서의 내용을 인코딩된 염기서열로 나타낸 것이다.
As an example, the encoding was performed using the Universal Declaration of Human Rights text (Figure 3). First, save the text as a file named'original.txt 'in Notepad, and then open the Windows Command Prompt (CMD) in the folder where the file is saved. Enter "C: \ Users \ Hwang \ Desktop \ Moonil_Kim \ 2014.04.23." String_converter.exe example1_original.txt example1_encoded.txt encode "in the command window and press enter to create an encoded file (example1_encoded.txt). Fig. 4 shows the contents of the Universal Declaration of Human Rights document as an encoded base sequence.
실시예 2: DNA 염기서열 합성 및 클로닝Example 2 DNA Sequence Synthesis and Cloning
Look-Up Table에 의해 제작된 세계인권선언 텍스트는 총 8,184bp의 염기서열로 나타낼 수 있으며, 총 22개의 400bp(14bp+372bp+14bp) 조각으로 나누어 벡터에 클로닝 하였다. 400bp DNA 단편 중 인코딩된 DNA 단편은 가운데 372bp의 단편이며, 양쪽 말단에 각각 결합되어 있는 14bp 단편은 372bp DNA 단편의 순서를 지정해 주는 염기서열을 의미한다(도 5). 22개의 DNA 염기서열 앞뒤에 결합되어 있는 각각 서로 다른 14bp의 단편 즉, 염기서열은 도 6에 나타내었다.The text of the Universal Declaration of Human Rights, produced by the Look-Up Table, can be represented by a total of 8,184 bp sequence and is divided into a total of 22 400 bp (14 bp + 372 bp + 14 bp) Among the 400 bp DNA fragment, the encoded DNA fragment is a fragment of 372 bp in length, and the 14 bp fragment bound to both ends of the 400 bp DNA fragment is a nucleotide sequence specifying the sequence of the 372 bp DNA fragment (FIG. 5). A fragment of 14 bp, each of which is bonded before and after the 22 DNA base sequences, that is, the base sequence is shown in Fig.
작은 단편의 올리고(약 20~50bp)를 이용하여 phosphite triester 방법으로 22개의 400bp DNA 단편을 합성한 후 연결효소 연쇄반응법(Ligase Chain Reaction; LCR)으로 어셈블리하여 최종적으로 원하는 400bp의 조각을 수득한 후 PCR로 증폭하였다. PCR 조건은 주형 DNA(10 pmol) 1 l, primer 각각 1 l, Primix(Genotech) 4 l, 증류수 14 l를 Mastercycler gradient PCR(Ependorf)을 이용하여 변성(denaturation, 96에서 1분), 결합(annealing, 52.5에서 1분), 연장(elongation, 72에서 2분) 단계를 총 30회 실시하였다.Twenty-two 400 bp DNA fragments were synthesized by the phosphite triester method using a small fragment of oligo (about 20-50 bp), assembled into Ligase Chain Reaction (LCR), and finally the desired 400 bp fragment was obtained And then amplified by PCR. PCR conditions were denaturation (96 min for 1 min), annealing (1 min) using Mastercycler gradient PCR (Ependorf), 1 l of template DNA (10 pmol), 1 l of each primer, 4 l of primix , 1 minute at 52.5) and elongation (72 minutes at 2 minutes).
상기 증폭된 PCR 산물을 Plasmid mini-prep kit(Solgent)로 정제하고, 70% 에탄올을 첨가하여 DNA를 침전시킨 후 회수한 DNA를 아가로스겔 전기영동에 의해 확인하였다. 상기 정제된 DNA를 제한효소 BanH 및 Sal로 절단하고, 상기와 동일한 제한효소 BanH 및 Sal로 절단한 플라스미드 pET32a(Novagen)에 T4 DNA 리가아제(Takara)를 사용하여 연결한 다음, 이를 E. coli XL-1-Blue에 도입하는 방법으로 클로닝 과정을 거쳐 DNA를 플라스미드 벡터에 삽입하였다.
The amplified PCR product was purified by Plasmid mini-prep kit (Solgent), and 70% ethanol was added to precipitate DNA. The recovered DNA was confirmed by agarose gel electrophoresis. The cutting the purified DNA with restriction enzymes Sal BanH and, connecting with a plasmid pET32a T4 DNA ligase (Takara) to (Novagen) digested with the same restriction enzymes Sal BanH and with the following, this E. coli XL -1-Blue, and the DNA was inserted into the plasmid vector.
실시예 3: 디코딩 단계Example 3: Decoding step
DNA 시퀀싱 단계는 생거법(Sanger's sequencing method)으로 수행하였다. 실시예 1에서 문자를 인코딩시킨 DNA를 15~20개의 염기로 구성된 oligonucleotide와 Taq polymerase로 PCR을 수행하였다. 상기 증폭된 산물을 아가로스겔로 전기영동한 후 AccuPrepTM 겔 정제 kit로 정제한 후 Sanger 시퀀싱을 수행하였고, Lasergene(DNAstar, Madison, WI)을 이용하여 시퀀싱 데이터를 분석하였다. DNA 시퀀싱으로 얻은 염기서열은 펄(Perl)프로그램을 이용하여 문자로 디코딩하였다.The DNA sequencing step was performed with Sanger's sequencing method. In Example 1, the DNA encoding the letter was subjected to PCR using an oligonucleotide composed of 15 to 20 bases and Taq polymerase. The amplified product was electrophoresed with agarose gel, purified with AccuPrep ™ gel purification kit, followed by Sanger sequencing, and sequencing data was analyzed using Lasergene (DNAstar, Madison, Wis.). The nucleotide sequence obtained by DNA sequencing was decoded by a character using a Perl program.
펄(Perl) 프로그램에서 운영되는 디코딩 모드는, 시퀀싱으로 얻어진 염기서열에서 adapter 서열을 제외한 후, 이를 4 residue 씩 읽어가며 역방향 해쉬(Reverse hash)를 사용하여 문자로 변환하고, 이를 이어 붙여 문장을 복원하였다.The decoding mode operated in Perl program is to remove the adapter sequence from the sequence obtained by sequencing, then read it by 4 residues, convert it to a character using reverse hash, Respectively.
그 결과, 디코딩된 파일(example1_decoded.txt)은 WinMerge라는 유틸리티를 이용하여 원본 파일과 일치하는 것을 확인하였다.
As a result, the decoded file (example1_decoded.txt) was confirmed to match the original file using a utility called WinMerge.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서, 이러한 구체적 기술은 단지 바람직한 실시양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.While the present invention has been particularly shown and described with reference to specific embodiments thereof, those skilled in the art will appreciate that such specific embodiments are merely preferred embodiments and that the scope of the present invention is not limited thereby. something to do. It is therefore intended that the scope of the invention be defined by the claims appended hereto and their equivalents.
Claims (8)
(a) 문자를 A, T, G 및 C로 구성되는 염기서열로 인코딩하는 단계;
(b) 문자가 인코딩된 염기서열을 합성하여 문자가 인코딩된 DNA를 수득하는 단계; 및
(c) 상기 수득된 DNA를 증폭한 다음, 벡터에 삽입하는 단계.
A method for storing data using DNA comprising the steps of:
(a) encoding a letter with a nucleotide sequence consisting of A, T, G and C;
(b) synthesizing a nucleotide sequence encoding a letter to obtain a character-encoded DNA; And
(c) amplifying the obtained DNA and then inserting it into a vector.
The method of claim 1, wherein the characters are selected from the group consisting of alphabets, Korean, hiragana, katakana, roman, greek, hebrew, Cyrillic, Bengali, Gujarati, Olchiki, Lao, Tamil, Telugu, , Tibetan letters, Myanmar letters, Arabic letters, Armenian letters, Coptic letters, Cherokee letters, special characters, punctuation marks, symbols and numbers.
2. The method of claim 1, wherein each of the characters is encoded by encoding from 3 to 6 specific nucleotide sequences.
2. The method of claim 1, wherein the encoding is based on a look-up table in which a base sequence is mapped from a character.
The method according to claim 1, wherein the DNA synthesis is performed using an oligo fragment and a ligase chain reaction (LCR).
(a) 제1항의 방법에 의해 문자가 저장된 DNA를 시퀀싱하는 단계; 및
(d) 상기 시퀀싱된 염기서열을 디코딩하여 문자 데이터를 수득하는 단계.
A method for decrypting character-encoded DNA data comprising the steps of:
(a) sequencing DNA in which a character is stored by the method of claim 1; And
(d) decoding the sequenced base sequence to obtain character data.
7. The method of claim 6, wherein the characters are alphabets, Korean, Hiragana, Katakana, Roman, Greek, Hebrew, Cyrillic, Bengali, Gujarati, Olchiki, Lao, Tamil, Telugu, , Tibetan letters, Myanmar letters, Arabic letters, Armenian letters, Coptic letters, Cherokee letters, special characters, punctuation marks, symbols and numbers.
7. The method of claim 6, wherein the decoding is based on a look-up table in which characters are mapped from a base sequence.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020140080021A KR20160001455A (en) | 2014-06-27 | 2014-06-27 | DNA Memory for Data Storage |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020140080021A KR20160001455A (en) | 2014-06-27 | 2014-06-27 | DNA Memory for Data Storage |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20160001455A true KR20160001455A (en) | 2016-01-06 |
Family
ID=55165330
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020140080021A Ceased KR20160001455A (en) | 2014-06-27 | 2014-06-27 | DNA Memory for Data Storage |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20160001455A (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109074424A (en) * | 2016-05-04 | 2018-12-21 | 深圳华大生命科学研究院 | Utilize method, its coding/decoding method and the application of DNA storage text information |
| US10669558B2 (en) | 2016-07-01 | 2020-06-02 | Microsoft Technology Licensing, Llc | Storage through iterative DNA editing |
| WO2020179962A1 (en) | 2019-03-05 | 2020-09-10 | 손인식 | Dna coding method and biomedical engineering application of same coding method |
| CN112002376A (en) * | 2020-08-13 | 2020-11-27 | 中国海洋大学 | A method for DNA molecules to record and read information |
| US10892034B2 (en) | 2016-07-01 | 2021-01-12 | Microsoft Technology Licensing, Llc | Use of homology direct repair to record timing of a molecular event |
| CN116150773A (en) * | 2022-08-17 | 2023-05-23 | 中国人民解放军军事科学院军事医学研究院 | A method for gene data protection using computer security technology |
| US11989216B2 (en) | 2019-04-09 | 2024-05-21 | University Of Washington | Systems and methods for providing similarity-based retrieval of information stored in DNA |
-
2014
- 2014-06-27 KR KR1020140080021A patent/KR20160001455A/en not_active Ceased
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109074424A (en) * | 2016-05-04 | 2018-12-21 | 深圳华大生命科学研究院 | Utilize method, its coding/decoding method and the application of DNA storage text information |
| EP3470997A4 (en) * | 2016-05-04 | 2020-04-01 | BGI Shenzhen | METHOD FOR USING DNA FOR STORING TEXT INFORMATION, DECODING METHOD THEREFOR, AND APPLICATION THEREOF |
| US10839295B2 (en) | 2016-05-04 | 2020-11-17 | Bgi Shenzhen | Method for using DNA to store text information, decoding method therefor and application thereof |
| CN109074424B (en) * | 2016-05-04 | 2022-03-11 | 深圳华大生命科学研究院 | A method for storing text information using DNA, its decoding method and its application |
| US10669558B2 (en) | 2016-07-01 | 2020-06-02 | Microsoft Technology Licensing, Llc | Storage through iterative DNA editing |
| US10892034B2 (en) | 2016-07-01 | 2021-01-12 | Microsoft Technology Licensing, Llc | Use of homology direct repair to record timing of a molecular event |
| WO2020179962A1 (en) | 2019-03-05 | 2020-09-10 | 손인식 | Dna coding method and biomedical engineering application of same coding method |
| US11989216B2 (en) | 2019-04-09 | 2024-05-21 | University Of Washington | Systems and methods for providing similarity-based retrieval of information stored in DNA |
| CN112002376A (en) * | 2020-08-13 | 2020-11-27 | 中国海洋大学 | A method for DNA molecules to record and read information |
| CN112002376B (en) * | 2020-08-13 | 2024-03-19 | 中国海洋大学 | Method for recording and reading information by DNA molecules |
| CN116150773A (en) * | 2022-08-17 | 2023-05-23 | 中国人民解放军军事科学院军事医学研究院 | A method for gene data protection using computer security technology |
| CN116150773B (en) * | 2022-08-17 | 2024-01-30 | 中国人民解放军军事科学院军事医学研究院 | Methods of using computer security technology to protect genetic data |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Lopez et al. | DNA assembly for nanopore data storage readout | |
| KR20160001455A (en) | DNA Memory for Data Storage | |
| US10839295B2 (en) | Method for using DNA to store text information, decoding method therefor and application thereof | |
| CN111858510B (en) | DNA movable type storage system and method | |
| Organick et al. | Random access in large-scale DNA data storage | |
| KR102806718B1 (en) | DNA-based data storage | |
| Babski et al. | Genome-wide identification of transcriptional start sites in the haloarchaeon Haloferax volcanii based on differential RNA-Seq (dRNA-Seq) | |
| CN109830263B (en) | DNA storage method based on oligonucleotide sequence coding storage | |
| JP2023029836A (en) | Nucleic acid-based data storage | |
| Organick et al. | Scaling up DNA data storage and random access retrieval | |
| US20170249345A1 (en) | A biomolecule based data storage system | |
| EP3532965A1 (en) | Dna data storage using reusable nucleic acids | |
| Garafutdinov et al. | Encoding of non-biological information for its long-term storage in DNA | |
| Yoo et al. | Mini review: Enzyme-based DNA synthesis and selective retrieval for data storage | |
| US11845982B2 (en) | Key-value store that harnesses live micro-organisms to store and retrieve digital information | |
| Yachie et al. | Stabilizing synthetic data in the DNA of living organisms | |
| Wang et al. | Cost‐Effective DNA Storage System with DNA Movable Type | |
| Schwarz et al. | Data recovery methods for DNA storage based on fountain codes | |
| Lee et al. | DNA data storage in Perl | |
| CN116200366A (en) | Bst DNA polymerase mutant with XNA synthesis and reverse transcription activity | |
| Wang et al. | DNA Digital Data Storage based on Distributed Method | |
| Jin et al. | DNA Data Storage in Perl | |
| CN120336330B (en) | A DNA-encoding-based information storage method | |
| US20250239331A1 (en) | Combinatorial enumeration and search for nucleic acid-based data storage | |
| Patel et al. | Deoxyribonucleic Acid as a Tool for Digital Information Storage: An Overview. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20140627 |
|
| PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20150417 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20140627 Comment text: Patent Application |
|
| PG1501 | Laying open of application | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20160115 Patent event code: PE09021S01D |
|
| AMND | Amendment | ||
| E90F | Notification of reason for final refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Final Notice of Reason for Refusal Patent event date: 20160718 Patent event code: PE09021S02D |
|
| AMND | Amendment | ||
| E601 | Decision to refuse application | ||
| E801 | Decision on dismissal of amendment | ||
| PE0601 | Decision on rejection of patent |
Patent event date: 20161128 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20160718 Comment text: Final Notice of Reason for Refusal Patent event code: PE06011S02I Patent event date: 20160115 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |
|
| PE0801 | Dismissal of amendment |
Patent event code: PE08012E01D Comment text: Decision on Dismissal of Amendment Patent event date: 20161128 Patent event code: PE08011R01I Comment text: Amendment to Specification, etc. Patent event date: 20160919 Patent event code: PE08011R01I Comment text: Amendment to Specification, etc. Patent event date: 20160315 |
|
| AMND | Amendment | ||
| PX0901 | Re-examination |
Patent event code: PX09011S01I Patent event date: 20161128 Comment text: Decision to Refuse Application Patent event code: PX09012R01I Patent event date: 20160919 Comment text: Amendment to Specification, etc. Patent event code: PX09012R01I Patent event date: 20160315 Comment text: Amendment to Specification, etc. |
|
| PX0601 | Decision of rejection after re-examination |
Comment text: Decision to Refuse Application Patent event code: PX06014S01D Patent event date: 20170130 Comment text: Amendment to Specification, etc. Patent event code: PX06012R01I Patent event date: 20161229 Comment text: Decision to Refuse Application Patent event code: PX06011S01I Patent event date: 20161128 Comment text: Amendment to Specification, etc. Patent event code: PX06012R01I Patent event date: 20160919 Comment text: Final Notice of Reason for Refusal Patent event code: PX06013S02I Patent event date: 20160718 Comment text: Amendment to Specification, etc. Patent event code: PX06012R01I Patent event date: 20160315 Comment text: Notification of reason for refusal Patent event code: PX06013S01I Patent event date: 20160115 |