CN116030895B - 一种基于天然和非天然碱基的dna信息存储方法 - Google Patents
一种基于天然和非天然碱基的dna信息存储方法Info
- Publication number
- CN116030895B CN116030895B CN202211594766.8A CN202211594766A CN116030895B CN 116030895 B CN116030895 B CN 116030895B CN 202211594766 A CN202211594766 A CN 202211594766A CN 116030895 B CN116030895 B CN 116030895B
- Authority
- CN
- China
- Prior art keywords
- information
- dna
- dna information
- data
- data information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基于天然和非天然碱基的DNA信息存储方法,包括以下步骤:提取待存储的数据信息;设计编码表,所述的编码表为DNA信息与数据信息单位进行映射所形成的;根据拆分后的数据信息在编码表依次确认拆分后的数据信息对应的DNA信息;并按顺序将DNA信息依次排列在物理介质的孔位,获得DNA信息存储载体;在读取时,采用质谱方式读取DNA信息,并进行解码。本发明的存储和读取方法,能够充分利用天然和非天然碱基,实现多进制编码,密度有望超过8bits/nt;同时避免存储信息需要从头合成DNA的麻烦;此外还抛弃了以测序仪鉴定记录信息的做法,创新性地使用质谱仪读取碱基的类型,克服了测序过程带来的错误和限制。
Description
技术领域
本发明属于数据存储技术领域,具体涉及基于天然和非天然碱基的DNA信息存储方法。
背景技术
随着网络技术的进步,信息的交流以及产生都呈爆炸式的增长。对于如此海量的信息,如何存储将成为亟需面对的问题。现有的硅基存储技术已经无法满足需求的增长,研究者已经将目光聚焦在其它物质上,其中脱氧核糖核酸(DNA)作为存储介质的研究更是研究的热点。DNA作为信息存储介质,其优势有存储密度高、存储时间长且稳定、能耗低等。但是同时在研究的初期DNA仍存在一些问题需要被解决,如目前的方法未充分利用碱基,尤其是非天然碱基的特性,编码密度受限于2bits/nt;同时基于目前的方法在存储信息时,每一次信息存储都需要将碱基进行从头合成,成本高。
另外DNA信息存储技术严重受限于DNA合成和测序技术,而且对于合成和测序过程产生的错误很难被消除。因此如何跳过或降低DNA合成和测序带来的错误,也逐渐成为DNA信息存储领域的研究热点之一。专利CN113066534A提出利用以ATCG四种碱基来编码的四进制编码,生物芯片读取数据,采用边合成边测序的方法进行测序,该方法通过对芯片上的DNA序列进行测定,从而读取信息,生物芯片可以在低温下长期保存的特点,但是依然无法解决测序带来的错误问题。
现有的DNA信息存储技术主要依赖于DNA合成和测序技术,而在合成和测序过程中往往会引入一些错误,给信息的解码带来困难。同时,合成和测序对DNA序列也有一定的限制,比如待合成的序列中不能含有连续的重复碱基(即均聚物长度≤4)、GC含量控制在40%~60%、序列之间不能互补形成二级结构等。
发明内容
现有的DNA信息存储技术中,无论是信息的写入和读取都受到了种种的技术限制。如目前信息的写入还停留在仅仅利用天然DNA编码的模式下,未充分利用非天然碱基特性,编码密度受限;在oligo合成的过程中合成的长度限制在200bp内且合成的序列中不能有超过3bp的均聚物,而在测序的过程中的限制更多,不能有大量的重复序列出现,测序仪本身存在较大的测序误差;而且从头合成DNA成本较高等。以上这些问题不仅限制了信息编码的随机性还会使结果失真,从而导致无法解码的情况。为解决上述问题,本发明基于天然和非天然碱基,利用质谱测序分析的优点,建立了一套DNA信息存储方法,这个存储过程不需要合成的步骤,因此也不存在序列合成的种种限制。既能满足信息存储的需求,也打破了现有DNA信息存储的固有框架,同时基于天然和非天然碱基存储,编码密度高,为DNA信息存储技术的发展提供新的思路的方向。
本发明一个方面提供了一种基于天然和非天然碱基的DNA存储方法,所述DNA存储方法包括以下步骤:
S11):提取待存储计算机数据信息的数据信息;
S12):设计编码表,所述的编码表为DNA信息与数据信息单位进行一一映射所形成的;
S13)将步骤S11)中的数据信息拆分形成数据信息单位,并在步骤S12)获得编码表中依次确认拆分后的数据信息单位对应的DNA信息;
S14)获得步骤S13)确认的DNA信息所对应的脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列,并按顺序依次排列在芯片的不同孔位,获得DNA信息存储载体;
所述DNA信息为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列,或者为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列中任意两种的组合;
在编码表中,每种DNA信息的分子量均不相同,且两两之间的分子量差距不低于10。
进一步地,在步骤S11)中,计算机数据信息为文本、数字、图片、视频、程序、音频。
进一步地,在步骤S11)中,所述数据信息为字符信息、RGB信息、二进制数据信息、八进制数据信息、十六进制数据信息、十进制数据信息。
进一步地,在编码表中,每种DNA信息的分子量均不相同,且两两之间的分子量差距不低于10。
进一步地,所述脱氧核糖核苷酸为天然脱氧核糖核苷酸或非天然脱氧核糖核苷酸,所述非天然脱氧核糖核苷酸为进行了碱基修饰的脱氧核糖核苷酸。
进一步地,所述两个以上脱氧核糖核苷酸组成的多核苷酸序列中的脱氧核糖核苷酸为天然脱氧核糖核苷酸或非天然脱氧核糖核苷酸。
进一步地,所述两个以上脱氧核糖核苷酸组成的多核苷酸序列中通过调节多核苷序列中脱氧核糖核苷酸的种类和数量的组合使其具有不同分子量。
进一步地,所述的编码表中形成的32种-1024种映射关系,例如为32种、64种、128种、256种、512种、1024种。
进一步地,所述数据信息单位为将数据信息分割成用于记录信息的不同的单位,在一些实例中,数据信息单位为4位或8位的二进制数字、单独字符、单独像素能够对应的RGB像素信息。
进一步地,所述核酸序列中的碱基是经过修饰或不经过修饰的。更进一步地,所述经过修饰是指经过DBCO修饰、AMCA修饰、硫代修饰、氨基修饰、生物素修饰、地高辛修饰、磷酸基团、巯基中的至少一种。
进一步地,所述编码表中的多核苷酸序列种类为32条,且通过两种多核苷酸序列的组合形成128种不同的组合多核苷酸序列。
更进一步地,所述编码表中将DNA信息与4位或8位二进制数一一映射。
更进一步地,所述编码表中将DNA信息与ASCII码表一一映射。
更进一步地,所述编码表中将DNA信息与128种字符一一映射。
更进一步地,所述编码表中将DNA信息与RGB像素信息一一映射。
在一些具体的实施方案中,所述编码表中DNA信息为128个或256个不同的具有修饰碱基的核苷酸,为分别针对A、T、C、G进行32种或64种不同种类的修饰,共获得128个或256个不同的具有修饰碱基的核苷酸。
更进一步地,所述编码表中将DNA信息中的一种与RGB像素信息中的色彩信息即R\G\B一一映射,DNA信息中的另一种与RGB像素信息色彩信息中的数字0-255一一映射,并将两种DNA信息的组合形成与RGB像素信息的一一映射关系。
在只包含四种天然碱基的实施方案中,所述编码表中包含128条组合多核苷酸序列,多核苷酸序列的长度分为8组,所述8组多核苷酸序列的长度依次延长,分别包含10-24个碱基的核苷酸,每组4条多核苷酸序列,每组的4条多核苷酸序列中的碱基种类和或数量不同。
本发明另一个方面提供了上述DNA存储方法获得DNA信息存储载体的信息读取方法,所述信息读取方法包含以下步骤:
S21)将DNA信息存储载体中不同孔位待测序列进行质谱检测,获得每个孔位中的DNA信息的分子量信息;
S22)并根据DNA信息的分子量信息分析其碱基组合信息确认不同孔位对应的DNA信息;
S23)根据步骤S22)获得的DNA信息以及上述步骤S12)的编码表表解读数据信息单位;
S24)根据S23)获得的数据信息单位进行拼接,解码数据信息获得存储的计算机数据信息。
进一步地,在步骤S21)中质谱检测的方法为MALDI质谱测序。
进一步地,在步骤S21)中质谱检测的方法包括以下步骤:
S211)将待测序列进行酶切和或纯化;
S212)将纯化后的片段进行质谱检测,获得分子量。
更进一步地,步骤S211)中纯化的方法为乙醇沉淀、微量透析或MillporeZiptip微量层析。
进一步地,计算机数据信息为能够在计算机上存在的数据信息,优选地,选自图片、文本、程序、音频、视频。
本发明再一个方面提供了一种基于天然和非天然碱基的DNA信息存储和解码方法,所述方法包括:
如上所述的基于天然和非天然碱基的DNA存储方法,所述DNA存储方法包括以下步骤:
S11):提取待存储计算机数据信息的二进制信息;
S12):设计编码表,所述的编码表为DNA信息与数据信息单位进行一一映射所形成的;
S13):将步骤S11)中的数据信息拆分形成数据信息单位,并在步骤S12)获得编码表中依次确认拆分后的数据信息单位对应的DNA信息;
S14)获得步骤S13)确认的DNA信息所对应的脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列,并按顺序依次排列在芯片的不同孔位,获得DNA信息存储载体;
所述DNA信息为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列,或者为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列中任意两种的组合;
在编码表中,每种DNA信息的分子量均不相同,且两两之间的分子量差距不低于10;
以及如上所述的DNA存储方法获得DNA信息存储载体的信息读取方法,所述信息读取方法包含以下步骤:
S21)将DNA信息存储载体中不同孔位待测序列进行质谱检测,获得每个孔位中的DNA信息的分子量信息;
S22)并根据DNA信息的分子量信息分析其碱基组合信息确认不同孔位对应的DNA信息;
S23)根据步骤S22)获得的DNA信息以及上述步骤S12)的编码表表解读数据信息单位;
S24)根据S23)获得的数据信息单位进行拼接,解码数据信息获得存储的计算机数据信息。
本发明再一个方面提供了一种的基于天然和非天然碱基的DNA信息存储装置,所述装置包括:
数据信息提取单元,用于提取待存储计算机数据,并将待存储的计算机数据转换为信息对应的数据信息;
数据信息与DNA信息转换单元,用于根据预设的映射关系,将所述数据信息序列拆分或组装并转换为DNA信息;
合成和存储单元,用于合成数据信息与DNA信息转换单元转换获得的核酸序列,并按照顺序在存储单元芯片的不同孔位上保存DNA信息所对应的脱氧核糖核苷酸、由两个以上脱氧核糖核苷酸组成的多核苷酸序列或其组合;
所述的映射关系为DNA信息与数据信息单位进行一一映射的关系;
所述DNA信息为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列,或者为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列中任意两种的组合;
在映射关系中,每种DNA信息的分子量均不相同,且两两之间的分子量差距不低于10。
数据信息与DNA信息转换单元可以包括DNA信息编码单元、DNA信息与数据信息匹配单元以及DNA信息信息转换单元。所述DNA信息编码单元用于记录每一种DNA信息对应的碱基种类和数量的组合。DNA信息和数据信息匹配单元用于调用DNA信息编码单元中的不同DNA信息与数据信息单位进行一一匹配和对应。所述DNA信息转换单元用于将数据信息提取单元中的数字信息根据DNA信息和数据信息匹配单元的信息一一转换为DNA信息。
本发明再一个方面提供了一种的基于天然和非天然碱基核酸存储的解码装置,所述装置包括:
读取单元,用于通过质谱仪检测合成和存储单元中储存的待测序列,并根据分子量确认其DNA信息;
DNA信息与数据信息转换单元,用于根据预设的映射关系即DNA信息存储装置中相同的数据信息与DNA信息映射关系,将读取单元获得的DNA信息转换为数据信息;
计算机数据输出单元,用于将DNA信息与数据信息转换单元获得的数据信息转换为存储的计算机数据;
所述读取模块包含了用于检测存储信息的芯片中对每个孔位中的核酸序列进行质谱检测的质谱仪,还可以包含对于每个孔位中的核酸序列进行纯化和或酶解的单元。
本发明再一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现上述基于天然和非天然碱基的DNA存储方法或上述存储方法获得DNA信息存储载体的信息读取方法的步骤。
本发明再一个方面提供了一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于天然和非天然碱基的DNA存储方法或上述DNA存储方法获得DNA信息存储载体的信息读取方法的步骤。
有益效果
1)本发明的方案可以使用任何修饰碱基或非修饰碱基和非天然碱基对也能应用于该项发明中。并且随着可用碱基数量的增多,DNA存储的效率也随之增强,采用多种非天然碱基,每个碱基能够编码8位二进制码从而本发明的逻辑编码能力可达8bit/nt,已经突破了4碱基编码的理论极限2bit/nt。
2)本发明的编码方式根据碱基的种类和数量进行设计,不用考虑序列中重复和二级结构等问题。
3)本发明从源头解决了由合成和测序带来的一系列问题,直接弃用了这两项技术,而是采用碱基定点存放和质谱仪检测的方法。
4)现有技术中使用四种天然碱基直接映射四进制编码,编码效率仍旧较低,本发明可以对任何天然和非天然碱基进行编码,并且不同数量长度的碱基组合也能作为编码的一个变量进行编码,解决了编码效率和编码方式的限制,同时通过引入大量非天然碱基,极大提高了编码效率和编码的自由度,由于市售的非天然碱基种类繁多,且商业化程度高,能够充分满足编码要求。
5)由于信息读取方式和编码方式的特殊,不用合成DNA序列取而代之的是结合微流控技术的网格化存储,仅需合成短序列,无需合成长序列,从而打破了合成带来的桎梏。
6)本发明的存储和读取方法,抛弃了现有技术中以测序仪鉴定记录信息的核酸序列的做法,创新性地使用质谱仪读取碱基的类型,克服了测序过程带来的错误和限制,可以通过不同碱基不同配比组合形成分子量的链种类。
附图说明
图1为本发明基于天然和非天然碱基质谱解码的DNA存储方法的示意图。
图2为本发明具体实施方案部分实施例1基于天然和非天然碱基质谱解码的直接编码的DNA存储方法的示意图。
图3为本发明DNA信息存储载体的信息读取方法的示意图。
图4为本发明质谱检测示意图。
图5为本发明实施例4提供的编码装置的结构示意图。
图6为本发明实施例4提供的解码装置的结构示意图。
图7为本发明实施例4提供的终端设备的结构示意图。
图8为本发明的整体技术流程图。
图9为本发明待编码图片的示意图。
具体实施方式
为了使本发明的上述目的、特征和优点能够更加明显易懂,下面对本发明的具体实施方式做详细的说明,但不能理解为对本发明的可实施范围的限定。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。下面结合附图,说明本发明的一些具体的实施方案。
现有的DNA信息存储技术中,无论是信息的写入和读取都受到了种种的技术限制,尤其是基于测序技术,极大限制了信息存储。为解决上述问题,本发明创新性地建立基于天然及非天然碱基的DNA存储方法,以质谱的方法替代测序方法,颠覆了传统信息存储和解码的方法。而且本发明的存储过程不需要过多的合成,甚至不需要合成的步骤,因此也不存在序列合成的种种限制。下面结合附图对本发明的方法以实施例形式进行说明。
实施例1基于天然及非天然碱基质谱解码的DNA存储方法:
S11)提取待存储计算机数据信息的数据信息;
其中,待存储计算机数据信息可以为任一格式的数据,例如可以为文本、数字、图片、视频、程序、音频等等。本发明具体实施方案中,数据信息可以为RGB信息、二进制数据信息、八进制数据信息、十六进制数据信息、十进制数据信息、字符信息。
在一些具体实施方案中,将待存储计算机数据信息转换为数据信息,采用现有技术中任意已知的方法对其进行转换。
在另一些具体的实施方案中,对于图片信息可以将其转换为RGD信息。RGD信息为RGD像素信息,将图片信息转换为不同像素点的RGD像素信息,RGD像素信息由色彩种类,即R\G\D信息以及色彩强度0-255构成。
在一些具体的实施方案中,如果待存储的信息为字符信息,也可以不进行转换,直接将字符信息作为数据信息,进行后续的转换和编码。
S12)设计编码表,所述的编码表为DNA信息与数据信息单位进行一一映射所形成的;
所述DNA信息为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列,或者为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列中任意两种的组合;
在编码表中,每种DNA信息的分子量均不相同,且两两之间的分子量差距不低于5。
在一些具体的实施方案中,示例性地,两两DNA信息之间的分子量差距为10以上,例如为10-100之间的任意数字。
在一些具体的技术方案中,所述编码表中32种-1024种映射关系,例如为32种、64种、128种、256种、512种、1024种。
在一些具体的技术方案中,DNA信息与数据信息编码表中的数据信息示例性地为4位二进制数据或8位二进制数据,并与编码表中的DNA信息数量相同,并形成一一映射关系。
在一些具体的技术方案中,DNA信息与数据信息编码表中的数据信息示例性地为字符信息,并与编码表中的DNA信息数量相同,并形成一一映射关系。
在一些具体的技术方案中,DNA信息与数据信息编码表中的数据信息示例性地为RGB像素信息,并与编码表中的DNA信息形成一一映射关系。
在一些具体的技术方案中,所述DNA信息可以为天然脱氧核糖核苷酸或非天然脱氧核糖核苷酸,所述非天然脱氧核糖核苷酸为进行了碱基修饰的脱氧核糖核苷酸。
在一些具体的技术方案中,修饰碱基是指经过DBCO修饰、AMCA修饰、硫代修饰、氨基修饰、生物素修饰、地高辛修饰、磷酸基团、巯基、氨基类、NHBOC修饰、Fmoc修饰、羧酸修饰、Mal修饰、NHS修饰,叠氮修饰,Cy3/Cy5/Cy7修饰、THP修饰、苄基修饰、丙炔基修饰、溴代修饰、丙酸叔丁酯修饰、乙酸叔丁酯修饰、甲基修饰、生物素修饰、五氟苯酚修饰、磺酸酯修饰中至少一种或两种以上的组合。现在已有一些商业化的修饰碱基,本领域技术人员可以根据分子量需要进行选择,详细修饰类型可在商业公司官网中查询。
示例性地,所述非天然碱基选自2-氨基腺嘌呤-9-基,2-氨基腺嘌呤,2-F-腺嘌呤,2-硫尿嘧啶,2-硫代胸腺嘧啶,2-硫代胞嘧啶,腺嘌呤和鸟嘌呤的2-丙基和烷基衍生物,2-氨基-腺嘌呤,2-氨基-丙基-腺嘌呤,2-氨基吡啶,2-吡啶酮,2'-脱氧尿苷,2-氨基-2'-脱氧腺苷3-脱氮杂鸟嘌呤,3-脱氮杂腺嘌呤,4-硫代尿嘧啶,4-硫代胸腺嘧啶,尿嘧啶-5-基,次黄嘌呤-9-基(I),5-甲基-胞嘧啶,5-羟甲基胞嘧啶,黄嘌呤,次黄嘌呤,5-溴和5-三氟甲基尿嘧啶和胞嘧啶;5-卤代尿嘧啶,5-卤代胞嘧啶,5-丙炔基-尿嘧啶,5-丙炔基胞嘧啶,5-尿嘧啶,5-取代、5-卤代、5-取代嘧啶,5-羟基胞嘧啶,5-溴胞嘧啶,5-溴尿嘧啶,5-氯胞嘧啶,氯化胞嘧啶,环胞嘧啶,胞嘧啶阿拉伯糖苷,5-氟胞嘧啶,氟嘧啶,氟尿嘧啶,5,6-二氢胞嘧啶,5-碘胞嘧啶,羟基脲,碘尿嘧啶,5-硝基胞嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-氟尿嘧啶和5-碘尿嘧啶,腺嘌呤和鸟嘌呤的6-烷基衍生物,6-氮杂嘧啶,6-偶氮-尿嘧啶,6-偶氮胞嘧啶,氮杂胞嘧啶,6-偶氮-胸腺嘧啶,6-硫鸟嘌呤,7-甲基鸟嘌呤,7-甲基腺嘌呤,7-脱氮杂鸟嘌呤,7-脱氮杂鸟苷,7-脱氮杂-腺嘌呤,7-脱氮杂-8-氮杂鸟嘌呤,8-氮杂鸟嘌呤,8-氮杂腺嘌呤,8-卤素、8-氨基、8-硫醇、8-硫代烷基和8-羟基取代的腺嘌呤和鸟嘌呤;N4-乙基胞嘧啶,N-2取代的嘌呤,N-6取代的嘌呤,O-6取代的嘌呤,增加双链体形成的稳定性的那些,通用核酸,疏水核酸,混杂核酸,尺寸扩展的核酸,氟化核酸,三环嘧啶,吩噁嗪胞苷([5,4-b][1,4]苯并噁嗪-2(3H)-酮),吩噻嗪胞苷(1H-嘧啶并[5,4-b][1,4]苯并噻嗪-2(3H)-酮),G-夹,吩噁嗪胞苷(9-(2-氨基乙氧基)-H-嘧啶并[5,4-b][1,4]苯并噁嗪-2(3H)-酮),咔唑胞苷(2H-嘧啶并[4,5-b]吲哚-2-酮),吡啶并吲哚胞苷(H-吡啶并[3',2':4,5]吡咯并[2,3-d]嘧啶-2-酮),5-氟尿嘧啶,5-溴尿嘧啶,5-氯尿嘧啶,5-碘尿嘧啶,次黄嘌呤,黄嘌呤,4-乙酰基胞嘧啶,5-(羧基羟甲基)尿嘧啶,5-羧甲基氨甲基-2-硫尿苷,5-羧甲基氨甲基尿嘧啶,二氢尿嘧啶,β-D-半乳糖基辫苷,肌苷,N6-异戊烯基腺嘌呤,1-甲基鸟嘌呤,1-甲基肌苷,2,2-二甲基鸟嘌呤,2-甲基腺嘌呤,2-甲基鸟嘌呤,3-甲基胞嘧啶,5-甲基胞嘧啶,N6-腺嘌呤,7-甲基鸟嘌呤,5-甲基氨甲基尿嘧啶,5-甲氧基氨甲基-2-硫尿嘧啶,β-D-甘露糖基辫苷,5'-甲氧基羧甲基尿嘧啶,5-甲氧基尿嘧啶,2-甲硫基-N6-异戊烯基腺嘌呤,尿嘧啶-5氧乙酸,怀丁氧苷,假尿嘧啶,辫苷,2-硫代胞嘧啶,5-甲基-2-硫尿嘧啶,2-硫尿嘧啶,4-硫尿嘧啶,5-甲基尿嘧啶,尿嘧啶-5-氧杂乙酸甲基酯,尿嘧啶-5-氧杂乙酸,5-甲基-2-硫尿嘧啶,3-(3-氨基-3-N-2-羧丙基)尿嘧啶,(acp3)w和2,6-二氨基嘌呤以及嘌呤或嘧啶碱基被杂环替代。
在一些具体的实施方案中,DNA信息中所述两个以上脱氧核糖核苷酸组成的多核苷酸序列中的脱氧核糖核苷酸为天然脱氧核糖核苷酸或非天然脱氧核糖核苷酸。所述两个以上脱氧核糖核苷酸组成的多核苷酸序列中通过调节多核苷序列中脱氧核糖核苷酸的种类和数量的组合使其具有不同分子量。例如,采用包含四种天然碱基组合编码;或者是天然、非天然碱基混合编码。
由于本发明在解码过程中不需要测序,而是采用质谱的方式测定,因此,对于链种类中的核糖核苷酸或脱氧核糖核苷酸构成的链种类质量不同即可实现以质谱数据区分。
示例性地,所述编码表中包含128条组合多核苷酸序列,多核苷酸序列的长度分为8组,所述8组多核苷酸序列的长度依次延长,分别包含10-24个碱基的核苷酸,每组4条链种类,每组的4条链种类中的碱基种类和或数量不同。
示例性地,可以采用不同的修饰基团对四种脱氧核糖核苷酸进行修饰,在不同修饰基团的作用下,例如针对每种脱氧核糖核苷酸进行32种修饰,则可以得到128种不同的脱氧核糖核苷酸,而采用64种修饰,则可以得到256种不同的脱氧核糖核苷酸。如果增加核苷酸种类,则编码的种类数可以在上述基础上增加1倍。
在一些具体的实施方案中,还可以采用两种多核苷酸的组合、两种非天然脱氧核糖核苷酸的组合,或者多核苷酸与非天然脱氧核糖核苷酸的组合。
示例性地,以组合的形式能够增加编码表中DNA信息的种类,提高编码效率,例如准备32种不同核苷酸序列,并将其两两进行组合,可以获得最多1024种组合,可以选择其中的128种或256种用于设计编码表。
在一个具体的实施方案中,所述编码表中的DNA信息可以通过以下方法确认。首先,在该实施方案中仅采用天然核苷酸构成的多核苷酸,即A、T、C、G的脱氧核糖核酸构成的长度在10~24之间的多核苷酸序列,共设置8个长度梯度,每个长度梯度又设置四种不同碱基含量,相同长度的4种链可以任意组合出16种不同搭配(如表1所示,例如在第一长度梯度内的16种组合为a1a1,a1a2,a1a3,a1a4,a2a1,a2a2,a2a3,a2a4,a3a1,a3a2,a3a3,a3a4,a4a1,a4a2,a4a3,a4a4),因此总共有8×16=128种。例如,a1a1对应A4T2C2G2。
表1多核苷酸长度梯度与碱基组成对照表
将其分别对应于ASCII码表的128个元素,每个元素由8个bit的二进制数表示。
能够理解的,多核苷酸序列中核苷酸的数量是可以调节的,如果多核苷酸序列的数量选取的数量范围的上界越小所需的碱基数量则越少。上述示例性方案选择了4种碱基,而如果增加参与编码的碱基种类,则所需的碱基数量也会急剧减少。
将多核苷酸序列与数据信息一一映射,并形成编码表,示例性地,以上述表1所述的多核苷酸序列,即DNA信息以及8位二进制信息一一映射,制成编码128种信息的DNA信息与二进制数据编码表,纵列四位与横排四位二进制数字共同组成8位二进制数字,每一组8位二进制数字对应一组DNA信息,如表2所示:
表2DNA信息与数据信息编码表
例如:00000000对应a1a1,而a1a1对应的多核苷酸序列组合为A8T4C4G4构成的序列。
在另一个具体实施方案中,可以采用不同的修饰基团对四种脱氧核糖核苷酸进行修饰,在不同修饰基团的作用下,例如针对每种脱氧核糖核苷酸进行32种修饰,则可以得到128种不同的脱氧核糖核苷酸,而采用64种修饰,则可以得到256种不同的脱氧核糖核苷酸,。
将具有修饰碱基的核苷酸与数据信息匹配,并形成编码表。
具体地,以上述256种具有修饰碱基的核苷酸为例,将其与8位二进制信息匹配,可以获得256种的具有修饰碱基的核苷酸与二进制数据匹配表,如表3所示:
表3具有修饰碱基的核苷酸与数据信息匹配表
在表3中,其中A1表示第1种修饰的脱氧腺嘌呤核苷酸,依次类推,A、T、C、G+数字分别代表第N种修饰的脱氧核糖核苷酸。
示例性地,还可以选择32种不同修饰碱基的核糖核苷酸,共有128个不同的修饰碱基,直接与字符进行匹配,构成的编码表如下表4所示:
表4
在一些具体实施方案中,也可以采用直接编码的方式,将每个组合与字符进行直接映射,从而达到文本文件直接转换成DNA信息文件。例如采用上述表4编码表中的DNA信息,其与ASII表中的128种字符信息一一映射,形成编码表,则采用该编码表可以直接将文本中的字符信息转化为DNA信息。
S13)将步骤S11)中的数据信息拆分,并在步骤S12)获得的DNA信息与数据信息编码表依次确认拆分后的数据信息对应的DNA信息。
示例性地,当上述DNA信息与数据信息编码表中映射的数据信息为8位二进制数时,将步骤S11)中的数据信息拆分为8位二进制数,并依次在上述DNA信息与数据信息编码表寻找8位二进制数据对应的DNA信息。
S14)获得步骤S13)确认的链种类,并按顺序依次排列芯片的不同孔位,获得DNA信息存储载体;
根据步骤S13)确认的DNA信息,获得核苷酸或者多核苷酸序列方法可以是直接采用市售核苷酸或者针对不同的多核苷酸序列种类进行合成。也可以根据步骤S12)编码表中的种类进行大规模合成和储备,在储存时提取。
确认的核苷酸或者多核苷酸序列可以不进一步连接,而是直接按顺序排列在芯片的不同孔位,这可以减少合成步骤。
下面以几个具体的待存储数据演示本发明的方法,第一个具体的实施案例为存储英文单词和字符:Hello world!
待存储的信息为字符串“Hello world!”。先将该字符串中12个字符依次转换成12个8bit的二进制数,然后按照表1和表2的编码表将这些二进制数转换成不同多核苷酸序列组合。将不同字符对应的链种类合成后依次置于芯片的不同孔位,获得的包含所有信息的芯片,即为上述信息的存储介质。
此外,还可以以直接编码的形式对上述字符进行编码,如图2所示以字符与不同的DNA序列或带有不同修饰基团的非天然碱基的核糖核苷酸进行映射,如上表4所示,并进行编码和存储。
在第二个具体的实施方案中,待存储的信息为Goldman在12年的文章“Towardspractical,high-capacity,low-maintenance information storage in synthesizedDNA”编码的文本文件“wssnt10.txt”。
所述的wssnt10.txt如下所示:
首先将上述大小为107,738byte的文本直接编码转换成碱基组合信息文件,如“!”对应的多核苷酸组合为e1e2即碱基序列为“4A4T4C6G4A4T4C6G”。转换为DNA信息后示例性片段如下所示:
进一步转换为以碱基种类和数量显示的链种类,示例性片段如下所示:
根据获得的DNA信息,制备生物芯片,用于DNA信息存储。在第三个具体的实施方案中,待存储的信息为图片。
首先将图片信息转换成二进制数据,示例性片段如下所示:
生成的二进制文件根据上述表1和2的编码表进行编码操作,如“0100 0001”对应的多核苷酸组合为e1e2即碱基序列为“4A4T4C6G4A4T4C6G”。
转换为多核苷酸后示例性片段如下所示:
进一步转换为以碱基种类和数量显示的DNA信息,示例性片段如下所示:
对于碱基编码方式,前三个具体实施案例选取了4种天然碱基ATCG进行演示,但是本领域技术人员在采用本发明的方法进行编码时可以根据需要进行选择,可以多核苷酸序列,甚至其组合,也可以是单个的非天然碱基的脱氧核糖核苷酸,而不仅限于天然碱基的脱氧核糖核苷酸。这是本发明创新性地以质谱作为检测手段,质谱不但能区分天然碱基还能鉴定非天然碱基,做到了DNA测序无法做到的功能。
下面以非天然碱基氨脱氧核糖核酸为例,提供几种具体实施方案。
第四个具体的实施案例以存储傲慢与偏见原版第一章为示例进行演示,该文本文件大小为4,501字节,首先进行二进制编码的文本转换生成的二进制文件大小为36,008字节,如下图所示部分节选:
在该实施例中,将上述文本先转换为二进制数据,部分节选二进制数据信息如下所示,
2.将二进制数据根据上述编码表,即表3转换成多碱基序列文件大小为13,478字节,节选的编码后的序列信息如下所示:
将编码获得的DNA信息对应的核苷酸按照其顺序分别在生物芯片的不同孔位上进行存储。
从此实施例可以看出,每个核苷酸都能够编码8位二进制码从而本发明的逻辑编码能力可达8bit/nt,已经突破了现有的四碱基编码的理论极限。
第五个实施例待存储的信息依然是傲慢与偏见第一章文本,但与第四个实施例不同的是,在本实施例中,不将文本信息转换为二进制数据,而是直接以文本信息中的字符作为进行编码的信息数据。
采用上述的编码表,表4进行编码后可以直接获得对应的DNA信息,示例性的如下所示:
通过对比上述两个具体实施例的编码效率可知,直接编码(第五实施例)与间接编码(第四实施例)虽然编码密度都是8bit/nt,但是直接编码使用的修饰碱基种类更少,更为简便。
将上述编码后的核苷酸依次存储在芯片的不同孔位中,获得存储介质。
第六个实施方案中待存储的信息为图片文件,待存储的图片信息参见图9,图9原图为彩色图片。其RGB信息如下所示:
RGB格式信息:
将图片信息直接编码转换为核苷酸信息,编码后的序列信息如下所示:
将核苷酸依次存储在芯片的不同孔位中,获得存储介质。
还可以将该图片信息根据像素划分为不同的像素点,以不同的像素点的RGB像素信息作为数据信息。进一步设计编码表,所述的编码表中包含不同色彩,即RGB,分别在0-255深度时对应的DNA信息,并以此进行编码和存储。
实施例2基于天然及非天然碱基质谱解码的DNA信息解码方法
S21)将DNA信息存储载体中不同孔位待测序列进行质谱检测,获得每个孔位中的DNA信息的分子量信息;
本发明不同于现有技术中采用测序仪,需要对碱基的顺序进行测序,而是利用MALDI质谱测序将芯片上每一个位置的链种类中的碱基组合读取出来。
在信息纪录过程中,不同的核苷酸或者多核苷酸序列或者其组合被分置于不同的芯片孔位中,分别针对不同孔位中的待测序列进行质谱检测,并按照不同孔位的顺序将物质的峰打出。
在质谱结果中可以看到待测序列的分子量以及其受到轰击后的碎片峰,根据这些数据能够确认待测序在编码表中的DNA信息种类。
在质谱测序前还可以包括:
S211)将待测序列进行酶切以及纯化的步骤;
S212)将纯化后的片段进行质谱检测,获得分子量。
在步骤S211)中,进行纯化的方法为乙醇沉淀、微量透析或MillporeZiptip微量层析。
在步骤S21)中质谱测序的方法为MALDI质谱测序。
S22)并根据DNA信息的分子量信息分析其碱基组合信息确认不同孔位对应的DNA信息;
MALDI质谱测序能够将具有不同碱基的核糖核酸或脱氧核糖核酸以不同飞行时间序列的峰显示,从这些时间序列的峰中鉴定其所包含的碱基组合情况,将这些碱基组合直接翻译成其对应的不同的核酸序列。
S23)根据步骤S22)获得的DNA信息以及上述步骤S12)的编码表表解读数据信息单位;
步骤S23)中链种类与数据信息编码表为上述基于天然和非天然碱基的DNA存储方法中步骤S12)获得的链种类与数据信息编码表。
在一个具体的实施方案中,根据步骤S22)获得的链种类,在表2中确认对应的二进制数字,由于在表2中每两条链种类对应8位二进制数字,因此按照每两个序列链对应一个ASCII字符的方式进行转换,得到全部二进制数据;
S24)根据S23)获得的数据信息单位进行拼接,解码数据信息获得存储的计算机数据信息。
根据实施例1展示的6个具体的待存储数据的具体实施方案,分别对应给出其解码过程中的步骤:
首先针对存储英文单词和字符:Hello world!的芯片,先将芯片中不同12个孔位中的多核苷酸序列组合进行酶切和纯化,然后以MALDI质谱方式得到链种类中具体的核苷酸种类和数量。根据MALDI质谱结果可以确认每个孔位中所对应的多核苷酸序列的类型,并根据编码过程中所采用的DNA信息与数据信息编码表的对应关系,确认对应的二进制数,根据二进制数直接转换为对应的字符,即得到原始数据信息即字符串Hello world!。
在第二个具体实施方案,即存储的信息为Goldman在12年的文章“Towardspractical,high-capacity,low-maintenance information storage in synthesizedDNA”编码的文本文件“wssnt10.txt”。
先将芯片中不同孔位中的多核苷酸序列分别进行酶切和纯化,然后以MALDI质谱方式得到链种类中具体的核苷酸种类和数量。根据MALDI质谱结果可以确认每个孔位中所对应的DNA信息的类型,并根据编码过程中所采用的DNA信息与数据信息编码表的对应关系,将不同的编码碱基转换为对应的字符,即得到原始数据信息即文本文件“wssnt10.txt”。
在第三个具体实施方案,即存储的信息为图片信息。与前两个具体实施方案类型,区别仅在于将获得的二进制数据换转换为图片信息。
在第四个具体实施方案中,针对存储的傲慢与偏见第一章:先将芯片中不同孔位中的具有修饰碱基的核苷酸进行纯化,然后以MALDI质谱方式得到具有修饰碱基的核苷酸中具体的核苷酸种类和数量。根据MALDI质谱结果可以确认每个孔位中所对应的具有修饰碱基的核苷酸的类型,并根据编码过程中所采用的具有修饰碱基的核苷酸与数据信息匹配表的对应关系,确认对应的二进制数,根据二进制数直接转换为对应的字符,即得到原始数据信息即傲慢与偏见第一章。
在第五个具体实施方案,存储的信息为傲慢与偏见第一章。
先将芯片中不同孔位中的具有修饰碱基的核苷酸分别进行纯化,然后以MALDI质谱方式得到具有修饰碱基的核苷酸中具体的核苷酸种类、。根据MALDI质谱结果可以确认每个孔位中所对应的具有修饰碱基的核苷酸的类型,并根据编码过程中所采用的具有修饰碱基的核苷酸与数据信息匹配表的对应关系,可以直接确认对应的字符,根据字符进行拼接,即得到原始计算机数据信息。
在第六个具体实施方案,即存储的信息为图片信息。与第4和5个具体实施方案类似,区别仅在于将获得的二进制数据换转换为图片信息。
实施例3基于天然和非天然碱基质谱解码DNA存储的编码装置
对应于上文实施例1所述的编码方法,图5示出了本发明实施例3提供的编码装置的结构框图,为了便于说明,图5中仅示出了与本发明实施例3相关的部分。
参照图5,该编码装置可以包括:
数据信息提取单元,用于提取待存储计算机数据,并将待存储的计算机数据转换为信息对应的数据信息;
数据信息与DNA信息转换单元,用于根据预设的映射关系,将所述数据信息序列拆分或组装并转换为DNA信息;
合成和存储单元,用于合成数据信息与DNA信息转换单元转换获得的DNA序列,并按照顺序在存储单元芯片的不同孔位上保存DNA序列。
数据信息提取单元可以包含信息存储单元以及转换单元,信息存储单元能够用于存储和调用待存储的计算机信息,如文本、数字、图片、音频、视频等。转换单元能够将计算机信息以常规方法转换为任意一种数字信息,如字符、二进制数据信息、八进制数据信息、十六进制数据信息、十进制数据信息、RGB像素信息等。
数据信息与DNA信息转换单元可以包括DNA信息编码单元、DNA信息与数据信息匹配单元以及DNA信息信息转换单元。所述DNA信息编码单元用于记录每一种DNA信息对应的碱基种类和数量的组合。DNA信息和数据信息匹配单元用于调用DNA信息编码单元中的不同DNA信息与数据信息单位进行一一匹配和对应。所述DNA信息转换单元用于将数据信息提取单元中的数字信息根据DNA信息和数据信息匹配单元的信息一一转换为DNA信息。
在一个具体的技术方案中,可以仅选择4种不同碱基的脱氧核糖核苷酸即可形成至少128种不同的链种类。即通过不同数量的4种不同碱基的脱氧核糖核酸进行组合。链种类的长度在10~24之间共设置8个长度梯度,每个长度梯度又设置四种不同碱基含量的DNA链,相同长度的4种链可以任意组合出16种不同搭配。8种长度梯度,因此总共有8×16=128种。通过增加核苷酸种类或者调解链种类的长度都可以放大或缩小链种类的数量,以满足不同需求的信息存储量。
在另一个具体的技术方案中,可以仅选择4种脱氧核糖核苷酸,每种脱氧核糖核苷酸均进行32种后者64种不同的修饰,即可形成至少128种或256种不同的具有修饰碱基的核苷酸。通过增加核苷酸种类或者调节具有修饰碱基的核苷酸的修饰种类和数量都可以放大或缩小具有修饰碱基的核苷酸的数量,以满足不同需求的信息存储量。
合成和存储单元包括合成单元和存储单元,合成能够获得数据信息与DNA信息转换单元确认的存储信息用的DNA信息。存储单元能够存储记录了数据信息的DNA序列,存储单元为具有多个孔位的芯片,每个孔位容纳一条序列,换言之,每个孔位中对应DNA信息为一种。芯片上的孔位按顺序排列。
实施例4基于天然和非天然碱基质谱解码核酸存储的解码装置
对应于上文实施例2所述的解码方法,图6示出了本发明实施例4提供的解码装置的结构框图,为了便于说明,图6中仅示出了与本发明实施例4相关的部分。
参照图6,所述解码装置可以包括:
读取单元,用于通过质谱仪检测合成和存储单元中储存的待测序列,并根据分子量确认其DNA信息;
DNA信息与数据信息转换单元,用于根据预设的映射关系即DNA信息存储装置中相同的数据信息与DNA信息映射关系,将读取单元获得的DNA信息转换为数据信息;
所述读取模块包含了用于检测存储信息的芯片中对每个孔位中的核酸序列进行质谱检测的质谱仪,还可以包含对于每个孔位中的核酸序列进行纯化和或酶解等预处理。
计算机数据输出单元,用于将DNA信息与数据信息转换单元获得的数据信息转换为存储的计算机数据;
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图7为本发明实施例提供的计算机设备的结构示意图。如图7所示,该实施例的计算机设备包括:至少一个处理器(图7中仅示出一个)、存储以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明任意的存储方法以及解码办法。
所述计算机设备可以是笔记本电脑、台式电脑、平板电脑、手机等计算设备。该计算机设备设备至少包括处理器、存储器。本领域技术人员可以理解,图7仅仅是计算机设备的示意图,并不构成对计算机设备的限定,还可以包含其他部件,例如信息输入或输出部件。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
所述计算机可读存储介质还可以是计算机能够存取的任何可用介质或者是数据存储设备,例如可以用介质集成的服务器、数据中心等。所述可用介质可以是磁性介质、DVD或者半导体介质等。
本发明实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时可实现上述各个方法实施例中的步骤。
所述终端设备可以是通用计算机、掌上计算机、手机、专用计算机、计算机网络、或者其他可编程装置、或具有编程功能的存储装置。所述计算机程序可以存储在计算机可读存储介质中,或者通过网络向另一个计算机可读存储介质传输。
另外,本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述各个实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明各实施例所述的步骤和方法。
可以理解,本申请中描述的系统、装置和方法也可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述功能单位的划分,可以根据实际需要进行重新划分,并不影响其满足或完成本发明上述的功能和步骤。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。可以根据存储和解码的方法进行上述装置的单元进行合并或者重新的划分,也可以根据实际需要添加额外的功能单元以满足上述步骤和方法的要求。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (17)
1.基于天然和非天然碱基的DNA信息存储方法,其特征在于,所述DNA信息存储方法包括以下步骤:
S11):提取待存储计算机数据信息的数据信息;
S12):设计编码表,所述的编码表为DNA信息与数据信息单位进行一一映射所形成的;
S13)将步骤S11)中的数据信息拆分形成数据信息单位,并在步骤S12)获得编码表中依次确认拆分后的数据信息单位对应的DNA信息;
S14)获得步骤S13)确认的DNA信息所对应的脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列,并按顺序依次排列在芯片的不同孔位,获得DNA信息存储载体;
所述DNA信息为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列,或者为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列中任意两种的组合;
在编码表中,每种DNA信息的分子量均不相同,且两两之间的分子量差距不低于10;
所述编码表中将DNA信息与4位或8位二进制数一一映射;或者
所述编码表中将DNA信息与ASCII码表一一映射;或者
所述编码表中将DNA信息与128种字符一一映射;或者
所述编码表中将DNA信息与RGB像素信息一一映射;或者
所述编码表中DNA信息为128个或256个不同的具有修饰碱基的核苷酸,为分别针对A、T、C、G进行32种或64种不同种类的修饰,共获得128个或256个不同的具有修饰碱基的核苷酸;或者
所述编码表中将DNA信息中的一种与RGB像素信息中的色彩信息即R\G\B一一映射,DNA信息中的另一种与RGB像素信息色彩信息中的数字0-255一一映射,并将两种DNA信息的组合形成与RGB像素信息的一一映射关系;或者
所述编码表中包含128条组合多核苷酸序列,多核苷酸序列的长度分为8组,所述8组多核苷酸序列的长度依次延长,分别包含10-24个碱基的核苷酸,每组4条多核苷酸序列,每组的4条多核苷酸序列中的碱基种类和或数量不同。
2.根据权利要求1所述的DNA信息存储方法,其特征在于,所述脱氧核糖核苷酸为天然脱氧核糖核苷酸或非天然脱氧核糖核苷酸,所述非天然脱氧核糖核苷酸为进行了碱基修饰的脱氧核糖核苷酸。
3.根据权利要求1所述的DNA信息存储方法,其特征在于,所述两个以上脱氧核糖核苷酸组成的多核苷酸序列中的脱氧核糖核苷酸为天然脱氧核糖核苷酸或非天然脱氧核糖核苷酸。
4.根据权利要求3所述的DNA信息存储方法,其特征在于,所述两个以上脱氧核糖核苷酸组成的多核苷酸序列中通过调节多核苷序列中脱氧核糖核苷酸的种类和数量的组合使其具有不同分子量。
5.根据权利要求1所述的DNA信息存储方法,其特征在于,所述的编码表中形成的32种-1024种映射关系。
6.根据权利要求1所述的DNA信息存储方法,其特征在于,在步骤S11)中,所述数据信息为字符信息、RGB信息、二进制数据信息、八进制数据信息、十六进制数据信息、十进制数据信息。
7.根据权利要求1所述的DNA信息存储方法,其特征在于,在编码表中,每种DNA信息的分子量均不相同,且两两之间的分子量差距不低于10。
8.如权利要求1-7任一项所述的DNA信息存储方法获得DNA信息存储载体的信息读取方法,其特征在于,所述信息读取方法包含以下步骤:
S21) 将DNA信息存储载体中不同孔位待测序列进行质谱检测,获得每个孔位中的DNA信息的分子量信息;
S22) 并根据DNA信息的分子量信息分析其碱基组合信息确认不同孔位对应的DNA信息;
S23) 根据步骤S22)获得的DNA信息以及上述步骤S12)的编码表表解读数据信息单位;
S24) 根据S23)获得的数据信息单位进行拼接,解码数据信息获得存储的计算机数据信息。
9.根据权利要求8所述的信息读取方法,其特征在于,在步骤S21)中质谱测序的方法为MALDI质谱测序。
10.根据权利要求8所述的信息读取方法,其特征在于,在步骤S21)中质谱测序的方法包括以下步骤:
S211)将待测序列进行酶切和或纯化;
S212)将纯化后的片段进行质谱检测,获得分子量。
11.根据权利要求8所述的信息读取方法,其特征在于,步骤S211)中纯化的方法为乙醇沉淀、微量透析或MillporeZiptip微量层析。
12.一种的基于天然和非天然碱基DNA信息存储的编码装置,其特征在于,所述DNA信息存储装置包括:
数据信息提取单元,用于提取待存储计算机数据,并将待存储的计算机数据转换为信息对应的数据信息;
数据信息与DNA信息转换单元,用于根据预设的映射关系,将所述数据信息序列拆分或组装并转换为DNA信息;
合成和存储单元,用于合成数据信息与DNA信息转换单元转换获得的核酸序列,并按照顺序在存储单元芯片的不同孔位上保存DNA信息所对应的脱氧核糖核苷酸、由两个以上脱氧核糖核苷酸组成的多核苷酸序列或其组合;
所述的映射关系为DNA信息与数据信息单位进行一一映射的关系;
所述DNA信息为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列,或者为脱氧核糖核苷酸或者由两个以上脱氧核糖核苷酸组成的多核苷酸序列中任意两种的组合;
在映射关系中,每种DNA信息的分子量均不相同,且两两之间的分子量差距不低于10;
所述映射关系为将DNA信息与4位或8位二进制数一一映射;或者
所述映射关系为将DNA信息与ASCII码表一一映射;或者
所述映射关系为将DNA信息与128种字符一一映射;或者
所述映射关系为将DNA信息与RGB像素信息一一映射;或者
所述映射关系为DNA信息为128个或256个不同的具有修饰碱基的核苷酸,为分别针对A、T、C、G进行32种或64种不同种类的修饰,共获得128个或256个不同的具有修饰碱基的核苷酸;或者
所述映射关系为将DNA信息中的一种与RGB像素信息中的色彩信息即R\G\B一一映射,DNA信息中的另一种与RGB像素信息色彩信息中的数字0-255一一映射,并将两种DNA信息的组合形成与RGB像素信息的一一映射关系;或者
所述映射关系为包含128条组合多核苷酸序列,多核苷酸序列的长度分为8组,所述8组多核苷酸序列的长度依次延长,分别包含10-24个碱基的核苷酸,每组4条多核苷酸序列,每组的4条多核苷酸序列中的碱基种类和或数量不同。
13.根据权利要求12所述的DNA信息存储装置,其特征在于,数据信息与DNA信息转换单元包括DNA信息编码单元、DNA信息与数据信息匹配单元以及DNA信息转换单元;所述DNA信息编码单元用于记录每一种DNA信息对应的碱基种类和数量的组合;DNA信息和数据信息匹配单元用于调用DNA信息编码单元中的不同DNA信息与数据信息单位进行一一匹配和对应;所述DNA信息转换单元用于将数据信息提取单元中的数字信息根据DNA信息和数据信息匹配单元的信息一一转换为DNA信息。
14.一种的基于天然和非天然碱基的DNA信息存储的解码装置,其特征在于,所述解码装置包括:
读取单元,用于通过质谱仪检测权利要求12或13中DNA信息存储装置合成和存储单元中储存的待测序列,并根据分子量确认其DNA信息;
DNA信息与数据信息转换单元,用于根据预设的映射关系即DNA信息存储装置中相同的数据信息与DNA信息映射关系,将读取单元获得的DNA信息转换为数据信息;
计算机数据输出单元,用于将DNA信息与数据信息转换单元获得的数据信息转换为存储的计算机数据;
所述读取单元包含了用于检测存储信息的芯片中对每个孔位中的核酸序列进行质谱检测的质谱仪。
15.根据权利要求14所述的解码装置,其特征在于,所述读取单元还包含对于每个孔位中的待测序列进行预处理的单元。
16.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现权利要求1-7任一项所述的基于天然和非天然碱基的DNA信息存储方法或权利要求8-11任一项所述的DNA信息存储方法获得DNA信息存储载体的信息读取方法的步骤。
17.一种计算机设备,其特征在于,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-7任一项所述的基于天然和非天然碱基的DNA信息存储方法或权利要求8-11任一项所述的DNA信息存储方法获得DNA信息存储载体的信息读取方法的步骤。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202211594766.8A CN116030895B (zh) | 2022-12-13 | 2022-12-13 | 一种基于天然和非天然碱基的dna信息存储方法 |
| PCT/CN2023/133791 WO2024125260A1 (zh) | 2022-12-13 | 2023-11-23 | 一种基于天然和非天然碱基的dna信息存储方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202211594766.8A CN116030895B (zh) | 2022-12-13 | 2022-12-13 | 一种基于天然和非天然碱基的dna信息存储方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN116030895A CN116030895A (zh) | 2023-04-28 |
| CN116030895B true CN116030895B (zh) | 2025-08-29 |
Family
ID=86076754
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202211594766.8A Active CN116030895B (zh) | 2022-12-13 | 2022-12-13 | 一种基于天然和非天然碱基的dna信息存储方法 |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN116030895B (zh) |
| WO (1) | WO2024125260A1 (zh) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116030895B (zh) * | 2022-12-13 | 2025-08-29 | 中国科学院深圳先进技术研究院 | 一种基于天然和非天然碱基的dna信息存储方法 |
| CN116436974B (zh) * | 2023-06-15 | 2023-08-11 | 国能日新科技股份有限公司 | 一种数据传输方法及系统 |
| CN119475378B (zh) * | 2024-10-28 | 2025-12-05 | 南京大学 | 基于非天然dna的信息加密方法及信息解码方法 |
| CN119649874B (zh) * | 2024-11-28 | 2025-08-12 | 天津大学 | 一种复合碱基dna存储的多进制编码与读出方法 |
| CN120336330B (zh) * | 2025-06-19 | 2025-09-23 | 中国电子技术标准化研究院((工业和信息化部电子工业标准化研究院)(工业和信息化部电子第四研究院)) | 一种基于dna编码的信息存储方法 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019040871A1 (en) * | 2017-08-24 | 2019-02-28 | Miller Julian | DEVICE FOR ENCODING AND STORING INFORMATION USING ARTIFICIALLY EXPANDED ALPHABETS OF NUCLEIC ACIDS AND OTHER ANALOGOUS POLYMERS |
| CN114283886A (zh) * | 2021-12-22 | 2022-04-05 | 博奥生物集团有限公司 | 一种耐药基因鉴定方法、系统及电子设备 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111373051A (zh) * | 2017-10-10 | 2020-07-03 | 罗斯威尔生命技术公司 | 用于无扩增dna数据存储的方法、装置和系统 |
| AU2019236289B2 (en) * | 2018-03-16 | 2024-12-05 | Catalog Technologies, Inc. | Chemical methods for nucleic acid-based data storage |
| EP3794598A1 (en) * | 2018-05-16 | 2021-03-24 | Catalog Technologies, Inc. | Compositions and methods for nucleic acid-based data storage |
| CN112288089B (zh) * | 2020-09-28 | 2022-12-20 | 清华大学 | 阵列式核酸信息存储方法及装置 |
| EP4222742A1 (en) * | 2020-09-29 | 2023-08-09 | Ecole Polytechnique Federale De Lausanne (Epfl) | Systems and methods for digital information decoding and data storage in hybrid macromolecules |
| CN113096742B (zh) * | 2021-04-14 | 2022-06-14 | 湖南科技大学 | 一种dna信息存储并行寻址写入方法及系统 |
| CN115206430B (zh) * | 2022-06-20 | 2025-09-23 | 清华大学深圳国际研究生院 | 基于dna的信息编码方法、解码方法及计算机可读存储介质 |
| CN116030895B (zh) * | 2022-12-13 | 2025-08-29 | 中国科学院深圳先进技术研究院 | 一种基于天然和非天然碱基的dna信息存储方法 |
-
2022
- 2022-12-13 CN CN202211594766.8A patent/CN116030895B/zh active Active
-
2023
- 2023-11-23 WO PCT/CN2023/133791 patent/WO2024125260A1/zh not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019040871A1 (en) * | 2017-08-24 | 2019-02-28 | Miller Julian | DEVICE FOR ENCODING AND STORING INFORMATION USING ARTIFICIALLY EXPANDED ALPHABETS OF NUCLEIC ACIDS AND OTHER ANALOGOUS POLYMERS |
| CN114283886A (zh) * | 2021-12-22 | 2022-04-05 | 博奥生物集团有限公司 | 一种耐药基因鉴定方法、系统及电子设备 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN116030895A (zh) | 2023-04-28 |
| WO2024125260A1 (zh) | 2024-06-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN116030895B (zh) | 一种基于天然和非天然碱基的dna信息存储方法 | |
| US11379729B2 (en) | Nucleic acid-based data storage | |
| US20230376787A1 (en) | Nucleic acid-based data storage | |
| US11164661B2 (en) | Integrated system for nucleic acid-based storage and retrieval of digital data using keys | |
| Carøe et al. | Single‐tube library preparation for degraded DNA | |
| Underhill et al. | The phylogenetic and geographic structure of Y-chromosome haplogroup R1a | |
| US10706017B2 (en) | Methods and systems for storing sequence read data | |
| EP3659147A1 (en) | Dna-based data storage and retrieval | |
| Promerova et al. | Evaluation of two approaches to genotyping major histocompatibility complex class I in a passerine—CE‐SSCP and 454 pyrosequencing | |
| JP2023534124A (ja) | 遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器 | |
| WO2015193140A1 (en) | Method and apparatus for encoding information units in code word sequences avoiding reverse complementarity | |
| Xu et al. | An efficient pipeline for ancient DNA mapping and recovery of endogenous ancient DNA from whole‐genome sequencing data | |
| He et al. | Multiple founding paternal lineages inferred from the newly-developed 639-plex Y-SNP panel suggested the complex admixture and migration history of Chinese people | |
| Kay et al. | Mitochondrial DNAs provide insight into trypanosome phylogeny and molecular evolution | |
| WO2022082573A1 (zh) | 存有数据信息的dna序列的处理方法及装置 | |
| US11775172B1 (en) | Genome data compression and transmission method for FASTQ-formatted genome data | |
| Vinogradov et al. | SiteProb: Yet another algorithm to find regulatory signals in nucleotide sequences | |
| Bhattacharyya et al. | Recent directions in compressing next generation sequencing data | |
| HK40082992A (zh) | 高通量测序背景下的基因数据处理方法、装置及相关设备 | |
| US20250239331A1 (en) | Combinatorial enumeration and search for nucleic acid-based data storage | |
| Rescheneder | Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates | |
| KR20230160898A (ko) | 고정 소수점 숫자 표현 및 계산 회로 | |
| CN120700105A (zh) | 含非天然碱基的混合dna链的合成方法、非天然碱基的识别检出方法及其应用 | |
| Ginja et al. | Genomic Analyses of Iron Age Cattle Specimens from Althiburos, Tunisia, Support an Independent and Local Origin of African Taurine Cattle in the Maghreb |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant |