WO2012037877A1

WO2012037877A1 - Dna标签及其应用

Info

Publication number: WO2012037877A1
Application number: PCT/CN2011/079899
Authority: WO
Inventors: 章文蔚; 田方; 陈海燕; 于竞; 龚梅花; 张艳艳; 周妍; 汪建
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2010-09-21
Filing date: 2011-09-20
Publication date: 2012-03-29
Anticipated expiration: 2013-03-21
Also published as: CN101967476B; CN101967476A; HK1153226A1

Description

DNA标签及其应用优先权信息

本申请请求 2010 年 9 月 21 日向中国国家知识产权局提交的、专利申请号为 201010299261.X的专利申请的优先权和权益，并且通过参照将其全文并入此处。

技术领域

本发明涉及核酸测序技术领域，特别是 DNA测序技术领域。具体的，本发明涉及用于 DNA测序的 DNA标签及其应用。更具体的，本发明提供了用于构建 DNA标签文库的 DNA标签、寡核苷酸、 DNA标签文库及其制备方法、确定 DNA样品序列信息的方法、确定多种 DNA样品序列信息的方法以及用于构建 DNA标签文库的试剂盒。背景技术

DNA测序技术，是重要的分子生物学分析方法之一，它不仅为基因表达、基因调控等生物学基础研究提供重要数据，而且也在疾病诊断学、基因治疗等应用研究中起着重要的作用。基于 Solexa DNA测序平台（ Illumina ) , 釆用边合成边测序（ Sequencing By Synthesis, SBS ) , 具有所需样品量少，高通量，高精确性，拥有筒单易操作的自动化平台和功能强大等特点（例如参见 Paired- End sequencing User Guide ;Illumina part#1003880 ； Preparing samples for ChIP sequencing for DNA;Illumina part#l 1257047 Rev. A ； mRNA sequencing sample preparation Guide; Illumina part#1004898 Rev.D ； Preparing 2-5kb samples for mate pair library sequencing; Illumina part#1005363 Rev.B , 通过参照将其全文并入本文）。

然而，目前对样品 DNA进行测序的方法，仍有待改进。

发明内容

本发明是基于发明人的下列发现而完成的：

目前 Illumina公司基于 Solexa DNA测序平台推出了 DNA标签（也称为 index )建库方法。如图 1所示，在 DNA标签建库流程中，使用了 3条 PCR引物，通过 PCR导入标签来构建 DNA标签文库 ( Preparing samples for multiplexed Paired-End sequencing; Illumina part#1005361 Rev.B , 通过参照将其全文并入本文）。本申请的发明人发现，上述标签文库制备方法存在着一些缺陷：第一、目前 Illumina公司只提供了 12种长度为 6bp的标签序列，标签的数量较少，随着 Solexa测序通量的增加，不能对大量样本进行混合测序，从而将浪费测序资源和影响到测序通量；第二、上述标签建库方法是通过 PCR反应将标签序列导入到目的片段文库中的，其对目的片段的 PCR扩增过程需要釆用 3条 PCR引物（两条公用 PCR引物和一条 PCR标签引物，如图 1所示），耗时耗材，且 PCR扩增效率不高。第三、上述标签建库方法中所釆用的接头不包含标签序列，因此对多种样品 DNA进行建库测序时，各样品的标签文库需要独立构建，即各自分别通过 PCR反应来导入标签序列，接着针对每一个标签文库分别切胶回收，然后将切胶回收所得的各个标签文库进行混合，最后才能将多种样品标签文库的混合物进行测序，不仅费时费力，而且费用较高。

本发明旨在解决现有技术问题的至少之一。为此，本发明的一个方面，提出了一种能够用于构建 DNA标签文库的 DNA标签（在本文中，有时也筒单地称为 "标签" ）。根据本发明的一个方面，本发明提出了一组分离的 DNA标签。根据本发明的一些实施例，这些分离的 DNA标签由 SEQ ID NO: ( 2N-1 ) 所示的核苷酸构成，其中 N=l-161 的任意整数。在本说明书中，这些 DNA标签分别被命名为 DNA Index-N,其中 N=l-161 的任意整数，其序列如下表 1所示。利用上述根据本发明实施例的 DNA标签，通过将 DNA标签与样品 DNA或其等同物相连，可以精确地表征 DNA的样品来源。由此，利用上述 DNA标签，可以同时构建多种样品的 DNA标签文库（在本文中，有时也称为 "标签文库" ；），从而可以通过将来源于不同样品的 DNA标签文库混合之后进行测序，并且能够基于 DNA标签对 DNA标签文库的 DNA序列进行分类，从而可以获得多种样品的 DNA序列信息，由此可以充分利用高通量的测序技术，例如利用 Solexa测序技术，同时对多种 DNA标签文库进行测序，从而提高 DNA标签文库的测序效率和通量。发明人惊奇地发现，利用根据本发明实施例的 DNA标签构建 DNA标签文库，能够精确地对多种 DNA标签文库进行区分，并且所得到的测序数据结果的稳定性和可重复性非常好。

根据本发明的另一方面，本发明还提供了用于将上述 DNA标签引入样品 DNA或其等同物中的一组分离的寡核苷酸。根据本发明的实施例的一组分离的寡核苷酸，具有第一链和第二链，所述第一链由 SEQ ID NO: 323所示的核苷酸构成，所述第二链分别由 SEQ ID NO: ( 2N ) 所示的核苷酸构成，其中 N=l-161的任意整数。根据本发明的实施例，这些寡核苷酸（在本说明书中，有时也称为 "DNA PCR-Free标签接头"、 "PCR-Free 标签接头" ）分别具有如前所述的根据本发明实施例的 DNA标签，并且具有粘性末端 T, 因而，可以通过连接反应，将相应的 DNA标签引入到 DNA或其等同物中。与 DNA标签的命名方法类似，在本说明书中，与 DNA标签 DNA Index-N相对应的寡核苷酸（ DNA PCR-Free标签接头）被命名为 DNA PCR-Free Index-N adapter,其中 N=l-161的任意整数，进一步， DNA PCR-Free标签接头的第一链和第二链分别被命名为 DNA PCR-Free 接头 1.0和 PCR-Free Index-N, 其中 N=l-161的任意整数，其序列如下表 1所示（表中所示序列方向均是 5' - 3'方向）。根据本发明的实施例，可以通过将 DNA PCR-Free 接头 1.0与 PCR-Free Index-N进行等摩尔退火处理而形成相应的具 Y型结构的 DNA PCR-Free标签接头。

DNA标签序列（ DNA Index-N ) 及其相应的 DNA PCR-Free标签接头序列

DNA Index-8 CCTAACGT(15)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCTAACGTATCTCGTATGCCGTCTTCT

PCR-Free Index-8

GCTTG(16)

DNA Index-9 CACGTAGT(17)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCACGTAGTATCTCGTATGCCGTCTTCT

PCR-Free Index-9

GCTTG(18)

DNA Index-10 GTAAGAGT(19)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTAAGAGTATCTCGTATGCCGTCTTCT

PCR-Free Index-10

GCTTG(20)

DNA Index-11 TACCTTCT(21)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTACCTTCTATCTCGTATGCCGTCTTCT

PCR-Free Index-11

GCTTG(22)

DNA Index-12 AAGTCTCT(23)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAAGTCTCTATCTCGTATGCCGTCTTCT

PCR-Free Index-12

GCTTG(24)

DNA Index-13 AGAGATCT(25)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGAGATCTATCTCGTATGCCGTCTTCT

PCR-Free Index-13

GCTTG(26)

DNA Index-14 CCAGCGCT(27)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCAGCGCTATCTCGTATGCCGTCTTCT

PCR-Free Index-14

GCTTG(28)

DNA Index-15 ATGAACCT(29)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATGAACCTATCTCGTATGCCGTCTTCT

PCR-Free Index-15

GCTTG(30)

DNA Index-16 ACCAGACT(31)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACCAGACTATCTCGTATGCCGTCTTCT

PCR-Free Index-16

GCTTG(32)

DNA Index-17 CTATAACT(33)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTATAACTATCTCGTATGCCGTCTTCT

PCR-Free Index-17

GCTTG(34)

DNA Index-18 GCGGAACT(35)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCGGAACTATCTCGTATGCCGTCTTCT

PCR-Free Index-18

GCTTG(36)

DNA Index-19 CTAGTTAT(37)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTAGTTATATCTCGTATGCCGTCTTCT

PCR-Free Index-19

GCTTG(38)

DNA Index-20 TCTTATAT(39)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTCTTATATATCTCGTATGCCGTCTTCT

PCR-Free Index-20

GCTTG(40)

DNA Index-21 GAATCGAT(41)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGAATCGATATCTCGTATGCCGTCTTCT

PCR-Free Index-21

GCTTG(42)

DNA Index-22 AATAAGAT(43)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAATAAGATATCTCGTATGCCGTCTTCT

PCR-Free Index-22

GCTTG(44) DNA Index-23 TATGCCAT(45)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTATGCCATATCTCGTATGCCGTCTTCT

PCR-Free Index-23

GCTTG(46)

DNA Index-24 ATTCTAAT(47)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATTCTAATATCTCGTATGCCGTCTTCT

PCR-Free Index-24

GCTTG(48)

DNA Index-25 TAATGTTG(49)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAATGTTGATCTCGTATGCCGTCTTCT

PCR-Free Index-25

GCTTG(50)

DNA Index-26 GTTACTTG(51)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTTACTTGATCTCGTATGCCGTCTTCT

PCR-Free Index-26

GCTTG(52)

DNA Index-27 ATTCACTG(53)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATTCACTGATCTCGTATGCCGTCTTCT

PCR-Free Index-27

GCTTG(54)

DNA Index-28 ATCATATG(55)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCATATGATCTCGTATGCCGTCTTCT

PCR-Free Index-28

GCTTG(56)

DNA Index-29 GCTTAATG(57)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCTTAATGATCTCGTATGCCGTCTTCT

PCR-Free Index-29

GCTTG(58)

DNA Index-30 GGATATGG(59)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGATATGGATCTCGTATGCCGTCTTCT

PCR-Free Index-30

GCTTG(60)

DNA Index-31 CTTGATGG(61)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTTGATGGATCTCGTATGCCGTCTTCT

PCR-Free Index-31

GCTTG(62)

DNA Index-32 AAGATCGG(63)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAAGATCGGATCTCGTATGCCGTCTTCT

PCR-Free Index-32

GCTTG(64)

DNA Index-33 TTAACCGG(65)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTAACCGGATCTCGTATGCCGTCTTCT

PCR-Free Index-33

GCTTG(66)

DNA Index-34 CTAAGTCG(67)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTAAGTCGATCTCGTATGCCGTCTTCT

PCR-Free Index-34

GCTTG(68)

DNA Index-35 TATTCGCG(69)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTATTCGCGATCTCGTATGCCGTCTTCT

PCR-Free Index-35

GCTTG(70)

DNA Index-36 GAAGCACG(71)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGAAGCACGATCTCGTATGCCGTCTTCT

PCR-Free Index-36

GCTTG(72)

DNA Index-37 TCCAGTAG(73)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTCCAGTAGATCTCGTATGCCGTCTTCT

PCR-Free Index-37

GCTTG(74) DNA Index-38 TTGTCTAG(75)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTGTCTAGATCTCGTATGCCGTCTTCT

PCR-Free Index-38

GCTTG(76)

DNA Index-39 AGCGCTAG(77)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGCGCTAGATCTCGTATGCCGTCTTCT

PCR-Free Index-39

GCTTG(78)

DNA Index-40 CCTGTGAG(79)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCTGTGAGATCTCGTATGCCGTCTTCT

PCR-Free Index-40

GCTTG(80)

DNA Index-41 CAACTAAG(81)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCAACTAAGATCTCGTATGCCGTCTTCT

PCR-Free Index-41

GCTTG(82)

DNA Index-42 ATAGGAAG(83)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATAGGAAGATCTCGTATGCCGTCTTCT

PCR-Free Index-42

GCTTG(84)

DNA Index-43 ACTACAAG(85)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACTACAAGATCTCGTATGCCGTCTTCT

PCR-Free Index-43

GCTTG(86)

DNA Index-44 GATGGTTC(87)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGATGGTTCATCTCGTATGCCGTCTTCT

PCR-Free Index-44

GCTTG(88)

DNA Index-45 CCACATTC(89)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCACATTCATCTCGTATGCCGTCTTCT

PCR-Free Index-45

GCTTG(90)

DNA Index-46 TCTTGGTC(91)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTCTTGGTCATCTCGTATGCCGTCTTCT

PCR-Free Index-46

GCTTG(92)

DNA Index-47 CGAGGATC(93)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGAGGATCATCTCGTATGCCGTCTTCT

PCR-Free Index-47

GCTTG(94)

DNA Index-48 AGTCCATC(95)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGTCCATCATCTCGTATGCCGTCTTCT

PCR-Free Index-48

GCTTG(96)

DNA Index-49 CACTAATC(97)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCACTAATCATCTCGTATGCCGTCTTCT

PCR-Free Index-49

GCTTG(98)

DNA Index-50 TAAGGCGC(99)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAAGGCGCATCTCGTATGCCGTCTTCT

PCR-Free Index-50

GCTTG(IOO)

DNA Index-51 AATAGAGC(lOl)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAATAGAGCATCTCGTATGCCGTCTTCT

PCR-Free Index-51

GCTTG(102)

DNA Index-52 ACTGTTCC(103)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACTGTTCCATCTCGTATGCCGTCTTCT

PCR-Free Index-52

GCTTG(104) DNA Index-53 CTTCCTCC(IOS)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTTCCTCCATCTCGTATGCCGTCTTCT

PCR-Free Index-53

GCTTG(106)

DNA Index-54 GCGACTCC(107)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCGACTCCATCTCGTATGCCGTCTTCT

PCR-Free Index-54

GCTTG(108)

DNA Index-55 TACAGGCC(109)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTACAGGCCATCTCGTATGCCGTCTTCT

PCR-Free Index-55

GCTTG(llO)

DNA Index-56 GTTAAGCC(lll)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTTAAGCCATCTCGTATGCCGTCTTCT

PCR-Free Index-56

GCTTG(112)

DNA Index-57 TAATTACC(113)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAATTACCATCTCGTATGCCGTCTTCT

PCR-Free Index-57

GCTTG(114)

DNA Index-58 ATAACACC(115)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATAACACCATCTCGTATGCCGTCTTCT

PCR-Free Index-58

GCTTG(116)

DNA Index-59 CGTAGGAC(117)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGTAGGACATCTCGTATGCCGTCTTCT

PCR-Free Index-59

GCTTG(118)

DNA Index-60 CTCTCGAC(119)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTCTCGACATCTCGTATGCCGTCTTCT

PCR-Free Index-60

GCTTG(120)

DNA Index-61 CTACGCAC(121)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTACGCACATCTCGTATGCCGTCTTCT

PCR-Free Index-61

GCTTG(122)

DNA Index-62 AGGTTAAC(123)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGGTTAACATCTCGTATGCCGTCTTCT

PCR-Free Index-62

GCTTG(124)

DNA Index-63 GTTGCAAC(125)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTTGCAACATCTCGTATGCCGTCTTCT

PCR-Free Index-63

GCTTG(126)

DNA Index-64 CTCAATTA(127)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTCAATTAATCTCGTATGCCGTCTTCT

PCR-Free Index-64

GCTTG(128)

DNA Index-65 CAAGTCTA(129)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCAAGTCTAATCTCGTATGCCGTCTTCT

PCR-Free Index-65

GCTTG(130)

DNA Index-66 ACAACCTA(131)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACAACCTAATCTCGTATGCCGTCTTCT

PCR-Free Index-66

GCTTG(132)

DNA Index-67 CTACCATA(133)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTACCATAATCTCGTATGCCGTCTTCT

PCR-Free Index-67

GCTTG(134) DNA Index-68 GACACATA(135)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGACACATAATCTCGTATGCCGTCTTCT

PCR-Free Index-68

GCTTG(136)

DNA Index-69 AGATAATA(137)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGATAATAATCTCGTATGCCGTCTTCT

PCR-Free Index-69

GCTTG(138)

DNA Index-70 CGCGGTGA(139)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGCGGTGAATCTCGTATGCCGTCTTCT

PCR-Free Index-70

GCTTG(140)

DNA Index-71 TACTATGA(141)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTACTATGAATCTCGTATGCCGTCTTCT

PCR-Free Index-71

GCTTG(142)

DNA Index-72 TTGTTGGA(143)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTGTTGGAATCTCGTATGCCGTCTTCT

PCR-Free Index-72

GCTTG(144)

DNA Index-73 AGTGAGGA(145)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGTGAGGAATCTCGTATGCCGTCTTCT

PCR-Free Index-73

GCTTG(146)

DNA Index-74 ATCGCCGA(147)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCGCCGAATCTCGTATGCCGTCTTCT

PCR-Free Index-74

GCTTG(148)

DNA Index-75 CTTATAGA(149)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTTATAGAATCTCGTATGCCGTCTTCT

PCR-Free Index-75

GCTTG(150)

DNA Index-76 CCATGAGA(lSl)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCATGAGAATCTCGTATGCCGTCTTCT

PCR-Free Index-76

GCTTG(152)

DNA Index-77 TCACCTCA(153)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTCACCTCAATCTCGTATGCCGTCTTCT

PCR-Free Index-77

GCTTG(154)

DNA Index-78 ACCTTGCA(155)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACCTTGCAATCTCGTATGCCGTCTTCT

PCR-Free Index-78

GCTTG(156)

DNA Index-79 ATACTCCA(157)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATACTCCAATCTCGTATGCCGTCTTCT

PCR-Free Index-79

GCTTG(158)

DNA Index-80 GTTCGACA(159)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTTCGACAATCTCGTATGCCGTCTTCT

PCR-Free Index-80

GCTTG(160)

DNA Index-81 CATCATAA(161)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCATCATAAATCTCGTATGCCGTCTTCT

PCR-Free Index-81

GCTTG(162)

DNA Index-82 CACATGAA(163)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCACATGAAATCTCGTATGCCGTCTTCT

PCR-Free Index-82

GCTTG(164) DNA Index-83 ATGAGGAA(165)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATGAGGAAATCTCGTATGCCGTCTTCT

PCR-Free Index-83

GCTTG(166)

DNA Index-84 TCCTCCAA(167)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTCCTCCAAATCTCGTATGCCGTCTTCT

PCR-Free Index-84

GCTTG(168)

DNA Index-85 TTAGACAA(169)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTAGACAAATCTCGTATGCCGTCTTCT

PCR-Free Index-85

GCTTG(170)

DNA Index-86 GTCCAGAA(171)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTCCAGAAATCTCGTATGCCGTCTTCT

PCR-Free Index-86

GCTTG(172)

DNA Index-87 ATCTATCG(173)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCTATCGATCTCGTATGCCGTCTTCT

PCR-Free Index-87

GCTTG(174)

DNA Index-88 TTACTGTT(175)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTACTGTTATCTCGTATGCCGTCTTCT

PCR-Free Index-88

GCTTG(176)

DNA Index-89 ACACGCGG(177)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACACGCGGATCTCGTATGCCGTCTTCT

PCR-Free Index-89

GCTTG(178)

DNA Index-90 TATCCAGA(179)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTATCCAGAATCTCGTATGCCGTCTTCT

PCR-Free Index-90

GCTTG(180)

DNA Index-91 TAGGAATA(181)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAGGAATAATCTCGTATGCCGTCTTCT

PCR-Free Index-91

GCTTG(182)

DNA Index-92 GAACGTGA(183)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGAACGTGAATCTCGTATGCCGTCTTCT

PCR-Free Index-92

GCTTG(184)

DNA Index-93 CCGCACAG(185)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCGCACAGATCTCGTATGCCGTCTTCT

PCR-Free Index-93

GCTTG(186)

DNA Index-94 ATTGCGTT(187)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATTGCGTTATCTCGTATGCCGTCTTCT

PCR-Free Index-94

GCTTG(188)

DNA Index-95 TCGTAAGC(189)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTCGTAAGCATCTCGTATGCCGTCTTCT

PCR-Free Index-95

GCTTG(190)

DNA Index-96 CCGTCACG(191)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCGTCACGATCTCGTATGCCGTCTTCT

PCR-Free Index-96

GCTTG(192)

DNA Index-97 GCGAAGTA(193)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCGAAGTAATCTCGTATGCCGTCTTCT

PCR-Free Index-97

GCTTG(194) DNA Index-98 GGACTGCG(195)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGACTGCGATCTCGTATGCCGTCTTCT

PCR-Free Index-98

GCTTG(196)

DNA Index-99 GAGCATTG(197)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGAGCATTGATCTCGTATGCCGTCTTCT

PCR-Free Index-99

GCTTG(198)

DNA Index-100 TCGCCGTG(199)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTCGCCGTGATCTCGTATGCCGTCTTCT

PCR-Free Index-100

GCTTG(200)

DNA Index-101 CAGCGGCG(201)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCAGCGGCGATCTCGTATGCCGTCTTCT

PCR-Free Index-qOl

GCTTG(202)

DNA Index-102 AAGGATGC(203)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAAGGATGCATCTCGTATGCCGTCTTCT

PCR-Free Index-102

GCTTG(204)

DNA Index-103 GCAATGGC(205)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCAATGGCATCTCGTATGCCGTCTTCT

PCR-Free Index-103

GCTTG(206)

DNA Index-104 GTATTCTC(207)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTATTCTCATCTCGTATGCCGTCTTCT

PCR-Free Index-104

GCTTG(208)

DNA Index-105 GTCATTAC(209)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTCATTACATCTCGTATGCCGTCTTCT

PCR-Free Index-105

GCTTG(210)

DNA Index-106 ATCCAAGC(211)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCCAAGCATCTCGTATGCCGTCTTCT

PCR-Free Index-106

GCTTG(212)

DNA Index-107 GGTATACT(213)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGTATACTATCTCGTATGCCGTCTTCT

PCR-Free Index-107

GCTTG(214)

DNA Index-108 TTGCGTGC(215)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTGCGTGCATCTCGTATGCCGTCTTCT

PCR-Free Index-108

GCTTG(216)

DNA Index-109 TCCGACGG(217)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTCCGACGGATCTCGTATGCCGTCTTCT

PCR-Free Index-109

GCTTG(218)

DNA Index-110 GCAGGCAT(219)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCAGGCATATCTCGTATGCCGTCTTCT

PCR-Free Index-110

GCTTG(220)

DNA Index-Ill GCCAGCGA(221)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCCAGCGAATCTCGTATGCCGTCTTCT

PCR-Free Index-Ill

GCTTG(222)

DNA Index-112 CACACTGG(223)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCACACTGGATCTCGTATGCCGTCTTCT

PCR-Free Index-112

GCTTG(224) DNA Index-113 GGCCTCGC(225)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGCCTCGCATCTCGTATGCCGTCTTCT

PCR-Free Index-113

GCTTG(226)

DNA Index-114 GGCGCGCA(227)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGCGCGCAATCTCGTATGCCGTCTTCT

PCR-Free Index-114

GCTTG(228)

DNA Index-115 CGCCACCT(229)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGCCACCTATCTCGTATGCCGTCTTCT

PCR-Free Index-115

GCTTG(230)

DNA Index-116 CATGCGGC(231)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCATGCGGCATCTCGTATGCCGTCTTCT

PCR-Free Index-116

GCTTG(232)

DNA Index-117 GGCAACAG(233)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGCAACAGATCTCGTATGCCGTCTTCT

PCR-Free Index-117

GCTTG(234)

DNA Index-118 CGGTATCA(235)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGGTATCAATCTCGTATGCCGTCTTCT

PCR-Free Index-118

GCTTG(236)

DNA Index-119 CGGCCAAT(237)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGGCCAATATCTCGTATGCCGTCTTCT

PCR-Free Index-119

GCTTG(238)

DNA Index-120 AGCCGTCC(239)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGCCGTCCATCTCGTATGCCGTCTTCT

PCR-Free Index-120

GCTTG(240)

DNA Index-121 ACAGAGTG(241)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACAGAGTGATCTCGTATGCCGTCTTCT

PCR-Free Index-121

GCTTG(242)

DNA Index-122 ACGCAGCC(243)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACGCAGCCATCTCGTATGCCGTCTTCT

PCR-Free Index-122

GCTTG(244)

DNA Index-123 GAGCTGAC(245)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGAGCTGACATCTCGTATGCCGTCTTCT

PCR-Free Index-123

GCTTG(246)

DNA Index-124 TGATGGCT(247)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGATGGCTATCTCGTATGCCGTCTTCT

PCR-Free Index-124

GCTTG(248)

DNA Index-125 TGAATCAT(249)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGAATCATATCTCGTATGCCGTCTTCT

PCR-Free Index-125

GCTTG(250)

DNA Index-126 TGACAGAC(251)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGACAGACATCTCGTATGCCGTCTTCT

PCR-Free Index-126

GCTTG(252)

DNA Index-127 GTGGTCGT(253)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTGGTCGTATCTCGTATGCCGTCTTCT

PCR-Free Index-127

GCTTG(254) DNA Index-128 GCGTGGAG(255)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCGTGGAGATCTCGTATGCCGTCTTCT

PCR-Free Index-128

GCTTG(256)

DNA Index-129 ACTTCCGC(257)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACTTCCGCATCTCGTATGCCGTCTTCT

PCR-Free Index-129

GCTTG(258)

DNA Index-130 ACATGTAC(259)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACACATGTACATCTCGTATGCCGTCTTCT

PCR-Free Index-130

GCTTG(260)

DNA Index-131 CCGGCTAA(261)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCGGCTAAATCTCGTATGCCGTCTTCT

PCR-Free Index-131

GCTTG(262)

DNA Index-132 CGATCCTG(263)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGATCCTGATCTCGTATGCCGTCTTCT

PCR-Free Index-132

GCTTG(264)

DNA Index-133 GACGATAT(265)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGACGATATATCTCGTATGCCGTCTTCT

PCR-Free Index-133

GCTTG(266)

DNA Index-134 CCTGGCCA(267)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCTGGCCAATCTCGTATGCCGTCTTCT

PCR-Free Index-134

GCTTG(268)

DNA Index-135 AAGACGTC(269)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAAGACGTCATCTCGTATGCCGTCTTCT

PCR-Free Index-135

GCTTG(270)

DNA Index-136 GCTCTCTA(271)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCTCTCTAATCTCGTATGCCGTCTTCT

PCR-Free Index-136

GCTTG(272)

DNA Index-137 AGCGTGTC(273)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGCGTGTCATCTCGTATGCCGTCTTCT

PCR-Free Index-137

GCTTG(274)

DNA Index-138 CCGTTGTT(275)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCGTTGTTATCTCGTATGCCGTCTTCT

PCR-Free Index-138

GCTTG(276)

DNA Index-139 TTGCTACG(277)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTGCTACGATCTCGTATGCCGTCTTCT

PCR-Free Index-139

GCTTG(278)

DNA Index-140 TGTAACCA(279)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGTAACCAATCTCGTATGCCGTCTTCT

PCR-Free Index-140

GCTTG(280)

DNA Index-141 TGTGTTAA(281)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGTGTTAAATCTCGTATGCCGTCTTCT

PCR-Free Index-141

GCTTG(282)

DNA Index-142 GATAGCCG(283)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGATAGCCGATCTCGTATGCCGTCTTCT

PCR-Free Index-142

GCTTG(284) DNA Index-143 TAACACCG(285)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAACACCGATCTCGTATGCCGTCTTCT

PCR-Free Index-143

GCTTG(286)

DNA Index-144 AGTAGTTA(287)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGTAGTTAATCTCGTATGCCGTCTTCT

PCR-Free Index-144

GCTTG(288)

DNA Index-145 GTCTGCCT(289)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTCTGCCTATCTCGTATGCCGTCTTCT

PCR-Free Index-145

GCTTG(290)

DNA Index-146 GGAGTAGA(291)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGAGTAGAATCTCGTATGCCGTCTTCT

PCR-Free Index-146

GCTTG(292)

DNA Index-147 TGCGCAGC(293)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGCGCAGCATCTCGTATGCCGTCTTCT

PCR-Free Index-147

GCTTG(294)

DNA Index-148 TGCCTATA(295)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGCCTATAATCTCGTATGCCGTCTTCT

PCR-Free Index-148

GCTTG(296)

DNA Index-149 TGCTAGTG(297)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGCTAGTGATCTCGTATGCCGTCTTCT

PCR-Free Index-149

GCTTG(298)

DNA Index-150 CCGAGCTC(299)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCCGAGCTCATCTCGTATGCCGTCTTCT

PCR-Free Index-150

GCTTG(300)

DNA Index-151 CGGATTAG(301)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGGATTAGATCTCGTATGCCGTCTTCT

PCR-Free Index-151

GCTTG(302)

DNA Index-152 CGGACGGA(303)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGGACGGAATCTCGTATGCCGTCTTCT

PCR-Free Index-152

GCTTG(304)

DNA Index-153 GACTGAGG(305)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGACTGAGGATCTCGTATGCCGTCTTCT

PCR-Free Index-153

GCTTG(306)

DNA Index-154 GTGTGTTA(307)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTGTGTTAATCTCGTATGCCGTCTTCT

PCR-Free Index-154

GCTTG(308)

DNA Index-155 CTCGTCCG(309)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTCGTCCGATCTCGTATGCCGTCTTCT

PCR-Free Index-155

GCTTG(310)

DNA Index-156 TGGAGAGG(311)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGGAGAGGATCTCGTATGCCGTCTTCT

PCR-Free Index-156

GCTTG(312)

DNA Index-157 TGGAATTC(313)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGGAATTCATCTCGTATGCCGTCTTCT

PCR-Free Index-157

GCTTG(314) DNA Index-158 TTGGCGCC(315)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTGGCGCCATCTCGTATGCCGTCTTCT

PCR-Free Index-158

GCTTG(316)

DNA Index-159 GCCTTAAT(317)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCCTTAATATCTCGTATGCCGTCTTCT

PCR-Free Index-159

GCTTG(318)

DNA Index-160 AAGCGATT(319)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAAGCGATTATCTCGTATGCCGTCTTCT

PCR-Free Index-160

GCTTG(320)

DNA Index-161 AACCGCAA(321)

5-Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCACAACCGCAAATCTCGTATGCCGTCTTCT

PCR-Free Index-161

GCTTG(322)

利用上述根据本发明实施例的寡核苷酸，能够有效地将 DNA 标签引入到样品的 DNA或其等同物中，由此能够构建具有 DNA标签的 DNA标签文库。另外，发明人惊奇地发现，当针对相同的样品，釆用具有不同标签的寡核苷酸构建含有各种 DNA标签的 DNA标签文库时，所得到的测序数据结果的稳定性和可重复性非常好。根据本发明的实施例，当釆用 pearson系数进行数据分析时，利用 DNA Indexl-161所构建的人全血样本 DNA标签文库均表现出了至少 0.99的相关性。关于 pearson系数具体算法的细节可以参见相关文献，例如： t Hoen, P. A., Y. Ariyurek, et al. (2008). "Deep sequencing-based expression analysis shows major advances in robustness, resolution and inter-lab portability over five micro array platforms." Nucleic Acids Res 36(21): el41 , 通过参照将其全文并入本文。重复性越高，则其 pearson系数越接近 1。

根据本发明的又一方面，本发明提供了一种制备 DNA标签文库的方法。根据本发明的实施例，其包括：提供 DNA模板，所述 DNA模板具有两条寡核苷酸链；在所述 DNA 模板的两条寡核苷酸链的 3 '末端分别添加碱基 A；在所述 DN A模板的两端分别连接含有选自上述根据本发明实施例的一组分离的 DNA标签的一种的接头，以便获得连接产物；以及分离回收所述连接产物，所述连接产物构成所述 DNA标签文库。利用根据本发明实施例的构建 DNA标签文库的方法，能够有效地将根据本发明实施例的 DNA标签引入到针对样品 DNA所构建的 DNA标签文库中。从而可以通过对 DNA标签文库进行测序，获得样品 DNA的序列信息以及 DNA标签的信息，从而能够对样品 DNA的来源进行区分。另外，发明人惊奇地发现，当针对相同的样品，基于上述方法，釆用具有不同标签的寡核苷酸构建含有各种 DNA标签的 DNA标签文库时，所得到的测序数据结果的稳定性和可重复性非常好。

进一步，本发明还提供了一种 DNA 标签文库，其是由根据本发明实施例的构建 DNA标签文库的方法所获得的。

根据本发明的又一方面，本发明还提供了一种确定 DNA样品序列信息的方法。根据本发明的实施例，其包括：根据本发明实施例的构建 DNA标签文库的方法构建所述 DNA样品的 DNA标签文库；以及对所述 DNA标签文库进行测序，以便确定所述 DNA样品的序列信息。基于该方法，能够有效地获得 DNA标签文库中 DNA样品的序列信息以及 DNA标签的序列信息，从而能够对 DNA样品的来源进行区分。另外，发明人惊奇地发现，利用根据本发明实施例的方法确定 DNA样品序列信息，能够有效地减少数据产出偏向性的问题，并且能够精确地对多种 DNA标签文库进行区分。

根据本发明的再一方面，本发明还提供了一种确定多种 DNA样品序列信息的方法。根据本发明的实施例，其包括以下步骤：针对所述多种样品的每一种，分别独立地根据本发明实施例的构建 DNA标签文库的方法，建立所述 DNA样品的 DNA标签文库，其中，不同的 DNA样品釆用相互不同并且已知序列的 DNA标签，其中所述多种为 2-161 种；将所述多种样品的 DNA标签文库进行组合，以便获得 DNA标签文库混合物；利用 Solexa测序技术，对所述 DNA标签文库混合物进行测序，以获得所述 DNA样品的序列信息以及所述标签的序列信息；以及基于所述标签的序列信息对所述 DNA样品的序列信息进行分类，以便确定所述多种样品的 DNA序列信息。由此，根据本发明实施例的该方法，可以充分利用高通量的测序技术，例如利用 Solexa测序技术，同时对多种样品的 DNA标签文库进行测序，从而提高 DNA标签文库测序的效率和通量，同时可以提高确定多种 DNA样品序列信息的效率。

根据本发明的再一方面，还提供了一种用于构建 DNA标签文库的试剂盒，根据本发明的实施例，该试剂盒包括： 161种分离的寡核苷酸，所述分离的寡核苷酸具有第一链和第二链，所述第一链由 SEQ ID NO: 323所示的核苷酸构成，所述第二链由 SEQ ID NO: ( 2N ) 所示的核苷酸构成，其中 N=l-161的整数，其中，所述 161种分离的寡核苷酸分别设置在不同的容器中。由此，利用该试剂盒，能够方便地将根据本发明实施例的 DNA标签引入到构建的 DNA标签文库中。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图 1：显示了 Illumina公司提供的 DNA标签文库构建方法的流程示意图；图 2: 显示了根据本发明实施例的 DNA标签文库构建方法的流程示意图；图 3: 显示了根据本发明实施例的构建的 44个 DNA标签文库的电泳结果。

发明详细描述

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，术语 "第一" 、 "第二" 仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有 "第一"、 "第二" 的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地，在本发明的描述中，除非另有说明， "多个" 的含义是两个或两个以上。

DNA标签

根据本申请的一个方面，本发明提出了一些分离的 DNA标签。根据本发明的实施例，这些分离的 DNA标签分别由 SEQ ID NO: ( 2N- 1 )所示的核苷酸序列构成，其中 N=l-161的任意整数。在本说明书中，这些 DNA标签分别被命名为 DNA Index-N, 其中 N=l-161的任意整数，其序列如前面表 1所示，在此不再赘述。

在本发明中所使用术语 "DNA" 可以是任何包含脱氧核糖核苷酸的聚合物，包括但不限于经过修饰的或者未经修饰的 DNA。利用根据本发明实施例的 DNA标签，通过将 DNA标签与样品的 DNA或其等同物相连，得到具有标签的 DNA标签文库，通过对 DNA标签文库进行测序，可以获得样品 DNA的序列以及标签的序列，进而基于标签的序列可以精确地表征 DNA的样品来源。由此，利用上述 DNA标签，可以同时构建多种样品的 DNA标签文库，从而可以通过将来源于不同样品的 DNA标签文库进行混合，同时进行测序，基于 DNA标签对样品的 DNA序列进行分类，获得多种样品的 DNA的序列信息。从而可以充分利用高通量的测序技术，例如利用 Solexa测序技术，同时对多种样品的 DNA进行测序，从而提高了通过高通量测序技术的效率和通量，降低了确定 DNA样品序列信息的成本。这里所使用的表述方式 "DNA标签与样品的 DNA或其等同物相连" 应做广义理解，其包括 DNA标签可以与样品的 DNA直接相连，以构建 DNA标签文库，也可以与和样品的 DNA具有相同序列的核酸（例如可以是相应的 RNA 序列或 cDNA序列，其与 DNA具有相同的序列）相连。

本申请的发明人发现：在本发明中，为了设计有效的 DNA标签，首先需要考虑标签序列之间的可识别性和识别率的问题。其次，在标签混合量少于 12个样品的情况下，必须考虑到混合后的标签上的每个碱基位点的 GT含量。因为 Solexa测序过程中，碱基 G和 T的激发荧光一样，碱基 A和 C的激发光是一样的，因此必须考虑碱基 "GT" 含量与碱基 "AC" 含量的 "平衡" ，最适碱基 "GT" 含量为 50% , 能保证标签识别率最高和错误率最低。最后，还要考虑数据产出的可重复性和准确性，即为了实现能够有效构建 DNA标签文库并进行测序，所构建的一组 DNA标签需要能够保证结果可靠，可重复性高，也就是针对同样的 DNA样品，可以保证利用该组 DNA标签中的不同标签构建的 DNA标签文库，能够获得一致的测序结果，因而可以确保实验结果可靠且重复性高。另外，还需要同时避免标签序列出现 3或 3 个以上连续的碱基的出现，因为 3 个或 3个以上连续的碱基会增加序列在合成过程中或测序过程中的错误率，同时也要尽量避免 DNA标签接头自身形成发夹结构。

为此，本申请的发明人进行了大量的筛选工作，并且选定了根据本发明实施例的一组分离的 DNA标签，其分别由 SEQ ID NO: ( 2N-1 ) 所示的核苷酸序列构成，其中 N=l-161的任意整数。其序列如前面表 1所示，不再赘述。另外，发明人发现这些标签之间的差异至少有 4个碱基，即至少 4个碱基序列不同，并且当标签的 8个碱基中的任意 1个碱基出现测序错误或合成错误，都不影响到标签的最终识别。这些标签可以应用于任何 DNA标签文库的构建。目前尚未有关于这些标签应用于 DNA样品测序的文库构建并通过 Solexa测序的报道。

根据本发明的一些实施例，所釆用的 DNA标签为长度是 8bp的核酸序列，并且所述标签之间的差异在 4个碱基以上，所述一组 DNA标签由如下组成： 161个 DNA标签或与之相差 1个碱基的 DNA标签中的至少 10个，或至少 20个，或至少 30个，或至少 40个，至少 50个，或至少 60个，或至少 70个，或至少 80个，或 90个，或至少 100个，或至少 110 个，或至少 120个，或至少 130个，或至少 140个，或至少 150个，或全部 161个。具体地，根据本发明的实施例，所述一组 DNA标签优选地至少包括表 1所示的 161个 DNA标签的 DNA Index 1 ~ DNA Index 10, 或 DNA Indexl l ~ DNA Index20, 或 DNA Index21 ~ DNA Index30 , 或 DNA Index31 - DNA Index40 , 或 DNA Index ~ DNA Index50 , 或 DNA Index51 ~ DNA Index60 , 或 DNA Index61 ~ DNA Index70 , 或 DNA Index71 ~ DNA Index80, 或 DNA Index81 ~ DNA Index90, 或 DNA Index91 ~ DNA IndexlOO , 或 DNA Index 101 - DNA Index 110 , 或 DNA Index 111 - DNA Index 120, 或 DNA Index 121 ~ DNA Index 130,或 DNA Index l ~ DNA Index 140 ,或 DNA Indexl41 ~ DNA Index 150 ,或 DNA Index 151 - DNA Indexl61 , 或者他们任何两个或多个的组合。在本发明的一些具体示例中，所述相差 1个碱基包括对表 1所示 161个标签的序列中 1个碱基的取代、添加或缺失。

根据本发明的实施例，本发明还提供了将根据本发明实施例的标签用于 DNA标签文库构建并测序的用途，其中 DNA标签文库的 DNA标签接头包含根据本发明实施例的 DNA标签，从而构成各自相对应的 DNA标签接头。根据该用途的实施例， DNA标签插入 DNA PCR-Free标签接头中，或通过或不通过连接子连接在 DNA接头的 3'末端，优选地插入 DNA PCR-Free标签接头中。根据具体的示例，连接子是 1-6个核苷酸序列，优选地 1-3个核苷酸序列。

寡核苷酸以及构建 DNA标签文库

根据本发明的又一方面，本发明提供了一组分离的寡核苷酸，其可以用于将前面所描述的 DNA标签引入到样品的 DNA中，进而构建 DNA标签文库。根据本发明的实施例，本发明提供了一组分离的寡核苷酸，该组分离的寡核苷酸中的每一种均具有粘性末端 T, 并且这些分离的寡核苷酸具有第一链和第二链，粘性末端 T形成在每一种寡核苷酸的第一链上。其中，根据本发明的实施例，第一链由 SEQ ID NO: 323所示的核苷酸构成，第二链分别由 SEQ ID NO: ( 2N ) 所示的核苷酸构成，其中 N=l-161的任意整数。本领域技术人员能够理解，可以通过分别将构成相应寡核苷酸的第一链与第二链进行退火处理，而形成相应的寡核苷酸。根据本发明的实施例，上述寡核苷酸分别具有如前所述的根据本发明实施例的 DNA标签，并且这些寡核苷酸具有粘性末端，因而，可以通过连接反应，将相应的 DNA标签引入到样品的 DNA或其等同物中。具体地，这些寡核苷酸的序列如前面表 1所示，在此不再赘述。

发明人发现，根据本发明的实施例所提供的寡核苷酸序列（ DNA PCR-Free标签接头）具有较高的稳定性。该发现主要是根据本发明的一些实施例，通过 Lasergene软件 ( http://www.dnastar.com/ ) 分析测试这些寡核苷酸序列的结构稳定性得来的。使用 Lasergene的 PrimerSelect软件，通过分析两条序列之间形成的能量值可以判断双链体之间的亲和力参数，从而预测 DNA PCR-Free标签接头形成的最稳定二聚体结构（ the most stable dimer overran )及能量值，其中，能量值（ kcal/mol ) 的绝对值越大，表示双链体的结果越稳定。以下是分别对前面表 1所示的 161个 DNA PCR-Free标签接头进行上述的结构稳定性和亲和力分析的结果，结果表明，这些 DNA PCR-Free标签接头形成的 "Y 型" 结构非常稳定。

下面提供了根据本发明实施例的 DNA PCR-Free 标签接头的二级结构以及最稳定的二聚体结构（ The most stable dimer overall ) —— "γ型" 结构及其能量值。

DNA PCR-Free index 1 接头

The

3 ^f TCTAGCC TC CGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5 '

DNA PCR-Free index2 接头

DNA PCR-Free index3 接头

DNA PCR-Free index4 接头

DNA PCR-Free index5 接头

The most st— able dii er cver l I： 12 bp, -22 . 8 kcs丄 ½ 1

DNA PCR-Free index6 接头

The most stable dlirser o v erall： 12 fop , -22 . 8 kcal/mol

5 ' GATCGGAAGAGCACACGTCTGAAGTCCAG^; TCACCAACAGGTATCTCGTATGCCGTCTTCTGCTTG

DNA PCR-Free index7 接头 The ： mo st stable dimer over ll： 12 bp, -22. δ kcal/mol

5 ' GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTCAAGGTATCTCGTATGCCGTCTTCTGCTTG 3 '

3 ^T TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5¹

DNA PCR-Free index8 接头

The most stable dirr.er overall: 12 bp, -22.8 kcal/mol

3，■ TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5 '

DNA PCR-Free index9 接头

The ost, stable d.im.er overall： 12 bp, -22 ' 8 kcal 丄

5 ' GA CGGAAGAGCACACGTCTGAACTCCAGTCACCACGTAGTATCTCGTATGCCGTCTTCTGCTTG 3^T

5'

DNA PCR-Free index 10 接头

The most stable dimer overall： 12 bp , -22.8 kcal /TJIOI

3¹ TCTAGCGT CTCGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5，

DNA PCR-Free index 11 接头

The most stable dinner overall： 12 bp_f -22. Θ kcal/mol

5 ' GA CGGAAGAGCACACGTCTGAAC CCAGTCACTACCTTCTATCTCGTATGCCGTCTTCTGCTTG 3¹

^CGGCATAGTAA 5^f

DNA PCR-Free indexl2 接头

The most s ble d liner overall：上 2 b , -22. Θ kcal/mol

5 ' GAT GGAAGAGCACACG

CGGCATAGTAA 5 ^f

DNA PCR-Free index 13 接头

The most s able diir- r overall： 12 bp _f -22. S kcal/mol

DNA PCR-Free indexl4 接头

The most stable dimer ove.rall： .12 b _r -22.8 kcal/ir:o丄 3 ' TCTAGCCTTGTCGCAGCACATGGCTTTCTCACAT TAGAGCCACCAGCGGCATAGTAA

DNA PCR-Free index 15 接头

The mos stable diiiter ov r ll； 12 bp, -22.8 kcal/irtol

3 ' TC AGCCTTCTCGCAGCACA CCCTT CTCACATCTAGAGCCACCAGCGGCATAGTAA 5 '

DNA PCR-Free index 16 接头

The most stable dii^er overall： 12 bp, -22.8 kcal/mol

DNA PCR-Free indexl7 接头 The most stable dim r overall： 12 b _f -22. δ kcal /mo I

J GATCGGAAGAGCACAC

3 ^f TCTAGCCTTC CGCAG

DNA PCR-Free index 18 接头

The Ffios t stable dime r over ll： 12 bp, - 22. S kcal /niol

DNA PCR-Free index 19 接头

The most stable dimer overall： 12 fop_f -22.8

T GATCGGAAGAGCACACGTCTGAACTCCAGTCACC AGTT7

3 ^f TCT¾GCCT C CGCAGCACATCCCTTTCTGACATCTAGAGCCACCAGCGGCA AGTAA 5 '

DNA PCR-Free index20 接头

The most stable dimer overall： 12 bp -22.8 kcal/inol

5

； CATSGTAA 5 '

DNA PCR-Free index21 接头

The most, stable dimer overall： 12 -22.8 kcal/mo丄

5¹

DNA PCR-Free index22 接头

The most s table airier overall： 12 bp - 8 kcaI ϊΓ-ο!

5 i _L.TCi .GA A CTCGTA GCCGTC TCTGCTTG

5CGGCA AGTAA 5 '

DNA PCR-Free index23 接头

The most stable dimer overall：丄 2 bp, —22, 8 kcal/ ol

5¹ GA CGGAAGAGCACACGTCTGAACTCCAGTCACTATGCCATATCTCGTATGCCGTCTTCTGCTTG

3， TCTAGCCTTCTCGCAG ACATCCCTTTCTCACATC AGAGCCACCAGCGGCATAGTAA 5，

DNA PCR-Free index24 接头

The most stable diir-er overall： 12 b _F -22.8 kcal/irto丄

5 ^f GA CGGAAGAG

3， C AGC C T TC T C GC AG

DNA PCR-Free index25 接头

The mo t stable dimer overall： 12 bp, -22.8 kcal /mo I

3¹ C AGCC C CGCAGCACA C C C C：ACA C A AGCGACCAGCGGCA AG AA 5，

DNA PCR-Free index26 接头

The most stable dimer overall： 12 fop , -22.8 kcal /mo I

3 ^τ

DNA PCR-Free index27 接头 The most st ble dimei: ov rall：丄 2 bp, -22.8 kcal /mol

5 ^f

DNA PCR-Free index28 接头

The most st b le dir er overall： 12 bp, - 22.. S kc l/'r ol

DNA PCR-Free index29 接头

most s able dimer overall： I 2 -22.8 kcs丄 /rrtoi

I M M I f

,GTAA 5，

DNA PCR-Free index30 接头

The iTiGst stable dimer overall: 12 bp, -22. S kcal moi

5，' GATCGGAAGAGCACACGTC GAACTCCAGTCACGGATA GGATCTCGTATGCCGTCTTCTGC TG 3

3¹ TCTAGCCTTCTCGCAGC^CATCCCTTTCTCACATCTAGAGCC^C^^ 5 '

DNA PCR-Free index31 接头

The most stable dlmer overall： 12 bp, -22.8 kcal irtol

5 ^T GATCGGAAGAGCACAC

3¹ TCTAGCCTTCTCGCAGC

DNA PCR-Free index32 接头

The most stable d. inter oversl丄： 12 , -22.8 k al/nol

5 ' GA CGGAAGAGCACACGTCTGAACTCCAGTCACAAGATCGGATCTCGTATCCCGTCTTCTGC TG 3 '

3 ^T TCTAGCCTTCTCGCAGCACA CCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5 '

DNA PCR-Free index33 接头

The most st ble dimer overall: i2 b _r -22.8 kcal /mol

3 ^f TCTAGCC TCTCGCAGCACATCCC TTCTCACATC AGAGv CACCAGCGGCA AGTAA 5 '

DNA PCR-Free index34 接头

The most s able di er overall： 12 b , -22. S kcal ΙΪΪΟΙ

5 ' GAT GGAAGAGCACACGTCTGAACTCCAG GACCTAAGTCGATCTCGTATGCCGTCTT TGCTTG 3 '

3¹ TCTAGCCTTCTCGCAGCACATCCCTT TCACATCTAGAGCCACCAGCGGCATAGTAA 5¹

DNA PCR-Free index35 接头

The most stable dimer overall； 12 fop, -22.8 kcal/moi

5 ' GATCGGAAGAGCACACGTCTGAACTCCAGTCACTATTCGCGATCTCGTATGCCGTCTTCTGCTTG 3 '

； CGGCATAGTAA 5，

DNA PCR-Free index36 接头

The most s able d丄 inei: overall： 12 bp , -22.8

GATCGGAAGAGCACACGTCTGAACTCCAGTCACGAAGCACGATCTCGTATGCCGTCTTCTGCTTG 3 '

LGCGGCA AGTAA

DNA PCR-Free index37 接头 NCeede DA PRFr inx47- CGGCATAG

, ... O

?NCeede5 DA PRFr inx7—

CCACAGC^GCATACTAA!4一 p ,vTheost: szable dimer overall 12 b22.8 kcaili - .

?NCeede56 DA PRFr inx- ACCAGCGGCATAG AA!I】

一

¾/The most stale di overall: 12 b kcalol- "

NCeede55 DA PRFr inx- .

The .

-

The

p,/T stable cvera： b kcalmoi .

NCeede5 DA PRFr inx1- p、/The stable dimer overall： 12 b kcalmoj. .

?NCeede50 DA PRFr inx- 一

p,The most; stable dinier overall: b kcai - NCeede9 DA PRFr inx4- p/ The most; stable dier overall.: b kcai3yol- NCeede8 DA PRFr inx4- The most stable d imer overal 1： 12 bp, -22.8

5 ' GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAAT ACCATCTCGTA GCCGTCT CTGCT G 3 '

3¹ CTAGCCTTC CGCAGCACATCCCTTTCTCACA G AGAGCCACCAGCGGCA.TAGTAA. 5 '

DNA PCR-Free index58 接头

The most stable dir^.er o e r 11； 12 bp, -22.8

5 " GATCGGAAGAGCACi

DNA PCR-Free index59 接头

The most st ble d lin overall； 12 fop, -22.8 kcsl/m il

5 ' GA'TCGGAAG^

LGCGGCATAGTAA 5 '

DNA PCR-Free index60 接头

■most .s abl dime r overall： 12 bp, -22. S kc l r^ol

M M

TCTAG CTTCT GCi^

DNA PCR-Free index61 接头

The most .st ble :er overall： 12 bp, -22. S kcal κι.ο·!

5 ' GATCTG.AAGAGCACACGTCTGAAC CCAGTCACCTCTCGACA CTCG ATGCCGTCT CTGC TG 3

DNA PCR-Free index62 接头

The ost stable dimer overall： 12 bp , -22. B kcal /mol

3 ^T TCTAGCGTTCTCGCAGCACATCCGTTTCTGACATC AGAGCCACCAGCGGCA AGTAA 5 '

DNA PCR-Free index63 接头

The mos stable dim ov rall： 12 b _T -22.8 kcal / mol

5 ' GATCGGAAGAGCACACf

M M

DNA PCR-Free index64 接头

The most stable imei: ov r ll： 12 b -22.8 kcal /mol

5，

DNA PCR-Free index65 接头

The mo t stable dimer overall: 12 bp, -22.8 kcsl/rrtoi

5,

JCCACCAGCGGCATAGTAA ，

DNA PCR-Free index66 接头

he ir-os t stable dimer overall： 12 bp, -22.8 kcal /l ol

5 » GATCGGAAGAGCACACC

3¹ TCTAGCC TC CGCAG

DNA PCR-Free index67 接头 The s able dimer overall：丄 2 bp, -22.8 kcal/ir-ol

5 ^T GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTACCATAATCTCGTATGCCGTCTTCTGCTTG 3 '

.GCGGCA AGTAA 5¹

DNA PCR-Free index68 接头

The most st ble dimer over ll： 12 bp, —22.8 kca丄 /ίπο

5， GATCGGAAGAGCACACC

3 ^T TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATC AGAGCCACCAGCGGCATAGTAA 5 '

DNA PCR-Free index69 接头

The mos stable ov rall： 12 bp, -22.8 kcal /rrtol

3 ' TCTAGCCTTCTCGCAGCACATCCCTTT TCACAT TAGAGCCACCAGCGGCATAGTiA 5，

DNA PCR-Free index70 接头

The most stabl dimer overall： 12 bp, -22.8 kcal/ττιοϊ

DNA PCR-Free index71 接头

The most stable dim r overall： 12 bp, -22 8 kcal/rn l

GATCGGAAGAGCACACGTCTGAACTCCAG CAC ACTA GAATCTCGTATGCCCTCT

DNA PCR-Free index72 接头

The most s abl dimer overall：上 2 bp _f -22.8 kcal/mo丄 CACCAGCGGCATAGTAA 5 '

DNA PCR-Free index73 接头

The most stable diiTier overall： 1.2 bp , -22.8 kcal /mo 1

GATCGGAAGAGCACACGTCTGAACTCCAGTCACAGTGAGGAATCTCGTATGCCG CTTC GCTT 3

DNA PCR-Free index74 接头

The most stable dimer overall；丄 2 b _f -22.8 kcal /mol

5， GA CGGAAGAGCACACGTCTGAACTCCAGTCACATCGCCGAATCTCGTATGCCG CTTCTGCT G 3 '

DNA PCR-Free index75 接头

The most stable d iii r c-vera丄 1： 12 b _r -22.8 kcal/mol CGGCATAGTAA

DNA PCR-Free index76 接头

The mo st. st 丄 e dime r ov ra l: 丄 2 bp -22.8 kcsl/mo丄

.5， GA CGGAA-:

： CAGCGGCATAGTAA

DNA PCR-Free index77 接头 The most stable diir:er overall： 12 bp, -22. S kcal/mol

5 ' GATCGGAAGAGi

DNA PCR-Free index78 接头

The most s able di er overall： 12 fo _T -22.3 kcal /ITEO!

5¹ GATCGGAAGAGCACACGTCTGAACTCCAGTCACACCTTGCAATCTCGTATGCCGTCTTCTGC TG 3

DNA PCR-Free index79 接头

The most stable dii^er oversl丄： 12 bp, -22 8 kc-al./ 丄

5， GATCGGAAGAGCACACGTCTGAACTCCAGTCACATACTCCAATCTCGTATGCCGTCTTCTGCTTG 3，

DNA PCR-Free index80 接头

The o:::t stable dimer overall： 1 bp, -22.8 kcal /mo I

' GATCGGAAGAGCACACGTCTGAACTCCAG CACGTTCGACAATCTCGTATGCCGTCT CTGCT G ¹

DNA PCR-Free index81 接头

The most, s able dimer overall: 12 b _f -22.8 kcal/mol

5 GATCGGAAGAGCACACGTCTGAAC

DNA PCR-Free index82 接头

The most s able dirrt r overall： 12 bp, -22. S k al -ol

5 ' GATCGGAAGAGCACACGTCTGAACTCCAGTCACCACATGAAATCTCGTATGCCGTCTTC GCTTG

3¹ TCTAGCCTTCTCGCAGCACATCCCTT CTCACATCTAGAGCCACCAGCGGCATAGTAA 5 '

DNA PCR-Free index83 接头

he mo t stable diriier overall： 1.2 b , -22, 8 kca丄 /irol

5 ' GATCGGAAGAGCACAC-GTCTGAACTCCAGTCACATGAGGAAATCTCGTATC^CGTCTTCTGCTTG

3 ^f TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5 '

DNA PCR-Free index84 接头

The most stable d int r overall： 12 bp, -22..8 kcsl/ ol

5 ' GATCGGAAGAGCACACGTCTGAAC CCAGTCACTCCTCCAAA CTCGTATGCCGTCTTCTGCTTG

DNA PCR-Free index85 接头

The most st ble dimer cveral I： 12 bp, -22.8 k l /mol

LGCCACCAGCGGCA AGTAA

DNA PCR-Free index86 接头

The mos s ble diir-er ov r ll： 12 bp, -22.8 kcs丄 / o丄

DNA PCR-Free index87 接头

?NCeede9 DA PRFr inx7—

3 _

p, The ms t stable dimer overall b · β

?NCeede93 DA PRFr inx- p/he most;tabl_e dimer overall2 b22 , 8 kcalmol 1-...

?NCeede9 DA PRFr inx2-

mc overall; 1222,8 kca3 - ?NCeede9 DA PRFr inx1— _ The most stabie di_er over . kcall.!-. " NCeede90 DA PRFr inx-

The most stable dirrter overall： 12 bp, -22. S k al /mo I

3¹ TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATC AGAGCCACCAG GGCATAGTAA 5 '

DNA PCR-Free index98 接头

The most stable dimer overall： i 2 bp -22. S kcal oi

5 ^f GATCGGAAGAGCACACG

3¹ CTAGCCTTC CGCAG

DNA PCR-Free index99 接头

most stable dim r overall： 12 fop, -22 8 kcal /mol

GATCGCAAGAGCACACGTCTGAACTCCACTCACGAGCATTGATCTCGTATGCCGTCTTCTGC TCTAGCCTT TCGCAGCACATCv C TTCTCACATv AGAGCGACCAGGGGCA AGTAA 5 '

DNA PCR-Free index 100 接头

The most stable dim r overall：丄 2 bp, —22.8 kcsl/ o丄

5 ' GATCGGAAGAGCACACGTCTGAACTCCAGTCACTCGCCGTGA CTCGTATGCCGTCTTCTGCTTG

DNA PCR-Free index 101 接头

The most st ble cl Ime r overall： 12 bp, -22.8 kcal /mol

DNA PCR-Free index 102 接头

The most stable dimer overall： I 2 bp, -22.8 kcal mol

5'

3¹ TCTAGCC CTCGCAG

DNA PCR-Free index 103 接头

The most .st ble dirrier overall： 12 bp, -22■· S kcal ir-ol

5 ' GATCGGAAGAGCACACGTCTGAACTCCAGTC— ¾CGGAATGGCATCT'CGTA CGTC^^^

DNA PCR-Free index 104 接头

The mos stable diner overall: 丄 2 hp_f -22.8 kcsl/ino丄 GGGCA AGTAA 5 '

DNA PCR-Free index 105 接头

The most stable diniei: ov rall： 12 bp, -22 , B kcal ir:ol

5 ' GA CGGAAGAGCACACGTCTGAACTCCAGTCACGTCA ACATCTCGTATGCCGTCTTCTGCTTG

A AGTAA

DNA PCR-Free index 106 接头

he mo t s able diraer overall： 12 fo , -22. Θ kcal /mol

5'

3 ' TCTAGCCTTCTCGCAG

DNA PCR-Free index 107 接头 O

?NCeede DAPRFrinxll7-

p/he stable dimer overaJ b kcalmo- ?NCeede08 DAPRFr inxl- CTAGCCTIcrcGCAGCACAIT,c CTCACATCTAGAGCCACCAGCGGCATAGTAA:-. ...- O

?NCeede DA PRFr inxl27- TCTA.GCC CTCGCAGCACATCCCTTTCTCACAl:CTAGAGiccACCAGCGGCATA.GT.AA ...

GATCGGAAGAGCACACGl GAAC!AGICACIGAC¾GA.CAT。^CGTATGCCCTCTTCrGCrPG ---_.,

/The stable dimer overall kcalmo .

?NCeede6 DA PRFr inxl2- p,/ The most stahLe overall b kcaJ_mo.--- ?NCeede5 DA PRFr inxl2- ACACGTCT:AGTCACTGArA cr:GrAc Ώ C TG;;r.,,

?NCeede8 DA PRFr inxl 1- . , The most stable diirser overall： 12 fa , -22.8

5 ' GATCGGAAGAGCACACGTCTGAACTCCAGTCACGTGGTCGTATCTCGTATGCCGTCTTCTGCTTG

DNA PCR-Free index 128 接头

The most s abl dimer overall： 2 p, kcal/ ol

3 ^J CTAGCCTTCTCGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCA AGTAA 5 '

1 TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCA AGTAA 5，

DNA PCR-Free indexl30 接头

The mos stable dim r 'm'e ll： 12 b , -22. S kcal irtol

，

DNA PCR-Free index 131 接头

The most s able dimer overall： bp, kcal ATAG AA 5 '

DNA PCR-Free index 132 接头

DNA PCR-Free indexl33 接头

The most s able dimer overall : 12 fop, -22.8

3¹ TCTAGCC TC CGCAGCACATCCCTT CTCACATCTAGAGCCACCAGCGGCATAGTi

DNA PCR-Free index 134 接头

The most .st ble dimer overall 12 bp, -22.8 kcal/inol

5， GATCGG.AAGAGCACAC

3 ^f CTAGCCTTC CGCAvGC

DNA PCR-Free indexl35 接头

3¹ TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCA AGTAA 5 '

DNA PCR-Free indexl36 接头

The most stable dimer overall：丄 2 bp, -22. S kcal /mo 1

5 ' GATCGGAAGAGCACACG CI

DNA PCR-Free index 137 接头 The most st ble dirtier ov r ll： 12 _r -22.8 kcal/iuol

： GCTTG 3 ^f

3 ' CTAGCCTTCTCGCAGCACATCCCTTTC CACA GTAGAGC ACCAGCGGCATAG AA 5 '

DNA PCR-Free indexl39 接头

The mo 1 stable dime r over ll： 12 b _f -22.8 kc l /mol

3¹ TCTAGCCTTCTCGCAGCACA CCCTTTCTCACATC AGAGCCACCAGv GGCATAGTAA 5，

DNA PCR-Free indexl40 接头

The most stable dimer overall： 12 fo _f -22.8 kcal rnol

5， GA CGGAAGAGCACACGTCTG.AACTCCAGTCACTGTAACCAATCTCGTATGCCGTC TCTGCTTG 3

DNA PCR-Free indexl41 接头

The m t stable dimer overall： 12 bp, -22 , S kcal irtol

； CTTG 3 '

3 ^r TCTAGCCTTCTCGCAGCAGATCCCTTTCTCACATCTAGAGCCACCAGCC4GCATAGTAA 5

DNA PCR-Free indexl42 接头

The mo t stable diraer overall：丄 2 bp_f -22.8 kcal /mo 1

3 ' 'TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5 '

DNA PCR-Free indexl43 接头

The mo s t .stable diriier cveral 1： 12 bp, -22. S kc l /mol

5 ' GATCGGAAGAGCACACGTCTGAACTCCAGTCAC AACACCGATCTCGTATGCCGTCTTCTGCTTG 3

DNA PCR-Free indexl44 接头

The most stable dimer overall：丄 2 p_f - .8 kcal /mol

5 ' GATCGGAAGi

DNA PCR-Free indexl45 接头

The most .s able dimer overall： 12 bp _f -22. S kcal TOO 1

3 ^f TCTAGCCTTCTGGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5¹

DNA PCR-Free indexl46 接头

The most stable dimer over ll： 12 b , -22.8 kcal/mo

3 ^f TCTAGCCTTCTCGCAGCAGATCCCT CTCACATC AGAGCCACCAGC GCA AGT^_ 5 '

DNA PCR-Free indexl47 接头 The ost stable dimer overall： 12 b , -22.8 kcal mol

5 ' GATCGGAAGAGCACAG

DNA PCR-Free index 148 接头

The most stable dir er overall： 12 bp, -22.8 kcsl/iriGl

5 ' GA CGGAAGAGCACACGTCTGAACTCCAGTCAC GCC ATAATCTCGTATGCCGTCTTCTGCTTG

T TCTAGCCTTCTCGCAGCACATCCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5 ^T

DNA PCR-Free index 151 接头

The most stable dimer overal I：丄 2 bp, -22.8 kcal/mol

5 ^f GATCGGAAGAGGACACCTCTG AC CCAG CAC GGATTAGATCTCGTATGCCGTCTTCTGCT G 3

3¹ CTAGCCTTCTCGCJ

DNA PCR-Free index 152 接头

The o st st ab丄 e dime r ove rail: -22.8 kcal/mol

5 ' GA CGGAAG2

3 ' TCTAGCC CTCGCAGt

DNA PCR-Free indexl53 接头

The most stable diirier overall： 12 fop, -22. δ kcs丄 / ol

5 ⁽ GATCGGAAGAGCACACGTCTGAACTCCAGTCACGACTGAGGATCTCGTATGCCGTCTTCTGC TG 3

DNA PCR-Free index 154 接头

The most stable diiner overall: 12 bp, -22.8 kcal /mo i

DNA PCR-Free index 156 接头

The most s able d i jr- r overall： 12 b , -22 , S kcal /iitol

DNA PCR-Free index 157 接头 The most stable dirr.er overall： 12 bp, -22 . 8 kcal mol

5 ' GATCGGAAGAGCACACGTCTGJL¾CTCCaGTCACTGGAAT CATCTCGTATGCCGTCTTCTGCTTG 3，

DNA PCR-Free index 158 接头

The mo t stable dimer overall : 12 bp , -22 . 8 kcal /r o

ICT G 3，

3， TCTAGCCTTCTCGCAG

DNA PCR-Free indexl59 接头

mo t stable dimer overall： I 2 -22 . 6 kcal/mo丄

DNA PCR-Free index 160 接头

h most stable dlmer oversl丄： 12 b ₇ -22 . 8 kcal/mo上

5 ' GATCGGAAGAGCACACG CTGAACTCCAGTCACAAGCGATTATCTCGTATGCCGTC TCTGCTTG 3

3 ^? CTAGCCTTC CGCAGCAGATCCCTTTCTCACATCTAGAGCCACCAGCGGCATAGTAA 5 '

DNA PCR-Free index 161 接头

The most s able d inter overall： 12 bp -22 . 8 k.cal /iit.o.1

CCAGCGGCA AGTAA 5 '

根据本发明的一些实施例，本发明提供了一些 DNA PCR-Free标签接头，这些 DNA

PCR-Free标签接头由 DNA PCR-Free接头 1.0和 PCR-Free标签序列组成，而这些 PCR-Free 标签序列包括如下或由如下组成：表 1所示 161个 PCR-Free标签序列或与其所包含的 DNA标签序列相差 1个碱基的 PCR-Free标签序列中的至少 10个，或至少 20个，或至少 30 个，或至少 40个，至少 50个，或至少 60个，或至少 70个，或至少 80个，或 90个，或至少 100个，或至少 110个，或至少 120个，或至少 130个，或至少 140个，或至少 150个，或全部 161个。根据本发明的具体示例，这些 PCR-Free标签序列优选地至少包括表 1所示的 161 个 PCR-Free标签序列中的 PCR-Free Index- 1 ~ PCR-Free Index- 10 , 或 PCR-Free Index- 11 ~ PCR-Free Index-20, 或 PCR-Free Index-21 ~ PCR-Free Index-30 , 或 PCR-Free Index-31 ~ PCR-Free Index-40, 或 PCR-Free Index-41 ~ PCR-Free Index-50 , 或 PCR-Free Index-51 ~ PCR-Free Index-60, 或 PCR-Free Index-61 ~ PCR-Free Index-70 , 或 PCR-Free Index-71 ~ PCR-Free Index-80, 或 PCR-Free Index- 81 ~ PCR-Free Index-90 , 或 PCR-Free Index-91 - PCR-Free Index- 100 , 或 PCR-Free Index- 101 - PCR-Free Index- 110 , 或 PCR-Free Index-I l l ~ PCR-Free Index- 120 ,或 PCR-Free Index- 121 ~ PCR-Free Index- 130, 或 PCR-Free Index- 131 ~ PCR-Free Index- 140 , 或 PCR-Free Index- 141 ~ PCR-Free Index- 150, 或 PCR-Free Index- 151 ~ PCR-Free Index- 161 , 或者他们任何两个或多个的组合。根据具体的示例，相差 1个碱基包括对标签序列中 1个碱基的取代、添加或删除。根据本发明的实施例，还提供了 DNA PCR-Free标签接头用于 DNA标签文库构建并测序的用途。由此，根据本发明的实施例，还提供了使用上述 DNA PCR-Free标签接头构建的 DNA标签文库。

根据本发明的另一方面，本发明还提供了一种利用上述寡核苷酸（DNA PCR-Free 标签接头）构建 DNA标签文库的方法。具体地，根据本发明的实施例，参考图 2, 该方法包括：

首先，提供 DNA模板。根据本发明的实施例，该 DNA模板具有两条寡核苷酸链。根据本发明的实施例， DNA样品的来源并不受特别限制，可以来源于所有真核和原核生物。根据本发明的一个实施例， DNA样品为人 DNA样品，更具体的，可以为人基因组 DNA样品。根据本发明的实施例，优选地， DNA模板的长度为约 250bp, 由此能够进一步提高构建 DNA标签文库以及后续测序的效率。发明人发现，利用根据本发明实施例的方法，能够有效地构建多种常见模式生物的 DNA标签文库。

接下来，在 DNA模板的两条寡核苷酸链的 3，末端分别添加碱基 A。由此，便获得具有粘性末端 A的 DNA模板。根据本发明的实施例，在添加碱基 A前，要先对 DNA 模板进行末端修复。

然后，在具有粘性末端 A的 DNA模板的两端分别连接含有选自上述根据本发明实施例的一组分离的 DNA标签的一种的接头，以便获得连接产物。根据本发明的实施例，该接头为选自根据本发明的实施例的一组分离的寡核苷酸的一种。根据本发明的实施例，具有粘性末端 A的 DNA模板与 DNA PCR-Free标签接头，是通过在具有粘性末端 A 的 DNA模板的两条寡核苷酸链的 3'末端均连接 DNA PCR-Free标签接头实现的。上述根据本发明的实施例所得到的 "连接产物" ，含有目的片段、 DNA接头，以及 DNA标签。这里所使用的术语 "目的片段" ，其序列与 DNA模板的序列相对应。在这里，目的片段的序列与 DNA模板的序列相对应，其含义是指，可以通过目的片段的序列直接推导出 DNA模板的序列，例如，目的片段的序列可以与 DNA模板的序列完全相同，也可以是完全互补，甚至是增加或者减少了已知数目的已知碱基，只要能够通过有限的计算获得的 DNA的序列即可。

最后，分离回收获得的连接产物，这些连接产物构成 DNA 标签文库。根据本发明的实施例，分离回收连接产物的方法不受特别限制，本领域技术人员可以根据连接产物的特点选择适当的方法和设备进行分离。根据本发明的一个具体示例，可以利用 2%的琼脂糖凝胶电泳分离回收所述连接产物。

进一步，根据本发明的实施例，本发明提供了一种构建 DNA标签文库的方法，其包括：

1 ) DNA 模板准备，提供 n个 DNA样品， n为整数且 1 < n < 161的整数，优选地 n为整数且 2 < n < 161 , 该 DNA样品可以来自所有真核和原核生物，包括但不限于人 DNA样品；优选地，根据本发明的实施例， DNA模板长度为 250bp;

2 ) 末端修复；

3 ) DNA模板 3，末端加 "A" 碱基；

4 )连接 DNA标签接头，以获得连接产物。其中，对不同 DNA模板使用不同的标签接头，每一个标签接头连接到 DNA模板的两端。 DNA标签接头，是选自前面所述根据本发明实施例的 DNA PCR-Free标签接头。

5 ) 分离回收获得的连接产物，这些连接产物构成 DNA 标签文库。其中，根据本发明的实施例，可以利用 2%的琼脂糖凝胶电泳分离回收连接产物。

根据本发明的实施例，通过上述根据本发明实施例的构建 DNA标签文库的方法所构建的 DNA标签文库，其 DNA PCR-Free标签接头由 DNA PCR-Free接头 1.0和 PCR-Free 标签序列组成，这些 PCR-Free标签序列包括如下或由如下组成：表 1所示 161个 PCR-Free 标签序列或与其所包含的 DNA标签序列相差 1个碱基的 PCR-Free标签序列中的至少 10 个，或至少 20个，或至少 30个，或至少 40个，至少 50个，或至少 60个，或至少 70个，或至少 80个，或 90个，或至少 100个，或至少 110个，或至少 120个，或至少 130个，或至少 140个，或至少 150个，或全部 161个。上述根据本发明实施例的构建 DNA标签文库的方法中，釆用的 PCR-Free标签序列优选地至少包括表 1所示的 161个 PCR-Free标签序列中的 PCR-Free Index- 1 ~ PCR-Free Index- 10 , 或 PCR-Free Index- 11 ~ PCR-Free Index-20 , 或 PCR-Free Index-21 ~ PCR-Free Index-30 , 或 PCR-Free Index-31 ~ PCR-Free Index-40 , 或 PCR-Free Index-41 ~ PCR-Free Index-50 , 或 PCR-Free Index-51 ~ PCR-Free Index-60 , 或 PCR-Free Index-61 ~ PCR-Free Index-70 , 或 PCR-Free Index-71 ~ PCR-Free Index-80 , 或 PCR-Free Index- 81 ~ PCR-Free Index-90, 或 PCR-Free Index-91 ~ PCR-Free Index- 100, 或 PCR-Free Index- 101 ~ PCR-Free Index- 110 ,或 PCR-Free Index-I l l ~ PCR-Free Index- 120, 或 PCR-Free Index- 121 ~ PCR-Free Index- 130 , 或 PCR-Free Index- 131 ~ PCR-Free Index- 140 , 或 PCR-Free Index- 141 - PCR-Free Index- 150 , 或 PCR-Free Index- 151 - PCR-Free Index-161 , 或者他们任何两个或多个的组合。根据本发明的实施例，相差 1 个碱基包括标签中 1个碱基的取代、添加或删除。

利用根据本发明实施例的构建 DNA标签文库的方法，能够有效地将根据本发明实施例的 DNA标签引入到针对 DNA样品所构建的 DNA标签文库中。从而可以通过对 DNA标签文库进行测序，获得 DNA样品的序列信息以及 DNA标签的序列信息，从而能够对 DNA样品的来源进行区分。另外，发明人惊奇地发现，当针对相同的样品，基于上述方法，釆用具有不同标签的寡核苷酸构建含有各种 DNA标签的 DNA标签文库时，所得到的测序数据结果的稳定性和可重复性非常好。

根据本发明的实施例，本发明对 Illumina提供的 DN A接头序列进行优化，在接头中引入标签序列，通过 DNA PCR-Free标签接头的连接将标签序列导入目的文库中。在接头连接后，只需分离回收连接产物即可得到目的文库，整个建库过程无需经过 PCR 反应，避免了由于 PCR反应的难度大，特异性低而造成 DNA标签文库构建效率低下的问题，同时也降低了文库构建的费用。目前为止，通过这些 DNA PCR-Free标签接头导入标签的 DNA文库构建方法及其标签序列，并没有相关的报道。根据本发明的实施例，与 Illumina公司的 DNA接头相比，本发明的 DNA标签接头，是优化后的 DNA标签接头，这些 DNA标签接头提高了接头连接的效率，并提高了标签序列的识别效率及标签的数量。具体情况，可比较参照图 1和图 2, 其中图 1所示的 Illumina公司的 DNA 标签文库构建方法的流程图，图 2所示的根据本发明的实施例的 DNA 标签文库构建方法的流程图。

根据本发明的再一方面，本发明还提供了一种用于构建 DN A标签文库的试剂盒。根据本发明的实施例，该试剂盒包括： 161种分离的寡核苷酸，这些分离的寡核苷酸具有第一链和第二链，其中，第一链由 SEQ ID NO: 323所示的核苷酸构成，第二链由 SEQ ID NO: ( 2N ) 所示的核苷酸构成，其中 N=l-161的整数。其中，这 161种分离的寡核苷酸分别设置在不同的容器中。由此，利用该试剂盒，能够方便地将根据本发明实施例的 DNA标签引入到构建的 DNA标签文库中。当然，本领域技术人员能够理解，试剂盒中还可以包含其他用于构建 DNA标签文库的常规组件，在此不再赘述。

DNA标签文库及测序方法

根据本发明的又一方面，本发明还提供了一种 DNA标签文库，其是根据本发明的构建 DNA标签文库的方法所构建的。该具有标签的 DNA标签文库可以有效地应用于高通量测序技术例如 Solexa技术，从而可以通过获得标签序列，来对所获得的核酸序列信息例如 DNA序列信息来精确地进行样品来源分类。

根据本发明的又一方面，本发明还提供了一种确定 DNA样品序列信息的方法。根据本发明的实施例，其包括：根据本发明实施例的构建 DNA 标签文库的方法，构建 DNA标签文库；接着，对所构建的 DNA标签文库进行测序，以确定 DNA样品的序列信息。基于该方法，能够有效地获得 DNA标签文库中 DNA样品的序列信息以及 DNA 标签的序列信息，从而能够对 DNA样品的来源进行区分。另外，发明人惊奇地发现，利用根据本发明实施例的方法确定 DNA样品序列信息，能够有效地减少数据产出偏向性的问题，并且能够精确地对多种 DNA标签文库进行区分。根据本发明的实施例，可以釆用任何已知的方法对所构建的 DNA标签文库进行测序，其类型并不受特别限制。根据本发明的一些示例，可以利用 Solexa测序技术对 DNA标签文库进行测序。根据本发明的实施例，可以根据具体情况选择合适的测序引物进行测序。

进一步，可以将上面确定 DNA样品序列信息的方法应用于多种样品。例如，根据本发明的实施例，本发明提供了一种确定多种 DNA样品序列信息的方法。根据本发明的实施例，其包括以下步骤：针对多种样品的每一种，分别独立地根据根据本发明的实施例的构建 DNA标签文库的方法，构建该 DNA样品的 DNA标签文库，其中，不同的 DNA样品釆用相互不同并且已知序列的 DNA标签，这里所使用的术语"多种"为 2-161 种。将得到的多种样品的 DNA标签文库进行组合，以便获得 DNA标签文库混合物。利用 Solexa测序技术，对所得的 DNA标签文库混合物进行测序，从而获得 DNA样品的序列信息以及标签的序列信息。最后，基于标签的序列信息，对 DNA样品的序列信息进行分类，以便确定所述多种 DNA样品的序列信息。由此，根据本发明实施例的该方法，可以充分利用高通量的测序技术，例如利用 Solexa测序技术，同时对多种样品的 DNA文库进行测序，从而提高 DNA文库测序的效率和通量，同时可以提高确定多种 DNA样品的序列信息的效率。关于测序的方法和釆用的测序引物，前面已经进行了详细描述，此处不再赞述。

需要说明的是，根据本发明实施例的确定 DNA样品序列信息的方法是本申请的发明人经过艰苦的创造性劳动和优化工作才完成的。下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件（例如参考 J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社）或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品，例如可以釆购自 Illumina公司。实施例 1

Paired End DNA寡核苷酸序列：

GATCT

DNA PCR-Free index接头： (如表 1所示）实施例 1:

1.1 DNA 模板准备

以质粒 pMD18-T ( 日本 takara )为模板，使用 Primer Premier5.0软件设计引物， PCR 扩增产物长度为 250bp的片段，使用 NanoDrop 1000仪器（美国 NanoDrop )检测扩增产物的浓度，然后根据浓度取 1微克的该 PCR产物作为文库构建的插入片段，补水使其体积至 35微升。 PCR引物序列：

pMD18-T引物 1:CGGGGAGAGGCGGTTTGCGTATTGG；

pMD 18-T引物 2:TTTTGTGATGCTCGTCAGGGGGGCG。

1.2 末端修复

按照下列的配比准备反应混合：

pMD 18-T质粒 DNA模板 35 微升

T4 DNA 连接酶緩冲液 50 微升

dNTPs 混合液 4 微升

T4 DNA聚合酶 5 微升 Klenow DNA聚合酶 1 微升

T4多聚核苷酸激酶 5 微升

总体积 100 微升

将舒适型恒温混匀器调至 20 °C , 反应 30min 然后用 QIAquick PCR纯化试剂盒进行纯化，最后将样品溶于 32 i升 EB solution。

1.3 DNA片段 3'末端力口 "A"碱基

按照下列的配比准备反应混合物：

末端修复后的 DNA 32 微升

Klenow 酶緩冲液 5 微升

dATP(lmM) 10 微升

Klenow 酶 (3'到 5' 外切酶活性） 3 微升

总体积 50 微升

将舒适型恒温混匀器调至 37 °C , 反应 3 Omin，然后用 MiniElute PCR纯化试剂盒进行纯化，最后将样品溶于 10微升 EB solution。

1.4 连接 PCR-Free标签接头

按照下列的配比准备反应混合物：

DNA 10 微升

T4 DNA 连接酶緩冲液 25 微升

DNA PCR-Free标签接头 10 微升

T4DNA 连接酶 5 微升

总体积 50 微升

注：对于每一个 DNA样品，所使用的 PCR-Free标签接头可为表 1中所示 PCR-Free标签序列（ PCR-Free Index-N ) 中的任意一种与 DNA PCR-Free接头 1.0退火后的 PCR-Free 标签接头。

将舒适型恒温混匀器调至 20°C , 反应 15min, 然后用 QIAquick PCR纯化试剂盒进行纯化，最后将样品溶于 30微升 EB solution ₀

1.5 PCR-Free index文库的胶回收纯化

将连接产物于 2%的琼脂糖胶中进行电泳分离；随后将目的片段条带切胶转移至

Eppendorf管中。用 QIAquick胶纯化试剂盒进行胶纯化回收，回收产物溶于 20微升 EB solution。

1.6 PCR-Free index文库检测

1 )使用 Agilent 2100 Bioanalyzer检测文库产量。

2 )使用 QPCR定量检测文库产量。

图 3显示了根据本实施例的构建的 44个 D N A标签文库的电泳结果。将构建的 44个 DNA PCR-Free 标签文库，使用 1%琼脂糖凝胶电泳，结果如图 3所示。其中，（a ) 中箭头所标记的为目的文库，其中泳道 1和泳道 25分别是 D2000和 50bp的 marker, 泳道 2-24 分别是 DNA PCR-Free标签 1文库至 DNA PCR-Free标签 23文库。（b ) 中箭头所标记的为目的文库，其中泳道 1和泳道 25分别是 D2000和 50bp的 marker , 泳道 3-23分别是 DNA PCR-Free标签 101文库至 DNA PCR-Free标签 121文库。由于目的片段（PCR产物）长度为 250bp,接头长度为 65bp且为 "Y型"结构，理论上目的片段两端连接上 DNA PCR-Free 标签接头后的会增加 130bp左右的分子量，但是由于 DNA PCR-Free标签接头为特殊的 "Y型" 结构，其在琼脂糖中电泳的速度会比相同分子量的双链 DNA电泳迁移率稍小，电泳条带显示的位置为 500bp。其中， D2100 marker从上往下的条带分别是： 2000bp、 1000bp、 750bp、 500bp、 250bp、 lOObp; 目的条带下方有部分条带，为目的片段的一端连接上接头的产物，其产物量不多，不影响文库构建的结果。结果表明，接头全部成功连接到 PCR产物上。

Solexa测序结果统计：共测序 33932756条读取结果（也称为 reads ) , 标签完全识别即 0 mismatch占 96.73% , 其他读取结果（ other reads ) 占 3.27% , 所以测序结果标签的完全识别的序列为〜 96.7% , 可以满足 solexa DNA 标签的测序要求。

工业实用性

本发明的用于构建 DNA标签文库的 DNA标签、寡核苷酸、 DNA标签文库及其制备方法、确定 DNA样品序列信息的方法、确定多种 DNA样品序列信息的方法以及用于构建 DNA标签文库的试剂盒，能够应用于 DNA测序，并且能够有效地提高测序平台，例如 Solexa测序平台的测序通量。

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

在本说明书的描述中，参考术语 "一个实施例" 、 "一些实施例" 、 "示意性实施例" 、 "示例" 、 "具体示例" 、或 "一些示例" 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

权利要求书

I.一组分离的 DNA标签，其由 SEQ ID NO: ( 2N-1 )所示的核苷酸构成，其中 N=l-161 的任意整数。

2、一组分离的寡核苷酸，所述分离的寡核苷酸具有第一链和第二链，所述第一链由 SEQ ID NO: 323所示的核苷酸构成，所述第二链分别由 SEQ ID NO: ( 2N ) 所示的核苷酸构成，其中 N=l-161的任意整数。

3、一种制备 DNA标签文库的方法，其特征在于，包括以下步骤：

提供 DNA模板，所述 DNA模板具有两条寡核苷酸链；

在所述 DN A模板的两条寡核苷酸链的 3，末端分别添加碱基 A；

在所述 DNA模板的两端分别连接含有选自权利要求 1所述的一组分离的 DNA标签的一种的接头，以便获得连接产物；以及

分离回收所述连接产物，所述连接产物构成所述 DNA标签文库。

4、根据权利要求 3所述的制备 DNA标签文库的方法，其特征在于，

所述接头为选自根据权利要求 2所述的一组分离的寡核苷酸的一种。

5、根据权利要求 3所述的制备 DNA标签文库的方法，其特征在于，

所述 DNA模板的长度为约 250bp。

6、根据权利要求 3所述的制备 DNA标签文库的方法，其特征在于，

利用 2%的琼脂糖凝胶电泳分离回收所述连接产物。

7、根据权利要求 3所述的制备 DNA标签文库的方法，其特征在于，

所述 DNA模板来自于人 DNA样品。

8、根据权利要求 3所述的制备 DNA标签文库的方法，其特征在于，

在添加碱基 A之前，进一步包括对所述 DNA模板进行末端修复的步骤。

9、一种 DNA标签文库，其是根据权利要求 3-8任一项所述的方法建立的。

10、一种确定 DNA样品序列信息的方法，其包括以下步骤：

根据权利要求 3-8任一项所述的方法，建立所述 DNA样品的 DNA标签文库；以及

对所述 DNA标签文库进行测序，以确定所述 DNA样品的序列信息。

I I、根据权利要求 10所述的确定 DNA样品序列信息的方法，其特征在于，对所述 DNA标签文库进行测序是利用 Solexa测序技术进行的。

12、一种确定多种 DNA样品序列信息的方法，其包括下列步骤：

针对所述多种样品的每一种，分别独立地根据权利要求 3-8任一项所述的方法，建立所述 DNA样品的 DNA标签文库，其中，不同的 DNA样品釆用相互不同并且已知序列的 DNA标签，其中所述多种为 2-161种；

将所述多种样品的 DNA标签文库进行组合，以便获得 DNA标签文库混合物；利用 Solexa测序技术，对所述 DNA标签文库混合进行测序，以获得所述 DNA样品的序列信息以及所述标签的序列信息；以及

基于所述标签的序列信息对所述 DNA样品的序列信息进行分类，以便确定所述多种样品的 DN A序列信息。

13、一种用于构建 DNA标签文库的试剂盒，其包括：

161种分离的寡核苷酸，所述分离的寡核苷酸具有第一链和第二链，所述第一链由 SEQ ID NO: 323所示的核苷酸构成，所述第二链由 SEQ ID NO: ( 2N )所示的核苷酸构成，其中 N=l-161的整数，

其中，所述 161种分离的寡核苷酸分别设置在不同的容器中。