HK1193845B

HK1193845B - 对核酸样本中预定区域进行基因分型的方法和系统

Info

Publication number: HK1193845B
Application number: HK14107084.6A
Authority: HK
Inventors: 蒋慧; 陈芳; 葛会娟; 李培培; 李旭超; 汪建; 王俊; 杨焕明; 张秀清
Original assignee: 深圳华大基因股份有限公司
Priority date: 2011-10-14
Filing date: 2011-12-21
Publication date: 2017-05-12

Abstract

本发明公开了对核酸样本中预定区域进行基因分型的方法和系统。对核酸样本中预定区域进行基因分型的方法包括下列步骤：使用引物组对核酸样本进行扩增，以便获得扩增产物，其中所述引物组是预定区域特异性的；针对所述扩增产物，构建测序文库；对测序文库进行测序，以便获得由多个测序数据构成的测序结果；确定来自预定区域的测序数据；以及基于来自预定区域的测序数据的组成，对预定区域进行基因分型。

Description

对核酸样本中预定区域进行基因分型的方法和系统

优先权信息

本申请请求2011年10月14日向中国国家知识产权局提交的、专利申请号为201110311333.2的专利申请的优先权和权益，并且通过参照将其全文并入此处。

技术领域

本发明涉及生物医学领域。具体地，本发明涉及对核酸样本中预定区域进行基因分型的方法和系统。

背景技术

亲子鉴定就是利用医学、生物学和遗传学的理论和技术，从子代和亲代的形态构造或生理机能方面的相似特点，分析遗传特征，判断父母与子女之间是否是亲生关系。亲子鉴定根据鉴定的目的，可分为：司法亲子鉴定和个人亲子鉴定等。大部分进行亲子鉴定的案例是在孩子出生之后进行的，但是近几年，随着经济水平及科技水平的增高，在孩子出生之前进行亲子鉴定的需求逐年升高，尤其在一些经济发达地区。

然而，目前的相关检测手段仍有待改进。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出能够有效地对核酸样本中预定区域进行基因分型的方法。

根据本发明的第一方面，本发明提出了一种对核酸样本中预定区域进行基因分型的方法。根据本发明的实施例，该对核酸样本中预定区域进行基因分型的方法包括以下步骤：使用引物组对核酸样本进行扩增，以便获得扩增产物，其中引物组是预定区域特异性的；针对扩增产物，构建测序文库；对测序文库进行测序，以便获得由多个测序数据构成的测序结果，任选地，测序是利用选自Illumina-Solexa、ABI-SOLiD、Roche-454、IonTorrent、和单分子测序装置的至少一种进行的；确定来自预定区域的测序数据；以及基于来自预定区域的测序数据的组成，对预定区域进行基因分型。利用上述方法能够有效地对核酸样本中预定区域进行基因分型，例如可以有效地检测SNP位点中的突变类型。

根据本发明的第二方面，本发明提出了一种对核酸样本中预定区域进行基因分型的系统。根据本发明的实施例，该用于检测核酸样本中预定事件的系统包括：扩增装置，该扩增装置适于使用引物组对核酸样本进行扩增，以便获得扩增产物，其中引物组是预定区域特异性的；文库构建装置，该文库构建装置与扩增装置相连，并且适于针对扩增产物构建测序文库；测序装置，该测序装置与文库构建装置相连，并且适于对扩增产物进行测序以便获得由多个测序数据构成的测序结果；以及分析装置，该分析装置与测序装置相连，并且适于确定来自预定测序区域的数据，以及基于来自预定区域的测序数据的组成，对预定区域进行基因分型。利用该系统，能够有效地实施前面所述的对核酸样本中预定区域进行基因分型的方法，从而有效地对核酸样本中的预定区域进行基因分型，例如可以有效地检测SNP位点中的突变类型等。

根据本发明的又一方面，本发明还提出了一种确定样品之间是否具有亲缘关系的方法。根据本发明的实施例，该方法包括下列步骤：分别从第一样品和第二样品提取核酸样本，以便分别获得第一核酸样本和第二核酸样本；根据本发明实施例的用于对核酸样本中预定区域进行基因分型的方法，分别对第一核酸样本和第二核酸样本中相同的预定区域进行基因分型；基于分型结果，确定第一样品和第二样品之间的亲缘关系。根据本发明的实施例，该方法能够有效地确定样品间的亲缘关系。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的对核酸样本中预定区域进行基因分型的系统的结构示意图；以及

图2是根据本发明一个实施例的PAGE电泳图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。术语“第一”、“第二”等仅用于方便描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

对核酸样本中预定区域进行基因分型的方法

根据本发明的实施例，本发明提出了一种对核酸样本中预定区域进行基因分型的方法。在本文中所使用的术语“预定区域”是指核酸样本中感兴趣的核酸区域。根据本发明的实施例，预定区域的类型并不受特别限制，本领域技术人员可以根据其研究目的任意选择预定区域的范围。根据本发明的一个实施例，所选择的预定区域为具有已知遗传多态性的核酸序列。由此，可以通过对这些遗传多态性的核酸序列进行基因分型，可以有效地对核酸样本来源的状态进行研究。具体地，根据本发明的示例，遗传多态性为选自下列的至少一种：短串联重复序列、单核苷酸多态性位点、数目可变串联重复多态性、限制性片段长度多态性、随机扩增多态性DNA、DNA扩增指纹印记、序列标志位点、简单重复序列、DNA单链构象多态性、插入缺失标记以及酶切扩增多态性序列。更具体地，根据本发明的一些具体示例，可以研究的短串联重复序列可以为选自下列的至少一种：D18S51、D8S1179、D3S1358、THOI、vWA、FGA、D21S11、D5S818、D7S820、D13S317、CSFIPO、TPOX、D16S539。根据本发明的一些示例，单核苷酸多态性位点可以为选自下列的至少一种：rs835435、rs2306940、rs2292564、rs315952、rs2729705、rs4082155、rs2276853、rs2276967、rs17078320、rs2274212。发明人发现，可以通过选择包含这些位点的预定区域作为研究对象，根据本发明的实施例的对核酸样本中预定区域进行基因分型的方法进行检测，并对这些特定区域的测序结果的构成（例如，在特定的位点，ATGC碱基各自出现的频率）进行分析，可以有效地确定核酸样本中是否存在上述遗传多态性或者上述遗传多态性的类型，例如可以确定SNP的类型。

根据本发明的实施例，检测核酸样本中预定事件的方法可以包括下列步骤：

首先，使用引物组对核酸样本进行扩增，以便获得扩增产物。在本文中，所使用的术语“引物组”指的是至少一对引物。根据本发明的实施例，引物组对于所选择的预定区域是特异性的，因而，通过采用引物组对核酸样本进行扩增，能够有效地获得基本上由预定区域构成的扩增产物。从而，可以显著地提高后续测序以及分析的效率和准确性。根据本发明的实施例，技术人员可以根据所选择的生物样本的种类以及核酸样本上感兴趣的区域，来设计特异性的引物来进行扩增，例如通过PCR反应进行扩增。根据本发明的实施例，扩增产物的长度并不受特别限制。根据本发明的具体示例，扩增产物的长度为至多150bp，发明人发现，这样可以更有利于小片段的扩增，提高了检验效率。根据本发明的实施例，可以同时对多个预定区域进行测序和分析。为此，可以通过分别进行多次单个位点PCR对核酸样本进行扩增，从而分别获得单一的扩增产物，并将分别得到的扩增产物进行组合，得到含有多种扩增产物的混合物。根据本发明的实施例，可以通过采用多对引物，对核酸样本进行多重PCR扩增，从而可以有效地得到由多种扩增产物构成的包含多种预定区域的混合物。根据本发明的实施例，核酸样本的类型并不受特别限制，可以是脱氧核糖核酸（DNA），也可以是核糖核酸（RNA），优选DNA。本领域技术人员可以理解，对于RNA样本，可以通过常规手段将其转换为具有相应序列的DNA样本，进行后续检测和分析。另外，核酸样本的来源也不受特别限制。根据本发明的一些实施例，可以采用基因组DNA样本，也可以采用由基因组DNA的一部分作为核酸样本，发明人发现还可以采用体内外周血中所包含的游离核酸作为核酸样本进行分析。由此，根据本发明的实施例，进一步包括从生物样本中提取核酸样本的步骤。并且根据本发明的实施例，生物样本的类型并不受特别限制。根据本发明的示例，可以采用孕妇样本作为生物样本，从而可以从其中提取含有胎儿遗传信息的核酸样本，进而可以对胎儿的遗传信息和生理状态进行检测和分析。根据本发明的实施例，可以使用的孕妇样本的例子包括但不限于孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、胎儿有核红细胞。发明人发现，通过对上述孕妇样本进行提取核酸样本，能够有效地对胎儿基因组中的预定区域进行分析，从而可以分析胎儿的遗传信息。尤其是，通过对孕妇外周血中提取的游离核酸或者基因组DNA进行分析，可以有效地对胎儿的遗传性状进行分析，实现对胎儿无损的产前诊断或者亲子鉴定。根据本发明的实施例，从生物样本提取核酸样本的方法和设备，也不受特别限制，可以采用商品化的核酸提取试剂盒进行。

接下来，在获得含有预定区域的扩增产物之后，针对所得到的扩增产物，构建测序文库。关于针对核酸，构建测序文库的方法和流程，本领域技术人员可以根据不同的测序技术进行适当选择，关于流程的细节，可以参见测序仪器的厂商例如Illumina公司所提供的规程，例如参见Illumina公司Multiplexing Sample Preparation Guide（Part#1005361;Feb2010）或Paired-End SamplePrep Guide（Part#1005063；Feb2010），通过参照将其并入本文。

接着，在获得测序文库之后，将测序文库应用于测序仪器，对测序文库进行测序，并获得相应的测序结果，该测序结果是由多个测序数据构成的。根据本发明的实施例，可以用于进行测序的方法和设备并不受特别限制，包括但不限于双脱氧链终止法；优选高通量的测序方法，由此，能够利用这些测序装置的高通量、深度测序的特点，进一步提高了确定有核红细胞染色体非整倍性的效率。从而，提高后续对测序数据进行分析，尤其是统计检验分析时的精确性和准确度。

其中，高通量的测序方法包括但不限于第二代测序平台或者是单分子测序平台。而第二代测序平台（可参见Metzker ML.Sequencing technologies-the nextgeneration.Nat Rev Genet.2010.Jan.11(1):31-46，通过参照将其全文并入本文）包括但不限于Illumina-Solexa（GA^TM,HiSeq2000^TM等）、ABI-Solid Roche-454（焦磷酸测序）测序平台和Ion Torrent测序平台；单分子测序平台（技术）包括但不限于Helicos公司的真实单分子测序技术（True Single Molecule DNA sequencing），Pacific Biosciences公司单分子实时测序（single molecule real-time(SMRT^TM)），以及Oxford Nanopore Technologies公司的纳米孔测序技术等（可参见Rusk,Nicole(2009-04-01).Cheap Third-GenerationSequencing.Nature Methods6(4):244-245，通过参照将其全文并入本文）。

随着测序技术的不断进化，本领域技术人员能够理解的是还可以采用其他的测序方法和装置进行测序。

根据本发明的具体实施例，测序装置是Ion Torrent测序平台（LifeTechnologies Corp.）。发明人发现，通过采用本发明的方法所得到的扩增产物能够有效地应用于最新的测序装置，例如Ion Torrent测序平台。由此，结合最新的测序技术，针对单个位点可以达到较高的测序深度，检测灵敏度和准确性大大提高，因而能够利用这些测序装置的高通量、深度测序的特点，进一步提高对核酸样本进行检测分析的效率。从而，提高后续对测序数据进行分析，尤其是统计检验分析时的精确性和准确度。

接下来，将所得到的测序结果进行处理，确定来自预定区域的测序数据。根据本发明的实施例，从测序结果中选择来自相应区域的测序数据的方法可以不受特别限制。根据本发明的实施例，可以通过将所得到的所有测序数据与已知的核酸参照序列进行比对，从而得到来自于预定区域的测序数据。另外，也可以在进行测序操作之前，完成对进行测序的测序文库的筛选，从而可以直接获得来自预定区域的测序数据。由此，根据本发明的实施例，确定来自预定区域的测序数据，可以包括在获得测序结果之后，通过比对等方法对测序结果进行筛选，得到来自预定区域的测序数据。也可以通过在测序之前就对测序文库进行选择，从而最终获得由来自预定区域的测序数据构成的测序结果。根据本发明的实施例，对测序文库进行选择的方法并不受特别限制，可以是在构建测序文库的任何阶段进行，例如可以采用预定区域特异性的探针进行。根据本发明的实施例，可以在对基因组打断获得DNA片段，使用特异性的探针对DNA片段进行筛选，并对筛选得到的DNA片段进行后续的文库构建操作，从而得到来自预定区域的测序文库。当然，也可以在获得DNA测序文库之后，利用特定区域特异性的探针对测序文库进行筛选，从而筛选得到来自预定区域的测序文库。因而，根据本发明的实施例，可以在将所述测序文库进行测序之前，进一步包括利用探针对所述测序文库进行筛选的步骤，其中所述探针对于所述预定区域是特异性的。由此，可以在测序之前，对测序文库进行初步筛选，与之前的特异性扩增反应相结合能够提高所得到的测序数据中可以直接进行分析的数据的比例，并且可以进一步提高测序深度，实现同时对核酸样本的多个预定区域进行测序和分析。根据本发明的实施例，探针的形式并不受特别限制。根据本发明的实施例，所述探针可以设置在芯片上。由此，通过将探针设置在芯片上，可以通过实现高通量筛选多种预定区域的测序文库，进一步提高对核酸样本进行检测分析的效率。本领域技术人员，可以根据需要设计探针，并且目前有制造商可以提供探针合成以及芯片制作的服务。

另外，根据本发明的实施例，通过比对确定来自预定区域的测序数据的方法，与通过探针筛选预定区域的测序文库的方法相结合以及利用引物组对核酸样本进行特异性扩增，能够有效的提高选择来自预定区域的测序数据的精确性。根据本发明的实施例，可以在获得所述测序结果之后，进一步包括：将所述测序结果与已知的核酸序列进行比对，以便获得唯一比对序列；以及从所述唯一比对序列选择来自预定区域的测序数据。由此，能够有效地提高测序的准确性。

在从测序结果中选择来自预定区域的测序数据之后，可以基于来自预定区域的测序数据的组成，对所述预定区域进行基因分型。对于来自预定区域的测序数据，尤其是通过二代测序等高通量深度测序所得到的测序结果，相同的位点，会被检测多次，同时也会有一定的误差，或者发生了其他的突变，在本文中所使用的术语“测序数据的组成”的含义指的是，对于所研究的区域，所有的测序数据，包括所得到的所有位点的测序结果，以及各种结果所对应的读数（reads）的数目。发明人提出，可以通过统计分析的方法，对这些测序数据的组成进行分析，排除偶然发生的误差，从而得到最可能反映真实情况的测序结果。

为此，发明人提出了一种针对单核苷酸多态性（SNP）的分析方法。对于SNP的分析方法，所选择的预定区域是包含已知SNP的核酸片段，基因分型即为确定SNP位点的突变类型，其中，对所选择的预定区域进行基因分型进一步包括：确定在SNP位点分别为碱基A、T、G、C的测序数据分别占总测序数据的比例；以及基于该比例，利用贝叶斯模型，确定在所述SNP位点出现概率最高的碱基，以便确定所述核酸样本中SNP位点的突变类型。由此，可以有效地确定预定区域中SNP的突变类型。发明人发现，利用该方法确定的SNP类型，能够有效地应用于亲子鉴定，例如可以通过对胎儿及其父母中多个SNP位点的突变类型进行检测，实现亲子鉴定。并且利用该方法能够有效地对多种变异类型进行检测，扩大了疾病检测的范围。

发明人发现在特定位点，四种碱基（A、T、C和G）的出现是相互排斥的，同时仅有这四种可能，因而在特定的位点出现特定碱基的概率服从四项分布。因而，当特定位点的基因型为纯合型，例如AA，则四种碱基出现的概率如下表所示：

碱基	A	T	C	G
					Pr(Base)*	1-δ	δ/3	δ/3	δ/3

注：*Pr(Base)表示碱基所出现的概率；

δ为碱基错误率，即在测序过程中碱基被测错的比例。

当其基因型为杂合型，例如AT，则四种碱基出现的概率如下表所示：

注：*Pr(Base)表示碱基所出现的概率；

δ为碱基错误率，即在测序过程中碱基被测错的比例。

根据四项分布的规律，对于n个测序结果中，A出现a_A次、T出现a_T次、C出现a_C次且G出现a_G次的概率是

其中a_A+a_T+a_C+a_G=n，

p_A、p_T、p_C和p_G分别表示碱基A、T、C和G的出现概率，i∈{AA,TT,CC,GG,AT,AC,AG,CT,CG,GT}。由于目前测序技术的测序深度比较高，所以没有必要将先验的概率引入，所以，可以假定在观察前，每种基因型出现的概率相等，即Pr(genotype=i)=0.1，因为样本空间中i∈{AA,TT,CC,GG,AT,AC,AG,CT,CG,GT}共有10种可能出现的情况。

基于以上前提，可以通过贝叶斯模型，对测序结果进行分析，即利用下列方程：

(公式I)公式I是贝叶斯展开式，可以分别计算在核酸样本中预定区域为不同的基因型时，得到当前的测序结果的概率。概率最大时的基因型，即为根据本发明的分析方法确定的实际基因型。其中，Pr(genotype=i)是指某种基因型的出现概率，基于前述分析，这里全都默认为0.1；Pr(sequence|genotype=i)是当实际基因型为i时，得到当前测序数据的概率，可以由公式

计算得到；Pr(genotype=i|sequence)代表在当前测序数据中，不同基因型出现的概率。

借助上述贝叶斯模型的分析，可以将测序结果中，在特定位点出现特定碱基的概率进行计算，从而得到概率最高的测序结果，由此，可以确定针对该位点的基因型。即出现概率最大的基因型，将会被认定为本位点的基因型。另外可以将计算得到出现概率最大的基因型所对应的Pr(genotype=i|sequence)，根据公式-10*log₁₀(Pr)转化成质量值，来衡量本次基因型决定的可靠性，其中Pr表示该基因型的出现概率。

由此，可以有效地对样本特定核酸位点的类型进行确定，例如可以同时确定多个SNP的突变类型，从而可以有效地对样本之间的血缘关系进行检测，实现有效的亲子鉴定，也可以实现同时对多种疾病的有效检测。当然本领域技术人员可以理解，上述利用贝叶斯模型的分析方法，也可以适用于其他核酸变异情况的分析。与传统单个位点PCR方法不同，本方法不但涉及较多位点，检测结果更加可靠，且同时可检测多个样品，通量大大增加，使操作流程较大程度得到简化。

另外，根据本发明的实施例，可以通过对测序结果进行分析，实现对短串联重复序列（STR）的检测，即确定预定区域中短串联重复序列的拷贝数。根据本发明的实施例，预定区域是包含短串联重复序列的核酸片段，基于来自预定区域的测序数据的组成，对预定区域进行基因分型进一步包括：首先，基于测序数据，确定包含短串联重复序列的核酸片段的核酸序列，从而得到预定区域的核酸序列。根据本发明的实施例，可以通过设定测序数据两端临近的特异序列，在索引过程中可以采取容错处理，有效地对扩增产物即作为预定区域的包含短串联重复序列的核酸片段的核酸序列进行定位。在获得预定区域的核酸序列之后，可以有效地确定短串联重复序列的拷贝数。由于短串联重复序列符合孟德尔遗传规律，因而可以有效地作为个体鉴定分型标准的分子标记。因而，通过对不同样本的相同预定区域进行短串联重复序列的检测，可以有效地实现对样本来源之间的亲缘关系进行确定。

根据本发明的实施例，还可以通过对测序结果进行分析，实现对Indel(插入缺失标记)的检测。根据本发明的实施例，所选择的预定区域是包含已知插入缺失标记的核酸片段，基于来自预定区域的测序数据的组成，对预定区域进行基因分型进一步包括：首先，针对预定区域中特定位点，确定各碱基类型的测序深度。接下来，基于各碱基类型的测序深度，确定在发生在特定位点的插入缺失标记的类型。由此，能够有效地辅助构建遗传连锁图谱或辅助育种。

根据本发明实施例的对核酸样本中预定区域进行基因分型的方法，可以有效地应用于非医疗目的研究。

对核酸样本中预定区域进行基因分型的系统

根据本发明的第二方面，本发明提出了一种对核酸样本中预定区域进行基因分型的系统1000。参考图1，根据本发明的实施例，该对核酸样本中预定区域进行基因分型的系统1000包括扩增装置10、文库构建装置100、测序装置200以及分析装置300。借助根据本发明实施例的用于对核酸样本中预定区域进行基因分型的系统1000，能够有效地实施上述根据本发明实施例的对核酸样本中预定区域进行基因分型的方法。关于该方法的优点，前面已经进行了详细描述，不再赘述。

根据本发明的实施例，扩增装置10适于使用引物组对核酸样本进行扩增，由此可以获得扩增产物。根据本发明的实施例，扩增装置10可以为PCR仪器，并且可以在其中设置特异性识别预定区域的引物组。关于引物，在前面已经进行了详细描述，不再赘述。需要说明的是，扩增装置10中可以设置有多组引物，以便进行多重PCR，从而可以有效地得到由多种扩增产物构成的包含多种预定区域的混合物。另外，根据本发明的实施例，引物组可以适于获得长度至多150bp的扩增产物。发明人发现，这样可以更有利于小片段的扩增，提高了检验效率。

根据本发明的实施例，文库构建装置100与扩增装置10相连，并且适于针对所得到的扩增产物构建测序文库。根据本发明的实施例，关于针对扩增产物，构建测序文库的方法和流程，本领域技术人员可以根据不同的测序技术进行适当选择，关于流程的细节，可以参见测序仪器的厂商例如Illumina公司所提供的规程，例如参见Illumina公司MultiplexingSample Preparation Guide（Part#1005361;Feb2010）或Paired-End SamplePrep Guide（Part#1005063；Feb2010），通过参照将其并入本文。在本文中所的术语“相连”应作广义理解，既可以是直接相连，也可以是间接相连，只要能够实现上述功能上的衔接即可。

根据本发明的实施例，测序装置200与文库构建装置100相连，并且适于对测序文库进行测序，以便获得由多个测序数据构成的测序结果。根据本发明的实施例，可以用于进行测序的方法和设备并不受特别限制。根据本发明的实施例，可以采用第二代测序技术，也可以采用第三代以及第四代或者更先进的测序技术。根据本发明的具体示例，可以利用选自Illumina-Solexa、ABI-SOLiD、Roche-454、Ion Torrent、和单分子测序装置的至少一种对所述全基因组测序文库进行测序。根据本发明的实施例，测序装置可以为Ion Torrent测序平台。由此，结合最新的测序技术，针对单个位点可以达到较高的测序深度，检测灵敏度和准确性大大提高，因而能够利用这些测序装置的高通量、深度测序的特点，进一步提高对核酸样本进行检测分析的效率。从而，提高后续对测序数据进行分析，尤其是统计检验分析时的精确性和准确度。

根据本发明的实施例，分析装置300与测序装置200相连，并且适于从测序装置200接收测序结果，确定来自预定测序区域的数据，以及基于来自预定区域的测序数据的组成，对预定区域进行基因分型。关于从测序结果中选择来自预定区域的测序数据，前面已经进行了详细描述，在此不再赘述。根据本发明的实施例，可以采用在分析装置300中预存有相关的序列信息，也可以采用分析装置300与远程数据库（图中未显示）相连，进行联网操作。

关于判断所述预定事件的发生，前面也进行了详细描述，此处不再赘述。简言之，分析装置300适于对SNP进行检测和分析。对于SNP的分析方法，所选择的预定区域是包含已知SNP的核酸片段，基因分型即为确定SNP位点的突变类型，其中，分析装置300适于进行：对所选择的预定区域进行基因分型进一步包括：确定在SNP位点分别为碱基A、T、G、C的测序数据分别占总测序数据的比例；以及基于该比例，利用贝叶斯模型，确定在所述SNP位点出现概率最高的碱基，以便确定所述核酸样本中SNP位点的突变类型。由此，可以有效地确定预定区域中SNP的突变类型。发明人发现，利用该方法确定的SNP类型，能够有效地应用于亲子鉴定，例如可以通过对胎儿及其父母中多个SNP位点的突变类型进行检测，实现亲子鉴定。并且利用该系统能够有效地对多种变异类型进行检测，扩大了疾病检测的范围。

根据本发明的一个实施例，分析装置300可以用于实现对短串联重复序列的检测，即确定预定区域中短串联重复序列的拷贝数。因而，预定区域是包含短串联重复序列的核酸片段。分析装置300适于基于来自预定区域的测序数据的组成，对预定区域进行基因分型，即：首先，基于测序数据，确定包含短串联重复序列的核酸片段的核酸序列，可以通过常规的方法从而得到预定区域的核酸序列。。根据本发明的实施例，可以通过设定测序数据两端临近的特异序列，在索引过程中可以采取容错处理，有效地对扩增产物即作为预定区域的包含短串联重复序列的核酸片段的核酸序列进行获得预定区域的核酸序列之后，可以有效地确定短串联重复序列的拷贝数。由于短串联重复序列符合孟德尔遗传规律，因而可以有效地作为个体鉴定分型标准的分子标记。因而，通过对不同样本的相同预定区域进行短串联重复序列的检测，可以有效地实现对样本来源之间的亲缘关系进行确定。

根据本发明的一个实施例，分析装置300可以通过对测序结果进行分析，实现对Indel(插入缺失标记)的检测。根据本发明的实施例，所选择的预定区域是包含插入缺失标记的核酸片段，分析装置300适于基于来自预定区域的测序数据的组成，对预定区域进行基因分型，即包括：针对预定区域中特定位点，确定各碱基类型的测序深度。接下来，基于各碱基类型的测序深度，确定在发生在特定位点的插入缺失标记的类型。由此，能够有效地辅助构建遗传连锁图谱或辅助育种。

借助根据本发明实施例的用于对核酸样本中预定区域进行基因分型的系统1000，能够有效地实施上述根据本发明实施例的对核酸样本中预定区域进行基因分型的方法。关于该方法的优点，前面已经进行了详细描述，不再赘述。需要说明的是，本领域技术人员能够理解，在前面所描述的用于对核酸样本中预定区域进行基因分型的方法的特征和优点也适合于用于对核酸样本中预定区域进行基因分型的系统，为描述方便，不再详述。

确定样品之间是否具有亲缘关系的方法

本发明还提出了一种确定样品之间是否具有亲缘关系的方法。根据本发明的实施例，该方法可以包括下列步骤：

首先，分别从第一样品和第二样品提取核酸样本，以便分别获得第一核酸样本和第二核酸样本。这里所使用的表达方式“第一样品”和“第二样品”应做广义理解，其涵盖了期望确定亲缘关系的所有样本，其数目可以根据需要来确定。例如，可以选择来自母亲、父亲和胎儿的样品。

接下来，在获得核酸样本后，根据前面所述的用于对核酸样本中预定区域进行基因分型的方法，分别对第一核酸样本和第二核酸样本中相同的预定区域进行基因分型。根据本发明的实施例，所选择的预定区域为具有已知遗传多态性的核酸序列。由此，可以通过对这些遗传多态性的核酸序列进行基因分型，可以有效地对核酸样本来源的状态进行研究，便于分析第一样品和第二样品之间的亲缘关系。具体地，根据本发明的示例，遗传多态性为选自下列的至少一种：短串联重复序列、单核苷酸多态性位点、数目可变串联重复多态性、限制性片段长度多态性、随机扩增多态性DNA、DNA扩增指纹印记、序列标志位点、简单重复序列、DNA单链构象多态性、插入缺失标记以及酶切扩增多态性序列。更具体地，根据本发明的一些具体示例，可以研究的短串联重复序列可以为选自下列的至少一种：D18S51、D8S1179、D3S1358、THOI、vWA、FGA、D21S11、D5S818、D7S820、D13S317、CSFIPO、TPOX、D16S539。根据本发明的一些示例，单核苷酸多态性位点可以为选自下列的至少一种：rs835435、rs2306940、rs2292564、rs315952、rs2729705、rs4082155、rs2276853、rs2276967、rs17078320、rs2274212。另外，根据本发明的实施例，采用的短串联重复序列为D3S1358、D16S539、vWA以及TPOX。发明人发现，采用该组短串联重复序列能够有效地确定样品间的亲缘关系。

最后，基于分型结果，即第一样品和第二样品的分型结果，确定第一样品和第二样品之间是否存在亲缘关系。例如，如果第一样品和第二样品在全部检测的预定区域的分型结果均一致，则可以确定第一样品和第二样品之间存在亲缘关系。如果大部分相同，则可以确定第一样品和第二样品之间的亲缘关系比较近。因而，根据本发明的实施例，该方法不仅可以确定样品间是否存在亲缘关系，而且可以对亲缘关系的远近进行检测和分析。

下面参考具体实施例，对本发明进行说明，需要说明的是，这些实施例仅仅是说明性的，而不能理解为对本发明的限制。

若未特别指明，实施例中所采用的技术手段为本领域技术人员所熟知的常规手段，可以参照《分子克隆实验指南》第三版或者相关产品进行，所采用的试剂和产品也均为可商业获得的。未详细描述的各种过程和方法是本领域中公职的常规方法，所用试剂的来源、商品名以及有必要列出其组成成分者，均在首次出现时标明，其后所用相同试剂如无特殊说明，均以首次标明的内容相同。

实施例1、STR检测和分型

所取样品包括一个家庭中父亲全血、母亲孕期的外周血及一个无亲缘关系男子的全血，以EDTA抗凝管收集。取母亲孕期外周血，1600g，4℃离心10分钟，将血细胞和血浆分开，血浆再以16000g，4℃离心10分钟，进一步去除残留的白细胞。孕妇外周血细胞和血浆用TIANamp Micro DNA Kit（TIANGEN）提取DNA，分别代表母亲基因组DNA及母亲和胎儿基因组DNA混合物。父亲和无关男子外周血则直接用该试剂盒提取DNA。所获得的所有DNA样品进行D3S1358、D16S539、vWA和TPOX四个STR位点的扩增，

针对各位点，所采用的引物序列如下（在引物名称中标记后缀F表示有义链，标记后缀R表示反义链，所有序列均为5’-3’方向）：

扩增产物长度范围均在150bp以内，所选位点整体非父排除率大于99.99%。所获得的PCR产物用PCR Purification Kit(QIAGEN)纯化回收，将同一DNA模板的PCR产物混合在一起，根据HiSeq2000^TM测序仪制造商公司所提供的说明书对扩增产物进行PCR-free建库，具体步骤如下：

末端修复：

20℃反应30分钟后，使用PCR纯化试剂盒(QIAGEN)回收末端修复产物。样品最后溶于64μl的EB缓冲液中。

末端添加碱基A：

37℃温育30分钟后，经PCR纯化试剂盒(QIAGEN)纯化并溶于12μl的EB中。

接头连接：

20℃反应15分钟后，使用PCR纯化试剂盒(QIAGEN)回收连接产物。样品最后溶于30μl的EB缓冲液中。将样品用2%的琼脂糖凝胶电泳进一步纯化回收，作为测序文库。

将构建好的文库经Bioanalyzer2100检测片段分布范围符合要求，再经过Q-PCR方法对两个文库进行定量，合格后，用HiSeq2000TM测序仪测序，测序循环数为PE151index（即双向151bp index测序），其中仪器的参数设置及操作方法都按照制造商提供的操作手册操作手册（可由http://www.illumina.com/support/documentation.ilmn获取）。

将测序得到的原始数据先去掉接头污染，通过索引每个测序数据（在本文中也称为read）两端临近的特异序列，从而识别每条read是来自于哪条引物的扩增产物。在查找和索引的过程中进行了容错处理，容错限制为1bp，即reads两端的序列和引物序列相比，碱基差异在1bp以内时即认为是这条引物正确的扩增产物。最终的可用数据如表1所示，所有样本的每个STR位点深度基本都在10000以上。

表1STR测序数据产量

通过计算去除引物后每条read的剩余长度，从而判断扩增产物中重复单元的拷贝次数，对各样品相应位点进行基因分型，其中血浆样品会根据胎儿游离DNA的浓度及母亲的基因型计算出胎儿的基因型。得到的最终结果如表2所示。

表2STR拷贝单元统计

由于人体基因组为双倍体，因而，每个位点都有两个基因型，如果是杂合体，则两个基因型不同。在表2中所列出的数字指的是重复单元的拷贝数，代表一种基因型。通常而言，胎儿会从父亲那里遗传到一种基因型，即重复单元的拷贝数。以位点vWA为例，孕妇血浆中的拷贝数为16、18和19，而母亲本身的拷贝数为16、18。因此孕妇血浆结果中的19是胎儿引入的遗传自父亲的位点，而无关男子在此位点并不包括19，因而无关男子与该胎儿没有亲缘关系，而与父亲有亲缘关系。由此，通过表2的结果，可以看出通过多个位点胎儿的基因分型情况，可以与待鉴定的父亲基因型进行判别亲缘关系。基于D16S539和vWA两个位点的分型情况，我们可以初步判别出无关男子的非父情况。通过对这几个位点进行PCR所得到的扩增产物，直接进行PAGE电泳检测，结果如图2所示。根据PAGE，可以基于PCR产物的长度判定特定位点的基因型，即重复序列的拷贝数。在图2A中，显示了针对TPOX和vWA位点，母亲样本、父亲样本、孕妇血浆样品以及无关男子的样品作为模板直接PCR所得到的结果扩增出的产物的PAGE。其中图2A中泳道1-10分别表示10bpMarker，母亲样本的TPOX结果，父亲样本的TPOX结果，孕妇血浆样本的TPOX结果，无关男子样本的TPOX结果，母亲样本的vWA结果，父亲样本的vWA结果，孕妇血浆样本的vWA结果，无关男子样本的vWA结果以及20bp Marker。图2B中，泳道1-5分别表示，10bp Marker、母亲样本的D16S539结果，父亲样本的D16S539结果，孕妇血浆样本的D16S539结果，无关男子样本的D16S539结果。图2C中，泳道1-5分别表示，母亲样本的D3S1358结果，父亲样本的D3S1358结果，孕妇血浆样本的D3S1358结果，无关男子样本的D3S1358结果。通过图2中所示结果与表2中结果进行比较可以看出，对于母亲、父亲以及无关男子样本的检测，表2和图2中的结果完全一致。然而，由于在孕妇血浆中，胎儿DNA的含量较少，通过PCR扩增直接进行PAGE的常规方法，没有得到任何结果。再次验证我们的结果比传统PCR后直接检测的方法更加灵敏和稳定，能够对痕量的DNA样品进行分析。

实施例2SNP位点的检测

本实施例所采用的材料以及方法与实施例1基本相同，只是不使用无关男子的样品，并且采用针对包含SNP位点的引物，所分析的SNP位点和相应的引物序列如下表所示（在引物名称中标记后缀F表示有义链，标记后缀R表示反义链，所有序列均为5’-3’方向）：

扩增产物的长度均在90-110bp之间。

根据实施例1的方法，构建测序文库后，采用测序循环数为PE90index（即双向90bpindex测序）用HiSeq2000TM测序仪测序。将测序得到的原始结果进行去除接头污染等过滤操作。用SOAP2进行比对操作，参数设置为（-v5-l40-s40-r1）。得到的数据产量如表3所示。

表3SNP检测数据产量

样品	数据量(M)	Reads	可用Reads	比对率(%)
					母亲	44.83	498121	511365	97.41
父亲	55.29	614312	632529	97.12
					胎儿	41.89	465423	479818	97.00

接下来，对每个样品的各位点，统计测序数据中A、T、C、G碱基分布，根据式I所列的贝叶斯模型进行碱基型判断，得到的最终结果如表4所示。与已知的芯片结果进行比较，其中父母的基因型判断全部正确，血浆的中胎儿的基因型有一个错误（No.9，星号），其原因为测序数据量严重不足所致（30x，其他位点均在3000以上）。这种情况是可以在后期进行过滤去除的，所以可以认为正确率基本为100%。

表4SNP基因型推断结果

3、Indel检测

该实施例所使用的样本为已知11号染色体中微缺失位置（5247993-5247996位点）的样本，基因组打断后与正常人基因组DNA片段进行混合，按照一定浓度模拟孕妇血浆样品，该模拟孕妇为：孕妇该位点正常但怀有该位点缺失异常的胎儿。

针对已知人类11号染色体中微缺失位置（5247993-5247996位点）设计引物，引物序列为：

CD41/42-1-F	TTTTCCCACCCTTAGGCTGC（SEQ ID NO：29）
		CD41/42-1-R	ACAGCATCAGGAGTGGACAGATC（SEQ ID NO：30）

进行PCR扩增，扩增产物的长度不超过150bp。按照Ion Torrent测序平台的制造商所提供的说明书构建测序文库，并且进行Ion Torrent测序。将最终获得的测序数据通过tmap比对参考基因组（hg19）。最终的数据产量如表5所示。

表5Indel检测数据产量

样品	Reads	可比对Reads	比对率
				Sample1	70984	70301	99.04%

利用SAMTools对比对结果进行分析，首先，利用mpileup命令进行每个位点不同碱基型的深度统计（即A、T、C、G或增加和缺失出现的次数）。具体统计结果如表6所示，

根据统计结果可以明显的判断出在5247993至5247996之间存在4bp缺失。证明在扩增产物经过Ion Torrent测序后可以进行indel的检测。

表6Indel检测结果

注：*表示参照序列中相应位置的碱基；**表示缺失。

通过分析A、T、G、C和Del各自在总测序数据中出现的测序深度，考虑到在模拟孕妇样本中，胎儿DNA样本的含量仅占5～10%（这与孕妇血浆DNA中胎儿DNA的含量类似），因而基于Del项的测序深度，根据统计结果可以判断出在5247993至5247996之间存在4bp缺失。证明在PCR过后的产物经过高深度测序（Ion torrent测序）后可以进行Indel的检测。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种对核酸样本中预定区域进行基因分型的方法，其特征在于，包括下列步骤：

使用引物组对所述核酸样本进行扩增，以便获得扩增产物，其中所述引物组是所述预定区域特异性的，所述预定区域包含单核苷酸多态性位点，所述单核苷酸多态性位点包括下列十个：rs835435、rs2306940、rs2292564、rs315952、rs2729705、rs4082155、rs2276853、rs2276967、rs17078320和rs2274212，扩增所述十个单核苷酸多态性位点所使用的引物组分别为SEQ ID NO：9和10、SEQ IDNO：11和12、SEQ ID NO：13和14、SEQ ID NO：15和16、SEQID NO：17和18、SEQ ID NO：19和20、SEQ ID NO：21和22、SEQ ID NO：23和24、SEQ ID NO：25和26、SEQ ID NO：27和28，所述扩增为多重PCR；

针对所述扩增产物，构建测序文库；

对所述测序文库进行测序，以便获得由多个测序数据构成的测序结果，任选地，所述测序是利用选自Illumina-Solexa、ABI-SOLiD、Roche-454、Ion Torrent和单分子测序装置的至少一种进行的；

确定来自预定区域的测序数据；以及

基于所述来自预定区域的测序数据的组成，对所述预定区域进行基因分型，其中包括：

确定在SNP位点分别为碱基A、T、G、C的测序数据分别占总测序数据的比例，以及

基于所述比例以及假设所述SNP位点的每种可能的基因型的概率都相同，利用贝叶斯模型，确定在所述SNP位点出现概率最高的碱基，以便确定所述核酸样本中SNP位点的突变类型。

2.根据权利要求1所述的方法，其特征在于，进一步包括从生物样本中提取核酸样本的步骤。

3.根据权利要求2所述的方法，其特征在于，所述生物样本为孕妇样本。

4.根据权利要求3所述的方法，其特征在于，所述生物样本为选自孕妇外周血、孕妇尿液、孕妇宫颈胎儿脱落滋养细胞、孕妇宫颈粘液、和胎儿有核红细胞的至少一种。

5.根据权利要求1所述的方法，其特征在于，所述预定区域还包括下列的至少一种：短串联重复序列、数目可变串联重复多态性、限制性片段长度多态性、随机扩增多态性DNA、DNA扩增指纹印记、序列标志位点、DNA单链构象多态性、插入缺失标记以及酶切扩增多态性序列。

6.根据权利要求5所述的方法，其特征在于，所述短串联重复序列为选自下列的至少一种：D18S51、D8S1179、D3S1358、THOI、vWA、FGA、D21S11、D5S818、D7S820、D13S317、CSFIPO、TPOX、D16S539。

7.根据权利要求1所述的方法，其特征在于，在获得所述测序结果之后，进一步包括：

将所述测序结果与已知的核酸序列进行比对，以便获得唯一比对序列；以及

从所述唯一比对序列选择来自预定区域的测序数据。

8.根据权利要求1所述的方法，其特征在于，所述预定区域是包含短串联重复序列的核酸片段，

其中，

基于所述来自预定区域的测序数据的组成，对所述预定区域进行基因分型进一步包括：

基于测序数据，确定包含短串联重复序列的核酸片段的核酸序列；以及

确定所述短串联重复序列的拷贝数。

9.根据权利要求1所述的方法，其特征在于，所述预定区域是包含已知插入缺失标记的核酸片段，

其中，

针对所述预定区域中特定位点，确定各碱基类型的测序深度；以及

基于各碱基类型的测序深度，确定在所述特定位点插入缺失标记的类型。

10.根据权利要求1所述的方法，其特征在于，所述扩增产物的长度为至多150bp。

11.一种确定样品之间是否具有亲缘关系的方法，其特征在于，包括下列步骤：

分别从第一样品和第二样品提取核酸样本，以便分别获得第一核酸样本和第二核酸样本；

根据权利要求1-10任一项所述的方法，分别对第一核酸样本和第二核酸样本中相同的预定区域进行基因分型；

基于所述分型结果，确定所述第一样品和所述第二样品之间的亲缘关系。