CN106566877A

CN106566877A - 检测基因突变的方法和装置

Info

Publication number: CN106566877A
Application number: CN201610932451.8A
Authority: CN
Inventors: 李雷; 李瑞强; 臧晚春; 余盼; 马丽娟; 于洋; 蒋智
Original assignee: TIANJIN NOVOGENE BIOLOGICAL INFORMATION TECHNOLOGY Co Ltd
Current assignee: TIANJIN NOVOGENE BIOLOGICAL INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-10-31
Filing date: 2016-10-31
Publication date: 2017-04-19

Abstract

本发明公开了一种检测基因突变的方法和装置。该方法包括以下步骤：获取待测样本和对照样本的测序数据；判断待测样本的测序数据中是否存在SNP突变、InDel突变和/或缺失突变；其中，判断待测样本的测序数据中是否存在缺失突变的步骤包括：均一化处理步骤、标准差及中位数计算步骤，按照式(1)计算偏离度Z值的步骤；以及缺失判断步骤，当Z值Z＝(待测样本的均一化序列数‑中位数)/标准差 (1)大于3时，判断待测样本在窗口存在缺失突变。该方法和装置提高了检测的通量和准确度。

Description

检测基因突变的方法和装置

技术领域

本发明涉及基因突变检测领域，具体而言，涉及一种检测基因突变的方法和装置。

背景技术

数据显示，2012年，全球新增1410万例癌症患者，中国新增306.5万例，占22％；全球820万人因癌症死亡，中国占27％，即220.6万人死于癌症。结直肠癌是常见的发生的消化道恶性肿瘤，全球每年大约102万新发病例，53万死亡病例。中国已进入结直肠癌高发地区的行列，这一疾病日益严重地威胁着人们的身心健康。我国年均新发结直肠癌病例达13万，并以年均4％增幅不断攀升，在女性死亡率中位居所有肿瘤第三位。

在结直肠癌中，有两类疾病占据主要部分，分别是林奇综合症和家族性腺瘤性息肉病。其中，林奇综合征主要由MLH1、MHS2、MSH6、PMS2、EPCAM基因发生致病突变所导致；而家族性腺瘤性息肉病则主要由APC和MUTYH基因突变所导致。

众所周知，能够导致上述如结直肠癌之类的疾病的基因突变有多种，包括SNP、InDel(插入或缺失的碱基数相对较少，通常很少超过100bp)以及大片段缺失突变(即缺失突变)或大片段重复突变(通常是Kb级别的缺失或重复)。现有技术中检测基因突变的方法有很多，其中，能够检测片段的缺失突变检测方法包括多重连接探针扩增技术(MLPA)、荧光定量PCR、Sanger测序法和二代测序法。

MLPA的基本原理是将探针和靶序列DNA进行杂交，探针的特异化连接、PCR扩增、扩增产物通过毛细管电泳分离、数据收集，然后采用分析软件对收集的数据进行分析最后得出结论；荧光定量PCR基本原理包括对待测样品和对照组的相应基因位置PCR产物进行定量分析，通过比较得出是否有插入或者重复的结论。Sanger测序法通过直接测序法得到缺失区域。然而，上述方法均存在设计引物复杂、通量低、劳动强度大、成本高、不能适应大量样本或批量基因突变检测的需求等缺陷，因而应用受到限制。

随着高通量测序技术的发展，其通量大、准确率高的特点，使得第二代测序方法成为当前检测基因突变的热门手段。但面对高通量测序后得到的庞大的测序数据，如何快速、准确地从中找到所有目的基因的突变位置以及突变类型成为难点，因此，急需提供一种批量检测所有突变类型的方法，以提高检测的通量和准确度。

发明内容

本发明的主要目的在于提供一种检测基因突变的方法和装置，以改善现有技术中检测通量低、准确度低的缺陷。

为了实现上述目的，根据本发明的一个方面，提供了一种检测基因突变的方法，该方法包括以下步骤：获取待测样本和对照样本的测序数据；判断待测样本的测序数据中是否存在SNP突变和/或InDel突变；以及判断待测样本的测序数据中是否存在缺失突变；其中，判断待测样本的测序数据中是否存在缺失突变的步骤包括：均一化处理，将测序数据切分成窗口，统计待测样本和对照样本分别在各窗口的序列数，并对各窗口的序列数进行均一化处理，得到待测样本和对照样本分别在各窗口的均一化序列数；标准差及中位数计算，计算对照组样本在各窗口上的均一化序列数的标准差和中位数；偏离度计算，按照式(1)计算在每个窗口上，待测样本的均一化序列数与对照样本的中位数的偏离度Z值；以及缺失判断，当Z值大

Z＝(待测样本的均一化序列数-中位数)/标准差 (1)

于3时，则判断待测样本在窗口存在缺失突变。

进一步地，均一化处理步骤中，将测序数据切分成连续不相交的窗口。

进一步地，均一化处理的步骤包括：将待测样本和对照样本各自的测序数据切分成窗口，并将各自在每个窗口的序列数记为第一序列数；以及将各第一序列数的总和，记为各自的第二序列数；以及按式(2)所示的公式对待测样本和对照样本各自的第一序列数进行均一化处

均一化序列数＝第一序列数*1000/第二序列数 (2)

理，得到待测样本和对照样本各自在每个窗口的均一化序列数。

进一步地，判断待测样本的测序数据中是否存在SNP突变和/或InDel突变的步骤包括：序列比对，将待测样本的测序数据与参考基因组进行比对得到比对结果；第一次筛选，从比对结果中筛选出存在SNP突变和/或InDel突变的位点，记为第一候选位点；第二次筛选，从第一候选位点中筛选出人群突变频率小于2％的位点，记为第二候选位点；SNP和/或InDel突变判断，根据功能注释数据库中对第二候选位点的功能注释，判断第二候选位点中是否存在导致基因功能发生改变的SNP突变位点和/或InDel突变位点；若存在，则将第二候选位点记为第三候选位点；以及SNP和/或InDel突变确认，当存在第三候选位点时，将第三候选位点确定为SNP突变位点和/或InDel突变位点。

进一步地，在获取待测样本和对照样本的测序数据的步骤之前，方法还包括对待测样本和对照样本分别进行外显子文库制备的步骤，外显子文库制备的步骤中采用液相捕获的方法进行制备。

进一步地，采用液相捕获的方法进行制备之前，还包括根据目标基因外显子区域设计液相捕获探针的步骤。

进一步地，外显子文库制备步骤包含对多个目标基因的外显子文库进行制备，多个目标基因至少包括以下基因：MLH1、MSH2、MSH3、MSH6、PMS1、PMS2、BUB1、BUB3、STK11、PTEN、SMAD4、APC、MUTYH、EPCAM、SETD2、MAX、TSC2、ATM以及FANCC。

根据本发明的另一方面，提供了一种检测基因缺失突变的装置，该装置包括：获取模块，用于获取待测样本和对照样本的测序数据；第一判断模块，用于判断待测样本的测序数据中是否存在SNP突变和/或InDel突变；以及第二判断模块，用于判断待测样本的测序数据中是否存在缺失突变；其中，第二判断模块包括：均一化子模块，用于将测序数据切分成窗口，统计待测样本和对照样本分别在各窗口的序列数，并对各窗口的序列数进行均一化处理，得到待测样本和对照样本分别在各窗口的均一化序列数；第一计算子模块，用于计算对照组样本在各窗口上的均一化序列数的标准差和中位数；第二计算子模块，用于按照式(1)计算每个窗口上，待测样本的均一化序列数与对照样本的中位数的偏离度Z值；以及缺失判断子模

Z＝(待测样本的均一化序列数-中位数)/标准差 (1)

块，用于当Z值大于3时，则判断待测样本在窗口存在缺失突变。

进一步地，均一化子模块进一步包括：统计单元，用于将待测样本和对照样本各自在每个窗口的序列数进行统计，记为各自的第一序列数，将各自所有窗口的第一序列数之和进行统计，记为各自的第二序列数；以及计算单元，用于将待测样本和对照样本在各窗口的第一序列数按照式(2)所示的公式进行均一化处理，得到待测样本和对照样本各自在每个窗口的

均一化序列数＝第一序列数*1000/第二序列数 (2)

均一化序列数。

进一步地，第一判断模块包括：序列比对子模块，用于将待测样本的测序数据与参考基因组进行比对得到比对结果；第一筛选子模块，用于从比对结果中筛选出存在SNP突变和/或InDel突变的位点，记为第一候选位点；第二筛选子模块，用于从第一候选位点中筛选出人群突变频率小于2％的位点，记为第二候选位点；SNP和/或InDel突变判断子模块，用于根据功能注释数据库中对第二候选位点的功能注释，判断第二候选位点中是否存在导致基因功能发生改变的SNP突变位点和/或InDel突变位点；若存在，则将第二候选位点记为第三候选位点；以及SNP和/或InDel突变确认子模块，用于当存在第三候选位点时，将第三候选位点确定为SNP突变位点和/或InDel突变位点。

进一步地，在获取模块之前，装置还包括外显子文库制备模块，用于采用液相捕获方法对待测样本和对照样本的外显子文库进行制备。

进一步地，在外显子文库制备模块之前，装置还包括探针设计模块，用于根据目标基因外显子区域设计液相捕获探针。

应用本发明的技术方案，通过将待测样本和对照样本的测序数据分别进行SNP突变和/或InDel突变判断以及缺失突变判断，能够在一次检测中将待测样本中存在上述多种突变类型的位点都检测出来。而且，在缺少突变判断中，通过利用各窗口的均一化序列数与对照样本在该窗口的中位数之间的偏离程度的统计方法来判断某一窗口是否存在缺失，相比与均一序列数的平均数的偏离程度的统计方法，从统计学意义上来讲，真实度和准确度都更高，更容易区分假阳性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的一种具体实施例中的缺失突变的验证结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

首先需要说明的是，采用高通量测序能够测得样本中存在的各种可能的突变，包括InDel、SNP以及大片段缺失。本发明的方法和装置检测得到的缺失突变主要是从统计学的角度来推断待测样本中可能存在的基因突变位点及其突变的具体种类，至于是否与疾病发生有直接或间接的关系，还有待其他检测结果的多方面的验证，因而本方法和装置仅适用于科研和学术基础研究之用，而不适用于临床上疾病的诊断。

如背景技术部分所提到的，现有技术中当采用高通量测序方法检测基因突变时，存在无法批量准确检测突变位置及所有可能的突变类型的缺陷。本发明为了改善上述缺陷，在一种典型的实施方式中，如图1所示，提供了一种检测基因突变的方法，该方法包括以下步骤：获取待测样本和对照样本的测序数据；判断待测数据中是否存在SNP突变和/或InDel突变；以及判断待测数据中是否存在缺失突变；其中，判断待测数据中是否存在缺失突变的步骤包括：均一化处理，将测序数据切分成窗口，统计待测样本和对照样本分别在各窗口的序列数，并对各窗口的序列数进行均一化处理，得到待测样本和对照样本分别在各窗口的均一化序列数；标准差及中位数计算，计算对照组样本在各窗口上的均一化序列数的标准差和中位数；偏离度计算，按照式(1)计算在每个窗口上，待测样本的均一化序列数与对照样本的中位数

Z＝(待测样本的均一化序列数-中位数)/标准差 (1)

的偏离度Z值；缺失判断，当Z值大于3时，则判断该窗口存在缺失突变。

本发明的上述方法通过将待测样本和对照样本的测序数据分别进行SNP突变和/或InDel突变判断以及缺失突变判断，能够将待测样本中存在上述多种突变类型的位点都检测出来。而且，在缺少突变判断中，通过利用各窗口的均一化序列数与对照样本在该窗口的中位数之间的偏离程度的统计方法来判断某一窗口是否存在缺失，相比与均一序列数的平均数的偏离程度的统计方法，从统计学意义上来讲，真实度和准确度都更高，更容易区分假阳性。

上述均一化处理步骤中，以切分成窗口的形式进行序列数的计算，便于根据不同的测序数据的测序深度和目标缺失片段的大小来灵活切分窗口的大小，使检测的缺失片段的大小范围更广泛；并且，在确定某一窗口是否存在缺失突变时，首先计算出待测样本在各窗口的均一化序列数与对照样本在该窗口的中位数的差值，然后再根据该差值与对照样本在该窗口的均一化序列数的标准差的比值是否大于3来确定该窗口是否存在缺失。这种判断方法通过选取一组对照样本的中位数作为比较的标准，相比采用平均值，中位数的计算不容易受个别异常波动的均一化序列数的影响，因而判断结果更准确。

在本发明的上述方法中，将测序数据切分窗口的形式可以根据检测的灵敏度和检测准确性之间的关系，进行适当权衡而设置。在本发明中，优选上述切分的窗口为连续不相交的窗口。将较长的外显子划分成为连续不相交的窗口，对于长度较短的外显子则将整个外显子划分到一个窗口中。当窗口设置为较小的值时，便于发现较小的缺失突变，但是不同样品间相同的窗口上测序序列数变化较大不方便比较。当窗口设置为较大的值时，不同样品间相同窗口上测序序列数变化较小，但是无法发现较小的缺失突变。

上述实施例中，窗口的长度根据待测样本和对照样本的测序深度和预期检测的基因缺失突变的长度来设置。由于这种测序检测中，所有基因的长度和基因上的外显子的长度都是已知的，因此可以根据预期检测的突变长度来进行窗口大小设置。假如需要检测的突变片段较小，则设置一个较小的值，反之则可以设置窗口一个较大的值。窗口的长度越小检测灵敏度越高，相应地准确性相对下降。窗口的长度越大则准确性越高，灵敏度相对下降。在本发明一种更优选的实施例中，在测序深度大于等于300×时，各窗口的长度为50～160bp。在测序深度大于等于300×时，将各窗口的长度控制在50～100bp更能兼顾检测灵敏度和检测准确性。

在本发明的上述方法中，均一化处理的步骤中主要是为了均化各窗口的序列数，使得待测样本和对照样本在各窗口的序列数不会因为测序深度的差异而导致比对结果的偏差，因而，本领域对数据进行均一化处理的操作均适用于本发明。在本发明中，优选将待测样本和对照样本各自的测序数据切分成窗口，并将各自每个窗口的序列数记为第一序列数，各第一序列数的总和，记为第二序列数；按式(2)所示的公式对待测样本和对照样本各自的第序列数进

均一化序列数＝第一序列数*1000/第二序列数 (2)

行均一化处理，得到待测样本和对照样本各自在每个窗口的均一化序列数。

上述实施例中，采用式(2)所列公式进行均一化处理的步骤，能够更有效地消除不同样本间因测序深度所带来的序列数统计的偏差，使得每个样本的每个窗口的序列数都相对均一。

上述方法中，判断待测样本的测序数据中是否存在SNP突变和/或InDel突变的步骤是检测待测样本中是否存在SNP突变或者InDel突变，或者两种突变是否同时都存在，或者，在待测样本中，不同目的位点是否存在上述一种或两种不同的突变类型，因而，采用本领域常规的判断方法即可。

在本发明一种优选的实施例中，判断待测样本的测序数据中是否存在SNP突变和/或InDel突变的步骤包括：序列比对步骤，将测序数据与参考基因组进行比对得到比对结果；第一次筛选步骤，从比对结果中筛选出存在SNP突变和/或InDel突变的位点，记为第一候选位点；第二次筛选步骤，从第一候选位点中筛选出人群突变频率小于2％的位点，记为第二候选位点；SNP和/或InDel突变判断步骤，根据功能注释数据库中对第二候选位点的功能注释，判断第二候选位点中是否存在导致基因功能发生改变的SNP突变位点和/或InDel突变位点；若存在，则将第二候选位点记为第三候选位点；SNP和/或InDel突变确认步骤，当存在第三候选位点时，将第三候选位点确定为SNP突变位点和/或InDel突变位点。

上述优选实施例中，序列比对时可以采用如SOAP(http://soap.genomics.org.cn/)之类的软件，把测序所得序列定位到参考基因组对应的位置；即可获得与参考基因组对应的位置不同的SNP位点和/或InDel位点。在实际处理过程中，还需要对各SNP位点和/或InDel位点的覆盖深度(即该位点被测到的次数)进行统计，为了确保所找到的突变位点的准确性，将覆盖深度低于30的位点进行去除。之后，在剩余的SNP位点和/或InDel位点中，根据各位点在功能注释数据库中的功能注释，确定这些位点中是否存在某个位点能够影响基因的功能，若存在这样的一个或几个位点，则可确认这一个或几个位点存在SNP突变和/或InDel突变。此外，根据所关注的目的基因的功能的不同，还可以采用其他相应的辅助方法来排除或确认某位点是否是导致功能异常的突变位点。比如，如果想确认上述位点是否是疾病相关的位点，除了根据数据库已有信息进行功能异常判断外，还可以根据疾病样本和对照正常样品的SNP突变和/或InDel突变位点信息，选出在人群中频率小于2％的位点，利用SIFT软件对蛋白功能进行预测，对蛋白功能有改变的位点作为疾病致病的候选位点。

在本发明的上述方法中，在步骤S1之前，还包括对待测样本和对照样本分别进行外显子文库制备的步骤，外显子文库的制备步骤中采用液相捕获的方法进行制备。采用液相捕获的方法制备外显子文库捕获效率更高，且能够节约大量时间。

在本发明的上述方法中，采用液相捕获的方法进行制备之前，还包括根据目标外显子区域设计液相捕获探针的步骤。液相捕获探针可以采用本领域常规探针的设计方法进行设计，比如通过安捷伦公司官方手册方法进行液相探针定制、NimbleGen公司官方手册方法进行液相探针定制等。

上述外显子文库制备步骤中，根据研究目的不同，可以选择一个待测样本的多个目的基因进行外显子文库制备；或者选择多个待测样本中的一个或多个基因分别进行外显子文库构建。当对多个基因的外显子文库进行制备时，在本发明一种优选的实施例中，多个基因至少包括以下基因：MLH1、MSH2、MSH3、MSH6、PMS1、PMS2、BUB1、BUB3、STK11、PTEN、SMAD4、APC、MUTYH、EPCAM、SETD2、MAX、TSC2、ATM以及FANCC。当测序数据中包括上述多个基因时，能够通过上述方法同时检测上述多个基因中可能存在的突变位点及其突变类型。

上述多个基因均为已知基因，而在本发明中，发明人首次提供了对上述至少19个基因进行集中检测的方法，因而能够在同一待测样本中一次性地检测上述多个基因中可能存在的突变位点及其突变类型。

在本发明一种具体的实施例中，上述制备待测样本和对照样本的外显子文库的步骤包括：对待测样本和对照样本的基因组DNA进行破碎处理，得到破碎DNA；对破碎DNA进行末端修复和加A处理，得到3’端带“A”的修复DNA；对修复DNA进行接头连接，得到带接头DNA；对带接头DNA进行PCR扩增，得到扩增DNA；用液相捕获探针与扩增DNA进行杂交，得到待测样本和对照样本的外显子文库。上述外显子文库制备中采用液相捕获的方法得到含有目标基因外显子区域的测序文库，获得外显子的效率高且省时。

在本发明的上述方法中，在得到待测样本和对照样本的外显子文库之后，以及对外显子文库进行测序之前，还包括对外显子文库进行变性处理的步骤。此处进行变性处理目的是便于高通量测序使用。

在本发明另一种典型的实施方式中，提供了一种基因缺失突变检测的装置，该装置包括：获取模块，用于获取待测样本和对照样本的测序数据；第一判断模块，用于判断待测数据中是否存在SNP突变和/或InDel突变；以及第二判断模块，判断待测数据中是否存在缺失突变；其中，第二判断模块包括：均一化子模块，用于将测序数据切分成窗口，统计待测样本和对照样本分别在各窗口的序列数，并对各窗口的序列数进行均一化处理，得到待测样本和对照样本分别在各窗口的均一化序列数；第一计算子模块，用于计算对照组样本在各窗口上的均一化序列数的标准差和中位数；第二计算子模块，用于按照式(1)计算每个

Z＝(待测样本的均一化序列数-中位数)/标准差 (1)

窗口上，待测样本的均一化序列数与对照样本的中位数的偏离度Z值；以及缺失判断子模块，用于当Z值大于3时，则判断窗口存在缺失突变。

本发明的上述装置，通过获取模块获取待测样本和对照样本的的测序数据；利用第一判断模块判断待测数据中是否存在SNP突变和/或InDel突变；以及利用第二判断模块判断待测数据中是否存在缺失突变；并且第二判断模块利用均一化子模块将测序数据切分成窗口，统计待测样本和对照样本分别在各窗口的序列数，并对各窗口的序列数进行均一化处理，得到待测样本和对照样本分别在各窗口的均一化序列数；然后第一计算子模块计算对照组样本在各窗口上的均一化序列数的标准差和中位数；利用第二计算子模块按照式(1)计算每个窗口

Z＝(待测样本的均一化序列数-中位数)/标准差 (1)

上，待测样本的均一化序列数与对照样本的中位数的偏离度Z值；然后执行缺失判断子模块，当Z值大于3时，则判断窗口存在缺失突变。

上述装置通过利用均一化子模块便于根据不同的测序数据的测序深度和目标缺失片段的大小来灵活切分窗口的大小，使检测的缺失片段的大小范围更广泛。而且，第二判断模块在确定某一窗口是否存在缺失突变时，通过采用对照样本间的中位数作为计算待测样本在各窗口的均一化序列数的偏离程度比较的标准，相比采用平均值和标准差作为比较的标准，中位数的计算不容易受个别异常的序列数的影响，更容易区分假阳性，使确定结果更准确。

在本发明的上述装置中，上述均一化子模块可以对本领域常用的均一化子模块进行适当改进即可，任何能够将本发明的各窗口的序列数进行标准化处理的均一化子模块均适用于本发明。在本发明一优选实施例中，上述均一化子模块进一步包括：统计单元：用于对待测样本和对照样本各自在每个窗口的序列数进行统计，记为各自的第一序列数，将各自所有窗口的第一序列数之和进行统计，记为各自的第二序列数；计算单元：用于将待测样本和对照样本在各窗口的第一序列数按照式(2)所示的公式进行均一化处理，得到待测样本和对照样本

均一化序列数＝第一序列数*1000/第二序列数.............................(2)

各自在每个窗口的均一化序列数。该实施例中，这种均一化子模块能够有效降低各样本间的测序深度差异对结果的影响。

在本发明的上述装置中，第一判断模块是判断待测样本中是否存在SNP突变或者InDel突变，或者两种突变是否同时都存在，或者，在待测样本中，不同目的位点是否存在上述一种或两种不同的突变类型，因而，采用本领域常规的判断模块即可。

在本发明一种优选的实施例中，第一判断模块包括：序列比对子模块，用于将测序数据与参考基因组进行比对得到比对结果；第一筛选子模块，用于从比对结果中筛选出存在SNP突变和/或InDel突变的位点，记为第一候选位点；第二筛选子模块，用于从第一候选位点中筛选出人群突变频率小于2％的位点，记为第二候选位点；SNP和/或InDel突变判断子模块，用于根据功能注释数据库中对第二候选位点的功能注释，判断第二候选位点中是否存在导致基因功能发生改变的SNP突变位点和/或InDel突变位点；若存在，则将第二候选位点记为第三候选位点；SNP和/或InDel突变确认子模块，用于当存在第三候选位点时，将第三候选位点确定为SNP突变位点和/或InDel突变位点。

上述优选实施例中，序列比对子模块可以采用如SOAP(http://soap.genomics.org.cn/)之类的比对模块进行比对。上述第一筛选子模块中，根据实际数据的测序质量高低，还可以包括对覆盖深度低于30的位点进行去除的筛选子模块。第二筛选子模块是根据目前已有的数据库中统计的人群突变频率小于2％的位点对第一候选位点进行筛选，得到的第二候选位点即属于人群突变频率低于2％的位点，预示着可能不属于体现个体差异的高频突变，而可能是与疾病相关的突变，然后执行SNP和/或InDel突变判断子模块，根据已知数据库对各基因功能的注释来判断某一位点的突变是否导致基因功能的改变，若存在这样的位点，则进一步执行SNP和/或InDel突变确认子模块，将导致基因功能改变的位点确定为SNP突变位点和/或InDel突变位点。

上述对基因功能进行注释的数据库包括但不仅限于dbSNP(http://www.ncbi.nlm.nih.gov/projects/SNP/)、HGMD(www.hgmd.cf.ac.uk)、ClinVar(http://www.ncbi.nlm.nih.gov/clinvar/)、LOVInSiGHT(http://insight-group.org/lovd.html)。

在上述装置中，在检测模块之前，上述装置还包括外显子文库制备模块：用于采用液相捕获方法对待测样本和对照样本的外显子文库进行制备。上述外显子文库制备模块采用液相捕获的方法得到含有目标基因外显子区域的测序文库所获得的文库中外显子的捕获效率高且省时。

在上述装置中，在外显子文库制备模块之前，装置还包括探针设计模块：用于根据目标外显子区域设计液相捕获探针。探针设计模块的设计原理是设计和目标区域互补的小片段，抓取目标区域序列。可以采用本领域常用的探针设计模块，比如通过安捷伦公司官方手册方法进行液相探针定制、NimbleGen公司官方手册方法进行液相探针定制。

下面结合具体的实施例来进一步说明本发明的有益效果。

需要说明的是，以下实施例以表1所列的19个基因为例来详细说明本发明的方法，所用的试剂或药品及仪器，如无特殊标注，均来自于美国安捷伦公司。本实施例招募96名可能为基因突变的携带者和10名正常人，签署书面知情同意书，然后检测携带者所可能存在的突变基因及其具体突变类型。依据口腔拭子提取方法进行口腔拭子样本提取，依据安捷伦的说明书进行芯片制备和杂交，依据Illumina的说明书进行测序。具体步骤如下：

表1：

MLH1	MSH2	MSH3	MSH6	PMS1	PMS2
						BUB1	BUB3	STK11	PTEN	SMAD4	APC
MUTYH	EPCAM	SETD2	MAX	TSC2	ATM
						FANCC

实验一芯片设计

参考序列为NCBI build 37/hg19(来自www.ncbi.nlm.nih.gov)的上述19个基因组外显子序列及前后10bp，由美国安捷伦Agilent公司设计完成。

实验二 DNA提取

1)处理材料：将在面颊内擦拭过的棉签转置于2ml离心管中，用剪刀将棉签部分剪下。

2)加入细胞裂解液和蛋白酶K，56℃放置60min消化细胞。

3)加入缓冲液，70℃放置10min，挤压扔掉棉签，将裂解液转入新的离心管。

4)加入无水乙醇，析出DNA。

5)将溶液加入吸附柱离心，倒掉收集管中的废液。

6)加入缓冲液，离心，倒掉收集管中的废液。

7)加入漂洗液，离心，倒掉收集管中的废液。重复1次。

8)干燥柱子基质。

9)向吸附柱中加入洗脱缓冲液洗脱DNA。

10)离心收集DNA，重复洗脱一次，DNA产物保存在-20℃。

实验三文库制备

步骤一：DNA破碎

1)gDNA质检，保证DNA质量合格(无降解；A260/A280在1.8-2.0之间)。用Qubit检测样本gDNA的浓度。

2)按照表2参数设置covaris，具体操作如下：

表2：

设置	数值
		工作系数(Duty Factor)	10％
功率峰值(PIP)	175
		每个脉冲周期数	200
处理时间	360sec
		温度	4℃～8℃

A.在covaris水缸中加入去离子水，水位达到刻度“12”；

B.检查水位是否能没过样品管玻璃部分；

C.将冷却温度设为2-5℃，冷却至5℃；

D.可选地，加入乙二醇(ethylene glycol)至总体积的20％，防止结冰。

E.按下控制板上的“Degas”按钮，使用之前“Degas”操作至少30min。

3)在1.5ml EP管中，用1X Low TE Buffer将3ug gDNA稀释到130ul；

4)将Covaris microTube装到covaris上；

5)用锥形枪头小心地吸取130ul DNA样本，加入到Covaris microTube管中。(小心操作，不要使管子底部出现气泡)

6)按照表2设置的Covaris参数进行DNA破碎，破碎产物的主峰在150-200bp。

7)用锥形枪头小心地将破碎后的DNA样本吸到一个新的1.5ml EP管中。

步骤二：用Agencourt AMPure XP磁珠纯化DNA样本

1)将AMPure XP bead在室温放置至少30min；然后充分混匀AMPure XP bead悬浮液，直至悬浮液颜色均一(不要冷冻)。

2)在1.5ml新管中加入180ul混匀的AMPure XP bead悬浮液和破碎的DNA文库(～130ul)。涡旋混匀，室温放置5min。

3)将管子放在磁力架上，静置大约3-5min至溶液变澄清。

4)在磁力架上小心地吸除管中的上清，枪头不要碰到磁珠。

5)在磁力架上，在每个管中分加500ul 70％乙醇。用新鲜现配的乙醇可以获得更好的效果。

6)静置1min让磁珠沉降后，吸除乙醇。

7)重复步骤5)、6)一次。

8)在加热块(head block)上37℃加热5min，或加热至管中残留的乙醇完全蒸发。注：不要加热到磁珠表面出现裂纹。磁珠过干会导致洗脱的效率显著下降。

9)加入50ul无RNA酶水，在涡旋仪上混匀，室温放置2min。

10)将PE管放在磁力架上，静置大约2-3min至溶液变澄清。

11)吸取大约50ul上清到一个新的1.5ml管中。此步结束后可以丢弃磁珠。如果不进行后续步骤，将样本保存在-20℃冰箱。

步骤三：末端修复

1)使用SureSelect Library Prep Kit，ILM.试剂盒，在冰上配制反应液。

2)在PCR管(或排管、PCR板)里按下表3所示配方配制反应混合液，混匀。

3)在每个PCR管(或孔)中加入52ul反应液mix。

4)在每个PCR管(或孔)中加入48ul DNA样本，用枪吹吸混匀。

5)然后置于PCR仪上，20℃温浴30min，不要热盖。

表3：

步骤四：用Agencourt AMPure XP磁珠纯化DNA样本(具体操作同步骤二)

步骤五：DNA片段末端加A

1)使用SureSelect Library Prep Kit，ILM.试剂盒，按下表4配方在冰上配制反应液。

表4：

2)置于PCR仪上，37℃温浴30min。如果使用热盖，确保热盖温度不超过50℃。步骤六：用Agencourt AMPure XP磁珠纯化DNA样本(具体纯化操作同步骤二)

步骤七：连接带有特异标签的接头

1)按表5所示配方配制末端加接头反应液；

表5：

2)置于PCR仪上，20℃温浴15min。不要使用热盖。如果不进行后续步骤，将样本保存在-20℃冰箱。

步骤八：用Agencourt AMPure XP磁珠纯化DNA样本(同步骤二)

步骤九：扩增连上接头的文库

1)连接了接头的文库，只用其中的1/3进行扩增，剩余样本保存在-20℃冰箱。

2)按照表6所示配方配制PCR反应液：

表6：

注：所加的DNA文库的量也可以是250ng(用bioanalyzer DNA1000chip定量)。

3)放入PCR仪，按下表7设置PCR反应程序进行反应。

表7：

步骤十：用Agencourt AMPure XP磁珠纯化DNA样本(同步骤二)

实验四液相捕获

步骤一：文库杂交

本部分包含了如下步骤：将制备好的文库与杂交试剂、封闭试剂(blockingagent)和SureSelect捕获探针文库进行混合反应。每个DNA文库必须单独地进行杂交和捕获，然后再通过PCR反应引入index。

每个文库做一次杂交和一次捕获，不要在本步进行样本混池。杂交反应要求750ngDNA起始量，最大体积不能超过3.4ul，具体如下：

1)在室温下按照如下表8所示配方配制杂交缓冲液。

表8：

2)在PCR板上制备用于目标捕获的SureSelect捕获文库混合物(Capture librarymix)；保持管子放置在冰上。对于每个样本，根据目标区域的大小(Mb)，参照下表9所示比例加入适量的SureSelect捕获文库(Capture Library)。并参照下表9用无RNA酶水稀释SureSelect RNase Block。同时按照表9配制足够所有样本反应的稀释液，要留有富余量。参照下表9加入SureSelect RNase Block稀释液，用枪吹吸混匀。

表9：

3)按照表10配制足够所有样本反应的SureSelect Block Mix。

表10：

4)在另一个PCR板上，处理制备好的文库，以用于目标捕获。

a.将样品分为A、B两排，在B排上的每个孔中，分别加入3.4ul 221ng/ul文库。

b.在B排上的每个孔中，分别加入5.6ul SureSelect Block Mix。用枪上下吹吸混匀。

c.用盖将每个样品的孔封严，放入PCR仪，

d.按照表11中的程序进行反应；

表11：

步骤	温度	时间
			1	95℃	5min
2	65℃	恒温

5)在65℃温浴的过程中，用105℃热盖。

6)保持PCR板在65℃的条件下，在96孔板的A排的每个孔中加入40ul杂交缓冲液，加入的孔数与该96孔板上B排的文库数相同。注：要保证进行步骤10之前，PCR板在65℃温浴至少5min。

7)加入步骤2配制的capture library mix到PCR上：

a.保持PCR板在65℃的条件下，在上述96孔板上的C排上的孔中加入7ul capturelibrary mix。

b.用排盖将口封上，确保封口严实。

c.65℃温浴2min。

8)保持PCR板在65℃的条件下，用排枪从A排吸取13ul杂交缓冲液，加入到C排的capture library mix中。

9)保持PCR板在65℃的条件下，用排枪从B排吸取全部的文库混合液，加入到C排的杂交溶液中。用枪缓慢地上下吹吸8-10次，充分混匀。此时杂交混合液的体积大概是27-29ul，取决于前步温浴时蒸发造成的体积损失大小。

10)用排盖或双层粘膜(double adhesive film)封口，确保所有孔封口严实。

注：使用新的排盖或封口膜，使用过的在加热过程中其完整性会下降。如果使用排管，在第一次使用之前要通过预实验检查蒸发的情况，确保蒸发的体积不要超过3-4ul。

11)杂交混合液在65℃温浴24h，用105℃热盖。

步骤二：准备磁珠

本步使用到SureSelect Target Enrichment Kit Box#1的试剂：SureSelectBind Buffer和SureSelect Wash 2。

1)在水浴锅或加热块上65℃预热SureSelect Wash 2，在Step 3使用。

2)磁珠在保存的时候会沉降，涡旋剧烈震荡，让Dynabeads MyOne StreptavidinT1重新悬浮。

3)对每个杂交反应，取50ul Dynabeads MyOne Streptavidin T1到1.5ml离心管中。

4)冲洗磁珠：

a.加入200ul SureSelect Binding Buffer，votex震荡5s。

b.将管子放在磁力架上，至溶液变澄清后吸除上清。

c.重复步骤a-b两遍，总共冲洗3次。

5)用200ul SureSelect Binding Buffer重新悬浮磁珠。

步骤三：捕获和洗脱

本步使用到SureSelect Target Enrichment Kit Box#1的试剂：SureSelectWash 1和SureSelect Wash 2。

1)经过24小时的温浴之后，估计(用枪估计)并记录剩余的杂交混合液的体积。

2)保持PCR板在65℃的条件下，将杂交混合液直接加到bead溶液里，颠倒混匀3-5次。

注：如果在温浴杂交24h之后，发生过度的蒸发，剩下的体积不到20ul，将会影响后续的捕获效果。

3)将混合液放在nutator(摇摆机)上，室温混匀30min。

4)简短离心。

5)把管子放在磁力架上，静置至溶液澄清，吸除上清。

6)加入500ul SureSelect Wash 1，votex 5s让bead重新悬浮。

7)室温放置15min，其间用votex混匀几次。

8)简短离心。

9)把管子放在磁力架上，静置至溶液澄清，吸除上清。

10)冲洗bead

a.加入500ul经过65℃预热的SureSelect Wash 2，votex 5s让bead重新悬浮。

b.在水浴锅或加热块上65℃温浴10min，其间用votex混匀几次。

c.如果bead已经沉降，颠倒几下让其悬浮。

d.简短离心。

e.把管子放在磁力架上，静置至溶液澄清，吸除上清。

f.重复步骤a-e两遍，总共冲洗3次。确保所有的wash buffer被吸除。

g.加入30ul nuclease-free water，votex 5s让bead重新悬浮。

实验五：杂交后PCR扩增、引入标签(index)

本部分包含的实验步骤是：通过PCR扩增引入index、PCR产物纯化和文库质检。

步骤一：PCR扩增引入index

本步使用到的试剂：

·Herculase II Fusion DNA Polymerase(Agilent)

·SureSelect Target Enrichment Kit ILM Indexing Hyb Module Box#2

·SureSelect Library Prep Kit,ILM

注：不要用Herculase II Fusion DNA Polymerase以外的PCR酶，其他酶的效果未经验证。

1)1个杂交配1个PCR反应，外加一个阴性对照(不加模板)。

2)将多个样品置于冰上，进行如下操作：

a.按下表12配方配制反应液混合物，混匀；

b.在每个PCR管(或孔)中加入35ul反应液mix。

c.从试剂盒“SureSelect Library Prep Kit，ILM”中取出PCR Primer Index1through Index 16(clear caps)，每个孔中加入1ul适当的index，用枪吹吸混匀。

对于将在同一个lane上进行测序的不同样本，采用不同的index primer。

e.用枪吹吸每个DNA样本，保证bead溶液混合均匀。

f.每个样本吸取14ul到对应的PCR管(或孔)中，上下吹吸混匀。

表12：Herculase II Master Mix配方

*取自Herculase II Fusion DNA Polymerase(Agilent)试剂盒。不要使用其他试剂盒的buffer和dNTP mix。

a取自试剂盒：SureSelect Target Enrichment Kit ILM Indexing Hyb ModuleBox#2。

b使用SureSelect Library Prep Kit,ILM试剂盒中的16个primer中的1个。

3)将PCR管放入PCR仪进行扩增，扩增程序如下表13：

表13：

步骤二：用Agencourt AMPure XP磁珠纯化DNA样本(同实验三中的步骤二)

实验六高通量测序

步骤一：稀释文库、变性

1)准备变性用0.2N NaOH：200μL 0.1N NaOH加入到800μL纯水中配制0.2N NaOH溶液。

2)将文库稀释到2nM，根据各文库所需数据量pooling，获得浓度为2nM的文库稀释液。

3)取10μL 2nM文库稀释液加入等体积的10μL 0.2nM NaOH，吹吸混匀3次后，开始计时5min。期间震荡混匀，即震荡10s，离心，重复震荡离心操作两次。

4)变性5min后，向变性文库中加入970μL HT1，震荡混匀文库溶液，280*g

5)离心1min，获得20pM的变性文库。

6)将20pM的变性文库稀释到3pM用于上机。变性文库溶液450μL加入到2550μL预冷的HT1中，颠倒混匀数次，离心，获得3mL 3pM的变性文库。

步骤二：上机

1)准备试剂盒(Reagent Cartridge)、解冻、检查和加入次氯酸钠；准备测序芯片(flow cell)：平衡到室温、打开、检查。

2)准备试剂盒(Reagent Cartridge)：首先试剂盒(Reagent Cartridge)解冻，然后检查试剂盒(Reagent Cartridge)大的储层确定试剂是否完全解冻。

(1)试剂盒(Reagent Cartridge)解冻：试剂盒(Reagent Cartridge)可以在2-8℃，过夜解冻。在这个温度试剂最少18h才可完全解冻。在这个温度试剂可以保存一周。①从-15-25℃拿出试剂盒(Reagent Cartridge)；②将试剂盒(Reagent Cartridge)放入可浸没试剂盒(Reagent Cartridge)底部的室温的水浴中。注：水勿要到达试剂盒(ReagentCartridge)的顶部。③试剂在室温水浴解冻约60min，至完全解冻。④从水浴中取出试剂盒(Reagent Cartridge)，在工作台上轻敲，去除试剂盒(Reagent Cartridge)底部的水，使试剂盒(Reagent Cartridge)底部干燥。

(2)检查试剂盒(Reagent Cartridge)：①颠倒试剂盒(Reagent Cartridge)5次混匀解冻的试剂。②检查试剂盒(Reagent Cartridge)底部的29、30、31和32储层，确保这些储层的试剂完全解冻。③在工作台上轻敲试剂盒(Reagent Cartridge)将试剂中的气泡赶出。

(3)放入新鲜的NaOCl：为了避免上一个运行对仪器的污染，在Reagent Cartridge放入Nextseq 500前，在Reagent Cartridge中加入稀释的NaOCl。Illumina推荐3％-6％的NaOCl稀释到0.03％-0.06％。注：配制的NaOCl在24h内使用。①制备2mL的0.03％-0.06％NaOCl，体积比为20 3％-6％的NaOCl 20μL和纯水1980μL。②颠倒混匀离心管数次；③用纸巾将28孔纸巾擦干净；④用干净的1mL枪头将28孔孔膜捅破；⑤向28号孔中加入2mL0.03％-0.06％，

(4)准备测序芯片(flow cell)：将测序芯片(flow cell)从2-8℃中取出，打开包装并将测序芯片(flow cell)擦拭干净，等待上机。

3)加入文库稀释液到试剂盒的10号孔中。

4)从软件界面选择序列开始测序程序设置步骤。

5)放入测序芯片(flow cell)；

6)清空废料托盘，并放回。放入缓冲液盒，放入试剂盒。

7)审查运行参数和运行前检查结果。选择开始运行。

8)通过NCS软件和SAV软件监控运行过程。

实验七数据分析

步骤一：数据过滤

原始测序数据以fastq文件格式存储(文件名：*.fq)，在进行下一步分析之前需要进行数据过滤，过滤方法如下：

(1)需要过滤掉含有接头序列的序列(reads)；

(2)当单端测序序列中含有的N的含量超过该条序列长度比例的10％时，需要去除此对双端测序序列(paired reads)；

(3)当单端测序序列中含有的低质量(Q<＝5)碱基数超过该条read长度比例的50％时，需要去除此对双端测序序列(paired reads)。

步骤二：序列比对与质控

经过对测序数据的严格过滤，得到高质量的有效序列(Clean data)。有效序列通过BWA(Burrows-Wheeler Alignment tool)软件比对到NCBI build 37/hg19参考基因组上，比对结果经picard(http://broadinstitute.github.io/picard/)去除重复，并过滤掉错配碱基数目超过5的序列。

步骤三：对目标序列进行致病突变分析

3.1SNP和InDel分析包括如下步骤：

(1)通过软件SOAP(http://soap.genomics.org.cn/)，把测序所得序列定位到人类基因组对应的位置；

(2)统计SNP和InDel覆盖深度，去除覆盖深度低于30的位点。

(3)根据疾病样本和正常样品信息，选出在人群中频率小于2％的位点进行进一步解读，利用SIFT软件对蛋白功能进行预测，所得到的位点作为疾病致病候选位点。

(4)综合dbSNP(http://www.ncbi.nlm.nih.gov/projects/SNP/)、HGMD(www.hgmd.cf.ac.uk)、ClinVar(http://www.ncbi.nlm.nih.gov/clinvar/)、LOVDInSiGHT(http://insight-group.org/lovd.html)对突变位点进行注释。经分析，所得到的致病候选位点如下表14所示。

表14：

注释：

“-“：指没有检测出任何变化或者没有相关信息。

杂合：指同一位点上的两个等位基因有不同的基因型。

纯和：指同一位点上的两个等位基因有相同的基因型。

无义突变：指由于某个碱基的改变使代表某种氨基酸的密码子突变为终止密码子，从而使肽链合成提前终止。

错义突变：指编码某种氨基酸的密码子经碱基替换以后,变成编码另一种氨基酸的密码子,从而使多肽链的氨基酸种类和序列发生改变。

剪接位点：指可能影响基因组转录形成信使RNA的变异。

插入突变：指在基因组中插入核苷酸，导致基因编码变化的突变。

缺失突变:指在基因组中丢失了几个核苷酸，导致基因编码变化的突变。

3.2大片段缺失分析包括如下步骤：

(1)划分窗口值：选定100bp作为信息分析窗口值，将长度较长的目标区域划分为长度为100bp的窗口。为了防止出现长度较短的窗口，长度小于160bp的目标区域不做划分处理。

(2)使用GATK(The Genome Analysis Toolkit)工具的depth of Coverage模块计算目标样品和对照样品组在各个窗口上的测序序列数目，将两者进行均一化处理，均一化处理公式为：

标准化之后窗口上序列数＝窗口上原始的序列数*1000/所有窗口的序列总数

(3)利用标准化之后的序列数，计算对照组样品在中每个窗口上序列数之间的标准差，并将标准差记为Sd。计算对照组样品在每个窗口上序列数的中位数，并将中位数记为Med。

(4)针对特定的窗口，统计受检样本标准化之后的序列数和对照样本的中位数的差异，计算偏离中位数程度，当偏离程度超过3*Sd时判断为缺失突变。缺失判断的公式如下：

Zi＝(受检样品标准化之后序列数i-Medi)/(Sdi)

当Zi大于3时则判断为第i个窗口上发生了缺失。

按照上述方法所检测到的存在缺失突变的基因如下表15：

表15：

染色体	基因组位置	片段长度	基因	变异区域	变异类型
						5	112043353-112198302	154949bp	APC	外显子区域	大片段缺失

将上述方法与现有的采用平均数进行偏离度检测的方法以及与中位数比值小于0.6的检测方法相比，具体比较结果如下表16：

表16：

/	检出率	阳性预测值(PPV)
			本发明	13.54％	100％
与平均数相比计算的偏离度	15.63％	86.67％
			与中位数比值小于0.6	20.8％	65％

从上述表16可以看出，本发明的方法相比现有技术的方法在检出率上降低了假阳性的检出率，使得阳性预测值达到100％，表明本发明的方法的阳性预测的准确性显著提高。

实验八验证

为证明上述大片段缺失检测结果的准确性，通过DPHLC法检测分析阳性结果携带者的突变结果，实验步骤如下：

1：使用软件Primer primer5.0(www.premierbiosoft.com/primerdesign)针对目标位点设计引物。具体见表17：

表17：

2：PCR扩增。扩增体系如下表18，扩增程序如下表19。

表18：

PCR反应组分	每个体系加入量
		10×Buffer I	5μl
2.5mM dNTP	4μl
		引物组	10μl
HS Taq酶(5U/μl)	0.4μl
		DNA	2.0μl
ddH₂O	补齐至50μl

表19：

3.PCR产物测序

取1μl PCR产物用2.0％琼脂糖凝胶电泳检测，并送测序。

4.测序结果见图1。

图1中，DHPLC结果分析主要分析的是扩增产物的峰面积，由于峰面积约等于底(峰宽)×高(峰高)/2，所以PCR产物的量(即拷贝数)可以通过待测样品和标准对照之前的峰高间接判断。图1上每个峰都是一个单独设计的产物，除了一个标准内参基因以外都是待测基因的不同外显子。只要把内参基因对齐(峰底和峰高)以后，观察待测样品和标准对照之前其他产物(峰)的高度就可以判断不同外显子的拷贝数差异。从图1中待测样本与对照之间的峰高可以看出，待测样本的APC存在大片段缺失，这与二代测序的结果一致。从而证明了本发明的测序方法的有效性和准确性。

从以上的描述中，可以看出，本发明上述的实施例实现了预期技术效果：通过将待测样本和对照样本的测序数据以切分成窗口的形式进行序列数的计算，便于根据不同的测序数据的测序深度和目标缺失片段的大小来灵活切分窗口的大小，使检测的缺失片段的大小范围更广泛；并且，在确定某一窗口是否存在缺失突变时，根据待测样本在各窗口的第二序列与对照样本间的中位数的比值进行确定，通过采用对照样本间的中位数作为比较的标准，相比采用平均值和标准差作为比较的标准，更容易区分假阳性，使确定结果更准确，因为当某个窗口上未发生拷贝数变异时，采用平均值和标准差作为比较的标准的确定方式会影响确定结果的准确性。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序列表

<110> 天津诺禾致源生物信息科技有限公司

<120> 检测基因突变的方法和装置

<130> PN41432NHZY

<160> 14

<170> PatentIn version 3.5

<210> 1

<211> 20

<212> DNA

<213> 人工合成

<400> 1

tcgggaagcg gagagagaag 20

<210> 2

<211> 20

<212> DNA

<213> 人工合成

<400> 2

agacagtgcg agggaaaacc 20

<210> 3

<211> 20

<212> DNA

<213> 人工合成

<400> 3

atttaccagt gagggacggg 20

<210> 4

<211> 20

<212> DNA

<213> 人工合成

<400> 4

acgcttttga gggttgattc 20

<210> 5

<211> 20

<212> DNA

<213> 人工合成

<400> 5

taaggtgcgt gctttgagag 20

<210> 6

<211> 21

<212> DNA

<213> 人工合成

<400> 6

acatcctgag ggtaaggcta a 21

<210> 7

<211> 25

<212> DNA

<213> 人工合成

<400> 7

tgactgtaat attctaagtc ctacc 25

<210> 8

<211> 20

<212> DNA

<213> 人工合成

<400> 8

gagattctga agttgagcgt 20

<210> 9

<211> 22

<212> DNA

<213> 人工合成

<400> 9

cacaacatca ttcactcaca gc 22

<210> 10

<211> 22

<212> DNA

<213> 人工合成

<400> 10

tacttggatt tttgtcctgg tc 22

<210> 11

<211> 25

<212> DNA

<213> 人工合成

<400> 11

tgacaaagga agaacagata gcaaa 25

<210> 12

<211> 22

<212> DNA

<213> 人工合成

<400> 12

aagcctgggt gacagagtga ga 22

<210> 13

<211> 19

<212> DNA

<213> 人工合成

<400> 13

tgttgactcg atccacccc 19

<210> 14

<211> 21

<212> DNA

<213> 人工合成

<400> 14

tgagctgcaa gtttggctga a 21

Claims

1.一种检测基因突变的方法，其特征在于，所述方法包括以下步骤：

获取待测样本和对照样本的测序数据；

判断所述待测样本的测序数据中是否存在SNP突变和/或InDel突变；以及

判断所述待测样本的测序数据中是否存在缺失突变；

其中，判断所述待测样本的测序数据中是否存在缺失突变的步骤包括：

均一化处理，将所述测序数据切分成窗口，统计所述待测样本和对照样本分别在各窗口的序列数，并对各所述窗口的序列数进行均一化处理，得到所述待测样本和对照样本分别在各所述窗口的均一化序列数；

标准差及中位数计算，计算所述对照组样本在各窗口上的所述均一化序列数的标准差和中位数；

偏离度计算，按照式(1)计算在每个所述窗口上，所述待测样本的所述均一化序列数与所述对照样本的所述中位数的偏离度Z值；以及

Z＝(待测样本的均一化序列数-中位数)/标准差 (1)

缺失判断，当所述Z值大于3时，则判断所述待测样本在所述窗口存在缺失突变。

2.根据权利要求1所述的方法，其特征在于，所述均一化处理步骤中，将所述测序数据切分成连续不相交的窗口。

3.根据权利要求1所述的方法，其特征在于，所述均一化处理的步骤包括：

将所述待测样本和对照样本各自的所述测序数据切分成窗口，并将各自在每个窗口的序列数记为第一序列数；以及将各所述第一序列数的总和，记为各自的第二序列数；以及

按式(2)所示的公式对所述待测样本和对照样本各自的所述第一序列数进行均一化

均一化序列数＝第一序列数*1000/第二序列数 (2)

处理，得到所述待测样本和对照样本各自在每个窗口的所述均一化序列数。

4.根据权利要求1所述的方法，其特征在于，所述判断待测样本的测序数据中是否存在SNP突变和/或InDel突变的步骤包括：

序列比对，将所述待测样本的测序数据与参考基因组进行比对得到比对结果；

第一次筛选，从所述比对结果中筛选出存在SNP突变和/或InDel突变的位点，记为第一候选位点；

第二次筛选，从所述第一候选位点中筛选出人群突变频率小于2％的位点，记为第二候选位点；

SNP和/或InDel突变判断，根据功能注释数据库中对所述第二候选位点的功能注释，判断所述第二候选位点中是否存在导致基因功能发生改变的SNP突变位点和/或InDel突变位点；若存在，则将所述第二候选位点记为第三候选位点；以及

SNP和/或InDel突变确认，当存在所述第三候选位点时，将所述第三候选位点确定为SNP突变位点和/或InDel突变位点。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述获取待测样本和对照样本的测序数据的步骤之前，所述方法还包括对所述待测样本和对照样本分别进行外显子文库制备的步骤，所述外显子文库制备的步骤中采用液相捕获的方法进行制备。

6.根据权利要求5所述的方法，其特征在于，采用所述液相捕获的方法进行制备之前，还包括根据目标基因外显子区域设计液相捕获探针的步骤。

7.根据权利要求6所述的方法，其特征在于，所述外显子文库制备步骤包含对多个目标基因的外显子文库进行制备，所述多个目标基因至少包括以下基因：MLH1、MSH2、MSH3、MSH6、PMS1、PMS2、BUB1、BUB3、STK11、PTEN、SMAD4、APC、MUTYH、EPCAM、SETD2、MAX、TSC2、ATM以及FANCC。

8.一种检测基因缺失突变的装置，其特征在于，所述装置包括：

获取模块，用于获取待测样本和对照样本的测序数据；

第一判断模块，用于判断所述待测样本的测序数据中是否存在SNP突变和/或InDel突变；以及

第二判断模块，用于判断所述待测样本的测序数据中是否存在缺失突变；

其中，所述第二判断模块包括：

均一化子模块，用于将所述测序数据切分成窗口，统计所述待测样本和对照样本分别在各窗口的序列数，并对各所述窗口的序列数进行均一化处理，得到所述待测样本和对照样本分别在各所述窗口的均一化序列数；

第一计算子模块，用于计算所述对照样本在各窗口上的所述均一化序列数的标准差和中位数；

第二计算子模块，用于按照式(1)计算每个所述窗口上，所述待测样本的所述均一化序列数与所述对照样本的所述中位数的偏离度Z值；以及

Z＝(待测样本的均一化序列数-中位数)/标准差 (1)

缺失判断子模块，用于当所述Z值大于3时，则判断所述待测样本在所述窗口存在缺失突变。

9.根据权利要求8所述的装置，其特征在于，所述均一化子模块进一步包括：

统计单元，用于将所述待测样本和对照样本各自在每个窗口的序列数进行统计，记为各自的第一序列数，将各自所有窗口的所述第一序列数之和进行统计，记为各自的第二序列数；以及

计算单元，用于将所述待测样本和对照样本在各窗口的所述第一序列数按照式(2)

均一化序列数＝第一序列数*1000/第二序列数 (2)

所示的公式进行均一化处理，得到所述待测样本和对照样本各自在每个窗口的所述均一化序列数。

10.根据权利要求8所述的装置，其特征在于，第一判断模块包括：

序列比对子模块，用于将所述待测样本的测序数据与参考基因组进行比对得到比对结果；

第一筛选子模块，用于从所述比对结果中筛选出存在SNP突变和/或InDel突变的位点，记为第一候选位点；

第二筛选子模块，用于从所述第一候选位点中筛选出人群突变频率小于2％的位点，记为第二候选位点；

SNP和/或InDel突变判断子模块，用于根据功能注释数据库中对所述第二候选位点的功能注释，判断所述第二候选位点中是否存在导致基因功能发生改变的SNP突变位点和/或InDel突变位点；若存在，则将所述第二候选位点记为第三候选位点；以及

SNP和/或InDel突变确认子模块，用于当存在所述第三候选位点时，将所述第三候选位点确定为SNP突变位点和/或InDel突变位点。

11.根据权利要求8所述的装置，其特征在于，在所述获取模块获取待测样本和对照样本的测序数据之前，所述装置还包括外显子文库制备模块，所述外显子文库制备模块用于采用液相捕获方法对所述待测样本和对照样本的外显子文库进行制备。

12.根据权利要求11所述的装置，其特征在于，在所述外显子文库制备模块对所述待测样本和对照样本的外显子文库进行制备之前，所述装置还包括探针设计模块，所述探针设计模块用于根据目标基因外显子区域设计液相捕获探针。