CN110211636A

CN110211636A - 优化基因组测序结果的分类方法

Info

Publication number: CN110211636A
Application number: CN201810155742.XA
Authority: CN
Inventors: 谭宇翔; 张宇; 尹芝南
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2018-02-23
Filing date: 2018-02-23
Publication date: 2019-09-06

Abstract

本发明公开了一种优化基因组测序结果的分类方法，包括如下步骤：A)读取输入的多态性记录文本文件；B)根据注解对所述多态性记录文本文件的内容进行分类，得到相应的分类信息；所述分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化；C)对应不同的分类信息使用不同的过滤指标进行过滤，将不符合过滤标准的内容过滤掉，得到过滤后的结果；D)将所述过滤后的结果进行汇总并输出。实施本发明的优化基因组测序结果的分类方法，具有以下有益效果：能提高全基因组测序结果的精度。

Description

优化基因组测序结果的分类方法

技术领域

本发明涉及信息技术领域，特别涉及一种优化基因组测序结果的分类方法。

背景技术

全基因组测序数据经过分析流程的处理后，会得到一个突变汇总列表作为结果。为了提高该结果的精度，大多时候需要对其进行识别，从而过滤掉部分假阳性。最常用的过滤手段为GATK(The Genome Analysis Toolkit，用于二代重测序数据分析的一款软件)的硬过滤(hard filter)以及GATK的VQSR功能。GATK的硬过滤的条件比较死板，而且并没有对具体情况进行分类，因此虽然能过滤假阳性，但是真阳性的损失很大。VQSR的方法相对综合，但是运行速度非常慢，而且在不同的数据类型中的表现差异很大。VQSR目前主要被用于高深度的外显子测序结果的过滤，但是在全基因组测序数据上的表现一般。VQSR算法在研发时，参考的只是全基因组测序数据的表层规律，验证时使用的是模拟数据，并无法真实反映真实数据的真/假性分类情况，导致在实际应用中的表现差强人意，并非建议使用方法。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种能提高全基因组测序结果的精度的优化基因组测序结果的分类方法。

本发明解决其技术问题所采用的技术方案是：构造一种优化基因组测序结果的分类方法，包括如下步骤：

A)读取输入的多态性记录文本文件；

B)根据注解对所述多态性记录文本文件的内容进行分类，得到相应的分类信息；所述分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化；

C)对应不同的分类信息使用不同的过滤指标进行过滤，将不符合过滤标准的内容过滤掉，得到过滤后的结果；

D)将所述过滤后的结果进行汇总并输出。

在本发明所述的优化基因组测序结果的分类方法中，所述过滤指标包括ADR(Allelic depths for the ref and alt ratio)、DP(Approximate read depth)、GQ(Genotype Quality)、MQRankSum(Z-score From Wilcoxon rank sum test of Altvs.Ref read mapping qualities)、QD(Variant Confidence/Quality by Depth)和QUAL(Quality)；其中，ADR为等位基因深度比，DP为片段深度，GQ为基因型质量，MQRankSum为比对质量秩和，QD为质量深度，QUAL为测序质量。

在本发明所述的优化基因组测序结果的分类方法中，所述同源单核苷酸多样性的过滤标准为：ADR>3&&MQRankSum<＝-1，MQRankSum>3&&QD>25，DP>2000。

在本发明所述的优化基因组测序结果的分类方法中，所述异源单核苷酸多样性的过滤标准为：ADR>5&&MQRankSum<-2，ADR<0.5&&MQRankSum>3，ADR<0.2&&MQRankSum>0.5，MQRankSum>5&&QD>10，MQRankSum>0&&QD>30，MQRankSum<-9.5&&QD>20，QUAL>4000。

在本发明所述的优化基因组测序结果的分类方法中，所述同源插入缺失变化的过滤标准为：GQ<12。

在本发明所述的优化基因组测序结果的分类方法中，所述同源单核苷酸多样性的过滤标准为：GQ<6。

在本发明所述的优化基因组测序结果的分类方法中，所述多态性记录文本文件是由基因多态性分析软件产生的。

在本发明所述的优化基因组测序结果的分类方法中，所述注解为利用铂金基因组对基因组测序结果所做的真/假阳性的注释。

实施本发明的优化基因组测序结果的分类方法，具有以下有益效果：由于首先根据注解对多态性记录文本文件的内容进行分类，然后对应不同的分类信息使用不同的过滤指标进行过滤，将不符合过滤标准的内容过滤掉，得到过滤后的结果，该优化基因组测序结果的分类方法对比传统的过滤方法，其能显著提高基因测序结果的准确率，而对敏感度的影响甚少，能从整体上提高分析结果的可靠性，因此能提高全基因组测序结果的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明优化基因组测序结果的分类方法一个实施例中的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明优化基因组测序结果的分类方法实施例中，该优化基因组测序结果的分类方法的流程图如图1所示。图1中，该优化基因组测序结果的分类方法包括如下步骤：

步骤S01读取输入的多态性记录文本文件：本步骤中，读取输入的多态性记录文本(VCF，Variant Call Format)文件，该多态性记录文本文件是由基因多态性分析软件产生的，例如：GATK。

步骤S02根据注解对多态性记录文本文件的内容进行分类，得到相应的分类信息：本步骤中，根据注解对多态性记录文本文件的内容进行分类，会得到相应的分类信息，具体就是从原始数据中提取四种分类信息，该分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化。值得一提的是，本实施例中，同源单核苷酸多样性用Hom SNV来表示，同源插入缺失变化用Hom INDELs表示，异源单核苷酸多样性用Het SNV表示，异源插入缺失变化用Het INDELs来表示。本步骤中的上述注解，指的是利用铂金基因组对基因组测序结果所做的真/假阳性的注释。

步骤S03对应不同的分类信息使用不同的过滤指标进行过滤，将不符合过滤标准的内容过滤掉，得到过滤后的结果：本步骤中，对应不同的分类信息使用不同的过滤指标进行过滤，将不符合过滤标准的内容过滤掉，并将符合过滤标准的内容进行保留，最终得到过滤后的结果。

值得一提的是，本实施例中，过滤指标包括ADR、DP、GQ、MQRankSum、QD和QUAL；其中，ADR为等位基因深度比，ADR支持参考基因组碱基的reads数量+1/支持突变的reads数量+1；DP为片段深度，对于DP，reads with MQ＝255or with bad mates are filtered；GQ为基因型质量，MQRankSum为比对质量秩和，QD为质量深度，QUAL为测序质量。

步骤S04将过滤后的结果进行汇总并输出：本步骤中，本步骤中，将过滤后的结果进行汇总并输出。本发明在利用铂金基因组注释真/假阳性的帮助下，通过优化基因测序结果的分类方法和基因多态性分析软件，已被证实能大幅度过滤假阳性而只损失少量真阳性，与传统的过滤方法相比，其能显著提高基因测序结果的准确率，而对敏感度的影响甚少，能从整体上提高分析结果的可靠性，因此能大大提高全基因组测序结果的精度。

本实施例中，同源单核苷酸多样性的过滤标准为：ADR>3&&MQRankSum<＝-1，MQRankSum>3&&QD>25，DP>2000。也就是将同源单核苷酸多样性中不符合该同源单核苷酸多样性的过滤标准的内容过滤掉，并将符合该同源单核苷酸多样性的过滤标准的内容保留下来。

本实施例中，异源单核苷酸多样性的过滤标准为：ADR>5&&MQRankSum<-2，ADR<0.5&&MQRankSum>3，ADR<0.2&&MQRankSum>0.5，MQRankSum>5&&QD>10，MQRankSum>0&&QD>30，MQRankSum<-9.5&&QD>20，QUAL>4000。也就是将异源单核苷酸多样性中不符合该异源单核苷酸多样性的过滤标准的内容过滤掉，并将符合该异源单核苷酸多样性的过滤标准的内容保留下来。

本实施例中，同源插入缺失变化的过滤标准为：GQ<12。也就是将同源插入缺失变化中不符合该同源插入缺失变化的过滤标准的内容过滤掉，并将符合该同源插入缺失变化的过滤标准的内容保留下来。

本实施例中，同源单核苷酸多样性的过滤标准为：GQ<6。也就是将同源单核苷酸多样性中不符合该同源单核苷酸多样性的过滤标准的内容过滤掉，并将符合该同源单核苷酸多样性的过滤标准的内容保留下来。

总之，本发明在利用铂金基因组注释真/假阳性的帮助下，通过优化基因测序结果的分类方法和基因多态性分析软件，已被证实能大幅度过滤假阳性而只损失少量真阳性，能大大提高全基因组测序结果的精度，对全基因组测序技术的应用拓展有着重大的促进作用。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种优化基因组测序结果的分类方法，其特征在于，包括如下步骤：

A)读取输入的多态性记录文本文件；

D)将所述过滤后的结果进行汇总并输出。

2.根据权利要求1所述的优化基因组测序结果的分类方法，其特征在于，所述过滤指标包括ADR、DP、GQ、MQRankSum、QD和QUAL；其中，ADR为等位基因深度比，DP为片段深度，GQ为基因型质量，MQRankSum为比对质量秩和，QD为质量深度，QUAL为测序质量。

3.根据权利要求2所述的优化基因组测序结果的分类方法，其特征在于，所述同源单核苷酸多样性的过滤标准为：ADR>3&&MQRankSum<＝-1，MQRankSum>3&&QD>25，DP>2000。

4.根据权利要求2或3所述的优化基因组测序结果的分类方法，其特征在于，所述异源单核苷酸多样性的过滤标准为：ADR>5&&MQRankSum<-2，ADR<0.5&&MQRankSum>3，ADR<0.2&&MQRankSum>0.5，MQRankSum>5&&QD>10，MQRankSum>0&&QD>30，MQRankSum<-9.5&&QD>20，QUAL>4000。

5.根据权利要求2或3所述的优化基因组测序结果的分类方法，其特征在于，所述同源插入缺失变化的过滤标准为：GQ<12。

6.根据权利要求2或3所述的优化基因组测序结果的分类方法，其特征在于，所述同源单核苷酸多样性的过滤标准为：GQ<6。

7.根据权利要求1至3任意一项所述的优化基因组测序结果的分类方法，其特征在于，所述多态性记录文本文件是由基因多态性分析软件产生的。

8.根据权利要求1至3任意一项所述的优化基因组测序结果的分类方法，其特征在于，所述注解为利用铂金基因组对基因组测序结果所做的真/假阳性的注释。