[go: up one dir, main page]

CN110211636A - 优化基因组测序结果的分类方法 - Google Patents

优化基因组测序结果的分类方法 Download PDF

Info

Publication number
CN110211636A
CN110211636A CN201810155742.XA CN201810155742A CN110211636A CN 110211636 A CN110211636 A CN 110211636A CN 201810155742 A CN201810155742 A CN 201810155742A CN 110211636 A CN110211636 A CN 110211636A
Authority
CN
China
Prior art keywords
mqranksum
classification method
gene group
homologous
adr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810155742.XA
Other languages
English (en)
Inventor
谭宇翔
张宇
尹芝南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201810155742.XA priority Critical patent/CN110211636A/zh
Publication of CN110211636A publication Critical patent/CN110211636A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种优化基因组测序结果的分类方法,包括如下步骤:A)读取输入的多态性记录文本文件;B)根据注解对所述多态性记录文本文件的内容进行分类,得到相应的分类信息;所述分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化;C)对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果;D)将所述过滤后的结果进行汇总并输出。实施本发明的优化基因组测序结果的分类方法,具有以下有益效果:能提高全基因组测序结果的精度。

Description

优化基因组测序结果的分类方法
技术领域
本发明涉及信息技术领域,特别涉及一种优化基因组测序结果的分类方法。
背景技术
全基因组测序数据经过分析流程的处理后,会得到一个突变汇总列表作为结果。为了提高该结果的精度,大多时候需要对其进行识别,从而过滤掉部分假阳性。最常用的过滤手段为GATK(The Genome Analysis Toolkit,用于二代重测序数据分析的一款软件)的硬过滤(hard filter)以及GATK的VQSR功能。GATK的硬过滤的条件比较死板,而且并没有对具体情况进行分类,因此虽然能过滤假阳性,但是真阳性的损失很大。VQSR的方法相对综合,但是运行速度非常慢,而且在不同的数据类型中的表现差异很大。VQSR目前主要被用于高深度的外显子测序结果的过滤,但是在全基因组测序数据上的表现一般。VQSR算法在研发时,参考的只是全基因组测序数据的表层规律,验证时使用的是模拟数据,并无法真实反映真实数据的真/假性分类情况,导致在实际应用中的表现差强人意,并非建议使用方法。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能提高全基因组测序结果的精度的优化基因组测序结果的分类方法。
本发明解决其技术问题所采用的技术方案是:构造一种优化基因组测序结果的分类方法,包括如下步骤:
A)读取输入的多态性记录文本文件;
B)根据注解对所述多态性记录文本文件的内容进行分类,得到相应的分类信息;所述分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化;
C)对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果;
D)将所述过滤后的结果进行汇总并输出。
在本发明所述的优化基因组测序结果的分类方法中,所述过滤指标包括ADR(Allelic depths for the ref and alt ratio)、DP(Approximate read depth)、GQ(Genotype Quality)、MQRankSum(Z-score From Wilcoxon rank sum test of Altvs.Ref read mapping qualities)、QD(Variant Confidence/Quality by Depth)和QUAL(Quality);其中,ADR为等位基因深度比,DP为片段深度,GQ为基因型质量,MQRankSum为比对质量秩和,QD为质量深度,QUAL为测序质量。
在本发明所述的优化基因组测序结果的分类方法中,所述同源单核苷酸多样性的过滤标准为:ADR>3&&MQRankSum<=-1,MQRankSum>3&&QD>25,DP>2000。
在本发明所述的优化基因组测序结果的分类方法中,所述异源单核苷酸多样性的过滤标准为:ADR>5&&MQRankSum<-2,ADR<0.5&&MQRankSum>3,ADR<0.2&&MQRankSum>0.5,MQRankSum>5&&QD>10,MQRankSum>0&&QD>30,MQRankSum<-9.5&&QD>20,QUAL>4000。
在本发明所述的优化基因组测序结果的分类方法中,所述同源插入缺失变化的过滤标准为:GQ<12。
在本发明所述的优化基因组测序结果的分类方法中,所述同源单核苷酸多样性的过滤标准为:GQ<6。
在本发明所述的优化基因组测序结果的分类方法中,所述多态性记录文本文件是由基因多态性分析软件产生的。
在本发明所述的优化基因组测序结果的分类方法中,所述注解为利用铂金基因组对基因组测序结果所做的真/假阳性的注释。
实施本发明的优化基因组测序结果的分类方法,具有以下有益效果:由于首先根据注解对多态性记录文本文件的内容进行分类,然后对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果,该优化基因组测序结果的分类方法对比传统的过滤方法,其能显著提高基因测序结果的准确率,而对敏感度的影响甚少,能从整体上提高分析结果的可靠性,因此能提高全基因组测序结果的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明优化基因组测序结果的分类方法一个实施例中的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明优化基因组测序结果的分类方法实施例中,该优化基因组测序结果的分类方法的流程图如图1所示。图1中,该优化基因组测序结果的分类方法包括如下步骤:
步骤S01读取输入的多态性记录文本文件:本步骤中,读取输入的多态性记录文本(VCF,Variant Call Format)文件,该多态性记录文本文件是由基因多态性分析软件产生的,例如:GATK。
步骤S02根据注解对多态性记录文本文件的内容进行分类,得到相应的分类信息:本步骤中,根据注解对多态性记录文本文件的内容进行分类,会得到相应的分类信息,具体就是从原始数据中提取四种分类信息,该分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化。值得一提的是,本实施例中,同源单核苷酸多样性用Hom SNV来表示,同源插入缺失变化用Hom INDELs表示,异源单核苷酸多样性用Het SNV表示,异源插入缺失变化用Het INDELs来表示。本步骤中的上述注解,指的是利用铂金基因组对基因组测序结果所做的真/假阳性的注释。
步骤S03对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果:本步骤中,对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,并将符合过滤标准的内容进行保留,最终得到过滤后的结果。
值得一提的是,本实施例中,过滤指标包括ADR、DP、GQ、MQRankSum、QD和QUAL;其中,ADR为等位基因深度比,ADR支持参考基因组碱基的reads数量+1/支持突变的reads数量+1;DP为片段深度,对于DP,reads with MQ=255or with bad mates are filtered;GQ为基因型质量,MQRankSum为比对质量秩和,QD为质量深度,QUAL为测序质量。
步骤S04将过滤后的结果进行汇总并输出:本步骤中,本步骤中,将过滤后的结果进行汇总并输出。本发明在利用铂金基因组注释真/假阳性的帮助下,通过优化基因测序结果的分类方法和基因多态性分析软件,已被证实能大幅度过滤假阳性而只损失少量真阳性,与传统的过滤方法相比,其能显著提高基因测序结果的准确率,而对敏感度的影响甚少,能从整体上提高分析结果的可靠性,因此能大大提高全基因组测序结果的精度。
本实施例中,同源单核苷酸多样性的过滤标准为:ADR>3&&MQRankSum<=-1,MQRankSum>3&&QD>25,DP>2000。也就是将同源单核苷酸多样性中不符合该同源单核苷酸多样性的过滤标准的内容过滤掉,并将符合该同源单核苷酸多样性的过滤标准的内容保留下来。
本实施例中,异源单核苷酸多样性的过滤标准为:ADR>5&&MQRankSum<-2,ADR<0.5&&MQRankSum>3,ADR<0.2&&MQRankSum>0.5,MQRankSum>5&&QD>10,MQRankSum>0&&QD>30,MQRankSum<-9.5&&QD>20,QUAL>4000。也就是将异源单核苷酸多样性中不符合该异源单核苷酸多样性的过滤标准的内容过滤掉,并将符合该异源单核苷酸多样性的过滤标准的内容保留下来。
本实施例中,同源插入缺失变化的过滤标准为:GQ<12。也就是将同源插入缺失变化中不符合该同源插入缺失变化的过滤标准的内容过滤掉,并将符合该同源插入缺失变化的过滤标准的内容保留下来。
本实施例中,同源单核苷酸多样性的过滤标准为:GQ<6。也就是将同源单核苷酸多样性中不符合该同源单核苷酸多样性的过滤标准的内容过滤掉,并将符合该同源单核苷酸多样性的过滤标准的内容保留下来。
总之,本发明在利用铂金基因组注释真/假阳性的帮助下,通过优化基因测序结果的分类方法和基因多态性分析软件,已被证实能大幅度过滤假阳性而只损失少量真阳性,能大大提高全基因组测序结果的精度,对全基因组测序技术的应用拓展有着重大的促进作用。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种优化基因组测序结果的分类方法,其特征在于,包括如下步骤:
A)读取输入的多态性记录文本文件;
B)根据注解对所述多态性记录文本文件的内容进行分类,得到相应的分类信息;所述分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化;
C)对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果;
D)将所述过滤后的结果进行汇总并输出。
2.根据权利要求1所述的优化基因组测序结果的分类方法,其特征在于,所述过滤指标包括ADR、DP、GQ、MQRankSum、QD和QUAL;其中,ADR为等位基因深度比,DP为片段深度,GQ为基因型质量,MQRankSum为比对质量秩和,QD为质量深度,QUAL为测序质量。
3.根据权利要求2所述的优化基因组测序结果的分类方法,其特征在于,所述同源单核苷酸多样性的过滤标准为:ADR>3&&MQRankSum<=-1,MQRankSum>3&&QD>25,DP>2000。
4.根据权利要求2或3所述的优化基因组测序结果的分类方法,其特征在于,所述异源单核苷酸多样性的过滤标准为:ADR>5&&MQRankSum<-2,ADR<0.5&&MQRankSum>3,ADR<0.2&&MQRankSum>0.5,MQRankSum>5&&QD>10,MQRankSum>0&&QD>30,MQRankSum<-9.5&&QD>20,QUAL>4000。
5.根据权利要求2或3所述的优化基因组测序结果的分类方法,其特征在于,所述同源插入缺失变化的过滤标准为:GQ<12。
6.根据权利要求2或3所述的优化基因组测序结果的分类方法,其特征在于,所述同源单核苷酸多样性的过滤标准为:GQ<6。
7.根据权利要求1至3任意一项所述的优化基因组测序结果的分类方法,其特征在于,所述多态性记录文本文件是由基因多态性分析软件产生的。
8.根据权利要求1至3任意一项所述的优化基因组测序结果的分类方法,其特征在于,所述注解为利用铂金基因组对基因组测序结果所做的真/假阳性的注释。
CN201810155742.XA 2018-02-23 2018-02-23 优化基因组测序结果的分类方法 Pending CN110211636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810155742.XA CN110211636A (zh) 2018-02-23 2018-02-23 优化基因组测序结果的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810155742.XA CN110211636A (zh) 2018-02-23 2018-02-23 优化基因组测序结果的分类方法

Publications (1)

Publication Number Publication Date
CN110211636A true CN110211636A (zh) 2019-09-06

Family

ID=67778963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810155742.XA Pending CN110211636A (zh) 2018-02-23 2018-02-23 优化基因组测序结果的分类方法

Country Status (1)

Country Link
CN (1) CN110211636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782091A (zh) * 2021-09-14 2021-12-10 云南中烟工业有限责任公司 一种判断二代测序检测基因编辑结果可信度的方法及应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015112619A1 (en) * 2014-01-22 2015-07-30 Adam Platt Methods and systems for detecting genetic mutations
CN107077538A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107250356A (zh) * 2014-12-16 2017-10-13 加文医学研究所 测序对照

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015112619A1 (en) * 2014-01-22 2015-07-30 Adam Platt Methods and systems for detecting genetic mutations
CN107077538A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107250356A (zh) * 2014-12-16 2017-10-13 加文医学研究所 测序对照

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石浩然: "基于二代测序的转录组数据分析方法的比较研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782091A (zh) * 2021-09-14 2021-12-10 云南中烟工业有限责任公司 一种判断二代测序检测基因编辑结果可信度的方法及应用

Similar Documents

Publication Publication Date Title
Chen et al. fastp: an ultra-fast all-in-one FASTQ preprocessor
Lefouili et al. The evaluation of Bcftools mpileup and GATK HaplotypeCaller for variant calling in non-human species
Cooke et al. A unified haplotype-based method for accurate and comprehensive variant calling
Kuhlwilm et al. Ancient admixture from an extinct ape lineage into bonobos
Hwang et al. Systematic comparison of variant calling pipelines using gold standard personal exome variants
Bastida et al. Molecular diagnosis of inherited coagulation and bleeding disorders
CN106909806B (zh) 定点检测变异的方法和装置
Murray et al. kWIP: The k-mer weighted inner product, a de novo estimator of genetic similarity
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
Conrad et al. Implementation and validation of an automated flow cytometry analysis pipeline for human immune profiling
Wilfert et al. Genome-wide significance testing of variation from single case exomes
Ramdas et al. Extended regions of suspected mis-assembly in the rat reference genome
Zheng et al. A sequence-aware merger of genomic structural variations at population scale
CN101838686A (zh) 亲缘关系鉴定装置及方法
English et al. K-mer analysis of long-read alignment pileups for structural variant genotyping
CN110211636A (zh) 优化基因组测序结果的分类方法
Arbatsky et al. Seurat function argument values in scRNA-seq data analysis: potential pitfalls and refinements for biological interpretation
WO2020211399A1 (zh) 数据发送方法、装置、设备及存储介质
CN115394361A (zh) 用于构建微生物基因组数据库的方法、设备和介质
Montalbano et al. Accurate and effective detection of recurrent copy number variants in large SNP genotype datasets
Ji et al. Machine learning of discriminative gate locations for clinical diagnosis
Filipović Genomic resources for population analyses of an invasive insect pest Oryctes rhinoceros
CN115662512A (zh) 基于多重pcr测序中检测点突变的方法、装置、设备和介质
Kaiser et al. Automated structural variant verification in human genomes using single-molecule electronic DNA mapping
Yan et al. SIns: a novel insertion detection approach based on soft-clipped reads

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190906

RJ01 Rejection of invention patent application after publication