CN110211636A - 优化基因组测序结果的分类方法 - Google Patents
优化基因组测序结果的分类方法 Download PDFInfo
- Publication number
- CN110211636A CN110211636A CN201810155742.XA CN201810155742A CN110211636A CN 110211636 A CN110211636 A CN 110211636A CN 201810155742 A CN201810155742 A CN 201810155742A CN 110211636 A CN110211636 A CN 110211636A
- Authority
- CN
- China
- Prior art keywords
- mqranksum
- classification method
- gene group
- homologous
- adr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 108090000623 proteins and genes Proteins 0.000 title claims description 18
- 238000012163 sequencing technique Methods 0.000 title claims description 16
- 238000005457 optimization Methods 0.000 title claims 9
- 238000001914 filtration Methods 0.000 claims abstract description 29
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 claims description 10
- 229910052697 platinum Inorganic materials 0.000 claims description 5
- 108700028369 Alleles Proteins 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims 3
- 230000037431 insertion Effects 0.000 claims 3
- 241000218636 Thuja Species 0.000 claims 2
- 239000002253 acid Substances 0.000 claims 2
- 238000012217 deletion Methods 0.000 claims 2
- 230000037430 deletion Effects 0.000 claims 2
- 230000000735 allogeneic effect Effects 0.000 claims 1
- 239000002773 nucleotide Substances 0.000 abstract description 24
- 125000003729 nucleotide group Chemical group 0.000 abstract description 24
- 238000012268 genome sequencing Methods 0.000 abstract description 20
- 238000012070 whole genome sequencing analysis Methods 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000717 retained effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000000585 Mann–Whitney U test Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种优化基因组测序结果的分类方法,包括如下步骤:A)读取输入的多态性记录文本文件;B)根据注解对所述多态性记录文本文件的内容进行分类,得到相应的分类信息;所述分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化;C)对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果;D)将所述过滤后的结果进行汇总并输出。实施本发明的优化基因组测序结果的分类方法,具有以下有益效果:能提高全基因组测序结果的精度。
Description
技术领域
本发明涉及信息技术领域,特别涉及一种优化基因组测序结果的分类方法。
背景技术
全基因组测序数据经过分析流程的处理后,会得到一个突变汇总列表作为结果。为了提高该结果的精度,大多时候需要对其进行识别,从而过滤掉部分假阳性。最常用的过滤手段为GATK(The Genome Analysis Toolkit,用于二代重测序数据分析的一款软件)的硬过滤(hard filter)以及GATK的VQSR功能。GATK的硬过滤的条件比较死板,而且并没有对具体情况进行分类,因此虽然能过滤假阳性,但是真阳性的损失很大。VQSR的方法相对综合,但是运行速度非常慢,而且在不同的数据类型中的表现差异很大。VQSR目前主要被用于高深度的外显子测序结果的过滤,但是在全基因组测序数据上的表现一般。VQSR算法在研发时,参考的只是全基因组测序数据的表层规律,验证时使用的是模拟数据,并无法真实反映真实数据的真/假性分类情况,导致在实际应用中的表现差强人意,并非建议使用方法。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能提高全基因组测序结果的精度的优化基因组测序结果的分类方法。
本发明解决其技术问题所采用的技术方案是:构造一种优化基因组测序结果的分类方法,包括如下步骤:
A)读取输入的多态性记录文本文件;
B)根据注解对所述多态性记录文本文件的内容进行分类,得到相应的分类信息;所述分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化;
C)对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果;
D)将所述过滤后的结果进行汇总并输出。
在本发明所述的优化基因组测序结果的分类方法中,所述过滤指标包括ADR(Allelic depths for the ref and alt ratio)、DP(Approximate read depth)、GQ(Genotype Quality)、MQRankSum(Z-score From Wilcoxon rank sum test of Altvs.Ref read mapping qualities)、QD(Variant Confidence/Quality by Depth)和QUAL(Quality);其中,ADR为等位基因深度比,DP为片段深度,GQ为基因型质量,MQRankSum为比对质量秩和,QD为质量深度,QUAL为测序质量。
在本发明所述的优化基因组测序结果的分类方法中,所述同源单核苷酸多样性的过滤标准为:ADR>3&&MQRankSum<=-1,MQRankSum>3&&QD>25,DP>2000。
在本发明所述的优化基因组测序结果的分类方法中,所述异源单核苷酸多样性的过滤标准为:ADR>5&&MQRankSum<-2,ADR<0.5&&MQRankSum>3,ADR<0.2&&MQRankSum>0.5,MQRankSum>5&&QD>10,MQRankSum>0&&QD>30,MQRankSum<-9.5&&QD>20,QUAL>4000。
在本发明所述的优化基因组测序结果的分类方法中,所述同源插入缺失变化的过滤标准为:GQ<12。
在本发明所述的优化基因组测序结果的分类方法中,所述同源单核苷酸多样性的过滤标准为:GQ<6。
在本发明所述的优化基因组测序结果的分类方法中,所述多态性记录文本文件是由基因多态性分析软件产生的。
在本发明所述的优化基因组测序结果的分类方法中,所述注解为利用铂金基因组对基因组测序结果所做的真/假阳性的注释。
实施本发明的优化基因组测序结果的分类方法,具有以下有益效果:由于首先根据注解对多态性记录文本文件的内容进行分类,然后对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果,该优化基因组测序结果的分类方法对比传统的过滤方法,其能显著提高基因测序结果的准确率,而对敏感度的影响甚少,能从整体上提高分析结果的可靠性,因此能提高全基因组测序结果的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明优化基因组测序结果的分类方法一个实施例中的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明优化基因组测序结果的分类方法实施例中,该优化基因组测序结果的分类方法的流程图如图1所示。图1中,该优化基因组测序结果的分类方法包括如下步骤:
步骤S01读取输入的多态性记录文本文件:本步骤中,读取输入的多态性记录文本(VCF,Variant Call Format)文件,该多态性记录文本文件是由基因多态性分析软件产生的,例如:GATK。
步骤S02根据注解对多态性记录文本文件的内容进行分类,得到相应的分类信息:本步骤中,根据注解对多态性记录文本文件的内容进行分类,会得到相应的分类信息,具体就是从原始数据中提取四种分类信息,该分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化。值得一提的是,本实施例中,同源单核苷酸多样性用Hom SNV来表示,同源插入缺失变化用Hom INDELs表示,异源单核苷酸多样性用Het SNV表示,异源插入缺失变化用Het INDELs来表示。本步骤中的上述注解,指的是利用铂金基因组对基因组测序结果所做的真/假阳性的注释。
步骤S03对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果:本步骤中,对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,并将符合过滤标准的内容进行保留,最终得到过滤后的结果。
值得一提的是,本实施例中,过滤指标包括ADR、DP、GQ、MQRankSum、QD和QUAL;其中,ADR为等位基因深度比,ADR支持参考基因组碱基的reads数量+1/支持突变的reads数量+1;DP为片段深度,对于DP,reads with MQ=255or with bad mates are filtered;GQ为基因型质量,MQRankSum为比对质量秩和,QD为质量深度,QUAL为测序质量。
步骤S04将过滤后的结果进行汇总并输出:本步骤中,本步骤中,将过滤后的结果进行汇总并输出。本发明在利用铂金基因组注释真/假阳性的帮助下,通过优化基因测序结果的分类方法和基因多态性分析软件,已被证实能大幅度过滤假阳性而只损失少量真阳性,与传统的过滤方法相比,其能显著提高基因测序结果的准确率,而对敏感度的影响甚少,能从整体上提高分析结果的可靠性,因此能大大提高全基因组测序结果的精度。
本实施例中,同源单核苷酸多样性的过滤标准为:ADR>3&&MQRankSum<=-1,MQRankSum>3&&QD>25,DP>2000。也就是将同源单核苷酸多样性中不符合该同源单核苷酸多样性的过滤标准的内容过滤掉,并将符合该同源单核苷酸多样性的过滤标准的内容保留下来。
本实施例中,异源单核苷酸多样性的过滤标准为:ADR>5&&MQRankSum<-2,ADR<0.5&&MQRankSum>3,ADR<0.2&&MQRankSum>0.5,MQRankSum>5&&QD>10,MQRankSum>0&&QD>30,MQRankSum<-9.5&&QD>20,QUAL>4000。也就是将异源单核苷酸多样性中不符合该异源单核苷酸多样性的过滤标准的内容过滤掉,并将符合该异源单核苷酸多样性的过滤标准的内容保留下来。
本实施例中,同源插入缺失变化的过滤标准为:GQ<12。也就是将同源插入缺失变化中不符合该同源插入缺失变化的过滤标准的内容过滤掉,并将符合该同源插入缺失变化的过滤标准的内容保留下来。
本实施例中,同源单核苷酸多样性的过滤标准为:GQ<6。也就是将同源单核苷酸多样性中不符合该同源单核苷酸多样性的过滤标准的内容过滤掉,并将符合该同源单核苷酸多样性的过滤标准的内容保留下来。
总之,本发明在利用铂金基因组注释真/假阳性的帮助下,通过优化基因测序结果的分类方法和基因多态性分析软件,已被证实能大幅度过滤假阳性而只损失少量真阳性,能大大提高全基因组测序结果的精度,对全基因组测序技术的应用拓展有着重大的促进作用。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种优化基因组测序结果的分类方法,其特征在于,包括如下步骤:
A)读取输入的多态性记录文本文件;
B)根据注解对所述多态性记录文本文件的内容进行分类,得到相应的分类信息;所述分类信息包括同源单核苷酸多样性、同源插入缺失变化、异源单核苷酸多样性和异源插入缺失变化;
C)对应不同的分类信息使用不同的过滤指标进行过滤,将不符合过滤标准的内容过滤掉,得到过滤后的结果;
D)将所述过滤后的结果进行汇总并输出。
2.根据权利要求1所述的优化基因组测序结果的分类方法,其特征在于,所述过滤指标包括ADR、DP、GQ、MQRankSum、QD和QUAL;其中,ADR为等位基因深度比,DP为片段深度,GQ为基因型质量,MQRankSum为比对质量秩和,QD为质量深度,QUAL为测序质量。
3.根据权利要求2所述的优化基因组测序结果的分类方法,其特征在于,所述同源单核苷酸多样性的过滤标准为:ADR>3&&MQRankSum<=-1,MQRankSum>3&&QD>25,DP>2000。
4.根据权利要求2或3所述的优化基因组测序结果的分类方法,其特征在于,所述异源单核苷酸多样性的过滤标准为:ADR>5&&MQRankSum<-2,ADR<0.5&&MQRankSum>3,ADR<0.2&&MQRankSum>0.5,MQRankSum>5&&QD>10,MQRankSum>0&&QD>30,MQRankSum<-9.5&&QD>20,QUAL>4000。
5.根据权利要求2或3所述的优化基因组测序结果的分类方法,其特征在于,所述同源插入缺失变化的过滤标准为:GQ<12。
6.根据权利要求2或3所述的优化基因组测序结果的分类方法,其特征在于,所述同源单核苷酸多样性的过滤标准为:GQ<6。
7.根据权利要求1至3任意一项所述的优化基因组测序结果的分类方法,其特征在于,所述多态性记录文本文件是由基因多态性分析软件产生的。
8.根据权利要求1至3任意一项所述的优化基因组测序结果的分类方法,其特征在于,所述注解为利用铂金基因组对基因组测序结果所做的真/假阳性的注释。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810155742.XA CN110211636A (zh) | 2018-02-23 | 2018-02-23 | 优化基因组测序结果的分类方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810155742.XA CN110211636A (zh) | 2018-02-23 | 2018-02-23 | 优化基因组测序结果的分类方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN110211636A true CN110211636A (zh) | 2019-09-06 |
Family
ID=67778963
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201810155742.XA Pending CN110211636A (zh) | 2018-02-23 | 2018-02-23 | 优化基因组测序结果的分类方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN110211636A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113782091A (zh) * | 2021-09-14 | 2021-12-10 | 云南中烟工业有限责任公司 | 一种判断二代测序检测基因编辑结果可信度的方法及应用 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2015112619A1 (en) * | 2014-01-22 | 2015-07-30 | Adam Platt | Methods and systems for detecting genetic mutations |
| CN107077538A (zh) * | 2014-12-10 | 2017-08-18 | 深圳华大基因研究院 | 测序数据处理装置和方法 |
| CN107250356A (zh) * | 2014-12-16 | 2017-10-13 | 加文医学研究所 | 测序对照 |
-
2018
- 2018-02-23 CN CN201810155742.XA patent/CN110211636A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2015112619A1 (en) * | 2014-01-22 | 2015-07-30 | Adam Platt | Methods and systems for detecting genetic mutations |
| CN107077538A (zh) * | 2014-12-10 | 2017-08-18 | 深圳华大基因研究院 | 测序数据处理装置和方法 |
| CN107250356A (zh) * | 2014-12-16 | 2017-10-13 | 加文医学研究所 | 测序对照 |
Non-Patent Citations (1)
| Title |
|---|
| 石浩然: "基于二代测序的转录组数据分析方法的比较研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113782091A (zh) * | 2021-09-14 | 2021-12-10 | 云南中烟工业有限责任公司 | 一种判断二代测序检测基因编辑结果可信度的方法及应用 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Chen et al. | fastp: an ultra-fast all-in-one FASTQ preprocessor | |
| Lefouili et al. | The evaluation of Bcftools mpileup and GATK HaplotypeCaller for variant calling in non-human species | |
| Cooke et al. | A unified haplotype-based method for accurate and comprehensive variant calling | |
| Kuhlwilm et al. | Ancient admixture from an extinct ape lineage into bonobos | |
| Hwang et al. | Systematic comparison of variant calling pipelines using gold standard personal exome variants | |
| Bastida et al. | Molecular diagnosis of inherited coagulation and bleeding disorders | |
| CN106909806B (zh) | 定点检测变异的方法和装置 | |
| Murray et al. | kWIP: The k-mer weighted inner product, a de novo estimator of genetic similarity | |
| CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
| Conrad et al. | Implementation and validation of an automated flow cytometry analysis pipeline for human immune profiling | |
| Wilfert et al. | Genome-wide significance testing of variation from single case exomes | |
| Ramdas et al. | Extended regions of suspected mis-assembly in the rat reference genome | |
| Zheng et al. | A sequence-aware merger of genomic structural variations at population scale | |
| CN101838686A (zh) | 亲缘关系鉴定装置及方法 | |
| English et al. | K-mer analysis of long-read alignment pileups for structural variant genotyping | |
| CN110211636A (zh) | 优化基因组测序结果的分类方法 | |
| Arbatsky et al. | Seurat function argument values in scRNA-seq data analysis: potential pitfalls and refinements for biological interpretation | |
| WO2020211399A1 (zh) | 数据发送方法、装置、设备及存储介质 | |
| CN115394361A (zh) | 用于构建微生物基因组数据库的方法、设备和介质 | |
| Montalbano et al. | Accurate and effective detection of recurrent copy number variants in large SNP genotype datasets | |
| Ji et al. | Machine learning of discriminative gate locations for clinical diagnosis | |
| Filipović | Genomic resources for population analyses of an invasive insect pest Oryctes rhinoceros | |
| CN115662512A (zh) | 基于多重pcr测序中检测点突变的方法、装置、设备和介质 | |
| Kaiser et al. | Automated structural variant verification in human genomes using single-molecule electronic DNA mapping | |
| Yan et al. | SIns: a novel insertion detection approach based on soft-clipped reads |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190906 |
|
| RJ01 | Rejection of invention patent application after publication |