CN110310699A

CN110310699A - 基于全基因组序列挖掘目标基因序列的分析工具及应用

Info

Publication number: CN110310699A
Application number: CN201910586422.4A
Authority: CN
Inventors: 肖宁; 李爱宏; 戴正元; 周长海; 刘广青; 潘存红; 李育红; 吴云雨; 余玲; 王志平; 蔡跃; 黄年生; 季红娟; 张小祥
Original assignee: Jiangsu Lixiahe Prefecture Institute Of Agricultural Science
Current assignee: Jiangsu Lixiahe Prefecture Institute Of Agricultural Science
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-08

Abstract

本发明涉及一种利用Perl语言编写的可供Linux环境下运行的基于全基因组序列挖掘目标基因序列的分析工具进行检测分析的方法及其应用，实现从全基因组水平上，利用多个亲本材料的全基因序列开展目标基因的变异位点、变异类型分析，并获得目标基因在亲本材料中的同源序列。该分析工具及分析方法能够自动完成目标区间搜索、序列比对以及功能变异类型分析工作，不需要其他任何物种基因组注释结果作为参考，具有较高的通用性，并且可以支持2,000个亲本基因组的分析，可广泛应用于作物基因组中的目标基因序列分析，为分子育种提供简便快捷的序列多态性分析工具和策略。

Description

基于全基因组序列挖掘目标基因序列的分析工具及应用

技术领域

本发明涉及一种利用基于全基因组序列挖掘目标基因序列的分析工具创建及运用其进行全基因组序列中目标基因序列的挖掘、分析方法。该方法及其创建的基于全基因组序列挖掘目标基因序列的分析工具EXGE1.0主要应用于作物基因组中的目标基因序列分析。

背景技术

近年来，随着测序技术的不断进步，测序通量越来越高，同时测序成本越来越低，通过基因组测序获得某个材料的基因组序列，并在基因组序列中寻找目标基因的变异类型已成为动植物分子育种改良的基本策略。但是，伴随着样本量的剧增，大量基因组测序的积累，如何在海量数据中快速寻找目标基因的功能基因型以及变异位信息已成限制基因组学育种改良进程的关键因素，传统分析工具在操作大量基因组序列上存在操作步骤繁琐、工作强度高、工作量大的缺点。因此，提供基于全基因组序列的目标基因自动化分析工具是一个有效的方法。

发明内容

本发明所解决的技术问题在于提供一种基于全基因组序列挖掘目标基因序列的分析工具，从全基因组水平上，自动分析目标基因序列的变异类型，不需要其他任何物种基因组注释结果作为参考，具有良好的通用性。

实现本发明目的的技术解决方案为：

一种基于全基因组序列挖掘目标基因序列的分析工具，包括：

参数：-i：目标基因序列文件名称，-g：目标基因组合集的路径文本文件名称，-e：过滤阈值，-d：待检测基因组区间，-o：输出的文件名；命令行1：-g文件格式是每行一个基因组路径；命令行2：-d指定染色体编号和物理位置；命令行3：-i为fasta格式文件，要求存放在待检测基因组的相同文件夹中；使用perl命令，执行EXEG.pl脚本程序，并携带参数-i、-g、-e、-d、-o。

一种利用上述基于全基因组序列挖掘目标基因序列的分析工具的检测分析方法，包括以下步骤：

步骤1：在计算机Linux操作系统下安装bioperl软件包和序列比对软件Blast+软件包；

步骤2：提取样本基因组DNA，并测序、建库，获得样本基因组序列，并将其转换为fasta格式文件，得到样本基因组序列文件；

步骤3：将样本基因组序列的名称按顺序依次写入目标基因组合集的路径文本文件g中，目标基因组合集的路径文本的格式为：每行记录一个样本基因组的路径；设定待检测基因组区间d，待检测基因组区间表示为：染色体编号：物理距离；设置过滤阈值e；

步骤4：将样本基因组序列文件和需要检测的目标基因序列文件i放入同一目标文件夹中，其中，需要检测的目标基因序列文件i为fasta格式文件，同时将权利要求1所述的基于全基因组序列挖掘目标基因序列的分析工具的脚本软件包、目标基因组合集的路径文本文件g也放入到同一目标文件夹中；

步骤5：运行基于全基因组序列挖掘目标基因序列的分析工具，输出目标基因序列在样本基因组中的插入或缺失突变位点信息、SNP突变信息、以及目标基因序列与样本基因组合集中BLAST比对结果；其中，插入或缺失突变位点信息包括目标基因序列中插入或缺失突变的物理位置、所属样本基因组序列的名称、样本基因组序列中插入或缺失突变的物理位置、目标基因序列中的变异类型、样本基因组序列中的变异类型；SNP突变信息包括目标基因序列中SNP突变的物理位置、所属样本基因组序列的名称、样本基因组序列中SNP突变的物理位置、目标基因序列中的SNP碱基类型、样本基因组序列中的碱基变异类型、同义或非同义突变类型；目标基因序列与基因组合集中BLAST比对结果包括目标基因序列在样本基因组中的同源序列。

利用上述检测分析方法在水稻及其它作物的基因组测序后的序列检测分析中的应用。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明从全基因组水平上，自动分析目标基因序列的变异类型，不需要其他任何物种基因组注释结果作为参考，具有良好的通用性，适合普通个人PC电脑使用。

2、本发明可自动完成目标区间搜索、序列比对、功能变异类型的分析工作，全程无需任何人工干预，最终生成的变异类型、比对序列的汇总表，便于用户用于后续分析工作。

3、本发明可以支持2,000个以下完整基因组(每个基因组430Mb)序列的分析，同时提供标准化的输出数据格式，便于用户调用第三方工具对分析数据再处理。

附图说明

图1是样本基因组序列的Fasta格式文件；

图2是目标基因序列的Fasta格式文件；

图3是插入或缺失突变输出结果；

图4是插入或缺失突变输出结果说明；

图5是SNP突变输出结果；

图6是SNP突变输出结果说明；

图7是目标基因序列与基因组合集中BLAST比对结果；

图8是稻瘟病Piz-t抗病基因的CDS序列；

图9是利用基于全基因组序列挖掘目标基因序列的分析工具分析Piz-t抗病基因在测序亲本材料中的变异类型以及抗病表型，A表示Piz-t抗病基因单倍体型以及变异位点，B表示单倍体型与抗病、感病表型的关系。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

参数：-i：目标基因序列文件名称，-g：目标基因组合集的路径文本文件名称，-e：过滤阈值，-d：待检测基因组区间，-o：输出的文件名；

命令行1：-g文件格式是每行一个基因组路径；

命令行2：-d指定染色体编号和物理位置；

命令行3：-i为fasta格式文件，要求存放在待检测基因组的相同文件夹中；

使用perl命令，执行EXEG.pl脚本程序，并携带参数-i、-g、-e、-d、-o。

步骤2：提取样本基因组DNA，并测序、建库，获得样本基因组序列，利用分析工具BWA将测得的每个样本的reads与参考基因组进行比对，生成BAM格式文件，再利用samtools软件将BAM格式文件转换为fasta格式文件得到样本基因组序列文件；

步骤3：将样本基因组序列的名称按顺序依次写入目标基因组合集的路径文本文件g中，目标基因组合集的路径文本的格式为：每行记录一个样本基因组的路径；例如：～/msuv7.fa，2000个基因组就是2000行；

设定待检测基因组区间d，待检测基因组区间表示为：染色体编号：物理距离；例如染色体编号为Chr01，加上物理距离，表示为Chr01:1-1000，要注意命令行中的染色体编号要与待检测样本基因组序列中的编号要一致；

设置过滤阈值e，e默认为10^-10，可根据实际需要调整过滤阀值；

步骤4：将样本基因组序列文件和需要检测的目标基因序列文件i放入同一目标文件夹中，其中，需要检测的目标基因序列文件i为fasta格式文件，

同时将权利要求1所述的基于全基因组序列挖掘目标基因序列的分析工具的脚本软件包、目标基因组合集的路径文本文件g也放入到同一目标文件夹中；

步骤5：运行基于全基因组序列挖掘目标基因序列的分析工具，输出目标基因序列在样本基因组中的插入或缺失突变位点信息、SNP突变信息、以及目标基因序列与样本基因组合集中BLAST比对结果；

其中，插入或缺失突变位点信息包括目标基因序列中插入或缺失突变的物理位置、所属样本基因组序列的名称、样本基因组序列中插入或缺失突变的物理位置、目标基因序列中的变异类型、样本基因组序列中的变异类型；

SNP突变信息包括目标基因序列中SNP突变的物理位置、所属样本基因组序列的名称、样本基因组序列中SNP突变的物理位置、目标基因序列中的SNP碱基类型、样本基因组序列中的碱基变异类型、同义或非同义突变类型；

目标基因序列与基因组合集中BLAST比对结果包括目标基因序列在样本基因组中的同源序列。

上述检测分析方法可运用在水稻及其它作物的基因组测序后的序列检测分析中。实施例1

(一)运行环境要求

硬件配置要求：CPU 4核以上，内存在16G以上，硬盘1000G以上。软件环境要求：linux操作系统(配有5.10以上版本的perl)。

(二)亲本材料中抗病基因的挖掘

1、供试材料

199份高代稳定水稻样本。

2、DNA提取参考Temnykh等(2000年)的DNA提取方法，对各单株分别提取基因组DNA。提取后，基因组测序建库和测序，测序深度为20倍，原始数据中Read超过50％的碱基quality值小于5的或者有接头污染，则予以过滤淘汰。在基因组DNA测序数据的基础上，利用免费分析工具BWA将每个样本获得的reads与参考基因组(IRGSP-1.0)进行比对，获得生成BAM格式文件，使用samtools软件将BAM文件转换为fasta格式的文件。为了提高序列提取的可靠性，质量控制参数设置为:每个位点的mapping质量值大于20、变异质量值大于50，而且每个碱基至少有来自3个以上reads数据支撑。

3、以上获得亲本基因组序列(序列内容如图1)以及需要检测的目标基因序列(如图2)存放在同一个文件夹中。本脚本程序涉及的数据文件格式均为fasta格式的文件，序列描述信息以”>”开头只占一行，其后第一个字段在文件内不能重复。序列说明之后为序列内容，可以分连续多行存储。

本实施例中使用稻瘟病抗性基因Piz-t的基因序列作为目标基因序列，序列内容如图8。

4、在以上文件夹中新建direct.txt文本文件，并在文件输入以上样本基因组的名称，例如～/199_1.fa，一直到～/199_199.fa。

5、目标基因序列文件为Piz-t.fasta，序列内容如图8所示。

6、使用脚本程序EXGE.pl，命令行为perl EXGE.pl -i Piz-t.fa -g direct.txt-e -10 -d Chr06_consensus:10,000,00-12,000,000 -o Piz-t_result，脚本程序包见源代码。

7、完成脚本运行后，输出结果有三个文件，包括目标基因序列在对应基因组中的SNP变异(如图5)、Indel插入缺失变异位点信息(如图3)、以及BLAST比对结果(如图7)，SNP变异的结果说明如图6所示，插入缺失变异位点的结果说明如图4所示。图7中的BLAST比对结果中，>199_17_Chr11_consensus_27982787-27983057表示的是样本‘199_17’的第11号染色体的27982787至27983057区间的序列与目标基因存在高度同源；POS：表示目标基因序列的第94至第364区间与样本基因组的序列同源程度达100％。

8、根据以上抗病基因Piz-t在亲本材料中的插入、缺失以及非同义替换类型将变异类型分为13种单倍体型(命名为Hap1～Hap13)，其中Hap1类型与抗病型的Piz-t序列100％一致，如图9A所示，NO.表示具有该单倍体型的亲本材料数目，‘-’表示该位点缺失1个bp的碱基，‘--’表示该位点缺失2个bp的碱基。利用稻瘟病病菌‘83-14’鉴定以上13种Hap类型的亲本材料稻瘟病抗性，如图9B所示，R：抗病表型；S：感病表型，其中，Hap1类型的水稻叶瘟表现抗病，而其他类型Hap2～Hap13则表现出感病。因此，利用EXGE1.0脚本程序从亲本材料中鉴定出抗病基因型，其结果和接菌的表型一致。

基于全基因组序列挖掘目标基因序列的分析工具的源代码如下：

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些改进应视为本发明的保护范围。

Claims

1.一种基于全基因组序列挖掘目标基因序列的分析工具，其特征在于，包括：

命令行1：-g文件格式是每行一个基因组路径；

命令行2：-d指定染色体编号和物理位置；

2.一种利用权利要求1所述的基于全基因组序列挖掘目标基因序列的分析工具的检测分析方法，其特征在于，包括以下步骤：

步骤3：将样本基因组序列的名称按顺序依次写入目标基因组合集的路径文本文件g中，目标基因组合集的路径文本的格式为：每行记录一个样本基因组的路径；

设定待检测基因组区间d，待检测基因组区间表示为：染色体编号：物理距离；

设置过滤阈值e；

3.根据权利要求2所述的基于全基因组序列挖掘目标基因序列的分析工具的检测分析方法，其特征在于，步骤2中将样本基因组序列转换生成fasta格式文件具体为：利用分析工具BWA将测得的每个样本的reads与参考基因组进行比对，生成BAM格式文件，再利用samtools软件将BAM格式文件转换为fasta格式文件。

4.根据权利要求2所述的基于全基因组序列挖掘目标基因序列的分析工具的检测分析方法，其特征在于，过滤阈值e为10^-10。

5.利用基于全基因组序列挖掘目标基因序列的分析工具的检测分析方法在水稻及其它作物的基因组测序后的序列检测分析中的应用。