CN115216557A

CN115216557A - 小麦超高密度snp芯片制备方法及应用

Info

Publication number: CN115216557A
Application number: CN202210846672.9A
Authority: CN
Inventors: 陈锋; 孙丛苇; 任妍; 张宁; 赵磊; 董中东; 阳霞
Original assignee: Henan Agricultural University
Current assignee: Henan Agricultural University
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-21
Also published as: NL2033442B1

Abstract

本发明属于植物功能基因组学、群体遗传学及分子育种领域，具体涉及基于小麦泛基因组的超高密度SNP芯片制备方法及应用。本发明基于小麦泛基因组信息，使用大规模小麦自然群体的重测序数据及外显子捕获测序数据进行变异分析获得超大规模的全基因组变异信息；过滤筛选获得高质量的、具有群体及个体代表性的SNP及INDEL位点，结合基因组注释及变异注释进行多态性位点区段的确定，最终在泛基因组水平合成超高密度液相探针。由于本发明方法只针对于基因目标区域进行测序，在同样的基因测序深度情况下，减少了90%以上的测序成本。

Description

小麦超高密度SNP芯片制备方法及应用

技术领域

本发明属于植物功能基因组学、群体遗传学及分子育种领域，具体涉及基于小麦泛基因组的超高密度SNP芯片制备方法及应用。

背景技术

高密度的单核苷酸多态性（SNP）标记已广泛应用于分子标记辅助选择、回交育种及其背景选择、多基因聚合育种、全基因组关联分析、QTL定位、全基因组选择、物种进化分析、种质资源鉴定等方面。

目前，全基因组范围内的变异基因型获取主要通过重测序和定制基因芯片。然而，小麦基因组庞大（16GB），通过全基因组或简化基因组测序方法获取变异信息成本太高，位点缺失严重，测序数据量相对较大，对数据储存、分析计算的软硬件要求高。变异位点的检测质量严重依赖于参考基因组的质量。其次，现有小麦转录组测序BSR-seq基于基因表达数据，受样本组织、样本时期、环境等因素影响，有较大的数据偏好，基因表达数据本身不是遗传信息，具有一定的假阳性。

SNP芯片则在样品和检测位点的制备方面更加灵活，与测序相比有更高的检出率和稳定性。目前，小麦分子育种领域已经开发出了多款芯片以表征受试材料的变异信息，包括小麦Illumina Wheat 90K iSelect SNP genotyping array (90K)、Axiom® Wheat660K SNP array (660K)、Wheat 55K SNP array (55K)、Axiom® HD Wheat genotyping(820K) array (820K)、Wheat 50K Triticum TraitBreed array(50K)等芯片，基于以上芯片在小麦分子育种领域已取得重要研究进展，但也存在如下缺点：

首先，以上芯片的制备需要使用专门的配套检测设备，并采用特定的分析软件分析基因型结果，使用限制条件多，不方便；其次，目前芯片的探针多位于变异信息较多的染色体重复区域等非基因编码区域，而对于基因分布较多的染色体区域，标记分布较少；再次，目前的芯片对功能基因覆盖度不高，多位于基因非编码区间。

发明内容

本发明的目的在于提供一种用于小麦的超高密度SNP芯片制备方法，用于解决现有芯片的设计探针在基因编码区覆盖度较低的问题，以及小麦基因组庞大导致使用全基因测序手段获得基因信息成本高昂的问题。由于只针对于基因目标区域进行测序，在同样的基因测序深度情况下，减少了90%以上的测序成本。

本发明的第一方面：

提供一种用于小麦的超高密度SNP芯片制备方法：

基于泛基因组信息，使用大规模自然群体的重测序数据及外显子捕获测序数据进行变异分析，获得大规模的全基因组变异信息；过滤筛选获得高质量的、具有群体及个体代表性的SNP及INDEL位点，结合基因组注释及变异注释进行多态性位点区段的确定，最终在泛基因组水平合成超高密度液相探针。具体实现如下：

步骤一：基于中国春参考基因组，使用小麦自然群体重测序数据及外显子捕获测序数据进行变异分析。

参考Broad Institute 开发的GATK软件(https://gatk.broadinstitute.org/hc/en-us)中的推荐流程Best Practices for Germline SNP & Indel Discovery inWhole Genome and Exome Sequence，对过滤后的小麦自然群体重测序数据及外显子捕获测序数据进行参考基因组的比对分析及变异位点筛选和过滤。具体包括采用BWA软件将测序数据比对到中国春参考基因组，采用Picard软件去除重复序列、重新进行Indel区域的比对和基线校正等过程，采用GATK软件进行群体变异位点筛选（VariantsCalling），并采用Picard 软件进行过滤。

上述中国春参考基因组包括中国春1.1版本参考基因和中国春2.1版本参考基因。

步骤二：将步骤一中未能比对到中国春参考基因组的reads及比对到中国春参考基因组的低质量reads提取出来，使用多个其他小麦参考基因组，例如小麦10+基因组和fielder基因组（Sato K, Abe F, Mascher M, et al. Chromosome-scale genomeassembly of the transformation-amenable common wheat cultivar ‘Fielder’[J].DNA Research, 2021, 28(3): dsab008.）等再次进行比对分析及变异及变异位点筛选和过滤，小麦10+基因组包括ArinaLrFor_v3、Cadenza_v1、CDC_Landmark_v1、CDC_Stanley_v1、Claire_v1、Jagger_v1、Julius_v1、LongReach_Lancer_v1、Mace_v1、Norin61_v1、SY_Mattis_v1、PI190962_v1（Walkowiak S, Gao L, Monat C, et al. Multiple wheatgenomes reveal global variation in modern breeding[J]. Nature, 2020, 588(7837): 277-283.）。在多个不同参考基因组中重复进行步骤二。本发明步骤一中的中国春参考基因组和步骤二中的小麦10+基因组、fielder基因组形成了小麦泛基因组。本步骤中，提取未能比对到中国春参考基因组的reads是为了将其与多个其他小麦基因组进行比对，筛选过滤变异位点；提取比对到中国春参考基因组的低质量reads是为了对变异位点进行评价。

上述变异位点包括SNP位点及INDEL位点。

步骤三：构建泛基因组SNP注释数据库，采用snpEffv4.3 (Cingolani P, PlattsA, Wang L L, et al. A program for annotating and predicting the effects ofsingle nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophilamelanogaster strain w1118; iso-2; iso-3[J]. Fly, 2012, 6(2): 80-92.)软件对变异位点进行功能注释。

步骤四：对基因上下游2K范围内的SNP/Indel进行位点筛选，优先级别为：CDS区域内的SNP/Indel>CDS上下游1K内的SNP/Indel>CDS上下游2K内的SNP/Indel。

步骤五：针对步骤四中筛选的SNP/Indel位点所覆盖的区域设计探针序列并合成。

本发明第二方面：

基于上述小麦超高密度SNP芯片制备方法，设计得到了800000个探针，通过测序区间融合，最终获得了包括基于中国春2.1版本参考基因组(https://www.wheatgenome.org/Resources/Sequences/RefSeq-v2.1-Assembly-and-Annotation-now-freely-available-at-URGI-and-NCBI）和注释文件的706,912个探针区域、中国春1.1版本(https://www.wheatgenome.org/Resources/Sequences/All-IWGSC-data-related-to-IWGSC-RefSeq-v1.0-publicly-available-at-URGI）的1,096,869探针区域；其中基于中国春2.1版本参考基因组的702503个（99.3763%）探针区域为120bp的测序区间，剩余的4409个探针区域为小于120bp的测序区间，以上区间内的变异位点均可通过测序获得。

本发明的第三方面：

公开了上述制备的小麦800K基因芯片在小麦基因型分析和/或基因定位中的应用。

本发明具有以下有益效果：

（1）本发明获得了超高密度的小麦SNP芯片；和其他小麦芯片相比，尤其是目前小麦育种领域应用最为广泛、基因检测效果较好的小麦660KSNP芯片比较，本发明芯片有更高的SNP密度和更好的基因检测效果。

（2）在同样的基因测序深度情况下，减少了90%以上的测序成本。

附图说明

图1为本发明小麦超高密度SNP芯片制备流程图；

图2为本发明小麦超高密度SNP芯片在基因组上的覆盖情况图；

图3为本发明小麦超高密度SNP芯片和小麦660K芯片密度比较图；

图4 为采用本发明小麦超高密度SNP芯片进行的小麦株高全基因组关联分析的曼哈顿图。

具体实施方式

下面通过具体实施方式对本发明进行更加详细的说明，以便于对本发明技术方案的理解，但并不用于对本发明保护范围的限制。

实施例中的变异数据来源：652份小麦重测序数据来自(Hao C, Jiao C, Hou J,et al. Resequencing of 145 landmark cultivars reveals asymmetric sub-genomeselection and strong founder genotype effects on wheat breeding in China[J].Molecular plant, 2020, 13(12): 1733-1751(145份); Zhou Y, Zhao X, Li Y, et al.Triticum population sequencing provides insights into wheat adaptation[J].Nature genetics, 2020, 52(12): 1412-1422(414份); Cheng H, Liu J, Wen J, etal. Frequent intra-and inter-species introgression shapes the landscape ofgenetic variation in bread wheat[J]. Genome biology, 2019, 20(1): 1-16(93份);1390份小麦外显子来自(Pont C, Leroy T, Seidel M, et al. Tracing the ancestryof modern bread wheats[J]. Nature genetics, 2019, 51(5): 905-911(500份); HeF, Pasam R, Shi F, et al. Exome sequencing highlights the role of wild-relative introgression in shaping the adaptive landscape of the wheat genome[J]. Nature Genetics, 2019, 51(5): 896-904(890份); 测序数据、测序样本覆盖国内主要品种、骨干亲本、农家种、国外主要品种、育种材料等资源材料，去除冗余部分，所有数据均为二代测序数据。

实施例1

小麦800K基因芯片探针制备方法，包括如下步骤：

S1、基于中国春参考基因组，使用652份小麦自然群体重测序数据及1390份外显子捕获测序数据进行变异分析，其中重测序和外显子捕获测序的原始数据过滤使用FASTP软件（Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu, fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics, 2018, 34(17), i884–i890）的默认参数进行。

本步骤具体采用Broad Institute 开发的GATK软件(https://gatk.broadinstitute.org/hc/en-us）中的推荐流程Best Practices for Germline SNP& Indel Discovery in Whole Genome and Exome Sequence，对过滤后的小麦自然材料重测序及外显子捕获测序数据进行参考基因组的比对分析。流程如下：

（1）小麦自然群体的重测序数据及外显子捕获测序数据文件分割

由于GATK软件不兼容长度超过512M的染色体基因组文件，比对分析开始之前需要对小麦自然群体的重测序数据及外显子捕获测序数据进行分割。分割的原则是分割点不在基因附近，最好是在重复序列集中的着丝粒附近或者基因组大量“N”出现的区域。分割点选择在基因组大量“N”出现的区域时，使用seqtk (https://github.com/lh3/seqtk)进行全基因组的“N”区域扫描与筛选，结合RepeatMask标记的区域选择分割位点。为进一步加速流程，本实施例选择分割点在基因组大量“N”出现的区域。对于分割后的重测序及外显子捕获测序数据，提供target进行指定区域的输出，得到分割后基因组fasta文件。

（2）Map to reference：将测序数据比对到中国春参考基因组

采用BWA软件（https://github.com/lh3/bwa）的默认参数将过滤后的小麦自然材料重测序及外显子捕获测序数据与中国春1.1版本参考基因和中国春2.1版本参考基因组进行DNA比对，得到bam文件。

（3）Mark Duplicates：去除重复序列

采用Picard软件（https://broadinstitute.github.io/picard/）软件默认参数去除PCR重复序列，得到PCR free的bam文件。

（4）Realign Indels：重新比对

采用Picard软件默认参数重新进行Indel区域的比对，得到score文件。

（5）Recalibrate Base：基线校正

采用Picard软件默认参数进行基线校正，得到校正后bam文件。

（6）采用GATK软件进行群体变异位点挖掘（VariantsCalling），并进行过滤：

①Call Variants：挖掘变异位点

采用GATK软件的haplotypecaller进行Call Variants，标准为MQ>=50 && BQ>=20，得到GVCF文件。

MQ为reads比对到参考基因组的打分，最高为60。

BQ 为测序reads的质量打分。

②VCF Quality filter：质控

采用Picard 软件进行VCF Quality filter，标准为QUAL>=100 || DP>=5，得到hp.vcf.gz文件。

经过上述GATK软件筛选和Picard 软件过滤后得到的SNP及INDEL位点即为高质量的SNP及INDEL位点。

S2、将S1中未能mapping到中国春参考基因组的reads及低质量mapping reads（MQ<10）提取出来，使用其他小麦参考基因组，例如小麦10+基因组，包括ArinaLrFor_v3、Cadenza_v1、CDC_Landmark_v1、CDC_Stanley_v1、Claire_v1、Jagger_v1、Julius_v1、LongReach_Lancer_v1、Mace_v1、Norin61_v1、SY_Mattis_v1、PI190962_v1（Walkowiak S,Gao L, Monat C, et al. Multiple wheat genomes reveal global variation inmodern breeding[J]. Nature, 2020, 588(7837): 277-283.）；以及fielder基因组（SatoK, Abe F, Mascher M, et al. Chromosome-scale genome assembly of thetransformation-amenable common wheat cultivar ‘Fielder’[J]. DNA Research,2021, 28(3): dsab008.）再次进行序列比对分析及变异位点筛选和过滤。在这13个基因组中重复进行该步骤，得到uni.vcf.gz文件。

S3、构建中国春及泛基因组SNP注释数据库，采用snpEffv4.3 (Cingolani P,Platts A, Wang L L, et al. A program for annotating and predicting theeffects of single nucleotide polymorphisms, SnpEff: SNPs in the genome ofDrosophila melanogaster strain w1118; iso-2; iso-3[J]. Fly, 2012, 6(2): 80-92.)软件对变异位点进行功能注释，得到ann.vcf.gz文件。

S4、对基因上下游2K范围内的SNP/Indel进行位点筛选，优先级别为：CDS区域内的SNP/Indel>CDS上下游1K内的SNP/Indel>CDS上下游2K内的SNP/Indel。最终筛选到中国春2.1版本参考基因组1738820个变异位点的706,912探针区域；中国春1.1版本参考基因组5041140个变异位点的1,096,869探针区域；其他基因组196,943个HC探针区域，得到targets.bed文件。

S5、将S4中筛选的的SNP/Indel位点所覆盖的区域进行高密度探针设计与合成，即可获得用于小麦外显子测序基因定位的探针，即超高密度SNP芯片——小麦800K芯片。

需要说明的是：

（1）采用标准变异分析流程，对中国春参考基因组或其他基因组进行变异分析，首次分析可先按照MQ>=30标准进行。

（2）中国春参考基因组变异位点过滤，在群体中过滤：MF>0.005&MISSING<=0.3。

（3）其他参考基因组变异位点过滤，在群体中过滤：MF>0.001。

实施例2

用实施例1制备的800K芯片对黄淮麦区小麦种质资源材料扫描获得基因型，进行群体分析及基因定位分析：

（1）选择供试材料

为获取广泛遗传变异信息，根据品种的遗传背景、亲缘关系、审定年代、种植面积、农艺性状表现等特性选择了131份（ZZ1～ZZ131）黄淮麦区重要的遗传资源材料，具体材料信息见（Sun C, Zhang F, Yan X, et al. Genome‐wide association study for 13agronomic traits reveals distribution of superior alleles in bread wheat fromthe Yellow and Huai Valley of China[J]. Plant biotechnology journal, 2017, 15(8): 953-969.）。

（2）检测基因型

以实施例1获得的中国春2.1版本参考基因组的706,912个探针区域检测131份遗传资源材料的变异位点，每1MB区间变异位点在染色体上的分布密度见图2。

（3）超高密度SNP芯片与小麦660K芯片比较

小麦660K芯片是目前小麦育种领域应用最为广泛的小麦SNP芯片，实施例1获得的超高密度SNP芯片和小麦660K芯片密度比较见图3。由图3可以得出，实施例1制备的小麦800K芯片的探针密度明显高于660K芯片。

（4）高密度探针在基因定位中的应用

调查实施例2中131份供试材料的株高表型，利用检测的基因型信息进行全基因关联分析，挖掘调控株高的重要遗传位点，图4为131份供试材料的株高的曼哈顿图。其中在2B、3B、7D等染色体检测到与目标性状（株高）显著关联的SNP位点。

以上所述之实施例，只是本发明的较佳实施例而已，并非限制本发明的实施范围，故凡依本发明专利范围所述的构造、特征及原理所做的等效变化或修饰，均应包括于本发明申请专利范围内。

Claims

1.一种用于小麦的超高密度SNP芯片制备方法，其特征在于，基于小麦泛基因组信息，使用小麦自然群体的重测序数据及外显子捕获测序数据进行变异分析获得小麦全基因组变异信息；过滤筛选获得高质量的、具有群体及个体代表性的SNP及INDEL位点，结合基因组注释及变异注释进行多态性位点区段的确定，最终在泛基因组水平合成超高密度液相探针。

2.根据权利要求1所述的一种用于小麦的超高密度SNP芯片制备方法，其特征在于，包括以下步骤：

步骤一：基于中国春参考基因组，使用小麦自然群体重测序数据及外显子捕获测序数据进行参考基因组的比对分析及变异位点筛选和过滤；

步骤二：将步骤一中未能比对到中国春参考基因组的reads及比对到中国春参考基因组的低质量reads提取出来，使用多个其他小麦参考基因组，再次进行比对分析及变异位点筛选和过滤；

步骤三：构建泛基因组SNP注释数据库，对变异位点进行功能注释；

步骤四：对基因上下游2K范围内的SNP/Indel进行位点筛选；

3.根据权利要求2所述的一种用于小麦的超高密度SNP芯片制备方法，其特征在于，在步骤一之前，先对小麦自然群体的重测序数据及外显子捕获测序数据文件进行分割。

4.根据权利要求3所述的一种用于小麦的超高密度SNP芯片制备方法，其特征在于，对小麦自然群体的重测序数据及外显子捕获测序数据文件进行分割时，分割点不在基因附近，是在重复序列集中的着丝粒附近或者基因组大量“N”出现的区域。

5.根据权利要求2所述的一种用于小麦的超高密度SNP芯片制备方法，其特征在于，步骤一具体包括：采用BWA软件将小麦自然群体的重测序数据及外显子捕获测序数据比对到中国春参考基因组，并去除重复序列、重新进行Indel区域的比对和基线校正，然后变异位点筛选和过滤。

6.根据权利要求5所述的一种用于小麦的超高密度SNP芯片制备方法，其特征在于，所述中国春参考基因组包括中国春1.1版本参考基因和中国春2.1版本参考基因组。

7.根据权利要求2所述的一种用于小麦的超高密度SNP芯片制备方法，其特征在于，步骤二中所述多个其他小麦参考基因组和中国春参考基因组组成泛基因组，所述多个其他小麦参考基因组包括ArinaLrFor_v3、Cadenza_v1、CDC_Landmark_v1、CDC_Stanley_v1、Claire_v1、Jagger_v1、Julius_v1、LongReach_Lancer_v1、Mace_v1、Norin61_v1、SY_Mattis_v1、PI190962_v1和fielder基因组。

8.根据权利要求2所述的一种用于小麦的超高密度SNP芯片制备方法，其特征在于，步骤四中位点筛选的优先级别为：CDS区域内的SNP/Indel>CDS上下游1K内的SNP/Indel>CDS上下游2K内的SNP/Indel。

9.采用权利要求1～8任一项所述制备方法得到的小麦超高密度SNP芯片，所述小麦超高密度SNP芯片为小麦800K芯片。

10.权利要求9所述的小麦超高密度SNP芯片在小麦基因型分析和/或基因定位中的应用。