CN115216557A - 小麦超高密度snp芯片制备方法及应用 - Google Patents
小麦超高密度snp芯片制备方法及应用 Download PDFInfo
- Publication number
- CN115216557A CN115216557A CN202210846672.9A CN202210846672A CN115216557A CN 115216557 A CN115216557 A CN 115216557A CN 202210846672 A CN202210846672 A CN 202210846672A CN 115216557 A CN115216557 A CN 115216557A
- Authority
- CN
- China
- Prior art keywords
- wheat
- genome
- snp
- ultra
- high density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000209140 Triticum Species 0.000 title claims abstract description 81
- 235000021307 Triticum Nutrition 0.000 title claims abstract description 80
- 238000002360 preparation method Methods 0.000 title claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 43
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 26
- 239000000523 sample Substances 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 9
- 239000007791 liquid phase Substances 0.000 claims abstract description 3
- 230000002194 synthesizing effect Effects 0.000 claims abstract 3
- 238000011144 upstream manufacturing Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 2
- 210000002230 centromere Anatomy 0.000 claims description 2
- 235000009421 Myristica fragrans Nutrition 0.000 claims 1
- 238000010835 comparative analysis Methods 0.000 claims 1
- 239000001115 mace Substances 0.000 claims 1
- 238000009395 breeding Methods 0.000 abstract description 12
- 230000001488 breeding effect Effects 0.000 abstract description 12
- 241000196324 Embryophyta Species 0.000 abstract description 8
- 239000000463 material Substances 0.000 description 9
- 230000002068 genetic effect Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 244000098338 Triticum aestivum Species 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000002493 microarray Methods 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000255601 Drosophila melanogaster Species 0.000 description 2
- 238000003339 best practice Methods 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007614 genetic variation Effects 0.000 description 2
- 238000003205 genotyping method Methods 0.000 description 2
- 210000004602 germ cell Anatomy 0.000 description 2
- 239000005445 natural material Substances 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000009418 agronomic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/6895—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6834—Enzymatic or biochemical coupling of nucleic acids to a solid phase
- C12Q1/6837—Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/13—Plant traits
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/166—Oligonucleotides used as internal standards, controls or normalisation probes
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Botany (AREA)
- Mycology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于植物功能基因组学、群体遗传学及分子育种领域,具体涉及基于小麦泛基因组的超高密度SNP芯片制备方法及应用。本发明基于小麦泛基因组信息,使用大规模小麦自然群体的重测序数据及外显子捕获测序数据进行变异分析获得超大规模的全基因组变异信息;过滤筛选获得高质量的、具有群体及个体代表性的SNP及INDEL位点,结合基因组注释及变异注释进行多态性位点区段的确定,最终在泛基因组水平合成超高密度液相探针。由于本发明方法只针对于基因目标区域进行测序,在同样的基因测序深度情况下,减少了90%以上的测序成本。
Description
技术领域
本发明属于植物功能基因组学、群体遗传学及分子育种领域,具体涉及基于小麦泛基因组的超高密度SNP芯片制备方法及应用。
背景技术
高密度的单核苷酸多态性(SNP)标记已广泛应用于分子标记辅助选择、回交育种及其背景选择、多基因聚合育种、全基因组关联分析、QTL定位、全基因组选择、物种进化分析、种质资源鉴定等方面。
目前,全基因组范围内的变异基因型获取主要通过重测序和定制基因芯片。然而,小麦基因组庞大(16GB),通过全基因组或简化基因组测序方法获取变异信息成本太高,位点缺失严重,测序数据量相对较大,对数据储存、分析计算的软硬件要求高。变异位点的检测质量严重依赖于参考基因组的质量。其次,现有小麦转录组测序BSR-seq基于基因表达数据,受样本组织、样本时期、环境等因素影响,有较大的数据偏好,基因表达数据本身不是遗传信息,具有一定的假阳性。
SNP芯片则在样品和检测位点的制备方面更加灵活,与测序相比有更高的检出率和稳定性。目前,小麦分子育种领域已经开发出了多款芯片以表征受试材料的变异信息,包括小麦Illumina Wheat 90K iSelect SNP genotyping array (90K)、Axiom® Wheat660K SNP array (660K)、Wheat 55K SNP array (55K)、Axiom® HD Wheat genotyping(820K) array (820K)、Wheat 50K Triticum TraitBreed array(50K)等芯片,基于以上芯片在小麦分子育种领域已取得重要研究进展,但也存在如下缺点:
首先,以上芯片的制备需要使用专门的配套检测设备,并采用特定的分析软件分析基因型结果,使用限制条件多,不方便;其次,目前芯片的探针多位于变异信息较多的染色体重复区域等非基因编码区域,而对于基因分布较多的染色体区域,标记分布较少;再次,目前的芯片对功能基因覆盖度不高,多位于基因非编码区间。
发明内容
本发明的目的在于提供一种用于小麦的超高密度SNP芯片制备方法,用于解决现有芯片的设计探针在基因编码区覆盖度较低的问题,以及小麦基因组庞大导致使用全基因测序手段获得基因信息成本高昂的问题。由于只针对于基因目标区域进行测序,在同样的基因测序深度情况下,减少了90%以上的测序成本。
本发明的第一方面:
提供一种用于小麦的超高密度SNP芯片制备方法:
基于泛基因组信息,使用大规模自然群体的重测序数据及外显子捕获测序数据进行变异分析,获得大规模的全基因组变异信息;过滤筛选获得高质量的、具有群体及个体代表性的SNP及INDEL位点,结合基因组注释及变异注释进行多态性位点区段的确定,最终在泛基因组水平合成超高密度液相探针。具体实现如下:
步骤一:基于中国春参考基因组,使用小麦自然群体重测序数据及外显子捕获测序数据进行变异分析。
参考Broad Institute 开发的GATK软件(https://gatk.broadinstitute.org/hc/en-us)中的推荐流程Best Practices for Germline SNP & Indel Discovery inWhole Genome and Exome Sequence,对过滤后的小麦自然群体重测序数据及外显子捕获测序数据进行参考基因组的比对分析及变异位点筛选和过滤。具体包括采用BWA软件将测序数据比对到中国春参考基因组,采用Picard软件去除重复序列、重新进行Indel区域的比对和基线校正等过程,采用GATK软件进行群体变异位点筛选(VariantsCalling),并采用Picard 软件进行过滤。
上述中国春参考基因组包括中国春1.1版本参考基因和中国春2.1版本参考基因。
步骤二:将步骤一中未能比对到中国春参考基因组的reads及比对到中国春参考基因组的低质量reads提取出来,使用多个其他小麦参考基因组,例如小麦10+基因组和fielder基因组(Sato K, Abe F, Mascher M, et al. Chromosome-scale genomeassembly of the transformation-amenable common wheat cultivar ‘Fielder’[J].DNA Research, 2021, 28(3): dsab008.)等再次进行比对分析及变异及变异位点筛选和过滤,小麦10+基因组包括ArinaLrFor_v3、Cadenza_v1、CDC_Landmark_v1、CDC_Stanley_v1、Claire_v1、Jagger_v1、Julius_v1、LongReach_Lancer_v1、Mace_v1、Norin61_v1、SY_Mattis_v1、PI190962_v1(Walkowiak S, Gao L, Monat C, et al. Multiple wheatgenomes reveal global variation in modern breeding[J]. Nature, 2020, 588(7837): 277-283.)。在多个不同参考基因组中重复进行步骤二。本发明步骤一中的中国春参考基因组和步骤二中的小麦10+基因组、fielder基因组形成了小麦泛基因组。本步骤中,提取未能比对到中国春参考基因组的reads是为了将其与多个其他小麦基因组进行比对,筛选过滤变异位点;提取比对到中国春参考基因组的低质量reads是为了对变异位点进行评价。
上述变异位点包括SNP位点及INDEL位点。
步骤三:构建泛基因组SNP注释数据库,采用snpEffv4.3 (Cingolani P, PlattsA, Wang L L, et al. A program for annotating and predicting the effects ofsingle nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophilamelanogaster strain w1118; iso-2; iso-3[J]. Fly, 2012, 6(2): 80-92.)软件对变异位点进行功能注释。
步骤四:对基因上下游2K范围内的SNP/Indel进行位点筛选,优先级别为:CDS区域内的SNP/Indel>CDS上下游1K内的SNP/Indel>CDS上下游2K内的SNP/Indel。
步骤五:针对步骤四中筛选的SNP/Indel位点所覆盖的区域设计探针序列并合成。
本发明第二方面:
基于上述小麦超高密度SNP芯片制备方法,设计得到了800000个探针,通过测序区间融合,最终获得了包括基于中国春2.1版本参考基因组(https://www.wheatgenome.org/Resources/Sequences/RefSeq-v2.1-Assembly-and-Annotation-now-freely-available-at-URGI-and-NCBI)和注释文件的706,912个探针区域、中国春1.1版本(https://www.wheatgenome.org/Resources/Sequences/All-IWGSC-data-related-to-IWGSC-RefSeq-v1.0-publicly-available-at-URGI)的1,096,869探针区域;其中基于中国春2.1版本参考基因组的702503个(99.3763%)探针区域为120bp的测序区间,剩余的4409个探针区域为小于120bp的测序区间,以上区间内的变异位点均可通过测序获得。
本发明的第三方面:
公开了上述制备的小麦800K基因芯片在小麦基因型分析和/或基因定位中的应用。
本发明具有以下有益效果:
(1)本发明获得了超高密度的小麦SNP芯片;和其他小麦芯片相比,尤其是目前小麦育种领域应用最为广泛、基因检测效果较好的小麦660KSNP芯片比较,本发明芯片有更高的SNP密度和更好的基因检测效果。
(2)在同样的基因测序深度情况下,减少了90%以上的测序成本。
附图说明
图1为本发明小麦超高密度SNP芯片制备流程图;
图2为本发明小麦超高密度SNP芯片在基因组上的覆盖情况图;
图3为本发明小麦超高密度SNP芯片和小麦660K芯片密度比较图;
图4 为采用本发明小麦超高密度SNP芯片进行的小麦株高全基因组关联分析的曼哈顿图。
具体实施方式
下面通过具体实施方式对本发明进行更加详细的说明,以便于对本发明技术方案的理解,但并不用于对本发明保护范围的限制。
实施例中的变异数据来源:652份小麦重测序数据来自(Hao C, Jiao C, Hou J,et al. Resequencing of 145 landmark cultivars reveals asymmetric sub-genomeselection and strong founder genotype effects on wheat breeding in China[J].Molecular plant, 2020, 13(12): 1733-1751(145份); Zhou Y, Zhao X, Li Y, et al.Triticum population sequencing provides insights into wheat adaptation[J].Nature genetics, 2020, 52(12): 1412-1422(414份); Cheng H, Liu J, Wen J, etal. Frequent intra-and inter-species introgression shapes the landscape ofgenetic variation in bread wheat[J]. Genome biology, 2019, 20(1): 1-16(93份);1390份小麦外显子来自(Pont C, Leroy T, Seidel M, et al. Tracing the ancestryof modern bread wheats[J]. Nature genetics, 2019, 51(5): 905-911(500份); HeF, Pasam R, Shi F, et al. Exome sequencing highlights the role of wild-relative introgression in shaping the adaptive landscape of the wheat genome[J]. Nature Genetics, 2019, 51(5): 896-904(890份); 测序数据、测序样本覆盖国内主要品种、骨干亲本、农家种、国外主要品种、育种材料等资源材料,去除冗余部分,所有数据均为二代测序数据。
实施例1
小麦800K基因芯片探针制备方法,包括如下步骤:
S1、基于中国春参考基因组,使用652份小麦自然群体重测序数据及1390份外显子捕获测序数据进行变异分析,其中重测序和外显子捕获测序的原始数据过滤使用FASTP软件(Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu, fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics, 2018, 34(17), i884–i890)的默认参数进行。
本步骤具体采用Broad Institute 开发的GATK软件(https://gatk.broadinstitute.org/hc/en-us)中的推荐流程Best Practices for Germline SNP& Indel Discovery in Whole Genome and Exome Sequence,对过滤后的小麦自然材料重测序及外显子捕获测序数据进行参考基因组的比对分析。流程如下:
(1)小麦自然群体的重测序数据及外显子捕获测序数据文件分割
由于GATK软件不兼容长度超过512M的染色体基因组文件,比对分析开始之前需要对小麦自然群体的重测序数据及外显子捕获测序数据进行分割。分割的原则是分割点不在基因附近,最好是在重复序列集中的着丝粒附近或者基因组大量“N”出现的区域。分割点选择在基因组大量“N”出现的区域时,使用seqtk (https://github.com/lh3/seqtk)进行全基因组的“N”区域扫描与筛选,结合RepeatMask标记的区域选择分割位点。为进一步加速流程,本实施例选择分割点在基因组大量“N”出现的区域。对于分割后的重测序及外显子捕获测序数据,提供target进行指定区域的输出,得到分割后基因组fasta文件。
(2)Map to reference:将测序数据比对到中国春参考基因组
采用BWA软件(https://github.com/lh3/bwa)的默认参数将过滤后的小麦自然材料重测序及外显子捕获测序数据与中国春1.1版本参考基因和中国春2.1版本参考基因组进行DNA比对,得到bam文件。
(3)Mark Duplicates:去除重复序列
采用Picard软件(https://broadinstitute.github.io/picard/)软件默认参数去除PCR重复序列,得到PCR free的bam文件。
(4)Realign Indels:重新比对
采用Picard软件默认参数重新进行Indel区域的比对,得到score文件。
(5)Recalibrate Base:基线校正
采用Picard软件默认参数进行基线校正,得到校正后bam文件。
(6)采用GATK软件进行群体变异位点挖掘(VariantsCalling),并进行过滤:
①Call Variants:挖掘变异位点
采用GATK软件的haplotypecaller进行Call Variants,标准为MQ>=50 && BQ>=20,得到GVCF文件。
MQ为reads比对到参考基因组的打分,最高为60。
BQ 为测序reads的质量打分。
②VCF Quality filter:质控
采用Picard 软件进行VCF Quality filter,标准为QUAL>=100 || DP>=5,得到hp.vcf.gz文件。
经过上述GATK软件筛选和Picard 软件过滤后得到的SNP及INDEL位点即为高质量的SNP及INDEL位点。
S2、将S1中未能mapping到中国春参考基因组的reads及低质量mapping reads(MQ<10)提取出来,使用其他小麦参考基因组,例如小麦10+基因组,包括ArinaLrFor_v3、Cadenza_v1、CDC_Landmark_v1、CDC_Stanley_v1、Claire_v1、Jagger_v1、Julius_v1、LongReach_Lancer_v1、Mace_v1、Norin61_v1、SY_Mattis_v1、PI190962_v1(Walkowiak S,Gao L, Monat C, et al. Multiple wheat genomes reveal global variation inmodern breeding[J]. Nature, 2020, 588(7837): 277-283.);以及fielder基因组(SatoK, Abe F, Mascher M, et al. Chromosome-scale genome assembly of thetransformation-amenable common wheat cultivar ‘Fielder’[J]. DNA Research,2021, 28(3): dsab008.)再次进行序列比对分析及变异位点筛选和过滤。在这13个基因组中重复进行该步骤,得到uni.vcf.gz文件。
S3、构建中国春及泛基因组SNP注释数据库,采用snpEffv4.3 (Cingolani P,Platts A, Wang L L, et al. A program for annotating and predicting theeffects of single nucleotide polymorphisms, SnpEff: SNPs in the genome ofDrosophila melanogaster strain w1118; iso-2; iso-3[J]. Fly, 2012, 6(2): 80-92.)软件对变异位点进行功能注释,得到ann.vcf.gz文件。
S4、对基因上下游2K范围内的SNP/Indel进行位点筛选,优先级别为:CDS区域内的SNP/Indel>CDS上下游1K内的SNP/Indel>CDS上下游2K内的SNP/Indel。最终筛选到中国春2.1版本参考基因组1738820个变异位点的706,912探针区域;中国春1.1版本参考基因组5041140个变异位点的1,096,869探针区域;其他基因组196,943个HC探针区域,得到targets.bed文件。
S5、将S4中筛选的的SNP/Indel位点所覆盖的区域进行高密度探针设计与合成,即可获得用于小麦外显子测序基因定位的探针,即超高密度SNP芯片——小麦800K芯片。
需要说明的是:
(1)采用标准变异分析流程,对中国春参考基因组或其他基因组进行变异分析,首次分析可先按照MQ>=30标准进行。
(2)中国春参考基因组变异位点过滤,在群体中过滤:MF>0.005&MISSING<=0.3。
(3)其他参考基因组变异位点过滤,在群体中过滤:MF>0.001。
实施例2
用实施例1制备的800K芯片对黄淮麦区小麦种质资源材料扫描获得基因型,进行群体分析及基因定位分析:
(1)选择供试材料
为获取广泛遗传变异信息,根据品种的遗传背景、亲缘关系、审定年代、种植面积、农艺性状表现等特性选择了131份(ZZ1~ZZ131)黄淮麦区重要的遗传资源材料,具体材料信息见(Sun C, Zhang F, Yan X, et al. Genome‐wide association study for 13agronomic traits reveals distribution of superior alleles in bread wheat fromthe Yellow and Huai Valley of China[J]. Plant biotechnology journal, 2017, 15(8): 953-969.)。
(2)检测基因型
以实施例1获得的中国春2.1版本参考基因组的706,912个探针区域检测131份遗传资源材料的变异位点,每1MB区间变异位点在染色体上的分布密度见图2。
(3)超高密度SNP芯片与小麦660K芯片比较
小麦660K芯片是目前小麦育种领域应用最为广泛的小麦SNP芯片,实施例1获得的超高密度SNP芯片和小麦660K芯片密度比较见图3。由图3可以得出,实施例1制备的小麦800K芯片的探针密度明显高于660K芯片。
(4)高密度探针在基因定位中的应用
调查实施例2中131份供试材料的株高表型,利用检测的基因型信息进行全基因关联分析,挖掘调控株高的重要遗传位点,图4为131份供试材料的株高的曼哈顿图。其中在2B、3B、7D等染色体检测到与目标性状(株高)显著关联的SNP位点。
以上所述之实施例,只是本发明的较佳实施例而已,并非限制本发明的实施范围,故凡依本发明专利范围所述的构造、特征及原理所做的等效变化或修饰,均应包括于本发明申请专利范围内。
Claims (10)
1.一种用于小麦的超高密度SNP芯片制备方法,其特征在于,基于小麦泛基因组信息,使用小麦自然群体的重测序数据及外显子捕获测序数据进行变异分析获得小麦全基因组变异信息;过滤筛选获得高质量的、具有群体及个体代表性的SNP及INDEL位点,结合基因组注释及变异注释进行多态性位点区段的确定,最终在泛基因组水平合成超高密度液相探针。
2.根据权利要求1所述的一种用于小麦的超高密度SNP芯片制备方法,其特征在于,包括以下步骤:
步骤一:基于中国春参考基因组,使用小麦自然群体重测序数据及外显子捕获测序数据进行参考基因组的比对分析及变异位点筛选和过滤;
步骤二:将步骤一中未能比对到中国春参考基因组的reads及比对到中国春参考基因组的低质量reads提取出来,使用多个其他小麦参考基因组,再次进行比对分析及变异位点筛选和过滤;
步骤三:构建泛基因组SNP注释数据库,对变异位点进行功能注释;
步骤四:对基因上下游2K范围内的SNP/Indel进行位点筛选;
步骤五:针对步骤四中筛选的SNP/Indel位点所覆盖的区域设计探针序列并合成。
3.根据权利要求2所述的一种用于小麦的超高密度SNP芯片制备方法,其特征在于,在步骤一之前,先对小麦自然群体的重测序数据及外显子捕获测序数据文件进行分割。
4.根据权利要求3所述的一种用于小麦的超高密度SNP芯片制备方法,其特征在于,对小麦自然群体的重测序数据及外显子捕获测序数据文件进行分割时,分割点不在基因附近,是在重复序列集中的着丝粒附近或者基因组大量“N”出现的区域。
5.根据权利要求2所述的一种用于小麦的超高密度SNP芯片制备方法,其特征在于,步骤一具体包括:采用BWA软件将小麦自然群体的重测序数据及外显子捕获测序数据比对到中国春参考基因组,并去除重复序列、重新进行Indel区域的比对和基线校正,然后变异位点筛选和过滤。
6.根据权利要求5所述的一种用于小麦的超高密度SNP芯片制备方法,其特征在于,所述中国春参考基因组包括中国春1.1版本参考基因和中国春2.1版本参考基因组。
7.根据权利要求2所述的一种用于小麦的超高密度SNP芯片制备方法,其特征在于,步骤二中所述多个其他小麦参考基因组和中国春参考基因组组成泛基因组,所述多个其他小麦参考基因组包括ArinaLrFor_v3、Cadenza_v1、CDC_Landmark_v1、CDC_Stanley_v1、Claire_v1、Jagger_v1、Julius_v1、LongReach_Lancer_v1、Mace_v1、Norin61_v1、SY_Mattis_v1、PI190962_v1和fielder基因组。
8.根据权利要求2所述的一种用于小麦的超高密度SNP芯片制备方法,其特征在于,步骤四中位点筛选的优先级别为:CDS区域内的SNP/Indel>CDS上下游1K内的SNP/Indel>CDS上下游2K内的SNP/Indel。
9.采用权利要求1~8任一项所述制备方法得到的小麦超高密度SNP芯片,所述小麦超高密度SNP芯片为小麦800K芯片。
10.权利要求9所述的小麦超高密度SNP芯片在小麦基因型分析和/或基因定位中的应用。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202210846672.9A CN115216557A (zh) | 2022-07-05 | 2022-07-05 | 小麦超高密度snp芯片制备方法及应用 |
| NL2033442A NL2033442B1 (en) | 2022-07-05 | 2022-11-02 | A Preparation Method and the Application of an Ultra-high Density SNP Chip for Wheat |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202210846672.9A CN115216557A (zh) | 2022-07-05 | 2022-07-05 | 小麦超高密度snp芯片制备方法及应用 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN115216557A true CN115216557A (zh) | 2022-10-21 |
Family
ID=83611583
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202210846672.9A Pending CN115216557A (zh) | 2022-07-05 | 2022-07-05 | 小麦超高密度snp芯片制备方法及应用 |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN115216557A (zh) |
| NL (1) | NL2033442B1 (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117153248A (zh) * | 2023-09-05 | 2023-12-01 | 天津极智基因科技有限公司 | 一种基于泛基因组的基因区变异检测及可视化方法、系统 |
| NL2037214A (en) * | 2023-12-15 | 2024-03-29 | Crop Res Inst Shandong Acad Agricultural Sciences | INDEL MARKERS FOR DETECTING 1HtS SPECIFIC CHROMOSOMES OF WHEAT-E. TRACHYCAULUS AND APPLICATION |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160153056A1 (en) * | 2013-02-07 | 2016-06-02 | China National Seed Group Co., Ltd. | Rice whole genome breeding chip and application thereof |
| US20200277664A1 (en) * | 2018-12-10 | 2020-09-03 | 10X Genomics, Inc. | Methods for determining a location of a biological analyte in a biological sample |
| CN112837746A (zh) * | 2019-11-22 | 2021-05-25 | 成都天成未来科技有限公司 | 用于小麦外显子测序基因定位的探针设计方法及定位方法 |
| CN113628685A (zh) * | 2021-07-27 | 2021-11-09 | 广东省农业科学院水稻研究所 | 一种基于多个基因组比较和二代测序数据的全基因组关联分析方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115867667A (zh) * | 2020-05-11 | 2023-03-28 | 武汉双绿源创芯科技研究院有限公司 | 甘蓝型油菜高密度全基因组snp芯片及其应用 |
-
2022
- 2022-07-05 CN CN202210846672.9A patent/CN115216557A/zh active Pending
- 2022-11-02 NL NL2033442A patent/NL2033442B1/en active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160153056A1 (en) * | 2013-02-07 | 2016-06-02 | China National Seed Group Co., Ltd. | Rice whole genome breeding chip and application thereof |
| US20200277664A1 (en) * | 2018-12-10 | 2020-09-03 | 10X Genomics, Inc. | Methods for determining a location of a biological analyte in a biological sample |
| CN112837746A (zh) * | 2019-11-22 | 2021-05-25 | 成都天成未来科技有限公司 | 用于小麦外显子测序基因定位的探针设计方法及定位方法 |
| CN113628685A (zh) * | 2021-07-27 | 2021-11-09 | 广东省农业科学院水稻研究所 | 一种基于多个基因组比较和二代测序数据的全基因组关联分析方法 |
Non-Patent Citations (2)
| Title |
|---|
| "最新小麦SNP芯片及外显子捕获芯片", pages 1 - 2, Retrieved from the Internet <URL:https://www.sohu.com/a/515878892_121124027> * |
| 耿君佑等: "小麦芒性基因的定位与候选基因分析", 植物遗传资源学报, vol. 22, no. 4, 31 December 2021 (2021-12-31), pages 1090 - 1098 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117153248A (zh) * | 2023-09-05 | 2023-12-01 | 天津极智基因科技有限公司 | 一种基于泛基因组的基因区变异检测及可视化方法、系统 |
| CN117153248B (zh) * | 2023-09-05 | 2024-05-07 | 天津极智基因科技有限公司 | 一种基于泛基因组的基因区变异检测及可视化方法、系统 |
| NL2037214A (en) * | 2023-12-15 | 2024-03-29 | Crop Res Inst Shandong Acad Agricultural Sciences | INDEL MARKERS FOR DETECTING 1HtS SPECIFIC CHROMOSOMES OF WHEAT-E. TRACHYCAULUS AND APPLICATION |
Also Published As
| Publication number | Publication date |
|---|---|
| NL2033442B1 (en) | 2024-01-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112575116B (zh) | 一种大豆全基因组snp位点组合、基因芯片及应用 | |
| CN104232777B (zh) | 同时确定胎儿核酸含量和染色体非整倍性的方法及装置 | |
| Sun et al. | Population genomic analysis reveals domestication of cultivated rye from weedy rye | |
| Konar et al. | High-quality genetic mapping with ddRADseq in the non-model tree Quercus rubra | |
| Qi et al. | Genomic dissection of widely planted soybean cultivars leads to a new breeding strategy of crops in the post-genomic era | |
| CN108350498B (zh) | 分型方法和装置 | |
| CN115216557A (zh) | 小麦超高密度snp芯片制备方法及应用 | |
| CN116590393A (zh) | 鸡全基因组snp液相芯片的制作方法与应用 | |
| Lemay et al. | Combined use of Oxford Nanopore and Illumina sequencing yields insights into soybean structural variation biology | |
| CN116004898A (zh) | 一种花生40K液相SNP芯片PeanutGBTS40K及其应用 | |
| CN112837746B (zh) | 用于小麦外显子测序基因定位的探针设计方法及定位方法 | |
| Yang et al. | SNP loci identification and KASP marker development system for genetic diversity, population structure, and fingerprinting in sweetpotato (Ipomoea batatas L.) | |
| CN114854893A (zh) | 一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法 | |
| CN110055317B (zh) | 小麦远缘杂交后代小片段易位系中发掘外源功能候选基因的方法 | |
| CN110867209B (zh) | 预测籼稻亚种穗粒数强优势杂交组合的snp标记及其高通量检测方法 | |
| CN118098348B (zh) | 杂交种亲本基因型的检测方法、装置、电子设备及介质 | |
| CN115927725B (zh) | 一种睡莲品种的dna指纹图谱库及其应用 | |
| KR101911307B1 (ko) | 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술 | |
| CN118064428A (zh) | 用于构建橡胶树dna指纹图谱的mnp分子标记组合及方法 | |
| Bi et al. | An integrated map of genetic variation from 1,062 wheat genomes | |
| CN117051146A (zh) | 用于水稻品种真实性鉴定的snp标记 | |
| CN117210596B (zh) | 一种甜瓜snp位点标记组合、检测snp位点标记探针组合、液相芯片及应用 | |
| Parra-Salazar et al. | Robust and efficient software for reference-free genomic diversity analysis of GBS data on diploid and polyploid species | |
| CN115181812B (zh) | 一种与小麦育种性状相关的snp位点组合及其应用 | |
| Shen et al. | Genetic structure, KASP markers, and core germplasm resources of rice landraces from the Taihu Lake Basin |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |