CN117778588A

CN117778588A - 一种基于靶向捕获测序的绵羊1k液相芯片的制备方法及应用

Info

Publication number: CN117778588A
Application number: CN202311764946.0A
Authority: CN
Inventors: 王维民; 李发弟; 张煜坤; 乐祥鹏; 李万宏; 张小雪; 翁秀秀; 张德印; 赵源; 李晓龙; 赵利明; 徐丹; 程江博; 杨晓斌; 马宗武
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-03-29

Abstract

本发明涉及一种基于靶向捕获测序的绵羊1K液相芯片的制备方法及应用，绵羊1K液相芯片由独立包装的绵羊1K探针混合液和杂交捕获试剂构成，绵羊1K探针为DNA双链探针，其中绵羊1K探针的位点信息涉及1088个SNP位点。利用本发明制备的绵羊1K液相芯片与绵羊DNA高通量测序文库混合，捕获、扩增和纯化，产物经过高通量测序后，进行比对，从而获取待测绵羊的基因组基因分型。本发明提供的绵羊1K液相芯片位点包括1088个SNP标记和1个Y染色体DNA片段制成1K液相芯片对羔羊进行基因分型。对在绵羊育种选育方面具有开创性意义，可以解决现有技术成本高、不灵活、不能在羊场中的大规模使用的问题，将大大提高绵羊育种选育进程。

Description

一种基于靶向捕获测序的绵羊1K液相芯片的制备方法及应用

技术领域

本发明涉及基因分型技术领域，具体是一种基于靶向捕获测序基因型分型(Genotyping by Targeted Sequencing，GBTS)技术的绵羊1K液相芯片的制备方法及其对绵羊基因组进行基因分型的应用。

背景技术

单核苷酸多态性(single nucleotide polymorphism，SNP)是指在基因组上单个核苷酸变异而引起的DNA序列多态性，存在转换、颠换、缺失和插入。SNP是最常见的一种遗传多态性，其数量多，分布广且密集，占所有已知多态性的比例高达90％以上，作为第三代遗传标记具有易于检测、易于快速规模化筛查、基因分型较理想和呈二态性等特点，是人类后基因组时代的主要研究内容之一。随着高通量测序技术的发展，海量的SNP标记被发现，并被广泛应用于生物学、农业、医学等许多领域。大量的SNP标记可用于动植物基因功能的研究以及疾病的关联分析，通过比较个体间的SNP差异，解释表型差异。

随着SNP芯片价格越来越低廉，使用范围也越来越广泛，SNP芯片技术已经进入了一个新时代，技术的发展使其筛选速度更快，覆盖面更广，经济成本更加低廉，被广泛应用于动植物群体遗传分析、亲缘关系和品种鉴定等遗传学分析中。近年来各样的SNP芯片迅速发展，广泛应用于动植物中，对研究种质特性、遗传育种及疾病等方面具有重大意义。SNP芯片包括固相芯片和液相芯片。固相SNP芯片即单核苷酸多态性微阵列(SNP Array)，是将数百万DNA标记序列排列在玻片或特殊硅片上，固定形成SNP探针阵列。其工作原理是通过固定在芯片上的DNA标记序列与目标基因组发生碱基互补配对反应，从而精准鉴定出遗传变异信息。SNP芯片在第三代人类基因组图谱与变异数据的发布中发挥了核心作用。目前市面上主要流行两种固相SNP芯片，在动植物基因组变异检测中已得到广泛应用。一种是ThermoFisher公司(原Affymetrix公司)基于寡聚核苷酸原位光刻专利技术的高密度SNP芯片，广泛应用于关联分析(association)、拷贝数变异分析(copy number variations，CNV)、连锁分析(linkage)、基因表达与剪接体分析、表观遗传学分析等；另一种是Illumina公司基于光纤微珠的Illumina Infinium芯片，将特定的基因探针序列与直径3μm的微珠偶联，在基质的微孔中自我组装从而形成微珠芯片。但是现有的固相芯片仅能对芯片上所包含的SNP位点进行分型，对于这些位点周围的SNP位点则无法分型，一经设计则所能检测到的位点就被固定下来，无法增删，灵活性较差。液相芯片是一种基于液相杂交原理的芯片技术。它通过将一系列特定的DNA探针溶解在液相中，然后将待测样品中的DNA片段与这些探针进行杂交，从而检测样品中的SNP位点。液相SNP芯片具有低成本、高通量、高灵敏度和高特异性等优点，同时还具有更广泛的适用范围，可以用于分子标记辅助选择、全基因组选择等多种应用场景。目前，博瑞迪绵羊40K液相芯片、“中芯种羊1号”5K液相芯片、“黄三角雪花羊一号”绵羊基因芯片和“疆芯一号”20K绵羊育种芯片，已经被广泛用于进行绵羊大规模商业化育种，具体应用包括遗传多样性分析、品种关系分析、全基因组关联分析、QTL数量性状定位分析、选择进化研究和基因组选择方面。

此外，尽管使用高密度SNP芯片可以在一定程度上提高育种值估计的准确性，但高昂的基因分型费大大地增加了育种成本，限制了全基因组选择在绵羊育种中的广泛运用，并且对更高密度标记的期望也在不断增加着基因型分型的费用。在绵羊育种中，对具有较高市场价值的候选种公羊进行高密度SNP芯片基因分型和基因组育种值预测，其高昂的基因分型费用是可以接受的，但对整个肉牛群体进行高密度SNP芯片基因分型或重测序来获得基因型数据，将导致肉羊育种成本急剧增加，降低育种企业的经济效益。另一方面，使用高密度标记进行基因组育种值的预测将增加计算时间和难度，并且对计算设备的硬件和软件要求较高。例如，在基因组估计育种值的计算过程中，由于表型数目显著小于标记数，并且参考群体的扩群速度远低于标记的增加速度，使得预测模型中的方程求解困难。总体上，使用高密度标记进行全基因组选择不仅给基因组估计育种值的计算带来压力，给新算法的开发带来挑战，还大大地增加了育种成本的投入，影响育种的经济效益，因此具有一定局限性。

针对此，基于靶向捕获测序基因型分型(GBTS)技术和大规模群体的全基因组关联分析，本发明开发了全新的绵羊1K芯片，称之为液相芯片，与市场主流的绵羊液相芯片、基于illumina平台和Affymetrix平台开发的固相芯片相比，除了保留检测准确性高的优点和价格较低之外，它还有以下几个优势:性状关联位点丰富，完全国内自主知识产权，无政治贸易风险；开发的SNP芯片密度可以根据改良进程灵活调整，随时替换或补充新的位点，少量样本即可检测，无样本量限制；检测成本低于当前的固相芯片和中高密度液相芯片。

发明内容

针对现有技术的不足，本发明提供了一种基于靶向捕获测序的绵羊1K液相芯片的制备方法及其应用，同时提供了专用的SNP探针设计原则及绵羊全基因组1K液相芯片，采用本方法可以解决现有技术性状关联位点少、基因组选择预测准确性不良、成本高、不灵活、不能在现有羊场中的大规模使用的问题。

本发明提供一种基于靶向捕获测序的绵羊1K液相芯片的制备方法，其包括如下步骤：

(1)筛选1088个SNP位点设计并合成的核苷酸序列作为探针；并在探针的5’端带有生物素基团修饰，将其称为绵羊1K探针；

(2)将合成后的绵羊1K探针进行等摩尔质量混合，利用EDTA和Tris-HC1的混合液形成绵羊1K探针混合液；

(3)将绵羊1K探针混合液和杂交捕获试剂分别独立包装而得到所述基于靶向捕获测序的绵羊1K液相芯片。

如上所述的制备方法，优选地，所述筛选SNP位点的原则包括以下步骤：步骤S1，测定绵羊的主要经济性状的表型值，利用基因组重测序技术鉴定对应个体的基因组遗传变异的基因型；

步骤S2，整理表型、系谱和固定效应文件；

步骤S3，利用表型、系谱和固定效应进行育种值估计，并计算校正表型；步骤S4，对重测序数据进行质控，质控标准为:去除SNP检出率<30％、最小等位基因频率<0.05、最小平均测序深度<5以及没有染色体位置信息的SNP位点；步骤S5，挑选具有重测序个体的校正表型和重测序数据进行全基因组关联分析(GWAS)；利用混合线性模型(MLM)，对所述的主要性状指标进行全基因组关联分析，使用Bonferroni方法设定基因组水平显著的统计检验阈值，判定与各性状关联的显著SNPs；最后，选择每个性状显著性排名前0.00001％的SNP位点作为与性状显著相关的候选SNP位点；

步骤S6，对步骤S4中获得的质控后重测序数据挑选具有重测序个体的校正表型和重测序数据，利用rrBLUP方法对参考数群体对SNP标记的效应值进行估计，分别检测解释上述主要经济性状加性遗传方差较大比例的SNP位点；计算得到相应性状的SNP标记的效应值，选取解释加性遗传方差比例排名前0.00001％的SNP位点作为候选位点；

步骤S7，对步骤S4中获得的质控后重测序数据进行滑动窗口筛选；使用Oar_rambouillet_v1.0绵羊基因组组装结果在常染色体上定义25000Kb长度的窗口在染色体上滑动，并筛选窗口中具有最高MAF的信息SNP位点，这些SNP位点能在基因组上均匀间隔分布；具体的筛选标准如下：1)选择25000Kb滑动窗口中的具有最高MAF的SNP位点；2)具有80％的检出率的SNP位点以确保位点具有稳定的重复性；最后，为了避免在每条染色体的开始/结束端缺少侧翼标记信息，每条染色体的第一个和最后一个SNP必须选择；因此，对于每条常染色，选择每个25000Kb窗口中MAF最高的SNP位点，并将每条染色体开始和结束端的SNP包括在内；

步骤S8，对步骤S4中获得的质控后重测序数据，从Ensemble数据库中下载Oar_rambouillet_v1.0绵羊基因组注释文件，并根据标记的物理位置将高质量SNP位点注释到相应的基因区域，其中基因包括蛋白编码基因和非蛋白编码基因以及部分假基因；同时，基于ChIP-seq、ATAC-seq和CUT&Tag技术鉴定湖羊基因组启动子、增强子、染色质开放区域调控元件及活性区域；对于每个基因区域、基因组启动子、增强子、染色质开放区域等调控元件及活性区域，注释到该区域的SNP将形成一个单独的SNPs集合，并从该集合中选取MAF最高的SNP位点；

步骤S9，品种间特异位点筛选：利用收集到的绵羊品种资源材料的多平台基因分型数据，在全基因组范围内分别计算湖羊和其他品种绵羊之间的群体固定指数(Fst)，选取全基因组范围内Fst最高的前1‰的窗口取交集，作为显著受选择区域；

步骤S10，对于OMIA数据库(https://www.omia.org/home/)和Isheep QTLdb数据库已报道的与绵羊经济性状相关的重要SNP位点；

步骤S11，将以上四种方法筛选的SNP位点合并在一起(去除重复筛选位点)，形成一个绵羊1K液相芯片SNP集合；

步骤S12，对步骤S11的功能SNP位点芯片进行相邻SNP位点间的间隔、连锁不平衡和最小等位基因频率计算，剔除异常位点后，生成最终绵羊1K液相芯片位点集合，该SNP位点其为编号1-编号1088所示；

步骤S13，选取定位于绵羊Y染色体上的1个DNA区域设计探针用于性别鉴定：DNA区域的核苷酸序列如SEQ ID NO.1所示；

所筛选的SNP位点的可覆盖区域同时要满足绵羊1K探针的设计原则。

如上所述的制备方法，优选地，绵羊1K探针的设计原则为：探针长度110bp、探针GC含量在30％-70％之间、同源性区域个数≤5，选取区域最大限度地不包含SSRX域和GAP区域；根据筛选获得的每个SNP位点的上下游序列设计的两条互补序列，所述两条补序列有60-70％重叠且覆盖该SNP位点的核苷酸序列；将上述设计的核酸序列进行单链核苷酸合成，合成的两条长度均为110bp；5’端带有生物素基团修饰的DNA核苷酸序列称为绵羊1K探针。

优选地，所述液相芯片还包括如SEQ ID NO.2-SEQ ID NO.9所示的探针，探针的5’端带有生物素基团修饰。

优选地，所述杂交捕获试剂包括独立包装的GenoBaits DNAseq Library Prep试剂盒，具体包括独立包装的GenoBaits Block I、GenoBaits Block II、GenoBaits 2×HybBuffer、GenoBaits Hyb Buffer Enhancer、GenoBaits 2×Beads Wash Buffer、GenoBaits10×Wash Buffer I、GenoBaits 10×Wash BufferII、GenoBaits 10×Wash Buffer III、GenoBaits 10×Stringent Wash Buffer。

优选地所述绵羊参考基因组为Oar_rambouillet 1.0版本。

本发明提供一种基于靶向捕获测序的绵羊基因组基因分型的方法，包括如下步骤:

步骤1、采用上述制备方法制备的基于靶向捕获测序的绵羊1K液相芯片；

步骤2、利用待测绵羊的基因组DNA构建绵羊DNA高通量测序文库；

步骤3、将步骤1制备的绵羊1K液相芯片与步骤2构建的绵羊DNA高通量测序文库混合，捕获绵羊DNA高通量测序文库中包含目标位点的DNA片段；

步骤4、对步骤3获得的DNA片段进行扩增和纯化，产物经过高通量测序后，利用测序结果回帖到绵羊参考基因组上进行比对，从而获取待测绵羊的基因组基因分型。

如上所述的方法，优选地，在步骤2中，构建绵羊DNA高通量测序文库的方法为：采用超声波打断的方法对待测绵羊的基因组DNA进行片段化，并将破碎片段的末端补平修复和加A尾、连接测序接头、对连接产物进行纯化、用磁珠进行片段筛选，保留插入片段在200～300bp的连接产物，之后用带有Barcode序列的测序接头和P5接头进行PCR扩增，获得绵羊DNA高通量测序文库。

进一步优选地，在步骤3中，捕获的方法为：将绵羊1K探针和由链霉亲和素覆盖的磁珠混合，通过生物素和链霉亲和素的结合，使目标绵羊基因组DNA片段被吸附到磁珠上，然后通过洗脱处理将非目标区域的DNA片段洗掉，从而获得所要求的绵羊基因组DNA片段。

进一步优选地，在步骤4中，高通量测序数据通过SAMTOOLS、BWA、GATK和BaseNumberNGS软件平台处理后得到个体特定位点的SNP基因分型。

本发明提供的绵羊1K液相芯片在绵羊分子育种中的应用。

本发明提供的绵羊1K液相芯片由独立包装的绵羊1K探针混合液和杂交捕获试剂构成，绵羊1K探针为DNA双链探针，是根据SNP位点设计并合成的核苷酸序列；所述绵羊1K探针位点信息为编号1-1088所示，是将绵羊的全基因组测序结果比对至绵羊参考基因组上进行SNP位点的筛选获得。利用本发明制备的绵羊1K液相芯片与绵羊DNA高通量测序文库混合，捕获绵羊DNA高通量测序文库中包含目标位点的DNA片段进行扩增和纯化，产物经过高通量测序后，利用测序结果映射到绵羊参考基因组上进行比对，从而获取待测绵羊的基因组基因分型。

与现有技术相比，本发明提供的基于靶向捕获测序的绵羊1K液相芯片及绵羊基因组基因分型的方法具备以下有益效果:

1.本发明提供了基于靶向捕获测序进行基因分型的绵羊高通量SNP 1K探针，探针设计的时候考虑到了与绵羊重要性状显著关联的SNP位点；这些位点依托研发团队构建出的全球首个拥有多尺度和多维度表型组记录的大规模级绵羊群体(n＝2074)，主要测定了饲料效率、生长、机体组成、肉质、繁殖、免疫等主要经济性状，通过全基因组关联分析(GWAS)对获得的饲料效率、生长、机体组成、肉质、繁殖、免疫等250个重要经济性状的72.5万条高质量的表型数据和50T重测序数据挖掘鉴定到重要性状候选SNP标记，可显著提高基因组育种值估计的准确性。

2.本发明提供了基于靶向捕获测序进行基因分型的绵羊高通量SNP 1K探针，探针设计的时候考虑到了捕获的SNP位点在全基因组的分布情况(背景位点的全局代表性)，而且捕获探针考虑了位点多态性的问题，在我国当家绵羊品种湖羊群体中MAF要求大于0.40，有效地避免了简化基因组测序分型技术可能导致的标记密度不均匀和多态性较差问题。

3.本发明对每个SNP标记位点取前后各110bp，设计2条探针，探针GC含量控制在30％-70％之间，同源性区域个数≤5，有效提高了每个SNP所在序列的杂交稳定性，提高了片段捕获的效率。同时充分考虑位点侧翼序列在基因组上的特意异性，保证位点特异捕获率，降低测序成本。本发明理论上可以对任何特定的SNP位点设计捕获探针，因而本发明在绵羊特定标记的SNP大规模分型上具有重要的应用，为绵羊的遗传多样性分析、品系鉴定、性别判定、标记辅助选育研究和应用提供了高效的基因组分型技术。

4.本发明的绵羊1K液相芯片可以随时补充SNP位点，根据新的位点设计新的探针添加入已有的绵羊1K探针混合液中。本发明也可以移除不需要的SNP标记，不进行测序检测而现有技术采用固相芯片标记位点固定，只有设计新的芯片，才能实现SNP位点增减，出于经济效益考虑，一般需要现有芯片用完以后再考虑新芯片设计。另外，固相芯片技术对样本量有要求，一张芯片通常可以做12，24或48甚至96个样，这就对送样量有要求，而本发明无此要求，整个实验于PCR管中反应，反应体系可根据需要添加，故1个样也可检测，样本检测量灵活，弥补了固相芯片的技术缺陷，在绵羊分子育种中更具推广价值。

5.本发明中的通过优化捕获杂交体系，S3步DNA杂交捕获时间为1个小时，相对于16小时以上的过夜杂交捕获流程，可大大缩短基因型获取时间，建库和捕获全流程可在天内完成，为基因型检测节约了时间。

6.本发明探针对侧翼序列拥有较好的容忍性，因此本发明的绵羊1K SNP液相芯片对侧翼序列的变异情况拥有较高的容忍性，在侧翼序列变异不高于10％的情况下，依然可以稳定捕获目标序列，这样除获取目标SNP信息外，还可获取上下游各80bp的序列信息，包含多至200K以上的SNP变异信息，在同等成本的情况下，为绵羊分子育种提供更多的信息支撑。

附图说明

图1为本发明提供的绵羊1K液相芯片中SNP标记在不同染色体上的数量分布。

具体实施方式

以下实施例用于进一步说明本发明，但不应理解为对本发明的限制。在不背离本发明精神和实质的前提下，对本发明所作的修饰或者替换，均属于本发明的范畴。

实施例1一种基于靶向捕获测序的绵羊1K液相芯片及应用于绵羊基因组基因分型的方法

步骤1、制备一种基于靶向捕获测序的绵羊1K液相芯片，该绵羊1K液相芯片由独立包装的绵羊1K探针混合液和杂交捕获试剂构成，所述绵羊1K探针的制备，其为DNA双链探针，是根据所筛选的SNP位点设计并合成的核苷酸序列；所述SNP位点筛选原则包括以下步骤：

S1.测定2074只湖羊的生长、饲料效率、机体组成、产肉、繁殖等主要经济性状的表型值，利用基因组重测序技术鉴定对应个体的基因组遗传变异的基因型；具体地，测定的主要经济性状主要有5类，分别是生长性状、胴体性状、体组成、肌肉品质和其他，包含59个性状和199个指标。其中，

体重包括：初生重、断奶重(56d)；80d、100d、120d、140d、160d和180d体重；日增重包括：80-100d、80-120d、80-140d、80-160d、80-180d、100-120d、100-140d、100-160d、100-180d、120-140d、120-160d、120-180d、140-160d、140-180d和160-180d的日增重；

体尺(体高、体长、胸围、管围、尾长、尾宽、阴囊围)包括：0d、100d、120d、140d、160d和180d的体高、体长、胸围、管围；180d尾长和尾宽；100d、120d、140d、160d和180d的阴囊围；

采食量包括：0-100d、80-120d、80-140d、80-160d、80-180d、100-120d、100-140d、100-160d、100-180d、120-140d、120-160d、

120-180d、140-160d、140-180d和160-180d的日采食量；

饲料转化率包括：80-100d、80-120d、80-140d、80-160d、80-180d、100-120d、100-140d、100-160d、100-180d、120-140d、120-160d、120-180d、140-160d、140-180d和160-180d的饲料转化率；

剩余采食量包括：80-100d、80-120d、80-140d、80-160d、80-180d、100-120d、100-140d、100-160d、100-180d、120-140d、120-160d、120-180d、140-160d、140-180d和160-180d的剩余采食量；

代谢体重包括：80-100d、80-120d、80-140d、80-160d、80-180d、100-120d、100-140d、100-160d、100-180d、120-140d、120-160d、120-180d、140-160d、140-180d和160-180d的代谢体重；

还有宰前活重、胴体重、屠宰率、GR值、眼肌面积、背膘厚、肋骨数、胸腔周长、胴体长、臀部周长、胫骨周长头、蹄、皮毛绝对重及相对重；心的重量共计250个性状指标。

S2.对步骤S1中获得的表型组记录，整理表型、系谱和固定效应文件；

S3.对步骤S2中整理的表型、系谱和固定效应关系进行育种值估计，并计算校正表型；

S4.对步骤S1中获得的重测序数据进行质控，质控标准为：去除SNP检出率<30％、最小等位基因频率<0.05、最小平均测序深度<5以及没有染色体位置信息的SNP位点；

S5.对步骤S4中获得的质控后重测序数据挑选具有重测序个体的校正表型和重测序数据进行全基因组关联分析(GWAS)；

利用混合线性模型(MLM)，对体重、体尺、生长速度、采食量、剩余采食量、饲料转化率、屠宰率、眼肌面积、肋骨数目、尾椎数目、腰椎数目、GR值、背膘厚、体组成、内脏脂肪沉积、内脏脂肪沉积、大网膜脂肪沉积、尾部脂肪沉积、内外尾长、内外尾宽、尾脂周长、肉色、肌内蛋白、肌内盐分、肌内水分、肌内胶原、肌内脂肪、熟肉率、滴水损失、失水率、阴囊周长、阴茎长度、阴茎周长、阴茎重量和血液生理生化指标等250个性状指标进行全基因组关联分析，使用Bonferroni方法设定基因组水平显著的统计检验阈值，判定与各性状关联的显著SNPs；

最后，选择每个性状显著性排名前0.00001％的SNP位点作为与性状显著相关的候选SNP位点；

S6.对步骤S4中获得的质控后重测序数据挑选具有重测序个体的校正表型和重测序数据，利用rrBLUP方法对参考数群体(n＝2074)对SNP标记的效应值进行估计，分别检测解释上述250个性状加性遗传方差较大比例的SNP位点；计算得到相应性状的SNP标记的效应值，选取解释加性遗传方差比例排名前0.00001％的SNP位点作为候选位点；

S7.对步骤S4中获得的质控后重测序数据进行滑动窗口筛选；使用Oar_rambouillet_v1.0绵羊基因组组装结果在常染色体上定义25000Kb长度的窗口在染色体上滑动，并筛选窗口中具有最高MAF的信息SNP位点，这些SNP能在基因组上均匀间隔分布；

具体的筛选标准如下：1)选择25000Kb滑动窗口中的具有最高MAF的SNP位点；2)具有80％的检出率的SNP位点以确保位点具有稳定的重复性；

最后，为了避免在每条染色体的开始/结束端缺少侧翼标记信息，每条染色体的第一个和最后一个SNP必须选择；因此，对于每条常染色，选择每个25000Kb窗口中MAF最高的SNP位点，并将每条染色体开始和结束端的SNP包括在内；

S8.对步骤S4中获得的质控后重测序数据，从Ensemble数据库中下载Oar_rambouillet_v1.0绵羊基因组注释文件，并根据标记的物理位置将高质量SNP位点注释到相应的基因区域，其中基因包括蛋白编码基因和非蛋白编码基因以及部分假基因；同时，基于ChIP-seq、ATAC-seq和CUT&Tag等技术鉴定湖羊基因组启动子、增强子、染色质开放区域等调控元件及活性区域；对于每个基因区域、基因组启动子、增强子、染色质开放区域等调控元件及活性区域，注释到该区域的SNP将形成一个单独的SNPs集合，并从该集合中选取MAF最高的SNP位点；

S9.品种间特异位点筛选：利用收集到的352份世界范围收集的32个绵羊品种资源材料的多平台基因分型数据，在全基因组范围内分别计算湖羊和其他品种绵羊之间的群体固定指数(Fst)，选取全基因组范围内Fst最高的前1‰的窗口取交集，作为显著受选择区域；

S10.对于OMIA数据库(https://www.omia.org/home/)和Isheep QTLdb数据库已报道的与绵羊经济性状相关的重要SNP位点；

S11.将步骤5、6、7、8、9和10中每种方法筛选得到的SNP位点合并在一起(去除重复筛选位点)，形成一个绵羊1K液相芯片SNP集合用于湖羊全基因组选择芯片设计研究；

S12.对功能SNP位点芯片进行相邻SNP位点间的间隔、连锁不平衡和最小等位基因频率计算，剔除异常位点后，生成最终绵羊1K液相芯片位点集合，该SNP位点其为编号1-编号1088所示如下表；

表1SNP位点

其中，表中每格中前面的数字表示染色体标号，后面的数字表示在该染色体上的位置，最后的字母表示该位点参考基因的碱基。

S13.分析选取定位于绵羊Y染色体上的1个DNA区域用于性别鉴定:序列如SEQ IDNO.1所示：TGTGTTTTCTTTTAATGGAACAGTTTTTATG TCAAAGTTTTGTTGTATCTGAGATTGACCATTAAATATGTATTAGTATATATTAGCATTCTGAAAGTCGTCAGCATATATCCAGTTCAGTTATTAACTACTGGAATACCTACATAGATTTTTCAGCTGTTTTTTAAGCCTAAGTGGAGAAGCAGGGAGAGTGATTAGCATGGATTCGGTATCCTGTGTATTCAGCTATATAACAGGATCGGGCTGTTTTTCATCTTTTTTTTTAAATATAACATTCTCTTTCATTCATAACCATAAACAATTTGTTAGTATGTCTGCTGCACCTTCATCCTTTAAATAAGTATATGAAAATAACTTCACAATGACACCGGTTGTATTTTTAAGCAGGTATTAGCGCCTTCACAAATTCTGATTAGATGTAAACAAAGAAGAAAGCAGAGCGTTAATATCCTGTTAAGCACCTTTGGTGGGTTTGGGCTGGCTGCCAGGAGGTATTGAGGGGAGGTATTGGGGGCGGAGAAATAAATATTTCACTGCAAATTTTGCACCAAGTCAGTCTCTGGTAAGAACAACTTATGAATAGAACGGTGCAATCGTA；针对该序列设计的探针如SEQ ID NO.2-SEQ ID NO.9所示的核苷酸序列，并在探针的5’端带有生物素基团修饰；其中，序列如下

SEQ ID NO.2：TCCAGTTCAGTTATTAACTACTGGAATACCTACAT AGATTTTTCAGCTGTTTTTTAAGCCTAAGTGGAGAAGCAGGGAGAGTG ATTAGCATGGATTCGGTATCCTGTGTA；

SEQ ID NO.3：TCTCTTTCATTCATAACCATAAACAATTTGTTAGTA TGTCTGCTGCACCTTCATCCTTTAAATAAGTATATGAAAATAACTTCAC AATGACACCGGTTGTATTTTTAAGC；

SEQ ID NO.4：AAGCCTAAGTGGAGAAGCAGGGAGAGTGATTAGC ATGGATTCGGTATCCTGTGTATTCAGCTATATAACAGGATCGGGCTGT TTTTCATCTTTTTTTTTAAATATAACAT；

SEQ ID NO.5：TTCAGCTATATAACAGGATCGGGCTGTTTTTCATCT TTTTTTTTAAATATAACATTCTCTTTCATTCATAACCATAAACAATTTGT TAGTATGTCTGCTGCACCTTCATC；

SEQ ID NO.6：CTTTAAATAAGTATATGAAAATAACTTCACAATGA CACCGGTTGTATTTTTAAGCAGGTATTAGCGCCTTCACAAATTCTGATT AGATGTAAACAAAGAAGAAAGCAGAG；

SEQ ID NO.7：AGGTATTAGCGCCTTCACAAATTCTGATTAGATGT AAACAAAGAAGAAAGCAGAGCGTTAATATCCTGTTAAGCACCTTTGGT GGGTTTGGGCTGGCTGCCAGGAGGTAT；

SEQ ID NO.8：GAGGTATTGAGGGGAGGTATTGGGGGCGGAGAAA TAAATATTTCACTGCAAATTTTGCACCAAGTCAGTCTCTGGTAAGAAC AACTTATGAATAGAACGGTGCAATCGTA；

SEQ ID NO.9：CGTTAATATCCTGTTAAGCACCTTTGGTGGGTTTGG GCTGGCTGCCAGGAGGTATTGAGGGGAGGTATTGGGGGCGGAGAAAT AAATATTTCACTGCAAATTTTGCACCA。

针对步骤12所筛选的1088个SNP位点的可覆盖区域(即覆盖该位点的上下游序列)同时要满足绵羊1K探针的设计原则；所述绵羊1K探针的设计原则为：探针长度110bp、探针GC含量在30％-70％之间、同源性区域个数≤5，选取区域最大限度地不包含SSRX域和GAP区域；根据筛选获得的SNP位点设计两条有60-70％重叠且覆盖所述SNP位点的核苷酸序列；根据上述设计的核酸序列进行单链核苷酸合成，合成的两条长度为110bp；并在其5’端带有生物素基团修饰的DNA核苷酸序列称为绵羊1K探针；将上述两条合成后的绵羊1K探针进行等摩尔质量混合，利用EDTA和Tris-HC1混合液定容为3pmol/mL的绵羊1K探针混合液；绵羊1K探针混合液和杂交捕获试剂分别独立包装而得到所述基于靶向捕获测序的绵羊1K液相芯片。

本实施例中，所述杂交捕获试剂为来自石家庄博瑞迪生物技术有限公司的GenoBaits DNAseq Library Prep试剂盒，包括独立包装的GenoBaits Block I、GenoBaitsBlock II、GenoBaits 2×Hyb Buffer、GenoBaits Hyb Buffer Enhancer、GenoBaits 2×Beads Wash Buffer、GenoBaits 10×Wash Buffer I、GenoBaits 10×Wash BufferII、GenoBaits 10×Wash Buffer III、GenoBaits 10×Stringent Wash Buffer。

本实施例中，所述绵羊参考基因组为Oar_rambouillet 1.0版本。

本实施例共针对1088个SNP位点和1个Y染色体DNA区域进行了绵羊1K探针的设计，获得的绵羊1K液相芯片覆盖的SNP如图1所示，表明本发明的绵羊1K液相芯片筛选的SNP标记覆盖每条常染色体，基本上按照芯片设计原则来设计，无基因组定义gap区域。

步骤2、利用待测绵羊的血液基因组DNA构建绵羊DNA高通量测序文库；

1)提取待测绵羊的血液基因组DNA:

A、从2个全国规模化羊场选取湖羊276个，采集对应个体血液进行基因组DNA的提取。采用石家庄博瑞迪生物技术有限公司研发的血液DNA快速提取试剂盒(磁珠法)对样本DNA进行提取。

B、将测试样品DNA，用Qubit Fluorometric Quantitation(Thermo Fisher)对DNA浓度进行测定，用1％琼脂糖凝胶电泳检测DNA的完整性。检测合格的样品放入4℃冰箱，保存、备用。

2)构建绵羊DNA高通量测序文库:

a、取12μL质检合格的DNA放置于0.2μL PCR管中，将管置于超声波破碎仪中对DNA进行随机物理破碎，片段破碎至200～400bp。

b、向管中加入4μL GenoBaits End Repair Buffer(GenoBaits，即石家庄博瑞迪生物科技有限公司)和2.7μL GenoBaits End Repair Enzyme，补水至20μL，放入ABI9700PCR仪中37℃温育20分钟，完成破碎片段的末端修复和加A过程。

c、从PCR仪中取出小管加入2μL GenoBaits Ultra DNA ligase、8μL GenoBaitsUltra DNA Ligase Buffer和2μL GenoBaits Adapter，补超纯水至40μL，然后放置于ABI9700 PCR仪上22℃反应30分钟，完成测序接头的连接。

d、向连接产物中加入48μL的Beackman AMPure XP Beads(Beackman公司)对连接产物进行纯化，纯化后采用磁珠进行片段筛选，保留插入片段在200～300bp的连接产物。

e、向上一步的PCR管中加入5μL带有Barcode序列的测序接头、1μL P5接头、10μLGenoBaits PCR Master Mix，并用纯水补至20μL；用ABI 9700PCR仪进行扩增，扩增程序为：95℃预变性5min，95℃变性30s，60℃退火30s，72℃延伸30s；重复2-4步，共8个循环；72℃延伸5min。不同的Barcode用于区分不同的样品。

f、向第二轮PCR产物中加入24μL Beckmen AMPure XP Beads(Beackman公司)，用移液器上下吸打均匀后，将0.2μL的PCR管置于磁力架上至溶液澄清，弃去上清并用75％乙醇洗涤磁珠一次，用pH值为8.0的Tris-HCl将文库DNA洗脱下来。

1)DNA杂交

取500ng已完成构建的基因组DNA测序文库，加入5μL GenoBaits Block I和2μLGenoBaits Block II，置于Eppendorf Concentrator plus(Eppendorf公司)真空浓缩仪上，在≤70℃的温度下蒸干至干粉。向干粉管中加入8.5μL GenoBaits 2x Hyb Buffer、2.7μL GenoBaits Hyb Buffer Enhancer、2.8μL Nuclease-Free Water，用移液器吸打混匀后放置于ABI 9700PCR仪上95℃温育10分钟，然后取出PCR管加入3μL已经合成的探针(探针的浓度为60ng/μL)，旋涡震荡混匀后放置于ABI 9700PCR仪上65℃温育2小时，完成探针杂交反应。

2)DNA捕获

向上一步杂交完成的反应体系中加入100μL GenoBaits DNA Probe Beads(链霉亲和素覆盖的磁珠)，上下吸打10次，放入ABI 9700PCR仪上65℃温育45分钟，使磁珠与探针结合。用100μL GenoBaits Wash Buffer I、150μL GenoBaits Wash BufferII分别对结合探针后的磁珠进行65℃热洗，然后再用100μL GenoBaits Wash Buffer I、150μLGenoBaits Wash Buffer II(和150μL GenoBaits Wash Buffer III分别对磁珠进行常温洗涤。洗涤完成的磁珠用20μL Nuclease-Free Water进行重悬。

取13μL重悬后的DNA(带磁珠)加入到新的0.2mL PCR管中，然后加入15μLGenoBaits PCR Master Mix、2μL GenoBaits Primer Mix配置post-PCR体系，用ABI9700PCR仪进行文库扩增，扩增程序为：95℃预变性5min，95℃变性30s，60℃退火30s，72℃延伸30s；重复2-4步，共15个循环；72℃延伸5min。

向post-PCR产物中加入45μL Beckmen AMPure XP Beads(Beackman公司)并用移液器上下吸打均匀，然后将0.2mL PCR管置于磁力架上至溶液澄清，弃去上清并用75％乙醇洗涤磁珠两次，用pH为8.0的Tris-HCl将文库DNA洗脱下来。完成探针的杂交捕获工作。

3)DNA杂交捕获文库质检

用Qubit Fluorometric Quantitation(Thermo Fisher)对文库的DNA浓度进行测定，然后用琼脂糖凝胶电泳检测文库DNA的片段大小是否在300～400bp之间。

步骤4、对步骤3获得的DNA片段进行扩增和纯化，产物经过高通量测序(华大MGISEQ2000测序仪)后，利用测序结果回帖到绵羊参考基因组上进行比对，其绵羊参考基因组为Oar_rambouillet 1.0版本，通过SAMTOOLS、BWA、GATK和BaseNumberNGS软件平台处理从而获取待测绵羊的基因组基因分型。

实施例2对实施例1获得的绵羊1K液相芯片基因型分型质量评价

SNP检出率是衡量芯片质量的重要指标，一般用常染色体和X染色体的位点进行衡量。基于按实施例1分型的结果，计算每个SNP位点的检出率。计算方法为：对某个snp位点被成功检测到的样本数目与所有样本数目比值，最终求所有SNP检出率的平均值得到该数值，实施例1的绵羊1K液相芯片SNP检出率很高，SNP平均检出率为99.21％，说明使用实施例1的绵羊1K液相芯片基因型检测质量很好。

实施例3绵羊1K液相芯片在绵羊全基因组选择中的应用

本研究采用rrBLUP(VanRaden，2008)、BayesA(Meuwissen et al.，2001)、BayesB(Meuwissen et al.，2001)和BayesC(Habier et al.，2011)四种方法，对使用1K芯片的估计的基因组育种值的准确性进行评估。将上述大规模绵羊群体所有个体随机分成5个独立的子集。每个子集依次作为验证群体，并假定其表型未知，同时其余四个子集则作为参考群体。这个过程随机重复10次。最后，将校正表型与基因组估计育种值(GEBV)之间的斯皮尔曼相关系数除以相应性状遗传力的算术平方根作为GEBV准确性的评价指标。结果表明，使用低密度SNP集合计算的33个性状的GEBV准确性在0.10-0.33之间，如表2所示。

表2使用rrBLUP、BayesA、BayesB和BayesC方法估计密度的SNP集合在各性状中的GEBV估计准确性

结果表明，在已经设计的芯片基础上，结合靶向捕获测序(无需进行填充就可以获得比标记位点更多的SNP)，能够进行全基因组选择工作。相比于绵羊Illumina OvineSNP50固相芯片，可以以更低的成本开展绵羊育种工作。

实施例4绵羊1K液相芯片在性别判定中的应用

从规模化羊场(于2022年7月在浙江省长兴县长兴永盛牧业有限公司采集)中随机采集已知性别的30只绵羊的血液样本，公母各15只，连同实施例1所有绵羊一起，采用绵羊1K液相芯片进行目标DNA片段如SEQ ID NO.1捕获。根据该DNA片段的有无分析判定待测绵羊性别，具体将核苷酸序列如SEQ ID NO.2-SEQ ID NO.9所示的探针与基因组DNA进行液相杂交，对目标区域序列进行捕获并富集后通过测序平台进行高通量测序，与SEQ ID NO.1通过对比，比对结果如有该片段，则为雄性，否则为雌性。最终检测结果判定准确度为100％。

Claims

1.一种基于靶向捕获测序的绵羊1K液相芯片的制备方法，其特征在于，其包括如下步骤：

(1)筛选SNP位点设计并合成的核苷酸序列作为探针；并在探针的5’端带有生物素基团修饰，将其称为绵羊1K探针；

2.根据权利要求1所述的制备方法，其特征在于，所述筛选SNP位点的原则包括以下步骤：

步骤S1，测定绵羊的主要经济性状的表型值，利用基因组重测序技术鉴定对应个体的基因组遗传变异的基因型；

步骤S2，整理表型、系谱和固定效应文件；

步骤S3，利用表型、系谱和固定效应进行育种值估计，并计算校正表型；

步骤S4，对重测序数据进行质控，质控标准为:去除SNP检出率<30％、最小等位基因频率<0.05、最小平均测序深度<5以及没有染色体位置信息的SNP位点；

步骤S5，挑选具有重测序个体的校正表型和重测序数据进行全基因组关联分析；利用混合线性模型，对所述的主要性状指标进行全基因组关联分析，使用Bonferroni方法设定基因组水平显著的统计检验阈值，判定与各性状关联的显著SNPs；最后，选择每个性状显著性排名前0.00001％的SNP位点作为与性状显著相关的候选SNP位点；

步骤S7，对步骤S4中获得的质控后重测序数据进行滑动窗口筛选；使用Oar_rambouillet_v1.0绵羊基因组组装结果在常染色体上定义25000Kb长度的窗口在染色体上滑动，并筛选窗口中具有最高MAF的信息SNP位点，这些SNP位点能在基因组上均匀间隔分布；步骤S8，对步骤S4中获得的质控后重测序数据，从Ensemble数据库中下载Oar_rambouillet_v1.0绵羊基因组注释文件，并根据标记的物理位置将高质量SNP位点注释到相应的基因区域，其中基因包括蛋白编码基因和非蛋白编码基因以及部分假基因；同时，基于ChIP-seq、ATAC-seq和CUT&Tag等技术鉴定湖羊基因组启动子、增强子、染色质开放区域调控元件及活性区域；对于每个基因区域、基因组启动子、增强子、染色质开放区域等调控元件及活性区域，注释到该区域的SNP将形成一个单独的SNPs集合，并从该集合中选取MAF最高的SNP位点；

步骤S9，品种间特异位点筛选：利用收集到的绵羊品种资源材料的多平台基因分型数据，在全基因组范围内分别计算湖羊和其他品种绵羊之间的群体固定指数即Fst，选取全基因组范围内Fst最高的前1‰的窗口取交集，作为显著受选择区域；

步骤S10，对于OMIA数据库https://www.omia.org/home/和Isheep QTLdb数据库已报道的与绵羊经济性状相关的重要SNP位点；

步骤S11，将以上四种方法筛选的SNP位点合并在一起，即去除重复筛选位点，形成一个绵羊1K液相芯片SNP集合；

步骤S12，对功能SNP位点芯片进行相邻SNP位点间的间隔、连锁不平衡和最小等位基因频率计算，剔除异常位点后，生成最终绵羊1K液相芯片SNP位点集合，该SNP位点如表1所示；

表1 SNP位点的染色体号及位置和该位点的参考碱基

步骤S13，选取定位于绵羊Y染色体上的1个DNA区域如SEQ ID NO.1所示的序列设计探针用于性别鉴定；

3.根据权利要求2所述的制备方法，其特征在于，绵羊1K探针的设计原则为:探针长度110bp、探针GC含量在30％-70％之间、同源性区域个数≤5，选取区域最大限度地不包含SSRX域和GAP区域；根据筛选获得的SNP位点设计两条有60-70％重叠且覆盖该SNP位点的核苷酸序列；将上述设计的核酸序列进行单链核苷酸合成，合成的两条长度为110bp；5’端带有生物素基团修饰的DNA核苷酸序列称为绵羊1K探针。

4.根据权利要求2所述的制备方法，其特征在于，用于性别鉴定的探针如SEQ ID NO.2-SEQ ID NO.9所示，且探针的5’端带有生物素基团修饰。

5.根据权利要求1所述的制备方法，其特征在于，所述杂交捕获试剂包括独立包装的GenoBaits DNAseq Library Prep试剂盒，具体包括独立包装的GenoBaits Block I、GenoBaits Block II、GenoBaits 2×Hyb Buffer、GenoBaits Hyb Buffer Enhancer、GenoBaits 2×Beads Wash Buffer、GenoBaits 10×Wash Buffer I、GenoBaits 10×WashBufferII、GenoBaits 10×Wash Buffer III、GenoBaits 10×Stringent Wash Buffer。

6.一种基于靶向捕获测序的绵羊基因组基因分型的方法，其特征在于，包括如下步骤：

步骤1.采用权利要求1所述的制备方法制备基于靶向捕获测序的绵羊1K液相芯片；

步骤2.利用待测绵羊的基因组DNA构建绵羊DNA高通量测序文库；

步骤3.将步骤1制备的绵羊1K液相芯片与步骤2构建的绵羊DNA高通量测序文库混合，捕获绵羊DNA高通量测序文库中包含目标位点的DNA片段；

步骤4.对步骤3获得的DNA片段进行扩增和纯化，产物经过高通量测序后，利用测序结果回帖到绵羊参考基因组上进行比对，从而获取待测绵羊的基因组基因分型。

7.根据权利要求6所述的方法，其特征在于，在步骤2中，构建绵羊DNA高通量测序文库的方法为:采用超声波打断的方法对待测绵羊的基因组DNA进行片段化，并将破碎片段的末端补平修复和加A尾、连接测序接头、对连接产物进行纯化、用磁珠进行片段筛选，保留插入片段在200～300bp的连接产物，之后用带有Barcode序列的测序接头和P5接头进行PCR扩增，获得绵羊DNA高通量测序文库。

8.根据权利要求6所述的方法，其特征在于，在步骤3中，捕获的方法为将绵羊1K探针和由链霉亲和素覆盖的磁珠混合，通过生物素和链霉亲和素的结合，使目标绵羊基因组DNA片段被吸附到磁珠上，然后通过洗脱处理将非目标区域的DNA片段洗掉，从而获得所要求的绵羊基因组DNA片段。

9.根据权利要求6所述的方法，其特征在于，在步骤4中，高通量测序数据通过SAMTOOLS、BWA、GATK和BaseNumberNGS软件平台处理后得到个体特定位点的SNP基因分型。

10.由权利要求1-5中所述的制备方法获得绵羊1K液相芯片在绵羊分子育种中的应用。