CN103699815B - 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 - Google Patents
一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 Download PDFInfo
- Publication number
- CN103699815B CN103699815B CN201410013164.8A CN201410013164A CN103699815B CN 103699815 B CN103699815 B CN 103699815B CN 201410013164 A CN201410013164 A CN 201410013164A CN 103699815 B CN103699815 B CN 103699815B
- Authority
- CN
- China
- Prior art keywords
- twenty
- frequency
- haplotype
- linkage disequilibrium
- autotetraploid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010276 construction Methods 0.000 title claims 4
- 102000054766 genetic haplotypes Human genes 0.000 claims abstract description 63
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 108700028369 Alleles Proteins 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims description 53
- 238000007476 Maximum Likelihood Methods 0.000 claims description 12
- 238000000546 chi-square test Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000000528 statistical test Methods 0.000 claims description 3
- 101150010487 are gene Proteins 0.000 claims 1
- 208000035199 Tetraploidy Diseases 0.000 abstract description 4
- 238000004088 simulation Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 208000020584 Polyploidy Diseases 0.000 description 5
- 238000005094 computer simulation Methods 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 241000894007 species Species 0.000 description 4
- 241000196324 Embryophyta Species 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 230000021121 meiosis Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 241000218922 Magnoliophyta Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种同源四倍体自然群体的连锁不平衡分析模型的构建方法,包括:对来自自然群体中一组同源四倍体植物,设置一个位点A和一个位点B;两个位点产生16单倍型,且分别都具有35种基因型,但在遗传上每个位点能够识别的四倍体基因型有只有15种,因此两个位点共产生225种基因型;从所述自然群体中随机抽取n个同源四倍体个体,得到不同基因型个体数量;根据单体型频率计算相应的配子频率,并根据配子频率计算计算相应的基因型频率;计算基因型频率;计算单倍型基因频率;通过单倍型基因频率获取两个位点的等位基因的估算频率;通过单倍型基因频率计算每两个位点间的连锁不平衡系数;然后进行验证。
Description
技术领域
本发明涉及生物建模技术领域,特别是指一种同源四倍体自然群体的连锁不平衡分析模型的构建方法。
背景技术
半数以上的被子植物是多倍体,或在其进化史上出现过多倍体现象,故此多倍体对于植物的遗传与进化研究具有重要的价值。同源四倍体作为自然界中常见的多倍体,是研究多倍体时常用的材料,分析多位点群体遗传研究的重要性已经越来越被认可。连锁不平衡分析是分析自然群体遗传结构、分化、多样性的重要工具。连锁不平衡分析是基于多个位点,可以通过基因组估算程度和非随机组合的分布提供不同物种结构的额外信息。对于一个随机组合群体,两标记间连锁不平衡世代的比例的衰减取决于两标记间的重组率。连锁不平衡的衰减速率为物种复杂性状的高通量作图建立了一个基本原则,因此通过比较LD遗传距离的衰减率,可以推断一个物种的进化历史,但是这一方面目前仅适用于二倍体自然群体,至今仍没有一种同源四倍体两位点的连锁不平衡分析模型。
发明内容
本发明要解决的技术问题是提供一种能够构建同源四倍体进行两位点连锁不平衡分析模型的方法。
为了解决上述问题,本发明实施例提出了一种同源四倍体自然群体的连锁不平衡分析模型的构建方法,包括:
步骤1、对于来自自然群体中一组同源四倍体植物,设置一个位点A和一个位点B;
其中该位点A具有4个等位基因记为A1,A2,A3,A4;该位点B具有4个等位基因记为B1,B2,B3,B4;其中p1,p2,p3,p4为位点A的基因频率,且p1+p2+p3+p4=1;其中q1,q2,q3,q4为位点B的基因频率,且q1+q2+q3+q4=1;
两个位点产生16单倍型表示为A1B1,A1B2,A1B3,A1B4,A2B1,A2B2,A2B3,A2B4,A3B1,A3B2,A3B3,A3B4,A4B1,A4B2,A4B3,A4B4;基因连锁不平衡系数表示为Dij,其代表Ai和Bj的连锁不平衡系数(i=1,2,3,4;j=1,2,3,4,下同);单倍型AiBj频率表示为pij;
步骤2、从所述自然群体中随机抽取n个同源四倍体个体,得到不同基因型个体数量nu/v;
步骤3、根据单体型频率计算相应的配子频率,并根据配子频率计算相应的基因型频率为pu/v;
如基因型为A3/B12的同源四倍体,其包含的基因型有A3A3A3A3B1B1B1B2,A3A3A3A3B1B1B2B2,A3A3A3A3B1B2B2B2,其基因型频率p3/12=2p3 31+3p31 2p32 2+2p31p32 3;
步骤4、
估算参数,未知单倍型频率Ω=(pij),根据如下似然函数值计算:logL(Ω)=Σnijlog(pij) (1)
由公式(1)获得单倍型频率的最大似然估计
让nu/v表示含有单倍型AiBj的基因型的个体数量,pu/v表示含有单倍型AiBj的基因型频率,pij表示pu/v中含有需要估算的单倍型AiBj的基因型频率;基因型中含有需要估算的单倍型并且只含有此单一的单倍型的同源四倍体的数量由mu/v表示;
需要估算的单倍型为AiBj的个体数量为
其中
其中k是与u,v相关的自然数;
根据公式(2)和公式(4)组成EM算法的一个循环;将单倍型频率的初始值来计算在E步骤的公式(4)中φk的估算值;然后使用所计算出的φk的估算值带入M步骤的公式(2)来估算单倍型频率;重复进行E和M步骤,直至单体型频率估计收敛,得到单倍型基因频率的估算值;
根据以下公式,通过单倍型基因频率获取两个位点的等位基因的估算频率;
根据以下公式,通过单倍型基因频率计算每两个位点间的连锁不平衡系数;
;
步骤5、根据以下公式验证估计分布与实际分布是否存在显著性差异;
H0:D11=D12=D13=D21=D22=D23=D31=D32=D33=0;
H1:Not H0 (5)
其中H0为同源四倍体各位点不存在连锁不平衡系数;
通过最大似然估计,分别估算和波浪线对应的零假设的最大似然估计,抑扬符号对应的备择假设的最大似然估计;
通过以下公式计算对数似然比的统计学检验
LR是遵循χ2分布,自由度是9;
将计算得到的LR进行卡方检验,判断得到的LR值经卡方检验是否呈显著差异,如果呈显著差异则最终结果为H0,如果不呈显著差异则最终结果为H1。
其中,所述方法还包括:
步骤6、将9个连锁不平衡系数分别进行检验。
其中,所述16单倍型的频率包含以下等位基因频率以及九个独立的连锁不平衡系数:
p11 p1q1+D11
p12 p1q2+D12
p13 p1q3+D13
p14 p1q4-D11-D12-D13
p21 p2q1+D21
p22 p2q2+D22
p23 p2q3+D23
p24 p2q4-D21-D22-D23
p31 p3q1+D31
p32 p3q2+D32
p33 p3q3+D33
p34 p3q4-D31-D32-D33
p41 p4q1-D11-D21-D31
p42 p4q2-D12-D22-D32
p43 p4q3-D13-D23-D33
p44 p4q4+D11+D12+D13+D21+D22+D23+D31+D32+D33
其中,所述位点A和位点B分别都具有35种基因型,在遗传上能够识别基因型共225种;
位点A有,4种AiAiAiAi,其中i=1,2,3,4;12种其中i1≠i2=1,2,3,4;6种其中i1≠i2=1,2,3,4;12种其中i1≠i2≠i3=1,2,3,4;1种A1A2A3A4;
位点B有,4种BjBjBjBj,其中j=1,2,3,4;12种Bj1Bj1Bj1Bj2,其中j1≠j2=1,2,3,4;6种Bj1Bj1Bj2Bj2,其中j1≠j2=1,2,3,4;12种Bj1Bj1Bj2Bj3,其中j1≠j2≠j3=1,2,3,4;1种B1B2B3B4;
两个位点,在遗传上能够识别的四倍体基因型共225种,表示为Au/Bv(u=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234;v=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234)。
本发明的上述技术方案的有益效果如下:
本发明实施例提供了一种同源四倍体的连锁不平衡分析方法,提出了一种根据同源四倍体减数分裂的特点推导出计算分子标记之间连锁不平衡的统计模型,并提供了检测各种连锁不平衡系数的方法;通过计算机模拟试验验证了本发明实施例的方法的有效性,指出了模型的适用条件。利用本研究发展的模型,我们可以对同源四倍体进行连锁不平衡检验,观测其连锁不平衡系数,了解其群体的结构。
附图说明
图1为本发明实施例的方法的流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提出了一种同源四倍体自然群体的连锁不平衡分析模型的构建方法,其流程如图1所示的,包括:
步骤1、对于本来自自然群体中一组同源四倍体植物,设置有一个位点A和一个位点B;
其中,该位点A具有4个等位基因,记为A1,A2,A3,A4;该位点B具有4个等位基因,记为B1,B2,B3,B4;其中p1,p2,p3,p4(p1+p2+p3+p4=1)为位点A的基因频率和q1,q2,q3,q4(q1+q2+q3+q4=1)为位点B的基因频率;
两个位点产生16个单倍型(不同位点的等位基因在同一染色体上的线性组合)表示为A1B1,A1B2,A1B3,A1B4,A2B1,A2B2,A2B3,A2B4,A3B1,A3B2,A3B3,A3B4,A4B1,A4B2,A4B3,A4B4;基因连锁不平衡系数表示为Dij(i=1,2,3,4;j=1,2,3,4),其代表Ai和Bj的连锁不平衡系数,其中独立的连锁不平衡系数有9个;单倍型AiBj频率表示为pij;
其中,所述16个单倍型的频率包含相应的等位基因频率以及九个独立的连锁不平衡系数,其组成见表1;
表1二倍体配子的单倍型的基因频率的组成
其中,所述两个位点分别都具有35种基因型;
所述位点A有,4种AiAiAiAi(i=1,2,3,4),12种(i1≠i2=1,2,3,4),6种(i1≠i2=1,2,3,4),12种(i1≠i2≠i3=1,2,3,4)和1种A1A2A3A4;
所述位点B有,4种BjBjBjBj,其中j=1,2,3,4;12种Bj1Bj1Bj1Bj2,其中j1≠j2=1,2,3,4;6种Bj1Bj1Bj2Bj2,其中j1≠j2=1,2,3,4;12种Bj1Bj1Bj2Bj3,其中j1≠j2≠j3=1,2,3,4;1种B1B2B3B4;
由于单个位点,在遗传上能够识别的四倍体基因型只有15种,两个位点共产生15*15=225种(见下表A、表B),因此,两位点四倍体基因型只有225种,表示为Au/Bv(u=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234;v=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234)。
表A:A位点的15种基因型
表B:B位点的15种基因型。
步骤2、假设从自然群体中随机抽取n个同源四倍体个体,用nu/v表示不同基因型个体数量。
步骤3、基因型频率是由相应的配子频率计算而来,配子频率是由相应的单体型频率计算而来,其相应的基因型频率表达为pu/v;如基因型为A3/B12的同源四倍体,其包含的基因型有A3A3A3A3B1B1B1B2,A3A3A3A3B1B1B2B2,A3A3A3A3B1B2B2B2,其基因型频率p3/12=2p3 31+3p31 2p32 2+2p31p32 3。
步骤4、估算参数,未知单倍型频率Ω=(pij),可根据如下似然函数值算出来:
logL(Ω)=Σnijlog(pij) (1)
其中nij是单倍型为AiBj的个体总数量;从式(1)可得到单倍型频率的最大似然估计,即
如果某种基因型频率不是单一的单倍型频率计算而来,而是多种(如A3/B12,其频率表示为p3/12=2p 3 31+3p31 2p32 2+2p31p32 3);设nu/v表示含有单倍型AiBj的基因型的个体数量,pu/v表示含有单倍型AiBj的基因型频率,pij表示pu/v中含有需要估算的单倍型AiBj的基因型频率;基因型中含有需要估算的单倍型并且只含有此单一的单倍型的同源四倍体的数量由mu/v表示;
需要估算的单倍型为AiBj的个体数量为
其中
其中k是与u,v相关的自然数;根据公式(2)和(4)组成EM算法的一个循环;设置单倍型频率的初始值来计算在E步骤(式4)中φk的估算值,使用所计算出的φk的估算值带入M步骤(式2)来估算单倍型频率;重复进行以上E和M步骤,直至单体型频率估计收敛,得到单倍型频率的估算值;两个位点的等位基因的估算频率可通过单倍型频率得到,见表2:
表2A、B两个位点的等位基因频率的估算的推导公式
每两个位点间的连锁不平衡系数的估算也可通过单倍型频率得到,见表3:
表3A、B两位点间连锁不平衡系数的估算的推导公式
步骤5、假设检验是依据一定的概率原则,以较小的风险来判断估计分布与实际分布是否存在显著性差异,是否应当接受H0原假设选择的一种检验方法。
对于是否存在连锁不平衡系数,可以制定以下假设(H0是指同源四倍体各
位点不存在连锁不平衡系数):
H0:D11=D12=D13=D21=D22=D23=D31=D32=D33=0;
H1:Not H0 (5)
通过最大似然估计,分别估算和波浪线对应的零假设的最大似然估计,抑扬符号对应的备择假设的最大似然估计;对数似然比的统计学检验可通过以下方程得到
LR是遵循χ2分布,自由度是9;
最终将得到的LR进行卡方检验,如果得到的LR值经卡方检验呈显著差异,我们则接受H1假设,反之,若不呈显著差异,我们则接受H0假设。
需要说明的是,虽然H0与H1是两个相互对立的假设,但是由于H0假设所有参数都被限定,仅仅包含一种情况。在参数受到限制的时候,似然函数最大值必然会受到约束影响而降低。而H1假设则自由度很高,没有任何的限制,因此似然函数最大值并不会受到约束。所以计算出来的L1是恒定大于等于L0的,因此得到的LR必定是一个非负数。最终计算出的LR是否大于零,也是检验模型的手段之一。
步骤6、上述进行了完全没有连锁不平衡系数和至少有一个系数的假设检验;在这个检验外,还可以9个连锁不平衡系数分别拿出来进行检验,H0是指同源四倍体两个位点的其中一个连锁不平衡系数不存在的情况;例如:
H0:D11=0or D12=0or D13=0or D21=0or D22=0or D23=0or D31=0or D32=0or D33=0;
H1:Not H0
LR是遵循χ2分布,自由度是1;
通过上述检验,可以知道在该位点每一个基因型频率是否符合遗传平衡定律,通过这一数据了解群体的遗传结构;
除了上述假设检验,模拟实验还进行了在不同样本下的模型的假阳性分析和模型的功效分析,见表4:
表4模型的假阳性和功效
在假设检验中,估算得到的假设检验的假阳性很低,说明模型在估算出现假阳性的可能性很低,证明模型的可行性和准确性;估算得到的假设检验的功效整体较大,其中D31=0的假设检验的功效明显较低,但并不影响整体的估算结果,连锁不平衡系数的估算是可以应用此模型进行的并可以得到较为准确的结果。
模拟实验
为了验证该同源四倍体两个位点分析模型的准确性与统计性质,使用计算机进行模拟实验;
假设A位点的A1、A2、A3、A4四种基因的基因频率为p1、p2、p3、p4分别等于0.0800、0.1000、0.1200、0.7000;同理,B位点的B1、B2、B3、B4四种基因的基因频率为q1、q2、q3、q4分别等于0.0900、0.0800、0.1300、0.7000。再假设所需估算的9个连锁不平衡系数D11、D12、D13、D21、D22、D23、D31、D32和D33分别等于0.0100、0.0200、0.0100、0.0050、0.0100、0.0010、0.0030、0.0050和0.0070;这套参数假设需要先使用参数的估算里面所提到的基因频率与基因型频率的关系式,求出这套参数的粗略范围,再进行参数假设;表5给出的是此参数下1000次计算机模拟实验的参数估算结果与方差。
表51000次计算机模拟实验的参数估算平均值与标准差
根据估算出参数与真实数据的接近程度,可以认定模型本身是正确的;其中n代表的是样本数;表中是在不同样本数量下,估算出的参数值,括号内代表的是标准差;根据1000次模拟实验的平均值,可以看出,随着样本数量的增大,估算出来的参数越接近真实值,同时标准差越来越小,说明估算出的结果越来越准确;当然,如果模型本身没有错,样本的增大必然导致估算结果越来越准确,需要找出的是样本数量与精准度之间的一个均衡,即利用较少的样本估算出相对精准的结果;从上表可以看出,在样本数量为200的情况下,估算的平均值可以满足需求。
下面通过三组例子对本发明实施例的方案进行验证:
实验1:第一组参数下的假设检验结果和模拟实验结果。
假设A位点的A1、A2、A3、A4四种基因的基因频率为p1、p2、p3、p4分别等于0.0800、0.1000、0.1200、0.7000。同理,B位点的B1、B2、B3、B4四种基因的基因频率为q1、q2、q3、q4分别等于0.0900、0.0800、0.1300、0.7000。再假设所需估算的9个连锁不平衡系数D11、D12、D13、D21、D22、D23、D31、D32和D33分别等于0.0100、0.0200、0.0100、0.0050、0.0100、0.0010、0.0030、0.0050和0.0070。
假设检验结果:
所有D=0的假设检验结果
D11=0的假设检验结果
D12=0的假设检验结果
D13=0的假设检验结果
D21=0的假设检验结果
D22=0的假设检验结果
D23=0的假设检验结果
D31=0的假设检验结果
D32=0的假设检验结果
D33=0的假设检验结果
模拟实验结果:
假阳性和功效结果:
实验2;第二组参数下的假设检验结果和模拟实验结果。
假设A位点的A1、A2、A3、A4四种基因的基因频率为p1、p2、p3、p4分别等于0.3000、0.2600、0.2000、0.2400。同理,B位点的B1、B2、B3、B4四种基因的基因频率为q1、q2、q3、q4分别等于0.2100、0.1800、0.4000、0.2100。再假设所需估算的9个连锁不平衡系数D11、D12、D13、D21、D22、D23、D31、D32和D33分别等于0.0020、0.0300、-0.0100、0.0100、0.0030、0.0100、0.0050、-0.0090和0.0060。
假设检验结果:
所有D=0的假设检验结果
D11=0的假设检验结果
D12=0的假设检验结果
D13=0的假设检验结果
D21=0的假设检验结果
D22=0的假设检验结果
D23=0的假设检验结果
D31=0的假设检验结果
D32=0的假设检验结果
D33=0的假设检验结果
模拟实验结果:
假阳性和功效结果:
实验3:第三组参数下的假设检验结果和模拟实验结果。
假设A位点的A1、A2、A3、A4四种基因的基因频率为p1、p2、p3、p4分别等于0.3600、0.4100、0.1200、0.1100。同理,B位点的B1、B2、B3、B4四种基因的基因频率为q1、q2、q3、q4分别等于0.0900、0.1400、0.3400、0.4300。再假设所需估算的9个连锁不平衡系数D11、D12、D13、D21、D22、D23、D31、D32和D33分别等于0.0200、-0.0010、0.0040、-0.0070、0.0100、0.0300、-0.0080、-0.0020和-0.0090。
假设检验结果:
所有D=0的假设检验结果
D11=0的假设检验结果
D12=0的假设检验结果
D13=0的假设检验结果
D21=0的假设检验结果
D22=0的假设检验结果
D23=0的假设检验结果
D31=0的假设检验结果
D32=0的假设检验结果
D33=0的假设检验结果
模拟实验结果:
假阳性和功效结果:
本发明实施例根据同源四倍体减数分裂的特点推导出计算分子标记之间连锁不平衡的统计模型,并指出检测各种连锁不平衡系数的计算程序。计算机模拟试验验证了模型有效性,指出了模型的适用条件;利用本研究发展的模型,我们可以对同源四倍体进行连锁不平衡检验,观测其连锁不平衡系数,了解其群体的结构。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种同源四倍体自然群体的连锁不平衡分析模型的构建方法,其特征在于,包括:
步骤1、对于来自自然群体中一组同源四倍体植物,设置一个位点A和一个位点B;
其中该位点A具有4个等位基因记为A1,A2,A3,A4;该位点B具有4个等位基因记为B1,B2,B3,B4;其中p1,p2,p3,p4为位点A的基因频率,且p1+p2+p3+p4=1;其中q1,q2,q3,q4为位点B的基因频率,且q1+q2+q3+q4=1;
两个位点产生16单倍型表示为A1B1,A1B2,A1B3,A1B4,A2B1,A2B2,A2B3,A2B4,A3B1,A3B2,A3B3,A3B4,A4B1,A4B2,A4B3,A4B4。基因连锁不平衡系数表示为Dij,其代表Ai和Bj的连锁不平衡系数,i=1,2,3,4;j=1,2,3,4,下同;单倍型AiBj频率表示为pij;
步骤2、从所述自然群体中随机抽取n个同源四倍体个体,得到不同基因型个体数量nu/v;
步骤3、根据单体型频率计算相应的配子频率,并根据配子频率计算计算相应的基因型频率为pu/v;
如基因型为A3/B12的同源四倍体,其包含的基因型有A3A3A3A3B1B1B1B2,A3A3A3A3B1B1B2B2,A3A3A3A3B1B2B2B2,其基因型频率p3/12=2p3 31+3p31 2p32 2+2p31p32 3;
步骤4、估算参数,未知单倍型频率Ω=(pij),根据如下似然函数值计算:
log L(Ω)=∑nijlog(pij) (1)
由(1)获得单倍型频率的最大似然估计
让nu/v表示含有单倍型AiBj的基因型的个体数量,pu/v表示含有单倍型AiBj的基因型频率,pij表示pu/v中含有需要估算的单倍型AiBj的基因型频率;基因型中含有需要估算的单倍型并且只含有此单一的单倍型的同源四倍体的数量由mu/v表示;;
需要估算的单倍型为AiBj的个体数量为
其中
其中k是与u,v相关的自然数;
根据公式(2)和公式(4)组成EM算法的一个循环;将单倍型频率的初始值来计算在E步骤的公式(4)中φk的估算值;然后使用所计算出的φk的估算值带入M步骤的公式(2)来估算单倍型频率;重复进行E和M步骤,直至单体型频率估计收敛,得到单倍型基因频率的估算值;
根据以下公式,通过单倍型基因频率获取两个位点的等位基因的估算频率;
根据以下公式,通过单倍型基因频率计算每两个位点间的连锁不平衡系数;
步骤5、根据以下公式验证估计分布与实际分布是否存在显著性差异;
H0:D11=D12=D13=D21=D22=D23=D31=D32=D33=0;
H1:Not H0 (5)
其中H0为同源四倍体各位点不存在连锁不平衡系数;
通过最大似然估计,分别估算和波浪线对应的零假设的最大似然估计,抑扬符号对应的备择假设的最大似然估计;
通过以下公式计算对数似然比的统计学检验
LR是遵循χ2分布,自由度是9;
将计算得到的LR进行卡方检验,判断得到的LR值经卡方检验是否呈显著差异,如果呈显著差异则最终结果为H0,如果不呈显著差异则最终结果为H1。
2.根据权利要求1所述的同源四倍体自然群体的连锁不平衡分析模型的构建方法,其特征在于,还包括:
步骤6、将9个连锁不平衡系数分别进行检验。
3.根据权利要求1所述的同源四倍体自然群体的连锁不平衡分析模型的构建方法,其特征在于,
所述步骤1中,所述16单倍型的频率包含以下等位基因频率以及九个独立的连锁不平衡系数:
4.根据权利要求1所述的同源四倍体自然群体的连锁不平衡分析模型的构建方法,其特征在于,
所述步骤1中,所述位点A和位点B分别都具有35种基因型,在遗传上能够识别基因型共225种;
位点A有,4种AiAiAiAi,其中i=1,2,3,4;12种其中i1≠i2=1,2,3,4;6种其中i1≠i2=1,2,3,4;12种其中i1≠i2≠i3=1,2,3,4;1种A1A2A3A4;
位点B有,4种BjBjBjBj,其中j=1,2,3,4;12种其中j1≠j2=1,2,3,4;6种其中j1≠j2=1,2,3,4;12种其中j1≠j2≠j3=1,2,3,4;1种B1B2B3B4;
两个位点,在遗传上能识别的基因型有225种,表示为Au/Bv(u=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234;v=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234)。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201410013164.8A CN103699815B (zh) | 2014-01-10 | 2014-01-10 | 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201410013164.8A CN103699815B (zh) | 2014-01-10 | 2014-01-10 | 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN103699815A CN103699815A (zh) | 2014-04-02 |
| CN103699815B true CN103699815B (zh) | 2017-06-13 |
Family
ID=50361342
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201410013164.8A Expired - Fee Related CN103699815B (zh) | 2014-01-10 | 2014-01-10 | 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN103699815B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116825194A (zh) * | 2023-06-20 | 2023-09-29 | 山东理工大学 | 一种同源四倍体双减数参数与hwd系数的联合测定方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1166837A (zh) * | 1994-11-09 | 1997-12-03 | 塞达斯-西奈医疗中心 | 染色体21基因标记,组合物及其使用方法 |
| CN101008032A (zh) * | 2006-01-26 | 2007-08-01 | 北京华安佛医药研究中心有限公司 | 多态性位点基因型预测磺脲类药物作用效果的用途和方法 |
| CN101687901A (zh) * | 2007-05-17 | 2010-03-31 | 孟山都技术公司 | 玉米多态性与基因分型方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1288301A1 (en) * | 2001-08-31 | 2003-03-05 | Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Berlin | Plant-derived resistance gene |
| US20070027636A1 (en) * | 2005-07-29 | 2007-02-01 | Matthew Rabinowitz | System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions |
-
2014
- 2014-01-10 CN CN201410013164.8A patent/CN103699815B/zh not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1166837A (zh) * | 1994-11-09 | 1997-12-03 | 塞达斯-西奈医疗中心 | 染色体21基因标记,组合物及其使用方法 |
| CN101008032A (zh) * | 2006-01-26 | 2007-08-01 | 北京华安佛医药研究中心有限公司 | 多态性位点基因型预测磺脲类药物作用效果的用途和方法 |
| CN101687901A (zh) * | 2007-05-17 | 2010-03-31 | 孟山都技术公司 | 玉米多态性与基因分型方法 |
Non-Patent Citations (3)
| Title |
|---|
| 四倍体杂交群体的三点连锁分析模型;吕亚非;《中国博士学位论文全文数据库农业科技辑 》;20131015(第10期);全文 * |
| 海岛棉产量和纤维品质性状的关联与遗传连锁分析;王夏青;《中国优秀硕士学位论文全文数据库农业科技辑》;20130215(第2期);全文 * |
| 陆地棉遗传多样性与育种目标性状基因QTL的关联分析;钱能;《中国博士学位论文全文数据库农业科技辑 》;20110415(第4期);全文 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN103699815A (zh) | 2014-04-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Thompson | Identity by descent: variation in meiosis, across genomes, and in populations | |
| Meirmans et al. | Analysis of molecular variance (AMOVA) for autopolyploids | |
| Korte et al. | The advantages and limitations of trait analysis with GWAS: a review | |
| Zhao et al. | Effects of landscapes and range expansion on population structure and local adaptation | |
| Mora et al. | Genome-wide association mapping of agronomic traits and carbon isotope discrimination in a worldwide germplasm collection of spring wheat using SNP markers | |
| Harris et al. | Admixture and ancestry inference from ancient and modern samples through measures of population genetic drift | |
| Chen et al. | Genotype calling and haplotyping in parent-offspring trios | |
| US20100145624A1 (en) | Statistical validation of candidate genes | |
| Crawford et al. | Assessing the accuracy and power of population genetic inference from low-pass next-generation sequencing data | |
| Zheng et al. | Haplotype reconstruction in connected tetraploid F1 populations | |
| Pace et al. | Genomic prediction of seedling root length in maize (Zea mays L.) | |
| Xu et al. | Mapping quantitative trait loci using distorted markers | |
| Voshall et al. | Next-generation transcriptome assembly and analysis: Impact of ploidy | |
| Segatto et al. | Molecular insights into the purple‐flowered ancestor of garden petunias | |
| CN105404793B (zh) | 基于概率框架和重测序技术快速发现表型相关基因的方法 | |
| Lu et al. | A multilocus likelihood approach to joint modeling of linkage, parental diplotype and gene order in a full-sib family | |
| Keele | Which mouse multiparental population is right for your study? The Collaborative Cross inbred strains, their F1 hybrids, or the Diversity Outbred population | |
| Pérez‐Enciso | Genomic relationships computed from either next‐generation sequence or array SNP data | |
| Galla et al. | Differential introgression and effective size of marker type influence phylogenetic inference of a recently divergent avian group (Phasianidae: Tympanuchus) | |
| Zhang et al. | Linkage analysis and map construction in genetic populations of clonal F1 and double cross | |
| Berkman et al. | A survey sequence comparison of Saccharum genotypes reveals allelic diversity differences | |
| CN103699815B (zh) | 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 | |
| US10395757B2 (en) | Parental genome assembly method | |
| Tong et al. | A hidden Markov model approach to multilocus linkage analysis in a full-sib family | |
| CN108197435A (zh) | 一种基于标记位点基因型含有误差的多性状多区间定位方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| CB03 | Change of inventor or designer information |
Inventor after: Jiang Libo Inventor after: Wu Rongling Inventor after: Feng Sisi Inventor before: Wu Rongling Inventor before: Feng Sisi |
|
| COR | Change of bibliographic data | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170613 |
|
| CF01 | Termination of patent right due to non-payment of annual fee |