[go: up one dir, main page]

CN110400603A - 基于格局加权的ibd矩阵计算方法 - Google Patents

基于格局加权的ibd矩阵计算方法 Download PDF

Info

Publication number
CN110400603A
CN110400603A CN201910666056.3A CN201910666056A CN110400603A CN 110400603 A CN110400603 A CN 110400603A CN 201910666056 A CN201910666056 A CN 201910666056A CN 110400603 A CN110400603 A CN 110400603A
Authority
CN
China
Prior art keywords
ibd
pattern
haplotype
haplotype pattern
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910666056.3A
Other languages
English (en)
Inventor
王淑栋
李华昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201910666056.3A priority Critical patent/CN110400603A/zh
Publication of CN110400603A publication Critical patent/CN110400603A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于格局加权的IBD矩阵计算方法。本发明根据大家族、多位点、低缺失率的基因型数据特点,提出利用联合条件概率来衡量单体型格局出现的可能性大小,引入横向和纵向控制参数,采取有界深度优先和分支定界的搜索策略,建立基于多个可能单体型格局的家族个体间在染色体指定位点的加权IBD计算方法。

Description

基于格局加权的IBD矩阵计算方法
技术领域
本发明属于生物遗传学技术领域,涉及基于格局加权的IBD矩阵计算方法。
背景技术
新一代基因测序技术的飞速发展使得人类基因组计划提前完成,核酸数据库、基因的遗传、物理及转录表达图谱已趋完整,这为生物遗传学家和相关领域研究者提供了染色体侯选区域内海量的高密度遗传多态性标志信息。如何充分利用这些微卫星多态性(microsatellite polymorphisms)或核苷酸多态性(single-nucleotide polymorphisms,SNP)携带的重要遗传学信息。
本发明针对密集SNP的大家族缺失型数据,分析SNP数据多标记位点的连锁关系,利用出现可能性较高的单体型格局及其联合条件概率,提出家族成员在染色体任意位置的IBD(identity-by descent)矩阵加权估计方法,为复杂疾病的遗传方式研究提供重要依据。在单体型格局生成过程进行后,既使我们采用多种策略来减少可能出现的单体型格局,但最终还是得到大量的单体型格局。而传统的方法在计算一个家族中任何两个个体在某个确定位点的IBD时却是针对一个确定的单体型格局而言的。因此,我们提出将每个单体型格局的联合条件概率作为相应权,最终得到格局加权的IBD矩阵。其中我们要对单体型格局的权值进行特殊处理,因为一个单体型格局的联合条件概率一般情况下是一个非常小的小数,如果直接当权使用可能会导致计算结果异常。
发明内容
本发明的目的在于提供基于格局加权的IBD矩阵计算方法。本发明针对密集SNP的大家族缺失型数据,分析SNP数据多标记位点的连锁关系,利用出现可能性较高的单体型格局及其联合条件概率,提出家族成员在染色体任意位置的IBD(identity-by descent)矩阵加权估计方法,为复杂疾病的遗传方式研究提供重要依据。
本发明所采用的技术方案是包括基于格局加权的IBD矩阵计算方法。
对于单个单体型格局,利用递归算法计算家族成员间在某一指定位点的IBD矩阵。基于观测数据D,个体i从双亲x继承的等位基因与祖先j从双亲y继承的等位基因(i>j)在QTL上的IBD概率为:
其中分别是等位基因与x的父本等位基因和母本等位基因的IBD概率。是个体i分别从双亲x等位基因继承等位基因的概率。这样,家族中任意两个个体i和j(i>j)在一个假定QTL d处的IBD概率为:
基于原始大家族缺失数据,可以得到一个与原始数据相吻合的单体型格局集。基于其中任何一个而忽略其他单体型格局得到的IBD矩阵都不准确。因此采用对单体型格局加权的策略来计算最终的IBD矩阵,即:其中hci是单体型格局集中的单体型格局,是基于家族数据D(单体型格局)的IBD矩阵,pr(hci|D)是给定观测家族数据D条件下单体型格局hci出现的概率。只取联合条件概率最大的前ns(一个事先给定的控制参数)个单体型格局进行计算,每个单体型格局用于计算的权值也做了相应的处理。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明基于格局加权的IBD矩阵计算方法:对于单个单体型格局,利用递归算法计算家族成员间在某一指定位点的IBD矩阵。基于观测数据D,个体i从双亲x继承的等位基因与祖先j从双亲y继承的等位基因(i>j)在QTL上的IBD概率为:
其中分别是等位基因与x的父本等位基因和母本等位基因的IBD概率。是个体i分别从双亲x等位基因继承等位基因的概率。这样,家族中任意两个个体i和j(i>j)在一个假定QTLd处的IBD概率为:
基于原始大家族缺失数据,可以得到一个与原始数据相吻合的单体型格局集。基于其中任何一个而忽略其他单体型格局得到的IBD矩阵都不准确。因此采用对单体型格局加权的策略来计算最终的IBD矩阵,即:其中hci是单体型格局集中的单体型格局,是基于家族数据D(单体型格局)的IBD矩阵,pr(hci|D)是给定观测家族数据D条件下单体型格局hci出现的概率。只取联合条件概率最大的前ns(一个事先给定的控制参数)个单体型格局进行计算,每个单体型格局用于计算的权值也做了相应的处理。
本发明根据大家族、多位点、低缺失率的基因型数据特点,提出利用联合条件概率来衡量单体型格局出现的可能性大小,引入横向和纵向控制参数,采取有界深度优先和分支定界的搜索策略,建立基于多个可能单体型格局的家族个体间在染色体指定位点的加权IBD计算方法。
以上所述仅是对本发明的较佳实施方式而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (1)

1.基于格局加权的IBD矩阵计算方法,其特征在于:对于单个单体型格局,利用递归算法计算家族成员间在某一指定位点的IBD矩阵,基于观测数据D,个体i从双亲x继承的等位基因与祖先j从双亲y继承的等位基因在QTL上的IBD概率为:
其中分别是等位基因与x的父本等位基因和母本等位基因的IBD概率,是个体i分别从双亲x等位基因继承等位基因的概率,这样,家族中任意两个个体i和j(i>j)在一个假定QTL d处的IBD概率为:
基于原始大家族缺失数据,可以得到一个与原始数据相吻合的单体型格局集,基于其中任何一个而忽略其他单体型格局得到的IBD矩阵都不准确,因此采用对单体型格局加权的策略来计算最终的IBD矩阵:其中hci是单体型格局集中的单体型格局,是基于家族数据D单体型格局的IBD矩阵,pr(hci|D)是给定观测家族数据D条件下单体型格局hci出现的概率,只取联合条件概率最大的前ns个单体型格局进行计算,每个单体型格局用于计算的权值也做了相应的处理。
CN201910666056.3A 2019-07-23 2019-07-23 基于格局加权的ibd矩阵计算方法 Pending CN110400603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910666056.3A CN110400603A (zh) 2019-07-23 2019-07-23 基于格局加权的ibd矩阵计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910666056.3A CN110400603A (zh) 2019-07-23 2019-07-23 基于格局加权的ibd矩阵计算方法

Publications (1)

Publication Number Publication Date
CN110400603A true CN110400603A (zh) 2019-11-01

Family

ID=68325754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910666056.3A Pending CN110400603A (zh) 2019-07-23 2019-07-23 基于格局加权的ibd矩阵计算方法

Country Status (1)

Country Link
CN (1) CN110400603A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077775A1 (en) * 2000-05-25 2002-06-20 Schork Nicholas J. Methods of DNA marker-based genetic analysis using estimated haplotype frequencies and uses thereof
US20050089906A1 (en) * 2003-09-19 2005-04-28 Nec Corporation Et Al. Haplotype estimation method
US20110117552A1 (en) * 2002-10-18 2011-05-19 Cedars-Sinai Medical Center Methods of using a nod2/card15 haplotype to diagnose crohn's disease
CN107977550A (zh) * 2017-12-29 2018-05-01 天津科技大学 一种基于压缩的快速分析致病基因算法
CN109072299A (zh) * 2016-05-12 2018-12-21 先锋国际良种公司 同时合并基因分型的方法
CN109477145A (zh) * 2016-07-05 2019-03-15 剑桥企业有限公司 炎症性肠病的生物标志物
CN109493919A (zh) * 2018-10-31 2019-03-19 中国石油大学(华东) 基于条件概率的基因型指派方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077775A1 (en) * 2000-05-25 2002-06-20 Schork Nicholas J. Methods of DNA marker-based genetic analysis using estimated haplotype frequencies and uses thereof
US20110117552A1 (en) * 2002-10-18 2011-05-19 Cedars-Sinai Medical Center Methods of using a nod2/card15 haplotype to diagnose crohn's disease
US20050089906A1 (en) * 2003-09-19 2005-04-28 Nec Corporation Et Al. Haplotype estimation method
CN109072299A (zh) * 2016-05-12 2018-12-21 先锋国际良种公司 同时合并基因分型的方法
CN109477145A (zh) * 2016-07-05 2019-03-15 剑桥企业有限公司 炎症性肠病的生物标志物
CN107977550A (zh) * 2017-12-29 2018-05-01 天津科技大学 一种基于压缩的快速分析致病基因算法
CN109493919A (zh) * 2018-10-31 2019-03-19 中国石油大学(华东) 基于条件概率的基因型指派方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BIN YAN ET AL.: "An efficient weighted tag SNP-set analytical method in genome-wide association studies", pages 1 - 8 *
GUIMIN GAO ET AL.: "Approximating Identity-by-Descent Matrices Using Multiple Haplotype Configurations on Pedigrees", 《GENETICS》, vol. 171, no. 1, pages 365 - 376 *
LIDE HAN ET AL.: "Using identity by descent estimation with dense genotype data to detect positive selection", pages 205 - 211 *
蔡振媛 等: "基于线粒体控制区的序列变异分析青海东部甘肃鼢鼠遗传多样性", vol. 50, no. 3, pages 337 - 351 *

Similar Documents

Publication Publication Date Title
Gao et al. Dissecting yield-associated loci in super hybrid rice by resequencing recombinant inbred lines and improving parental genome sequences
Wang et al. A complete gap-free diploid genome in Saccharum complex and the genomic footprints of evolution in the highly polyploid Saccharum genus
Zhou et al. Construction of a SNP-based genetic linkage map in cultivated peanut based on large scale marker development using next-generation double-digest restriction-site-associated DNA sequencing (ddRADseq)
Lv et al. Genetic diversity and population structure of cucumber (Cucumis sativus L.)
Giraud et al. Linkage disequilibrium with linkage analysis of multiline crosses reveals different multiallelic QTL for hybrid performance in the flint and dent heterotic groups of maize
Yu et al. QTL mapping of leafy heads by genome resequencing in the RIL population of Brassica rapa
CN116334248B (zh) 一种地方鸡遗传资源保护与品种鉴定的液相芯片及其应用
Van Deynze et al. Diversity in conserved genes in tomato
Yonemaru et al. Genome-wide haplotype changes produced by artificial selection during modern rice breeding in Japan
Liu et al. Development of genome-wide insertion and deletion markers for maize, based on next-generation sequencing data
Xiong et al. Genomic survey sequencing, development and characterization of single-and multi-locus genomic SSR markers of Elymus sibiricus L
Li et al. Construction of high-quality recombination maps with low-coverage genomic sequencing for joint linkage analysis in maize
Zhao et al. Genetic basis of tiller dynamics of rice revealed by genome-wide association studies
Cheng et al. Signatures of differential selection in chloroplast genome between japonica and indica
CN114941033A (zh) 一种基于snp位点辅助培育地方优质白羽鸡高产蛋品系的方法
CN103045739A (zh) 一种拟穴青蟹SNPs分子标记的筛选方法
Jensen et al. Mapping in an apple (Malus x domestica) F1segregating population based on physical clustering of differentially expressed genes
WO2020109356A1 (en) Vector-based haplotype identification
CN104672315B (zh) 控制黄瓜无卷须性状的基因及与黄瓜卷须性状相关的snp标记
CN104789648B (zh) 鉴定水稻CMS恢复基因Rf‑1区段单倍型的分子标记及其应用
Wang et al. High-density genetic map construction in sugar beet (Beta vulgaris L.) by high-throughput technology
CN109493919B (zh) 基于条件概率的基因型指派方法
CN110400603A (zh) 基于格局加权的ibd矩阵计算方法
CN116254364B (zh) 与花生脂肪含量性状相关的snp标记及其应用
CN107354151A (zh) 基于梅花鹿全基因组开发的str分子标记及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191101

RJ01 Rejection of invention patent application after publication