[go: up one dir, main page]

CN103778350B - 基于二维统计模型的体细胞拷贝数变异显著性检测方法 - Google Patents

基于二维统计模型的体细胞拷贝数变异显著性检测方法 Download PDF

Info

Publication number
CN103778350B
CN103778350B CN201410010002.9A CN201410010002A CN103778350B CN 103778350 B CN103778350 B CN 103778350B CN 201410010002 A CN201410010002 A CN 201410010002A CN 103778350 B CN103778350 B CN 103778350B
Authority
CN
China
Prior art keywords
scna
dimensional
statistics
copy number
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410010002.9A
Other languages
English (en)
Other versions
CN103778350A (zh
Inventor
袁细国
张军英
杨利英
张胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201410010002.9A priority Critical patent/CN103778350B/zh
Publication of CN103778350A publication Critical patent/CN103778350A/zh
Application granted granted Critical
Publication of CN103778350B publication Critical patent/CN103778350B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其包括,S1采集SCNA数据,并对SCNA数据进行预处理;S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。

Description

基于二维统计模型的体细胞拷贝数变异显著性检测方法
技术领域
本发明一种基于二维统计模型的体细胞拷贝数变异显著性检测方法。
背景技术
体细胞拷贝数变异(somatic copy number alteration,SCNA)是癌症基因组中的重要现象。它主要表现为拷贝数的扩增和缺失两种状态,与癌细胞的发生、发展有密切联系。因此,对SCNA进行系统的分析为从分子水平上研究癌症的致病机理提供了重要途径,其最底层、最核心的问题是如何区分具有癌症功能的SCNA模式与随机发生的SCNA。
众多研究表明,SCNA功能模式往往隐含于癌症基因组样本的一致变异区域中,那么建立以统计理论为基础的计算方法,检测SCNA在多个样本中重复发生的(Recurrent)显著性水平,为鉴定SCNA功能模式及发现潜在癌症基因提供直接的、可行的技术手段,进而为生物医学家对癌症的预测和诊断提供重要信息。因此,建立合理而有效的统计检验模型至关重要。
高通量全基因组SCNA位点的密集性及其结构的复杂性,给统计检验模型的建立及SCNA显著性的检测带来了极大的挑战,主要体现在以下两个方面。第一,问题本身的难点:a)位点数目高达180多万而样本数往往较少,形成了一种高纬度小样本的数据格局;b)SCNA位点之间存在较强的关联性,并非独立,使得检测因子之间存在交互影响;c)拷贝数扩增或缺失状态包括两方面的特征,即变异频率和变异幅度,这要求一个合理的权衡这两个特征的机制;d)SCNA 结构模式的长度不尽相同,这要求考虑不同长度的SCNA具有不同的背景分布。第二,解决问题的理论和方法的挑战性:a)数据规模大,对计算时间和空间复杂度的有效控制是一个挑战问题;b)如何充分考虑SCNA位点间的关联性、降低SCNA显著性水平估计的保守性,是一个难点问题;c)如何建立与统计量具有一致性的零假设分布,增强显著性水平估计的统计意义,是一个重点且目前尚未突破的问题。
发明内容
为了解决上述问题,本发明一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其特征在于:其包括,
S1采集SCNA数据,并对SCNA数据进行预处理;
S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;
S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;
S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。
在上述技术方案的基础上,所述步骤S1包括:
对SCNA信号进行处理,以获取可对比的SCNA信号;利用分割算法对噪声进行处理,并定义SCNA扩增与缺失状态。
在上述技术方案的基础上,所述步骤S2包括:利用Pearson公式计算SCNA邻近位点间的关系系数,并将染色体分割成多个相对独立的SCNA结构单元。
在上述技术方案的基础上,步骤S3包括
利用已知的SCNA功能模式构造训练集,学习频率w1和幅度的权重w2,计算统计量,
Stest=w1*f+w2*a
其中,f,a,Stest分别指训练集中SCNA功能模式的频率,幅度,及统计量的值。
在上述技术方案的基础上,所述步骤S3还包括:
所述二维随机置换具体过程如下:
a)针对SCNA出现的频率,随机置换其在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的发生频率,建立基于频率的零分布Df
b)针对SCNA的变异幅度,随机置换幅度在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的幅度,建立基于幅度的零分布Da
c)利用有监督学习的权重,w1和w2,构造零分布D,以检测统计量的显著性水平:
其中D=w1*Df+w2*Da
与现有技术相比,本发明拷贝数变异两方面的特征:变异频率和变异幅度,都具有重要的生物意义,那么构造基于这两个特征的统计量及统计检验模型有利于客观估计拷贝数变异的显著性水平;而现有技术往往仅强调拷贝数变异频率,容易忽略变异幅度的重要性;为此,本发明在这两方面的特征空间上,建 立二维统计检验模型,并通过有监督学习策略权衡这两个特征以合理地计算统计量,这不仅使得假设检验模型与统计量具有一致性,而且能够增强显著性水平估计的统计和生物双重意义。
附图说明
图1是本发明的流程图。
具体实施方式
请参考图1,一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其特征在于:其包括,
S1采集SCNA数据,并对SCNA数据进行预处理;
S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;
S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;
S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。
在上述技术方案的基础上,所述步骤S1包括:
对SCNA信号进行处理,以获取可对比的SCNA信号;利用分割算法对噪声进行处理,并定义SCNA扩增与缺失状态。SCNA信号预处理是指对信号进行标准化及对数转换,即针对每一个癌症样本,将其拷贝数信号与其配对的正常组织的拷贝数变异信号进行比对,并基于所分析的样本集建立一个参考样本,以 对所有的样本进行规范化。这样可以减弱不同样本之间存在的Batch效应,同时消除生殖细胞对SCNA信号的影响。
在上述技术方案的基础上,所述步骤S2包括:利用Pearson公式计算SCNA邻近位点间的关系系数,并将染色体分割成多个相对独立的SCNA结构单元。
在上述技术方案的基础上,步骤S3包括
利用已知的SCNA功能模式构造训练集,学习频率w1和幅度的权重w2,计算统计量,
Stest=w1*f+w2*a
其中,f,a,Stest分别指训练集中SCNA功能模式的频率,幅度,及统计量的值。
在上述技术方案的基础上,所述步骤S3还包括:
所述二维随机置换具体过程如下:
a)针对SCNA出现的频率,随机置换其在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的发生频率,建立基于频率的零分布Df
b)针对SCNA的变异幅度,随机置换幅度在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的幅度,建立基于幅度的零分布Da
c)利用有监督学习的权重,w1和w2,构造零分布D,以检测统计量的显著性水平:
其中D=w1*Df+w2*Da
同时,本发明以下三个方面对算法的性能进行评价:a)判断算法能否在错误肯定率(FPR)可控的情况下,获得较高的正确肯定率(TPR);b)评价算法是否能够较准确地估计p值(Type I Error Rate),即算法的统计模型是否具 有较强的统计意义;c)分析算法的计算复杂度。为此,我们拟以Affymetrix全基因组SNP6.0芯片检测的正常细胞拷贝数为背景,以概率论和非稳定模型基础,构建马尔可夫SCNA仿真方法,模拟大规模的SCNA数据,对本发明的方法性能进行测试。对于c),从理论上分析,SCNA结构单元数比位点数小得多,故基于结构单元的置换策略比基于位点的置换策略花费计算时间少得多,因此算法的时间复杂度相对较低。
综上所述,仅为本发明之较佳实施例,不以此限定本发明的保护范围,凡依本发明专利范围及说明书内容所作的等效变化与修饰,皆为本发明专利涵盖的范围之内。

Claims (3)

1.一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其特征在于:其包括,
S1采集SCNA数据,并对SCNA数据进行预处理;
S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;
S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;利用已知的SCNA功能模式构造训练集,学习频率的权重w1和幅度的权重w2,计算统计量,
Stest=w1*f+w2*a
其中,f,a,Stest分别指训练集中SCNA功能模式的频率,幅度,及统计量的值;
所述二维随机置换具体过程如下:
a)针对SCNA出现的频率,随机置换其在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的发生频率,建立基于频率的零分布Df
b)针对SCNA的变异幅度,随机置换幅度在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的幅度,建立基于幅度的零分布Da
c)利用有监督学习的权重,w1和w2,构造零分布D,以检测统计量的显著性水平:
其中D=w1*Df+w2*Da
S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。
2.如权利要求1所述的一种基于二维统计模型的体细胞拷贝数变异显著性 检测方法,其特征在于:所述步骤S1包括:
对SCNA信号进行预处理,以获取可对比的SCNA信号;利用分割算法对噪声进行处理,并定义SCNA扩增与缺失状态。
3.如权利要求1所述的一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其特征在于:所述步骤S2包括:利用Pearson公式计算SCNA邻近位点间的关系系数,并将染色体分割成多个相对独立的SCNA结构单元。
CN201410010002.9A 2014-01-09 2014-01-09 基于二维统计模型的体细胞拷贝数变异显著性检测方法 Expired - Fee Related CN103778350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410010002.9A CN103778350B (zh) 2014-01-09 2014-01-09 基于二维统计模型的体细胞拷贝数变异显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410010002.9A CN103778350B (zh) 2014-01-09 2014-01-09 基于二维统计模型的体细胞拷贝数变异显著性检测方法

Publications (2)

Publication Number Publication Date
CN103778350A CN103778350A (zh) 2014-05-07
CN103778350B true CN103778350B (zh) 2016-10-05

Family

ID=50570578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410010002.9A Expired - Fee Related CN103778350B (zh) 2014-01-09 2014-01-09 基于二维统计模型的体细胞拷贝数变异显著性检测方法

Country Status (1)

Country Link
CN (1) CN103778350B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10910086B2 (en) * 2014-08-15 2021-02-02 Life Technologies Corporation Methods and systems for detecting minor variants in a sample of genetic material
CN105760712B (zh) * 2016-03-01 2019-03-26 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
CN106682455B (zh) * 2016-11-24 2019-03-26 西安电子科技大学 一种多样本拷贝数一致性变异区域的统计检验方法
CN106650312B (zh) * 2016-12-29 2022-05-17 浙江安诺优达生物科技有限公司 一种用于循环肿瘤dna拷贝数变异检测的装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5919624A (en) * 1997-01-10 1999-07-06 The United States Of America As Represented By The Department Of Health & Human Services Methods for detecting cervical cancer
CN102103750A (zh) * 2011-01-07 2011-06-22 杭州电子科技大学 基于韦伯定理和中央-周围假设的视觉显著性检测方法
CN103093119A (zh) * 2013-01-24 2013-05-08 南京大学 一种利用网络结构信息识别显著生物通路的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7822555B2 (en) * 2002-11-11 2010-10-26 Affymetrix, Inc. Methods for identifying DNA copy number changes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5919624A (en) * 1997-01-10 1999-07-06 The United States Of America As Represented By The Department Of Health & Human Services Methods for detecting cervical cancer
CN102103750A (zh) * 2011-01-07 2011-06-22 杭州电子科技大学 基于韦伯定理和中央-周围假设的视觉显著性检测方法
CN103093119A (zh) * 2013-01-24 2013-05-08 南京大学 一种利用网络结构信息识别显著生物通路的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"a faster circular binary segmention algorithm for the analysis of CGH data";E.S.Venkatraman etal;《original paper》;20070118;第23卷(第6期);第657-663页 *
"改进的基因拷贝数变异检测算法";李平等;《计算机工程》;20130131;第39卷(第1期);第309-312页 *
Vonn walter etal."DiNAMIC: Amethod to identify recurrent DNA copy number aberrations in tumors".《Bioinformatics》.2010,第27卷(第5期),第678-685页. *
Xiguo Yuan etal."TAG: A method to identify significant consensus events of copy number alterations in cancer".《PloSone》.2012,第7卷(第7期),第1-10页. *

Also Published As

Publication number Publication date
CN103778350A (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
Brill et al. Testing for differential abundance in compositional counts data, with application to microbiome studies
Pavlidis et al. A survey of methods and tools to detect recent and strong positive selection
CN105760712B (zh) 一种基于新一代测序的拷贝数变异检测方法
Caron et al. On-line changepoint detection and parameter estimation with application to genomic data
Nevado et al. Resequencing studies of nonmodel organisms using closely related reference genomes: optimal experimental designs and bioinformatics approaches for population genomics
CN109887546B (zh) 基于二代测序的单基因或多基因拷贝数检测系统及方法
Reeves et al. Accurate inference of subtle population structure (and other genetic discontinuities) using principal coordinates
Scott-Boyer et al. An integrated hierarchical Bayesian model for multivariate eQTL mapping
CN103778350B (zh) 基于二维统计模型的体细胞拷贝数变异显著性检测方法
US11473133B2 (en) Methods for validation of microbiome sequence processing and differential abundance analyses via multiple bespoke spike-in mixtures
CN106529165A (zh) 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法
CN110111840B (zh) 一种体细胞突变检测方法
Jurburg et al. The community ecology perspective of omics data
Bjorner et al. Detectability of varied hybridization scenarios using genome-scale hybrid detection methods
CN104063459A (zh) 一种基于流感病毒刺激的细胞差异基因数据分类系统
Le et al. Expanding Polygenic Risk Scores to Include Automatic Genotype Encodings and Gene-gene Interactions.
Malhotra et al. A random forest classifier for detecting rare variants in NGS data from viral populations
Kang et al. Sparse generalized canonical correlation analysis for biological model integration: a genetic study of psychiatric disorders
CN106682455A (zh) 一种多样本拷贝数一致性变异区域的统计检验方法
Lindgren et al. A likelihood ratio-based approach for improved source attribution in microbiological forensic investigations
Coombes et al. A combination test for detection of gene‐environment interaction in cohort studies
CN119049546B (zh) 基因遗传位点定位方法、装置、电子设备、存储介质
Yuan et al. RSim: A reference-based normalization method via rank similarity
CN116981779B (zh) 用于从Hi-C矩阵识别染色质结构特征的方法、存储用于从Hi-C矩阵中识别染色质结构特征的程序的非瞬态计算机可读介质
CN101565747B (zh) 一种提取多种基因集合特征表达模式的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161005