CN103778350B - 基于二维统计模型的体细胞拷贝数变异显著性检测方法 - Google Patents
基于二维统计模型的体细胞拷贝数变异显著性检测方法 Download PDFInfo
- Publication number
- CN103778350B CN103778350B CN201410010002.9A CN201410010002A CN103778350B CN 103778350 B CN103778350 B CN 103778350B CN 201410010002 A CN201410010002 A CN 201410010002A CN 103778350 B CN103778350 B CN 103778350B
- Authority
- CN
- China
- Prior art keywords
- scna
- dimensional
- statistics
- copy number
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013179 statistical model Methods 0.000 title claims abstract description 9
- 210000001082 somatic cell Anatomy 0.000 title claims abstract description 7
- 238000001514 detection method Methods 0.000 title claims description 4
- 238000009826 distribution Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 12
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 11
- 201000011510 cancer Diseases 0.000 claims abstract description 11
- 210000000349 chromosome Anatomy 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000392 somatic effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 8
- 238000000528 statistical test Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 108700019961 Neoplasm Genes Proteins 0.000 description 1
- 102000048850 Neoplasm Genes Human genes 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其包括,S1采集SCNA数据,并对SCNA数据进行预处理;S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。
Description
技术领域
本发明一种基于二维统计模型的体细胞拷贝数变异显著性检测方法。
背景技术
体细胞拷贝数变异(somatic copy number alteration,SCNA)是癌症基因组中的重要现象。它主要表现为拷贝数的扩增和缺失两种状态,与癌细胞的发生、发展有密切联系。因此,对SCNA进行系统的分析为从分子水平上研究癌症的致病机理提供了重要途径,其最底层、最核心的问题是如何区分具有癌症功能的SCNA模式与随机发生的SCNA。
众多研究表明,SCNA功能模式往往隐含于癌症基因组样本的一致变异区域中,那么建立以统计理论为基础的计算方法,检测SCNA在多个样本中重复发生的(Recurrent)显著性水平,为鉴定SCNA功能模式及发现潜在癌症基因提供直接的、可行的技术手段,进而为生物医学家对癌症的预测和诊断提供重要信息。因此,建立合理而有效的统计检验模型至关重要。
高通量全基因组SCNA位点的密集性及其结构的复杂性,给统计检验模型的建立及SCNA显著性的检测带来了极大的挑战,主要体现在以下两个方面。第一,问题本身的难点:a)位点数目高达180多万而样本数往往较少,形成了一种高纬度小样本的数据格局;b)SCNA位点之间存在较强的关联性,并非独立,使得检测因子之间存在交互影响;c)拷贝数扩增或缺失状态包括两方面的特征,即变异频率和变异幅度,这要求一个合理的权衡这两个特征的机制;d)SCNA 结构模式的长度不尽相同,这要求考虑不同长度的SCNA具有不同的背景分布。第二,解决问题的理论和方法的挑战性:a)数据规模大,对计算时间和空间复杂度的有效控制是一个挑战问题;b)如何充分考虑SCNA位点间的关联性、降低SCNA显著性水平估计的保守性,是一个难点问题;c)如何建立与统计量具有一致性的零假设分布,增强显著性水平估计的统计意义,是一个重点且目前尚未突破的问题。
发明内容
为了解决上述问题,本发明一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其特征在于:其包括,
S1采集SCNA数据,并对SCNA数据进行预处理;
S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;
S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;
S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。
在上述技术方案的基础上,所述步骤S1包括:
对SCNA信号进行处理,以获取可对比的SCNA信号;利用分割算法对噪声进行处理,并定义SCNA扩增与缺失状态。
在上述技术方案的基础上,所述步骤S2包括:利用Pearson公式计算SCNA邻近位点间的关系系数,并将染色体分割成多个相对独立的SCNA结构单元。
在上述技术方案的基础上,步骤S3包括
利用已知的SCNA功能模式构造训练集,学习频率w1和幅度的权重w2,计算统计量,
Stest=w1*f+w2*a
其中,f,a,Stest分别指训练集中SCNA功能模式的频率,幅度,及统计量的值。
在上述技术方案的基础上,所述步骤S3还包括:
所述二维随机置换具体过程如下:
a)针对SCNA出现的频率,随机置换其在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的发生频率,建立基于频率的零分布Df;
b)针对SCNA的变异幅度,随机置换幅度在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的幅度,建立基于幅度的零分布Da;
c)利用有监督学习的权重,w1和w2,构造零分布D,以检测统计量的显著性水平:
其中D=w1*Df+w2*Da。
与现有技术相比,本发明拷贝数变异两方面的特征:变异频率和变异幅度,都具有重要的生物意义,那么构造基于这两个特征的统计量及统计检验模型有利于客观估计拷贝数变异的显著性水平;而现有技术往往仅强调拷贝数变异频率,容易忽略变异幅度的重要性;为此,本发明在这两方面的特征空间上,建 立二维统计检验模型,并通过有监督学习策略权衡这两个特征以合理地计算统计量,这不仅使得假设检验模型与统计量具有一致性,而且能够增强显著性水平估计的统计和生物双重意义。
附图说明
图1是本发明的流程图。
具体实施方式
请参考图1,一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其特征在于:其包括,
S1采集SCNA数据,并对SCNA数据进行预处理;
S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;
S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;
S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。
在上述技术方案的基础上,所述步骤S1包括:
对SCNA信号进行处理,以获取可对比的SCNA信号;利用分割算法对噪声进行处理,并定义SCNA扩增与缺失状态。SCNA信号预处理是指对信号进行标准化及对数转换,即针对每一个癌症样本,将其拷贝数信号与其配对的正常组织的拷贝数变异信号进行比对,并基于所分析的样本集建立一个参考样本,以 对所有的样本进行规范化。这样可以减弱不同样本之间存在的Batch效应,同时消除生殖细胞对SCNA信号的影响。
在上述技术方案的基础上,所述步骤S2包括:利用Pearson公式计算SCNA邻近位点间的关系系数,并将染色体分割成多个相对独立的SCNA结构单元。
在上述技术方案的基础上,步骤S3包括
利用已知的SCNA功能模式构造训练集,学习频率w1和幅度的权重w2,计算统计量,
Stest=w1*f+w2*a
其中,f,a,Stest分别指训练集中SCNA功能模式的频率,幅度,及统计量的值。
在上述技术方案的基础上,所述步骤S3还包括:
所述二维随机置换具体过程如下:
a)针对SCNA出现的频率,随机置换其在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的发生频率,建立基于频率的零分布Df;
b)针对SCNA的变异幅度,随机置换幅度在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的幅度,建立基于幅度的零分布Da
;
c)利用有监督学习的权重,w1和w2,构造零分布D,以检测统计量的显著性水平:
其中D=w1*Df+w2*Da。
同时,本发明以下三个方面对算法的性能进行评价:a)判断算法能否在错误肯定率(FPR)可控的情况下,获得较高的正确肯定率(TPR);b)评价算法是否能够较准确地估计p值(Type I Error Rate),即算法的统计模型是否具 有较强的统计意义;c)分析算法的计算复杂度。为此,我们拟以Affymetrix全基因组SNP6.0芯片检测的正常细胞拷贝数为背景,以概率论和非稳定模型基础,构建马尔可夫SCNA仿真方法,模拟大规模的SCNA数据,对本发明的方法性能进行测试。对于c),从理论上分析,SCNA结构单元数比位点数小得多,故基于结构单元的置换策略比基于位点的置换策略花费计算时间少得多,因此算法的时间复杂度相对较低。
综上所述,仅为本发明之较佳实施例,不以此限定本发明的保护范围,凡依本发明专利范围及说明书内容所作的等效变化与修饰,皆为本发明专利涵盖的范围之内。
Claims (3)
1.一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其特征在于:其包括,
S1采集SCNA数据,并对SCNA数据进行预处理;
S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;
S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;利用已知的SCNA功能模式构造训练集,学习频率的权重w1和幅度的权重w2,计算统计量,
Stest=w1*f+w2*a
其中,f,a,Stest分别指训练集中SCNA功能模式的频率,幅度,及统计量的值;
所述二维随机置换具体过程如下:
a)针对SCNA出现的频率,随机置换其在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的发生频率,建立基于频率的零分布Df;
b)针对SCNA的变异幅度,随机置换幅度在全基因组中出现的位置;针对每个置换样本集,计算随机SCNA的幅度,建立基于幅度的零分布Da;
c)利用有监督学习的权重,w1和w2,构造零分布D,以检测统计量的显著性水平:
其中D=w1*Df+w2*Da;
S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。
2.如权利要求1所述的一种基于二维统计模型的体细胞拷贝数变异显著性 检测方法,其特征在于:所述步骤S1包括:
对SCNA信号进行预处理,以获取可对比的SCNA信号;利用分割算法对噪声进行处理,并定义SCNA扩增与缺失状态。
3.如权利要求1所述的一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其特征在于:所述步骤S2包括:利用Pearson公式计算SCNA邻近位点间的关系系数,并将染色体分割成多个相对独立的SCNA结构单元。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201410010002.9A CN103778350B (zh) | 2014-01-09 | 2014-01-09 | 基于二维统计模型的体细胞拷贝数变异显著性检测方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201410010002.9A CN103778350B (zh) | 2014-01-09 | 2014-01-09 | 基于二维统计模型的体细胞拷贝数变异显著性检测方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN103778350A CN103778350A (zh) | 2014-05-07 |
| CN103778350B true CN103778350B (zh) | 2016-10-05 |
Family
ID=50570578
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201410010002.9A Expired - Fee Related CN103778350B (zh) | 2014-01-09 | 2014-01-09 | 基于二维统计模型的体细胞拷贝数变异显著性检测方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN103778350B (zh) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10910086B2 (en) * | 2014-08-15 | 2021-02-02 | Life Technologies Corporation | Methods and systems for detecting minor variants in a sample of genetic material |
| CN105760712B (zh) * | 2016-03-01 | 2019-03-26 | 西安电子科技大学 | 一种基于新一代测序的拷贝数变异检测方法 |
| CN106682455B (zh) * | 2016-11-24 | 2019-03-26 | 西安电子科技大学 | 一种多样本拷贝数一致性变异区域的统计检验方法 |
| CN106650312B (zh) * | 2016-12-29 | 2022-05-17 | 浙江安诺优达生物科技有限公司 | 一种用于循环肿瘤dna拷贝数变异检测的装置 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5919624A (en) * | 1997-01-10 | 1999-07-06 | The United States Of America As Represented By The Department Of Health & Human Services | Methods for detecting cervical cancer |
| CN102103750A (zh) * | 2011-01-07 | 2011-06-22 | 杭州电子科技大学 | 基于韦伯定理和中央-周围假设的视觉显著性检测方法 |
| CN103093119A (zh) * | 2013-01-24 | 2013-05-08 | 南京大学 | 一种利用网络结构信息识别显著生物通路的方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7822555B2 (en) * | 2002-11-11 | 2010-10-26 | Affymetrix, Inc. | Methods for identifying DNA copy number changes |
-
2014
- 2014-01-09 CN CN201410010002.9A patent/CN103778350B/zh not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5919624A (en) * | 1997-01-10 | 1999-07-06 | The United States Of America As Represented By The Department Of Health & Human Services | Methods for detecting cervical cancer |
| CN102103750A (zh) * | 2011-01-07 | 2011-06-22 | 杭州电子科技大学 | 基于韦伯定理和中央-周围假设的视觉显著性检测方法 |
| CN103093119A (zh) * | 2013-01-24 | 2013-05-08 | 南京大学 | 一种利用网络结构信息识别显著生物通路的方法 |
Non-Patent Citations (4)
| Title |
|---|
| "a faster circular binary segmention algorithm for the analysis of CGH data";E.S.Venkatraman etal;《original paper》;20070118;第23卷(第6期);第657-663页 * |
| "改进的基因拷贝数变异检测算法";李平等;《计算机工程》;20130131;第39卷(第1期);第309-312页 * |
| Vonn walter etal."DiNAMIC: Amethod to identify recurrent DNA copy number aberrations in tumors".《Bioinformatics》.2010,第27卷(第5期),第678-685页. * |
| Xiguo Yuan etal."TAG: A method to identify significant consensus events of copy number alterations in cancer".《PloSone》.2012,第7卷(第7期),第1-10页. * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN103778350A (zh) | 2014-05-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Brill et al. | Testing for differential abundance in compositional counts data, with application to microbiome studies | |
| Pavlidis et al. | A survey of methods and tools to detect recent and strong positive selection | |
| CN105760712B (zh) | 一种基于新一代测序的拷贝数变异检测方法 | |
| Caron et al. | On-line changepoint detection and parameter estimation with application to genomic data | |
| Nevado et al. | Resequencing studies of nonmodel organisms using closely related reference genomes: optimal experimental designs and bioinformatics approaches for population genomics | |
| CN109887546B (zh) | 基于二代测序的单基因或多基因拷贝数检测系统及方法 | |
| Reeves et al. | Accurate inference of subtle population structure (and other genetic discontinuities) using principal coordinates | |
| Scott-Boyer et al. | An integrated hierarchical Bayesian model for multivariate eQTL mapping | |
| CN103778350B (zh) | 基于二维统计模型的体细胞拷贝数变异显著性检测方法 | |
| US11473133B2 (en) | Methods for validation of microbiome sequence processing and differential abundance analyses via multiple bespoke spike-in mixtures | |
| CN106529165A (zh) | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 | |
| CN110111840B (zh) | 一种体细胞突变检测方法 | |
| Jurburg et al. | The community ecology perspective of omics data | |
| Bjorner et al. | Detectability of varied hybridization scenarios using genome-scale hybrid detection methods | |
| CN104063459A (zh) | 一种基于流感病毒刺激的细胞差异基因数据分类系统 | |
| Le et al. | Expanding Polygenic Risk Scores to Include Automatic Genotype Encodings and Gene-gene Interactions. | |
| Malhotra et al. | A random forest classifier for detecting rare variants in NGS data from viral populations | |
| Kang et al. | Sparse generalized canonical correlation analysis for biological model integration: a genetic study of psychiatric disorders | |
| CN106682455A (zh) | 一种多样本拷贝数一致性变异区域的统计检验方法 | |
| Lindgren et al. | A likelihood ratio-based approach for improved source attribution in microbiological forensic investigations | |
| Coombes et al. | A combination test for detection of gene‐environment interaction in cohort studies | |
| CN119049546B (zh) | 基因遗传位点定位方法、装置、电子设备、存储介质 | |
| Yuan et al. | RSim: A reference-based normalization method via rank similarity | |
| CN116981779B (zh) | 用于从Hi-C矩阵识别染色质结构特征的方法、存储用于从Hi-C矩阵中识别染色质结构特征的程序的非瞬态计算机可读介质 | |
| CN101565747B (zh) | 一种提取多种基因集合特征表达模式的方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C14 | Grant of patent or utility model | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161005 |