CN103778350B

CN103778350B - 基于二维统计模型的体细胞拷贝数变异显著性检测方法

Info

Publication number: CN103778350B
Application number: CN201410010002.9A
Authority: CN
Inventors: 袁细国; 张军英; 杨利英; 张胜利
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2014-01-09
Filing date: 2014-01-09
Publication date: 2016-10-05
Anticipated expiration: 2034-01-09
Also published as: CN103778350A

Abstract

一种基于二维统计模型的体细胞拷贝数变异显著性检测方法，其包括，S1采集SCNA数据，并对SCNA数据进行预处理；S2计算SCNA邻近位点间的关系系数，将染色体分割成多个相对独立的SCNA结构单元；S3计算每个SCNA结构单元的统计量，并在全基因组上实施二维随机置换；S4针对SCNA结构单元的不同长度L，通过计算置换样本中任意长度为L的SCNA模式的统计量，在二维空间中构造基于L的零分布D_L；将相应SCNA的统计量与D_L进行对比，将所述SCNA的统计量与所述D_L记为p值；若p值小于设定的阈值，则相应的SCNA显著，具有潜在的癌症功能。

Description

基于二维统计模型的体细胞拷贝数变异显著性检测方法

技术领域

本发明一种基于二维统计模型的体细胞拷贝数变异显著性检测方法。

背景技术

体细胞拷贝数变异（somatic copy number alteration,SCNA）是癌症基因组中的重要现象。它主要表现为拷贝数的扩增和缺失两种状态，与癌细胞的发生、发展有密切联系。因此，对SCNA进行系统的分析为从分子水平上研究癌症的致病机理提供了重要途径，其最底层、最核心的问题是如何区分具有癌症功能的SCNA模式与随机发生的SCNA。

众多研究表明，SCNA功能模式往往隐含于癌症基因组样本的一致变异区域中，那么建立以统计理论为基础的计算方法，检测SCNA在多个样本中重复发生的（Recurrent）显著性水平，为鉴定SCNA功能模式及发现潜在癌症基因提供直接的、可行的技术手段，进而为生物医学家对癌症的预测和诊断提供重要信息。因此，建立合理而有效的统计检验模型至关重要。

高通量全基因组SCNA位点的密集性及其结构的复杂性，给统计检验模型的建立及SCNA显著性的检测带来了极大的挑战，主要体现在以下两个方面。第一，问题本身的难点：a）位点数目高达180多万而样本数往往较少，形成了一种高纬度小样本的数据格局；b）SCNA位点之间存在较强的关联性，并非独立，使得检测因子之间存在交互影响；c）拷贝数扩增或缺失状态包括两方面的特征，即变异频率和变异幅度，这要求一个合理的权衡这两个特征的机制；d）SCNA 结构模式的长度不尽相同，这要求考虑不同长度的SCNA具有不同的背景分布。第二，解决问题的理论和方法的挑战性：a）数据规模大，对计算时间和空间复杂度的有效控制是一个挑战问题；b）如何充分考虑SCNA位点间的关联性、降低SCNA显著性水平估计的保守性，是一个难点问题；c）如何建立与统计量具有一致性的零假设分布，增强显著性水平估计的统计意义，是一个重点且目前尚未突破的问题。

发明内容

为了解决上述问题，本发明一种基于二维统计模型的体细胞拷贝数变异显著性检测方法，其特征在于：其包括，

S1采集SCNA数据，并对SCNA数据进行预处理；

S2计算SCNA邻近位点间的关系系数，将染色体分割成多个相对独立的SCNA结构单元；

S3计算每个SCNA结构单元的统计量，并在全基因组上实施二维随机置换；

S4针对SCNA结构单元的不同长度L，通过计算置换样本中任意长度为L的SCNA模式的统计量，在二维空间中构造基于L的零分布D_L；将相应SCNA的统计量与D_L进行对比，将所述SCNA的统计量与所述D_L记为p值；若p值小于设定的阈值，则相应的SCNA显著，具有潜在的癌症功能。

在上述技术方案的基础上，所述步骤S1包括：

对SCNA信号进行处理，以获取可对比的SCNA信号；利用分割算法对噪声进行处理，并定义SCNA扩增与缺失状态。

在上述技术方案的基础上，所述步骤S2包括：利用Pearson公式计算SCNA邻近位点间的关系系数，并将染色体分割成多个相对独立的SCNA结构单元。

在上述技术方案的基础上，步骤S3包括

利用已知的SCNA功能模式构造训练集，学习频率w₁和幅度的权重w₂，计算统计量，

S_test=w₁*f+w₂*a

其中，f，a，S_test分别指训练集中SCNA功能模式的频率，幅度，及统计量的值。

在上述技术方案的基础上，所述步骤S3还包括：

所述二维随机置换具体过程如下：

a）针对SCNA出现的频率，随机置换其在全基因组中出现的位置；针对每个置换样本集，计算随机SCNA的发生频率，建立基于频率的零分布D_f；

b）针对SCNA的变异幅度，随机置换幅度在全基因组中出现的位置；针对每个置换样本集，计算随机SCNA的幅度，建立基于幅度的零分布D_a；

c）利用有监督学习的权重，w₁和w₂，构造零分布D，以检测统计量的显著性水平：

其中D=w₁*D_f+w₂*D_a。

与现有技术相比，本发明拷贝数变异两方面的特征：变异频率和变异幅度，都具有重要的生物意义，那么构造基于这两个特征的统计量及统计检验模型有利于客观估计拷贝数变异的显著性水平；而现有技术往往仅强调拷贝数变异频率，容易忽略变异幅度的重要性；为此，本发明在这两方面的特征空间上，建立二维统计检验模型，并通过有监督学习策略权衡这两个特征以合理地计算统计量，这不仅使得假设检验模型与统计量具有一致性，而且能够增强显著性水平估计的统计和生物双重意义。

附图说明

图1是本发明的流程图。

具体实施方式

请参考图1，一种基于二维统计模型的体细胞拷贝数变异显著性检测方法，其特征在于：其包括，

S1采集SCNA数据，并对SCNA数据进行预处理；

在上述技术方案的基础上，所述步骤S1包括：

对SCNA信号进行处理，以获取可对比的SCNA信号；利用分割算法对噪声进行处理，并定义SCNA扩增与缺失状态。SCNA信号预处理是指对信号进行标准化及对数转换，即针对每一个癌症样本，将其拷贝数信号与其配对的正常组织的拷贝数变异信号进行比对，并基于所分析的样本集建立一个参考样本，以对所有的样本进行规范化。这样可以减弱不同样本之间存在的Batch效应，同时消除生殖细胞对SCNA信号的影响。

在上述技术方案的基础上，步骤S3包括

S_test=w₁*f+w₂*a

在上述技术方案的基础上，所述步骤S3还包括：

所述二维随机置换具体过程如下：

b）针对SCNA的变异幅度，随机置换幅度在全基因组中出现的位置；针对每个置换样本集，计算随机SCNA的幅度，建立基于幅度的零分布D_a ；

其中D=w₁*D_f+w₂*D_a。

同时，本发明以下三个方面对算法的性能进行评价：a）判断算法能否在错误肯定率（FPR）可控的情况下，获得较高的正确肯定率（TPR）；b）评价算法是否能够较准确地估计p值（Type I Error Rate），即算法的统计模型是否具有较强的统计意义；c）分析算法的计算复杂度。为此，我们拟以Affymetrix全基因组SNP6.0芯片检测的正常细胞拷贝数为背景，以概率论和非稳定模型基础，构建马尔可夫SCNA仿真方法，模拟大规模的SCNA数据，对本发明的方法性能进行测试。对于c），从理论上分析，SCNA结构单元数比位点数小得多，故基于结构单元的置换策略比基于位点的置换策略花费计算时间少得多，因此算法的时间复杂度相对较低。

综上所述，仅为本发明之较佳实施例，不以此限定本发明的保护范围，凡依本发明专利范围及说明书内容所作的等效变化与修饰，皆为本发明专利涵盖的范围之内。

Claims

1.一种基于二维统计模型的体细胞拷贝数变异显著性检测方法，其特征在于：其包括，

S1采集SCNA数据，并对SCNA数据进行预处理；

S3计算每个SCNA结构单元的统计量，并在全基因组上实施二维随机置换；利用已知的SCNA功能模式构造训练集，学习频率的权重w₁和幅度的权重w₂，计算统计量，

S_test＝w₁*f+w₂*a

其中，f，a，S_test分别指训练集中SCNA功能模式的频率，幅度，及统计量的值；

所述二维随机置换具体过程如下：

a)针对SCNA出现的频率，随机置换其在全基因组中出现的位置；针对每个置换样本集，计算随机SCNA的发生频率，建立基于频率的零分布D_f；

b)针对SCNA的变异幅度，随机置换幅度在全基因组中出现的位置；针对每个置换样本集，计算随机SCNA的幅度，建立基于幅度的零分布D_a；

c)利用有监督学习的权重，w₁和w₂，构造零分布D，以检测统计量的显著性水平：

其中D＝w₁*D_f+w₂*D_a；

2.如权利要求1所述的一种基于二维统计模型的体细胞拷贝数变异显著性检测方法，其特征在于：所述步骤S1包括：

对SCNA信号进行预处理，以获取可对比的SCNA信号；利用分割算法对噪声进行处理，并定义SCNA扩增与缺失状态。

3.如权利要求1所述的一种基于二维统计模型的体细胞拷贝数变异显著性检测方法，其特征在于：所述步骤S2包括：利用Pearson公式计算SCNA邻近位点间的关系系数，并将染色体分割成多个相对独立的SCNA结构单元。