CN110379460B - 一种基于多组学数据的癌症分型信息处理方法 - Google Patents
一种基于多组学数据的癌症分型信息处理方法 Download PDFInfo
- Publication number
- CN110379460B CN110379460B CN201910517713.8A CN201910517713A CN110379460B CN 110379460 B CN110379460 B CN 110379460B CN 201910517713 A CN201910517713 A CN 201910517713A CN 110379460 B CN110379460 B CN 110379460B
- Authority
- CN
- China
- Prior art keywords
- cancer
- data
- mutation
- base
- omics data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 107
- 201000011510 cancer Diseases 0.000 title claims abstract description 101
- 230000010365 information processing Effects 0.000 title claims abstract description 12
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 230000035772 mutation Effects 0.000 claims abstract description 79
- 239000011159 matrix material Substances 0.000 claims abstract description 41
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 15
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000007621 cluster analysis Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 108020004414 DNA Proteins 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 10
- 102000053602 DNA Human genes 0.000 claims description 8
- 206010064571 Gene mutation Diseases 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 108020004635 Complementary DNA Proteins 0.000 claims description 3
- 108020004682 Single-Stranded DNA Proteins 0.000 claims description 3
- 238000010804 cDNA synthesis Methods 0.000 claims description 3
- 239000002299 complementary DNA Substances 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000004138 cluster model Methods 0.000 abstract 1
- 230000014509 gene expression Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 206010006187 Breast cancer Diseases 0.000 description 6
- 208000026310 Breast neoplasm Diseases 0.000 description 6
- 201000007270 liver cancer Diseases 0.000 description 4
- 208000014018 liver neoplasm Diseases 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000869 mutational effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 239000003181 biological factor Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 208000011654 childhood malignant neoplasm Diseases 0.000 description 1
- 230000008711 chromosomal rearrangement Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000010534 mechanism of action Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
- 238000012049 whole transcriptome sequencing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于生物及医学基因技术领域,公开了一种基于多组学数据的癌症分型信息处理方法;首先对多组学数据的单碱基突变数据进行预处理,转化成三碱基突变模式;对预处理得到的三碱基突变矩阵进行非负矩阵分解,对于分解得到的特征矩阵进行k‑means聚类分析,采用轮廓系数选取最优的k,得到突变主导下的癌症样本的亚型标签。接着对剩余的组学数据进行预处理,借助iclusterplus工具进行集成聚类分析,并使用最小贝叶斯准则确定聚类模型,再一次对样本进行亚型的定义,接着采用自定义的算法融合两次分型结果,确定样本最终的癌症亚型标签。本发明的数据获取便捷,工具便于操作,结果的可靠性相对较高。
Description
技术领域
本发明属于生物及医学基因技术领域,尤其涉及一种基于多组学数据的癌症分型信息处理方法。
背景技术
随着基因测序技术水平的提高,研究人员可以获得测序样本的脱氧核糖核酸(Deoxyribonucleic acid,DNA)分子层面的变化,证实了同一器官在不同的样本中DNA分子结构可能不同,而不同器官却可能存在相同的DNA分子结构,打破了长期以来传统分型的认知。人们有理由推测不同癌症类型,相同癌症类型的不同癌症亚型等等这些患者的分子结构更是错综复杂,解决这些疑难问题需要更多的时间和成本投入去进行大规模的基因数据分析。
2018年2月美国圣犹大医院最新研究结果表示不同年龄层的癌症患者往往是由不同的基因突变导致的。例如儿童和成年人就有此差别,这提示着这些患者可能受益于不同的疗法,这项研究是迄今为止对多种儿童癌症和成人癌症亚型基因组景观最全面的分析。研究人员利用三种不同的新一代分子测序方法评估了六种癌症亚型,并证实儿科癌症和成人癌症是由发生不同突变的不同基因引起的,这一重要结论已被临床诊断采纳,目前已知儿童癌症的治愈率超过80%,这样的结果令众人欣喜。对比之前已发表的多项成年人的癌症相关分析,聚焦点都在于关注DNA突变,而该团队分析了DNA拷贝数变异和染色体重排,这些数据来自对患者肿瘤组织和正常组织的完整DNA进行的全基因组测序,与此同时也开展了转录组测序。这项研究还包括首次对多种癌症亚型中的突变型和野生型等位基因的定量表达和定性表达进行全面评估。癌症是一种基因病,从基因突变的角度出发为该项研究取得重大成功奠定了基础,为广大科研人员更好的利用多组学数据研究癌症亚型增加了信心,并提供了新的思路方向。
目前,针对多组学数据研究癌症分型主要有以下几种:
1.基于谱的双聚类算法,该方法是基于基因表达数据的结构可以通过基因维度和样本维度的特征向量来描述这一理论。该方法先计算一定数量的基因和样本维度的特征向量,然后使用标准分割算法来划分基于特征向量重构的矩阵从而得到双聚类,但是局限性在该种方法只能针对单一组学数据,无法将多种组学数据综合分析,会由于基因数据的高维特性使得性能急剧下降。
2.一种包含邻居信息的多重紧密k近邻方法构建相似性网络融合(SimilarityNetwork Fusion,SNF)聚类方法。SNF包括两个主要步骤:为每个数据类型构建样本相似性网络,并使用非线性组合方法将这些网络集成到单一相似性网络中,该方法从不同数据源中获取共享和补充的信息,提供关于每个数据类型对观察到的样本之间的相似性的信息,并将其运用于癌症亚型聚类。该方法的不足之处在于直接将多组学数据融合在一起分析,没有考虑到多种组学数据之间的癌症分型的不同程度的影响。
现阶段使用多组学数据研究癌症分型主要思想可分为以下几种:
(1)现阶段使用多组学数据癌症分型存在单独研究一种组学数据,特别是基因突变数据,基因表达数据被应用的相对广泛。并且基于基因突变数据的传统的研究中,只关注单个碱基的突变,但是基于癌症发生的生物复杂性的事实,有理由怀疑单个碱基在癌症的形成中影响较小。所以基于癌症是由多种生物作用共同导致的,那么对于癌症亚型的定义就不单独着眼于一种组学数据。
(2)现阶段使用多组学数据癌症分型存在一次性融合所有组学数据,忽略不同平台数据之间的差异性。那么综合分析的结果就会存在相当大的误差,致使结果的不准性性,另一方面每一种组学数据的作用程度不一样,比如基因突变数据是导致癌症发生的根本原因,而基因表达等多组学数据就是癌症样本的表观变现,所以可以被制定不同的研究方案。
解决上述技术问题的难度:
(1)深入研究每一种组学数据在癌症的发生发展的作用机制,每一种组学数据的特点不同,需要为其找到最适合的研究方案和工具或者是综合多种组学数据的研究方案和工具,比如对于多组学数据中的单碱基突变数据,考虑把它转换成一种三碱基突变模式,这样不仅在于更精确的定位到突变的位置,而且把多个碱基共同影响癌症的发展也考虑其中。
(2)基于多组学数据对癌症分型的不同程度的影响,需要分层分析,那么对不同层次的癌症分型结果进行融合也是一个挑战,即如何将每一种组学数据主导下的癌症亚型标签进行最大的统一化。
解决上述技术问题的意义:
(1)提供基于多组学数据的癌症分型分析工具,转化单碱基突变数据并使用非负矩阵分解算法融合经典聚类分析了在突变数据主导下的癌症分型结果,并且进一步通过融合其他多种组学数据对同一种癌症不同的发展方向的影响获得对癌症样本更准确的分型结果。
(2)根据最终的癌症分型结果,挖掘各疾病分型相关分子生物因素对不同亚型的影响,找出癌症分型相关的分子标志物。
发明内容
针对现有技术存在的问题,本发明提供了一种基于多组学数据的癌症分型信息处理方法。
本发明是这样实现的,一种基于多组学数据的癌症分型信息处理方法,所述基于多组学数据的癌症分型信息处理方法包括:
第一步,对单碱基突变数据进行预处理,转化成三碱基突变模式。人类的双螺旋DNA结构表明DNA是由碱基配对原则构成的稳定双链结构,碱基配对规则指的是腺嘌呤碱基一定与T(胸腺嘧啶)碱基配对,C碱基一定与G配对,反之亦然。那么如果检测出单链DNA中某个碱基的突变,根据配对原则就可以确定另一条与之互补DNA链的突变类型。所以可以把单个碱基的变异归纳为六种类型C>A(G>T),C>G(G>C),C>T(G>A),T>A(A>T),T>C(A>G),T>G(A>C),其中C>A表示基因发生C碱基到A碱基的突变,括号中表示根据互补原则确定互补链对应位置的碱基突变情况,实质表示同一种突变类型。然后构造每一个单碱基突变对应的三碱基突变模式。例如某个位置发生了C>A类型的突变,这个位置的上游碱基类别可以是A、T、G、C的任意一种,下游同理,将三个位置的碱基类型进行排列组合,共4×1×4等于16种可能性。而中间位置有6种不同的单碱基突变形式,所以一共可以构建6×16等于96种可能的三碱基突变模式;
第二步,对预处理得到的三碱基突变矩阵进行非负矩阵分解,NMF符号定义如下:
V(F×N)=W(F×r)×H(r×N);
其中V代表分解前的原始数据,分解得到权重矩阵W和特征矩阵H,非负矩阵分解算法的使用条件是原始数据的所有的元素都要是非负的。分解前后可以理解为原始矩阵V的每一个列向量都可以由特征矩阵中所有列向量的加权和来表示,而对应的权重系数就是W的列向量的元素,NMF的难点在于关键参数r的选取,本发明确定r的取值是通过保证对样本特征最大程度的降维,即矩阵的最优因式分解等级。当确定r的值就确定了癌症突变数据所蕴含的突变特征数目,即找出每种癌症与已知的突变特征的联系,提供癌症的靶向分子标志物;
第三步,对于分解得到的特征矩阵进行k-means聚类分析,采用轮廓系数获得最优的k。k-means算法思想比较容易理解,对于给定的样本集按照样本之间距离的大小将样本集划分为k个结果集,通过选定最合适的k值使得簇中的点尽可能紧密的靠在一起,簇与簇之间的距离尽量大。距离的度量标准是多种方式的,这里采用欧氏距离来度量样本与样本之间的距离。k的取值是k-means算法的核心难点,也就是最终癌症亚型的数目。
轮廓系数法是一种有效的评价标准,基于聚合度和分离度两个指标衡量算法在不同k值的聚类效果,取值范围为[-1,1],其值越大越好,且当值为负数时,表示样本被分配到错误的簇中,聚类结果认为是不可接受。对于接近0的值,则表明聚类结果有重叠的情况。令k从2到8取值,在每个k值上重复单次流程运行100次k-means算法,从而避免局部最优解,并计算当前k的平均轮廓系数,最后选取轮廓系数取到最大值所对应的k作为最终的聚类中心数目。得到突变主导下的癌症样本的亚型标签。
进一步,所述基于多组学数据的癌症分型信息处理方法进行多组学数据的数据预处理,包括缺失值的填充和筛选,使用多组学数据融合聚类的分析工具iclusterplus对癌症样本进行分型定义,并根据最小贝叶斯准则选取模型结构,确定亚型个数。
进一步,所述基于多组学数据的癌症分型信息处理方法融合两种分型结果的算法为分别对于两次分型结果中分别包含样本数目的结果集取交集,交集中包含的最多的样本,即为最先确定最终癌症亚型标签的样本,从而在原结果集中除去这些样本,对剩余的样本重复取交集分析的步骤,每次确定交集中包含最多样本的癌症亚型标签;重复上述步骤,直到每一个样本都有标签,最后按照亚型中包含的样本数目由多到少排序,确定最终亚型。
本发明的另一目的在于提供一种应用所述基于多组学数据的癌症分型信息处理方法的信息数据处理终端。
综上所述,本发明的优点为提供一种更为合理的针对多组学数据的癌症分型方法,不仅考虑到不同种数据对癌症分型不同层次的影响,而且合理的融合多种组学数据的不同影响,该分析方案的数据获取便捷,工具便于操作,结果的可靠性相对较高。
附图说明
图1是本发明实施例提供的基于多组学数据的癌症分型信息处理方法流程图。
图2是本发明实施例提供的基于多组学数据的癌症分型信息处理方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现阶段使用多组学数据癌症分型存在单独研究一种组学数据,特别是基因突变数据,基因表达数据被应用的相对广泛;使用多组学数据癌症分型存在一次性融合所有组学数据,忽略不同平台数据之间的差异性。本发明综合多种组学数据,并分层分析,对最深层次的治病因素,即基因的突变数据采取一种分析方案,对剩余三种组学数据采取更合适的融合分析工具,最后整合两种分型结果,定义最后的癌症亚型。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于多组学数据的癌症分型信息处理方法包括以下步骤:
S101:对单碱基突变数据进行预处理,转化成三碱基突变模式;
S102:对预处理得到的三碱基突变矩阵进行非负矩阵分解,找出每种癌症与已知的突变特征的联系,提供癌症的靶向分子标志物;
S103:对于分解得到的特征矩阵进行k-means聚类分析,采用轮廓系数获得最优的k,得到突变主导下的癌症样本的亚型标签;
S104:对剩余的多组学数据进行预处理,包括缺失值的补齐,数据过滤等;
S105:借助iclusterplus工具对剩余几种多组学数据进行综合聚类,使用最小贝叶斯准则确定聚类模型;
S106:使用自定义融合算法,将两次分析方案确定的癌症亚型结果进行综合,为样本确定最终的癌症亚型标签。
本发明实施例提供的基于多组学数据的癌症分型信息处理方法具体包括以下步骤:
第一步,对单碱基突变数据进行预处理,转化成三碱基突变模式。人类的双螺旋DNA结构表明DNA是由碱基配对原则构成的稳定双链结构,碱基配对规则指的是腺嘌呤碱基一定与T(胸腺嘧啶)碱基配对,C碱基一定与G配对,反之亦然。那么如果检测出单链DNA中某个碱基的突变,根据配对原则就可以确定另一条与之互补DNA链的突变类型。所以可以把单个碱基的变异归纳为六种类型C>A(G>T),C>G(G>C),C>T(G>A),T>A(A>T),T>C(A>G),T>G(A>C),其中C>A表示基因发生C碱基到A碱基的突变,括号中表示根据互补原则确定互补链对应位置的碱基突变情况,实质表示同一种突变类型。然后构造每一个单碱基突变对应的三碱基突变模式。例如某个位置发生了C>A类型的突变,这个位置的上游碱基类别可以是A、T、G、C的任意一种,下游同理,将三个位置的碱基类型进行排列组合,共4×1×4等于16种可能性。而中间位置有6种不同的单碱基突变形式,所以一共可以构建6×16等于96种可能的三碱基突变模式;
第二步,对预处理得到的三碱基突变矩阵进行非负矩阵分解,NMF符号定义如下:
V(F×N)=W(F×r)×H(r×N);
其中V代表分解前的原始数据,分解得到权重矩阵W和特征矩阵H,非负矩阵分解算法的使用条件是原始数据的所有的元素都要是非负的。分解前后可以理解为原始矩阵V的每一个列向量都可以由特征矩阵中所有列向量的加权和来表示,而对应的权重系数就是W的列向量的元素,NMF的难点在于关键参数r的选取,本发明确定r的取值是通过保证对样本特征最大程度的降维,即矩阵的最优因式分解等级。当确定r的值就确定了癌症突变数据所蕴含的突变特征数目,即找出每种癌症与已知的突变特征的联系,提供癌症的靶向分子标志物;
第三步,对于分解得到的特征矩阵进行k-means聚类分析,采用轮廓系数获得最优的k。k-means算法思想比较容易理解,对于给定的样本集按照样本之间距离的大小将样本集划分为k个结果集,通过选定最合适的k值使得簇中的点尽可能紧密的靠在一起,簇与簇之间的距离尽量大。距离的度量标准是多种方式的,这里采用欧氏距离来度量样本与样本之间的距离。k的取值是k-means算法的核心难点,也就是最终癌症亚型的数目。轮廓系数法是一种有效的评价标准,基于聚合度和分离度两个指标衡量算法在不同k值的聚类效果,其取值范围为[-1,1],并且值越大越好,且当值为负数时,表示样本被分配到错误的簇中,聚类结果认为是不可接受。对于接近0的值,则表明聚类结果有重叠的情况。令k从2到8取值,在每个k值上重复单次流程运行100次k-means算法,从而避免局部最优解,并计算当前k的平均轮廓系数,最后选取轮廓系数取到最大值所对应的k作为最终的聚类中心数目。得到突变主导下的癌症样本的亚型标签。
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明实施例提供的基于多组学数据的癌症分型信息处理方法具体包括以下步骤:
(1)单碱基突变数据的处理
对癌症的基因组学数据中的单碱基突变数据进行全面深入的挖掘。首先对单碱基突变数据进行预处理,转化成三碱基突变模式。传统的分析都是直接基于单个碱基突变展开,扩展为三碱基突变模式带来了新的思考方向,究竟是单个碱基突变引发不同的癌变还是把该突变位点的相邻碱基类型作为癌变结果的必要条件。另外三个碱基刚好可以构成一个密码子,编码一种氨基酸,可以从密码子到蛋白质的角度对主导分型相关的三碱基突变进行解释,是一个优化的预处理方案。
接着对预处理得到的三碱基突变矩阵进行非负矩阵分解。分解结果一方面进行突变特征的频谱分析,找出每种癌症与已知的突变特征的联系,提供一些癌症的靶向分子标志物,增加实验的完整性。另一方面对于分解得到的特征矩阵进行k-means聚类分析,聚类分析是癌症亚型定义的主要途径,聚类算法的性能直接影响实验结果的可靠性。本发明采用轮廓系数对聚类性能进行矫正,得到突变主导下的癌症样本的亚型标签。
(2)剩余几种组学数据的处理
进行剩余几种多组学数据的数据预处理,包括缺失值的填充和筛选,然后使用多组学数据融合聚类的分析工具iclusterplus对癌症样本进行分型定义,并根据最小贝叶斯准则选取模型结构,确定亚型个数。在输入数据之前,对各组学数据针对性的进行预处理,增加聚类结果的真实性和可靠性。
(3)融合两种组学数据的结果
执行完一次上述算法流程,可以确定min(m,n)个亚型,然后剔除在A,B结果集中确定亚型标签的样本,重复上述算法步骤,直到每一个样本都有标签,最后按照亚型中包含的样本数目由多到少排序,确定最终亚型。当样本数少于原来结果集中的样本数则认为该次算法的结果没有实际意义,所以这里可能会过滤掉些许样本。
以肝癌(Liver Hepatocellular Carcinoma,LIHC)和乳腺癌(Breast invasiveCarcinoma,BRCA)的五种多组学(包括基因单碱基突变数据,DNA甲基化数据,拷贝数变异,mRNA基因表达数据,miRNA基因表达数据)数据为例:
表1 BRCA用于综合聚类的每种数据的情况说明表
表2 LIHC用于综合聚类的每种数据的情况说明表
基于单碱基突变数据的k-means聚类结果和基于剩余几种多组学数据的iclusterplus聚类结果中的聚类中心使用“Cluster”加序号标识,,在表1和表2中,表格中的样本数列分别表示每个k-means聚类中心簇和iclusterplus聚类中心簇中包含的样本数,但是注意表中标明的两种结果的聚类中心标识没有直接的关系,所含的样本也可能完全不同。经过自定义的融合两种分型结果的算法,两种癌症确定的最终亚型和每种亚型所包含的样本数如表3,最终的每种癌症亚型用“亚型”加序号标识,样本数列与表1和表2代表的含义相同。
表3两种癌症分型的最后结果表
基于上述步骤,完成了两种不同癌症的分型定义,即肝癌和乳腺癌在多组学数据的共同作用下,可以分成三种不同的亚型类型。为了证明实验结果的可靠性,将得到的两种癌症的样本分型结果与临床数据结合分析,临床数据同样来源于TCGA数据库,在收录样本的各种多组学数据的同时,TCGA保存了样本包括年龄,性别,种族,确诊检查所做的各项检查数据以及确诊时间和生存时间等临床信息。这些信息具有统计学意义,并且将分子层面的结论与临床信息相关联,可以参考医疗工作人员丰富的临床经验对实验结论进行矫正,也给读者一个更容易理解的解释。通过比较发现属于同一个癌症亚型的样本之间有些临床属性具有强的一致性。
如表4给出了肝癌样本三个亚型标签下不同临床信息特征的百分比,可以发现肝癌在男性中发病率要高于女性,且白种人可能更容易被感染,亚型1发病年龄高于其他两个亚型,因为亚型1中有74%的样本年龄在65岁以上,同样可以发现亚型2的预后性极差,生存时间绝大部分为一年。
对于乳腺癌样本于临床信息也做统计分析,结果如表5,乳腺癌患者绝大部分都是女性患者,TCGA数据库中只有不到十例是男性样本,这里不做性别分析,从表中可以看出乳腺癌的亚型3的发病年龄分布在48岁以下,且乳腺癌在不同种族间的发病率没有大的差异。对比表4和表5可以发现,乳腺癌的预后性优于肝癌,尤其亚型2中的样本在第三年的存活率高达94%。
表4 LIHC样本三个亚型的临床信息分析结果表
表5 BRCA样本三个亚型的临床信息分析结果表
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于多组学数据的癌症分型信息处理方法,其特征在于,所述基于多组学数据的癌症分型信息处理方法包括:
第一步,对单碱基突变数据进行预处理,转化成三碱基突变模式;所述基于多组学数据的癌症分型信息处理方法对单碱基突变数据进行预处理,转化成三碱基突变模式,碱基配对规则指的是A碱基一定与T碱基配对,C碱基一定与G碱基配对;那么如果检测出单链DNA中某个碱基的突变,根据配对原则就可以确定另一条与之互补DNA链相应碱基的突变类型;把单个碱基的变异归纳为六种类型C>A或G>T,C>G或G>C,C>T或G>A,T>A或A>T,T>C或A>G,T>G或A>C,其中C>A表示基因发生C碱基到A碱基的突变;然后构造每一个单碱基突变对应的三碱基突变模式;
第二步,对预处理得到的三碱基突变矩阵进行非负矩阵分解,找出每种癌症与已知的突变特征的联系,提供癌症的靶向分子标志物;
第三步,对于分解得到的特征矩阵进行k-means聚类分析,采用轮廓系数选取最优的k,得到突变主导下的癌症样本的亚型标签;
第四步,对剩余的多组学数据进行预处理,包括缺失值的补齐,数据过滤;
第五步,借助iclusterplus工具对剩余几种多组学数据进行综合聚类,使用最小贝叶斯准则确定聚类模型;
第六步,使用自定义融合算法,将两次分析方案确定的癌症亚型结果进行融合,为样本确定最终的癌症亚型标签;
所述基于多组学数据的癌症分型信息处理方法进行多组学数据的数据预处理,包括缺失值的填充和筛选,使用多组学数据融合聚类的分析工具iclusterplus对癌症样本进行分型定义,并根据最小贝叶斯准则选取模型结构,确定亚型个数;
所述基于多组学数据的癌症分型信息处理方法融合两种分型结果的算法为:
输入:基于基因突变数据的聚类结果集为A=A1,A2,...,An
基于多组学数据的聚类结果集为B=B1,B2,...,Bm
for i=1,2,...,n
for j=1,2,...,m
获取两个结果集的共同样本C(i×j)←Ai∩Bj
end j
end i
for i=1,2,...,n
for j=1,2,...,m
取所有交集含样本数最多的样本p,q←arg maxi,j|C(i×j)|
癌症最终亚型Sk←Ap∩Bq
保证每个样本不被分到两个亚型集中,i≠p,j≠q;p,q分别表示集合A,B中确定了亚型标签的样本
end j
end i
输出:min(m,n)个亚型
执行完一次上述流程,可以确定min(m,n)个亚型,然后剔除在A,B结果集中确定亚型标签的样本;重复上述步骤,直到每一个样本都有标签,最后按照亚型中包含的样本数目由多到少排序,这些亚型集中样本的亚型标签就是确定的最终亚型。
2.如权利要求1所述的基于多组学数据的癌症分型信息处理方法,其特征在于,所述基于多组学数据的癌症分型信息处理方法第二步对预处理得到的三碱基突变矩阵进行非负矩阵分解,NMF符号定义:
V(F×N)=W(F×r)×H(r×N);
其中V代表分解前的原始数据,分解得到权重矩阵W和特征矩阵H,非负矩阵分解算法的使用条件是原始数据的所有的元素都要是非负的;分解前后可以理解为原始矩阵V的每一个列向量都可以由特征矩阵中所有列向量的加权和来表示,而对应的权重系数就是W的列向量的元素,NMF的难点在于关键参数r的选取,确定r的取值是通过保证对样本特征最大程度的降维,即矩阵的最优因式分解等级;当确定r的值就确定癌症突变数据所蕴含的突变特征数目,即找出每种癌症与已知的突变特征的联系,提供癌症的靶向分子标志物。
3.如权利要求1所述的基于多组学数据的癌症分型信息处理方法,其特征在于,所述基于多组学数据的癌症分型信息处理方法对于分解得到的特征矩阵进行k-means聚类分析,采用轮廓系数获得最优的k;k-means算法思想比较容易理解,对于给定的样本集按照样本之间距离的大小将样本集划分为k个结果集,通过选定最合适的k值使得簇中的点尽可能紧密的靠在一起,簇与簇之间的距离尽量大;采用欧氏距离来度量样本与样本之间的距离;k的取值是k-means算法的核心难点,也就是最终癌症亚型的数目。
4.一种应用权利要求1~3任意一项所述基于多组学数据的癌症分型信息处理方法的信息数据处理终端。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910517713.8A CN110379460B (zh) | 2019-06-14 | 2019-06-14 | 一种基于多组学数据的癌症分型信息处理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910517713.8A CN110379460B (zh) | 2019-06-14 | 2019-06-14 | 一种基于多组学数据的癌症分型信息处理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN110379460A CN110379460A (zh) | 2019-10-25 |
| CN110379460B true CN110379460B (zh) | 2023-06-20 |
Family
ID=68250348
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201910517713.8A Active CN110379460B (zh) | 2019-06-14 | 2019-06-14 | 一种基于多组学数据的癌症分型信息处理方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN110379460B (zh) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111913999B (zh) * | 2020-06-08 | 2024-05-28 | 华南理工大学 | 基于多组学与临床数据的统计分析方法、系统和存储介质 |
| CN112365948B (zh) * | 2020-10-27 | 2023-07-18 | 沈阳东软智能医疗科技研究院有限公司 | 癌症分期预测系统 |
| CN112530518A (zh) * | 2020-12-04 | 2021-03-19 | 湖南大学 | 基于k均值模型的动态自适应癌症突变簇识别方法 |
| CN113035275B (zh) * | 2021-04-22 | 2023-08-15 | 广东技术师范大学 | 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法 |
| CN113838570B (zh) * | 2021-08-31 | 2024-04-26 | 华中科技大学 | 一种基于深度学习的宫颈癌自洽分型方法和系统 |
| CN114023442B (zh) * | 2021-11-12 | 2023-07-14 | 上海市第一人民医院 | 基于多组学数据骨肉瘤分子分型的生信分析方法及模型 |
| CN116741397B (zh) * | 2023-08-15 | 2023-11-03 | 数据空间研究院 | 基于多组学数据融合的癌症分型方法、系统及存储介质 |
| CN118762756B (zh) * | 2024-06-06 | 2025-05-13 | 佛山大学 | 一种基于多组学数据的癌症亚型识别方法及系统 |
| CN118629496B (zh) * | 2024-06-12 | 2025-08-22 | 首都医科大学附属北京天坛医院 | 一种髓母细胞瘤患者分子分型方法、设备、计算机可读存储介质及产品 |
| CN118335200B (zh) * | 2024-06-12 | 2024-09-03 | 山东大学 | 基于因果特征选择的肺腺癌亚型分类系统、介质及设备 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107103207A (zh) * | 2017-04-05 | 2017-08-29 | 浙江大学 | 基于病例多组学变异特征的精准医学知识搜索系统及实现方法 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| AU2005223654A1 (en) * | 2004-03-18 | 2005-09-29 | Transave, Inc. | Administration of cisplatin by inhalation |
| CN101490553A (zh) * | 2006-06-12 | 2009-07-22 | 彼帕科学公司 | 用parp抑制剂治疗疾病的方法 |
| US20130184999A1 (en) * | 2012-01-05 | 2013-07-18 | Yan Ding | Systems and methods for cancer-specific drug targets and biomarkers discovery |
| EP3421613B1 (en) * | 2013-03-15 | 2020-08-19 | The Board of Trustees of the Leland Stanford Junior University | Identification and use of circulating nucleic acid tumor markers |
| GB201607629D0 (en) * | 2016-05-01 | 2016-06-15 | Genome Res Ltd | Mutational signatures in cancer |
| CN106980763B (zh) * | 2017-03-30 | 2020-04-28 | 大连理工大学 | 一种基于基因突变频率的癌症驱动基因的筛选方法 |
| CN107301328B (zh) * | 2017-05-19 | 2021-04-06 | 浙江工业大学 | 基于数据流聚类的癌症亚型精准发现与演化分析方法 |
| CN109670543A (zh) * | 2018-12-12 | 2019-04-23 | 中国人民解放军军事科学院军事医学研究院 | 一种数据融合方法及装置 |
-
2019
- 2019-06-14 CN CN201910517713.8A patent/CN110379460B/zh active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107103207A (zh) * | 2017-04-05 | 2017-08-29 | 浙江大学 | 基于病例多组学变异特征的精准医学知识搜索系统及实现方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN110379460A (zh) | 2019-10-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110379460B (zh) | 一种基于多组学数据的癌症分型信息处理方法 | |
| Niu et al. | sgRNACNN: identifying sgRNA on-target activity in four crops using ensembles of convolutional neural networks | |
| Qu et al. | Taxonomy dimension reduction for colorectal cancer prediction | |
| Wang et al. | Integrating omics data with a multiplex network-based approach for the identification of cancer subtypes | |
| CN109192316B (zh) | 一种基于基因网络分析的疾病亚型预测系统 | |
| CN105740651A (zh) | 一种特定癌症差异表达基因调控网络的构建方法 | |
| CN114334014A (zh) | 一种基于自注意力深度学习的癌症亚型识别方法和系统 | |
| Qi et al. | Multi-omics data fusion for cancer molecular subtyping using sparse canonical correlation analysis | |
| Alshayeji et al. | Viral genome prediction from raw human DNA sequence samples by combining natural language processing and machine learning techniques | |
| CN115394348A (zh) | 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质 | |
| Wang et al. | Large language models assisted multi-effect variants mining on cerebral cavernous malformation familial whole genome sequencing | |
| Kuang et al. | Multi-view contrastive clustering for cancer subtyping using fully and weakly paired multi-omics data | |
| Dutta et al. | Incomplete multi-view gene clustering with data regeneration using Shape Boltzmann Machine | |
| Li et al. | TLSEA: a tool for lncRNA set enrichment analysis based on multi-source heterogeneous information fusion | |
| Bi et al. | Sslpheno: a self-supervised learning approach for gene–phenotype association prediction using protein–protein interactions and gene ontology data | |
| Gorban et al. | Four basic symmetry types in the universal 7-cluster structure of microbial genomic sequences | |
| US12073921B2 (en) | System for increasing the accuracy of non invasive prenatal diagnostics and liquid biopsy by observed loci bias correction at single base resolution | |
| Ai et al. | Multi-view multiattention graph learning with stack deep matrix factorization for circRNA-drug sensitivity association identification | |
| Gorban et al. | Four basic symmetry types in the universal 7-cluster structure of 143 complete bacterial genomic sequences | |
| US11127485B2 (en) | Techniques for fine grained correction of count bias in massively parallel DNA sequencing | |
| Chen et al. | A binning tool to reconstruct viral haplotypes from assembled contigs | |
| Zhang et al. | Identification of DNA N6-methyladenine modifications in the rice genome with a fine-tuned large language model | |
| Greytak et al. | DNA phenotyping: predicting ancestry and physical appearance from forensic DNA | |
| Kacar | Dissecting Tumor Clonality in Liver Cancer: A Phylogeny Analysis Using Computational and Statistical Tools | |
| Zheng et al. | A structural variation genotyping algorithm enhanced by CNV quantitative transfer |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |