CN116864011A - 基于多组学数据的结直肠癌分子标志物识别方法及系统 - Google Patents
基于多组学数据的结直肠癌分子标志物识别方法及系统 Download PDFInfo
- Publication number
- CN116864011A CN116864011A CN202310789123.7A CN202310789123A CN116864011A CN 116864011 A CN116864011 A CN 116864011A CN 202310789123 A CN202310789123 A CN 202310789123A CN 116864011 A CN116864011 A CN 116864011A
- Authority
- CN
- China
- Prior art keywords
- data
- colorectal cancer
- omics
- omics data
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供的基于多组学数据的结直肠癌分子标志物识别方法及系统,具体涉及生物信息技术领域,本方案通过结直肠癌基因组测序数据,并按照组学数据种类及显著性添加标记;利用筛选出的带标记组学数据构建数据矩阵,并用数据矩阵训练多个预设的神经网络模型,通过调整各个预设的神经网络模型的参数及对分类结果进行评估;基于目标神经网络模型筛选出对分类结果影响比较大的特征数据,作为结直肠癌分子标志物。该方案提高了组学数据集的有效性,筛选目标神经网络模型的准确性,以及提高了对结直肠癌分子标志物识别的精准性。
Description
技术领域
本发明涉及生物信息技术领域,尤其涉及的是一种基于多组学数据的结直肠癌分子标志物识别方法及系统。
背景技术
随着医疗领域对癌症诊断、预后和治疗监测研究的快速发展,越来越多的组学数据被大量的积累,多组学数据协同使用的情况下可大大提升癌症诊断及治疗效率,为个体化医疗提供了一个鉴定高质量生物标志物的机会。多组学数据是指从不同层面和角度对生物样本进行全面测量和分析,涵盖了基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学等多个层面的信息。
目前,对结直肠癌诊断及治疗分子标志物识别方法有很多,相比于基于单一组学数据的分子标志物识别方法,基于多组学数据的分子标志物识别方法的识别准确性虽然有所提高,但是由于采用的组学数据和识别模型不合适,导致对结直肠癌分子标志物的识别精度较低。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种基于多组学数据的结直肠癌分子标志物识别方法及系统,旨在解决现有技术中存在的对结直肠癌分子标志物的识别精度较低的问题。
为了实现上述目的,本发明第一方面提供一种基于多组学数据的结直肠癌分子标志物识别方法,包括以下步骤:
获取结直肠癌基因组测序数据,并按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据;
利用所述带标记组学数据构建数据矩阵,将所述数据矩阵分别输入各个预设的神经网络模型,通过调整各个所述预设的神经网络模型的参数,获得各个训练好的神经网络模型;
利用预设的模型评估指标对各个所述训练好的神经网络模型的分类结果进行评估,筛选出目标神经网络模型;
基于所述目标神经网络模型的分类结果,依据所述带标记组学数据的特征对所述分类结果的影响程度进行评估,获得评估结果;
根据评估结果筛选出满足设定条件的组学数据特征,获得结直肠癌分子标志物。
可选的,所述按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据,包括:
通过对所述结直肠癌基因组测序数据进行基因关联分析、差异表达基因分析和差异甲基化位点分析,分别获得结直肠癌致病变异数据、结直肠癌特异表达基因数据和结直肠癌特异甲基化基因数据;
根据预设的若干个表示不同影响程度的阈值,分别给所述结直肠癌致病变异数据、所述结直肠癌特异表达基因数据和所述结直肠癌特异甲基化基因数据添加相应的标记,获得所述带标记组学数据。
可选的,所述按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据,包括:
统计所述结直肠癌基因组测序数据的数量,以及携带变异数据的结直肠癌基因组测序数据的数量;
计算所述携带变异数据的结直肠癌基因组测序数据数量占全部所述结直肠癌基因组测序数据数量的比值;
预设若干个变异频率区间,查找所述比值对应的变异频率区间段,并根据所述比值对应的变异频率区间添加相应的标记。
可选的,所述按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据,包括:
获取所述结直肠癌基因组测序数据中的外显子区域中的变异位点,作为第一变异数据;
获取所述结直肠癌基因组测序数据的次等位基因中变异频率小于预设的变异频率阈值的位点,作为第二变异数据;
获取哈温平衡检验P值小于预设的阈值的位点,作为第三变异数据;
剔除所述第一变异数据、第二变异数据和第三异数据中杂合度超过预设的标准差阈值的数据,获得处理后的变异数据;
对所述处理后的变异数据进行基因关联分析,获得分析结果,并根据所述分析结果添加变异标记,获得带标记的变异数据。
可选的,所述根据评估结果筛选出满足设定条件的组学数据特征,获得结直肠癌分子标志物,包括:
根据所述带标记组学数据的特征对分类结果的影响程度进行评估结果,并按照对分类结果的影响程度将所述带标记组学数据的特征进行排序,获得组学数据特征序列;
筛选所述影响程度大于预设的敏感性指标阈值的所述组学数据特征,获得结直肠癌分子标志物;
基于筛选出的带标记组学数据的特征,获得结直肠癌分子标志物。
可选的,所述利用所述带标记组学数据构建数据矩阵,包括:
将若干个属于不同组学种类的所述带标记组学数据进行随机组合,构建数据矩阵;
或者,将若干个属于相同组学种类的所述带标记组学数据进行随机组合,构建数据矩阵。
可选的,所述获得带标记组学数据之后,还包括:
对所述带标记组学数据采用ComBat方法、代理变量法、基于比值的方法、平均中心方法和距离加权判别法中的任意一种方法进行标化处理。
本发明第二方面提供一种基于多组学数据的结直肠癌分子标志物识别系统,所述系统包括:
数据获取模块,用于获取结直肠癌基因组测序数据,并按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据;
模型训练模块,用于利用所述带标记组学数据构建数据矩阵,将所述数据矩阵分别输入各个预设的神经网络模型,通过调整各个所述预设的神经网络模型的参数,获得各个训练好的神经网络模型;
模型筛选模块,用于利用预设的模型评估指标对各个所述训练好的神经网络模型的分类结果进行评估,筛选出目标神经网络模型;
结直肠癌分子标志物筛选模块,用于基于所述目标神经网络模型的分类结果,依据所述带标记组学数据的特征对所述分类结果的影响程度进行评估,获得评估结果;根据评估结果筛选出满足设定条件的组学数据特征,获得结直肠癌分子标志物。
本发明第三方面提供一种智能终端,所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于多组学数据的结直肠癌分子标志物识别程序,所述基于多组学数据的结直肠癌分子标志物识别程序被所述处理器执行时实任意一项上述基于多组学数据的结直肠癌分子标志物识别方法的步骤。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于多组学数据的结直肠癌分子标志物识别程序,所述基于多组学数据的结直肠癌分子标志物识别程序被处理器执行时实现任意一项上述基于多组学数据的结直肠癌分子标志物识别方法的步骤。
与现有技术相比,本方案的有益效果如下:
本方案首先通过结直肠癌基因组测序数据,并按照组学数据种类及显著性添加标记,筛选出和结直肠癌相关性较强的数据,并将筛选出的这些数据添加标记;然后利用筛选出的带标记组学数据构建数据矩阵,并将所构建的数据矩阵分别输入多个预设的神经网络模型,通过调整各个预设的神经网络模型的参数及对分类结果进行评估,筛选出分类效果最优的神经网络模型,作为目标神经网络模型;最后基于目标神经网络模型的分类结果,依据带标记组学数据的特征对分类结果的影响程度进行评估,并筛选出对分类结果影响比较大的特征数据,作为结直肠癌分子标志物。
可见,本方案本发明首先在预处理阶段,按照组学数据与结直肠癌之间的相关性进行初步筛选,能够提高组学数据集的有效性,有利于提高后续对神经网络模型进行训练的有效性;在模型识别阶段,对多个神经网络模型进行调参优化以及对比,能够提高筛选出的目标神经网络模型的准确性;在模型识别阶段之后,还增设重要特征识别阶段,以筛选出对分类结果影响较大的组学数据特征,作为潜在的结直肠癌分子标志物,进一步提高了对结直肠癌分子标志物识别的精准性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的基于多组学数据的结直肠癌分子标志物识别方法流程图;
图2为本发明的基于多组学数据的结直肠癌分子标志物识别系统示意图;
图3为本发明的智能终端结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。
下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
针对目前对结直肠癌诊断及治疗分子标志物识别方法,存在的由于采用的组学数据和识别模型不合适,导致对结直肠癌分子标志物的识别精度较低的问题。本发明首先通过获取多种和结直肠癌相关的组学数据,并按照组学数据种类及显著性添加标记,筛选出和结直肠癌相关性较强的带标记组学数据;然后利用筛选出的带标记组学数据构建数据矩阵,并将所构建的数据矩阵分别输入多个预设的神经网络模型,通过调整各个预设的神经网络模型的参数及对分类结果进行评估,筛选出分类效果最优的神经网络模型;最后基于目标神经网络模型的分类结果,筛选出对分类结果影响比较大的特征数据,以获得结直肠癌分子标志物。
可见,本方案在预处理阶段,按照组学数据与结直肠癌之间的相关性进行初步筛选,提高了组学数据集的有效性以及以及后续对神经网络模型进行训练的有效性;在模型识别阶段,对多个神经网络模型进行调参优化和对比,能够提高筛选目标神经网络模型的精确性;在模型识别阶段之后,还设置重要特征识别阶段,以筛选出对分类结果影响较大的组学数据特征,作为潜在的结直肠癌分子标志物,进一步提高了对结直肠癌分子标志物识别的精准性,有利于对结直肠癌的早期检测和及时诊断治疗。
示例性方法
本发明实施例提供一种基于多组学数据的结直肠癌分子标志物识别方法,部署于电脑、服务器等电子设备上,应用场景为结直肠癌的检测、诊断和治疗,针对的是利用多组学数据进行结直肠癌分子标志物识别的情况。具体的,如图1所示,本实施例方法的步骤包括:
步骤S100:获取结直肠癌基因组测序数据,并按照组学数据种类及显著性分别对结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据。
具体地,本实施例基于对结直肠癌的理论研究经验和临床试验数据,选择结直肠癌基因组测序数据作为研究数据集,并基于结直肠癌基因组测序数据,删选出结直肠癌致病变异数据(以下简称为变异数据)、结直肠癌特异表达基因数据(以下简称为表达基因数据)和结直肠癌特异甲基化基因数据(以下简称为甲基化基因数据),以提高组学数据集的有效性以及后续对神经网络模型进行训练的有效性。
数据集来源具体为,从TCGA数据库、ICGC数据库或者COSMIC数据库中下载变异数据、表达基因数据和甲基化基因数据,从GEO数据库整合多套样本量大于20的表达基因数据及甲基化基因数据,样本包括年龄、性别、原发/复发及生存时间等表型信息。从SRA数据库下载多个测序平台的结直肠癌基因组测序数据。
然后,按照组学数据种类及显著性分别对结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据,包括:通过对结直肠癌基因组测序数据进行基因关联分析、差异表达基因分析和差异甲基化位点分析,分别获得结直肠癌致病变异数据、结直肠癌特异表达基因数据和结直肠癌特异甲基化基因数据;根据预设的若干个表示不同影响程度的阈值,分别给结直肠癌致病变异数据、结直肠癌特异表达基因数据和结直肠癌特异甲基化基因数据添加相应的标记,获得带标记组学数据。其中,带标记组学数据包括带不同组学种类标记的组学数据,且每种组学种类标记均包括若干个表示不同显著程度标记的组学数据。
对上述三种组学数据添加标记的方式,分别为:
(1)对变异数据标记的方式,具体为:
方式一是从上述列举的现有数据库中获取已有研究发现的结直肠癌患者的变异数据,使用该数据对本实施例研究整理的变异位点进行标记,标记为已知变异及新发变异。
方式二是统计结直肠癌基因组测序数据的数量,以及携带变异数据的结直肠癌基因组测序数据的数量;计算携带变异数据的结直肠癌基因组测序数据数量占全部结直肠癌基因组测序数据数量的比值;预设若干个变异频率区间,查找比值对应的变异频率区间段,并根据比值对应的变异频率区间添加相应的标记。
例如,提取结直肠癌样本中高频变异数据,按照不同变异出现的频率对每个变异进行标记,以划分变异频率区间。例如按照携带变异样本占全部样本的比值作为出现变异的频率,并根据变异频率划分为五个变异频率区间,对应的分割点分别为50%,5%,1%和0.1%,并按照变异频率区间对相应区间的数据进行标记,比如,将变异频率超过50%的数据舍弃,将位于[5%,50%)区间的数据标记为低变异位点,将位于[1%,5%)区间的数据标记为较低变异位点,将位于[0.1%,1%)区间的数据标记为较高变异位点,将位于(0,0.1%)区间的数据标记为高变异位点。
方式三是提取结直肠癌基因组测序数据中的外显子区域中的变异位点、次等位基因中变异频率小于预设的变异频率阈值的位点,以及P值小于预设的阈值的位点,获得待处理变异数据;剔除待处理变异数据中杂合度超过预设的标准差阈值的数据,获得处理后的变异数据;对处理后的变异数据进行全基因组关联分析,获得分析结果,并根据分析结果添加变异标记,获得带标记的变异数据。
例如,采用全基因组关联分析方法,计算样本内结直肠癌变异位点,首先筛选外显子区域的变异位点、次等位基因变异频率小于1%及哈温平衡检验P值小于0.05的位点,然后剔除杂合度在4倍标准差以上的样本。例如采用plink全基因组关联分析软件进行表型和基因型及协变量的关联分析,筛选P值显著的变异位点,并将P值小于0.05的位点标记为结直肠癌全基因组关联分析结果显著的变异位点,否则,标记位结直肠癌全基因组关联分析结果不显著的变异位点。其中,在对两组样本进行检验时,将两组样本的对比结果与哈温平衡假设进行统计比较,若在某个结直肠癌基因位点的差异越显著,则P值越小,表明该位点携带的信息越值得被保留。
将上述三种对变异数据添加标记的方式相比较而言,方式一简单区分变异数据和正常数据,并没有对变异程度进行细化;方式二根据变异频率划分出了五种不同的区间,对变异程度大致做了区分;方式三则利用统计学原理,对变异数据进行了自动化的区分。
需要声明的是,本实施例中出现的“显著”一词是相对性的概念,这里可以对显著的变异位点划分若干个不同的显著等级,以对显著程度加以区分,提高对变异数据标记的准确性,有利于提高后续训练模型的准确性。
(2)对表达基因数据标记的方式,具体为:
由于整合的表达基因数据矩阵内包含两类样本,分别为肿瘤样本和正常样本,为了获取更为准确的差异表达基因数据集合,使用两种差异分析工具Deseq2和Edger分别进行差异表达分析,分别筛选出P值小于0.05的差异表达基因,并且将筛选出的差异表达基因的交集作为最终的差异表达基因集合。然后对最终的差异表达基因集合中的基因高低表达进行区分,将全部基因标记为三类,分别为结直肠癌高表达基因、结直肠癌低表达基因、结直肠癌差异不显著基因。
(3)对甲基化基因数据标记的方式,具体为:
由于整合的甲基化基因数据矩阵内包含两类样本,分别为肿瘤样本和正常样本,对于芯片平台的甲基化数据,使用Champ分析工具进行差异甲基化位点的分析,首先对甲基化位点进行过滤,去除SNP位点上的甲基化位点,保留XY染色体上的甲基化位点,并过滤掉在多个样本中均缺失的位点。然后对数据进行标化,例如采用BMIQ(Beta MIxtureQuantile normalization)方法进行标化,并对标化好的数据进行差异甲基化位点分析,例如采用Bumphunter方法,以提高对甲基化位点分析的灵敏性、鲁棒性、模型灵活性,以及对边界定位的精确性。最后将P值显著,以及在肿瘤组织和正常组织甲基化均值的差值大于预设的阈值的差异甲基化位点作为显著差异的结直肠癌差异甲基化位点,将全部位点标记为三类,分别为结直肠癌高甲基化位点、结直肠癌低甲基化位点、结直肠癌差异不显著位点。
本实施例采用ComBat方法对组学数据进行标化处理,作为其他优选实施方式,还可以根据应用实际需求,选择代理变量法(Surrogate variable analysis,SVA)、基于比值的方法(Geometric ratio-based method,Ratio_G)、平均中心方法(Mean-centering,PAMR)和距离加权判别(Distance-weighted discrimination,DWD)方法,以去除批次效应。
步骤S200:利用带标记组学数据构建数据矩阵,将数据矩阵分别输入各个预设的神经网络模型,通过调整各个预设的神经网络模型的参数,获得各个训练好的神经网络模型。
具体地,对表达基因数据和基化基因数据使用ComBat方法进行标化,以去除批次效应。对变异数据、表达基因数据或甲基化基因数据分别添加标记后,利用添加标记的组学数据构建数据矩阵,并将变异数据、表达基因数据或甲基化基因数据作为数据矩阵的行,将对应的样本数据作为数据矩阵的列,也就是将属于相同组学种类的带标记组学数据进行随机组合类构建数据矩阵。
将变异数据矩阵、表达基因数据矩阵和甲基化基因数据矩阵的取值分别做以下处理:
变异数据矩阵的处理方式为,将同时满足上述方式一中添加变异标记的变异数据,以及方式二中标记为较高变异位点和标记为高变异位点的变异数据保留,将发生变异的样本标记为1,将其余未发生变异的样本变异数据设置为0。表达基因数据矩阵的处理方式为,将以上方法筛选得到的基因保留,基因标化后的表达值作为数据矩阵内的值。甲基化基因数据矩阵的处理方式为,将以上方法筛选得到的甲基化位点保留,甲基化位点标化后的甲基化值作为矩阵内的值。
然后将数据矩阵分别作为以下几种预设的神经网络模型的输入数据,构建并优化亚组预测模型,并通过对比获得目标神经网络模型,具体过程为:
(1)使用支持向量机(SVM)预测模型及相关公式:
f(x)=sign(wTx+b)
其中,w=(w1,…,wp)为超平面的法向量,b为偏移量。
若数据点是p维向量,则可以用(p-1)维的超平面将数据点分开。由于这样的超平面有很多,这里将以最大间隔将不同的类分开的超平面作为要寻找的最佳超平面。
(2)使用朴素贝叶斯(NB)预测模型及相关公式:
其中,xi={x1,x2,…,xd}为样本数据的特征属性集,且xi相互独立且随机,也就是对条件概率分布作出独立假设,各个维度的特征相互独立,d为由变异数据、表达基因数据和甲基化基因数据构成的样本数据集,yk={y1,y2,…,ym}表示类变量,m表示数据集可以分为m个类。常用的模型包括高斯模型、多项式模型和伯努利模型。
(3)使用全连接卷积神经网络(FCN)预测模型及相关公式:
其中,L是隐藏神经元数量,W1,i是链接输入和隐藏神经元的矩阵的第i列,W2,i.是隐藏神经元和链接输出的矩阵的第i行,x是特征向量。
(4)使用随机森林(RF)预测模型及相关公式:
基于Bagging思想的模型为:
其中M为树的数量,fm(x)函数为从输入变量中选取m个变量,然后选择m个变量中的最佳分割点,将其分割为两个子节点。RF算法具有可视化展示、处理高纬度数据、筛选出特征的重要程度、运算效率较高的特点。
对于上述神经网络模型的具体优化方式是,利用网格搜索调整上述各个神经网络模型的参数,得到各个神经网络模型的优选参数;基于各个神经网络模型的优选参数,获取各个训练好的神经网络模型。
为了确保结直肠癌患者获得稳健的分类结果,为每个预测模型构建了多个数据样本空间,并进行网格搜索来调整模型参数,这样能保证找到优选的预测模型,以便为患者提供最佳的医疗服务。为了保证结果的稳定性,随机提取90%的结直肠癌样本作为训练集提取10%的样本作为检验集进行十倍交叉验证。在数据运行的时候会调整数据筛选指标,从而获取更准确及稳健的结果。
本实施例采用网格搜索对预测模型的参数进行调整,作为其他优选实施方式,可以根据实际应用情况,灵活选择随机搜索方法、贝叶斯优化方法或者Hyperband算法等方式进行调参。同样地,本实施例采用十倍交叉验证对预测模型进行验证,作为其他优选实施方式,可以根据实际应用情况,选择其他的交叉验证方式,把样本数据进行分割,自由组合为训练集和测试集,并在此基础上反复进行训练、测试及模型选择,以确保得到更准确及稳健的分类结果。
本实施例中构建数据矩阵采用的数据是相同组学种类的带标记组学数据,作为其他优选实施方式,可以根据实际应用情况,将几个不同组学种类的带标记组学数据进行随机组合,构建数据矩阵。
步骤S300:利用预设的模型评估指标对各个训练好的神经网络模型的分类结果进行评估,筛选出目标神经网络模型。
具体地,基于预设的模型评估指标,对各个训练好的神经网络模型的分类结果进行对比,筛选出分类结果最好的模型,作为目标神经网络模型。
为了保证评估的准确性,使用了多个指标对模型进行评估,包括接受者操作特征曲线下面积(即ROC曲线下面积,又称AUROC)和PR曲线下面积(又称AUPR,PR即召回率和正确率组成的曲线图),来衡量模型的性能。AUROC的取值在0-1之间,其取值越大,代表着分类模型的分类效果越好。若模型预测结果为阳性且真实结果也为阳性,则称为真阳性TP;若模型预测结果为阳性而真实结果为阴性,则称为假阳性FP;若模型预测结果为阴性而真实结果为阳性,则称为假阴性FN;若模型预测结果为阴性且真实结果也为阴性,则称为真阴性TN。
对于ROC曲线下面积,通过真阳性率TPRate和假阳性率FPRate来评价模型分类效果。其中,真阳性率越高分类效果越好,表示检测出真阳性的患者的概率越大,能够及时对患者进行诊治;假阳性率越小分类效果越好,表示检测出假阳性的患者的概率越小,能够节约医疗资源,也不会给患者造成无端的恐慌和焦虑。真阳性率TPRate和假阳性率FPRate的表达式分别如下:
对于PR曲线下面积,通过精确率(ACC)和召回率(recall)分析模型的性能。当精确率和召回率分数越高时,PR曲线下面积的得分也会高,表示模型的分类效果越好。通过对预测模型的参数进行调整,会产生不同的精确率值与召回率值。
在PR曲线下面积中的精确率和召回率是此消彼长的关系,但是往往二者的值都是越高越好,对应的PR曲线是右上凸的效果越好。
步骤S400:基于目标神经网络模型的分类结果,依据带标记组学数据的特征对分类结果的影响程度进行评估,获得评估结果;根据评估结果筛选出满足设定条件的组学数据特征,获得结直肠癌分子标志物。
具体地,基于带标记组学数据和目标神经网络模型的分类结果,筛选出结直肠癌基因和正常样本,然后利用Olden算法(又称连接权值法)对分类结果的显著程度进行评估,根据带标记组学数据的特征对分类结果的影响程度进行评估结果,并按照对分类结果的影响程度将带标记组学数据的特征进行排序,获得组学数据特征序列;筛选影响程度大于预设的敏感性指标阈值的组学数据特征,并将所筛选出的组学数据特征作为结直肠癌分子标志物。
Olden算法公式如下:
其中,Oik为输入变量对输出变量的敏感性指标值,wij为输入变量特征与隐含神经元之间的连接权值,vjk为神经元与输出变量特征之间的连接权值,Oik的值越大代表特征对出处结果影响的程度越大。其中,输入变量为从目标神经网络模型的分类结果中提取的变量特征,该变量特征表示一个基因的变异值、表达值或者甲基化值,输出变量为经过Olden算法对应的神经网络模型处理之后对输入变量的影响程度的评估结果。神经元是Olden算法对应的神经网络模型中各个神经网络层中的神经元,隐含神经元是Olden算法对应的神经网络模型中隐含层内的神经元。下面举例说明本实施例的方法的具体实现过程,具体如下:
数据获取:从TCGA、SRA和GEO公共数据库上获取结直肠癌变异数据、表达基因数据和甲基化基因数据样本数据,同时获取人群的表型数据,包括性别、年龄、癌症进展、生存时间等信息。
参数设定:这里将所有的统计检验中的P值均设定为0.01,模型分类准确率阈值设定为99%。
具体实施步骤为:
(1)对三个组学数据使用ComBat方法进行标化,以去除批次效应,且在去除批次效应的过程中,矫正肿瘤和正常样本的差异;
(2)按照组学数据种类及显著性分别对组学数据添加标记,获取各个组学数据中带标记组学数据;
(3)基于挖掘出的带标记组学数据,分别使用支持向量机的预测模型、朴素贝叶斯预测模型、全连接卷积神经网络预测模型和随机森林预测模型进行分类,并根据模型评估算法评价各个分类模型的准确性。
(4)对按照输入特征对输出结果的影响程度对特征进行排序,按照影响大小筛选候选特征,根据不同梯度阈值选取特征值对分类模型循环迭代评估,最终获取能准确分类的结直肠癌分子标志物集合。
本实施例可用于预测结直肠癌发生和发展的多组学数据特征,通过这些多组学数据特征的结合筛选出分类性能优选的分类模型,并通过优选的分类模型的分类结果,准确地区分结直肠癌和非结直肠癌患者。同时,通过对多组学数据特征对分类结果的影响的大小,准确筛选出对分类结果产生重要影响的重要的多组学数据特征,从而剔除容易产生干扰的不重要的特征,提高分类模型的分类效率及精确性,从而提高对患者诊治的准确性和治疗效果。
示例性系统
如图2所示,对应于上述基于多组学数据的结直肠癌分子标志物识别方法,本发明实施例还提供一种基于多组学数据的结直肠癌分子标志物识别系统,上述基于多组学数据的结直肠癌分子标志物识别系统包括:
数据获取模块210,用于获取结直肠癌基因组测序数据,并按照组学数据种类及显著性分别对结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据;
模型训练模块220,用于利用带标记组学数据构建数据矩阵,将数据矩阵分别输入各个预设的神经网络模型,通过调整各个预设的神经网络模型的参数,获得各个训练好的神经网络模型;
模型筛选模块230,用于利用预设的模型评估指标对各个训练好的神经网络模型的分类结果进行评估,筛选出目标神经网络模型;
结直肠癌分子标志物筛选模块240,用于基于目标神经网络模型的分类结果,依据带标记组学数据的特征对分类结果的影响程度进行评估,获得评估结果;根据评估结果筛选出满足设定条件的组学数据特征,获得结直肠癌分子标志物。
具体的,本实施例中,上述基于多组学数据的结直肠癌分子标志物识别系统的具体功能还可以参照上述基于多组学数据的结直肠癌分子标志物识别方法中的对应描述,在此不再赘述。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图3所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内部存储器。该非易失性存储介质存储有操作系统和基于多组学数据的结直肠癌分子标志物识别程序。该内部存储器为非易失性存储介质中的操作系统和基于基于多组学数据的结直肠癌分子标志物识别程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该基于多组学数据的结直肠癌分子标志物识别程序被处理器执行时实现上述任意一种基于多组学数据的结直肠癌分子标志物识别方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图3中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的基于多组学数据的结直肠癌分子标志物识别程序,上述基于多组学数据的结直肠癌分子标志物识别程序被上述处理器执行时实现本发明实施例提供的任意一种基于多组学数据的结直肠癌分子标志物识别方法的步骤。
本发明实施例还提供一种计算机可读存储介质,上述计算机可读存储介质上存储有基于多组学数据的结直肠癌分子标志物识别程序,上述基于多组学数据的结直肠癌分子标志物识别程序被处理器执行时实现本发明实施例提供的任意一种基于多组学数据的结直肠癌分子标志物识别方法的步骤。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多组学数据的结直肠癌分子标志物识别方法,其特征在于,包括以下步骤:
获取结直肠癌基因组测序数据,并按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据;
利用所述带标记组学数据构建数据矩阵,将所述数据矩阵分别输入各个预设的神经网络模型,通过调整各个所述预设的神经网络模型的参数,获得各个训练好的神经网络模型;
利用预设的模型评估指标对各个所述训练好的神经网络模型的分类结果进行评估,筛选出目标神经网络模型;
基于所述目标神经网络模型的分类结果,依据所述带标记组学数据的特征对所述分类结果的影响程度进行评估,获得评估结果;
根据评估结果筛选出满足设定条件的组学数据特征,获得结直肠癌分子标志物。
2.根据权利要求1所述的基于多组学数据的结直肠癌分子标志物识别方法,其特征在于,所述按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据,包括:
通过对所述结直肠癌基因组测序数据进行基因关联分析、差异表达基因分析和差异甲基化位点分析,分别获得结直肠癌致病变异数据、结直肠癌特异表达基因数据和结直肠癌特异甲基化基因数据;
根据预设的若干个表示不同影响程度的阈值,分别给所述结直肠癌致病变异数据、所述结直肠癌特异表达基因数据和所述结直肠癌特异甲基化基因数据添加相应的标记,获得所述带标记组学数据。
3.根据权利要求1所述的基于多组学数据的结直肠癌分子标志物识别方法,其特征在于,所述按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据,包括:
统计所述结直肠癌基因组测序数据的数量,以及携带变异数据的结直肠癌基因组测序数据的数量;
计算所述携带变异数据的结直肠癌基因组测序数据数量占全部所述结直肠癌基因组测序数据数量的比值;
预设若干个变异频率区间,查找所述比值对应的变异频率区间段,并根据所述比值对应的变异频率区间添加相应的标记。
4.根据权利要求1所述的基于多组学数据的结直肠癌分子标志物识别方法,其特征在于,所述按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据,包括:
获取所述结直肠癌基因组测序数据中的外显子区域中的变异位点,作为第一变异数据;
获取所述结直肠癌基因组测序数据的次等位基因中变异频率小于预设的变异频率阈值的位点,作为第二变异数据;
获取哈温平衡检验P值小于预设的阈值的位点,作为第三变异数据;
剔除所述第一变异数据、第二变异数据和第三异数据中杂合度超过预设的标准差阈值的数据,获得处理后的变异数据;
对所述处理后的变异数据进行基因关联分析,获得分析结果,并根据所述分析结果添加变异标记,获得带标记的变异数据。
5.根据权利要求1所述的基于多组学数据的结直肠癌分子标志物识别方法,其特征在于,所述根据评估结果筛选出满足设定条件的组学数据特征,获得结直肠癌分子标志物,包括:
根据所述带标记组学数据的特征对分类结果的影响程度进行评估结果,并按照对分类结果的影响程度将所述带标记组学数据的特征进行排序,获得组学数据特征序列;
筛选所述影响程度大于预设的敏感性指标阈值的所述组学数据特征,获得结直肠癌分子标志物;
基于筛选出的带标记组学数据的特征,获得结直肠癌分子标志物。
6.根据权利要求1所述的基于多组学数据的结直肠癌分子标志物识别方法,其特征在于,所述利用所述带标记组学数据构建数据矩阵,包括:
将若干个属于不同组学种类的所述带标记组学数据进行随机组合,构建数据矩阵;
或者,将若干个属于相同组学种类的所述带标记组学数据进行随机组合,构建数据矩阵。
7.根据权利要求1所述的基于多组学数据的结直肠癌分子标志物识别方法,其特征在于,所述获得带标记组学数据之后,还包括:
对所述带标记组学数据采用ComBat方法、代理变量法、基于比值的方法、平均中心方法和距离加权判别法中的任意一种方法进行标化处理。
8.基于多组学数据的结直肠癌分子标志物识别系统,其特征在于,所述系统包括:
数据获取模块,用于获取结直肠癌基因组测序数据,并按照组学数据种类及显著性分别对所述结直肠癌基因组测序数据添加标记,获得若干个属于不同组学种类的带标记组学数据;
模型训练模块,用于利用所述带标记组学数据构建数据矩阵,将所述数据矩阵分别输入各个预设的神经网络模型,通过调整各个所述预设的神经网络模型的参数,获得各个训练好的神经网络模型;
模型筛选模块,用于利用预设的模型评估指标对各个所述训练好的神经网络模型的分类结果进行评估,筛选出目标神经网络模型;
结直肠癌分子标志物筛选模块,用于基于所述目标神经网络模型的分类结果,依据所述带标记组学数据的特征对所述分类结果的影响程度进行评估,获得评估结果;根据评估结果筛选出满足设定条件的组学数据特征,获得结直肠癌分子标志物。
9.智能终端,其特征在于,所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于多组学数据的结直肠癌分子标志物识别程序,所述基于多组学数据的结直肠癌分子标志物识别程序被所述处理器执行时实现如权利要求1-7任意一项所述基于多组学数据的结直肠癌分子标志物识别方法的步骤。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于多组学数据的结直肠癌分子标志物识别程序,所述基于多组学数据的结直肠癌分子标志物识别程序被处理器执行时实现如权利要求1-7任意一项所述基于多组学数据的结直肠癌分子标志物识别方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310789123.7A CN116864011A (zh) | 2023-06-29 | 2023-06-29 | 基于多组学数据的结直肠癌分子标志物识别方法及系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310789123.7A CN116864011A (zh) | 2023-06-29 | 2023-06-29 | 基于多组学数据的结直肠癌分子标志物识别方法及系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116864011A true CN116864011A (zh) | 2023-10-10 |
Family
ID=88235115
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310789123.7A Pending CN116864011A (zh) | 2023-06-29 | 2023-06-29 | 基于多组学数据的结直肠癌分子标志物识别方法及系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116864011A (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117476114A (zh) * | 2023-12-25 | 2024-01-30 | 墨卓生物科技(浙江)有限公司 | 一种基于生物多组学数据的模型构建方法与系统 |
| CN118352007A (zh) * | 2024-04-30 | 2024-07-16 | 中国人民解放军总医院第一医学中心 | 一种基于人群队列多组学数据的疾病数据分析方法及系统 |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106845104A (zh) * | 2017-01-19 | 2017-06-13 | 东南大学 | 利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用 |
| CN108866200A (zh) * | 2018-10-08 | 2018-11-23 | 佛山科学技术学院 | 口腔癌诊断标志物及其应用 |
| WO2018214010A1 (zh) * | 2017-05-23 | 2018-11-29 | 深圳华大基因研究院 | 一种基于测序数据的变异检测方法、装置和存储介质 |
| CN109841280A (zh) * | 2017-11-29 | 2019-06-04 | 郑州大学第一附属医院 | 食管癌相关特征通路的识别及早期诊断模型的构建方法 |
| CN110781915A (zh) * | 2019-09-17 | 2020-02-11 | 上海派森诺生物科技股份有限公司 | 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法 |
| US20200377959A1 (en) * | 2019-05-31 | 2020-12-03 | Universal Diagnostics, S.L. | Detection of colorectal cancer |
| CN114898804A (zh) * | 2022-06-01 | 2022-08-12 | 京东方科技集团股份有限公司 | 生物标志物确定方法及装置、存储介质、电子设备 |
-
2023
- 2023-06-29 CN CN202310789123.7A patent/CN116864011A/zh active Pending
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106845104A (zh) * | 2017-01-19 | 2017-06-13 | 东南大学 | 利用TCGA数据库资源发现直肠癌相关microRNA分子标志物的方法及系统和应用 |
| WO2018214010A1 (zh) * | 2017-05-23 | 2018-11-29 | 深圳华大基因研究院 | 一种基于测序数据的变异检测方法、装置和存储介质 |
| CN109841280A (zh) * | 2017-11-29 | 2019-06-04 | 郑州大学第一附属医院 | 食管癌相关特征通路的识别及早期诊断模型的构建方法 |
| CN108866200A (zh) * | 2018-10-08 | 2018-11-23 | 佛山科学技术学院 | 口腔癌诊断标志物及其应用 |
| US20200377959A1 (en) * | 2019-05-31 | 2020-12-03 | Universal Diagnostics, S.L. | Detection of colorectal cancer |
| CN110781915A (zh) * | 2019-09-17 | 2020-02-11 | 上海派森诺生物科技股份有限公司 | 一种应用支持向量机算法提高结直肠癌指示菌检测灵敏度的方法 |
| CN114898804A (zh) * | 2022-06-01 | 2022-08-12 | 京东方科技集团股份有限公司 | 生物标志物确定方法及装置、存储介质、电子设备 |
Non-Patent Citations (1)
| Title |
|---|
| 施彦著: "《群体智能预测与优化》", vol. 2012, 31 August 2012, 国防工业出版社, pages: 107 - 108 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117476114A (zh) * | 2023-12-25 | 2024-01-30 | 墨卓生物科技(浙江)有限公司 | 一种基于生物多组学数据的模型构建方法与系统 |
| CN117476114B (zh) * | 2023-12-25 | 2024-04-05 | 墨卓生物科技(浙江)有限公司 | 一种基于生物多组学数据的模型构建方法与系统 |
| CN118352007A (zh) * | 2024-04-30 | 2024-07-16 | 中国人民解放军总医院第一医学中心 | 一种基于人群队列多组学数据的疾病数据分析方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Eddy et al. | Relative expression analysis for molecular cancer diagnosis and prognosis | |
| CN103761426B (zh) | 一种在高维数据中快速识别特征组合的方法及系统 | |
| CN108038352B (zh) | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 | |
| CN110322930B (zh) | 基于水平关系的代谢组学网络标志物识别方法 | |
| CN109801680B (zh) | 基于tcga数据库的肿瘤转移复发预测方法及系统 | |
| CN108319813A (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
| JP2005531853A (ja) | Snp遺伝子型クラスタリングのためのシステムおよび方法 | |
| CN116864011A (zh) | 基于多组学数据的结直肠癌分子标志物识别方法及系统 | |
| CN114974432B (zh) | 一种生物标志物的筛选方法及其相关应用 | |
| US12272431B2 (en) | Detecting false positive variant calls in next-generation sequencing | |
| CN111696622B (zh) | 一种校正和评估变异检测软件检测结果的方法 | |
| CN116344067B (zh) | 流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用 | |
| CN113195741A (zh) | 从循环核酸中鉴定全基因组序列数据中的全局序列特征 | |
| CN110797083B (zh) | 基于多网络的生物标志物识别方法 | |
| Castellanos-Garzón et al. | A clustering-based method for gene selection to classify tissue samples in lung cancer | |
| CN111584005B (zh) | 一种基于融合不同模式标志物的分类模型构建算法 | |
| CN111383717A (zh) | 一种构建生物信息分析参照数据集的方法及系统 | |
| CN115881218A (zh) | 用于全基因组关联分析的基因自动选择方法 | |
| CN115807083A (zh) | 结直肠癌基因突变的识别方法、设备和应用 | |
| CN107710206B (zh) | 用于根据生物学数据的亚群检测的方法、系统和装置 | |
| CN119811632B (zh) | 疾病分类模型的训练方法、装置和疾病分类系统 | |
| Jin et al. | Feature selection and classification over the network with missing node observations | |
| CN120354224B (zh) | 一种癌症亚型分类方法、系统、设备和介质 | |
| CN119920311B (zh) | 一种单细胞数据质控处理的方法和系统 | |
| CN119785892B (zh) | 一种基于cfDNA甲基化的多模态泛癌早期预测方法、预测装置及电子设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |