CN107818329A - 一种质谱数据分析方法 - Google Patents
一种质谱数据分析方法 Download PDFInfo
- Publication number
- CN107818329A CN107818329A CN201710674793.9A CN201710674793A CN107818329A CN 107818329 A CN107818329 A CN 107818329A CN 201710674793 A CN201710674793 A CN 201710674793A CN 107818329 A CN107818329 A CN 107818329A
- Authority
- CN
- China
- Prior art keywords
- mass spectrum
- mass
- data
- spectrum data
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明提供一种质谱数据分析方法,包括样本数据采集步骤、样本数据预处理步骤、数据模型构建及交叉验证步骤、数据模型优化步骤以及样本组别判断步骤。
Description
技术领域
本发明涉及机器学习应用领域,特别涉及一种质谱数据分析方法。
背景技术
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人组的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,可应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序等诸多领域。机器学习算法是一组从已知数据中自动分析及获得规律并利用规律对未知数据进行预测的算法。
质谱数据,是使用专门的仪器使样品发生电离,生成不同荷质比的带电荷离子,再利用外加电场使得不同荷质比的离子在空间上或时间上分离,进而得到质谱数据。不同质荷比的离子经质量分析器分开后,被检测并记录下来,经计算机处理后生成质谱图。
在生物、化学及医学领域,经常会涉及到根据成分对体液样本进行的分类问题,一般来说,技术人员大多使用单独分析、分别对比的方法,这种方法的优势在于,样品成分清楚,分类准确;其不足之处在于,当需要分类的体液样本种类较多时,需要消耗大量时间和大量资源,人力成本较高。如何根据已知类别的体液样本,推断出新的体液样本的类别,一直是科研人员的重要研究课题。
以医学领域为例,目前已知的某些疾病患者的体液内往往会存在一些相同的特殊成分,这些成分可能是导致患者患有同类疾病的病因,也可能是因某类疾病的表现特征。在临床上,如果查到某患者体液内存在某一类成分,就可以将该患者与某一种或某一类疾病建立关联,为临床诊断提供数据支持。由于人体是非常复杂的有机体,疾病的诊断和治疗方案的选择都需要专业医务人员针对每一个体海量数据做出判断,诊断效率较低,人力成本较高。当需要做检查的患者人数较多时,患者需要长时间排队,医生连续工作也会比较辛苦,每个病人的诊疗时间较短,很容易出现误诊的情况。因此,在临床医学中,需要有一种能同时可以对大量体液样本作出成分分析的医学设备,可以根据已知的健康人群和患者的大量体液样本,在短时间内检测和分析大量未知样本中是否含有某些特定成分,从而辅助医务人员可以更加方便准确地作出诊断。
发明内容
本发明的目的在于:提供一种质谱数据分析方法,以解决现有技术中存在的当需要分类的体液样本数量较多时,需要消耗大量时间和大量资源,人力成本较高的技术问题。
为解决上述技术问题,本发明提供一种质谱数据分析方法,包括如下步骤:样本数据采集步骤,用以采集两个以上体液样本的质谱数据并根据所述质谱数据生成质谱图;所述体液样本包括两个以上训练样本及至少一个测试样本;所述训练样本被分成两个以上组别,同一组别的训练样本标识有相同的组别标签;样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本及所述测试样本的标准化质谱数据;数据模型构建及交叉验证步骤,用以利用所述训练样本的标准化质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的标准化质谱数据对所述初级数据模型进行至少一次的交叉验证处理;数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型;以及样本组别判断步骤,用以利用所述测试样本的标准化质谱数据及所述优化数据模型获取所述测试样本的组别标签。
进一步地,所述样本数据采集步骤,具体包括如下步骤:获取两个以上体液样本;将全部所述体液样本在一平板上排列成矩阵;以及利用质谱法采集所述体液样本的质谱数据并生成质谱图;每一体液样本采集至少一组质谱数据。
进一步地,所述测试样本位于所述平板的中部,所述训练样本围绕所述测试样本;所述平板包括但不限于基质金属板;任意两个相邻的训练样本的组别标签皆不同;任意两个相邻体液样本的距离大于或等于2mm,且小于或等于5mm。
进一步地,每一组质谱数据包括体液样本中一离子的质荷比值及对应该离子的信号实测强度值;每一组质谱数据对应所述质谱图中一个采样点;每一个采样点的横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值。
进一步地,所述样本数据预处理步骤具体包括如下步骤:基线校正步骤,用以对所述质谱图中的质谱数据做基线校正处理;重采样步骤,用以利用重采样算法对基线校正后的质谱数据中的离子质荷比值进行重采样处理,对所述质谱图进行横坐标变换,统一所有质谱数据的质荷比,获得重采样质谱数据;标准化步骤,用以对所述重采样质谱数据中离子信号强度值进行标准化处理,对所述质谱图进行纵坐标变换,获得标准化质谱数据。
进一步地,所述基线校正步骤具体包括如下步骤:信号计算步骤,用以利用窗函数计算一组质谱数据中至少一质荷比值对应的基线信号强度;信号校正步骤,用以根据所述基线信号强度校正对应所述质荷比的实测信号强度;重复所述信号计算步骤及所述信号校正步骤,依次完成每一体液样本的每一组质谱数据的校正。
进一步地,所述重采样步骤具体包括如下步骤:有效质荷比选择步骤,用以选择有效质荷比区间及有效质荷比数量;有效质荷比计算步骤,用以利用重采样算法计算重采样质谱数据的质荷比;插值处理步骤,用以利用重采样后的质荷比及质荷比编号对基线校正后的质谱图进行插值处理,将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号。
进一步地,所述重采样算法是指:设重采样后有效质谱数据的质荷比区间为[y1,y2],重采样后的质荷比坐标数量为N;利用以下公式计算重采样后的质荷比坐标
其中,N大于104且小于105。
进一步地,所述标准化步骤具体包括如下步骤:信号强度绝对值总和计算步骤,用以计算所有重采样质谱数据中离子信号强度值的绝对值总和S;标准化信号强度值总和设定步骤,用以设定标准化处理后所有重采样质谱数据中离子信号强度值的绝对值总和为常量T;信号强度值变化倍数计算步骤,用以计算每一信号强度值的变化倍数T/S;信号强度值变化步骤,用以对所述重采样质谱数据中每个离子信号强度值进行同步放大或同步缩小处理。
进一步地,所述数据模型构建及交叉验证步骤,具体包括如下步骤:任选一训练样本作为标准训练样本,其组别标签已知;以所述标准训练样本的位置为圆心,以特定长度r为半径,在所述平板上设定一个圆形区域;根据所述圆形区域内除所述标准训练样本外的其他训练样本的标准化质谱数据构建矩阵D,所述矩阵D中每一列数据分别对应一训练样本的一组标准化质谱数据;根据所述圆形区域内除所述标准训练样本外的其他训练样本的组别标签获取向量每一训练样本的组别标签记录在向量中;利用稀疏学习优化算法建立初级数据模型 将所述标准训练样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取所述标准训练样本的推测组别标签;对比所述标准训练样本的推测组别标签与其组别标签,若二者相同,则判定所述标准训练样本的组别标签推测正确,正确度计数器加一;依次将每一个训练样本作为标准训练样本,重复上述各个步骤,对所有的训练样本进行交叉验证处理,计算出在半径为r的情况下所述训练样本的组别标签判断准确率,所述组别标签判断准确率为正确度计数器的数值与所述训练样本总数的比值;调整半径r的大小,重复上述各个步骤,计算出在半径r为不同数值的情况下的组别标签判断准确率;从两个以上组别标签判断准确率中选取一个准确率最大值,获取对应该准确率最大值的半径r的最优值R。[0017]进一步地,所述数据模型优化步骤,具体包括如下步骤:以一测试样本的位置为圆心,以半径最优值R的长度为半径,在所述平板上设定一个圆形区域;根据所述圆形区域内所有训练样本的标准化质谱数据构建矩阵DW,所述矩阵DW中每一列数据分别对应一训练样本的一组标准化质谱数据;根据所述圆形区域内所有训练样本的组别标签获取向量每一训练样本的组别标签以自然数形式记录在对应该训练样本的向量中;利用稀疏学习优化算法建立优化数据模型 所述数据模型优化步骤,具体包括如下步骤:以一测试样本的位置为圆心,以半径最优值R的长度为半径,在所述平板上设定一个圆形区域;根据所述圆形区域内所有训练样本的标准化质谱数据构建矩阵DW,所述矩阵DW中每一列数据分别对应一训练样本的一组标准化质谱数据;根据所述圆形区域内所有训练样本的组别标签获取向量每一训练样本的组别标签以自然数形式记录在对应该训练样本的向量中;利用稀疏学习优化算法建立优化数据模型
进一步地,所述样本组别判断步骤具体包括如下步骤:将一测试样本的一组质谱数据与所述数据模型相乘,对其乘积进行取整处理,获取该测试样本的组别标签;或者将一测试样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取该测试样本的组别标签。
本发明的优点在于:提供一种质谱数据分析方法,可以根据已知体液样本的组别构建分组器模型,经多个训练样本的多次交叉验证,获取正确率最高的数据模型,可以同时处理大量体液样本的质谱数据,并根据体液样本成分对其进行分组。
附图说明
图1为本发明实施例所述质谱数据分析方法的流程图;
图2为本发明实施例所述样本数据采集步骤的方法流程图;
图3为本发明实施例所述质谱数据在预处理前生成的质谱图;
图4为本发明实施例所述样本数据预处理步骤的方法流程图;
图5为本发明实施例所述样本数据基线校正步骤的方法流程图;
图6为本发明实施例所述质谱数据在基线校正后生成的质谱图;
图7为本发明实施例所述质谱数据重采样处理步骤的方法流程图;
图8为本发明实施例重采样质谱数据中有效质荷比示意图;
图9为本发明实施例重采样质谱数据生成的质谱图;
图10为本发明实施例所述质谱数据标准化处理步骤的方法流程图;
图11所示为本实施例标准化质谱数据生成的质谱图;
图12为本发明实施例所述数据模型构建及交叉验证步骤的方法流程图;
图13为本发明实施例所述数据模型优化步骤的方法流程图。
具体实施方式
下文提供一种本发明的实施例,参照说明书附图,以示范本发明可实施。
如图1所示,本实施例提供一种质谱数据分析方法,包括如下步骤S1)~步骤S5)。
步骤S1)样本数据采集步骤,用以采集两个以上体液样本的至少一组质谱数据并根据所述质谱数据生成质谱图。所述体液样本包括两个以上训练样本及至少一个测试样本;所述训练样本被分成两个以上组别(也可以称之为类别),同一组别的训练样本标识有相同的组别标签。所述体液样本可以为某一种来自人体或其他生物的体液,本实施例优选人类的血液样本,组别标签分别为0和1,组别0的样本来自某种疾病患者(如糖尿病患者、血友病患者等),组别1的样本来自无该种疾病的健康人士,所述训练样本为已知组别标签的血液样本,每一血液样本上标识有0或1。在其他实施例中,组别标签还可以标识为其他自然数。
如图2所示,步骤S1)具体包括如下步骤:步骤S101)获取两个以上体液样本;一般可以选取数十个或数百个样本。步骤S102)将全部所述体液样本以液滴形式在一平板(优选基质金属板)上排列成矩阵,所述测试样本位于所述平板的中部,所述训练样本围绕所述测试样本;任意两个相邻的训练样本的组别标签皆不同;任意两个相邻体液样本的距离大于或等于2mm,且小于5mm;所述平板包括但不限于基质金属板。步骤S103)利用质谱法采集所述体液样本的质谱数据并生成质谱图,如图3所示;每一体液样本采集至少一组质谱数据,优选三组以上,减少质谱数据误差带来的负面影响,提高正确率,在同一样本多组数据基础之上实现模式分类,可以有效降低单组数据误差所导致的干扰。每组质谱数据包括体液样本中一离子的质荷比值及对应该离子的信号实测强度值;所述质谱图中每一采样点,其横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值,详见图3。
步骤S2)样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本的标准化质谱数据。由于样本的处理、仪器的性能、外部污染等因素,由质谱仪直接得到的质谱数据需要进行适当的预处理以提高分组精度。
如图4所示,步骤S2)具体包括步骤S201)~步骤S203),对所述质谱图上的质谱数据,经由基线校正、重采样及标准化三个处理步骤,可以避免外部因素过多影响到质谱数据的分组精度。
步骤S201)基线校正步骤,用以对所述质谱图上的质谱数据做基线校正处理,基线是质谱数据中的基本强度值,基线校正步骤的作用在于识别并去除质谱图中偏离较大的基线,去除质谱数据中偏差较大的数据。如图5所示,步骤S201)基线校正步骤具体包括如下步骤:步骤S2011)信号计算步骤,用以利用窗函数计算一组质谱数据中至少一质荷比的基线信号强度;步骤S2012)信号校正步骤,用以根据所述基线信号强度校正对应所述质荷比的实测信号强度,筛选并去除偏差较大的无效数据;重复步骤S2011)~步骤S2012),依次完成每一体液样本的每一组质谱数据的校正。当运用计算机实现工程测试信号处理时,不能对无限长的信号进行测量和运算,而是取其有限的时间片段进行分析,从信号中截取一个时间片段,然后用截取的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号,就可以对信号进行傅里叶变换、相关分析等数学处理。在具体应用中,可采用不同的截取函数对信号进行截断,该截取函数称为窗函数。本实施例中,所述窗函数STEP设为50,WINDOW设为50。基线校正完成后,获得基线校正后的质谱图,详见图6,其横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值。
步骤S202)重采样步骤,用以利用重采样算法对基线校正后的质谱数据中的离子质荷比值进行重采样处理,对所述质谱图进行横坐标变换,统一所有质谱数据的质荷比,去除偏差较大的质谱数据,获得重采样质谱数据。
如图7所示,重采样步骤S202)具体包括如下步骤S2021)~S2023)。S2021)有效质荷比选择步骤,用以选择有效质荷比区间及有效质荷比数量;构建重采样数据中有效质荷比示意图,其横坐标表示重采样后保留的有效质荷比编号,其纵坐标表示该质荷比编号对应的质荷比数值。S2022)有效质荷比计算步骤,用以利用重采样算法计算重采样质谱数据的质荷比;重采样算法是指:设重采样后有效质谱数据的质荷比区间为[y1,y2],重采样后的质荷比坐标数量为N;利用以下公式计算重采样后的质荷比坐标
其中,N大于104且小于105,已取得算法准确性和计算速度的平衡。S2023)插值处理步骤,用以利用重采样后的质荷比及质荷比编号对基线校正后的质谱图进行插值处理,将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号。在本实施例中,重采样后的质谱数据的质荷比均分布在98.9~1003.1的质荷比区间内,保留10000组有效质谱数据,利用以下公式计算重采样后的质荷比坐标 与有效质谱数据相对应的,共有10000个质荷比,如图8所示为本实施例重采样数据中有效质荷比示意图,其横坐标表示重采样后保留的有效质荷比编号,其纵坐标表示该质荷比编号对应的质荷比数值。
在对所述质谱图进行插值处理的过程中,将基线校正后质谱图中(如图6)多余的质谱数据去除,只保留重采样的有效质谱数据;将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号,其纵坐标不变,即可完成每组原始质谱数据的重采样,如图9所示为本实施例重采样质谱数据的质谱图,其横坐标表示重采样后的有效质荷比编号,其纵坐标表示该质荷比编号对应的离子信号实测强度值。重采样步骤后,在所述质谱图上,质荷比相对较小的区间包含的采样值较多,质荷比较大的区间包含的采样值较少,与质荷比较小区间包含信息量多于质荷比较大区间的假设相对应。
步骤S203)标准化步骤,用以对所述重采样质谱数据中离子信号强度值进行标准化处理,对所述质谱图进行纵坐标变换,获得标准化质谱数据。如图10所示,步骤S203)标准化步骤具体包括如下步骤步骤S2031)~步骤S2034)。步骤S2031)信号强度绝对值总和计算步骤,用以计算所有重采样质谱数据中离子信号强度值的绝对值的总和S;步骤S2032)标准化信号强度值总和设定步骤,用以设定标准化处理后所有重采样质谱数据中离子信号强度值的绝对值总和为常量T,本实施例中,该常量设为10000;步骤S2033)信号强度值变化倍数计算步骤,用以计算每一信号强度值的变化倍数T/S;步骤S2034)信号强度值变化步骤,用以对所述重采样质谱数据中每个离子信号强度值进行同步放大或同步缩小处理,对所述质谱图进行纵坐标变换,信号强度值的变化倍数为步骤S2033)中的T/S。如图11所示为本实施例标准化质谱数据的质谱图,其横坐标表示重采样后的有效质荷比编号,其纵坐标表示该质荷比编号对应的离子信号标准化强度值。所述标准化步骤的技术效果在于,将质谱数据的强度映射到统一的范围,可以确保每组质谱数据强度的分布范围基本一致,从而增强不同样品质谱数据的可比性。
步骤S3)数据模型构建及交叉验证步骤,用以利用所述训练样本的质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的质谱数据对所述初级数据模型进行n次(n为训练样本数)的交叉验证处理,利用已知训练样本的质谱数据和组别标签进行机器学习并建立模型。如图12所示,步骤S3)具体包括如下步骤:步骤S301)任选一训练样本作为标准训练样本,其组别标签已知;步骤S302)以所述标准训练样本的位置为圆心,以特定长度r为半径,在所述平板上设定一个圆形区域;步骤S303)根据所述圆形区域内除所述标准训练样本外的其他训练样本的标准化质谱数据构建矩阵D,所述矩阵D中每一列数据分别对应一训练样本的一组标准化质谱数据;步骤S304)根据所述圆形区域内除所述标准训练样本外的其他训练样本的组别标签获取向量每一训练样本的组别标签记录在向量中;步骤S305)利用稀疏学习优化算法建立初级数据模型步骤S306)将所述标准训练样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取所述标准训练样本的推测组别标签;由于本发明中组别标签皆为整数(0或者1),因此需要将小数点后的数字四舍五入后获得一个整数,此即为取整处理;步骤S307)对比所述标准训练样本的推测组别标签与已知的所述标准训练样本的组别标签,若二者相同,则判定所述标准训练样本的组别标签推测正确,正确度计数器加一;步骤S308)依次将每一个训练样本作为标准训练样本,重复步骤S301)~步骤S307),对所有的训练样本进行交叉验证处理,计算出在半径为r的情况下所述训练样本的组别标签判断准确率,所述组别标签判断准确率为正确度计数器的数值与所述训练样本总数的比值;步骤S309)调整半径r的大小,重复步骤S301)~步骤S308),计算出在半径r为不同数值的情况下多个组别标签判断准确率;步骤S310)从所述多个组别标签判断准确率中选取一个准确率最大值,获取对应该准确率最大值的半径r的数值,也即为半径最优值R。
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。本发明采用机器学习中的Lasso回归算法来分析质谱数据,学习构建模型,包括训练和测试两个过程。Lasso算法的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而产生一些严格等于0的回归系数,得到可以解释的模型。
本实施例中,利用Lasso算法进行n次交叉验证(n为训练样本数),每次交叉验证得到的模型配合11个强度阈值0、0.1、…、1,对应得到11个组别标签判断准确率;重复n次,共得到n*11个数据模型(分组器),每个数据模型对应一个组别标签判断准确率。调整特定半径r=2.0mm、2.2mm、2.4mm…、4.8mm、5mm,获取n*11*16个组别标签判断准确率,将所有组别标签判断准确率的数值按照大小排列,找出最大的准确率数值,再找出与准确率最大值相对应的半径,此即为半径最优值R。
步骤S4)数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型。如图13所示,步骤S4)具体包括如下步骤:步骤S401)以一测试样本的位置为圆心,以步骤S310)中的半径最优值R的长度为半径,在所述平板上设定一个圆形区域;步骤S402)根据所述圆形区域内所有训练样本的标准化质谱数据构建矩阵DW,所述矩阵DW中每一列数据分别对应一训练样本的一组标准化质谱数据;步骤S403)根据所述圆形区域内所有训练样本的组别标签获取向量每一训练样本的组别标签以整数形式记录在对应该训练样本的向量中;步骤S404)建立优化数据模型建立优化数据模型过程中利用稀疏学习优化算法。
步骤S5)样本组别判断步骤,用以利用所述测试样本的质谱数据及所述优化数据模型获取所述测试样本的组别标签。在所述步骤S5)中,将一测试样本的一组质谱数据与所述数据模型相乘,对其乘积进行取整处理,获取该测试样本的组别标签;或者将一测试样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取该测试样本的组别标签。在本实施例中,如果取整的结果是0,可以认为与该测试样本对应的人具有与某种疾病关联的质谱数据模式,从而辅助医师作出诊断;如果取整的结果是1,可以认为与该测试样本对应的人并不具有与该种疾病关联的质谱数据模式,从而辅助医师作出诊断。
本发明提供一种质谱数据分析方法,可以根据已知体液样本的组别构建分组器模型,经多个训练样本的多次交叉验证,获取正确率最高的数据模型,可以同时处理大量体液样本的质谱数据,并根据体液样本成分对其进行分组。在医学临床上,本发明的技术方案可以应用于辅助疾病智能诊断,利用计算机技术同时检测多位待检测者的多组血液样本,可以在短时间内判断多位待检测者是否具有与某种疾病关联的质谱数据模式,辅助医师实现快速诊断。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种质谱数据分析方法,其特征在于,包括如下步骤:
样本数据采集步骤,用以采集两个以上体液样本的质谱数据并根据所述质谱数据生成质谱图;所述体液样本包括两个以上训练样本及至少一个测试样本;
所述训练样本被分成两个以上组别,同一组别的训练样本标识有相同的组别标签;
样本数据预处理步骤,用以对至少一组质谱数据进行预处理,对所述质谱图进行坐标变换处理,获得所述训练样本及所述测试样本的标准化质谱数据;
数据模型构建及交叉验证步骤,用以利用所述训练样本的标准化质谱数据及所述训练样本的组别标签构建初级数据模型,根据所述训练样本的标准化质谱数据对所述初级数据模型进行至少一次的交叉验证处理;
数据模型优化步骤,用以根据交叉验证的结果构建优化数据模型;以及
样本组别判断步骤,用以利用所述测试样本的标准化质谱数据及所述优化数据模型获取所述测试样本的组别标签。
2.如权利要求1所述的质谱数据分析方法,其特征在于,
所述样本数据采集步骤,具体包括如下步骤:
获取两个以上体液样本;
将全部所述体液样本在一平板上排列成矩阵;以及
利用质谱法采集所述体液样本的质谱数据并生成质谱图;每一体液样本采集至少一组质谱数据。
3.如权利要求2所述的质谱数据分析方法,其特征在于,
所述测试样本位于所述平板的中部,所述训练样本围绕所述测试样本;
所述平板包括但不限于基质金属板;
任意两个相邻的训练样本的组别标签皆不同;
任意两个相邻体液样本的距离大于或等于2mm,且小于或等于5mm。
4.如权利要求1或2所述的质谱数据分析方法,其特征在于,
每一组质谱数据包括样本中一离子的质荷比值及对应该离子的信号实测强度值;
每一组质谱数据对应所述质谱图中一个采样点;
每一个采样点的横坐标表示一离子的质荷比值,其纵坐标表示对应该离子的信号实测强度值。
5.如权利要求1所述的质谱数据分析方法,其特征在于,
所述样本数据预处理步骤具体包括如下步骤:
基线校正步骤,用以对所述质谱图中的质谱数据做基线校正处理;
重采样步骤,用以利用重采样算法对基线校正后的质谱数据中的离子质荷比值进行重采样处理,对所述质谱图进行横坐标变换,统一所有质谱数据的质荷比,获得重采样质谱数据;以及
标准化步骤,用以对所述重采样质谱数据中离子信号强度值进行标准化处理,对所述质谱图进行纵坐标变换,获得标准化质谱数据。
6.如权利要求5所述的质谱数据分析方法,其特征在于,
所述基线校正步骤具体包括如下步骤:
信号计算步骤,用以利用窗函数计算一组质谱数据中至少一质荷比值对应的基线信号强度;
信号校正步骤,用以根据所述基线信号强度校正对应所述质荷比的实测信号强度;以及
重复所述信号计算步骤及所述信号校正步骤,依次完成每一体液样本的每一组质谱数据的校正。
7.如权利要求5所述的质谱数据分析方法,其特征在于,
所述重采样步骤具体包括如下步骤:
有效质荷比选择步骤,用以选择有效质荷比区间及有效质荷比数量;
有效质荷比计算步骤,用以利用重采样算法计算重采样质谱数据的质荷比;
插值处理步骤,用以利用重采样后的质荷比及质荷比编号对基线校正后的质谱图进行插值处理,将基线校正后质谱图的横坐标由荷质比数值变换为质荷比编号。
8.如权利要求7所述的质谱数据分析方法,其特征在于,
所述重采样算法是指:
设重采样后有效质谱数据的质荷比区间为[y1,y2],重采样后的质荷比坐标数量为N;
利用以下公式计算重采样后的质荷比坐标
其中,N大于104且小于105。
9.如权利要求5所述的质谱数据分析方法,其特征在于,
所述标准化步骤具体包括如下步骤:
信号强度绝对值总和计算步骤,用以计算所有重采样质谱数据中离子信号强度值的绝对值总和S;
标准化信号强度值总和设定步骤,用以设定标准化处理后所有重采样质谱数据中离子信号强度值的绝对值总和为常量T;
信号强度值变化倍数计算步骤,用以计算每一信号强度值的变化倍数T/S;
信号强度值变化步骤,用以对所述重采样质谱数据中每个离子信号强度值进行同步放大或同步缩小处理。
10.如权利要求1所述的质谱数据分析方法,其特征在于,
所述数据模型构建及交叉验证步骤,具体包括如下步骤:
任选一训练样本作为标准训练样本,其组别标签已知;
以所述标准训练样本的位置为圆心,以特定长度r为半径,在所述平板上设定一个圆形区域;
根据所述圆形区域内除所述标准训练样本外的其他训练样本的标准化质谱数据构建矩阵D,所述矩阵D中每一列数据分别对应一训练样本的一组标准化质谱数据;
根据所述圆形区域内除所述标准训练样本外的其他训练样本的组别标签获取向量每一训练样本的组别标签记录在向量中;
建立初级数据模型
将所述标准训练样本的两组以上标准化质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取所述标准训练样本的推测组别标签;
对比所述标准训练样本的推测组别标签与其组别标签,若二者相同,则判定所述标准训练样本的组别标签推测正确,正确度计数器加一;
依次将每一个训练样本作为标准训练样本,重复上述各个步骤,对所有的训练样本进行交叉验证处理,计算出在半径为r的情况下所述训练样本的组别标签判断准确率,所述组别标签判断准确率为正确度计数器的数值与所述训练样本总数的比值;
调整半径r的大小,重复上述各个步骤,计算出在半径r为不同数值的情况下的组别标签判断准确率;以及
从两个以上组别标签判断准确率中选取一个准确率最大值,获取对应该准确率最大值的半径r的最优值R。
11.如权利要求1所述的质谱数据分析方法,其特征在于,
所述数据模型优化步骤,具体包括如下步骤:
以一测试样本的位置为圆心,以半径最优值R的长度为半径,在所述平板上设定一个圆形区域;
根据所述圆形区域内所有训练样本的标准化质谱数据构建矩阵DW,所述矩阵DW中每一列数据分别对应一训练样本的一组标准化质谱数据;
根据所述圆形区域内所有训练样本的组别标签获取向量每一训练样本的组别标签以自然数形式记录在对应该训练样本的向量中;以及
利用稀疏学习优化算法建立优化数据模型 。
12.如权利要求1所述的质谱数据分析方法,其特征在于,
所述样本组别判断步骤具体包括如下步骤:
将一测试样本的一组质谱数据与所述数据模型相乘,对其乘积进行取整处理,获取该测试样本的组别标签;或者
将一测试样本的两组以上质谱数据与所述数据模型相乘,将其乘积按照数值大小排成数列,对其中位值进行取整处理,获取该测试样本的组别标签。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710674793.9A CN107818329B (zh) | 2017-08-09 | 2017-08-09 | 一种质谱数据分析方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710674793.9A CN107818329B (zh) | 2017-08-09 | 2017-08-09 | 一种质谱数据分析方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN107818329A true CN107818329A (zh) | 2018-03-20 |
| CN107818329B CN107818329B (zh) | 2023-04-18 |
Family
ID=61601540
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710674793.9A Active CN107818329B (zh) | 2017-08-09 | 2017-08-09 | 一种质谱数据分析方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN107818329B (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109633094A (zh) * | 2018-12-28 | 2019-04-16 | 浙江省环境监测中心 | 一种臭气浓度在线监测方法 |
| CN112380758A (zh) * | 2020-11-02 | 2021-02-19 | 中煤科工集团重庆研究院有限公司 | 一种粉尘颗粒群电场荷电数学模型构建方法 |
| CN112418072A (zh) * | 2020-11-20 | 2021-02-26 | 上海交通大学 | 数据处理方法、装置、计算机设备和存储介质 |
| CN118861619A (zh) * | 2024-06-25 | 2024-10-29 | 复旦大学附属华山医院 | 质谱数据的处理方法及其系统、设备以及存储介质 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105512669A (zh) * | 2014-04-04 | 2016-04-20 | 佰欧迪塞克斯公司 | 使用基于血液的样本的质谱的肺癌患者的治疗选择 |
| CN106415274A (zh) * | 2014-03-26 | 2017-02-15 | 梅坦诺米克斯保健有限公司 | 基于代谢物组的血液样本质量的测定方法和手段 |
-
2017
- 2017-08-09 CN CN201710674793.9A patent/CN107818329B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106415274A (zh) * | 2014-03-26 | 2017-02-15 | 梅坦诺米克斯保健有限公司 | 基于代谢物组的血液样本质量的测定方法和手段 |
| CN105512669A (zh) * | 2014-04-04 | 2016-04-20 | 佰欧迪塞克斯公司 | 使用基于血液的样本的质谱的肺癌患者的治疗选择 |
Non-Patent Citations (5)
| Title |
|---|
| CONRAD TO ETL: "Sparse Proteomics Analysis - a compressed sensing-based approach for feature selection and classification of high-dimensional proteomics mass spectrometry data" * |
| TRUNTZER C ETL: "Comparison of classification methods that combine clinical data and high-dimensional mass spectrometry data." * |
| 尹康平: "基于贝叶斯的质谱数据分析方法" * |
| 柯激情: "基于稀疏表示的蛋白质质谱数据分析" * |
| 石雪娜: "基于压缩感知的蛋白质功能分类预测" * |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109633094A (zh) * | 2018-12-28 | 2019-04-16 | 浙江省环境监测中心 | 一种臭气浓度在线监测方法 |
| CN112380758A (zh) * | 2020-11-02 | 2021-02-19 | 中煤科工集团重庆研究院有限公司 | 一种粉尘颗粒群电场荷电数学模型构建方法 |
| CN112418072A (zh) * | 2020-11-20 | 2021-02-26 | 上海交通大学 | 数据处理方法、装置、计算机设备和存储介质 |
| CN118861619A (zh) * | 2024-06-25 | 2024-10-29 | 复旦大学附属华山医院 | 质谱数据的处理方法及其系统、设备以及存储介质 |
| CN118861619B (zh) * | 2024-06-25 | 2025-08-15 | 复旦大学附属华山医院 | 质谱数据的处理方法及其系统、设备以及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN107818329B (zh) | 2023-04-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108875575B (zh) | 基于多通道信号融合深度神经网络自动心律失常分析方法 | |
| CN112786204A (zh) | 一种机器学习糖尿病发病风险预测方法及应用 | |
| CN111956212B (zh) | 基于频域滤波-多模态深度神经网络的组间房颤识别方法 | |
| CN103714261B (zh) | 二阶段混合模型的智能辅助医疗决策支持方法 | |
| CN112786203A (zh) | 一种机器学习糖尿病视网膜病变发病风险预测方法及应用 | |
| US20040059530A1 (en) | Method for analyzing mass spectra | |
| CN115099331A (zh) | 基于可解释性机器学习算法的恶性胸腔积液辅助诊断系统 | |
| CN110141220A (zh) | 基于多模态融合神经网络的心肌梗死自动检测方法 | |
| CN115691722B (zh) | 医疗数据检测的质控方法、装置、设备、介质及程序产品 | |
| CN107818329A (zh) | 一种质谱数据分析方法 | |
| CN106055922A (zh) | 一种基于基因表达数据的混合网络基因筛选方法 | |
| CN107506606A (zh) | 常见疾病风险预测方法及系统 | |
| Bhaskar et al. | An approach for analysis and prediction of CKD using deep learning architecture | |
| CN113270191A (zh) | 一种数据校正及分类方法及存储介质 | |
| CN118873153A (zh) | 基于分组余弦卷积网络的脑电异常检测及定位方法及系统 | |
| JP2014064515A (ja) | 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム | |
| CN116779077A (zh) | 基于体检标志物构建生物学年龄及衰老评价的方法及系统 | |
| CN117612732A (zh) | 基于深度学习的多模态健康管理方案生成方法及其系统 | |
| CN114081494B (zh) | 一种基于大脑外侧缰核信号的抑郁状态检测系统 | |
| US11961204B2 (en) | State visualization device, state visualization method, and state visualization program | |
| CN118800387A (zh) | 基于数字化的实验室信息管理系统 | |
| CN115227266B (zh) | 一种肌电信号分类方法、计算机设备以及可读存储介质 | |
| CN116965812A (zh) | 一种基于分数傅里叶变换分析的无创血糖检测方法及系统 | |
| CN112908466A (zh) | 基于迁移学习的阿尔兹海默病智能决策支持方法及系统 | |
| RU2840592C1 (ru) | Способ определения биологического возраста человека на основе биохимических показателей крови |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| TA01 | Transfer of patent application right |
Effective date of registration: 20180829 Address after: 310053, 16, 1601, 5, Binan Road, Changhe street, Binjiang District, Hangzhou, Zhejiang, China, 688 Applicant after: YINAPU (ZHEJIANG) BIOTECHNOLOGY CO.,LTD. Address before: 200030 Dongchuan Road, Minhang District, Shanghai 800 Applicant before: Shanghai Jiao Tong University |
|
| TA01 | Transfer of patent application right | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |