CN117723759B

CN117723759B - 血浆蛋白生物标志物组合及其应用和可用于区分多种儿童青少年精神疾病的诊断系统

Info

Publication number: CN117723759B
Application number: CN202311719640.3A
Authority: CN
Inventors: 周新雨; 黄超兰; 李雪梅; 雷婷婷; 何雨倩; 滕腾
Original assignee: Chongqing Medical University
Current assignee: Chongqing Medical University
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2025-03-04
Anticipated expiration: 2043-12-13
Also published as: CN117723759A

Abstract

本发明涉及儿童青少年精神疾病诊断标志物以及诊断方法技术领域，具体涉及血浆蛋白生物标志物组合及其应用和可用于区分多种儿童青少年精神疾病的诊断系统。所述血浆蛋白生物标志物组合包括以下蛋白质EFEMP1、F13A1、DCD、ADAMTSL4、GLIPR2、PIP和TGOLN2。本研究基于蛋白组学分析和机器学习，评估儿童青少年患有抑郁症、双相情感障碍和精神分裂症的受试者与非精神病健康对照血浆中的蛋白质特征，探索可能的致病机制，识别和验证潜在的蛋白质生物标志物及其与临床诊断的相关性，找到七个可以区分这3种疾病的血浆蛋白，作为客观诊断标志物，具有很高的临床应用价值。

Description

血浆蛋白生物标志物组合及其应用和可用于区分多种儿童青少年精神疾病的诊断系统

技术领域

本发明涉及儿童青少年精神疾病诊断标志物以及诊断方法技术领域，具体涉及血浆蛋白生物标志物组合及其应用和可用于区分多种儿童青少年精神疾病的诊断系统。

背景技术

青少年心理健康问题是一个全球性的公共卫生问题，与成人相比，青少年精神障碍表现出不同的症状和病理生理机制。例如，精力丧失、体重、食欲和睡眠变化等植物神经/生理紊乱在青少年抑郁症中很常见，而失神/失去兴趣和注意力难以集中在成人抑郁症中则更为普遍。首次发病的青少年精神病患者可能起病较慢、较隐匿，使他们面临治疗被长期延误的风险。先前的研究已对各种精神障碍的发病机制进行了调查。分子研究发现，抑郁症MDD（Major Depressive Disorder）与神经营养因子、促炎细胞因子的改变以及下丘脑-垂体-肾上腺皮质轴的失调有关。双相情感障碍BD（Bipolar Disorder）涉及神经元-神经胶质细胞可塑性、单胺能信号传导、炎症稳态、细胞代谢途径和线粒体功能的紊乱。精神分裂症SZ（Schizophrenia）的病因是多因素的，遗传风险位点与神经发育、神经元兴奋性、突触功能和免疫系统相关的生物过程有关。值得注意的是，大多数研究都集中在成年患者身上，对青少年精神障碍的病因学研究还不够深入。

MDD、BD和SZ是青少年中普遍存在的慢性主要精神障碍，在病因学、表型和基因型方面都有重叠的特征。尽管如此，青少年精神障碍的诊断主要依据《精神障碍诊断与统计手册第五版》（DSM-5）中列出的临床症状标准，而没有考虑潜在的病因或病理生理机制。这种方法会导致严重的症状重叠和组内异质性，从而造成误诊和误治，尤其是对青少年而言。了解青少年主要精神障碍的分子性质，可为了解其潜在的病理生理学提供宝贵的视角。鉴定可靠的精神疾病生物标志物变得越来越重要，这有助于在临床实践中进行准确诊断、分组和个性化治疗策略，并预测健康状态。以及预测健康状态并指导医疗干预措施的实施和评估。包括基因组学、转录物组学、蛋白质组学、代谢组学和表观基因组学在内的各种omics研究领域已被用于确定主要精神疾病的诊断生物标志物。特别是蛋白质组学方法大有可为，因为蛋白质执行生物功能并密切反映精神疾病的病理生理过程。虽然血浆或血清蛋白质组学研究有助于阐明精神疾病的发病机制和识别标志物面板，但血浆蛋白质的变化并不能反映精神疾病的病理生理过程。在患有MDD、BD或SZ的青少年中，血浆蛋白质的变化仍未确定，也没有可靠的生物标志物来区分这些精神疾病。

基于质谱（Mass spectrometry, MS）的蛋白质组学是发现生物标记物的有力工具，但只有与先进的生物信息学方法相结合才能充分发挥其潜力，这些方法可以发现稳健的模式。鉴定预测性蛋白质标记物，尤其是外周血中的标记物，对于增进我们对精神疾病的了解至关重要。机器学习已成为这一探索的重要组成部分，它能从蛋白质组分析产生的庞大而复杂的数据集中提取有价值的见解。通过整合成百上千个样本或个体的数据，机器学习算法可以识别有意义的生物信息、蛋白质特征，并非常准确地预测生理状。最近的研究表明，机器学习可以区分BD和MDD等主要精神疾病，并取得了一定的成功。尽管如此，利用机器学习发现潜在的血浆生物标记物来区分青少年的三大精神疾病（MDD、BD和SZ）仍是一个未决问题。

发明内容

本发明意在提供血浆蛋白生物标志物组合在制作诊断儿童青少年精神疾病的系统中的应用，以解决现有技术中缺少针对儿童青少年的可用于诊断和区分不同类型精神疾病的生物标志物的技术问题。

为达到上述目的，本发明采用如下技术方案：

血浆蛋白生物标志物组合在制作诊断儿童青少年精神疾病的系统中的应用，所述血浆蛋白生物标志物组合包括以下蛋白质：EFEMP1、F13A1、DCD、ADAMTSL4、GLIPR2、PIP和TGOLN2。

本发明还提供了一种用于同时诊断儿童青少年抑郁症、双相情感障碍和精神分裂症的生物标志物组合，其为血浆蛋白质；其由以下蛋白质组成：EFEMP1、F13A1、DCD、ADAMTSL4、GLIPR2、PIP和TGOLN2。

本发明还提供了一种诊断儿童青少年精神疾病的系统，其包括样本预处理单元和蛋白质含量检测单元；所述样本预处理单元用于纯化血浆样品并对血浆样品中的蛋白进行酶解处理、以获得用于定量分析的多肽溶液；所述蛋白质含量检测单元用于检测所述多肽溶液中各血浆蛋白生物标志物的含量；血浆蛋白生物标志物由EFEMP1、F13A1、DCD、ADAMTSL4、GLIPR2、PIP和TGOLN2组成。

进一步，所述诊断儿童青少年精神疾病的系统用于诊断儿童青少年抑郁症、儿童青少年双相情感障碍和儿童青少年精神分裂症中的至少一种儿童青少年精神疾病。

进一步，所述诊断儿童青少年精神疾病的系统用于区分儿童青少年抑郁症人群和健康人群；用于区分儿童青少年双相情感障碍人群和健康人群；用于区分儿童青少年精神分裂症人群和健康人群。

进一步，所述诊断儿童青少年精神疾病的系统用于区分儿童青少年抑郁症人群和儿童青少年双相情感障碍人群、儿童青少年精神分裂症人群以及健康人群形成的混合人群；

用于区分儿童青少年双相情感障碍人群和儿童青少年抑郁症人群、儿童青少年精神分裂症人群以及健康人群形成的混合人群；

用于区分儿童青少年精神分裂症人群和儿童青少年抑郁症人群、儿童青少年双相情感障碍人群以及健康人群形成的混合人群。

进一步，所述诊断儿童青少年精神疾病的系统包括样本预处理单元和蛋白质含量检测单元。

进一步，样本预处理单元的处理对象为血液或者血浆。

进一步，蛋白质含量检测单元用于检测血液或者血浆中的EFEMP1、F13A1、DCD、ADAMTSL4、GLIPR2、PIP和TGOLN2的蛋白含量。

进一步，EFEMP1的Unipot编号为Q12805，F13A1的Unipot编号为P00488， DCD的Unipot编号为P81605，ADAMTSL4的Unipot编号为Q6UY14，GLIPR2的Unipot编号为Q9H4G4，TGOLN2的Unipot编号为O43493，PIP的Unipot编号为P12273。

本技术方案的原理以及有益效果在于：

利用基于平行累积连续碎裂技术（parallel accumulation–serialfragmentation, PASEF）和建立在PASEF技术上的数据非依赖型采集（Data IndependentAcquisition, DIA）方法进行的蛋白质组学分析，生成了患有MDD、BD或SZ的青少年血浆中的蛋白质组学图谱，并将其与健康对照组（Health controls, HCs）进行了比较。本研究的目标是探索MDD、BD和SZ的潜在致病机制，比较青少年和成人之间的不同蛋白质，研究药物与蛋白质之间的相互作用，以及确定蛋白质生物标志物及其与临床症状的相关性。通过研究筛选出了十一中候选标志物，然后在验证队列人群众进一步验证，确认了七个血浆蛋白生物标志物：EFEMP1、F13A1、DCD、ADAMTSL4、GLIPR2、PIP和TGOLN2。利用上述七个血浆蛋白生物标志物，可以实现三种精神疾病与健康人群的区分，也可以实现三种精神疾病之间的区分，实现了更有效的诊断。本技术方案发现了潜在的血浆生物标记物，来区分青少年的三大精神疾病（MDD、BD和SZ），解决了实际临床诊断过程中的重大问题。

附图说明

图1为实施例1的针对于MDD、BD和SZ组患者与HCs、MDD与BD、SZ与MDD和SZ与BD的PLS-DA分析的可视化结果。

图2为实施例1的MDD、BD和SZ患者血浆中蛋白质表达的差异分析可视化结果。

图3为实施例2的利用机器学习识别11种血浆蛋白的特征以及区分青少年的MDD、BD或SZ患者的效力的研究结果。

图4为实施例2的建立用于区分不同群体的机器学习方法的比较和区分青少年的MDD、BD、SZ患者和HCs的效力的研究结果。

图5为实施例2的11个生物标志物与每个青少年精神病的严重程度之间的相关性（展示11种生物标志物与MDD（a）、BD（b）和SZ（c）临床量表之间的相关性；HAMD-17，17项汉密尔顿抑郁评定量表；HAMA-14，14项汉密尔顿焦虑评定量表；YMRS，青年躁狂评定量表；PANSS，正负综合征量表）。

图6为实施例2的通过PRM鉴定出的7种血浆生物标记物可以区分青少年患者MDD、BD和SZ的实验结果。

具体实施方式

下面结合实施例对本发明做进一步详细的说明，但本发明的实施方式不限于此。若未特别指明，下述实施例以及实验例所用的技术手段为本领域技术人员所熟知的常规手段，且所用的材料、试剂等，均可从商业途径得到。

实施例1：样品的获取以及蛋白质组学检测和分析

（1）实验对象

为了探索与儿童青少年精神障碍相关的血浆蛋白改变，我们使用了发现队列和验证队列（表1）。在发现队列中，共纳入479名参与者，包括146名儿童青少年抑郁症患者（MDD）、112名儿童青少年双相情感障碍患者（BD）、61名儿童青少年精神分裂症患者（SZ）和160名健康对照（HCs）。在验证队列中，共招募了108名参与者，包括32名青少年MDD患者、23名BD患者、13名SZ患者和40名HCs。在发现队列和验证队列中，HCs 和MDD、BD、SZ患者的年龄和体重指数无显著统计学差异，而BD与SZ之间以及BD与HC之间的性别分布则有显著的统计学差异。此外，在发现队列和验证队列中，MDD和BD组参与者的17项汉密尔顿抑郁评定量表（HAMD-17）和14项汉密尔顿焦虑评定量表（HAMA-14）得分均显著高于HCs。受试者情况详见表1。

表1：受试者基本信息统计表

（2）实验方法

（2.1）用于DIA（Data-Independent Acquisition,数据非依赖型采集）分析的样品处理

使用Agilent 1290 Infinity II 液相色谱系统和 Multi Affinity RemovalColumn（美国安捷伦科技公司）去除血浆样本中的高丰度蛋白质。蛋白质浓度由BCA蛋白检测试剂盒（Thermo Scientific）测定。然后用三氯乙酸溶液沉淀血浆中的蛋白质，用20mM盐酸膦还原（TCEP），并加入40mM碘乙酰胺在黑暗中烷基化30分钟。混合物在37℃下用胰蛋白酶消化过夜，蛋白酶与样品蛋白质的比例为1:100（重量比）。使用Monospin C18柱（GLScience，日本东京）对裂解液进行脱盐，然后真空离心至干。提取的肽在数据独立获取（DIA）分析前用0.1%甲酸重构。

（2.1）光谱库的样品制备

提取的多肽按上述方法制备。将每个样品中的多肽混合，得到 100 µg 纯化混合物，然后用真空离心法干燥。干燥后的多肽在含有2%乙腈的Milli-Q水中重构，进行分馏。

使用高pH值反相分馏法，多肽经色谱柱（BEH C18，30 Å，1.7μm，1mm×150mm）和Waters XevoTM ACQUITY UPLC（Waters，美国）分离，pH值为10。在80分钟内，每隔60秒收集一次洗脱的肽段，共收集62个馏分，然后交叉缩聚成31个馏分，并经真空离心干燥。将干燥的肽段溶解在10µl含0.1%甲酸的Milli-Q水中，然后添加iRT肽段进行色谱校正。

（2.3）液相色谱法

使用nanoElute液相色谱系统（Bruker Daltonics）进行纳米流反相色谱分析。肽的分离流速为300nl/min，采用非线性梯度，从0.1%甲酸溶液中的2%乙腈开始，在8分钟内增加到0.1%甲酸溶液中的22%乙腈，然后增加到37%，在5分钟内进一步增加到100%，最后在100%浓度下保持7分钟，然后重新校准。使用自制色谱柱（25 cm × 75 µm，1.5 µm C18-AQ颗粒）。流动相A和B分别为水和含0.1% 甲酸的乙腈。

（2.4）质谱分析法

用于构建光谱库：液相色谱法通过CaptiveSpray纳米电喷雾离子源与TimsTOFPro（布鲁克公司）联机。所有31个馏分样品均在数据依赖模式下进行质谱分析。累积时间和斜坡时间各设置为100ms，在正电喷雾模式下记录m/z 100-1700范围内的质谱，以生成谱库。

用于DIA分析：另一个分析是独立于数据的模式，包括从m/z 400到m/z 1200 的MS1扫描和64个MS2窗口，采用DIA-PASEF 采集方案，涵盖m/z 400到m/z 1200 的质量范围。离子迁移率扫描范围为0.6至1.6Vs/cm扫描。碰撞能量与迁移率成线性关系，碰撞能量作为迁移率的函数从1/K0=1.6Vs/cm2的59eV线性上升到1/K0=0.6Vs/cm2时的20eV。

（2.5）光谱库的生成和DIA数据分析

光谱库是用Spectronaut 14.2版（Biognosys）针对UNIPROT人类数据库（只审查了条目）生成的，所有的参数都是默认的。DIA文件以默认模式处理，只是XIC IM提取窗口的校正因子被设置为0.8。

（2.6）使用PRM进行验证

使用TimsTOF Pro2（Bruker）进行PRM检测，使用Q-Exactive HF质谱仪(ThermoFisher Scientific, CA, USA)对选定的差异蛋白前体的肽前体进行了120分钟的保留时间窗口。PRM定量采用Skyline软件。进一步验证了健康对照组和MDD、BD和SZ患者的血浆蛋白丰度的差异。

（2.7）统计分析

首先，使用局部加权多项式回归（R v.3.6.3中的lowess）对发现的蛋白组学数据进行归因，以计算每个阶段（时间点）的蛋白质数量和蛋白质检测率的局部多项式拟合（参见文献：“Tian W, et al. Immune suppression in the early stage of COVID-19disease. Nature communications 11, 5859 (2020).”）。然后，用LogNorm程序对数据进行归一化并转换为对数。最小二乘法判别分析（PLS-DA）作为一种有监督的建模类方法被用来评估哪些蛋白质对区分不同组别有用（https://doi.org/10.1002/cem.2609）。那些蛋白质的P＜0.05（t检验）和折叠变化＞2或＜0.5被认为是差异性表达的蛋白质。

Mfuzzv.2.46.0(https://www.bioconductor.org/packages/release/bioc/html/Mfuzz.html)用来检测各组间基因表达的不同子聚类模型。Rv.3.6.3被用来实现Fisher's exact test89。String版本11用于蛋白质-蛋白质相互作用网络分析。路径富集分析使用Fisher精确检验和京都基因和基因组百科全书（KEGG）代谢途径数据库进行。热力图和网络可视化使用ggplot2软件包和Omicsbean工作平台（ggplot2 ：Elegant Graphics，2009）中实现的Cytoscape v.3.5.1进行。进行Ingenuity Pathway分析，以探索重大调控蛋白数据集的下游效应。z-score算法被用来预测生物过程的激活状态（激活或抑制）。如果z-分数≤-2，则预测该过程在统计学上被显著抑制。

（2.8）差异表达蛋白分析

为了探索与青少年精神障碍相关的血浆蛋白变化，发明人采用了基于质谱的DIA-PASEF方法来分析发现队列中所有组别的血浆蛋白表达水平。原始数据通过双边界贝叶斯（DBB）估算方法进行处理，然后对后续分析进行标准化。发明人的调查确定了发现队列中479个样本中的1829个蛋白质，并进行了蛋白质组图谱分析。为了直观地描述这些复杂数据集的异同，发明人采用了有监督的偏最小二乘判别分析（PLS-DA）方法。前三个分量的三维图显示了患者与HCs之间的明显分离，以及MDD与BD、SZ与MDD和SZ与BD之间的分离（图1a-f）。与HCs相比，分析发现MDD有20个上调和57个下调的差异表达蛋白(differentiallyexpressed proteins, DEPs)；BD有125个上调和272个下调的差异表达蛋白；SZ有350个上调和95个下调的差异表达蛋白，显著性设定为p＜0.05和折叠变化＞2或＜0.5（图2a-d，代表性数据见表2，节选部分代表性数据）。值得注意的是，与HC相比，18个DEPs在患者组间重叠，包括KDM5C、SFN、COTL1、HAPLN1和SERPINB7（图2e）。其中，KDM5C与X连锁综合征性精神发育迟滞有关，在女性主要精神疾病的发展中起着因果作用。而SFN则有望改善情绪和认知功能。基因组研究发现，KRT23是MDD的潜在候选生物标志物，HAPLN1是MDD的候选生物标志物，HAPLN1是抑郁症的风险标记。在哺乳动物大脑边缘区域高度表达的CCN3基因与精神情绪障碍（包括抑郁和焦虑）有关。此外，发明人还比较了MDD、BD和SZ的DEPs（代表性数据见表3，节选部分代表性数据）。

为了重点研究三大精神疾病的潜在共性和特异性蛋白质特征，发明人进行了分层聚类分析，并利用所有DEPs构建了热图（图2f，代表性数据见表4，节选部分代表性数据）。这一过程将所有DEPs分成了四个不同的群组。簇1（cluster1）的特点是，与其他三个组相比，SZ的蛋白质水平升高；而簇2则显示，与其他组相比，BD的蛋白质水平降低。相反，与BD和SZ相比，簇3在HC和MDD中的蛋白质水平升高，而簇4在HC和MDD中的蛋白质水平低于BD和SZ。DEPs每个群组的通路分析（主要集中在细胞通讯、活化、粘附和体液免疫反应方面）表明，虽然存在共同的改变蛋白，但青少年患者的每种精神疾病都有其独特的血浆蛋白特征。

表2：抑郁症组、双相情感障碍组、精神分裂症组与健康组相比存在的差异表达蛋白（节选部分代表性数据）

表3：抑郁症组、双相情感障碍组、精神分裂症组三组间相互比较存在的差异表达蛋白

表4：抑郁症组、双相情感障碍组、精神分裂症组与健康组所有差异蛋白的聚类分析

实施例2：生物标志物的筛选

（1）机器学习和特征选择

发明人旨在利用机器学习技术识别蛋白质特征，并根据蛋白质组数据预测生理状态，以更好地区分青少年的主要精神疾病。采用偏最小二乘法判别分析（PLS-DA）、支持向量机（SVM）、多层感知器（MLP）、逻辑回归（LR）或随机森林（RF）机器学习方法，筛选出用于区分MDD、BD、SZ患者和HC的蛋白质生物标记物。为弥补缺失值，采用了DBB策略。为评估模型性能，计算了接收者操作特征（ROC）和平衡准确率。使用pROC软件包构建了ROC曲线并计算了曲线下面积（AUC）值。根据PLS分析得出的预测得分公式计算ROC的概率统计。整个蛋白质图谱的ROC曲线可根据相应的AUC值比较不同的模型。对模型进行了留空交叉验证(LOOCV)和置换测试，Q²和R²用于评估模型的稳健性和潜变量（LV）所代表的变异量，置换显著性阈值设定为P＜0.05。为了获得最佳模型性能，还计算了交叉验证误差率，并从PLS-DA模型中确定的所有观察变量中创建了12个LV，以获得更好的预测性能。此外，还分析了投影中的变量重要性（VIP）值，该值反映了每个蛋白质在投影模型中的相对重要性。通过机器学习（ML）与生物信息学相结合的方法，共鉴定出11个蛋白质。为了验证所选蛋白质是否是能够构建区分不同群体的良好分类器，对ROC曲线进行了量化，以评估其诊断性能。

（2）实验结果分析

使用机器学习鉴定血浆生物标志物以区分儿童青少年抑郁症与双相情感障碍、精神分裂症，筛选出潜在的特定生物标志物来更好地区分不同的青少年精神病，并发现这些疾病的症状在某种程度上与客观临床量表的相关性。发明人使用了机器学习以确定有希望的蛋白质标志物，并根据蛋白质组数据预测生理状态。首先构建了用于分类的不同ML方法，包括偏最小二乘判别分析（PLS-DA）、支持向量机（SVM）、多层感知器（MLP）、逻辑回归（LR）和随机森林（RF）。通过对混淆矩阵和ROC曲线的分析来评估不同模型的性能。结果发现在五种机器学习方法中，PLS-DA模型的可靠性最高，基于HC、MDD、BD和SZ组血浆蛋白质组图谱的准确率达到97%，平均AUROC值为0.95（图3a-b）。使用PLS-DA模型绘制的ROC曲线也显示出卓越的分类能力，能准确区分SZ与HC （AUC=0.97%）、BD与HC（AUC=0.95%）和MDD与HC（AUC=0.75%），且特异性和灵敏度都很高（图3c）。

为了确定潜在的生物标志物，发明人利用了基于准确性、AUROC值和变量重要性的PLS-DA机器学习模型来筛选潜在的生物标志物（图4a）。为了确保模型的稳健性并减少对过度拟合的担忧，提供了额外的证据并将模型的学习过程可视化（图4b-d）。R²值表示模型与训练数据的拟合程度，而Q²值则衡量模型预测未见数据的能力（图4b）。这些可视化模型在交叉验证过程中表现出了很高的准确性，没有明显的过度拟合迹象。考虑到可解释性和可预测性，发明人选择了12个潜变量（LVs）作为最优变量，从而使预测集的误差最小，并为模型提供了解释（图4c-d）。

发明人通过变量在预测中的重要性（VIP）值分析进一步评估了变量对分类的相对贡献（图3d），VIP值越高表明对组间区分的贡献越大。通过整合生物信息分析和机器学习策略，发明人发现了11个用于区分不同组别的蛋白质生物标志物，包括EFEMP1（Unipot编号：Q12805；全称：EGF-containing fibulin-like extracellular matrix protein 1）、F13A1（Unipot编号：P00488；全称：Coagulation factor XIII A chain）、DCD（Unipot编号：P81605；全称：Dermcidin）、ADAMTSL4（Unipot编号：Q6UY14；全称：ADAMTS-like protein4）、GLIPR2（Unipot编号：Q9H4G4；全称：Golgi-associated plant pathogenesis-relatedprotein 1）、MRPS34（Unipot编号：P82930；全称：Small ribosomal subunit proteinmS34）、TGOLN2（Unipot编号：O43493；全称Trans-Golgi network integral membraneprotein 2）、PIP（Unipot编号：P12273；全称：Prolactin-inducible protein）、URB1（Unipot编号：O60287；全称：Nucleolar pre-ribosomal-associated protein 1）、RCN1（Unipot编号：Q15293；全称：Reticulocalbin-1）和REG3A（Unipot编号：Q06141；全称：Regenerating islet-derived protein 3-alpha）（图3e，标准化蛋白丰度）在以前的研究中，其中一些生物标记物也被确定为神经精神疾病的生物标记物，如阿尔茨海默病的ADAMTS481和吉兰-巴雷综合征的TGOLN2，但是，从未报道这些蛋白为儿童青少年MDD、BD和SZ的生物标志物。11个选定生物标记物的ROC曲线表明该模型性能良好，SZ区分于其他组别（HC+BD+MDD）的AUROC值为0.97，MDD区分于其他组别（HC+BD+SZ）的AUROC值为0.75，BD区分于其他组别（HC+SZ+MDD）的AUROC值为0.73（图3f）。此外，使用所选11个生物标志物的模型在区分青少年的这三种主要精神疾病方面表现良好，AUROC值在0.72至0.88之间（图4f），在区分SZ和BD与HCs方面也表现良好，AUROC值分别为0.95和0.87（图4e）。在分析11种蛋白质生物标志物与症状严重程度的相关性时，我们发现大多数蛋白质水平的差异与三大精神疾病的临床特征显著相关（图 5a-c）。

（3）潜在生物标记物的高分辨率定向PRM验证

为了评估11个潜在生物标志物的诊断潜力，发明人在一个由32名青少年MDD患者、23名BD患者、13名SZ患者和40名HC患者组成的验证队列（受试者基本信息见表1）中，进行了基于平行反应监测（PRM）的高分辨率靶向质谱验证。PRM是一种广泛用于靶向蛋白质分析的现有技术常规的质谱技术，利用高分辨质谱仪的精确度，通过选择特定的前体离子（代表目标蛋白质的特异性肽段），并在碰撞室中对其进行分解，然后监测所有产生的碎片离子，通过测量这些碎片离子的强度，可以推断出目标蛋白质的量。检测样本血浆中目的蛋白的含量使用TimsTOF Pro2（Bruker）来进行现有技术常规的PRM检测，检测过程委托昱言科技(北京)有限公司通过现有技术常规手段进行，在此不再赘述。以期获得验证队列中的样本的11个候选生物标记物的表达量数据，并评判11个候选生物标记物的诊断效力。血液样本处理方法参照前文“（2.1）用于DIA（Data-Independent Acquisition,数据非依赖型采集）分析的样品处理”，将样本上样于设备中，获得相关数据，计算获得蛋白质丰度信息。

验证结果显示，在PRM的11个生物标记物中，检测到了7个蛋白质，包括EFEMP1、F13A1、DCD、ADAMTSL4、GLIPR2、PIP和TGOLN2（代表性数据见表6，图 6a-g，展示蛋白质丰度信息以及相应检测对应保留时间和信号强度）。在检测到的七种蛋白质中，发明人发现与MDD组和HCs组相比，SZ组中EFEMP1、F13A1和PIP的丰度明显更高（图 6a-c）。对7种蛋白的诊断效果进行ROC曲线分析，使用pROC软件包构建了关于7种蛋白标志物的ROC曲线并计算了曲线下面积（AUROC）值。具体为：利用二元逻辑回归建立诊断模型；诊断变量（自变量）为七种生物标志物的蛋白质丰度，应变量为MDD和其他（HC+BD+SZ），即应变量是MDD、HC+BD+SZ的两组二元变量；再对这个诊断模型进行接收操作特征（ROC）分析，以量化包含七个代谢物的生物标志物组合的诊断性能。应变量也可以为BD和其他（HC+MDD+SZ）的两组二元变量，也可以为SZ和其他（HC+MDD+BD）的两组二元变量，也可以为MDD和HC的两组二元变量，也可以为SZ和HC的两组二元变量，也可以为BD和HC的两组二元变量，以此类推。ROC曲线用来评判分类、检测结果的好坏，是非常重要和常见的统计分析方法，是以假阳性率（Falsepositiverate，1-特异性）为横轴，真阳性率（Truepositiverate，敏感性）为纵轴所组成的坐标图，测试样本在不同的判断标准（阈值）得出的不同结果画出的曲线。曲线下面积AUROC用来表示准确性，AUROC值越高，说明准确率越高。AUROC值＞0.7，说明该诊断模型可以比较准确地进行疾病的诊断，数值接近1，诊断模型的效果就越理想。

在PRM中检测到的七种蛋白质的ROC曲线在区分SZ和BD与HCs方面表现出色，AUROC值分别为0.98和0.89，而对MDD与HCs的诊断效果较差，AUROC值为0.57（图 6h）。值得注意的是，PRM中检测到的7种蛋白质的ROC曲线在区分三种主要精神疾病方面也表现良好，MDD、BD和SZ区分于其他组别的AUROC值分别为0.65、0.77和0.78（图 6i）。即，在待诊断人群中，存在MDD患者、BD患者、SZ患者以及健康人，采用本方案的模型，可以将MDD患者、BD患者、SZ患者从上述混合人群中较为准确地诊断出来，比单纯地鉴别和区分患者和健康人群，更具有实际意义。本方案的七个蛋白组成的标志物组合，可以有效地将单个精神疾病和其他精神疾病以及健康人群的区分开。此外，PRM中检测到的七种蛋白质的表达水平与三种主要精神疾病的量表分数特征显著相关（图 6j-I）。

表6：PRM中检测到的7种蛋白质的蛋白丰度

以上所述的仅是本发明的实施例，方案中公知的具体技术方案和/或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明技术方案的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.血浆蛋白生物标志物组合在制作诊断儿童青少年精神疾病的系统中的应用，其特征在于，所述血浆蛋白生物标志物组合包括以下蛋白质：Uniprot编号为Q12805的EFEMP1、Uniprot编号为P00488的F13A1、Uniprot编号为P81605的DCD、Uniprot编号为Q6UY14的ADAMTSL4、Uniprot编号为Q9H4G4的GLIPR2、Uniprot编号为P12273的PIP和Uniprot编号为O43493的TGOLN2；

所述诊断儿童青少年精神疾病的系统用于区分儿童青少年双相情感障碍人群和健康人群，或者用于区分儿童青少年精神分裂症人群和健康人群；或者用于区分儿童青少年双相情感障碍人群和儿童青少年抑郁症人群、儿童青少年精神分裂症人群以及健康人群形成的混合人群，或者用于区分儿童青少年精神分裂症人群和儿童青少年抑郁症人群、儿童青少年双相情感障碍人群以及健康人群形成的混合人群。

2.根据权利要求1所述的血浆蛋白生物标志物组合在制作诊断儿童青少年精神疾病的系统中的应用，其特征在于，所述诊断儿童青少年精神疾病的系统包括样本预处理单元和蛋白质含量检测单元。

3.根据权利要求2所述的血浆蛋白生物标志物组合在制作诊断儿童青少年精神疾病的系统中的应用，其特征在于，样本预处理单元的处理对象为血浆。

4.根据权利要求3所述的血浆蛋白生物标志物组合在制作诊断儿童青少年精神疾病的系统中的应用，其特征在于，蛋白质含量检测单元用于检测血浆中的EFEMP1、F13A1、DCD、ADAMTSL4、GLIPR2、PIP和TGOLN2的蛋白含量。

5.生物标志物组合，其特征在于，其为血浆蛋白质；其由以下蛋白质组成：Uniprot编号为Q12805的EFEMP1、Uniprot编号为P00488的F13A1、Uniprot编号为P81605的DCD、Uniprot编号为Q6UY14的ADAMTSL4、Uniprot编号为Q9H4G4的GLIPR2、Uniprot编号为P12273的PIP和Uniprot编号为O43493的TGOLN2；

所述生物标志物组合用于区分儿童青少年双相情感障碍人群和健康人群，或者用于区分儿童青少年精神分裂症人群和健康人群，或者用于区分儿童青少年双相情感障碍人群和儿童青少年抑郁症人群、儿童青少年精神分裂症人群以及健康人群形成的混合人群，或者用于区分儿童青少年精神分裂症人群和儿童青少年抑郁症人群、儿童青少年双相情感障碍人群以及健康人群形成的混合人群。

6.一种诊断儿童青少年精神疾病的系统，其特征在于，其包括样本预处理单元和蛋白质含量检测单元；所述样本预处理单元用于纯化血浆样品并对血浆样品中的蛋白进行酶解处理、以获得用于定量分析的多肽溶液；所述蛋白质含量检测单元用于检测所述多肽溶液中各血浆蛋白生物标志物的含量；血浆蛋白生物标志物由Uniprot编号为Q12805的EFEMP1、Uniprot编号为P00488的F13A1、Uniprot编号为P81605的DCD、Uniprot编号为Q6UY14的ADAMTSL4、Uniprot编号为Q9H4G4的GLIPR2、Uniprot编号为P12273的PIP和Uniprot编号为O43493的TGOLN2组成；

所述系统用于区分儿童青少年双相情感障碍人群和健康人群，或者用于区分儿童青少年精神分裂症人群和健康人群，或者用于区分儿童青少年双相情感障碍人群和儿童青少年抑郁症人群、儿童青少年精神分裂症人群以及健康人群形成的混合人群，或者用于区分儿童青少年精神分裂症人群和儿童青少年抑郁症人群、儿童青少年双相情感障碍人群以及健康人群形成的混合人群。