CN117981011A

CN117981011A - 用于个体化疗法的方法和系统

Info

Publication number: CN117981011A
Application number: CN202280057498.8A
Authority: CN
Inventors: 苏珊·吉亚西安; 维亚切斯拉夫·R·埃克麦弗; 伊凡·沃伊塔罗夫
Original assignee: Saifu Pharmaceutical Co
Current assignee: Saifu Pharmaceutical Co
Priority date: 2021-06-22
Filing date: 2022-06-21
Publication date: 2024-05-03
Also published as: CN117916392A

Abstract

描述了用于鉴定疗法靶标并治疗表现出疾病基因表达签名的对象的方法和系统，其包括鉴定并施用被确定将患有疾病、病症或病况的对象的疾病基因表达签名恢复为非疾病表达签名(例如，非患病对象的疾病基因表达签名)的疗法。

Description

用于个体化疗法的方法和系统

相关申请的交叉引用

本申请要求2021年6月22日提交的美国临时申请号63/213,428和2022年4月8日提交的美国临时申请号63/329,008的权益，其中的每一个通过引用整体并入本文。

背景技术

许多复杂疾病的疗法应答可能仍然无法得到研究人员和从业者的理解。单一的分层因素或生物标志物可能不足以确定一种疗法在治疗特定患者方面是否有效。相反，许多疾病，诸如自身免疫性疾病、癌症等，会影响许多生物子系统。(参见例如，Frohlich等人,BMC Med,16,150:1122-1127(2018)，其出于所有目的通过引用并入本文)。这些疾病的有效治疗可能需要能够靶向或调节多种蛋白质和相关生物过程的疗法。鉴定患者治疗的反应性方法(例如，试错(trial and error)方法)可能成本高昂，并带来不良副作用、潜在疾病进展和适当治疗延迟的风险。(参见例如，Mathur&Sutton,Biomed.Rep.,7:3-5(2017)，其出于所有目的通过引用并入本文)。此外，对应答的确认可能限于对临床特征的分析，该临床特征并不总是指示疾病的真实应答或消退。

发明内容

迄今为止，许多确定疗法对特定对象的适用性的方法可能依赖于尝试多种疗法，试图通过评估临床特征来衡量患者应答的反应性方法。这些方法可能延迟必要的治疗，并且可能由于仅通过检查应答的临床特征而错误表征患者疗法的实际应答性。因此，需要为患者提供避免此类陷阱的个体化治疗的方法和系统。

本公开提供了涵盖在分子水平上治疗患者的见解的方法和系统，例如，主动提供将来自患病对象的基因表达谱的子集转换为与健康对象的基因表达谱类似的治疗，可能是比通过反应性方法或寻找单一的通用(one-size-fits-all)生物标志物更好的用于评估药物分子应答和鉴定有效疗法的度量。除其他外，所提供的技术允许提供者鉴定可能适用于此特定患者的特定治疗方法和模式，并允许提供者监测疾病进展和治疗应答，而不依赖于主观测量，诸如临床特征或患者自我评估。在一些实施方案中，患病患者的某些基因表达模式指示对疗法的应答，并且患病患者中此基因表达模式的基因表达的逆转指示患病对象的健康的改善(“疾病基因表达签名”)。这种方法不同于其他方法，其检查患有疾病的患者之间的基因表达差异，以鉴定与没有指示疗法应答的生物标志物的其他患者相比，患者是否具有该生物标志物。

在一些实施方案中，使用机器学习算法来鉴定疾病基因表达签名，该机器学习算法以显著的方式鉴定在患病对象、患病对象的子集和健康对象之间差异表达的基因。此外，本公开提供了涵盖一种见解的方法和系统，即当与健康对象的基因表达谱比较时，疾病对象的基因表达谱内的某些基因产生潜在的疗法靶标，该疗法靶标不同于与健康对象相比在患病对象中差异表达的基因。也就是说，虽然其他方法聚焦于患病对象与健康对象中差异表达的基因，但本公开鉴定了与这些差异表达基因具有显著连接(并且因此影响这些差异表达基因)，但其自身可能不会在患病对象与健康对象之间差异表达的疗法靶标。在一些实施方案中，潜在的疗法靶标与患病对象中差异表达的基因具有显著连接，使得调节靶标可以在治疗之后逆转疾病基因表达签名的基因表达，从而指示对象的疾病对特定疗法产生应答。

此外，本公开提供了涵盖一种见解的方法和系统，即多种疗法靶标可能与患病对象中的差异表达基因潜在地具有显著连接。因此，提供一种用于鉴定来自若干靶标中的哪个靶标在治疗之后成功逆转疾病基因表达签名的基因表达的可能性最高的方法可能是有益的。在一些实施方案中，使用机器学习算法来预测候选靶标被调节时的应答，从而确定靶标调节成功以影响疾病基因表达应答签名的可能性。在一些实施方案中，这种预测是通过评估候选靶标与疾病表达签名中的每个基因之间的网络接近性(其可以包括例如连接显著性)来进行的。在一些实施方案中，人工智能软件模块预测对疾病基因表达应答签名具有最高显著性的靶标，从而为患病对象的疗法提供感兴趣的靶标。

在一方面，本公开提供了一种确定或验证用于治疗患有疾病、病症或病况的对象的疗法的靶标的方法，所述方法包括：接收对应于疾病基因表达签名的应答基因集，其中所述疾病基因表达签名包括一个或多个基因，当表达全部或部分被逆转时，所述一个或多个基因与非患病对象的基因表达类似；接收一种或多种潜在疗法与多个基因表达之间的多种相互作用；至少部分地基于所述多种相互作用，针对所述应答基因集中的每个应答基因生成改变所述应答基因的基因表达的一种或多种潜在疗法；至少部分地基于所述应答基因集的改变的显著性来对所述一种或多种潜在疗法中的每一种进行评分，从而提供一种或多种候选疗法；确定由所述一种或多种候选疗法直接调节的一个或多个潜在靶标；选择与所述一个或多个潜在靶标共享显著相似性的一个或多个次要靶标；编译包括所述一个或多个潜在靶标和所述一个或多个次要靶标的靶标集；以及从所述靶标集中鉴定与所述应答基因集具有显著下游影响相似性的靶标，从而提供所述疗法靶标。

在一些实施方案中，所述方法还包括将所述一个或多个潜在靶标中的每一个映射到生物网络上，并且选择与所述生物网络上的所述一个或多个潜在靶标共享显著拓扑相似性的一个或多个次要靶标。在一些实施方案中，所述生物网络包括人类相互作用组。在一些实施方案中，所述生物网络是人类蛋白质-蛋白质相互作用组。在一些实施方案中，经由鉴定与所述生物网络上的所述一个或多个潜在靶标接近的靶标来确定所述一个或多个次要靶标的显著拓扑相似性。

在一些实施方案中，所述疗法靶标由所述一种或多种候选疗法直接调节。在一些实施方案中，所述疗法靶标与批准的用于所述疾病、病症或病况的疗法不相关。在一些实施方案中，所述疗法靶标与不同于所述疾病、病症或病况的第二疾病相关联。在一些实施方案中，所述疗法包括选自表1的成员。在一些实施方案中，所述疗法包括基因敲除或基因过表达。在一些实施方案中，所述疗法包括抗TNF疗法。在一些实施方案中，所述抗TNF疗法包括英夫利昔单抗(infliximab)、依那西普(etanercept)、阿达木单抗(adalimumab)、聚乙二醇结合赛妥珠单抗(certolizumab pegol)、戈利木单抗(golimumab)或其生物类似物。在一些实施方案中，所述一个或多个潜在靶标包括JAK1、JAK2、JAK3、IL23A、ITGA4、ITGB7、IL2RA、IL12A、IL12B、TNF、IL12RB1、IL23R、IL12RB2或MADCAM1。在一些实施方案中，所述改变的显著性包括所述应答基因集的基因表达的显著变化。

在一些实施方案中，所述疾病、病症或病况包括自身免疫性疾病、病症或病况。在一些实施方案中，所述疾病、病症或病况包括溃疡性结肠炎、克罗恩病(Crohn’s disease)、类风湿性关节炎、幼年型关节炎、银屑病关节炎、斑块型银屑病、强直性脊柱炎、格林-巴利综合征(Guillain-Barre syndrome)、干燥综合征(Sjogren’s syndrome)、硬皮病、白癜风、双相障碍、格雷夫斯病(Graves’disease)、精神分裂症、阿尔茨海默病(Alzheimer’sdisease)、多发性硬化症、帕金森病(Parkinson’s disease)或其组合。在一些实施方案中，所述疾病、病症或病况包括溃疡性结肠炎。在一些实施方案中，所述疾病、病症或病况包括类风湿性关节炎。在一些实施方案中，所述疾病、病症或病况包括阿尔茨海默病。在一些实施方案中，所述疾病、病症或病况包括多发性硬化症。

在另一方面，本公开提供了一种治疗患有疾病、病症或病况的对象的方法，其中所述对象表现出与所述疾病、病症或病况相关联的疾病基因表达签名，所述方法包括向所述对象施用已确定将所述疾病基因表达签名恢复为非疾病基因表达签名的疗法，其中所述疗法至少部分地通过以下来确定：接收对应于所述疾病基因表达签名的应答基因集，其中所述疾病基因表达签名包括一个或多个基因，当表达全部或部分被逆转时，所述一个或多个基因与非患病对象的基因表达类似；接收一种或多种潜在疗法与多个基因表达之间的多种相互作用；至少部分地基于所述多种相互作用，针对所述应答基因集中的每个应答基因生成改变所述应答基因的基因表达的一种或多种潜在疗法；至少部分地基于所述应答基因集的改变的显著性来对所述一种或多种潜在疗法中的每一种进行评分，从而提供一种或多种候选疗法；确定由所述一种或多种候选疗法直接调节的一个或多个潜在靶标；选择与所述一个或多个潜在靶标共享显著相似性的一个或多个次要靶标；编译包括所述一个或多个潜在靶标和所述一个或多个次要靶标的靶标集；从所述疗法的靶标列表中选择与所述应答基因集具有显著下游影响相似性的靶标；以及确定所述疗法直接调节所述靶标。

在一些实施方案中，所述疗法至少部分地通过以下来确定：进一步将所述一个或多个潜在靶标中的每一个映射到生物网络上，并且选择与所述生物网络上的所述一个或多个潜在靶标共享显著拓扑相似性的一个或多个次要靶标。在一些实施方案中，所述生物网络包括人类相互作用组。在一些实施方案中，所述生物网络是人类蛋白质-蛋白质相互作用组。在一些实施方案中，经由鉴定与所述一个或多个潜在靶标接近的靶标来确定所述一个或多个次要靶标的显著拓扑相似性。

在一些实施方案中，所述疾病基因表达签名至少部分地通过以下来确定：分析来自患有所述疾病、病症或病况的对象群组的基因表达数据；至少部分地基于所述基因表达数据将所述对象群组分层为先前对象的两个或更多个组；以及选择在所述先前对象的两个或更多个组与非患病对象组之间具有基因表达显著差异的一个或多个基因(“疾病候选基因”)，从而提供所述疾病基因表达签名。在一些实施方案中，将所述对象群组分层为先前对象的两个或更多个组是基于所述先前对象对特定疗法是否产生应答。

在一些实施方案中，所述疗法靶标由所述一种或多种候选疗法直接调节。在一些实施方案中，疗法靶标与批准的用于所述疾病、病症或病况的疗法不相关。在一些实施方案中，所述疗法包括抗TNF疗法。在一些实施方案中，所述抗TNF疗法包括英夫利昔单抗、依那西普、阿达木单抗、聚乙二醇结合赛妥珠单抗、戈利木单抗或其生物类似物。在一些实施方案中，所述疗法包括基因敲除或基因过表达。在一些实施方案中，所述疗法包括选自表1的成员。在一些实施方案中，所述一个或多个潜在靶标包括JAK1、JAK2、JAK3、IL23A、ITGA4、ITGB7、IL2RA、IL12A、IL12B、TNF、IL12RB1、IL23R、IL12RB2或MADCAM1。在一些实施方案中，所述改变的显著性包括所述应答基因集的基因表达的显著变化。

在一些实施方案中，所述疾病、病症或病况包括自身免疫性疾病、病症或病况。在一些实施方案中，所述疾病、病症或病况包括溃疡性结肠炎、克罗恩病、类风湿性关节炎、幼年型关节炎、银屑病关节炎、斑块型银屑病、强直性脊柱炎、格林-巴利综合征、干燥综合征、硬皮病、白癜风、双相障碍、格雷夫斯病、精神分裂症、阿尔茨海默病、多发性硬化症、帕金森病或其组合。在一些实施方案中，所述疾病、病症或病况包括溃疡性结肠炎。在一些实施方案中，所述疾病、病症或病况包括类风湿性关节炎。在一些实施方案中，所述疾病、病症或病况包括阿尔茨海默病。在一些实施方案中，所述疾病、病症或病况包括多发性硬化症。

在一些实施方案中，对所述一种或多种潜在疗法中的每一种进行评分包括：确定用所述一种或多种潜在疗法治疗之后所述应答基因集的表达水平相对于用所述一种或多种潜在疗法治疗之前所述应答基因集的表达水平的差异；以及计算所述一种或多种潜在疗法中的每一种的p值。

在一些实施方案中，经由机器学习算法来鉴定所述潜在靶标。在一些实施方案中，所述机器学习算法包括随机游走。

在另一方面，本公开提供了一种用于确定对象的个体化疗法的方法，所述方法包括：接收或生成包括应答基因集的疾病基因表达签名；接收或生成改变所述应答基因集的表达的一种或多种潜在疗法；至少部分地基于所述应答基因集的改变的显著性来对所述一种或多种潜在疗法中的每一种进行排序，从而提供一种或多种候选疗法；确定由所述一种或多种候选疗法直接调节的一个或多个潜在靶标；至少部分地基于与所述一个或多个潜在靶标的相似性的显著性来对一个或多个次要靶标进行排序；编译包括所述一个或多个潜在靶标和所述一个或多个次要靶标的靶标集；从所述个体化疗法的靶标集中选择与所述应答基因集具有显著下游影响相似性的靶标；以及确定所述个体化疗法直接调节所述靶标。

在一些实施方案中，所述方法还包括将所述一个或多个潜在靶标中的每一个映射到生物网络上，并且至少部分地基于与所述生物网络上的所述一个或多个潜在靶标的拓扑相似性的显著性来对一个或多个次要靶标进行排序。在一些实施方案中，所述生物网络包括人类相互作用组。

在一些实施方案中，所述疾病基因表达签名至少部分地通过以下来确定：分析来自患有所述疾病、病症或病况的对象群组的基因表达数据；至少部分地基于所述基因表达数据将所述对象群组分层为先前对象的两个或更多个组；以及选择在所述先前对象的两个或更多个组与非患病对象组之间具有基因表达显著差异的一个或多个基因(“疾病候选基因”)，从而提供所述疾病基因表达签名。

在另一方面，本公开提供了一种系统，其包括：计算装置的处理器；和具有存储在其上的指令的存储器，其中所述指令在被所述处理器执行时致使所述处理器进行本文提供的任何方法。

在另一方面，本公开提供了一种确定或验证用于治疗患有疾病、病症或病况的对象的疗法的靶标的方法，所述方法包括：接收对应于疾病基因表达签名的应答基因集，其中所述疾病基因表达签名是或包括一个或多个基因，当表达全部或部分被逆转时，所述一个或多个基因与健康对象的基因表达类似；接收一种或多种潜在疗法与多个基因表达之间的多种相互作用；针对所述应答基因集中的每个基因生成改变所述应答基因集的基因表达的一种或多种潜在疗法；基于所述应答基因集的改变(例如，基因表达的变化)的显著性来对所述一种或多种潜在疗法中的每一种进行评分，从而提供一种或多种候选疗法；确定由所述一种或多种候选疗法直接调节的一个或多个潜在靶标；将所述一个或多个潜在靶标中的每一个映射到生物网络上；选择与所述生物网络上的所述一个或多个潜在靶标共享显著拓扑相似性的一个或多个次要靶标；编译包括所述一个或多个潜在靶标和所述一个或多个次要靶标的靶标列表；从所述靶标列表中鉴定与所述应答基因集具有显著下游影响相似性的靶标，从而提供所述疗法靶标。

在一些实施方案中，所述疗法靶标由所述一种或多种候选疗法直接调节。

在一些实施方案中，经由鉴定与所述一个或多个潜在靶标接近的靶标来确定所述一个或多个次要靶标的显著拓扑相似性。

在一些实施方案中，所述疗法靶标与疗法不相关(例如，不被批准使用)。

在一些实施方案中，所述疗法靶标与不同于困扰对象的疾病的疾病相关联(例如，被批准使用)(例如，是“新型靶标”)。

在一些实施方案中，所述疗法包括选自表1的成员。

在一些实施方案中，所述疗法包括基因敲除或基因过表达。

在一些实施方案中，所述疗法包括抗TNF疗法。

在一些实施方案中，所述一个或多个潜在靶标选自JAK1、JAK2、JAK3、IL23A、ITGA4、ITGB7、IL2RA、IL12A、IL12B、TNF、IL12RB 1、IL23R、IL12RB2和MADCAM1。

在另一方面，本公开提供了一种治疗表现出疾病基因表达签名的对象的方法，所述方法包括施用被确定为将所述疾病基因表达签名恢复为健康基因表达签名的疗法，其中所述疗法通过以下来确定：从所述疾病基因表达签名中选择应答基因集；鉴定改变所述应答基因集的基因表达的一种或多种潜在疗法；基于所述应答基因集的改变的显著性来对所述一种或多种潜在疗法中的每一种进行评分，从而提供一种或多种候选疗法；确定由所述一种或多种候选疗法直接调节的一个或多个潜在靶标；将所述一个或多个潜在靶标中的每一个映射到生物网络上；选择与所述生物网络上的所述一个或多个潜在靶标共享显著拓扑相似性的一个或多个次要靶标；编译包括所述一个或多个潜在靶标和所述一个或多个次要靶标的靶标列表；通过鉴定对所述应答基因集具有显著下游影响的靶标来从所述靶标列表中选择治疗靶标；以及鉴定直接调节所述治疗靶标的疗法。

在一些实施方案中，所述疾病基因表达签名通过以下来确定：分析来自患有与所述对象相同的疾病、病症或病况的对象群组的基因表达数据；基于所述基因表达数据将所述对象群组分层为先前对象的两个或更多个组；以及选择在所述先前对象的两个或更多个组与健康对象组之间具有基因表达显著差异的一个或多个基因(“疾病候选基因”)，从而提供所述疾病基因表达签名。

在一些实施方案中，所述治疗靶标由所述一种或多种候选疗法直接调节。

在一些实施方案中，疗法靶标与疗法不相关。

在一些实施方案中，所述疗法包括抗TNF疗法。

在一些实施方案中，所述抗TNF疗法选自英夫利昔单抗、依那西普、阿达木单抗、聚乙二醇结合赛妥珠单抗、戈利木单抗及其生物类似物。

在一些实施方案中，所述疗法包括选自表1的成员。

在一些实施方案中，所述一个或多个潜在靶标选自JAK1、JAK2、JAK3、IL23A、ITGA4、ITGB7、IL2RA、IL12A、IL12B、TNF、IL12RB1、IL23R、IL12RB2和MADCAM1。

在一些实施方案中，所述疾病、病症或病况包括溃疡性结肠炎、克罗恩病、类风湿性关节炎、幼年型关节炎、银屑病关节炎、斑块型银屑病、强直性脊柱炎、格林-巴利综合征、干燥综合征、硬皮病、白癜风、双相障碍、格雷夫斯病、精神分裂症、阿尔茨海默病、多发性硬化症、帕金森病或其组合。

在一些实施方案中，通过机器学习算法来鉴定所述潜在靶标。

在一些实施方案中，所述机器学习算法包括随机游走。

在一些实施方案中，将所述对象群组分层为先前对象的两个或更多个组至少部分地是基于所述先前对象对特定疗法是否产生应答。

在另一方面，本公开提供了一种用于对对象的个体化疗法进行工程化的方法，所述方法包括：接收或生成包括应答基因集的疾病基因表达签名；接收或生成改变所述一个或多个应答基因的表达的一种或多种潜在疗法集；根据所述一个或多个应答基因的改变的显著性来对所述一种或多种潜在疗法集中的每一种进行排序，以提供一种或多种候选疗法集；确定由所述一种或多种候选疗法集直接调节的一个或多个潜在靶标，任选地通过将所述一个或多个潜在靶标映射到生物网络上；以及对所述一个或多个潜在靶标中的每一个与所述应答基因集之间的拓扑相似性的显著性进行排序；将所述一个或多个潜在靶标中的每一个映射到生物网络上；鉴定与所述一个或多个潜在靶标共享显著下游影响的一个或多个次要靶标；编译包括所述一个或多个潜在靶标和所述一个或多个次要靶标的靶标列表；从所述靶标列表中选择治疗靶标；以及选择调节所述治疗靶标的所述个体化疗法。

在一些实施方案中，所述疾病基因表达签名通过以下来确定：接收或生成来自患有与所述对象相同的疾病、病症或病况的对象群组的基因表达数据；基于所述基因表达数据将所述对象群组分层为先前对象的两个或更多个组；以及选择在所述先前对象的两个或更多个组与健康对象组之间具有基因表达显著差异的一个或多个基因(“疾病候选基因”)，从而提供所述疾病基因表达签名。

在另一方面，本公开提供了一种用于确定或验证治疗患有疾病的对象的疗法的靶标的系统，所述系统包括：计算装置的处理器；和具有存储在其上的指令的存储器，其中所述指令在被所述处理器执行时致使所述处理器进行本文所述的任何方法的一个或多个操作。

本公开的另一方面提供了一种包括机器可执行代码的非临时计算机可读介质，所述机器可执行代码在由一个或多个计算机处理器执行时，实现上述或本文其他地方的任何方法。

本公开的另一方面提供了一种系统，其包括一个或多个计算机处理器和耦合到其上的计算机存储器。所述计算机存储器包括机器可执行代码，所述机器可执行代码在由所述一个或多个计算机处理器执行时，实现上述或本文其他地方的任何方法。

根据以下具体实施方式，本公开的其他方面和优点对于本领域技术人员将变得容易显而易见，其中仅示出和描述了本公开的说明性实施方案。如将会理解的，本公开能够具有其他的和不同的实施方案，并且其若干细节能够在各个明显的方面进行修改，所有这些都不背离本公开。因此，附图和说明书将在本质上被视为是说明性的而非限制性的。

援引并入

本说明书中提到的所有出版物、专利和专利申请都通过引用并入本文，其并入程度如同每个单独的出版物、专利或专利申请被明确且单独地指示通过引用并入。就通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾而言，本说明书旨在取代或优先于任何这种矛盾的材料。

附图说明

图1描绘了用于鉴定疾病表达签名的示例性工作流程。

图2A描绘了说明网络相似性分析的图，其示出了：与随机选择的治疗模块相比，TNF与实验推导的治疗模块具有显著更接近的网络影响相似性。

图2B描绘了说明溃疡性结肠炎批准的靶标对所鉴定的治疗模块具有高度显著的影响特异性和选择性的图。

图3A描绘了说明实施例1中在基线和治疗之后对治疗的应答者和非应答者以及健康对照的基因表达谱的2D表示的图。

图3B和图3C描绘了一系列重叠的图，其说明非应答者生物标志物集几乎完全包含在应答者的生物标志物集内，并且对于每个研究群组，应答者生物标志物集通常是非应答者生物标志物集的两倍大(图3B表示实施例1的研究1；图3C表示实施例1的研究2)。

图4描绘了用于在各种实施方案中使用的示例性网络环境和计算装置。

图5描绘了可以用于实现本文所述的技术的计算装置500和移动计算装置550的示例。

图6描绘了说明响应于抗-TNF治疗上调和下调的节点的图，如在生物网络(例如，人类相互作用组图)上聚类和连接。最大连接组件(LCC)是约91。

图7描绘了模块三元组框架的概述。(a)用于在人类相互作用组上发现UC模块三元组的管线：应答模块衍生自对TNFi疗法(英夫利昔单抗和戈利木单抗)产生应答的活动性UC患者在治疗之前和之后差异表达的基因；通过将与UC相关联的基因映射在人类相互作用组上来衍生基因型模块；通过使用HT29细胞系中的实验数据选择导致应答模块基因的基因表达改变的小分子化合物并将化合物映射到它们的蛋白质靶标来衍生治疗模块。基于发现的模块三元组的靶标优先化：(b)、(d)通过计算节点到所有基因型模块节点的平均最短路径长度，并使用Z分数将其与到与基因型模块相同大小的随机化连接子网络的平均最短路径长度的经验分布进行比较，来测量节点与基因型模块的拓扑相关性(接近性)；(c)、(e)通过计算节点到所有治疗模块节点的平均扩散状态距离(DSD)，并使用Z分数将其与到与治疗模块相同大小的随机化连接子网络的平均DSD的经验分布进行比较，来测量节点与治疗模块的功能相似性(选择性)。基于接近性和选择性对所有节点进行排序，并且使用排序乘积(rank product)将它们的排序组合，以获得最终靶标排序。

图8描绘了TNFi疗法之前和之后正常组织对照和UC活动性患者的基因表达谱。基因表达谱的UMAP嵌入的前两个坐标是基于针对(a)英夫利昔单抗TNFi治疗；(b)戈利木单抗TNFi治疗的活动性UC患者与正常对照之间545个差异表达基因的集合。

图9描绘了基于扩散状态距离(DSD)被批准用于4种复杂疾病的靶标的恢复。针对(a)阿尔茨海默病；(b)溃疡性结肠炎；(c)类风湿性关节炎；(d)多发性硬化症的治疗已知批准靶标的恢复的受试者操作特征(ROC)曲线。单个ROC曲线展示了给定一个已知批准靶标和从其到剩余HI节点的DSD的批准靶标的恢复。红线表示通过对单个ROC曲线求平均值而获得的平均ROC曲线，并且报告了平均ROC曲线的曲线下面积(AUC)。

图10描绘了模块三元组靶标优先化的计算机验证。(a)突出显示的23个被批准用于UC治疗的靶标的HI节点的选择性-接近性散点图。更具选择性和接近性的靶标朝向散点图的左下方定位。(b)使用与基因型模块的接近性、对治疗模块的选择性、两者的组合以及相对于应答模块的局部辐射性，用于被批准的UC靶标的恢复的受试者操作特征(ROC)曲线，以及对应的曲线下面积(AUC)。(c)针对UC上市的靶标以及处于UC临床前和临床试验开发阶段的靶标的组合选择性-接近性排序的小提琴图。

图11描绘了DE分析的概述。(a)：通过比较应答者、非应答者和正常对照的不同状态对获得的差异表达基因集的示意图，以及整个指定论文中使用的DE基因集名称；(b)：英夫利昔单抗和戈利木单抗研究中R、NR和RBA集的文氏图(Venn diagram)；(c)：整个研究中R、NR和RBA集的相互重叠。

图12描绘了在基线时相对于健康对照在应答者和非应答者中差异表达的基因的KEGG途径富集分析。(a)在将基于英夫利昔单抗和戈利木单抗的群组合并之后，在基线时应答者(R)和非应答者(NR)的相对于健康对照差异表达的基因的文氏图。(b)KEGG途径数据库内相同基因集的文氏图。(c)显著富集NR基因集的KEGG途径，其也具有比R排他性基因显著更多的NR排他性基因。

图13描绘了靶标数量/药物。被批准用于UC治疗或正在开发的大部分药物具有最多4个同时靶标。我们在分析中过滤掉具有>4个靶标的药物。

图14示出了被编程或以其他方式被配置为进行各种方法的分析或操作的计算机系统1401。

具体实施方式

尽管本文已经示出和描述了本发明的各种实施方案，但对于本领域技术人员明显的是，此类实施方案仅通过举例的方式提供。在不偏离本发明的情况下，本领域技术人员可以想到多种变型、改变和替代。应当理解，可以采用针对本文所描述的本发明实施方案的各种可替选方案。

本文提供了例如可用于治疗和预防疾病的系统和方法。在一些实施方案中，本公开提供了用于鉴定基因集的系统和方法，当与健康对象相比差异表达时，该基因集指示对疗法的应答。在一些实施方案中，本公开提供了用于鉴定疗法靶标的系统和方法，该疗法靶标可以在健康对象与患病对象之间差异表达，也可以不差异表达。

定义

施用：如本文所用，术语“施用”通常是指将组合物施用于对象或系统，例如以实现作为组合物或包含在组合物中或以其他方式由组合物递送的剂的递送。

剂：如本文所用，术语“剂”通常是指实体(例如，脂质、金属、核酸、多肽、多糖、小分子等，或其复合物、组合、混合物或系统[例如，细胞、组织、生物体])或现象(例如，热、电流或电场、磁力或磁场等)。

氨基酸：如本文所用，术语“氨基酸”通常是指可以例如通过形成一个或多个肽键而合并到多肽链中的任何化合物或物质。在一些实施方案中，氨基酸具有一般结构H₂N-C(H)(R)-COOH。在一些实施方案中，氨基酸是天然存在的氨基酸。在一些实施方案中，氨基酸是非天然氨基酸；在一些实施方案中，氨基酸是D-氨基酸；在一些实施方案中，氨基酸是L-氨基酸。如本文所用，术语“标准氨基酸”是指在天然存在的肽中常见的二十种L-氨基酸中的任一种。“非标准氨基酸”是指除标准氨基酸外的任何氨基酸，无论其是否存在于或可以存在于天然来源中。在一些实施方案中，与以上一般结构相比，氨基酸，包括多肽中的羧基或氨基末端氨基酸，可以含有结构修饰。例如，在一些实施方案中，与一般结构相比，氨基酸可以通过(例如，氨基、羧酸基团、一个或多个质子或羟基的)甲基化、酰胺化、乙酰化、聚乙二醇化、糖基化、磷酸化或取代来修饰。在一些实施方案中，与含有其他方面相同的未修饰氨基酸的多肽相比，这种修饰可以例如改变含有修饰氨基酸的多肽的稳定性或循环半衰期。在一些实施方案中，与含有其他方面相同的未修饰氨基酸的多肽相比，这种修饰不显著地改变含有修饰氨基酸的多肽的相关活性。在一些实施方案中，术语“氨基酸”可以用于指代游离氨基酸；在一些实施方案中，其可以用于指代多肽的氨基酸残基，例如多肽内的氨基酸残基。

类似物：如本文所用，术语“类似物”通常是指与参考物质共享一个或多个特定结构特征、元件、组分或部分的物质。在一些实施方案中，“类似物”显示出与参考物质显著的结构相似性，例如共享核心或共有结构，但也以某些离散方式不同。在一些实施方案中，类似物是可以由参考物质生成的物质，例如通过参考物质的化学操纵。在一些实施方案中，类似物是可以通过进行与生成参考物质的合成工艺基本上相似(例如，共享多个操作)的合成工艺而生成的物质。在一些实施方案中，通过进行与用于生成参考物质的合成工艺不同的合成工艺来生成或可以生成类似物。

拮抗剂：如本文所用，术语“拮抗剂”通常可以是指其存在、水平、程度、类型或形式与靶标的水平或活性降低相关联的剂或条件。拮抗剂可以包括任何化学类别的剂，包括例如小分子、多肽、核酸、碳水化合物、脂质、金属或显示出相关抑制活性的任何其他实体。在一些实施方案中，拮抗剂可以是“直接拮抗剂”，因为它直接与其靶标结合；在一些实施方案中，拮抗剂可以是“间接拮抗剂”，因为它通过不同于直接与其靶标结合的机制发挥其影响；例如，通过与靶标的调节剂相互作用，使得改变靶标的水平或活性。在一些实施方案中，“拮抗剂”可以被称为“抑制剂”。

抗体：如本文所用，术语“抗体”通常是指包含足以赋予与特定靶抗原的特异性结合的经典免疫球蛋白序列元件的多肽。如在自然界中产生的完整抗体是大约150kD的四聚体剂，由两个相同的重链多肽(各自约50kD)和两个相同的轻链多肽(各约25kD)构成，它们彼此缔合成通常被称为“Y形”结构的结构。每条重链由至少四个结构域(每个结构域长约110个氨基酸)构成-一个氨基末端可变(VH)结构域(位于Y结构的末端)，接着是三个恒定结构域：CH1、CH2和羧基末端CH3(位于Y茎的基部)。一个短区域，或“开关”，连接重链可变区和恒定区。“铰链”将CH2和CH3结构域连接到抗体的剩余部分。此铰链区中的两个二硫键将完整抗体中的两个重链多肽彼此连接。每条轻链由两个结构域构成–一个氨基末端可变(VL)结构域，接着是羧基末端恒定(CL)结构域，通过另一个“开关”彼此分开。完整抗体四聚体由两个重链-轻链二聚体构成，其中重链和轻链通过单个二硫键彼此连接；另外两个二硫键将重链铰链区彼此连接，使得将二聚体彼此连接，并且形成四聚体。天然产生的抗体也被糖基化，诸如在CH2结构域上。天然抗体中的每个结构域具有特征在于由两个β片(例如，3-、4-或5-链片)形成的“免疫球蛋白折叠”的结构，该β片在压缩的反平行β桶中相对彼此包装。每个可变结构域含有三个高变环(“补体决定区”)(CDR1、CDR2和CDR3)和四个稍微不变的“框架”区(FR1、FR2、FR3和FR4)。当天然抗体折叠时，FR区形成为结构域提供结构框架的β片，并且来自重链和轻链的CDR环区在三维空间中结合在一起，使得它们在Y结构的末端产生单个高变抗原结合位点。天然存在的抗体的Fc区与补体系统的元件结合，也与效应细胞(包括例如介导细胞毒性的效应细胞)上的受体结合。Fc区对于Fc受体的亲和力或其他结合属性可以通过糖基化或其他修饰来调节。在一些实施方案中，根据本公开产生或利用的抗体包括糖基化Fc结构域，包括具有修饰或工程化的这种糖基化的Fc结构域。出于本公开的目的，在某些实施方案中，包含如在天然抗体中发现的足够免疫球蛋白结构域序列的任何多肽或多肽复合物都可以被称为或用作“抗体”，无论这种多肽是天然产生的(例如，由与抗原反应的生物体生成的)，还是通过重组工程化、化学合成或其他人工系统或方法产生的。在一些实施方案中，抗体是多克隆的；在一些实施方案中，抗体是单克隆的。在一些实施方案中，抗体具有小鼠、兔、灵长类动物或人类抗体特有的恒定区序列。在一些实施方案中，抗体序列元件是人源化的、灵长类化的、嵌合的等。此外，如本文所用，术语“抗体”在适当的实施方案中(除非另外说明或上下文清楚)可以是指用于在替代呈现中利用抗体结构和功能特征的任何构建体或形式。例如，在实施方案中，根据本公开使用的抗体的形式选自但不限于完整IgA、IgG、IgE或IgM抗体；双特异性或多特异性抗体(例如，等)；抗体片段，诸如Fab片段、Fab’片段、F(ab’)2片段、Fd’片段、Fd片段和分离的CDR或其集合；单链Fv；多肽-Fc融合物；单结构域抗体(例如，鲨鱼单结构域抗体，诸如IgNAR或其片段)；骆驼抗体；掩蔽抗体(例如，)；小型模块化免疫药物(“SMIPs^TM”)；单链或串联双抗体VHH；微型抗体；锚蛋白重复序列蛋白或DART；TCR样抗体；微蛋白；以及在一些实施方案中，抗体可能缺乏天然产生时可能具有的共价修饰(例如，聚糖的附接)。在一些实施方案中，抗体可以含有共价修饰(例如，聚糖、有效载荷[例如，可检测部分、治疗性部分、催化部分等]或其他侧基[例如，聚乙二醇等]的附接)。

相关联的：当所述术语在本文中使用时，如果一个的存在、水平、程度、类型或形式与另一个的存在、水平、程度、类型或形式相关，则这两个事件或实体通常彼此“相关联”。例如，如果特定实体(例如，多肽、遗传特征、代谢物、微生物等)的存在、水平或形式与疾病、病症或病况的发病率或易感性相关(例如，跨相关人群)，则其被认为与特定疾病、病症或病况相关联。在一些实施方案中，如果两个或更多个实体直接或间接地相互作用，使得它们彼此物理接近或保持物理接近，则它们在物理上彼此“相关联”。在一些实施方案中，在物理上彼此相关联的两个或更多个实体彼此共价连接；在一些实施方案中，在物理上彼此相关联的两个或更多个实体彼此不共价连接，而是非共价缔合的，例如通过氢键、范德华相互作用、疏水相互作用、磁性及其组合。

生物样品：如本文所用，术语“生物样品”通常是指从感兴趣的生物来源(例如，组织或生物体或细胞培养物)获得或衍生的样品，如本文所述。在一些实施方案中，感兴趣的来源包括生物体，诸如动物或人。在一些实施方案中，生物样品是或包括生物组织或流体。在一些实施方案中，生物样品可以是或包括骨髓；血液；血细胞；腹水；组织或细针活检样品；含有细胞的体液；游离漂浮核酸；痰液；唾液；尿液；脑脊液、腹膜液；胸膜液；粪便；淋巴；妇科液；皮肤拭子；阴道拭子；口腔拭子；鼻拭子；洗涤液或灌洗液，诸如导管灌洗液或支气管肺泡灌洗液；抽吸物；刮屑；骨髓样本；组织活检样本；手术样本；粪便、其他体液、分泌物或排泄物；或其中的细胞等。在一些实施方案中，生物样品是或包括从个体获得的细胞。在一些实施方案中，所获得的细胞是或包括来自从其获得样品的个体的细胞。在一些实施方案中，样品是通过任何适当的方法直接从感兴趣的来源获得的“初级样品”。例如，在一些实施方案中，初级生物样品通过选自活检(例如，细针抽吸或组织活检)、手术、体液(例如，血液、淋巴、粪便等)收集等方法来获得。在一些实施方案中，术语“样品”是指通过处理初级样品(例如，通过去除初级样品的一种或多种组分或通过向其中添加一种或多种剂)而获得的制剂。例如，使用半渗透膜进行过滤。这种“处理样品”可以包括例如从样品中提取的，或通过使初级样品经受诸如mRNA的扩增或逆转录、某些组分的分离或纯化等技术而获得的核酸或蛋白质。

生物网络：如本文所用，术语“生物网络”通常是指适用于生物系统的任何网络，其具有连接成整体的子单元(例如，“节点”)，诸如连接成整个网络的物种单元。在一些实施方案中，生物网络是蛋白质-蛋白质相互作用网络(PPI)，表示细胞中存在的蛋白质之间的相互作用，其中蛋白质是节点，并且它们的相互作用是边(edge)。在一些实施方案中，通过实验验证PPI中的节点之间的连接。在一些实施方案中，节点之间的连接是实验验证和数学计算的组合。在一些实施方案中，生物网络是人类相互作用组(发生在人类细胞中的实验衍生的相互作用的网络，其包括蛋白质-蛋白质相互作用信息以及基因表达和共表达、蛋白质的细胞共定位、遗传信息、代谢和信号传导途径等)。在一些实施方案中，生物网络是基因调控网络、基因共表达网络、代谢网络或信号传导网络。

组合疗法：如本文所用，术语“组合疗法”通常是指其中对象同时暴露于两种或更多种治疗方案(例如，两种或更多种治疗剂)的临床干预。在一些实施方案中，两种或更多种治疗方案可以同时施用。在一些实施方案中，两种或更多种治疗方案可以顺序施用(例如，施用第一方案，然后施用任何剂量的第二方案)。在一些实施方案中，两种或更多种治疗方案以重叠给药方案来施用。在一些实施方案中，组合疗法的施用可以涉及向接受其他治疗剂或模式的对象施用一种或多种治疗剂或模式。在一些实施方案中，组合疗法不一定要求单个剂在单一组合物中一起施用(或甚至不一定同时施用)。在一些实施方案中，将组合疗法的两种或更多种治疗剂或模式分别施用于对象，例如，以单独的组合物，经由单独的施用途径(例如，一种剂口服，另一种剂静脉内注射)，或在不同的时间点。在一些实施方案中，两种或更多种治疗剂可以经由相同的施用途径或在相同的时间以组合组合物或甚至以组合化合物(例如，作为单个化学复合物或共价实体的一部分)一起施用。

相当的：如本文所用，术语“相当的”通常是指两种或更多种剂、实体、情形、条件组等，这些可以彼此不相同但足够相似以允许它们之间进行比较，使得可以基于观察到的差异或相似性合理地得出结论。在一些实施方案中，相当的条件组、情形、个体或群体特征在于多个基本上相同的特征和一个或少数的变化特征。在各种方法中，在任何给定环境下对于将两种或更多种此类剂、实体、情形、条件组等认为是相当的可能需要不同的同一性程度。例如，在各种方法中，当不同组环境、个体或群体的特征在于足够数量和类型的基本上相同特征以保证合理的结论：即在不同组环境、个体或群体下或用不同组环境、个体或群体获得的结果或观察到的现象的差异是由那些不同的特征的变化引起的或是指示那些不同的特征的变化时，则该组环境、个体或群体是彼此相当的。

对应于：如本文所用，短语“对应于”通常是指两个实体、事件或现象之间的关系，它们共享足够的特征而是合理地相当的，使得“对应”属性显而易见。例如，在一些实施方案中，该术语可以在提及化合物或组合物时使用，以通过与适当的参考化合物或组合物的比较来指定结构元件在化合物或组合物中的位置或同一性。例如，在一些实施方案中，聚合物中的单体残基(例如，多肽中的氨基酸残基或多核苷酸中的核酸残基)可以被鉴定为“对应于”适当参考聚合物中的残基。例如，为了简单起见，多肽中的残基经常使用基于参考相关多肽的规范编号系统来指定，使得例如“对应于”位置190的残基的氨基酸实际上可能不是特定氨基酸链中的第190个氨基酸，而是对应于参考多肽中在190处发现的残基；可以使用各种方法来鉴定“对应的”氨基酸。例如，各种方法可以用于序列比对策略，包括软件程序，例如像BLAST、CS-BLAST、CUSASW++、DIAMOND、FASTA、GGSEARCH/GLSEARCH、Genoogle、HMMER、HHpred/HHsearch、IDF、Infernal、KLAST、USEARCH、parasail、PSI-BLAST、PSI-Search、ScalaBLAST、Sequilab、SAM、SSEARCH、SWAPHI、SWAPHI-LS、SWIMM或SWIPE，其可以例如用于鉴定根据本公开的多肽或核酸中的“对应”残基。

给药方案或治疗方案：术语“给药方案”和“治疗方案”通常可以用于是指单独施用于对象的一组单位剂量(诸如超过一个)，该剂量可以按时间段分开。在一些实施方案中，给定的治疗剂具有推荐的给药方案，该给药方案可以涉及一个或多个剂量。在一些实施方案中，给药方案包括多个剂量，每个剂量在时间上与其他剂量分开。在一些实施方案中，个体剂量彼此相隔时长相同的时间段；在一些实施方案中，给药方案包括多个剂量，并且个体剂量相隔至少两个不同的时间段。在一些实施方案中，给药方案内的所有剂量都具有相同单位剂量量。在一些实施方案中，给药方案内的不同剂量具有不同的量。在一些实施方案中，给药方案包括第一剂量量的第一剂量，接着是不同于第一剂量量的第二剂量量的一个或多个额外剂量。在一些实施方案中，给药方案包括第一剂量量的第一剂量，接着是与第一剂量量相同的第二剂量量的一个或多个额外剂量。在一些实施方案中，当在相关群体中施用时，给药方案与有益结果相关(例如，是治疗给药方案)。

提高的、增加的或减少的：如本文所用，术语“提高的”、“增加的”或“减少的”或其语法上相当的比较术语，通常指示相对于相当参考测量的值。例如，在一些实施方案中，相对于用相当参考剂获得的评估值，用感兴趣的剂实现的评估值可以是“提高的”。可替代地或另外，在一些实施方案中，相对于在不同条件下(例如，在事件(诸如感兴趣的剂的施用)之前或之后)在同一对象和系统中，或在不同的相当对象(例如，在存在感兴趣的特定疾病、病症或病况的一个或多个指标或先前暴露于条件或剂等情况下，在与感兴趣的对象或系统不同的相当对象或系统中)中获得的评估值，在感兴趣的对象或系统中实现的评估值可以是“提高的”。

患者或对象：如本文所用，术语“患者”或“对象”通常是指例如出于实验、诊断、预防、美容或治疗目的向其或可以向其施用所提供组合物的任何生物体。一些患者或对象包括动物(例如，哺乳动物诸如小鼠、大鼠、兔、非人灵长类动物或人)。在一些实施方案中，患者是人。在一些实施方案中，患者或对象患有或易患一种或多种病症或病况。在一些实施方案中，患者或对象显示出病症或病况的一种或多种症状。在一些实施方案中，患者或对象已被诊断患有一种或多种病症或病况。在一些实施方案中，患者或对象正在接受或已接受某种疗法以诊断或治疗疾病、病症或病况。

药物组合物：如本文所用，术语“药物组合物”通常是指活性剂，与一种或多种药学上可接受的载剂一起配制。在一些实施方案中，活性剂以适于在治疗方案中施用于相关对象的单位剂量量存在(例如，以已被证明在施用时显示出实现预定治疗作用的统计上显著概率的量)，或在不同的相当对象中(例如，在存在感兴趣的特定疾病、病症或病况的一个或多个指标或先前暴露于条件或剂等情况下，在与感兴趣的对象或系统不同的相当对象或系统中)。在一些实施方案中，比较术语是指统计上相关的差异(例如，具有足以实现统计相关性的流行率或幅度)。在给定的情况下，可以使用各种方法来确定实现这种统计显著性所需或足够的差异程度或流行率。

药学上可接受的：如本文所用，术语“药学上可接受的”通常是指在合理的医学判断范围内，适合用于与人类或动物的组织接触，而不产生过多毒性、刺激、过敏反应或者其他问题或并发症，与合理的效益/风险比相称的那些化合物、材料、组合物或剂型。

预防：如本文所用，术语“预防”在与疾病、病症或病况的发生结合使用时，通常是指降低发展疾病、病症或病况的风险，或延迟疾病、病症或病况的一种或多种特征或症状的发作。当疾病、病症或病况的发作延迟了预定的一段时间时，可以认为预防是完全的。

参考：如本文所用，术语“参考”通常描述相对于其进行比较的标准或对照。例如，在一些实施方案中，将感兴趣的剂、动物、个体、群体、样品、序列或值与参考或对照剂、动物、个体、群体、样品、序列或者值进行比较。在一些实施方案中，基本上与感兴趣的测试或确定同时测试或确定参考或对照。在一些实施方案中，参考或对照是历史参考或对照，任选地体现在有形介质中。参考或对照是在与评估条件或环境相当的条件或环境下确定或表征的。存在足够的相似性，以证明对特定可能参考或对照的依赖或比较是合理的。

治疗剂：如本文使用，短语“治疗剂”通常是指当向生物体施用时引发药理学作用的任何剂。在一些实施方案中，如果剂在适当的群体中展示出统计上显著的作用，则该剂被认为是治疗剂。在一些实施方案中，适当的群体可以是模型生物体的群体。在一些实施方案中，适当的群体可以通过各种标准来定义，该标准诸如某一年龄组、性别、遗传背景、预先存在的临床病况等。在一些实施方案中，治疗剂是可以用于减轻、改善、缓解、抑制、预防疾病、病症或病况、延迟其发作、降低其严重性或降低其一种或多种症状或特征的发生率的物质。在一些实施方案中，“治疗剂”是已经或需要由政府机构批准才可以销售以向人类施用的剂。在一些实施方案中，“治疗剂”是需要医学处方以向人类施用的剂。

治疗有效量：如本文所用，术语“治疗有效量”通常是指当作为治疗方案的一部分施用时引发生物应答的物质(例如，治疗剂、组合物或制剂)的量。在一些实施方案中，物质的治疗有效量是当施用于患有或易患疾病、病症或病况的对象时足以治疗、诊断、预防疾病、病症或病况或延迟其发作的量。物质的有效量可以根据诸如生物学终点、待递送的物质、靶细胞或组织等因素而变化。例如，用于治疗疾病、病症或病况的制剂中化合物的有效量是减轻、改善、缓解、抑制、预防疾病、病症或病况、延迟其发作、降低其严重性或降低其一种或多种症状或特征的发生率的量。在一些实施方案中，以单剂量施用治疗有效量；在一些实施方案中，需要多个单位剂量来递送治疗有效量。

治疗：如本文所用，术语“治疗”通常是指用于部分或完全地减轻、改善、缓解、抑制、预防疾病、病症或病况、延迟其发作、降低其严重性或降低其一种或多种症状或特征的发生率的任何方法。可以向没有表现出疾病、病症或病况的迹象的对象施用治疗。在一些实施方案中，可以向表现出疾病、病症或病况的早期迹象的对象施用治疗，例如，为了降低发展与疾病、病症或病况相关联的病理学的风险。

变体：如本文所用，术语“变体”是指显示与参考实体显著的结构同一性，但与参考实体相比在一个或多个化学部分的存在或水平方面与参考实体在结构上不同的实体。在许多实施方案中，变体在功能上也与其参考实体不同。一般而言，特定实体是否被适当地视为参考实体的“变体”是基于其与参考实体的结构同一性程度。任何生物或化学参考实体都具有某些特征结构元件。根据定义，变体是一种独特的化学实体，该化学实体共享一个或多个此类特征结构元件。仅举几个例子，小分子可以具有特征核心结构元件(例如，大环核心)或一个或多个特征依赖部分，使得小分子的变体是共享核心结构元件和特征依赖部分，但在其他依赖部分或核心内存在的键类型(单与双、E与Z等)方面不同的变体，多肽可以具有由多个氨基酸构成的特征序列元件，该多个氨基酸在线性或三维空间中相对于彼此具有指定的位置或有助于特定的生物功能，核酸可以具有由多个核苷酸残基构成的特征序列元件，该多个核苷酸残基在线性或三维空间中相对于彼此具有指定的位置。例如，变体多肽可能由于氨基酸序列的一个或多个差异或与多肽骨架共价附接的化学部分(例如，碳水化合物、脂质等)的一个或多个差异而与参考多肽不同。在一些实施方案中，变体多肽显示与参考多肽至少85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％或99％的总体序列同一性。可替代地或另外，在一些实施方案中，变体多肽不与参考多肽共享至少一个特征序列元件。在一些实施方案中，参考多肽具有一种或多种生物活性。在一些实施方案中，变体多肽共享参考多肽的一种或多种生物活性。在一些实施方案中，变体多肽缺乏参考多肽的一种或多种生物活性。在一些实施方案中，与参考多肽相比，变体多肽显示降低水平的一种或多种生物活性。在许多实施方案中，如果感兴趣的多肽具有与亲本相同的氨基酸序列，但在特定位置处具有少量序列改变，则该感兴趣的多肽被认为是亲本或参考多肽的“变体”。在一些实施方案中，与亲本相比，变体中少于20％、15％、10％、9％、8％、7％、6％、5％、4％、3％、2％的残基被取代。在一些实施方案中，变体与亲本相比具有10、9、8、7、6、5、4、3、2或1个经取代残基。变体经常具有非常少量的(例如，少于5、4、3、2或1个)经取代功能残基(例如，参与特定生物活性的残基)。此外，与亲本相比，变体可以具有不超过5、4、3、2或1个添加或缺失，并且经常没有添加或缺失。此外，任何添加或缺失可以少于约25、约20、约19、约18、约17、约16、约15、约14、约13、约10、约9、约8、约7、约6个残基，并且通常少于约5、约4、约3或约2个残基。在一些实施方案中，亲本或参考多肽是自然界中存在的多肽。

疾病基因表达签名(应答模块)

除其他外，本公开提供了一种疾病基因表达签名，当被逆转(全部或大部分)时，其指示对象对疗法产生应答。这种方法比其他方法有利，因为本公开描述的方法允许在分子水平上定量应答，而不是依赖于观察临床特征的变化。实际上，本公开涵盖一种见解，即当被调节为与健康对象类似时，特定分子签名，例如特定基因的表达指示患病对象对疗法产生应答。在一些实施方案中，疾病表达签名是与健康对象相比在患病对象中差异表达的基因模式。本公开描述的疾病表达签名在分子水平上解释了患病对象与健康对象之间的细微差异。

在一些实施方案中，本公开涵盖一种见解，即指示对疗法的应答的基因表达不一定在患有相同疾病的对象的子组之间衍生。也就是说，例如，在患有疾病的对象的群组中，本公开认识到，分析对象群组的一个或多个子组之间的基因表达差异可能不会产生指示对象是否可以对疗法产生应答或以其他方式开始从所述疾病、病症或病况中恢复的基因表达模式。相反，在一些实施方案中，本公开分析了具有相似基因表达模式的患病对象子组与健康对象之间的基因表达。通过分析患病对象与健康对象之间的差异，并通过鉴定患病对象中不同于健康对象并且在驱动应答中也起重要作用的关键基因表达靶标，将理解(不受理论约束)通过调节关键差异表达基因，患病对象的基因表达模式可以与健康对象类似，并且从而导致疾病消退。

用于鉴定疾病基因表达签名的示例性工作流程见于图1中。在一些实施方案中，分析患有疾病的对象集的基因表达数据的群组(101)。然后根据特定度量对群组内的每个对象进行分层(102)。例如，在一些实施方案中，根据群组内的对象对特定疗法(例如，抗TNF疗法)是应答者还是非应答者来对他们进行分层。在一些实施方案中，使用有监督或无监督聚类算法对群组内的对象进行分层。在一些实施方案中，使用有监督聚类算法对群组内的对象进行分层。在一些实施方案中，使用无监督聚类算法对群组内的对象进行分层。在一些实施方案中，将对象群组分层为先前对象的两个或更多个组是基于所述先前对象对特定疗法是否产生应答。

在一些实施方案中，分析聚类内的子组的基线表达谱，并将其与一个或多个健康对照对象进行比较(103)。鉴定差异表达的基因，其被称为“疾病候选基因”。在一些实施方案中，某些差异表达的基因被选择为“疾病候选基因”。在一些实施方案中，显著差异表达的基因被选择为疾病候选基因。在一些实施方案中，通过p值≤0.05和0.5或更大的绝对倍数变化来测量基因表达的显著差异。

在一些实施方案中，疾病表达签名包括所鉴定的疾病候选基因的全部、基本上全部或子集。在一些实施方案中，任选地将疾病候选基因映射到生物网络上(104)。不受理论约束，将理解，了解疾病候选基因内基因的连接性允许鉴定相关性最高的基因，从而剔除在治疗特定疾病的对象时可能对应答没有太大影响的基因。例如，在一些实施方案中，生物网络是人类相互作用组图。在一些实施方案中，来自在人类相互作用组图上显著连接或以其他方式聚类的疾病候选基因集的基因被选择为疾病基因表达签名。在一些实施方案中，疾病候选基因的全部、基本上全部或子集在人类相互作用组图上聚类或显著连接。在一些实施方案中，疾病基因表达签名包括在生物网络(例如，人类相互作用组图)上聚类的疾病候选基因。在一些实施方案中，疾病基因表达签名包括在生物网络(例如，人类相互作用组图)上彼此显著连接的疾病候选基因。在一些实施方案中，在并入疾病基因表达签名中之前，将疾病候选基因映射到生物网络上。

在一些实施方案中，疾病基因表达签名通过以下来确定：分析来自患有与对象相同的疾病、病症或病况的对象群组的基因表达数据；基于基因表达数据将对象群组分层为先前对象的两个或更多个组；以及选择在先前对象的两个或更多个组与健康对象组之间具有基因表达显著差异的一个或多个基因(例如，“疾病候选基因”)，从而提供疾病基因表达签名。

如本文所用，“健康基因表达签名”是指健康对照对象(例如，作为如本文所述待治疗的对象，没有患疾病、病症或病况的对象)中应答基因的基因表达。

如本文所述，通过微阵列、RNA测序、实时定量逆转录PCR(qRT-PCR)、珠阵列、ELISA和蛋白质表达中的至少一种来测量对象的基因。在一些实施方案中，通过减去背景数据、校正批次效应并除以管家基因的平均表达来测量对象的基因表达。(参见例如，Eisenberg&Levanon,“Human housekeeping genes,revisited,”Trends in Genetics,29(10):569-574(2013年10月)，其出于所有目的通过引用并入本文)。在微阵列数据分析的背景下，背景减去是指从每个探针特征的荧光信号强度中减去由芯片上与任何mRNA序列不互补的探针特征产生的平均荧光信号，例如由非特异性结合产生的信号。可以使用不同的软件包进行背景减去，诸如Affymetrix^TM Gene Expression Console。管家基因参与基本细胞维持，并且因此预期在所有细胞和条件下维持恒定表达水平。感兴趣的基因的表达水平，例如应答签名中的那些，可以通过将表达水平除以一组选定的管家基因的平均表达水平来归一化。这种管家基因归一化程序为实验变异性校准基因表达水平。此外，可从Illumina^TM和/或Affymetrix^TM微阵列平台推荐的R包中获得归一化方法，诸如校正不同批次微阵列的变异性的稳健多阵列平均(“RMA”)。对归一化数据进行对数转换，并去除样品中检测率较低的探针。此外，从分析中去除不具有可用基因符号或Entrez ID的探针。

治疗靶标(治疗模块)

除其他外，本公开提供了一系列治疗蛋白靶标，当被调节时其影响疾病基因表达签名，从而致使其改变表达，使得它与健康对象的基因表达类似。此外，本公开涵盖一种见解，即经由疗法调节疾病基因表达签名内的某些基因可能不指示对所述疗法的应答。也就是说，本公开涵盖一种见解，即当直接被调节时，疾病基因表达签名内的基因可以指示对疗法的应答，但彼此的连接可能不那么强烈，使得疗法可以有效地调节疾病基因表达签名内的基因的表达以产生应答。

相反，本公开涵盖一种见解，即疾病基因表达签名中差异表达的基因上游或下游的靶标(与健康对象相比)可以被有效地调节，使得它们的调节可以影响疾病基因表达签名，从而导致疾病对象的基因表达与健康对象的基因表达类似。在一些实施方案中，图1中提供了与疾病基因表达签名内的某些基因具有这种连接的疗法靶标的鉴定。

在一些实施方案中，鉴定了疗法靶标，疗法靶标在实验上显示为引起疾病基因表达签名的逆转。所述靶标的扰动具有希望的上游或下游作用，导致疾病对象达到分子缓解(通过疾病基因表达签名的逆转，从而与健康对照的表达类似的量来测量)。在一些实施方案中，如图1所示，疾病表达签名(106)的基因与调节疾病基因表达签名下游中的基因表达的化合物(107)的数据交叉参考。这种化合物应答数据可在公共资源中获得，诸如HMSLINCS数据库(在https://lincs.hms.harvard.edu/db/处可获得，并通过引用并入本文)。可以使用其他合适的数据库或实验推导的数据，以说明化合物对疾病基因表达签名内的基因的下游影响(例如，通过固定剂量且持续固定时间量的单一化合物、基因敲除和基因过表达)。例如，在一些实施方案中，HT29细胞系中的LINCS L1000扰动数据，化合物扰动用于评估疾病基因表达签名内基因的下游影响。所述分析的结果提供潜在疗法靶标。

在一些实施方案中，对疾病基因表达签名内的每个基因进行分析，以鉴定潜在疗法靶标。在一些实施方案中，选择来自疾病基因表达签名的某些基因(“应答基因”)。在一些实施方案中，通过为疾病基因表达签名内的每个基因分配表征其相对于基线对照(例如，与健康对象的基因表达相比)的差异表达水平的分数来选择应答基因。在一些实施方案中，一旦从疾病基因表达签名中选择了应答基因子集，就根据其相对于基线对照(例如，与健康对象的基因表达相比)的差异表达水平对应答基因进行排序。在一些实施方案中，通过来自107数据库的化合物具有连接(例如，下游调节)的基因被选择为应答基因。

在一些实施方案中，选择具有0.05或更小的p值的应答基因。

鉴定对一个或多个选定应答基因具有显著影响的疗法(108)(“潜在疗法”)。在一些实施方案中，所述潜在疗法是改变应答基因集的基因表达的那些疗法。在一些实施方案中，基于应答基因集的改变的显著性来对潜在疗法进行评分。在一些实施方案中，选择具有最高改变显著性的疗法，从而提供一种或多种候选疗法。如本文所用，“疗法”是指如在此定义的治疗剂、基因敲除(例如，使对象的一个或多个特定基因不起作用)或基因过表达(例如，将对象中一个或更多特定基因的表达增加至超过正常量)。

评估一种或多种候选疗法以鉴定每种疗法调节哪个或哪些靶标(例如，蛋白质或其他细胞功能)(109)。在一些实施方案中，如果疗法与靶标之间没有关系，则将所述疗法从候选疗法的列表中排除。在一些实施方案中，如果疗法与靶标之间没有关系，则该靶标被视为“新型靶标”，可以为其开发疗法。选择由一种或多种候选疗法直接调节的一个或多个潜在靶标(110)。因此，所述潜在靶标中的一个或多个可以构成治疗模块(112)。任选地，将一个或多个潜在靶标映射到生物网络，例如人类相互作用组图上(111)。可以基于生物网络(例如，人类相互作用组)中的拓扑关系或基于所述生物网络中的连接强度来评估和选择潜在靶标的子集(例如，疗法靶标)。在一些实施方案中，所有潜在靶标构成治疗模块。在一些实施方案中，基于与应答基因集(在疾病基因表达签名中)具有显著连接来选择一个靶标用于治疗。在一些实施方案中，靶标与应答基因集的显著连接是所述靶标的调节是否逆转所述应答基因集的表达。

可替代地，在一些实施方案中，基因敲除用于鉴定一个或多个靶标，其中所述一个或多个靶标的敲除影响应答基因集中的一个或多个的基因表达。在一些实施方案中，在敲除之后基于应答基因集的改变的显著性来对靶标进行评分。在一些实施方案中，选择具有最高改变显著性的靶标，从而提供一个或多个合适的疗法靶标。在一些实施方案中，通过基因敲除鉴定的靶标可以用于鉴定用于新的疗法靶标。

在一些实施方案中，基因过表达用于鉴定一个或多个靶标，其中所述一个或多个靶标的过表达影响应答基因集中的一个或多个的基因表达。在一些实施方案中，在过表达之后基于应答基因集的改变的显著性来对靶标进行评分。在一些实施方案中，选择具有最高改变显著性的靶标，从而提供一个或多个合适的疗法靶标。在一些实施方案中，通过基因过表达鉴定的靶标可以用于鉴定用于新的疗法靶标。

如所述，评估潜在靶标或其子集(113)以鉴定没有可用的实验验证治疗的靶标。在一些实施方案中，在所鉴定的治疗模块内选择新型靶标。在一些实施方案中，新型靶标被鉴定为与潜在靶标(例如，治疗模块)具有明显影响相似性以及逆转所述应答基因集的基因表达的能力的那些靶标。如本文所述，“新型靶标”是指没有疗法(或没有明显有效的疗法)可用的蛋白质或其他细胞机制。此类新型靶标为药物开发提供了有希望的目标，因为它们为迄今为止不一定被考虑的治疗靶标提供了选择。

如本文所述，可以通过各种方式从潜在靶标(或治疗模块)中鉴定新型靶标。例如，在一些实施方案中，扩散状态距离(DSD)，一种基于图扩散特性的度量，被设计来捕获在生物网络(例如，蛋白质-蛋白质相互作用网络或人类相互作用组)中的功能注释的传递的接近性的更细粒度的差异。在一些实施方案中，通过机器学习过程方法来评估这种传递的接近性。在一些实施方案中，机器学习过程方法是基于扩散的方法，例如随机游走。在一些实施方案中，随机游走遍历生物网络的顶点，并通过比较初始状态为u和初始状态为v时(在给定时间范围内)对所有状态的预期访问次数来评估两个状态(或节点)u和v的接近度。不受理论约束，将理解具有小DSD的两个节点具有高的下游影响相似性。

在一些实施方案中，干扰疗法靶标(例如，治疗模块)导致应答模块基因的希望下游作用并治疗患者。通过举例的方式，抗TNF疗法靶向TNF，并被批准用于治疗某些自身免疫性疾病，例如溃疡性结肠炎、类风湿性关节炎等。可以通过机器学习过程方法将治疗模块(例如，疗法靶标)与TNF进行比较，以确定它们与随机期望相比的影响相似性。例如，使用1000次迭代的扩散状态差(DSD)，通过计算TNF与治疗模块中的每个单个节点(例如，每个单个疗法靶标)之间的平均DSD值来确定TNF与治疗模块之间的相似性。通过计算随机化治疗模块(例如，随机选择的具有相似程度的节点)与TNF之间平均DSD值来确定随机化治疗模块与TNF之间的相似性。网络相似性分析显示：与随机选择的治疗模块相比，TNF与实验推导的治疗模块具有显著更接近的网络相似性(图2A)。特异性定义为～影响相似性；选择性被定义为～z分数。此分析可以外推到除用于治疗某些自身免疫性疾病，诸如溃疡性结肠炎、类风湿性关节炎等的TNF之外的其他靶标。例如，大多数溃疡性结肠炎批准的靶标对已鉴定的治疗模块具有高特异性和高选择性(图2B)。

因此，在一些实施方案中，本公开提供了一种确定或验证用于治疗患有疾病、病症或病况的对象的疗法的靶标的方法，该方法包括：接收对应于疾病基因表达签名的应答基因集，其中疾病基因表达签名是或包括一个或多个基因，当表达全部或部分被逆转时，该一个或多个基因与健康对象的基因表达类似；接收一种或多种潜在疗法与多个基因表达之间的多种相互作用；针对应答基因集中的每个基因生成改变应答基因集的基因表达的一种或多种潜在疗法；基于应答基因集的改变(例如，基因表达的变化)的显著性来对一种或多种潜在疗法中的每一种进行评分，从而提供一种或多种候选疗法；确定由一种或多种候选疗法直接调节的一个或多个潜在靶标；将一个或多个潜在靶标中的每一个映射到生物网络上；将与生物网络上的一个或多个潜在靶标共享显著拓扑相似性(例如，接近或以其他方式相似地定位在生物网络上)的次要靶标添加到包括一个或多个潜在靶标和任何次要靶标的靶标列表中；从靶标列表中鉴定对应答基因集具有显著下游影响的靶标，以提供疗法靶标。

在一些实施方案中，次要靶标是从来自一个或多个潜在靶标的靶标直接或间接(例如，去除一个或两个或三个操作)连接的靶标。在一些实施方案中，次要靶标是一个靶标，其具有

除其他外，本公开涵盖一种见解，即基于网络的选择性和特异性测量可以用于鉴定治疗模块并排序和鉴定新型靶标以及重新利用机会。

治疗方法

除其他外，本公开提供了使用靶向如上所述的一个或多个治疗靶标的疗法来治疗患有疾病的对象的方法。例如，在一些实施方案中，本公开提供了一种治疗表现出疾病基因表达签名的对象的方法，该方法包括施用被确定为将该疾病基因表达签名恢复(逆转，或以其他方式改变)为与健康基因表达签名类似的疗法，其中该疗法通过以下来确定：从该疾病基因表达签名中选择应答基因集；鉴定改变该应答基因集的基因表达的一种或多种潜在疗法；基于该应答基因集的改变的显著性来对该一种或多种潜在疗法中的每一种进行评分，从而提供一种或多种候选疗法；确定由该一种或多种候选疗法直接调节的一个或多个潜在靶标；通过鉴定与该应答基因集具有显著拓扑相似性(例如，在生物网络上紧密接近)的靶标来从该一个或多个潜在靶标中选择治疗靶标；以及鉴定直接调节该治疗靶标的疗法。

在一些实施方案中，疾病基因表达签名通过以下来确定：分析来自患有与该对象相同的疾病、病症或病况的对象群组的基因表达数据；基于该基因表达数据将该对象群组分层为先前对象的两个或更多个组；以及选择在该先前对象的两个或更多个组与健康对象组之间具有基因表达显著差异的一个或多个基因(“疾病候选基因”)，从而提供该疾病基因表达签名。

在一些实施方案中，将先前对象群组分层为两个或更多个组包括基于该先前对象对特定疗法(例如，抗TNF疗法)是应答者还是非应答者来对对象进行分层。在一些实施方案中，先前对象被随机分层。在一些实施方案中，先前对象通过基于基因表达的相似性来分层。在一些实施方案中，先前对象中的基于基因表达的相似性通过机器学习过程来分析。

在一些实施方案中，疗法选自表1。

表1

在一些实施方案中，疗法是抗TNF疗法。在一些实施方案中，抗TNF疗法选自英夫利昔单抗、依那西普、阿达木单抗、聚乙二醇结合赛妥珠单抗、戈利木单抗及其生物类似物。在一些实施方案中，抗TNF疗法是英夫利昔单抗。在一些实施方案中，抗TNF疗法是依那西普。在一些实施方案中，抗TNF疗法是阿达木单抗。在一些实施方案中，抗TNF疗法是聚乙二醇结合赛妥珠单抗。在一些实施方案中，抗TNF疗法是戈利木单抗。在一些实施方案中，抗TNF疗法是英夫利昔单抗、依那西普、阿达木单抗、聚乙二醇结合赛妥珠单抗或戈利木单抗的生物类似物。

在一些实施方案中，疗法选自利妥昔单抗(rituximab)、斯鲁利单抗(sarilumab)、枸橼酸托法替尼(tofacitinib citrate)、来氟米特、维得利珠单抗(vedolizumab)、托珠单抗(tocilizumab)、阿那白滞素(anakinra)和阿巴西普(abatacept)。在一些实施方案中，疗法是利妥昔单抗。在一些实施方案中，疗法是斯鲁利单抗。在一些实施方案中，疗法是枸橼酸托法替尼。在一些实施方案中，疗法是来氟米特。在一些实施方案中，疗法是维得利珠单抗。在一些实施方案中，疗法是托珠单抗。在一些实施方案中，疗法是阿那白滞素。在一些实施方案中，疗法是阿巴西普。

在一些实施方案中，疾病、病症或病况选自溃疡性结肠炎、克罗恩病、类风湿性关节炎、幼年型关节炎、银屑病关节炎、斑块型银屑病和强直性脊柱炎。在一些实施方案中，疾病、病症或病况是溃疡性结肠炎。在一些实施方案中，疾病、病症或病况是克罗恩病。在一些实施方案中，疾病、病症或病况是类风湿性关节炎。在一些实施方案中，疾病、病症或病况是溃疡性结肠炎、克罗恩病、类风湿性关节炎、幼年型关节炎、银屑病关节炎、斑块型银屑病和强直性脊柱炎。

在一些实施方案中，一个或多个潜在靶标选自JAK1、JAK2、JAK3、IL23A、ITGA4、ITGB7、IL2RA、IL12A、IL12B、TNF、IL12RB 1、IL23R、IL12RB2和MADCAM1。

疗法监测

此外，本公开提供了用于监测给定对象或对象群组的疗法的技术。由于对象的基因表达水平可能随着时间的推移而变化，在一些情况下，可能希望在一个或多个时间点，例如，以指定的和/或周期性的间隔来评估对象。

在一些实施方案中，随着时间的推移重复监测允许或实现对可能影响正在进行的治疗方案的对象的基因表达谱或特征的一个或多个变化的检测。在一些实施方案中，检测变化，响应于该变化，向对象施用的特定疗法继续、改变或暂停。在一些实施方案中，可以改变疗法，例如，通过增加或降低用其已经对对象进行治疗的一种或多种剂或治疗的施用频率或量。可替代地或另外，在一些实施方案中，可以通过添加具有一种或多种新剂或治疗的疗法来改变疗法。在一些实施方案中，可以通过暂停或停止一种或多种特定剂或治疗来改变疗法。

系统和架构

本文还提供了一种用于对对象的个体化疗法进行工程化的方法，该方法包括：接收或生成包括应答基因集的疾病基因表达签名；接收或生成改变一个或多个应答基因的表达的一种或多种潜在疗法集；根据一个或多个应答基因的改变的显著性来对一种或多种潜在疗法集中的每一种进行排序，以提供一种或多种候选疗法集；确定由一种或多种候选疗法集直接调节的一个或多个潜在靶标，任选地通过将一个或多个潜在靶标映射到生物网络上；对一个或多个潜在靶标中的每一个与应答基因集之间的下游影响显著性(例如，扩散状态距离)进行排序；从一个或多个潜在靶标中选择治疗靶标；以及选择调节治疗靶标的个体化疗法。

在一些实施方案中，疾病基因表达签名通过以下来确定：接收或生成来自患有与对象相同的疾病、病症或病况的对象群组的基因表达数据；基于基因表达数据将对象群组分层为先前对象的两个或更多个组；以及选择在先前对象的两个或更多个组与健康对象组之间具有基因表达显著差异的一个或多个基因(“疾病候选基因”)，从而提供疾病基因表达签名。

在一些实施方案中，在被选择为疾病基因表达签名的一部分之前，将疾病候选基因映射到生物网络上。

在一些实施方案中，确定一个或多个潜在靶标还包括将一种或多种候选疗法的靶标映射到生物网络上，并基于由生物网络提供的拓扑信息来选择潜在靶标。

在一些实施方案中，对一种或多种潜在疗法中的每一种进行排序包括：计算用一种或多种潜在疗法治疗之后应答基因集的表达水平相对于用一种或多种潜在疗法治疗之前应答基因集的表达水平的差异；以及计算一种或多种潜在疗法中的每一种的p值。

在一些实施方案中，通过机器学习过程来鉴定潜在靶标。

在一些实施方案中，机器学习过程是随机游走。

如图4所示，示出并描述了用于提供如本文所述的系统、方法和架构的网络环境400的实现方式。在简要概述中，现在参考图4，示出并描述了示例性云计算环境400的框图。云计算环境400可以包括一个或多个资源提供者402a、402b、402c(统称为402)。每个资源提供者402可以包括计算资源。在一些实现方式中，计算资源可以包括用于处理数据的任何硬件或软件。例如，计算资源可以包括能够执行算法、计算机程序或计算机应用程序的硬件或软件。在一些实现方式中，示例性计算资源可以包括具有存储和检索能力的应用服务器或数据库。每个资源提供者402可以连接到云计算环境400中的任何其他资源提供者402。在一些实现方式中，资源提供者402可以通过计算机网络408连接。每个资源提供者402可以通过计算机网络408连接到一个或多个计算装置404a、404b、404c(统称为404)。

云计算环境400可以包括资源管理器406。资源管理器406可以通过计算机网络408连接到资源提供者402和计算装置404。在一些实现方式中，资源管理器406可以促进由一个或多个资源提供者402向一个或多个计算装置404提供计算资源。资源管理器406可以从特定计算装置404接收对计算资源的请求。资源管理器406可以鉴定能够提供计算装置404所请求的计算资源的一个或多个资源提供者402。资源管理器406可以选择资源提供者402来提供计算资源。资源管理器406可以促进资源提供者402与特定计算装置404之间的连接。在一些实现方式中，资源管理器406可以建立特定资源提供者402与特定计算装置404之间的连接。在一些实现方式中，资源管理器406可以将特定计算装置404重定向到具有所请求的计算资源的特定资源提供者402。

图5示出了可以用于实现本文所述的技术的计算装置500和移动计算装置550的示例。计算装置500旨在表示各种形式的数字计算机，诸如笔记本电脑、台式机、工作站、个人数字助理、服务器、刀片式服务器、大型机和其他适当的计算机。移动计算装置550旨在表示各种形式的移动装置，诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算装置。在此所示的组件、它们的连接和关系以及它们的功能只是示例，而不具有限制性。

计算装置500包括处理器502、存储器504、存储装置506、连接到存储器504和多个高速扩展端口510的高速接口508以及连接到低速扩展端口514和存储装置506的低速接口512。处理器502、存储器504、存储装置506、高速接口508、高速扩展端口510和低速接口512中的每一个都使用各种总线互连，并且可以适当地安装在公共主板上或以其他方式安装。处理器502可以处理用于在计算装置500内执行的指令，包括存储在存储器504或存储装置506上的指令，以在外部输入/输出装置(诸如耦合至高速接口508的显示器516)上显示GUI的图形信息。在其他实现方式中，可以适当地使用多个处理器或多条总线以及多个存储器和多种类型的存储器。另外，可以连接多个计算装置，每个装置提供部分操作(例如，作为服务器库、一组刀片式服务器或多处理器系统)。因此，正如本文中所使用的术语，其中多个功能被描述为由“处理器”执行，这涵盖其中该多个功能由任意数量的计算装置(一个或多个)中的任意数量的处理器(一个或多个)执行的实施方案。此外，其中功能被描述为由“处理器”执行，这涵盖其中该功能由任意数量的计算装置(一个或多个)(例如，在分布式计算系统中)中的任意数量的处理器(一个或多个)执行的实施方案。

存储器504存储计算装置500内的信息。在一些实现方式中，存储器504是一个或多个易失性存储器单元。在一些实现方式中，存储器504是一个或多个非易失性存储器单元。存储器504也可以是另一种形式的计算机可读介质，诸如磁盘或光盘。

存储装置506能够为计算装置500提供大容量存储。在一些实现方式中，存储装置506可以是或包含计算机可读介质，诸如软盘装置、硬盘装置、光盘装置或磁带装置、闪存或其他类似固态存储装置或装置阵列，包括在存储区域网络或其他配置中的装置。指令可以存储在信息载体中。在由一个或多个处理装置(例如，处理器502)执行时，该指令执行一个或多个方法，诸如以上所述的那些方法。指令也可以由一个或多个存储装置存储，诸如计算机可读介质或机器可读介质(例如，存储器504、存储装置506或处理器502上的存储器)。

高速接口508管理计算装置500的带宽密集型操作，而低速接口512管理较低带宽密集型的操作。这种功能分配是一个示例。在一些实现方式中，高速接口508耦合至存储器504、显示器516(例如，通过图形处理器或加速器)以及高速扩展端口510，该高速扩展端口可以接受各种扩展卡(未示出)。在该实现方式中，低速接口512耦合至存储装置506和低速扩展端口514。可以包括各种通信端口(例如，USB、以太网、无线以太网)的低速扩展端口514可以例如通过网络适配器耦合至一个或多个输入/输出装置，诸如键盘、指向装置、扫描仪或联网装置，诸如交换机或路由器。

计算装置500可以以多种不同的形式来实现，如图所示。例如，它可以被实现为标准服务器520，或在一组此类服务器中实现多次。另外，它可以在个人计算机诸如笔记本计算机522中实现。它也可以被实现为机架服务器系统524的一部分。可替代地，来自计算装置500的组件可以与移动装置(未示出)诸如移动计算装置550中的其他组件组合。此类装置中的每一个可以包含计算装置500和移动计算装置550中的一个或多个，并且整个系统可以由彼此通信的多个计算装置组成。

除其他组件外，移动计算装置550包括处理器552、存储器564、输入/输出装置诸如显示器554、通信接口566和收发器568。移动计算装置550还可以被提供有存储装置，诸如微驱动器或其他装置，以提供额外的存储。处理器552、存储器564、显示器554、通信接口566和收发器568中的每一个都使用各种总线互连，并且几个组件可以适当地安装在公共主板上或以其他方式安装。

处理器552可以执行移动计算装置550内的指令，包括存储在存储器564中的指令。处理器552可以被实现为包括单独的和多个模拟和数字处理器的芯片组。处理器552例如可以提供对移动计算装置550的其他组件的协调，诸如对用户接口、由移动计算装置550运行的应用程序和由移动计算装置550进行的无线通信的控制。

处理器552可以通过控制接口558和耦合至显示器554的显示器接口556来与用户通信。显示器554可以是例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器，或其他适当的显示技术。显示器接口556可以包括用于驱动显示器554以向用户呈现图形和其他信息的适当电路。控制接口558可以接收来自用户的命令并将其转换以提交给处理器552。另外，外部接口562可以提供与处理器552的通信，以便实现移动计算装置550与其他装置的近区域通信。外部接口562例如可以在一些实现方式中提供有线通信，或在其他实现方式中提供无线通信，并且还可以使用多个接口。

存储器564存储移动计算装置550内的信息。存储器564可以被实现为计算机可读介质、易失性存储器单元或非易失性存储器单元中的一个或多个。还可以提供扩展存储器574，并通过扩展接口572(其可以包括例如SIMM(单列直插式内存模块)卡接口)将其连接至移动计算装置550。扩展存储器574可以为移动计算装置550提供额外的存储空间，或者还可以为移动计算机装置550存储应用程序或其他信息。具体地，扩展存储器574可以包括用于执行或补充以上所述的过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器574可以被提供为移动计算装置550的安全模块，并且可以用允许安全使用移动计算装置550的指令来编程。另外，可以经由SIMM卡提供安全应用程序以及额外信息，诸如以不可破解的方式将鉴定信息置于SIMM卡上。

存储器可以包括例如闪存或NVRAM存储器(非易失性随机存取存储器)，如下所讨论。在一些实现方式中，指令被存储在信息载体中，在由一个或多个处理装置(例如，处理器552)执行时，该指令执行一个或多个方法，诸如以上所述的那些方法。指令也可以由一个或多个存储装置存储，诸如一个或多个计算机可读介质或机器可读介质(例如，存储器564、扩展存储器574或处理器552上的存储器)。在一些实现方式中，可以在传播的信号中接收指令，例如，通过收发器568或外部接口562。

移动计算装置550可以通过通信接口566进行无线通信，在必要的情况下，该通信接口可以包括数字信号处理电路。通信接口566可以提供在各种模式或协议下的通信，诸如GSM语音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息服务)或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线电服务)等。这种通信可以例如通过使用射频的收发器568来发生。另外，可能会发生短距离通信，诸如使用Wi-Fi^TM或其他这种收发器(未示出)。另外，GPS(全球定位系统)接收器模块570可以向移动计算装置550提供额外的与导航和定位相关的无线数据，该数据可以适当地由在移动计算装置550上运行的应用程序使用。

移动计算装置550还可以使用音频编解码器560进行可听通信，该音频编解码器可以从用户接收语音信息并将其转换为可用的数字信息。音频编解码器560同样可以为用户生成可听声音，诸如通过扬声器，例如移动计算装置550的手持机中的扬声器。这种声音可以包括来自语音电话呼叫的声音，可以包括记录的声音(例如，语音消息、音乐文件等)，并且还可以包括由在移动计算装置550上操作的应用程序生成的声音。

移动计算装置550可以以多种不同的形式来实现，如图所示。例如，它可以作为蜂窝电话580实现。它也可以作为智能电话582、个人数字助理或其他类似移动装置的一部分实现。

在此描述的系统和技术的各种实现方式可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件或其组合中实现。这些各种实现方式可以包括在一个或多个计算机程序中的实现方式，该计算机程序可在包括至少一个可编程处理器的可编程系统上执行或解释，该至少一个可编程处理器可以是专用的或通用的，被耦合以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令，并向其传输数据和指令。

这些计算机程序(例如，程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令，并且可以用高级过程或面向对象的编程语言或汇编/机器语言来实现。如本文所用，术语机器可读介质和计算机可读介质是指用于向可编程处理器提供机器指令或数据的任何计算机程序产品、设备或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语机器可读信号是指用于向可编程处理器提供机器指令或数据的任何信号。

要提供与用户的交互，在此所述的系统和技术可以实现在计算机上，该计算机具有用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以向计算机提供输入的键盘和指向装置(例如，鼠标或轨迹球)。其他种类的装置也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。

在此所述的系统和技术可以在计算系统中实现，该计算系统包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器)，或包括前端组件(例如，具有图形用户界面的客户端计算机或Web浏览器，用户可以通过其与在此所述的系统和技术的实现方式进行交互)，或此类后端、中间件或前端组件的任何组合。系统的组件可以通过任何数字数据通信形式或媒介(例如，通信网络)进行互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和因特网。

计算系统可以包括客户端和服务器。客户端和服务器可以彼此远离，并且可以通过通信网络进行交互。客户端与服务器之间的关系是由于在各自的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生的。

在一些实现方式中，本文所述的模块可以被分离、组合或并入单个或组合的模块中。图中描绘的模块并不旨在将本文所述的系统限制于其中所示的软件架构。

本文所述的不同实现方式的元件可以被组合以形成以上没有具体阐述的其他实现方式。元件可以被排除在本文所述的过程、计算机程序、数据库等之外，而不会对它们的操作产生不利影响。另外，图中描绘的逻辑流程不需要所示的特定顺序或连续顺序来实现所希望的结果。各种单独的元件可以组合成一个或多个单个元件以执行本文所述的功能。鉴于在此所述的系统和方法的结构、功能和设备，在一些实现方式中。

本公开提供了被编程以实现本公开方法的计算机系统。图14示出了被编程或以其他方式被配置为进行各种方法的分析或操作的计算机系统1401。计算机系统1401可以调节本公开的方法和系统的各个方面，例如像执行算法、分析数据或输出算法的结果。计算机系统1401可以是用户的电子装置或相对于电子装置远程定位的计算机系统。电子装置可以是移动电子装置。

计算机系统1401包括中央处理单元(CPU，本文也称为“处理器”和“计算机处理器”)1405，其可以是单核或多核处理器，或者用于并行处理的多个处理器。计算机系统1401还包括存储器或存储位置1410(例如，随机存取存储器、只读存储器、闪存)、电子存储单元1415(例如，硬盘)、用于与一个或多个其他系统通信的通信接口1420(例如，网络适配器)以及外围装置1425，诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器1410、存储单元1415、接口1420和外围装置1425通过通信总线(实线)(诸如主板)与CPU1405通信。存储单元1415可以是用于存储数据的数据存储单元(或数据储存库)。借助于通信接口1420，计算机系统1401可以可操作地耦合至计算机网络(“网络”)1430。网络1430可以是因特网、互联网和/或外联网，或与因特网通信的内联网和/或外联网。在一些情况下，网络1430是电信和/或数据网络。网络1430可以包括一个或多个计算机服务器，其可以实现分布式计算，诸如云计算。在一些情况下，借助于计算机系统1401，网络1430可以实现对等网络，这可以使得耦合至计算机系统1401的装置能够表现为客户端或服务器。

CPU 1405可以执行机器可读指令序列，其可以体现在程序或软件中。指令可以存储在存储器位置(诸如存储器1410)中。指令可以被引导至CPU 1405，其可以随后编程或以其他方式配置CPU 1405以实现本公开的方法。由CPU 1405进行的操作的示例可以包括提取、解码、执行和写回。

CPU 1405可以是电路(诸如集成电路)的一部分。系统1401的一个或多个其他组件可以包括在电路中。在一些情况下，电路是专用集成电路(ASIC)。

存储单元1415可以存储文件，诸如驱动程序、文库和保存的程序。存储单元1415可以存储用户数据，例如，用户偏好和用户程序。在一些情况下，计算机系统1401可以包括在计算机系统1401外部(诸如位于通过内联网或因特网与计算机系统1401通信的远程服务器上)的一个或多个额外数据存储单元。

计算机系统1401可以通过网络1430与一个或多个远程计算机系统通信。例如，计算机系统1401可以与用户的远程计算机系统(例如，医学专家或患者)通信。远程计算机系统的示例包括个人计算机(例如，便携式PC)、平板或平板式PC(例如，iPad、Galaxy Tab)、电话、智能电话(例如，iPhone、支持安卓的装置、)或个人数字助理。用户可以经由网络1430访问计算机系统1401。

如本文所述的方法可以通过存储在计算机系统1401的电子存储位置上(例如像，存储在存储器1410或电子存储单元1415上)的机器(例如，计算机处理器)可执行代码来实现。机器可执行或机器可读代码可以以软件的形式提供。在使用期间，代码可以由处理器1405执行。在一些情况下，可以从存储单元1415中检索代码，并将其存储在存储器1410上，以备处理器1405访问。在一些情况下，可以排除电子存储单元1415，并且机器可执行指令存储在存储器1410上。

代码可以被预编译和配置用于与具有适于执行代码的处理器的机器一起使用，或者可以在运行时被编译。可以用编程语言提供代码，可以选择编程语言以使代码能够以预编译或实时编译的方式执行。

本文提供的系统和方法的方面(诸如计算机系统1401)可以在编程中实现。技术的各个方面可以被认为是“产品”或“制品”，通常是机器(或处理器)可执行代码和/或相关数据的形式，其被承载或包含在一种类型的机器可读介质中。机器可执行代码可以存储在电子存储单元(诸如存储器(例如，只读存储器、随机存取存储器、闪存)或硬盘)上。“存储”类型的介质可以包括计算机、处理器等的任何或所有有形存储器或其相关模块，诸如各种半导体存储器、磁带驱动器、磁盘驱动器等，它们可以在任何时候为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如，此类通信可以使得能够将软件从一台计算机或处理器加载到另一台计算机或处理器中，例如，从管理服务器或主计算机加载到应用服务器的计算机平台中。因此，可以承载软件元件的另一种类型的介质包括光、电和电磁波，诸如通过有线和光学陆线网络以及经过各种空中链路在本地装置之间的物理接口上使用的。携带此类波的物理元件，诸如有线或无线链路、光链路等，也可以被认为是承载软件的介质。如本文所用，除非限于非临时性的、有形的“存储”介质，否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。

因此，机器可读介质(诸如计算机可执行代码)可以采取许多形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如，光盘或磁盘，诸如任何计算机中的任何存储装置等，诸如可以用于实现附图中所示的数据库等。易失性存储介质包括动态存储器，诸如这种计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括构成计算机系统内总线的电线。载波传输介质可以采取电信号或电磁信号的形式，或者声波或光波的形式，如在射频(RF)和红外(IR)数据通信期间产生的那些声波或光波。因此，计算机可读介质的常见形式包括例如：软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带、传输数据或指令的载波、传输这种载波的电缆或链路，或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。

计算机系统1401可以包括电子显示器1435或者与电子显示器1435通信，该电子显示器包括用于提供例如数据的输入或输出，或与算法有关的视觉输出的用户界面(UI)1440。UI的示例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

本公开的方法和系统可以通过一种或多种算法来实现。算法可以在由中央处理单元1405执行时通过软件来实现。例如，算法可以例如进行本公开的方法的分析或操作。

实施例

以下非限制性实施例旨在说明本文所述的主题的各种实施方案。

实施例1-溃疡性结肠炎的系统生物信息学和基于网络的分析

下载8个接受抗TNF疗法的溃疡性结肠炎(UC)患者群组的基因表达数据并在两个单独批次中进行研究(研究1和研究2，分别在表2和表3中描述)。

表2

表3

当彼此比较和与健康对照比较时，在基线和治疗之后治疗的应答者和非应答者的基因表达谱(图3A)。分析显示，治疗(治疗之后)的应答者的分子签名与健康对照类似。

特定疾病亚群的分子差异是细微的。比较UC应答者和非应答者的基线表达谱并没有发现任何显著分化的基因。相反，与健康对照组相比，患者亚群的分子差异更为明显。

通过比较非应答者与健康对照的基线表达谱，衍生出非应答者的基因表达。也进行了反向比较(例如，将应答者的基线表达谱与健康对照进行比较)。两项研究都显示，应答者生物标志物集几乎完全包含在非应答者的生物标志物集内，并且非应答者生物标志物集通常是应答者生物标志物集的两倍，这可能表明非应答者处于更严重的疾病状态(图3B和图3C)。

靶标发现管线

图1示出了对象亚群靶标发现管线的示例性工作流程。所呈现的管线包括应答模块发现、治疗模块发现和新型靶标优先化的三个分支，本文对此进行了描述。

例如，在一些实施方案中，在应答模块发现中，与健康对照相比，鉴定到与特定患者亚群相关联的生物标志物。为了实现分子缓解，例如，使患者的转录组学与健康对照类似，鉴定了一种希望的下游作用，其中应答模块基因被逆转。

在治疗模块发现中，例如，在一些实施方案中，鉴定了现有靶标，该靶标在实验上显示会导致应答模块基因的表达谱逆转。因此，已鉴定的治疗模块包括有希望的靶标，其扰动具有希望的下游作用，从而使患者达到分子缓解。

为了鉴定新型靶标，使用了扩散状态距离(DSD)的基于网络的下游相似性(影响相似性)测量。基于新型靶标与已鉴定的治疗模块的下游相似性(特异性)及其显著性(选择性)来鉴定新型靶标。发现，被批准用于适应症的不同药物的蛋白质靶标彼此往往具有高度显著的影响相似性。

应答模块发现

使用有监督和无监督聚类算法对对象进行分层。为了鉴定对象亚群生物标志物，将不同患者亚群的基线表达谱与健康对照进行比较。然后将这些生物标志物映射在人类相互作用组的图上。发现，已鉴定的生物标志物在网络上形成显著聚类，例如，节点不是分散的，而是彼此显著相互作用，从而形成由亚群特异性生物标志物组成的子网络(响应模块)。还发现，对治疗产生应答的患者的治疗后表达谱与健康对照类似，因此对治疗的应答可以转化为恢复应答模块基因，使其与健康对照类似。

治疗模块发现

治疗模块是基因靶标集，其在实验上显示会恢复在应答模块中鉴定的生物标志物基因的表达。治疗模块发现管线包括以下数据集中的一个或多个作为输入：

a.生物网络(例如，人类相互作用组图)；

b.响应于对感兴趣的细胞系的各种化合物处理的基因差异表达的数据，其中基因被分配了表征其在相同细胞系中相对于基线对照的差异表达水平的Z分数。在本实施例中，使用HT29细胞系中的开源LINCS L1000扰动数据，化合物扰动；以及

c.化合物与其靶基因之间的映射。

使用以下示例性操作来开发治疗模块：

d.从上调/下调查询中过滤掉不是LINCS L1000 10,174最佳推断基因的一部分的基因

e.选择对应于在感兴趣的细胞系中进行的实验的LINCS L1000数据的签名。

f.根据加权连接性分数(Weighted Connectivity Score，WTCS)对签名进行排序。

g.提取上调和下调生物标志物的具有显著富集分数的签名。

h.过滤掉与上调/下调生物标志物具有低连接性的签名。

i.从药物->靶标映射中提取药物靶标列表。

j.将治疗模块映射在人类相互作用组上。

用于新型靶标鉴定的基于网络的测量

扩散状态距离(DSD)，一种基于图扩散特性的度量，被设计来捕获在生物网络(例如，蛋白质-蛋白质相互作用网络或人类相互作用组网络)中的功能注释的传递的接近性的更细粒度的差异。使用在图的顶点上的随机游走，通过比较初始状态为u和初始状态为v时(在给定时间范围内)对所有状态的预期访问次数来评估两个状态u和v的接近度。具有较小DSD的两个节点具有较高的下游影响相似性。

干扰治疗模块导致应答模块基因的希望下游作用并治疗对象。对TNF进行研究来证明这一概念。TNF是被批准用于UC患者的靶标。为了验证治疗模块，评估了与TNF的基于网络的下游影响相似性。首先，将TNF与治疗模块之间的影响相似性与随机期望进行比较，其中治疗模块从网络中随机选择1000次。通过计算TNF与治疗模块中每个单个节点之间的平均DSD值来确定TNF与治疗模块之间的相似性。通过计算随机化治疗模块与TNF相比的平均DSD值来确定随机化治疗模块与TNF之间的相似性。

通过随机挑选与治疗模块靶标具有相似程度的靶标来选择随机治疗模块。将此随机化重复1000次迭代，从而提供1000个定量随机化治疗模块与TNF之间的相似性的相似性值的分布。网络相似性分析显示：与随机选择的治疗模块相比，TNF与实验推导的治疗模块具有显著更接近的网络相似性(图2A)。特异性定义为影响相似性，并且选择性被定义为z分数。除TNF外，对于UC批准的其他靶标也观察到了相似的发现。例如，大多数UC批准的靶标对已鉴定的治疗模块具有高特异性和高选择性(图2B)。

实施例2-用于鉴定溃疡性结肠炎中的新型药物靶标的基于验证系统的多组学数据分析平台

近20年来，肿瘤坏死因子-α抑制剂(TNFi)一直是溃疡性结肠炎(UC)的标准治疗方法。然而，并不是每个患者都对TNFi疗法产生应答，这促使了替代性UC疗法的发展。本文公开了用于UC治疗的蛋白质靶标的优先化的多组学网络生物学方法。所公开的方法可以鉴定人类相互作用组上的网络模块，其包括有助于UC易感性的基因(基因型模块)、其表达可以被改变以实现低疾病活动性的基因(应答模块)以及其扰动可以在有利方向上改变应答模块基因表达的蛋白质(治疗模块)。可以基于靶标与基因型模块的拓扑相关性和与治疗模块的功能相似性来对靶标进行优先化。在一个示例中，本文在UC中描述的方法可以有效地恢复与用于UC治疗的已上市和未开发药物相关联的蛋白质靶标。可以实现用于在UC和其他复杂疾病中寻找新的治疗机会并重新利用治疗机会的手段。

介绍

溃疡性结肠炎(UC)是一种以慢性肠道炎症为特征的复杂疾病，并且被认为是由遗传易感患者对肠道微生物群的异常免疫应答引起的。(参见例如，C.Abraham等人,“Inflammatory Bowel Disease,”New England Journal of Medicine 361,2066(2009)，其出于所有目的通过引用并入本文)。UC的治疗可以包括氨基水杨酸盐和类固醇，并且如果不能实现低疾病活动性，则可以推荐生物制剂，诸如肿瘤坏死因子-α抑制剂(TNFi)。(参见例如，S.C.Park等人,“Current and emerging biologics for ulcerative colitis,”Gutand liver 9,18(2015)；K.Hazel等人,Emerging treatments for inflammatory boweldisease,“Therapeutic advances in chronic disease.”11,2040622319899297(2020)，其出于所有目的通过引用并入本文)。尽管如此，约40％的患者可能对TNFi治疗没有应答，并且每年多达10％的初始应答者可能失去其对TNFi疗法的应答。(参见例如，S.C.Park等人；P.Rutgeerts等人,“Infliximab for induction and maintenance therapy forulcerative colitis,”New England Journal of Medicine 353,2462(2005)，其出于所有目的通过引用并入本文)。TNFi疗法的困难以及经济激励产生对替代性治疗方法的研究和开发，例如JAK抑制剂、IL-12/IL-23抑制剂、S1P-受体调节剂、抗整合素剂或新型TNFi化合物。(参见例如，E.Troncone等人,“Novel therapeutic options for people withulcerative colitis:an update on recent developments with Janus kinase(JAK)inhibitors,”Clinical and Experimental Gastroenterology 13,131(2020)；A.Kashani等人,“The Expanding Role of Anti–IL-12and/or Anti–IL-23Antibodies in theTreatment of Inflammatory Bowel Disease,”Gastroenterology&Hepatology 15,255(2019)；S.Danese等人,“Targeting S1P in inflammatory bowel disease:new avenuesfor modulating intestinal leukocyte migration,”Journal of Crohn’s and Colitis12,S678(2018)；S.C.Park等人,“Anti-integrin therapy for inflammatory boweldisease,”World journal of gastroenterology 24,1868(2018)；K.Hazel等人，其出于所有目的通过引用并入本文)。一些方法针对导致异常免疫应答的生物学机制，并且可能需要关于UC发病机制的详细知识。然而，由于对免疫原性的担忧和通过注射进行药物递送的不便，人们对开发额外的口服施用小分子药物越来越感兴趣。

新型药物的开发可能需要鉴定其调节可以导致低疾病活动性或缓解的分子靶标。随着多组学数据的激增，机器学习(ML)和人工智能(AI)被广泛用于治疗学中的许多任务，诸如靶标优先化、药物设计、药物靶标相互作用预测或小分子优化。(参见例如，J.Vamathevan等人,“Applications of machine learning in drug discovery anddevelopment,”Nature reviews Drug discovery 18,463(2019)，其出于所有目的通过引用并入本文)。目前用于靶标优先化的ML/AI方法可能侧重于搜索与给定疾病有关的基因。可以通过例如使用从疾病特异性基因表达和突变数据构建的特征以及关于相关蛋白质-蛋白质、代谢或转录相互作用的信息来训练分类器，或通过使用自然语言处理(NLP)方法分析疾病-基因关联的现有文本数据库或研究文献来推断基因。(参见例如，P.R.Costa等人,在BMC Genomics中,第11卷(Springer,2010)第1-15页；J.Jeon等人,“A systematicapproach to identify novel cancer drug targets using machine learning,inhibitor design and high-throughput screening,”Genome medicine 6,1(2014)；E.Ferrero等人,“In silico prediction of novel therapeutic targets using gene-disease association data,”Journal of translational medicine 15,1(2017)；P.Mamoshina等人,“Machine learning on human muscle transcriptomic data forbiomarker discovery and tissue-specific drug target identification,”Frontiersin genetics 9,242(2018)；A.Bravo等人,“Extraction of relations between genesand diseases from text and large-scaledata analysis:implications fortranslational research,”BMC Bioinformatics 16,1(2015)；J.Kim等人,“An analysisof disease-gene relationship from Medline abstracts by DigSee,”ScientificReports 7,1(2017)，其出于所有目的通过引用并入本文)。

然而，许多ML/AI方法可能存在探索偏差或数据不完整的问题。(参见例如，T.Rolland等人,“A proteome-scale map of the human interactome network,”Cell159,1212(2014)；J.Menche等人,“Uncovering disease-disease relationships throughthe incomplete interactome,”Science 347,1257601(2015)，其出于所有目的通过引用并入本文)。此外，系统分析表明，美国食品药品管理局(Food and Drug Administration，FDA)批准的药物可能不会直接靶向疾病相关基因的蛋白质产物。(参见例如，M.A.等人,“Drug—target network,”Nature biotechnology 25,1119(2007)；E.Guney等人,“Network-based in silico drug efficacy screening,”Naturecommunications 7,1(2016)，其出于所有目的通过引用并入本文)。基于网络的靶标优先化方法可以通过以网络的形式聚集蛋白质组学、代谢组学和转录组学的相互作用以及药物、疾病和基因之间的关联，并通过推导以无偏差和无监督的方式区分可行靶标的基于网络的特征来解决这些问题。(参见例如，S.Zhao等人,“Network-based relatingpharmacological and genomic spaces for drug target identification,”PloS one5,e11764(2010)；Z.Isik等人,“Drug target prioritization by perturbed geneexpression and network information,”Scientific reports5,1(2015)；T.Katsila等人,“Computational approaches in target identification and drug discovery,”Computational and structural biotechnology journal 14,177(2016)；E.Guney等人，其出于所有目的通过引用并入本文)。尽管如此，还没有一个基于网络的框架能够同时捕捉疾病形成与成功治疗之间的关系，作为鉴定新型潜在靶标的方法。

为了解决至少这些问题，本文公开了用于UC的靶标优先化的基于网络的方法，其利用人类相互作用组(HI)的三个网络区域(模块)，即人类细胞中的蛋白质-蛋白质相互作用网络，称为模块三元组，包括：

1.基因型模块-与UC的遗传易感性相关联的基因集；

2.应答模块-需要改变其表达以实现低疾病活动性的基因集；

3.治疗模块-需要被靶向以在有利的方向上改变应答模块基因的表达以实现低疾病活动性的蛋白质集。

可行靶标可以同时(a)与基因型模块在拓扑上相关，例如在与特定疾病相关联的基因的网络附近，以及(b)与治疗模块在功能上相似，例如在其扰动时具有与治疗模块蛋白质相似的转录组下游作用。(参见例如，E.Guney等人)。本文公开的方法可以使用UC为例，通过有效地恢复针对UC批准的已知靶标并基于网络衍生的排序来区分处于不同UC发展阶段的靶标，来证明所提出的框架的实用性。模块三元组框架可以是从网络角度将作为复杂疾病发展的原因的生物学机制与其治疗动态连接起来的第一次尝试。模块三元组框架可以直接扩展到具有已知基因-疾病关联、治疗前后患者的可用基因表达数据以及在适当细胞系中的扰动实验的其他复杂疾病。

模块三元组靶标优先化框架的概述

模块三元组框架包括：(1)给定疾病的模块三元组的发现；(2)基于鉴定的模块三元组的新型靶标发现，其在图7中说明。

对于模块三元组的发现，可以使用辅助疾病特异性信息将每个模块映射到HI上。基因型模块可以通过分析基因-疾病关联数据库来构建，以定位其突变可以预先确定疾病表型形成的基因。应答模块包括在实现低疾病活动性的患者的治疗之后可以显著下调或上调的基因。治疗模块构建包括：(1)使用基于集成网络的细胞签名文库(LINCS)L1000扰动数据库来鉴定小分子化合物，该小分子化合物导致与治疗之后对应答模块基因观察到的基因表达谱相似的基因表达谱；(2)使用DrugBank和Reurposing Hub数据库来提取由这些化合物靶向的蛋白质集；将这些蛋白质映射到HI上，从而产生治疗模块。(参见例如，A.Subramanian等人,“A next generation connectivity map:L1000platform and thefirst 1,000,000profiles,”Cell 171,1437(2017)；C.Knox等人,“DrugBank 3.0:acomprehensive resource for‘omics’research on drugs,”Nucleic acids research39,D1035(2010)；S.M.Corsello等人,“The Drug Repurposing Hub:a next-generationdrug library and information resource,”Nature medicine 23,405(2017)，其出于所有目的通过引用并入本文)。

HI的至少一些蛋白质(节点)至少部分地基于构建的基因型和治疗模块进行排序。对于每个节点，基于其接近性来评估其与基因型模块的拓扑相关性，接近性是基于从节点到基因型模块节点的平均最短距离来计算的。(参见例如，E.Guney等人)。使用基于节点到治疗模块节点的平均扩散状态距离(DSD)计算的选择性来评估节点与治疗模块的功能相似性。(参见例如，M.Cao等人,“Going the distance for protein function prediction:anew distance metric for protein interaction networks,”PloS one 8,e76339(2013)，其出于所有目的通过引用并入本文)。关于计算接近性和选择性的详细信息，参见图7和方法(在本文其他地方描述)。可以基于其接近性和选择性分数对HI节点进行排序，并且可以使用排序乘积将这两个排序合并为单个组合排序。(参见例如，R.Breitling等人,“Rank products:a simple,yet powerful,new method to detect differentiallyregulated genes in replicated microarray experiments,”FEBS letters 573,83(2004)，其出于所有目的通过引用并入本文)。

UC基因型模块

与疾病相关联的基因的蛋白质产物可能不会随机分散在HI上，而是形成相互连接的节点簇，反映了疾病形成背后潜在的生物学机制的存在。(参见例如，J.Xu等人,Discovering disease-genes by topological features in human protein–proteininteraction network,”Bioinformatics22,2800(2006)；K.-I.Goh等人,“The humandisease network,”Proceedings of the National Academy of Sciences 104,8685(2007)；T.Ideker等人,“Protein networks in disease,”Genome research 18,644(2008)；A.-L.Barabási等人,“Network medicine:a network-based approach to humandisease,”Nature reviews genetics 12,56(2011)，其出于所有目的通过引用并入本文)。研究这些相互连接的簇的网络特性，可以深入了解疾病分子机制、靶标发现和药物再利用。(参见例如，J.Menche等人；A.Sharma等人,“A disease module in the interactomeexplains disease heterogeneity,drug response and captures novel pathways andgenes in asthma,”Human molecular genetics 24,3005(2015)；E.Guney等人；F.Cheng等人,“Network-based approach to prediction and population-based validation ofin silico drug repurposing,”Nature communications 9,1(2018)，其出于所有目的通过引用并入本文)。

为了在模块三元组框架中包括UC基因关联的概念，GWAS Catalog、ClinVar或MalaCards数据库可以用于提取被报告与UC有关联的基因(参见本文其他地方描述的方法)。(参见例如，A.Buniello等人,“The NHGRI-EBI GWAS Catalog of published genome-wide association studies,targeted arrays and summary statistics 2019,”Nucleicacids research 47,D1005(2019)；M.J.Landrum等人,“ClinVar:improving access tovariant interpretations and supporting evidence,”Nucleic acids research 46,D1062(2018)；N.Rappaport等人,“MalaCards:an integrated compendium for diseasesand their annotation,”Database 2013(2013)，其出于所有目的通过引用并入本文)。在三个数据库中的至少一个数据库中，总计194个基因被报告与UC相关联，并且其中174个(89.7％)被映射到HI中对应的蛋白质产物上。蛋白质产物不是随机分散在网络上的；64.9％(113/174)的蛋白质相互连接，形成最大连接组件(LCC)，其显著大于随机时所预期的(例如，Z分数＝4.82，p<10^-4)。本文所述的方法将此LCC定义为代表UC遗传易感性的基因型模块。可行靶标可以位于基因型模块的拓扑附近。(参见例如，E.Guney等人)。

在转录组水平下反映成功UC治疗

除了在拓扑上接近导致UC易感性的基因外，可行靶标也可能与UC的治疗在功能上相关。例如，可以在转录组水平下反映UC治疗动力学，并且干扰可行靶标可能导致与成功UC治疗时观察到的转录变化相似的转录变化。

来自几项研究的正常组织对照和接受TNFi药物(英夫利昔单抗或戈利木单抗)治疗的活动性UC患者的基因表达数据中，可以在转录组水平下反映UC治疗。(参见例如，I.Arijs等人,“Mucosal gene expression of antimicrobial peptides ininflammatory bowel disease before and after first infliximab treatment,”PloSone 4,e7984(2009)；G.Toedter等人,“Gene expression profiling and responsesignatures associated with differential responses to infliximab treatment inulcerative colitis,”Official journal of the American College ofGastroenterology-ACG 106,1272(2011)；S.Pavlidis等人,“I MDS:an inflammatorybowel disease molecular activity score to classify patients with differingdisease-driving pathways and therapeutic response to anti-TNF treatment,”PLoSComputational Biology 15,e1006951(2019)；N.Planell等人,“Transcriptionalanalysis of the intestinal mucosa of patients with ulcerative colitis inremission reveals lasting epithelial cell alterations,”Gut 62,967(2013)；T.Montero-Melendez等人,“Identification of novel predictor classifiers forinflammatory bowel disease by gene expression profiling,”PloS one 8,e76235(2013)；J.T.Bjerrum等人,“Transcriptional analysis of left-sided colitis,pancolitis,and ulcerative colitis-associated dysplasia,”Inflammatory boweldiseases 20,2340(2014)；S.E.Telesco等人,“Gene expression signature forprediction of golimumab response in a phase 2a open-label trial of patientswith ulcerative colitis,”Gastroenterology 155,1008(2018)，其出于所有目的通过引用并入本文)。表4总结了用于鉴定UC患者应答的分子签名的TNFi治疗研究。

表4

可以鉴定545个基因的集合，其在活动性UC患者与正常对照之间差异表达。这些基因可以用作正常对照和UC患者在治疗前后的基因表达谱的统一流形逼近与投影(UMAP)嵌入的特征，分为两组：治疗之后实现低疾病活动性的患者(应答者)和没有实现低疾病活动性的患者(非应答者)。(参见图8)。(参见例如，L.McInnes等人,“Umap:Uniform manifoldapproximation and projection for dimension reduction,”arXiv preprint arXiv:1802.03426(2018)，其出于所有目的通过引用并入本文)。

从UMAP嵌入来看，在英夫利昔单抗或戈利木单抗的应答者与非应答者的治疗前基因表达谱之间可能没有观察到明显的区别。另外，在应答者与非应答者的治疗前基因表达谱之间可能没有发现差异表达的基因。(参见“TNFi疗法的应答者和非应答者的差异基因表达分析”，在本文其他地方描述)。相反，应答者的治疗后基因表达谱与正常对照组的基因表达谱紧密聚类，而英夫利昔单抗或戈利木单抗的非应答者的治疗后谱与正常对照的治疗后谱分开聚类，从而指示与正常对照的基因表达谱高度相似的基因表达谱可以反映成功UC治疗。受这些观察结果的启发，我们将对UC治疗的“分子应答”定义为UC患者在治疗后的基因表达谱逆转为与正常对照的基因表达谱类似。

UC应答模块

为了进一步了解哪些转录变化可能导致应答者的基因表达谱与正常对照的基因表达谱更相似，对应答者的治疗前和治疗后基因表达谱进行差异表达分析。相对于正常对照，治疗之前应答者中的一小部分基因失调，在治疗之后表现出显著表达变化(参见“TNFi疗法的应答者和非应答者的差异基因表达分析”，在本文其他地方描述)。这些基因的表达可以在治疗后在应答者中恢复，例如，在治疗之前应答者中相对于正常对照下调的基因在治疗之后可能上调，并且反之亦然。然而，基于图8所示的谱嵌入，这些转录变化可能足以使应答者和正常对照的基因表达谱相似，并且指示在治疗后实现较低疾病活动性的患者。指示对UC治疗的分子应答的此基因集可以被称为RBA(前后应答者)集。对UC的TNFi治疗具有特异性的RBA集可以通过取从基于英夫利昔单抗和戈利木单抗的研究中确定的RBA基因的并集来构建。(参见本文其他地方描述的方法)。

属于RBA集的基因可能经由一种或多种生物途径彼此相关，该生物途径的正常功能可以通过抑制TNF-α来恢复，并且因此可能在HI上彼此接近。为了测试这一点，可以将TNFi-RBA基因映射到HI上，以构建由对应于RBA基因的节点构成的子网络。与随机选择的具有保留度序列的节点集(Z分数＝9.24，p<10^-4)相比，RBA集在HI上形成显著LCC(271个节点中的91个，34％)。RBA LCC中的此完善基因集被定义为应答模块，例如，当UC患者响应于治疗干预实现低疾病活动性时，HI转录改变的区域。

UC治疗模块

UC的成功治疗可能需要通过研究接受TNFi疗法的UC患者的基因表达谱来恢复应答模块节点的表达谱。抑制TNF-α可能不是在应答模块基因中实现预定转录组作用的唯一途径，并且干扰其他蛋白质可能实现相似的下游作用。

可以分析实验验证的替代性扰动，以产生与成功TNFi疗法后观察到的分子应答相似的分子应答。差异基因表达作用(签名)可能是由从LINCS L1000数据库获得的小分子化合物干扰人类细胞系引起的。(参见例如，A.Subramanian等人,“A next generationconnectivity map:L1000 platform and the first 1,000,000profiles,”Cell 171,1437(2017)，其出于所有目的通过引用并入本文)。扰动签名可以衍生自LINCS L1000 5级数据，该数据含有指示HT29细胞系(例如，人结直肠腺癌细胞系)中14,513个化合物实验的基因表达变化的幅度和方向的基因方面Z分数。可以考虑在HT29细胞系中进行扰动实验，因为它与UC影响的组织(结肠)相关，并且小分子化合物的覆盖范围相对较广。

为了找到恢复应答模块基因表达的化合物和对应靶蛋白，LINCS L1000实验可以通过使用每个HT29细胞系实验的基因方面扰动Z分数计算应答模块中上调和下调基因的加权连接性分数(WTCS)来评估。(参见例如，A.Subramanian等人,“A next generationconnectivity map:L1000 platform and the first 1,000,000profiles,”Cell 171,1437(2017)，其出于所有目的通过引用并入本文)。为了评估给定实验的WTCS的统计显著性，可以采用随机化程序，从而分配与上调和下调基因的富集分数相关联的一对p值，p_上和p_下。(参见本文其他地方描述的方法)。排除p_上≥0.05和p_下≥0.05以及WTCS≥0的化合物实验。此过滤确保考虑在恢复应答模块基因的表达方面具有积极和显著治疗作用的化合物。

在HT29细胞系中进行的14,513个化合物实验中，68个实验具有统计上显著的WTCS，范围为-0.642至-0.480。根据DrugBank^TM和Repurposing Hub^TM数据库，69种蛋白质似乎是在这68个实验中评价的25种独特化合物中的至少一种的靶标。两种蛋白质可能无法映射到HI上(例如，它们没有已知的蛋白质相互作用伴侣)，并且67种剩余蛋白质中的43种(64％)形成了显著大小的LCC(Z分数＝3.39，p<10^-4)。此LCC被称为治疗模块。

属于治疗模块的靶标之一是TNF-α。此外，通过构建，靶向属于治疗模块的蛋白质可能导致应答模块内的转录变化，与在成功TNFi疗法中观察到的转录变化相似。因此，属于治疗模块的蛋白质可以为治疗UC患者提供干预机会。

靶标排序

除了直接从治疗模块节点建议的潜在干预机会外，基因型和治疗模块还可以用于以无监督的方式优先考虑HI中的所有节点，因为它们具有作为UC治疗靶标的潜力。可行靶标可以同时满足以下网络特性。可行靶标可能在拓扑上接近与UC遗传易感性相关联的HI节点(基因型模块)。基于节点与疾病模块的网络接近性的靶标优先化可以预测具有已知靶标的药物在多种疾病中的治疗作用。(参见例如，E.Guney等人)。因此，为了定量给定HI节点与UC基因型模块的拓扑相关性，其与基因型模块的接近性可以基于节点到基因型模块的平均网络最短路径来计算(参见本文其他地方描述的方法)。

另外，靶向可行靶标可能导致转录变化，与在成功UC治疗后观察到的转录变化相似。治疗模块定义了由节点组成的网络区域，这些节点在扰动时可能导致应答模块基因中的希望转录变化。因此，与治疗模块蛋白在功能上相似的蛋白质也可以是有希望的靶标。然而，为了找到此类靶标，一种方法可以基于网络结构定量HI节点的下游转录作用相似性。为此，可以使用扩散状态距离(DSD)，这是一种基于网络随机游走的度量，被设计来捕捉网络中每对节点之间基于传播的拓扑相似性，因为它在预测蛋白质功能注释方面具有优越的性能。(参见例如，M.Cao等人)。

为了评价DSD是否反映了不同蛋白质之间下游转录作用的相似性，可以基于HI节点之间的DSD来分析针对四种复杂疾病(例如，阿尔茨海默病、溃疡性结肠炎、类风湿性关节炎和多发性硬化症)的批准药物的恢复。(参见本文其他地方描述的方法)。每种批准药物的靶标可能导致治疗给定疾病的相似治疗作用。因此，通过了解一种药物靶标及其到其他HI节点的DSD，可以有效地恢复批准的靶标。可以对每种批准的靶标和复杂疾病分别进行这种靶标恢复，以得出受试者操作特征(ROC)曲线，如图9所示。了解从批准的药物靶标到HI中的剩余节点的DSD可能足以恢复每种复杂疾病中已知的批准靶标的剩余部分。

然而，对治疗模块具有低DSD的节点可以与HI中相同大小的其他随机选择的模块具有相等距离。为了说明这一点，HI节点与治疗模块之间的功能相似性可以使用选择性来定量，例如，基于DSD的基于网络的测量，其考虑节点与给定网络模块之间DSD的统计显著性。(参见本文其他地方描述的方法)。

最后，可以基于所有HI节点与基因型模块的接近性和对治疗模块的选择性来对其进行排序，并且可以使用排序乘积来确定节点的最终组合排序。(参见本文其他地方描述的方法)。(参见例如，R.Breitling等人)。

模块三元组靶标优先化的计算机验证

为了测试所提出的靶标排序是否产生有意义的结果，从PharmaIntelligence^TMCiteline数据库中获得被批准用于UC治疗的药物靶标。(参见本文其他地方描述的方法)。所得的列表包括映射在HI上的23个靶标。与剩余HI节点相比，批准的靶标同时高度接近基因型模块，并对治疗模块具有选择性，如图10，分图(a)所示。虽然接近性和选择性单独有效地恢复已知的批准靶标，但两者的组合表现更好，从而表明这些网络测量对于靶标优先化的协同作用，如图10，分图(b)所示。除了所提出的用于靶标优先化的网络测量之外，还可以检查另一种基于网络和基因表达数据的组合的测量，即在恢复已知药物靶标方面显示高性能的局部辐射性。(参见例如，Z.Isik等人)。局部辐射性与本文所述的模块三元组优先化方法相似，因为它采用拓扑和基因表达数据来优先化靶标。主要区别在于，局部辐射性假设受靶标扰动影响的HI节点(下游节点)可以在靶标的网络附近。使用本文所述的方法，可以基于靶标相对于反映预定下游作用的应答模块节点的局部辐射性来对靶标进行优先化。(参见本文其他地方描述的方法)。局部辐射性也可以有效地恢复批准的UC靶标，尽管不如本文所述的模块三元组优先化方法有效。表5中报告了对应于所有测试方法的批准UC靶标恢复的敏感性，该表示出了在top-K蛋白中恢复的用于UC治疗的批准靶标的比例，通过选择性、接近性、组合接近性和选择性以及对应答模块的局部辐射性排序。

表5

最后，考虑作为UC治疗的药物(例如，在临床和临床前试验中进行测试)可以靶向与已经针对UC上市的靶标相比，基于接近性和选择性具有较低组合排序的节点。这是因为上市的靶标已经在临床阶段评估了其改善UC患者疾病活动性的能力，而尚未上市的靶标可能不一定对UC治疗有效。在临床试验(I、II、III期)或临床前研究中，可以比较已上市药物的靶标的组合排序分布，如图10，分图(c)所示。对应于已上市药物的靶标的中位组合排序更高，其次是临床试验中的药物，然后是临床前研究中的药物。

讨论

本文描述了一种基于网络的框架和方法，用于将蛋白质靶标优先化为使用UC作为示例性疾病的复杂疾病的新型疗法。模块三元组框架是首次尝试在网络水平下捕捉疾病的形成和成功治疗，假设复杂疾病形成和治疗背后的机制可以通过遗传易感性、转录变化和HI上药物的蛋白质靶标这三个网络模块之间的相互影响来捕捉。在本文所述的方法中，疾病表型的形成是由定位在被称为基因型模块的HI区中的基因集合中的遗传突变预先确定的。基因型模块内的这些基因改变表现为活动性UC患者的基因表达变化。通过追踪在TNFi疗法后实现低疾病活动性的患者中表达水平显著变化的基因，可以衍生出可以在转录上被改变以实现对治疗的积极应答的基因集合。这些基因占据被称为应答模块的HI的局部区域。

可以鉴定蛋白质靶向，其导致与成功TNFi疗法后所实现的相似的转录扰动谱。本文所述的方法可以通过扫描干扰人类细胞的小分子化合物的实验数据，并将化合物干扰之后的应答谱与成功治疗后实现的谱相匹配来完成这一点。实现基因表达的预定下游变化的化合物靶标的集合也占据HI中的局部区域，并被称为治疗模块。虽然所鉴定的与预定转录组下游作用相匹配的化合物可能看起来不同，如表6所示(这指示药物及其已知的作用机制映射到属于治疗模块的蛋白质靶标)，但它们的靶标属于HI的局部区域，反映了UC治疗背后的潜在基础生物学，并且表明与治疗模块节点在功能上相似的其他蛋白质靶标是有希望的UC治疗靶标。通过基于HI节点与基因型模块的接近性和对治疗模块的选择性对其进行排序，本文公开的方法可以对HI蛋白进行优先化，这些蛋白质同时在拓扑上与和UC表型形成相关联的基因相关，并且在功能上与被靶向时具有希望的治疗下游作用的蛋白质相似。

表6

用于定量靶标与基因型模块的拓扑相关性的接近性被证明提供了对各种药物和疾病的治疗作用的无偏差测量，并用于区分姑息治疗和有效治疗。(参见例如，E.Guney等人)。其靶标接近与疾病相关联的基因的药物比距离更远的药物更有可能有效。(参见例如，E.Guney等人)。本文所述的方法使用DSD作为用于测量由于干扰HI中的给定节点对而导致的下游作用之间的相似性的代替物。节点对之间的DSD是基于从这些节点开始的随机游走之间的相似性。随机游走者对每个节点的访问频率被成功地用于评估由与癌症相关的基因的基本突变(例如，单核苷酸变异和插入/缺失突变)引起的扰动模式。(参见例如，M.D.Leiserson等人,“Pan-cancer network analysis identifies combinations ofrare somatic mutations across pathways and protein complexes,”Nature genetics47,106(2015)，其出于所有目的通过引用并入本文)。从给定节点开始的随机游走的访问频率可以对应于此节点对网络的剩余部分施加的扰动量，并且下游扰动作用反映在从给定节点处开始的随机游走的访问频率的向量中。由于DSD测量随机游走的访问频率的向量之间的距离(参见本文其他地方描述的方法)，因此具有小DSD的节点对对应于具有相似下游扰动作用的节点。通过基于DSD恢复包括UC在内的4种复杂疾病的已知批准靶标，DSD确实反映了不同靶标的治疗作用之间的相似性。

本文公开的模块三元组框架和方法可以利用关于在TNFi疗法后实现低疾病活动性的活动性UC患者的治疗动力学的知识。然而，对TNFi疗法没有表现出足够应答的患者占患病群体的很大一部分，并且可能患有在潜在生物学方面不同或更严重地破坏正常细胞过程的UC亚型。(参见本文其他地方描述的“TNFi疗法的应答者和非应答者中差异表达基因的途径富集分析”)。(参见例如，P.Rutgeerts等人)。虽然使用本文所述的方法鉴定的新型靶标可能有助于找到适合TNFi非应答者的疗法，但可能仍需要研究对TNFi疗法应答不足背后的确切生物学。

本文所述的利用患者基因组和转录组数据的模块三元组框架和方法可以提供关于复杂疾病的形成和治疗动力学的基于整体网络的观点，并且可以提供用于新型靶标鉴定的无偏差方法。本文公开的方法可以推广到具有可用基因-疾病关联数据、治疗前后患者的转录组数据以及在适当细胞系中的扰动实验的任何复杂疾病。除了靶标优先化外，本文公开的方法还可以基于属于治疗模块的靶标来建议重新利用机会。通过考虑可用的扰动实验，诸如单基因过表达和敲低，包括关于药物对其靶标的激动剂或拮抗剂作用的信息，或通过考虑其毒性和可药用性进一步完善优先化靶标列表，可以增强模块三元组方法。

方法

人类相互作用组。实验推导的蛋白质-蛋白质相互作用的HI图是从公共数据库中汇编的。(参见例如，T.Mellors等人,“Clinical validation of a blood-basedpredictive test for stratification of response to tumor necrosis factorinhibitor therapies in rheumatoid arthritis patients,”Network and SystemsMedicine 3,91(2020)，其出于所有目的通过引用并入本文)。本文所用的HI是使用例如截至2021年3月的数据库版本汇编的。

UC基因型模块的构建。鉴定与UC相关联的基因，如通过以下指示：(1)GWAScatalog；(2)ClinVar数据库，特别是被指示为“致病性”、“可能致病性”以及对致病性具有“相互矛盾的解释”的基因；和(3)MalaCards数据库。(参见例如，A.Buniello等人；M.J.Landrum等人；N.Rappaport等人)基因是从例如截至2021年9月的数据库中收集的。可以保留在三个数据库中的至少一个数据库中提到的所有基因，并且可以过滤掉不属于HI网络的基因。剩余的基因可以用于构建子网络并提取其最大连接组件(LCC)。

LCC大小的显著性可以通过在原始子网络中随机采样具有度序列的子网络来评估。通过重复采样10,000个子网络，可以发现随机采样子网络的LCC大小及其平均值μ_LCC和标准偏差σ_LCC的经验分布。本文公开的方法将LCC Z分数定义为：

其中S_LCC是原始子网络的LCC大小。本文公开的方法还将观察到的S_LCC的经验p值定义为其LCC大小超过S_LCC的随机采样子网络的分数。

活动性UC病例和正常对照的基因表达数据处理。从基因表达综合数据库(GeneExpression Omnibus，GEO)的正常对照和中度至重度活动性UC患者中收集组织黏膜样品，如表4所示。(参见例如，T.Barrett等人,“NCBI GEO:archive for functional genomicsdata sets—update,”Nucleic acids research 41,D991(2012)，其出于所有目的通过引用并入本文)。三项研究报告了患者治疗之后的应答状态，其中应答通过内窥镜和组织学检查或Mayo分数来确定。关于应答定义(例如具有指定UC患者应答标签的群组中TNFi应答的定义)的详细信息参见表7。本文公开的方法在每个研究中从例如数据库中获得归一化数据。(参见例如，T.Hruz等人,“Genevestigator v3:a referenceexpression database for the meta-analysis of transcriptomes,”Advances inbioinformatics 2008(2008)，其出于所有目的通过引用并入本文)。

表7

本文公开的方法可以将来自6项英夫利昔单抗研究的表达数据整合在一起。使用统计方法校正不同研究之间的批次效应。(参见例如，J.T.Leek等人,“sva:Surrogate Variable Analysis R package version 3.10.0,”DOI 10,B9(2014)，其出于所有目的通过引用并入本文)。一些研究包括基线样品和随访时收集的样品。为了避免低估通过纵向相关样品分析引入的方差，本文公开的方法可以将统计方法应用于基线样品，以推导个体研究的校正因子，将应答和健康状况视为协变量。在基线和随访样品上实施校正因子。

聚类和差异基因表达分析。为了降低基因表达数据的维度，本文公开的方法可以选择在正常对照与UC活动性样品之间显著差异表达的基因签名的子集。可以提取具有FC>2.5的倍数变化(FC)和p_adj.<0.05的调整p值(Benjamini-Hochberg校正)的基因。(参见例如，Y.Benjamini等人,“Controlling the false discovery rate:a practical andpowerful approach to multiple testing,”Journal of the Royal statisticalsociety:series B(Methodological)57,289(1995)，其出于所有目的通过引用并入本文)。对于聚类分析，本文公开的方法可以使用UMAP将所鉴定的差异表达基因的基因表达载体嵌入8维空间中。(参见例如，L.McInnes等人)。

当比较活动性UC患者治疗前后的基因表达谱时，可以使用FC>1.8和p_adj.<0.05阈值来鉴定差异表达的基因。具有负对数倍数变化的差异表达基因被认为是显著下调的，而具有正对数倍数变化的基因被认为是显著上调的。有关差异表达基因的配对分析的更多详细信息，参见本文其他地方描述的“TNFi疗法的应答者和非应答者的差异基因表达分析”。

UC应答模块的构建。为了鉴定指示对TNFi疗法的应答的基因，本文公开的方法可以提取在英夫利昔单抗和戈利木单抗的应答者中显著差异表达的基因，从而比较它们在治疗前后的基因表达谱，如上所述。两个RBA基因集可以从基于英夫利昔单抗和戈利木单抗的研究中获得(参见“TNFi疗法的应答者和非应答者的差异基因表达分析”，在本文其他地方描述)，并且这两个集合的并集可以用于解释可能的药物特异性基因表达变化。可以构建基于所获得的合并的RBA基因集和HI的子网络。可以将所得的子网络的LCC鉴定为UC应答模块，并且可以评估其大小类似于基因型模块的显著性。

LINCS L1000扰动谱的分析。本文公开的方法可以评估使用各种化合物和使用加权连接性分数(WTCS)分为上调和下调子集的属于应答模块的基因扰动HT29细胞后的差异基因表达谱之间的一致性。(参见例如，A.Subramanian等人,“A next generationconnectivity map:L1000 platform and the first 1,000,000profiles,”Cell 171,1437(2017)，其出于所有目的通过引用并入本文)。WTCS测量具有给定对的上调和下调基因集的基因排序列表的富集分数ES，在此被称为上调和下调查询。(参见例如，A.Subramanian等人,“Gene set enrichment analysis:a knowledge-based approach forinterpreting genome-wide expression profiles,”Proceedings of the NationalAcademy of Sciences102,15545(2005)，其出于所有目的通过引用并入本文，其出于所有目的通过引用并入本文)。WTCS将用于上调查询(ES_上)和下调查询(ES_下)的ES合并成单个分数。正WTCS指示扰动导致与应答模块查询集一致的基因表达变化，例如，上调查询基因在给定扰动中也主要上调，而下调查询基因在给定扰动中主要下调。相反，负WTCS指示在给定实验中下调查询基因是上调的，而上调查询基因是下调的。由于我们对恢复应答模块基因的表达模式感兴趣，我们寻找具有负WTCS的实验。以下是用于计算此分数和评估其统计显著性的程序的简要概述。

LINCS L1000 5级数据存储了在基因特异性Z分数方面的差异基因表达谱，其指示相对于对照的基因表达水平的变化。较大的正Z分数指示基因在扰动后显著上调，而较大的负Z分数指示基因在扰动后显著下调。以高保真度推断其差异表达模式的基因属于最佳推断基因(BING)集合，并且用于WTCS计算。(参见例如，A.Subramanian等人,“A nextgeneration connectivity map:L1000 platform and the first1,000,000profiles,”Cell 171,1437(2017)，其出于所有目的通过引用并入本文)。在应答模块中观察到的也是BING集合的一部分的上调和下调基因在此分别表示为s_上和s_下。对于每个集合，本文公开的方法可以计算富集分数(ES_上和ES_下)，并且WTCS是这两个分数的组合：

为了评估富集分数的显著性，可以从BING基因中均匀地采样大小基因集|s_上|，|s_下|。通过重复采样程序1,000次，可以获得来自随机样品的上调富集和下调富集分数的经验分布ρ_上(ES)，ρ_下(ES)。可以将获得的分布与观察到的ES_上和ES_下进行比较：如果观察到的ES_上为正，则选择具有更大或相等富集分数的随机样品的分数作为p值p_上，并且如果为负，则选择具有更小或相等富集分数的随机样品的分数作为p值p_上。以相似的方式计算p_下。可以针对每个扰动实验获得WTCS、p_上和p_下，并使用它们来过滤相关的扰动。

UC治疗模块的构建。使用LINCS L1000数据，本文公开的方法可以鉴定能够恢复在应答模块节点中观察到的表达模式的化合物。可以使用以上所述的WTCS<0和p_上<0.05、p_下<0.05过滤器提取相关实验。使用DrugBank和Repurposing Hub数据库鉴定过滤之后保留的化合物的蛋白质靶标。然后，我们将所得的蛋白质靶标集合映射在HI上，并且在此基础上构建子网络，类似于构建应答和基因型模块。治疗模块是此子网络的LCC。

扩散状态距离。扩散状态距离(DSD)是在网络节点上定义的度量，最初被设计来预测蛋白质在蛋白质相互作用网络中的功能。(参见例如，M.Cao等人)当随机游走者从两个不同的节点开始时，DSD捕捉网络的最终状态之间的相似性。为了定义DSD，我们首先定义He(v_i,v_j)-从节点v_i开始并进行k次操作的随机游走(RW)可能在节点v_j结束的预期次数。接下来，对于节点v_i，我们定义向量

He(v_i)＝{He(v_i,v₁),...,He(v_i,v_n)}。

然后将节点v_i与v_j之间的DSD定义为

DSD(v_i,v_j)＝||He(v_i)-He(v_j)||₁，

其中||...||₁代表L₁范数。对于任何固定的k，DSD是一个度量，它收敛为k→∞。(参见例如，M.Cao等人)。

作为靶向蛋白之间的治疗相似性的测量的DSD。为了定量DSD作为蛋白质之间的治疗作用相似性的测量的相关性，可以通过以下方式分析复杂疾病及其批准靶标的集合：对于给定疾病的每个已知批准靶标，计算该靶标与HI中剩余节点之间的DSD；基于到已知靶标的DSD对剩余节点进行排序，并且基于此排序，构建对应于给定疾病的剩余批准靶标的恢复的受试者操作特征(ROC)曲线。通过对所有已知的批准靶标进行迭代，获得每种复杂疾病的单个ROC曲线的集合。插值可以用于对单个曲线求平均值，并获得平均ROC曲线，并且计算曲线下的面积，在知道单个批准靶标及其到剩余网络节点的DSD的情况下，定量找到批准靶标的可能性。

与UC基因型模块的接近性。计算节点与基因型模块的接近性包括：计算从给定节点到基因型模块的节点的平均最短路径长度通过将到基因型模块的平均最短路径长度与到相同大小的随机化网络模块的平均最短路径距离进行比较来评估节点与基因型模块的接近性的统计显著性。具体地，本文公开的方法对与基因型模块大小相同的连接模块进行500次采样(采样细节参见下文)，并构建到随机化模块的平均最短路径距离的经验分布，其中μ_p是平均值，并且σ_p是此分布的标准偏差。最后，节点的接近性被定义为相对于此分布从节点到基因型模块的平均最短路径距离的Z分数：

对UC治疗模块的选择性。计算节点对治疗模块的选择性与接近性的计算相似，包括：计算节点相对于治疗模块的节点的平均DSD类似于接近性计算，通过对500个与治疗模块大小相同的随机化网络模块进行采样来评估观察到的DSD的统计显著性。然而，我们计算节点到每个随机化模块的平均DSD，而不是平均最短路径距离，并构建到随机化模块的平均DSD的经验分布，其中μ_s是此分布的平均值，并且σ_s是此分布的标准偏差。我们将选择性定义为：

网络模块随机化。接近性和选择性计算均可能需要对HI上的随机化模块进行采样。由于通过构建，基因型模块和治疗模块均是连接的子网络，因此从固定HI网络统一采样连接的子网络可以避免平均最短路径长度或DSD相对于子网络连接性的任何可能偏差。相邻蓄水池采样(Neighbor Reservoir Sampling，NRS)算法可以用于对连接的固定大小子网络进行统一采样。(参见例如，X.Lu等人,“International Conference on Scientific andStatistical Database Management,”Springer,(2012)第195-212页，其出于所有目的通过引用并入本文)。

基于接近性和选择性的节点排序。给定基因型模块和治疗模块，我们计算HI中所有节点的接近性和选择性分数，并分别推导出它们对应的排序r_p和r_s。为了获得每个节点的单个组合排序r，我们使用如下定义的排序乘积：

相对于应答模块的局部辐射性。节点i相对于应答模块的局部辐射性可以使用以下等式来确定：

其中RM是应答模块节点的集合，G是人类相互作用组网络，spl(i,g,G)是测量从节点i到节点g的最短路径长度的函数。

UC批准靶标。为了验证所提出的靶标优先化框架，可以通过检索截至2022年2月的所有针对UC已上市或正在开发的药物列表，例如使用PharmaIntelligence^TM Citeline数据库，来编译被批准用于UC治疗的靶标列表。所有针对UC上市的药物都被视为已批准的药物。另外，还考虑在临床试验(I、II和III期)和临床前试验中对UC进行测试的药物，以将其组合排序与批准药物的组合排序进行比较。对于每种药物，例如从PharmaIntelligence^TMCiteline数据库、Repurposing Hub数据库和DrugBank数据库中提取其已知靶标。由于一个靶标可能被映射到几种药物，因此基于其被映射到的药物的状态将达到的最高状态分配给靶标。例如，如果一个靶标被映射到两种药物，其中一种处于II期临床试验，并且另一种处于临床前试验，则将此靶标标记为临床试验靶标。此外，为了避免因高度药物杂泛性而可能具有许多脱靶的药物，过滤掉具有超过4个靶标的两种药物(柳氮磺吡啶和美沙拉嗪(mesalazine))，如图13所示。(参见例如，V.J.Haupt等人,“Drug promiscuity in PDB:protein binding site similarity is key,”PLoS one 8,e65894(2013)，其出于所有目的通过引用并入本文)。除了这两种药物外，所有其他针对UC治疗正在开发的药物同时具有4个或更少的靶标。另外，由于UC的适应症不明确，过滤掉替可克肽(tetracosactide)。

模块三元组的进一步描述

TNFi疗法的应答者和非应答者的差异基因表达分析。为了评估TNFi疗法的应答者和非应答者是否可以在治疗之前基于基因表达谱进行分层，本文公开的方法可以使用其完整基因表达谱来进行差异基因表达分析。在FC＝1.8的倍数变化(FC)和p<0.05的调整p值(Benjamini-Hochberg校正)的情况下可能没有发现显著差异。因此，治疗之前应答者与非应答者之间可能不存在明显差异，无论是在UMAP嵌入空间中，还是在实际的完整基因表达谱空间中。

受治疗之前UC活动性患者的基因表达谱不足以区分应答者和非应答者这一事实的启发，本文公开的方法可以将正常组织对照视为比较参考，以推导出应答者与非应答者之间基因表达谱的更明显差异。通过比较不同的患者组和正常对照组，可以构建以下四个差异表达基因集(关于这些集合的说明，参见图11)：

1.之前-之后应答者集(RBA)：治疗之前与之后之间应答者的差异表达基因；

2.之前-之后非应答者集(NRBA)：治疗之前与之后之间非应答者的差异表达基因；

3.应答者集(R)：基线应答者与正常对照之间的差异表达基因；

4.非应答者集(NR)：基线非应答者与正常对照之间的差异表达基因。

在基于英夫利昔单抗和戈利木单抗的研究中，分别测量这些配对状态中的每一种。

非应答者在治疗后可能没有显示出基因表达谱的显著变化，因此NRBA可能不含任何显著差异表达的基因。R、NR和RBA集高度一致，并且对于英夫利昔单抗和戈利木单抗研究两者而言，可以具有显著交集大小，如图11，分图(b)所示。分别在英夫利昔单抗和戈利木单抗研究中，对于NR与R集之间的交集，成对超几何分布检验产生p＝9·10^-910和5·10^-1249，对于NR与RBA集之间的交集产生p＝4·10^-64和8·10^-91，并且对于R与RBA集之间的交集产生p＝2·10^-226和1·10^-103。

此外，相对于正常对照，大多数RBA基因在基线应答者样品中差异表达，从而指示用TNFi进行治疗可以导致R基因的小子集的表达逆转。相反，尽管NR集内含有显著部分的RBA基因，但在用TNFi治疗之后，这些基因在非应答者中没有显著改变。

RBA基因集几乎完全由R和NR集内所含的基因构成。此外，如图8所示的UMAP图所示，治疗之后应答者的基因表达谱更接近正常对照的基因表达谱，而治疗之后非应答者保持接近其在UMAP空间中的初始治疗前位置。这表明，为了在应答者中实现低疾病活动性，TNFi治疗可能足以恢复构成RBA集的差异表达基因子集的表达谱。

TNFi疗法的应答者和非应答者中差异表达基因的途径富集分析。为了更好地理解无应答的潜在分子机制，本文公开的方法可以对R和NR集进行途径富集分析。对于每种KEGG途径，可以确定作为R和NR基因集的一部分的节点的比例，如图12所示。(参见例如，M.Kanehisa等人,“KEGG:kyoto encyclopedia of genes and genomes,”Nucleic acidsresearch 28,27(2000)，其出于所有目的通过引用并入本文)。在282个包括来自R和NR集的至少一个基因的KEGG途径中，40个途径显著富集NR基因(例如，超几何分布检验，p<0.05)。这些途径中的大多数基因是NR和R集共有的。为了鉴定更富含NR排他性基因的途径，本文公开的方法可以基于随机采样进行统计测试，以评估这些途径内NR排他性基因与R排他性基因数量之间的差异的显著性。在40个途径中，28个途径具有比保留的R排他性基因显著更多的NR排他性基因(p<0.05)，如图12，分图(c)所示。与UC相关的途径，诸如“炎症性肠病”、“TNF信号传导途径”、“IgA产生的肠道免疫网络”、“类风湿性关节炎”、“细胞黏附分子”或“IL-17信号传导途径”，在非应答者中显著更多地被破坏。这一观察结果得到了另一种途径富集分析的支持。(参见例如，M.V.Kuleshov等人,“Enrichr:a comprehensive gene setenrichment analysis web server 2016update,”Nucleic acids research 44,W90(2016)，其出于所有目的通过引用并入本文)。在R与NR基因集之间可能存在几乎相同的富集生物途径列表；然而，单个途径往往具有更多数量的基因，NR基因集的p值和q值。在这些途径中，非应答者特有的差异表达基因可以包括参与细胞因子信号传导(例如，IL6、OSM、IL1A、IL1R1、IL11、CXCL8/IL8或IL21R)、受体介导(例如，toll样受体、TLR1、TLR2或TLR8)和信号转导(例如，Src样激酶：HCK或FYN)的基因。

UC相关的KEGG途径比应答者更富含NR排他性基因，如图12，分图(c)所示。这包括其他炎性病况，例如像类风湿性关节炎和糖尿病，并且可能代表这些病况常见的一般免疫系统功能障碍。据估计，25％-35％的自身免疫性疾病患者可能发展一种或多种额外的自身免疫性病症。(参见例如，M.Cojocaru等人,“Multiple autoimmune syndrome,”Maedica 5,132(2010)；J.-M.Anaya等人,“The autoimmune tautology:from polyautoimmunity andfamilial autoimmunity to the autoimmune genes,”Autoimmune diseases 2012(2012)，其出于所有目的通过引用并入本文)。其他富集途径突出显示了肠道微生物组在溃疡性结肠炎中的作用。IgA产生的肠道免疫网络中注释的基因在非应答者中富集。IgA抗体是主要的分泌免疫球蛋白，并且在炎性肠病患者中，促炎细菌类群可能比在健康对照中更显著地被IgA包裹。(参见例如，J.M.Shapiro等人,“Immunoglobulin A targets a uniquesubset of the microbiota in inflammatory bowel disease,”Cell Host&Microbe 29,83(2021)，其出于所有目的通过引用并入本文)。具体地，金黄色葡萄球菌(Staphylococcusaureus)感染是一种富集细菌KEGG途径。革兰氏阳性细菌(诸如金黄色葡萄球菌)诱导从巨噬细胞中分泌TNF-α，并且TNF-α增强中性粒细胞介导的细菌杀伤。(参见例如，K.P.vanKessel等人,“Neutrophil-mediated phagocytosis of Staphylococcus aureus,”Frontiers in immunology 5,467(2014)，其出于所有目的通过引用并入本文)。TNF-α的扰动影响免疫系统控制金黄色葡萄球菌感染的能力，从而导致TNFi治疗之后的感染风险升高。(参见例如，S.Bassetti等人,“Staphylococcus aureus in patients withrheumatoid arthritis under conventional and anti-tumor necrosis factor-alphatreatment,”The Journal of rheumatology 32,2125(2005)，其出于所有目的通过引用并入本文)。正如通过TLR和NOD样信号传导KEGG途径突出显示的那样，先天免疫在维持肠道稳态中发挥着重要作用。TLR模式识别受体检测微生物的保守结构，包括肠道微生物群的结构，并在激活后诱导炎性信号传导途径并调节产生抗体的B细胞应答。(参见例如，L.A.O’neill等人,“The history of Toll-like receptors-redefining innate immunity,”Nature Reviews Immunology 13,453(2013)；Z.Hua等人,“TLR signaling in B-celldevelopment and activation,”Cellular&molecular immunology 10,103(2013)，其出于所有目的通过引用并入本文)。相对于静止期UC或健康对照样品，TLR2、4、8和9在活动性UC患者的结肠黏膜中上调。(参见例如，F Sánchez-等人,“Transcript levels ofToll-Like Receptors 5,8and 9correlate with inflammatory activity inUlcerative Colitis,”BMC gastroenterology 11,1(2011)，其出于所有目的通过引用并入本文)。细胞因子信号传导，包括TNF-α和IL-17途径，在非应答者中富集。除了是一种能放大TNF-α和IL-16信号传导的强效促炎细胞因子之外，IL-17信号传导还能诱导基因募集和激活中性粒细胞，并促进上皮屏障基因的表达。(参见例如，T.Kinugasa等人,“Claudinsregulate the intestinal barrier in response to immune mediators,”Gastroenterology 118,1001(2000)；K.Maloy等人,“IL-23and Th17 cytokines inintestinal homeostasis,”Mucosal immunology1,339(2008)，其出于所有目的通过引用并入本文)。通过细胞黏附分子和流体剪切应力KEGG途径中基因的富集，突出显示了非应答者得结肠上皮屏障完整性的额外破坏。屏障完整性的丧失增加了营养物质、水、细菌毒素和病原体穿过上皮屏障的渗透性。(参见例如，S.C.Bischoff等人,“Intestinalpermeability-a new target for disease prevention and therapy,”BMCgastroenterology 14,1(2014)，其出于所有目的通过引用并入本文)。总体而言，更显著富集的途径表明，UC疾病生物学，例如炎症、屏障完整性和微生物组失衡，在TNFi非应答者中更广泛地被破坏。

为了确定与应答者相比，非应答者的基因表达谱在各种途径方面是否更严重地失调，本文公开的方法可以对来自基因和基因组百科全书(Encyclopediaof Genes and Genomes，KEGG)数据库的信号传导途径进行富集分析。使用p_adj.<0.05(超几何分布检验，具有Benjamini-Hochberg校正)的显著性阈值来选择显著富集非应答者的差异表达基因的途径。每种选择的途径，都会鉴定仅来自R和NR基因集的基因。使用剩余基因上的R排他性和NR排他性标记的随机排列来计算这些R排他性和NR排他性基因的数量之间的差异，以评估其显著性。保留NR排他性基因与R排他性基因数量之间存在显著差异的途径(p_adj.<0.05，随机排列检验，具有Benjamini-Hochberg校正)。

应理解，虽然已经结合其具体实施方式描述了本公开，但前述描述旨在说明而不是限制权利要求的范围。其他方面、优点和修改在权利要求的范围内。

本书面描述使用示例来公开方法和系统，包括最佳模式，并且还使本领域的任何技术人员能够实践本实施方案，包括制造和使用任何装置或系统以及执行任何并入的方法。本实施方案的可专利范围由权利要求限定，并且可以包括本领域技术人员所能想到的其他示例。如果此类其他示例包括与权利要求的文字语言没有区别的结构元件，或者如果它们包括与权利要求的文字语言具有非实质区别的等效结构元件，则此类其他示例旨在处于权利要求的范围内。

Claims

1.一种确定或验证用于治疗患有疾病、病症或病况的对象的疗法的靶标的方法，所述方法包括：

接收对应于疾病基因表达签名的应答基因集，其中所述疾病基因表达签名包括一个或多个基因，当表达全部或部分被逆转时，所述一个或多个基因与非患病对象的基因表达类似；

接收一种或多种潜在疗法与多个基因表达之间的多种相互作用；

至少部分地基于所述多种相互作用，针对所述应答基因集中的每个应答基因生成改变所述应答基因的基因表达的一种或多种潜在疗法；

至少部分地基于所述应答基因集的改变的显著性来对所述一种或多种潜在疗法中的每一种进行评分，从而提供一种或多种候选疗法；

确定由所述一种或多种候选疗法直接调节的一个或多个潜在靶标；

选择与所述一个或多个潜在靶标共享显著相似性的一个或多个次要靶标；

编译包括所述一个或多个潜在靶标和所述一个或多个次要靶标的靶标集；以及

从所述靶标集中鉴定与所述应答基因集具有显著下游影响相似性的靶标，从而提供所述疗法靶标。

2.如权利要求1所述的方法，其还包括将所述一个或多个潜在靶标中的每一个映射到生物网络上，并且选择与所述生物网络上的所述一个或多个潜在靶标共享显著拓扑相似性的一个或多个次要靶标。

3.如权利要求2所述的方法，其中所述生物网络包括人类相互作用组。

4.如权利要求2所述的方法，其中经由鉴定与所述生物网络上的所述一个或多个潜在靶标接近的靶标来确定所述一个或多个次要靶标的显著拓扑相似性。

5.在一些实施方案中，所述疗法靶标由所述一种或多种候选疗法直接调节。

6.在一些实施方案中，所述疗法靶标与批准的用于所述疾病、病症或病况的疗法不相关。

7.在一些实施方案中，所述疗法靶标与不同于所述疾病、病症或病况的第二疾病相关联。

8.在一些实施方案中，所述疗法包括选自表1的成员。

9.在一些实施方案中，所述疗法包括基因敲除或基因过表达。

10.在一些实施方案中，所述疗法包括抗TNF疗法。

11.如权利要求10所述的方法，其中所述抗TNF疗法包括英夫利昔单抗、依那西普、阿达木单抗、聚乙二醇结合赛妥珠单抗、戈利木单抗或其生物类似物。

12.在一些实施方案中，所述一个或多个潜在靶标包括JAK1、JAK2、JAK3、IL23A、ITGA4、ITGB7、IL2RA、IL12A、IL12B、TNF、IL12RB1、IL23R、IL12RB2或MADCAM1。

13.在一些实施方案中，所述改变的显著性包括所述应答基因集的基因表达的显著变化。

14.在一些实施方案中，所述疾病、病症或病况包括自身免疫性疾病、病症或病况。

15.在一些实施方案中，所述疾病、病症或病况包括溃疡性结肠炎、克罗恩病、类风湿性关节炎、幼年型关节炎、银屑病关节炎、斑块型银屑病、强直性脊柱炎、格林-巴利综合征、干燥综合征、硬皮病、白癜风、双相障碍、格雷夫斯病、精神分裂症、阿尔茨海默病、多发性硬化症、帕金森病或其组合。

16.如权利要求15所述的方法，其中所述疾病、病症或病况包括溃疡性结肠炎。

17.如权利要求15所述的方法，其中所述疾病、病症或病况包括类风湿性关节炎。

18.如权利要求15所述的方法，其中所述疾病、病症或病况包括阿尔茨海默病。

19.如权利要求15所述的方法，其中所述疾病、病症或病况包括多发性硬化症。

20.在一些实施方案中，所述生物网络是人类蛋白质-蛋白质相互作用组。

21.一种治疗患有疾病、病症或病况的对象的方法，其中所述对象表现出与所述疾病、病症或病况相关联的疾病基因表达签名，所述方法包括向所述对象施用已确定将所述疾病基因表达签名恢复为非疾病基因表达签名的疗法，其中所述疗法至少部分地通过以下来确定：

接收对应于所述疾病基因表达签名的应答基因集，其中所述疾病基因表达签名包括一个或多个基因，当表达全部或部分被逆转时，所述一个或多个基因与非患病对象的基因表达类似；

编译包括所述一个或多个潜在靶标和所述一个或多个次要靶标的靶标集；

从所述疗法的靶标列表中选择与所述应答基因集具有显著下游影响相似性的靶标；以及

确定所述疗法直接调节所述靶标。

22.在一些实施方案中，所述疗法至少部分地通过以下来确定：进一步将所述一个或多个潜在靶标中的每一个映射到生物网络上，并且选择与所述生物网络上的所述一个或多个潜在靶标共享显著拓扑相似性的一个或多个次要靶标。

23.如权利要求22所述的方法，其中所述生物网络包括人类相互作用组。

24.如权利要求22所述的方法，其中经由鉴定与所述一个或多个潜在靶标接近的靶标来确定所述一个或多个次要靶标的显著拓扑相似性。

25.在一些实施方案中，所述疾病基因表达签名至少部分地通过以下来确定：

分析来自患有所述疾病、病症或病况的对象群组的基因表达数据；

至少部分地基于所述基因表达数据将所述对象群组分层为先前对象的两个或更多个组；以及

选择在所述先前对象的两个或更多个组与非患病对象组之间具有基因表达显著差异的一个或多个基因(“疾病候选基因”)，从而提供所述疾病基因表达签名。

26.在一些实施方案中，所述疗法靶标由所述一种或多种候选疗法直接调节。

27.在一些实施方案中，疗法靶标与批准的用于所述疾病、病症或病况的疗法不相关。

28.在一些实施方案中，所述疗法包括抗TNF疗法。

29.如权利要求28所述的方法，其中所述抗TNF疗法包括英夫利昔单抗、依那西普、阿达木单抗、聚乙二醇结合赛妥珠单抗、戈利木单抗或其生物类似物。

30.在一些实施方案中，所述疗法包括基因敲除或基因过表达。

31.在一些实施方案中，所述疗法包括选自表1的成员。

32.在一些实施方案中，所述一个或多个潜在靶标包括JAK1、JAK2、JAK3、IL23A、ITGA4、ITGB7、IL2RA、IL12A、IL12B、TNF、IL12RB1、IL23R、IL12RB2或MADCAM1。

33.在一些实施方案中，所述改变的显著性包括所述应答基因集的基因表达的显著变化。

34.在一些实施方案中，所述疾病、病症或病况包括自身免疫性疾病、病症或病况。

35.在一些实施方案中，所述疾病、病症或病况包括溃疡性结肠炎、克罗恩病、类风湿性关节炎、幼年型关节炎、银屑病关节炎、斑块型银屑病、强直性脊柱炎、格林-巴利综合征、干燥综合征、硬皮病、白癜风、双相障碍、格雷夫斯病、精神分裂症、阿尔茨海默病、多发性硬化症、帕金森病或其组合。

36.如权利要求35所述的方法，其中所述疾病、病症或病况包括溃疡性结肠炎。

37.如权利要求35所述的方法，其中所述疾病、病症或病况包括类风湿性关节炎。

38.如权利要求35所述的方法，其中所述疾病、病症或病况包括阿尔茨海默病。

39.如权利要求35所述的方法，其中所述疾病、病症或病况包括多发性硬化症。

40.如权利要求22所述的方法，其中所述生物网络是人类蛋白质-蛋白质相互作用组。

41.在一些实施方案中，对所述一种或多种潜在疗法中的每一种进行评分包括：

确定用所述一种或多种潜在疗法治疗之后所述应答基因集的表达水平相对于用所述一种或多种潜在疗法治疗之前所述应答基因集的表达水平的差异；以及

计算所述一种或多种潜在疗法中的每一种的p值。

42.在一些实施方案中，经由机器学习算法来鉴定所述潜在靶标。

43.如权利要求42所述的方法，其中所述机器学习算法包括随机游走。

44.如权利要求25所述的方法，其中将所述对象群组分层为先前对象的两个或更多个组是基于所述先前对象对特定疗法是否产生应答。

45.一种用于确定对象的个体化疗法的方法，所述方法包括：

接收或生成包括应答基因集的疾病基因表达签名；

接收或生成改变所述应答基因集的表达的一种或多种潜在疗法；

至少部分地基于所述应答基因集的改变的显著性来对所述一种或多种潜在疗法中的每一种进行排序，从而提供一种或多种候选疗法；

至少部分地基于与所述一个或多个潜在靶标的相似性的显著性来对一个或多个次要靶标进行排序；

从所述个体化疗法的所述靶标集中选择与所述应答基因集具有显著下游影响相似性的靶标；以及

确定所述个体化疗法直接调节所述靶标。

46.如权利要求45所述的方法，其还包括将所述一个或多个潜在靶标中的每一个映射到生物网络上，并且至少部分地基于与所述生物网络上的所述一个或多个潜在靶标的拓扑相似性的显著性来对一个或多个次要靶标进行排序。

47.如权利要求46所述的方法，其中所述生物网络包括人类相互作用组。

48.如权利要求45所述的方法，其中所述疾病基因表达签名至少部分地通过以下来确定：

49.一种系统，其包括：

计算装置的处理器；和

具有存储在其上的指令的存储器，其中所述指令在被所述处理器执行时致使所述处理器进行如权利要求1-48中任一项所述的方法。