[go: up one dir, main page]

CN111640468B - 一种基于复杂网络筛选疾病相关蛋白的方法 - Google Patents

一种基于复杂网络筛选疾病相关蛋白的方法 Download PDF

Info

Publication number
CN111640468B
CN111640468B CN202010418499.3A CN202010418499A CN111640468B CN 111640468 B CN111640468 B CN 111640468B CN 202010418499 A CN202010418499 A CN 202010418499A CN 111640468 B CN111640468 B CN 111640468B
Authority
CN
China
Prior art keywords
protein
disease
algorithm
protein interaction
proteins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010418499.3A
Other languages
English (en)
Other versions
CN111640468A (zh
Inventor
李旭
任静
王学敏
张文
闫凯境
王文佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianshili International Gene Network Drug Innovation Center Co ltd
Original Assignee
Tianshili International Gene Network Drug Innovation Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianshili International Gene Network Drug Innovation Center Co ltd filed Critical Tianshili International Gene Network Drug Innovation Center Co ltd
Priority to CN202010418499.3A priority Critical patent/CN111640468B/zh
Publication of CN111640468A publication Critical patent/CN111640468A/zh
Application granted granted Critical
Publication of CN111640468B publication Critical patent/CN111640468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于复杂网络筛选疾病相关蛋白的方法,本方法为:1)获取目标疾病相关的种子基因;2)基于蛋白‑蛋白相互作用数据库,构建以该种子基因为核心的蛋白相互作用网络;3)提取该蛋白相互作用网络中蛋白的特征数据;4)将蛋白的所述特征数据作为训练数据,采用机器学习算法训练得到PU分类器;5)根据所述PU分类器预测该蛋白相互作用网络中与该目标疾病有关的蛋白。本发明的方法能够快速高效鉴定出与疾病相关的蛋白,有助于生物医学专家进行实验验证或相关研究人员开展工作。

Description

一种基于复杂网络筛选疾病相关蛋白的方法
技术领域
本发明涉及蛋白筛选技术领域,具体涉及一种基于复杂网络筛选疾病相关蛋白的方法。
背景技术
疾病相关蛋白的识别在疾病的分子分型、诊断、治疗等方面发挥重要的作用。准确且高效的识别疾病相关蛋白有助于发现致病基因、鉴定药物的靶标,在疾病诊治和药物设计方面意义深远。GWAS作为探讨疾病易感基因的重要研究工具,能够快速发现较为显著的疾病易感位点。但GWAS对数据利用度不高,掩盖了大量可能具有显著性的疾病相关蛋白。同时,传统GWAS的单位点关联分析将机体内各个基因独立对待,忽略了生物体内基因间的相互作用,难以发现真正与疾病相关的蛋白。
蛋白-蛋白相互作用(PPI)网络分析弥补了上述不足。近年来,随着PPI数据的日益完善,使用计算机网络和图论的理论及方法,从系统的角度研究蛋白相互作用网络,成为热门领域。不少学者逐渐转向基于计算的蛋白识别研究,提出了许多经典的算法,如度中心性(Degree Centrality,DC)、介数中心性(Betweenness Centrality,BC)、接近度中心性(Closeness Centrality,CC)等等,然而这些算法的识别准确率普遍不高。因此,如何基于蛋白互作网络获得蛋白的特征表示,并用于寻找与已知疾病相关蛋白功能相似的蛋白,是蛋白网络分析的难点。
疾病相关蛋白的识别的另一难点在于,在以疾病种子基因为核心的蛋白相互作用网络中,有标签的疾病蛋白非常稀少,仅有种子基因为正样本,大量的无标签的蛋白与疾病的关系未知,即这些无标签的蛋白可能为与疾病相关的蛋白,也可能与疾病无关。通常,这些无标签的蛋白与疾病的相关性依赖于生物学实验或人工文献检索矫正,价格昂贵,耗时长。大数据和人工智能技术的飞速发展为疾病蛋白筛选提供了一条低成本、高效率的途径。通过机器学习技术预测出与疾病最相关的蛋白,从而对开发新药,临床治疗起到巨大的推动作用。然而,大量的无标签数据在机器学习过程中容易造成模型欠拟合或过拟合问题,导致模型不足以学习到整个样本空间中的信息或者模型范化能力不足。如何合理使用无标注数据构建模型,大大减轻对标注数据的需求,是亟待解决的技术难题。
发明内容
针对现有技术中的缺陷与不足,本发明的目的在于提供一种基于复杂网络筛选疾病相关蛋白的方法。本发明的方法能够快速高效鉴定出与疾病相关的蛋白,有助于生物医学专家进行实验验证或相关研究人员开展工作。
本发明提供了一种基于复杂网络筛选疾病相关蛋白的方法。通过全基因组关联分析(GWAS)发现与疾病相关的种子基因,并基于蛋白相互作用数据库(如Biogrid、String、Intact、HPRD数据库等)获得以种子基因为核心的蛋白互作网络,使用node2vec算法提取蛋白互作网络中蛋白的特征数据,利用半监督学习PU-learning算法预测与蛋白互作网络中与疾病有关的蛋白。具体步骤如下:
S1:采用病例-对照研究的方法,对目标疾病组人群和对照组人群进行全基因组扫描,全基因组关联分析(GWAS)获得该目标疾病相关的种子基因;
S2:基于蛋白-蛋白相互作用数据库,构建以该种子基因为核心的蛋白相互作用网络;
S3:基于node2vec算法提取该蛋白相互作用网络中蛋白的特征数据;
所述步骤S3具体包括:
S31:将S2获得的蛋白相互作用网络数据,构建无向图G,获得节点集(蛋白集)和边集(蛋白-蛋白相互作用关系集);
S32:利用node2vec方法将S2蛋白相互作用网络中的蛋白特征表示为d维向量,以表示蛋白之间的关系,进而研究网络中蛋白的内容相似性和结构相似性。
在机器学习的具体实践任务中,特征选择的功能是减少特征数量、降维,提高模型性能,使模型泛化能力更强,减少过拟合。选择一组具有代表性的特征用于构建模型是非常重要的问题。针对现有的特征学习方法不能够捕捉到复杂网络(蛋白相互作用网络)连接的多样性模式,本发明利用node2vec算法通过二阶马尔科夫链模拟偏向随机游走过程代替深度搜索(DFS)和广度搜索(BFS),搜索节点的一阶邻居和多阶同构邻居实现节点邻居采样的多样化。其采样策略原理如下:
给定当前顶点v,访问下一个顶点x的概率为:
Figure GDA0002864646090000021
其中πvx是顶点v和顶点x的转移概率,Z为归一化常数。Node2vec引入两个超参数p和q来控制随机游走策略,假设当前随机游走经过边(t,v)到达顶点v,令πvx=αpq(t,x)·wvx,wvx是顶点v和x之间的权重。则
Figure GDA0002864646090000031
其中dtx为顶点t和顶点x之间的最短路径距离。
S33:在S32中描述的二阶随机游走函数中,参数p控制重复访问刚刚访问过的顶点的概率,p越高,访问刚刚访问过的顶点的概率越低。参数q控制游走是向内还是向外,如果q>1,随机游走倾向访问和顶点t接近的顶点(偏向BFS);如果q<1,倾向访问远离顶点t的顶点(偏向DFS)。本发明使用node2vec方法将S2蛋白相互作用网络中的蛋白特征表示为d维向量过程中,p的较优范围为[2,5],q的较优范围为[0.1,3],维数d的较优范围为[128,256]。
S4:将S3获得的蛋白结构化特征数据作为输入,利用半监督算法PU-learning算法进行分析,实现蛋白相互作用网络中与目标疾病有关的蛋白的预测。
PU-learning是一种用于解决二分类问题的半监督学习方法,与传统的方法不同的是PU-learning方法可以处理正例样本数目较少且负样本缺失的情况,从而提高疾病相关蛋白的预测性能。PU-learning的训练集是由正例和无标记样本构成,具体的,在S3获得的蛋白相互作用网络中蛋白结构化特征数据中,仅有少数蛋白(种子基因)是已知与疾病相关的基因,为正例样本;与这些种子基因有相互作用关系的蛋白为无标记样本(可能与疾病相关,也可能与疾病无关)。
所述步骤S4具体包括:
S41:使用两步法建立PU分类器:第一步,从未标注样本中找到可靠负样本;第二步,用确定的正样本和可靠的负样本训练分类器。
S411:具体的,S41中第一步寻找可靠负样本使用Spy technique(间谍技术),从正例标注集P(与目标疾病相关的种子蛋白)中随机选取部分“间谍”样本(部分种子蛋白)S,并将其放置于无标签的数据集U(即与目标疾病关系无法确定的蛋白,为无标签的蛋白)中。将P-S看作正例集合(PS),U+S看作反例集合(US),运用朴素贝叶斯算法,训练得到NB分类器。通过NB分类器,对反例集合US中的每个蛋白k进行分类,即为每个蛋白k赋予一个概率列表标识Pr(1|k),其中1标识正例类别。间谍集合S的概率标识决定无标签的蛋白集合U中哪些最有可能与疾病无关。具体的,通过间谍集合S的概率标识,给定一个阈值H,将蛋白的概率标识Pr(1|k)<H的蛋白视为负样(与疾病无关的蛋白)。
S412:将步骤S411重复100-1000次,得到高频稳定的负样本(与疾病无关蛋白)集合RN。本发明通过对算法进行改进,多次实施步骤S411,每次都会得到负样,然后选取高频次出现的蛋白为负样蛋白,而不是一次试验的结果。比如某一蛋白在100次试验中,有100次均被选出为负样蛋白,认为该蛋白属于稳定负样集合RN。
S413:具体的,S41中第二步使用SVM算法。对正例样本P(已知与疾病有关蛋白)和S43得到的负样(与疾病无关蛋白)集合RN迭代运行学习算法SVM直到它收敛,或达到设定停止条件,得到PU分类器。
S42:使用上述S41获得的PU分类器,预测蛋白互作网络中每个蛋白是与疾病有关蛋白的概率,实现与疾病有关的蛋白的预测。
S5:本发明涉及对预测得到的蛋白的评价指标为:准确率、精准率、召回率、F1值。理想情况下,精准率和召回率两个指标都高最好,但一般情况下,精准率高,召回率就低;召回率高,精准率就低。选择保证精准率的条件下,提升召回率。
S51:准确率大体上评价了模型的准确情况,公式为,
Figure GDA0002864646090000041
S52:精准率表明了分类器检测某蛋白为疾病相关蛋白的准确性,公式为,
Figure GDA0002864646090000042
S53:召回率表明了分类器能否把所有的目标都检测出来,公式为,
Figure GDA0002864646090000043
Figure GDA0002864646090000044
S54:F1值是精确率和召回率的调和均值,即
Figure GDA0002864646090000045
相当于精确率和召回率的综合评价指标。
本发明的技术效果是:
(1)本发明使用node2vec算法提取蛋白互作网络中蛋白的特征结构,与传统拓扑性质相比,可以提高蛋白互作网络中蛋白识别的准确率。
(2)本发明组合使用了node2vec算法和PU-learning算法,降低生物学实验或人工识别疾病相关蛋白的工作量,同时提高精度,尽可能达到自动分类的效果。
附图说明
图1为本发明实施例提供的一种基于复杂网络筛选疾病相关蛋白的方法流程示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步的详细说明。
实施例一:冠心病
该实施例展示发明技术效果1,使用node2vec算法提取蛋白互作网络中蛋白的特征结构,与传统拓扑性质相比,可以提高蛋白互作网络中蛋白识别的准确率。在本例S5部分,应用“node2vec算法和PU-learning算法”组合算法,获得958个冠心病有关蛋白,准确率(92.35%)、召回率(56.89%);而使用“拓扑性质算法和PU-learning算法”算法组合,获得8348个与冠心病相关的蛋白,准确率(32.93%)、召回率(10.66%)。
如图1所示,本发明实施例提供一种基于复杂网络筛选疾病相关蛋白的方法,该方法包括:
S1:采用病例-对照研究的方法,对某种疾病组(冠心病)人群和对照组人群进行全基因组扫描,全基因组关联分析(GWAS)获得疾病(冠心病)相关种子基因409个(集合P);
S2:基于蛋白-蛋白相互作用数据库(Biogrid,版本为3.5.169,网址为https://thebiogrid.org/),构建疾病(冠心病)种子基因为核心的蛋白相互作用网络,该网络由11303个蛋白,44194个蛋白-蛋白相互作用关系组成;
S3:基于node2vec算法提取S2蛋白相互作用网络中11303个蛋白的特征数据;实施过程中,设置随机游走参数walk_length=80,num_walks=50,window=10,min_count=1,batch_words=4,超参数p=3,q=3,所提取的蛋白特征数据维度为128。
S4:将S3获得的蛋白结构化特征数据作为输入,利用半监督算法PU-learning算法进行分析,实现蛋白互作网络中与疾病有关的蛋白的预测。具体的,使用Spy技术随机选取15%已知与冠心病有关的蛋白作为“间谍”样本集合S,生成正例集合(PS=P-S)和反例集合(US=U+S),运用朴素贝叶斯算法,得到NB分类器并对反例集合US中的每个蛋白k进行分类,即为每个蛋白赋予一个概率列表标识Pr(1|k),间谍集合S的概率标识决定无标签的蛋白U种哪些最有可能与疾病无关。具体的,通过间谍集合S的概率标识,给定一个阈值H(间谍集合S概率的10分位值),将蛋白的概率标识Pr(1|k)<H的蛋白视为负样(与疾病无关的蛋白)。重复上述步骤100次得到高频负样集合RN(含有蛋白9455个)。在正例样本(409个已知与冠心病有关蛋白)和得到的负样RN(与疾病无关蛋白)集合运行SVM算法,并预测蛋白互作网络中每个蛋白是与疾病有关蛋白的概率,共获得958个可能与冠心病有关的蛋白。
S5:评价部分:选用文献检索并人工矫正获得与冠心病有关的基因(共997个)为金标准,评价S4获得的958个冠心病有关蛋白的准确率(92.35%)、精准率(54.66%)、召回率(56.89%)、F1值(55.75%)。使用6个拓扑性质(绝对点中心度degree、接近中心度closenness、点的特征向量中心度evcent、点的中心度betweenness、平均最短路径averagedistance、Pagerank得分)作为蛋白的特征值,使用PU-learning算法预测得到8348个与冠心病相关的蛋白,其准确率(32.93%)、精准率(89.47%)、召回率(10.66%)、F1值(19.05%)。结果表明,本发明使用node2vec算法提取蛋白互作网络中蛋白的特征结构,与传统拓扑性质相比,可以提高蛋白互作网络中蛋白识别的准确度。
实施例二:缺血性心肌病
该实施例为了保护方法node2vec的参数范围,维数d,选择维度128-256维,能够得到更加稳定的蛋白互作网络解析结果。而选择维度为64时,得到的稳定负样集合RN结果较少,选择512维时,数据模型在验证集上灵敏度大幅度降低。
S1:基于GWAS catalog、IPA、DisGeNET等数据库获得缺血性心肌病相关种子基因270个(集合P);
S2:基于蛋白-蛋白相互作用数据库(BIOGRID、HPRD、INTACT、STRING蛋白互作数据库),构建缺血性心肌病种子基因为核心的蛋白相互作用网络,该网络由9329个蛋白,30274个蛋白-蛋白相互作用关系组成;S1中的270个种子基因在蛋白互作数据库中识别263个,7个蛋白未识别。
S3:基于node2vec算法提取S2蛋白相互作用网络中9329个蛋白的特征数据;实施过程中,设置随机游走参数walk_length=80,num_walks=50,window=10,min_count=1,batch_words=4,所提取的蛋白特征数据维度d分别为64维、128维、256维、512维。
S4:将S3获得的蛋白结构化特征数据作为输入,利用半监督算法PU-learning算法进行分析,实现蛋白互作网络中与疾病有关的蛋白的预测。具体的,使用Spy技术随机选取15%已知与缺血性心肌病有关的蛋白作为“间谍”样本集合S,生成正例集合(PS=P-S)和反例集合(US=U+S),运用朴素贝叶斯算法,得到NB分类器并对反例集合US中的每个蛋白k进行分类,即为每个蛋白赋予一个概率列表标识Pr(1|k),间谍集合S的概率标识决定无标签的蛋白U种哪些最有可能与疾病无关。具体的,通过间谍集合S的概率标识,给定一个阈值H(间谍集合S概率的10分位值),将蛋白的概率标识Pr(1|k)<H的蛋白视为负样(与疾病无关的蛋白)。重复上述步骤1000次得到高频负样集合RN。对正例样本和得到的负样RN集合运行SVM算法,并预测蛋白互作网络中每个蛋白是与疾病有关蛋白的概率。结果如下:
Figure GDA0002864646090000061
选择维度128-256维,能够得到更加稳定的蛋白互作网络解析结果。而选择维度为64时,得到的稳定负样集合RN结果较少,选择512维时,数据模型在验证集上灵敏度降低至0.6735。
实施例三:房颤
该实施例为了保护方法node2vec的参数范围,p的较优范围为[2,5],q的较优范围为[0.1,3]。
S1:基于GWAS catalog、Malacards、DisGeNET等数据库获得房颤相关种子基因141个(集合P);
S2:基于蛋白-蛋白相互作用数据库(BIOGRID、HPRD、INTACT、STRING蛋白互作数据库),构建房颤种子基因为核心的蛋白相互作用网络,该网络由5745个蛋白,13606个蛋白-蛋白相互作用关系组成;S1中的141个种子基因在蛋白互作数据库中识别131个,10个蛋白未识别。
S3:基于node2vec算法提取S2蛋白相互作用网络中9329个蛋白的特征数据;实施过程中,设置随机游走参数walk_length=80,num_walks=50,window=10,min_count=1,batch_words=4,选取p值分别为0.1、0.2、0.5、1、2、3、4、5,选取q值分别为0.1、0.2、0.5、1、2、3、4、5,提取的蛋白特征数据维度分别为128维。
S4:将S3获得的蛋白结构化特征数据作为输入,利用半监督算法PU-learning算法进行分析,实现蛋白互作网络中与疾病有关的蛋白的预测。具体的,使用Spy技术随机选取15%已知与房颤有关的蛋白作为“间谍”样本集合S,生成正例集合(PS=P-S)和反例集合(US=U+S),运用朴素贝叶斯算法,得到NB分类器并对反例集合US中的每个蛋白k进行分类,即为每个蛋白赋予一个概率列表标识Pr(1|k),间谍集合S的概率标识决定无标签的蛋白U种哪些最有可能与疾病无关。具体的,通过间谍集合S的概率标识,给定一个阈值H(间谍集合S概率的10分位值),将蛋白的概率标识Pr(1|k)<H的蛋白视为负样(与疾病无关的蛋白)。重复上述步骤100次得到高频负样集合RN。对正例样本和得到的负样RN集合运行SVM算法,并预测蛋白互作网络中每个蛋白是与疾病有关蛋白的概率。结果如下:
Figure GDA0002864646090000071
在选择超参数p=2,q=1时,模型最优,准确率最高为0.9994。
上述对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。

Claims (9)

1.一种基于复杂网络筛选疾病相关蛋白的方法,其步骤包括:
1)获取目标疾病相关的种子基因;
2)基于蛋白-蛋白相互作用数据库,构建以该种子基因为核心的蛋白相互作用网络;
3)利用node2vec算法提取该蛋白相互作用网络中蛋白的特征数据;
4)将蛋白的所述特征数据作为训练数据,采用半监督算法PU-learning训练得到PU分类器;
5)根据所述PU分类器预测该蛋白相互作用网络中与该目标疾病有关的蛋白。
2.如权利要求1所述的方法,其特征在于,利用node2vec算法提取该蛋白相互作用网络中蛋白的特征数据,其方法为:
31)基于蛋白相互作用网络数据构建无向图G,获得节点集和边集;其中节点集中的每一节点对应一蛋白,边集中的边代表蛋白与蛋白之间相互作用关系;
32)利用node2vec算法对该无向图G进行图嵌入,得到蛋白相互作用网络中的蛋白特征。
3.如权利要求2所述的方法,其特征在于,所述node2vec算法通过两个超参数p和q控制概率反复经过节点;其中超参数p的取值范围为[2,5],超参数q的取值范围为[0.1,3]。
4.如权利要求3所述的方法,其特征在于,将所述蛋白特征表示为d维向量,维数d的取值范围为[128,256]。
5.如权利要求1所述的方法,其特征在于,采用半监督算法PU-learning训练得到PU分类器的方法为:
41)从正例标注集P中随机选取部分“间谍”样本得到一集合S,并将集合S放置于无标签的数据集U中;将P-S作为正例集合PS,U+S作为反例集合US,训练得到NB分类器对反例集合US中的每个蛋白样本进行分类;其中,正例标注集P为与目标疾病相关的种子蛋白集合,数据集U中的蛋白为与目标疾病无法确定相关性的蛋白;
42)重复步骤41),将满足设定要求的负样本作为高频稳定的负样本,构成一负样本集合RN;
43)对正例样本P和负样本集合RN迭代运行学习算法SVM,直到SVM收敛或达到设定停止条件,得到PU分类器。
6.如权利要求5所述的方法,其特征在于,将同一样本被分类为负样本的次数占重复总次数的比例超过设定阈值的样本作为高频稳定的负样本。
7.如权利要求1所述的方法,其特征在于,对目标疾病组人群和对照组人群进行全基因组扫描,通过全基因组关联分析获得该目标疾病相关的种子基因。
8.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-7中任一所述方法中各步骤的指令。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。
CN202010418499.3A 2020-05-18 2020-05-18 一种基于复杂网络筛选疾病相关蛋白的方法 Active CN111640468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010418499.3A CN111640468B (zh) 2020-05-18 2020-05-18 一种基于复杂网络筛选疾病相关蛋白的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010418499.3A CN111640468B (zh) 2020-05-18 2020-05-18 一种基于复杂网络筛选疾病相关蛋白的方法

Publications (2)

Publication Number Publication Date
CN111640468A CN111640468A (zh) 2020-09-08
CN111640468B true CN111640468B (zh) 2021-08-24

Family

ID=72331064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010418499.3A Active CN111640468B (zh) 2020-05-18 2020-05-18 一种基于复杂网络筛选疾病相关蛋白的方法

Country Status (1)

Country Link
CN (1) CN111640468B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634982B (zh) * 2020-11-23 2023-06-16 上海欧易生物医学科技有限公司 一种筛选与研究目的相关的关键基因、关键蛋白集的方法
CN112652355B (zh) * 2020-12-08 2023-07-04 湖南工业大学 一种基于深度森林和pu学习的药物-靶标关系预测方法
CN112927765B (zh) * 2021-03-29 2022-02-22 天士力国际基因网络药物创新中心有限公司 一种药物重定位的方法
CN112927766B (zh) * 2021-03-29 2022-11-01 天士力国际基因网络药物创新中心有限公司 一种疾病组合药物筛选的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109411033A (zh) * 2018-11-05 2019-03-01 杭州师范大学 一种基于复杂网络的药物疗效筛选方法
CN110400600A (zh) * 2019-08-01 2019-11-01 枣庄学院 一种基于旋转森林算法的miRNA-疾病相关性预测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3298135B1 (en) * 2015-05-18 2023-06-07 The Regents of the University of California Systems and methods for predicting glycosylation on proteins
US9988624B2 (en) * 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform
CN105631244B (zh) * 2015-12-30 2018-05-29 上海交通大学 一种预测两种疾病共同致病基因的方法
US12033723B2 (en) * 2015-12-31 2024-07-09 Cyclica Inc. Methods for proteome docking to identify protein-ligand interactions
CN106529203A (zh) * 2016-12-21 2017-03-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法
CN107766697A (zh) * 2017-09-18 2018-03-06 西安电子科技大学 一种泛癌症基因表达和甲基化关联分析方法
KR102416048B1 (ko) * 2017-10-16 2022-07-04 일루미나, 인코포레이티드 변이체 분류를 위한 심층 컨볼루션 신경망
CN108629159B (zh) * 2018-05-14 2021-11-26 辽宁大学 一种用于发现阿尔兹海默症致病关键蛋白质的方法
CN110910953B (zh) * 2019-11-28 2022-09-13 长沙学院 一种基于蛋白质-域异构网络的关键蛋白预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109411033A (zh) * 2018-11-05 2019-03-01 杭州师范大学 一种基于复杂网络的药物疗效筛选方法
CN110400600A (zh) * 2019-08-01 2019-11-01 枣庄学院 一种基于旋转森林算法的miRNA-疾病相关性预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Ensemble Positive Unlabeled Learning for Disease Gene Identification;Peng Yang 等;《PLOS ONE》;20140509;第9卷(第5期);第1-11页 *
node2vec: Scalable Feature Learning for Networks;Aditya Grover 等;《arXiv》;20160703;第1-10页 *
SSCMDA: spy and super cluster strategy for MiRNA-disease association prediction;Qi Zhao等;《Oncotarget》;20171201;第9卷(第2期);第1826-1842页 *

Also Published As

Publication number Publication date
CN111640468A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN111640468B (zh) 一种基于复杂网络筛选疾病相关蛋白的方法
Nguyen et al. Learning graph representation via frequent subgraphs
CN113488104B (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
CN113806582B (zh) 图像检索方法、装置、电子设备和存储介质
CN114420201B (zh) 一种多源数据高效融合的药物靶标相互作用的预测方法
CN118116574B (zh) 基于改进的哈里斯鹰优化算法的中医证型分类方法和装置
Blekas et al. Greedy mixture learning for multiple motif discovery in biological sequences
CN113535947B (zh) 一种带有缺失标记的不完备数据的多标记分类方法及装置
Wang et al. Machine learning-based methods for prediction of linear B-cell epitopes
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
CN118918954A (zh) 一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法
Du et al. Identification and analysis of cancer diagnosis using probabilistic classification vector machines with feature selection
Nimitha et al. An improved deep convolutional neural network architecture for chromosome abnormality detection using hybrid optimization model
Salman Gene Expression Analysis via Spatial Clustering and EvaluationIndexing
Jinyin et al. Fast density clustering algorithm for numerical data and categorical data
CN117198398A (zh) 一种蛋白质交互位点识别方法、装置及介质
Fan et al. Multi-view local hyperplane nearest neighbor model based on independence criterion for identifying vesicular transport proteins
CN112200224A (zh) 医学图像特征处理方法和装置
CN115618272A (zh) 一种基于深度残差生成算法自动识别单细胞类型的方法
Gorisse et al. Salsas: Sub-linear active learning strategy with approximate k-nn search
Elshazly et al. Lymph diseases diagnosis approach based on support vector machines with different kernel functions
Iqbal et al. A distance-based feature-encoding technique for protein sequence classification in bioinformatics
Maazalahi et al. A Hybrid Machine Learning Approach and Genetic Algorithm for Malware Detection
Özçift et al. Swarm optimized organizing map (SWOM): a swarm intelligence basedoptimization of self-organizing map
Rentao et al. Predicting DNA sequence splice site based on graph convolutional network and DNA graph construction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Xu

Inventor after: Ren Jing

Inventor after: Wang Xuemin

Inventor after: Zhang Wen

Inventor after: Yan Kaijing

Inventor after: Wang Wenjia

Inventor before: Li Xu

Inventor before: Ren Jing

Inventor before: Wang Xuemin

Inventor before: Zhang Wen

Inventor before: Yan Kaijing

GR01 Patent grant
GR01 Patent grant