CN111028887B - 一种ncRNA协同竞争网络识别方法和装置 - Google Patents
一种ncRNA协同竞争网络识别方法和装置 Download PDFInfo
- Publication number
- CN111028887B CN111028887B CN201911229601.9A CN201911229601A CN111028887B CN 111028887 B CN111028887 B CN 111028887B CN 201911229601 A CN201911229601 A CN 201911229601A CN 111028887 B CN111028887 B CN 111028887B
- Authority
- CN
- China
- Prior art keywords
- ncrna
- competition
- mrna
- pairing
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 108020004417 Untranslated RNA Proteins 0.000 title claims abstract description 106
- 102000039634 Untranslated RNA Human genes 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 56
- 108020004999 messenger RNA Proteins 0.000 claims abstract description 141
- 201000010099 disease Diseases 0.000 claims abstract description 110
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 110
- 230000014509 gene expression Effects 0.000 claims abstract description 81
- 108091046869 Telomeric non-coding RNA Proteins 0.000 claims description 44
- 230000036961 partial effect Effects 0.000 claims description 44
- 230000035945 sensitivity Effects 0.000 claims description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000001325 log-rank test Methods 0.000 claims description 19
- 230000004083 survival effect Effects 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 19
- 230000002195 synergetic effect Effects 0.000 claims description 17
- 239000000090 biomarker Substances 0.000 claims description 13
- 238000010195 expression analysis Methods 0.000 claims description 12
- 230000002860 competitive effect Effects 0.000 claims description 11
- 108091008109 Pseudogenes Proteins 0.000 claims description 10
- 108091028075 Circular RNA Proteins 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 108090000623 proteins and genes Proteins 0.000 abstract description 21
- 206010028980 Neoplasm Diseases 0.000 abstract description 12
- 201000011510 cancer Diseases 0.000 abstract description 12
- 238000002626 targeted therapy Methods 0.000 abstract description 9
- 238000003759 clinical diagnosis Methods 0.000 abstract description 8
- 108091027963 non-coding RNA Proteins 0.000 description 272
- 102000042567 non-coding RNA Human genes 0.000 description 272
- 201000010915 Glioblastoma multiforme Diseases 0.000 description 38
- 208000005017 glioblastoma Diseases 0.000 description 38
- 206010033128 Ovarian cancer Diseases 0.000 description 15
- 206010061535 Ovarian neoplasm Diseases 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 108020005198 Long Noncoding RNA Proteins 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 206010060862 Prostate cancer Diseases 0.000 description 9
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 9
- 102000057361 Pseudogenes Human genes 0.000 description 9
- 201000005243 lung squamous cell carcinoma Diseases 0.000 description 9
- 108091070501 miRNA Proteins 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- MKYBYDHXWVHEJW-UHFFFAOYSA-N N-[1-oxo-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propan-2-yl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(C(C)NC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 MKYBYDHXWVHEJW-UHFFFAOYSA-N 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000034994 death Effects 0.000 description 4
- 231100000517 death Toxicity 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000002679 microRNA Substances 0.000 description 4
- 108700019961 Neoplasm Genes Proteins 0.000 description 3
- 102000048850 Neoplasm Genes Human genes 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010201 enrichment analysis Methods 0.000 description 2
- 238000011223 gene expression profiling Methods 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000010937 topological data analysis Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 108091032955 Bacterial small RNA Proteins 0.000 description 1
- 108091026815 Competing endogenous RNA (CeRNA) Proteins 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 108091027981 Response element Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000010261 cell growth Effects 0.000 description 1
- 230000012292 cell migration Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000101 novel biomarker Substances 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种ncRNA协同竞争网络识别方法和装置,涉及基因识别技术领域。在本发明中,通过获取目标疾病类型匹配样本的ncRNA和mRNA表达谱数据,并根据ncRNA和mRNA表达谱数据、以及预设的ncRNA‑mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA‑ncRNA配对为协同竞争关系对,可以实现通过对ncRNA‑ncRNA协同竞争关系对进行识别,识别出多个ncRNA协同与靶基因mRNA竞争所构成的ncRNA协同竞争网络,进而可以为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供参考。
Description
技术领域
本发明涉及基因识别技术领域,尤其涉及一种ncRNA协同竞争网络识别方法和装置。
背景技术
微小核糖核酸(microRNA,miRNA)是内源长约22个核苷酸的一类非编码小RNA调控分子,可以调控蛋白质编码基因信使RNA(messenger RNA,mRNA)的表达水平。现有研究表明:miRNA在细胞分化、细胞增殖、细胞生长、细胞迁移、细胞凋亡和癌症等生物过程中发挥了重要的调控作用。根据内源竞争RNA(competing endogenous RNAs,ceRNA)假说,miRNA的应答元件(miRNAresponse elements,MREs)的不同基因转录物间通过相互竞争来调节基因表达。这些具有竞争关系的转录物统称为ceRNA,包括编码蛋白的mRNA、长链非编码RNA(long non-coding RNA,lncRNA)、假基因转录本(pseudogene)以及环状RNA(circRNA)等,所形成的RNA调控网络称为ceRNA互作网络。
ceRNA互作网络与很多人类的复杂疾病(如:癌症)密切相关,可以作为新型的人类复杂疾病诊断和靶向治疗生物标记物,为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供参考。
一般而言,在非编码RNA(non-coding RNA,ncRNA)关联的ceRNA互作网络中,ncRNA与靶基因mRNA之间的竞争关系为多对多的关系。这种竞争关系表明:多个ncRNA将协同与靶基因mRNA竞争,构成了ncRNA协同竞争网络。而研究ncRNA协同竞争网络中的协同竞争关系能够有助于了解ncRNA在人类复杂疾病中的协同竞争机理,但现有技术中还未有可行的方案可用于识别ncRNA协同竞争网络。
发明内容
本发明的目的在于提供一种ncRNA协同竞争网络识别方法和装置,可以筛选出复杂疾病关联的ncRNA协同竞争网络,为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供参考。
第一方面,本发明实施例提供一种ncRNA协同竞争网络识别方法,包括:获取目标疾病类型匹配样本的ncRNA和信使核糖核酸mRNA表达谱数据;根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对。
在可选的实施方式中,根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对,包括:获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对;根据预设的ncRNA-mRNA竞争关系数据,计算ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值、正相关显著性概率值、以及敏感性偏相关系数值;若ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概率值小于第一阈值、正相关显著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三阈值,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
在可选的实施方式中,计算ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值,包括:根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡量ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
在可选的实施方式中,计算ncRNA1-ncRNA2配对对应的正相关显著性概率值,包括:计算ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数;根据皮尔逊相关系数,计算获取正相关显著性概率值。
在可选的实施方式中,计算ncRNA1-ncRNA2配对对应的敏感性偏相关系数值,包括:根据ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件下对应的ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的偏相关系数值,计算获取敏感性偏相关系数值。
在可选的实施方式中,若ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概率值小于第一阈值、正相关显著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三阈值,则确定ncRNA1-ncRNA2配对为协同竞争关系对,包括:若同时满足协同竞争mRNA统计显著性概率值小于0.05、正相关显著性概率值小于0.05、以及敏感性偏相关系数值大于0.1,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
在可选的实施方式中,根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,该方法还包括:通过融合多种不同的数据库,获取与目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关联的先验ncRNA-mRNA竞争网络数据,得到ncRNA-mRNA竞争关系数据。
在可选的实施方式中,根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,该方法还包括:对ncRNA和mRNA表达谱数据进行预处理,去除ncRNA和mRNA表达谱数据中的重复项和没有基因名称的ncRNA和mRNA。
在可选的实施方式中,该方法还包括:通过下述方式对确定为协同竞争关系对的ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA协同竞争网络进行评估:1)拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布,以确定ncRNA-ncRNA协同竞争网络否属于无标度网络;2)确定ncRNA-ncRNA协同竞争网络中连通度高前10%的节点为枢纽节点;3)确定两个ncRNA均与目标疾病类型关联的ncRNA1-ncRNA2配对为目标疾病类型对应的ncRNA-ncRNA协同竞争对;4)基于ncRNA-ncRNA协同竞争网络,利用马尔可夫聚类算法识别ncRNA-ncRNA协同竞争模块;5)根据先验目标疾病类型关联的ncRNAs和超几何分布检验算法,确定与目标疾病类型功能性相关的显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目标疾病类型对应的ncRNA-ncRNA协同竞争模块;6)对于每个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个目标疾病类型匹配样本的风险值;根据目标疾病类型匹配样本的风险值,将目标疾病类型匹配样本划分为高风险样本集合和低风险样本集合;根据高风险样本集合和低风险样本集合,计算风险值;根据对数秩检验算法,计算高风险样本集合和低风险样本集合生存时间差异的显著性概率值,得到对数秩检验显著性值;确定风险值大于1、且对数秩检验显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目标疾病类型的生物标记物。
在可选的实施方式中,目标疾病类型包括下述任一种:多形性胶质母细胞瘤、肺鳞状细胞癌、卵巢癌、以及前列腺癌。
在可选的实施方式中,ncRNA包括下述任一种:长链非编码RNA、环状RNA、以及伪基因。
第二方面,本发明实施例提供一种ncRNA协同竞争网络识别装置,包括:获取模块,用于获取目标疾病类型匹配样本的ncRNA和信使核糖核酸mRNA表达谱数据;识别模块,用于根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对。
在可选的实施方式中,识别模块,包括:获取子模块,用于获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对;计算子模块,用于根据预设的ncRNA-mRNA竞争关系数据,计算ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值、正相关显著性概率值、以及敏感性偏相关系数值;识别子模块,用于若ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概率值小于第一阈值、正相关显著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三阈值,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
在可选的实施方式中,计算子模块,具体用于根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡量ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
在可选的实施方式中,计算子模块,具体用于计算ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数;根据皮尔逊相关系数,计算获取正相关显著性概率值。
在可选的实施方式中,计算子模块,具体用于根据ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件下对应的ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的偏相关系数值,计算获取敏感性偏相关系数值。
在可选的实施方式中,识别子模块,具体用于若同时满足协同竞争mRNA统计显著性概率值小于0.05、正相关显著性概率值小于0.05、以及敏感性偏相关系数值大于0.1,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
在可选的实施方式中,该装置还包括:竞争数据模块,用于在识别模块根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,通过融合多种不同的数据库,获取与目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关联的先验ncRNA-mRNA竞争网络数据,得到ncRNA-mRNA竞争关系数据。
在可选的实施方式中,该装置包括:预处理模块,用于在识别模块根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,对ncRNA和mRNA表达谱数据进行预处理,去除ncRNA和mRNA表达谱数据中的重复项和没有基因名称的ncRNA和mRNA。
在可选的实施方式中,该装置还包括:评估模块,用于通过下述方式对确定为协同竞争关系对的ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA协同竞争网络进行评估:1)拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布,以确定ncRNA-ncRNA协同竞争网络否属于无标度网络;2)确定ncRNA-ncRNA协同竞争网络中连通度高前10%的节点为枢纽节点;3)确定两个ncRNA均与目标疾病类型关联的ncRNA1-ncRNA2配对为目标疾病类型对应的ncRNA-ncRNA协同竞争对;4)基于ncRNA-ncRNA协同竞争网络,利用马尔可夫聚类算法识别ncRNA-ncRNA协同竞争模块;5)根据先验目标疾病类型关联的ncRNAs和超几何分布检验算法,确定与目标疾病类型功能性相关的显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目标疾病类型对应的ncRNA-ncRNA协同竞争模块;6)对于每个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个目标疾病类型匹配样本的风险值;根据目标疾病类型匹配样本的风险值,将目标疾病类型匹配样本划分为高风险样本集合和低风险样本集合;根据高风险样本集合和低风险样本集合,计算风险值;根据对数秩检验算法,计算高风险样本集合和低风险样本集合生存时间差异的显著性概率值,得到对数秩检验显著性概率值;确定风险值大于1、且对数秩检验显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目标疾病类型的生物标记物。
在可选的实施方式中,目标疾病类型包括下述任一种:多形性胶质母细胞瘤、肺鳞状细胞癌、卵巢癌、以及前列腺癌。
在可选的实施方式中,ncRNA包括下述任一种:长链非编码RNA、环状RNA、以及伪基因。
第三方面,本发明实施例提供一种ncRNA协同竞争网络识别设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当ncRNA协同竞争网络识别设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行上述第一方面所述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行如上述第一方面所述的方法。
本发明的有益效果:
在本发明中,通过获取目标疾病类型匹配样本的ncRNA和靶基因mRNA表达谱数据,并根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对,可以实现通过对ncRNA-ncRNA协同竞争关系对进行识别,识别出多个ncRNA协同与靶基因mRNA竞争所构成的ncRNA协同竞争网络,进而可以为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供参考。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的ncRNA协同竞争网络识别方法的流程示意图;
图2为本发明实施例提供的ncRNA协同竞争网络识别方法的另一流程示意图;
图3为本发明实施例提供的ncRNA协同竞争网络识别方法的又一流程示意图;
图4为本发明实施例提供的ncRNA协同竞争网络识别方法的又一流程示意图;
图5为本发明实施例提供的ncRNA协同竞争网络识别装置的结构示意图;
图6为本发明实施例提供的识别模块的结构示意图;
图7为本发明实施例提供的ncRNA协同竞争网络识别装置的另一结构示意图;
图8为本发明实施例提供的ncRNA协同竞争网络识别装置的又一结构示意图;
图9为本发明实施例提供的ncRNA协同竞争网络识别装置的又一结构示意图;
图10为本发明实施例提供的ncRNA协同竞争网络识别设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图和公式中表示类似项,因此,一旦某一项在一个附图或公式中被定义,则在随后的附图或公式中不需要对其进行进一步定义和解释。还需要说明,第一、第二、第三等的描述仅仅用于区分,而不能表示相对重要性。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本发明实施例提供一种ncRNA协同竞争网络识别方法,该ncRNA协同竞争网络识别方法的执行主体可以是具有计算能力的终端设备,例如:台式电脑、笔记本电脑、服务器、云端、定制终端或智能终端等,在此不做限制。
图1为本发明实施例提供的ncRNA协同竞争网络识别方法的流程示意图,如图1所示,该ncRNA协同竞争网络识别方法,可以包括:
S110、获取目标疾病类型匹配样本的ncRNA和mRNA表达谱数据。
其中,目标疾病类型可以包括下述任一种:多形性胶质母细胞瘤、肺鳞状细胞癌、卵巢癌、以及前列腺癌,本发明对目标疾病类型具体不作限制。
以目标疾病类型为多形性胶质母细胞瘤(Glioblastoma multiforme,GBM)、ncRNA为lncRNA为例,获取目标疾病类型匹配样本的ncRNA和mRNA表达谱数据,可以是:从国际著名癌症基因表达谱数据库癌症基因组图谱(The Cancer GenomeAtlas,TCGA)中收集多形性胶质母细胞瘤匹配样本的lncRNA和mRNA表达谱数据。其中,TCGA的地址为“https://cancergenome.nih.gov/”。
S120、根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对。
在可选的实施方式中,根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,该方法还可以包括:通过融合多种不同的数据库,获取与目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关联的先验ncRNA-mRNA竞争网络数据,从而得到上述ncRNA-mRNA竞争关系的ncRNA-mRNA竞争关系数据。
例如,可以预先通过融合多种不同的数据库,获取与目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关联的先验ncRNA-mRNA竞争网络数据,得到先验的可以用于表示ncRNA-mRNA竞争关系。
其中,ncRNA-mRNA竞争关系指的是共享MREs的ncRNA与mRNA之间的竞争关系,先验ncRNA-mRNA竞争网络数据可以使用计算机预测型或实验验证型数据。所使用的竞争网络数据可以来源于单一数据库,或者融合多种不同数据库。
同样以前述多形性胶质母细胞瘤为例,可以通过整合miRSponge,LncCeRBase,LncACTdb v2.0和ENCORI四种数据库,获得与多形性胶质母细胞瘤表达谱数据关联的lncRNA-mRNA竞争关系对。还可以从LncRNADisease v2.0,Lnc2Cancer v2.0和MNDR v2.0三个数据库中收集与多形性胶质母细胞瘤关联的lncRNAs。
图2为本发明实施例提供的ncRNA协同竞争网络识别方法的另一流程示意图,可选地,如图2所示,上述步骤S120具体可以包括:
S121、获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对。
其中,ncRNA1-ncRNA2配对中,ncRNA1和ncRNA2分别用于表示两个类型相同的ncRNA。可选地,ncRNA的类型可以是长链非编码RNA(long non-coding RNA,lncRNA)、环状RNA(circRNA)、或假基因转录本(pseudogene,也称伪基因)中的任一种。
以ncRNA协同竞争涉及上述lncRNA、circRNA、以及pseudogene为例,协同竞争的模式具体可以包括下述六种:pseudogene-pseudogene、pseudogene-circRNA、pseudogene-lncRNA、circRNA-circRNA、circRNA-lncRNA、以及lncRNA-lncRNA。
S122、根据预设的ncRNA-mRNA竞争关系数据,计算ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值、正相关显著性概率值、以及敏感性偏相关系数值。
S123、若ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概率值小于第一阈值、正相关显著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三阈值,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
在可选的实施方式中,第一阈值可以为0.05、第二阈值也可以为0.05、第三阈值可以为0.1,若同时满足协同竞争mRNA统计显著性概率值小于0.05、正相关显著性概率值小于0.05、以及敏感性偏相关系数值大于0.1,则可以确定ncRNA1-ncRNA2配对为协同竞争关系对。
可选地,第二阈值可以与第一阈值相同,或者也可以与第一阈值不同。需要说明的是,上述第一阈值、第二阈值和第三阈值仅仅为本发明实施例中示例性的说明,为提高ncRNA协同竞争网络识别的准确性,本领域技术人员可以根据实际需要将上述第一阈值、第二阈值和第三阈值的具体数值设置为其他值,如:第二阈值也可以是0.01、0.001等值,本发明对此不作限制。
由上所述,本发明实施例通过获取目标疾病类型匹配样本的ncRNA和靶基因mRNA表达谱数据,并根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对,可以实现通过对ncRNA-ncRNA协同竞争关系对进行识别,识别出多个ncRNA协同与靶基因mRNA竞争所构成的ncRNA协同竞争网络,进而可以为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供参考。
在可选的实施方式中,上述步骤S122中计算ncRNA1-ncRNA2配对对应的统计显著性值的步骤,可以包括:根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡量ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
统计显著性概率值计算公式可以如下:
其中,p-value表示ncRNA1与ncRNA2之间协同竞争mRNAs的统计显著性概率值;N1代表数据集中所有的mRNAs数目,M1和K1分别代表ncRNA1与ncRNA2竞争的mRNAs数目,L1(其值通常不小于3)表示ncRNA1与ncRNA2协同竞争的mRNAs数目。
图3为本发明实施例提供的ncRNA协同竞争网络识别方法的又一流程示意图。
如图3所示,在可选的实施方式中,上述步骤S122中计算ncRNA1-ncRNA2配对对应的正相关显著性概率值的步骤,可以包括:
S1221、计算ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数。
每个ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数(PearsonCorrelation,PC)值计算如下:
其中,表示ncRNA1与ncRNA2之间的皮尔逊相关系数;变量x=(x1,x2,...,xs)和y=(y1,y2,...,ys)分别代表ncRNA1与ncRNA2的基因表达量值,和分别代表变量x和y的均值表达量,s为匹配样本个数。
S1222、根据皮尔逊相关系数,计算获取正相关显著性概率值。
p-value=2pt(t-value);
在可选的实施方式中,上述步骤S122中计算ncRNA1-ncRNA2配对对应的敏感性偏相关系数值的步骤,可以包括:根据ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件下对应的ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的偏相关系数值,计算获取敏感性偏相关系数值。
具体地,为了计算敏感性偏相关系数(SensitivityPartial PearsonCorrelation,SPPC)值,需考虑条件变量mRNA。在考虑ncRNA1与ncRNA2协同竞争的mRNA前提条件下,ncRNA1与ncRNA2之间敏感性偏相关系数值定义如下:
其中,为ncRNA1与ncRNA2之间的偏相关系数值,即在考虑协同竞争mRNAs的前提条件下,ncRNA1与ncRNA2之间的偏相关系数值。假设ncRNA1-ncRNA2协同竞争m(其值通常不小于3)个mRNA,并且表示为Z=(Z1,Z2,...,Zm),则偏相关系数值计算如下:
其中,x=(x1,x2,...,xs),y=(y1,y2,...,ys),Zi=(zi,1,zi,2,...,zi,s)(i∈[1,2,...,m]),cor(x,y|(Z1,Z2,...,Zm))表示为(Z1,Z2,...,Zm)条件下x与y之间的偏相关系数值,cor(x,y|(Z1,Z2,...,Zm-1))表示为(Z1,Z2,...,Zm-1)条件下x与y之间的偏相关系数值,cor(x,Zm|(Z1,Z2,...,Zm-1))表示为(Z1,Z2,...,Zm)条件下x与Zm之间的偏相关系数值,cor(y,Zm|(Z1,Z2,...,Zm-1))表示为(Z1,Z2,...,Zm)条件下y与Zm之间的偏相关系数值。
基于前述步骤S122计算得到的ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值、正相关显著性概率值、以及敏感性偏相关系数值,可以通过前述步骤S123判断ncRNA1-ncRNA2配对是否为协同竞争关系对,进而实现ncRNA协同竞争网络识别。
在可选的实施方式中,上述根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,该方法还可以包括:对ncRNA和mRNA表达谱数据进行预处理,去除ncRNA和mRNA表达谱数据中的重复项和没有基因名称的ncRNA和mRNA。
相应地,上述步骤S121中获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对时,可以根据预处理后的目标疾病类型匹配样本的ncRNA和mRNA表达谱数据,获取ncRNA1-ncRNA2配对。
可选地,该ncRNA协同竞争网络识别方法,还可以包括:
通过下述方式对确定为协同竞争关系对的ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA协同竞争网络进行评估:
1)拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布,以确定所述ncRNA-ncRNA协同竞争网络否属于无标度网络(网络拓扑分析):
以往研究表明:真实的生物分子网络倾向于无标度(scale-free)网络。无标度生物分子网络中,大部分分子通过少数枢纽分子连接在一起,这意味着分子在生物分子网络中的地位是不平等的,枢纽分子在连接生物分子网络完整性方面起到关键作用。
无标度网络是指网络中连通度的分布服从幂律分布,分布形式表示为y=bxa(x为连通度,y为该连通度出现的频数,a和b是参数)。为了评估所识别的ncRNA-ncRNA协同竞争网络是否属于无标度网络,可以拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布。拟合的好坏有拟合优度检验统计值R2来衡量,R2越接近1表明该网络越接近幂律分布。
2)确定ncRNA-ncRNA协同竞争网络中连通度高前10%的节点为枢纽节点(识别枢纽ncRNAs):
枢纽ncRNAs在连接ncRNA-ncRNA协同竞争网络完整性方面起到关键作用,这些枢纽ncRNAs往往可以作为生物标志物(biomarkers)为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供参考。通常情况下,连通度高的节点(前10%)被认为是枢纽节点。本实例中,前10%连通度高的ncRNAs被认为是枢纽ncRNAs。
3)确定两个ncRNA均与目标疾病类型关联的ncRNA1-ncRNA2配对为目标疾病类型对应的ncRNA-ncRNA协同竞争对(识别目标疾病类型关联的ncRNA-ncRNA协同竞争对):
基于目标疾病类型ncRNAs,提取目标疾病类型关联的ncRNA-ncRNA协同竞争对。对于每条ncRNA-ncRNA协同竞争对,当且仅当协同竞争对中的两个ncRNA都与目标疾病类型关联,该条ncRNA-ncRNA协同竞争对才被认为是目标疾病类型关联的ncRNA-ncRNA协同竞争对。
4)基于ncRNA-ncRNA协同竞争网络,利用马尔可夫聚类算法识别ncRNA-ncRNA协同竞争模块(识别lncRNA-lncRNA协同竞争模块):
基于ncRNA-ncRNA协同竞争网络,利用马尔可夫聚类算法(Markov ClusteringAlgorithm,MCL)识别ncRNA-ncRNA协同竞争模块。每个ncRNA-ncRNA协同竞争模块中,ncRNA的个数至少为3。
5)根据先验目标疾病类型关联的ncRNAs和超几何分布检验算法,确定与目标疾病类型功能性相关的显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目标疾病类型对应的ncRNA-ncRNA协同竞争模块(ncRNA-ncRNA协同竞争模块富集分析):
基于先验目标疾病类型关联的ncRNAs,利用超几何分布检验(hypergeometricdistribution test)来检验每个ncRNA-ncRNA协同竞争模块是否与目标疾病类型功能性相关,计算如下:
其中,p-value表示与目标疾病类型功能性相关的显著性概率值;N2代表数据集中ncRNAs数目,M2代表数据集中目标疾病类型关联的ncRNAs数目,K2为ncRNA-ncRNA协同竞争模块中ncRNAs个数,L2表示ncRNA-ncRNA协同竞争模块中目标疾病类型关联的ncRNAs数目。p-value小于0.05,ncRNA-ncRNA协同竞争模块才被认定为目标疾病类型关联模块。
6)对于每个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个目标疾病类型匹配样本的风险值;根据目标疾病类型匹配样本的风险值,将目标疾病类型匹配样本划分为高风险样本集合和低风险样本集合;根据高风险样本集合和低风险样本集合,计算风险值;根据对数秩检验算法,计算高风险样本集合和低风险样本集合生存时间差异的显著性概率值,得到对数秩检验显著性概率值;确定风险值大于1、且对数秩检验显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目标疾病类型的生物标记物(ncRNA-ncRNA协同竞争模块生存分析):
对于每一个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个目标疾病类型样本的风险值,计算如下:
h(t,R)=h0(t)exp(β'R)=h0(t)exp(β1R1+β2R2+...+βkRk)
其中,h(t,R)是具有协变量R的多形性胶质母细胞瘤样本在时刻t时的风险函数值,t为生存时间,R=(R1,R2,...,Rk)'是可能影响生存时间的ncRNAs,h0(t)是所有协变量取0时的风险函数值β=(β1,β2,...,βk)'为Cox模型的回归系数。
根据每个样本的风险函数值h(t,R),将目标疾病类型样本等分为高风险和低风险两组样本。目标疾病类型高风险和低风险两组样本的风险值(hazardratio,HR)计算如下:
HR=h(t,Rh)/h(t,Rl)=exp[β(Rh-Rl)]
其中,h(t,Rh)为目标疾病类型高风险组的风险函数值,h(t,Rl)为目标疾病类型低风险组的风险函数值,是可能影响生存时间的高风险ncRNAs,是可能影响生存时间的低风险ncRNAs,HR的阈值可以设定为1。
进一步,可以使用对数秩检验(Log-ranktest)比较目标疾病类型高风险和低风险两组样本生存时间是否相同,检验统计量为卡方χ2,计算如下:
其中,A为观察目标疾病类型死亡案例数,T为理论目标疾病类型死亡案例数。计算的χ2值越大,差异显著性p值越小,表示目标疾病类型高风险和低风险两组样本生存时间越不可能相同。HR值大于1并且对数秩检验显著性p值小于0.05,ncRNA-ncRNA协同竞争模块才被认定为目标疾病类型模块生物标记物。
基于前述实施例,本发明实施例还提供一种ncRNA协同竞争网络识别方法,图4为本发明实施例提供的ncRNA协同竞争网络识别方法的又一流程示意图。
如图4所示,该ncRNA协同竞争网络识别方法,可以包括:
S401、获取目标疾病类型匹配样本的ncRNA和mRNA表达谱数据。
S402、对ncRNA和mRNA表达谱数据进行预处理,去除ncRNA和mRNA表达谱数据中的重复项和没有基因名称的ncRNA和mRNA。
S403、获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对。
S404、根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡量ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
S405、计算ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数。
S406、根据皮尔逊相关系数,计算获取正相关显著性概率值。
S407、根据ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件下对应的ncRNA1与ncRNA2之间的偏相关系数值,计算获取敏感性偏相关系数值。
S408、判断是否同时满足协同竞争mRNA统计显著性概率值小于0.05、正相关显著性概率值小于0.05、以及敏感性偏相关系数值大于0.1。
若是,则执行步骤S409;若否,则结束或继续获取新的ncRNA1-ncRNA2配对执行上述过程(图中未示出)。
S409、确定ncRNA1-ncRNA2配对为协同竞争关系对。
为使本发明实施例提供的ncRNA协同竞争网络识别方法所记载的技术方案更加清楚,本发明现通过下述具体实施例对该ncRNA协同竞争网络识别方法的步骤进行说明:
实施例1
以多形性胶质母细胞瘤中对应的lncRNA-lncRNA协同竞争为例,本实施例识别lncRNA-lncRNA协同竞争网络方法由如下步骤实现:
步骤1:数据源获取
从国际著名癌症基因表达谱数据库TCGA(the cancer genome atlas,https://cancergenome.nih.gov/)中收集多形性胶质母细胞瘤(Glioblastomamultiforme,GBM)匹配样本的lncRNA和mRNA表达谱数据。通过预处理(去除重复项和没有基因名称的lncRNA和mRNA),最终获得451个乳腺癌匹配样本的9704个lncRNAs和18282个mRNAs表达谱数据,以及样本临床信息。本实施例中,ncRNA为lncRNA,
先验的lncRNA-mRNA竞争网络数据采用融合多种不同数据库方式获得。具体而言,通过整合miRSponge,LncCeRBase,LncACTdb v2.0和ENCORI四种数据库。最终,获得与多形性胶质母细胞瘤表达谱数据关联的10099条lncRNA-mRNA竞争关系对。还可以从LncRNADisease v2.0,Lnc2Cancer v2.0和MNDR v2.0三个数据库中收集了166个与多形性胶质母细胞瘤关联的lncRNAs。
步骤2:识别lncRNA-lncRNA协同竞争网络
步骤3:评估lncRNA-lncRNA协同竞争网络
然后,可以从以下六个方面来评估所识别的lncRNA-lncRNA协同竞争网络:
1)网络拓扑分析
以往研究表明:真实的生物分子网络倾向于无标度(scale-free)网络。无标度生物分子网络中,大部分分子通过少数枢纽分子连接在一起,这意味着分子在生物分子网络中的地位是不平等的,枢纽分子在连接生物分子网络完整性方面起到关键作用。
无标度网络是指网络中连通度的分布服从幂律分布,分布形式表示为y=bxa(x为连通度,y为该连通度出现的频数,a和b是参数)。为了评估所识别的lncRNA-lncRNA协同竞争网络是否属于无标度网络,可以拟合lncRNA-lncRNA协同竞争网络的连通度是否服从幂律分布。拟合的好坏有拟合优度检验统计值R2来衡量,R2越接近1表明该网络越接近幂律分布。
2)识别枢纽lncRNAs
枢纽lncRNAs在连接lncRNA-lncRNA协同竞争网络完整性方面起到关键作用,这些枢纽lncRNAs往往可以作为生物标志物(biomarkers)为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供参考。通常情况下,连通度高的节点(前10%)被认为是枢纽节点。本实例中,前10%连通度高的lncRNAs被认为是枢纽lncRNAs。
3)识别多形性胶质母细胞瘤关联的lncRNA-lncRNA协同竞争对
基于多形性胶质母细胞瘤lncRNAs,提取多形性胶质母细胞瘤关联的lncRNA-lncRNA协同竞争对。对于每条lncRNA-lncRNA协同竞争对,当且仅当协同竞争对中的两个lncRNA都与多形性胶质母细胞瘤关联,该条lncRNA-lncRNA协同竞争对才被认为是多形性胶质母细胞瘤关联的lncRNA-lncRNA协同竞争对。
4)识别lncRNA-lncRNA协同竞争模块
基于lncRNA-lncRNA协同竞争网络,利用马尔可夫聚类算法(Markov ClusteringAlgorithm,MCL)识别lncRNA-lncRNA协同竞争模块。每个lncRNA-lncRNA协同竞争模块中,lncRNA的个数至少为3。
5)lncRNA-lncRNA协同竞争模块富集分析
基于先验多形性胶质母细胞瘤关联的lncRNAs,利用超几何分布检验(hypergeometric distribution test)来检验每个lncRNA-lncRNA协同竞争模块是否与多形性胶质母细胞瘤功能性相关,计算如下:
其中,N2代表数据集中lncRNAs数目,M2代表数据集中多形性胶质母细胞瘤关联的lncRNAs数目,K2为lncRNA-lncRNA协同竞争模块中lncRNAs个数,L2表示lncRNA-lncRNA协同竞争模块中多形性胶质母细胞瘤关联的lncRNAs数目。
本实施例中显著性概率p值要小于0.05,lncRNA-lncRNA协同竞争模块才被认定为多形性胶质母细胞瘤关联模块。
6)lncRNA-lncRNA协同竞争模块生存分析
对于每一个lncRNA-lncRNA协同竞争模块,应用多变量Cox模型计算每个多形性胶质母细胞瘤样本的风险值,计算如下:
h(t,R)=h0(t)exp(β'R)=h0(t)exp(β1R1+β2R2+...+βkRk)
其中,h(t,R)是具有协变量R的多形性胶质母细胞瘤样本在时刻t时的风险函数值,t为生存时间,R=(R1,R2,...,Rk)'是可能影响生存时间的lncRNAs,h0(t)是所有协变量取0时的风险函数值β=(β1,β2,...,βk)'为Cox模型的回归系数。
根据每个样本的风险函数值h(t,R),将451个多形性胶质母细胞瘤样本等分为高风险和低风险两组样本。多形性胶质母细胞瘤高风险和低风险两组样本的风险值(hazardratio,HR)计算如下:
HR=h(t,Rh)/h(t,Rl)=exp[β(Rh-Rl)]
其中,h(t,Rh)为多形性胶质母细胞瘤高风险组的风险函数值,h(t,Rl)为多形性胶质母细胞瘤低风险组的风险函数值,是可能影响生存时间的高风险lncRNAs,是可能影响生存时间的低风险lncRNAs,本实施例中HR的阈值设定为1。
进一步,可以使用对数秩检验(Log-ranktest)比较多形性胶质母细胞瘤高风险和低风险两组样本生存时间是否相同,检验统计量为卡方χ2,计算如下:
其中,A为观察多形性胶质母细胞瘤死亡案例数,T为理论多形性胶质母细胞瘤死亡案例数。计算的χ2值越大,差异显著性p值越小,表示多形性胶质母细胞瘤高风险和低风险两组样本生存时间越不可能相同。本实施例中,HR值大于1并且对数秩检验显著性概率p值要小于0.05,lncRNA-lncRNA协同竞争模块才被认定为多形性胶质母细胞瘤模块生物标记物。
实施例2
以肺鳞状细胞癌中对应的lncRNA-lncRNA协同竞争为例,本实施例识别lncRNA-lncRNA协同竞争网络方法由如下步骤实现:
本实施例的步骤1中,从国际著名癌症基因表达谱数据库TCGA(the cancergenomeatlas,https://cancergenome.nih.gov/)中收集肺鳞状细胞癌(Lung Squamous CellCarcinoma,LSCC)匹配样本的lncRNA和mRNA表达谱数据。通过预处理(去除重复项和没有基因名称的lncRNA和mRNA),最终获得113个乳腺癌匹配样本的9704个lncRNAs和18282个mRNAs表达谱数据,以及样本临床信息。本实施例中,ncRNA为lncRNA,
先验的lncRNA-mRNA竞争网络数据与实施例1相同,最终获得与肺癌表达谱数据关联的10099条lncRNA-mRNA竞争关系对。还可以从LncRNADisease v2.0,Lnc2Cancer v2.0和MNDR v2.0三个数据库中收集429个与肺癌关联的lncRNAs。
其他步骤与实施例1相同,在此不再赘述。
实施例3
以卵巢癌中对应的lncRNA-lncRNA协同竞争为例,本实施例识别lncRNA-lncRNA协同竞争网络方法由如下步骤实现:
本实施例的步骤1中,从国际著名癌症基因表达谱数据库TCGA(the cancergenome atlas,https://cancergenome.nih.gov/)中收集卵巢癌(Ovarian Cancer,OvCa)匹配样本的lncRNA和mRNA表达谱数据。通过预处理(去除重复项和没有基因名称的lncRNA和mRNA),最终获得585个卵巢癌匹配样本的9704个lncRNAs和18282个mRNAs表达谱数据,以及样本临床信息。本实施例中,ncRNA为lncRNA,
先验的lncRNA-mRNA竞争网络数据与实施例1相同,最终获得与卵巢癌表达谱数据关联的10099条lncRNA-mRNA竞争关系对。还可以从LncRNADisease v2.0,Lnc2Cancer v2.0和MNDR v2.0三个数据库中收集140个与卵巢癌关联的lncRNAs。
其他步骤与实施例1相同,在此不再赘述。
实施例4
以前列腺癌中对应的lncRNA-lncRNA协同竞争为例,本实施例识别lncRNA-lncRNA协同竞争网络方法由如下步骤实现:
本实施例的步骤1中,从纪念斯隆-凯特琳癌症中心MSKCC(Memorial Sloan-Kettering Cancer Center,https://www.mskcc.org/)收集前列腺癌(Prostate Cancer,PrCa)匹配样本的lncRNA和mRNA表达谱数据。通过预处理(去除重复项和没有基因名称的lncRNA和mRNA),最终获得150个卵巢癌匹配样本的9704个lncRNAs和18282个mRNAs表达谱数据,以及样本临床信息。本实施例中,ncRNA为lncRNA,
先验的lncRNA-mRNA竞争网络数据与实施例1相同,最终获得与卵巢癌表达谱数据关联的10099条lncRNA-mRNA竞争关系对。还可以从LncRNADisease v2.0,Lnc2Cancer v2.0和MNDR v2.0三个数据库中收集141个与卵巢癌关联的lncRNAs。
其他步骤与实施例1相同,在此亦不再赘述。
基于前述实施例1-4,对lncRNA-lncRNA协同竞争网络识别结果的评估可以如下表1-6所示。其中,表1为实施例1-4中挖掘的lncRNA-lncRNA协同竞争网络拓扑分析;表2为实施例1-4中挖掘的枢纽lncRNAs;表3为实施例1-4中挖掘的疾病关联lncRNA-lncRNA协同竞争关系;表4为实施例1-4中挖掘的lncRNA-lncRNA协同竞争模块;表5为实施例1-4中与疾病富集相关的lncRNA-lncRNA协同竞争模块;表6为实施例1-4中充当生物标记物的lncRNA-lncRNA协同竞争模块。
表1实施例1-4中挖掘的lncRNA-lncRNA协同竞争网络拓扑分析
表2实施例1-4中挖掘的枢纽lncRNAs
表3实施例1-4中挖掘的疾病关联lncRNA-lncRNA协同竞争关系
表4实施例1-4中挖掘的lncRNA-lncRNA协同竞争模块
表5实施例1-4中与疾病富集相关的lncRNA-lncRNA协同竞争模块
表6实施例1-4中充当生物标记物的lncRNA-lncRNA协同竞争模块
如表1所示,实施例1-4在四个数据集(GBM,LSCC,OvCa和PrCa)中挖掘的lncRNA-lncRNA协同竞争网络基本符合真实生物分子网络的无标度网络特征(拟合优度检验统计值R2都大于0.69)。一部分枢纽lncRNAs和lncRNA-lncRNA协同竞争关系与疾病(GBM,LSCC,OvCa和PrCa)关联(如表2和3所示)。所挖掘的lncRNA-lncRNA协同竞争模块中(见表4),大部分lncRNA-lncRNA协同竞争模块与疾病显著性富集相关(见表5)和充当生物标记物(见表6)。本发明方法在四种数据集中结果基本一致,能够鲁棒性的识别lncRNA-lncRNA协同竞争网络。
综上所述,本发明提出的ncRNA协同竞争网络识别方法能够有效的挖掘ncRNA之间的协同竞争关系,所识别的ncRNA协同竞争网络基本符合真实生物分子网络的无标度网络特征。基于所识别的ncRNA协同竞争网络,能够进一步识别疾病关联枢纽ncRNAs,疾病关联ncRNA协同竞争网络与模块,以及疾病生物标记物。尤其是在复杂疾病基因表达谱数据集的应用中,为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供技术支持和理解手段,具有重要的生物学意义。
基于前述方法实施例提供的ncRNA协同竞争网络识别方法,本发明实施例还对应提供一种ncRNA协同竞争网络识别装置。图5为本发明实施例提供的ncRNA协同竞争网络识别装置的结构示意图,如图5所示,该ncRNA协同竞争网络识别装置,可以包括:获取模块10,用于获取目标疾病类型匹配样本的ncRNA和靶基因mRNA表达谱数据;识别模块20,用于根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对。
图6为本发明实施例提供的识别模块的结构示意图。
如图6所示,在可选的实施方式中,识别模块20,包括:获取子模块21,用于获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对;计算子模块22,用于根据预设的ncRNA-mRNA竞争关系数据,计算ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值、正相关显著性概率值、以及敏感性偏相关系数值;识别子模块23,用于若ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概率值小于第一阈值、正相关显著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三阈值,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
在可选的实施方式中,计算子模块22,具体用于根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡量ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
在可选的实施方式中,计算子模块22,具体用于计算ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数;根据皮尔逊相关系数,计算获取正相关显著性概率值。
在可选的实施方式中,计算子模块22,具体用于根据ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件下对应的ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的偏相关系数值,计算获取敏感性偏相关系数值。
在可选的实施方式中,识别子模块23,具体用于若同时满足协同竞争mRNA统计显著性概率值小于0.05、正相关显著性概率值小于0.05、以及敏感性偏相关系数值大于0.1,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
图7为本发明实施例提供的ncRNA协同竞争网络识别装置的另一结构示意图。
如图7所示,在可选的实施方式中,该装置还包括:竞争数据模块30,用于在识别模块20根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,通过融合多种不同的数据库,获取与目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关联的先验ncRNA-mRNA竞争网络数据,得到ncRNA-mRNA竞争关系数据。
图8为本发明实施例提供的ncRNA协同竞争网络识别装置的又一结构示意图。
如图8所示,在可选的实施方式中,该装置还包括:预处理模块40,用于在识别模块20根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,对ncRNA和mRNA表达谱数据进行预处理,去除ncRNA和mRNA表达谱数据中的重复项和没有基因名称的ncRNA和mRNA。
图9为本发明实施例提供的ncRNA协同竞争网络识别装置的又一结构示意图。
如图9所示,在可选的实施方式中,该装置还包括:评估模块50,用于通过下述方式对确定为协同竞争关系对的ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA协同竞争网络进行评估:1)拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布,以确定ncRNA-ncRNA协同竞争网络是否属于无标度网络;2)确定ncRNA-ncRNA协同竞争网络中连通度高前10%的节点为枢纽节点;3)确定两个ncRNA均与目标疾病类型关联的ncRNA1-ncRNA2配对为目标疾病类型对应的ncRNA-ncRNA协同竞争对;4)基于ncRNA-ncRNA协同竞争网络,利用马尔可夫聚类算法识别ncRNA-ncRNA协同竞争模块;5)根据先验目标疾病类型关联的ncRNAs和超几何分布检验算法,确定与目标疾病类型功能性相关的显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目标疾病类型对应的ncRNA-ncRNA协同竞争模块;6)对于每个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个目标疾病类型匹配样本的风险值;根据目标疾病类型匹配样本的风险值,将目标疾病类型匹配样本划分为高风险样本集合和低风险样本集合;根据高风险样本集合和低风险样本集合,计算风险值;根据对数秩检验算法,计算高风险样本集合和低风险样本集合生存时间差异的显著性概率值,得到对数秩检验显著性概率值;确定风险值大于1、且对数秩检验显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目标疾病类型的生物标记物。
在可选的实施方式中,目标疾病类型包括下述任一种:多形性胶质母细胞瘤、肺鳞状细胞癌、卵巢癌、以及前列腺癌。
在可选的实施方式中,ncRNA包括下述任一种:长链非编码RNA、环状RNA、以及伪基因。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable GateArray,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessingUnit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-On-a-Chip,简称SOC)的形式实现。
本发明实施例还提供一种ncRNA协同竞争网络识别设备,该ncRNA协同竞争网络识别设备可以是前述台式电脑、笔记本电脑、服务器、云端、定制终端或智能终端等。
图10为本发明实施例提供的ncRNA协同竞争网络识别设备的结构示意图。
如图10所示,该ncRNA协同竞争网络识别设备,可以包括:处理器100、存储介质200和总线300,存储介质200存储有处理器100可执行的机器可读指令,当ncRNA协同竞争网络识别设备运行时,处理器100与存储介质200之间通过总线300通信,处理器100执行机器可读指令,以执行前述方法实施例中所述的ncRNA协同竞争网络识别方法。
需要说明的是,处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(GraphicsProcessing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(FieldProgrammable GateArray,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
存储介质可以包括:包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory,ROM)等,或其任意组合。作为举例,大容量存储器可以包括磁盘、光盘、固态驱动器等;可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等;易失性读写存储器可以包括随机存取存储器(RandomAccess Memory,RAM);RAM可以包括动态RAM(Dynamic RandomAccess Memory,DRAM),双倍数据速率同步动态RAM(DoubleDate-Rate Synchronous RAM,DDR SDRAM);静态RAM(Static Random-Access Memory,SRAM),晶闸管RAM(Thyristor-BasedRandomAccess Memory,T-RAM)和零电容器RAM(Zero-RAM)等。作为举例,ROM可以包括掩模ROM(MaskRead-OnlyMemory,MROM)、可编程ROM(Programmable Read-Only Memory,PROM)、可擦除可编程ROM(Programmable ErasableRead-only Memory,PEROM)、电可擦除可编程ROM(ElectricallyErasable Programmableread only memory,EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。
为了便于说明,在ncRNA协同竞争网络识别设备中仅描述了一个处理器。然而,应当注意,本发明中的ncRNA协同竞争网络识别设备还可以包括多个处理器,因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若ncRNA协同竞争网络识别设备的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
可选地,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行前述方法实施例中所述的ncRNA协同竞争网络识别方法的步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:RandomAccess Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种ncRNA协同竞争网络识别方法,其特征在于,包括:
获取目标疾病类型匹配样本的ncRNA和信使核糖核酸mRNA表达谱数据;
根据所述ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定所述ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对,包括:
获取所述ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对;
根据预设的ncRNA-mRNA竞争关系数据,计算所述ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值、正相关显著性概率值、以及敏感性偏相关系数值;
若所述ncRNA1-ncRNA2配对同时满足所述协同竞争mRNA统计显著性概率值小于第一阈值、所述正相关显著性概率值小于第二阈值、以及所述敏感性偏相关系数值大于第三阈值,则确定所述ncRNA1-ncRNA2配对为协同竞争关系对。
2.根据权利要求1所述的方法,其特征在于,计算所述ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值,包括:
根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡量所述ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
3.根据权利要求2所述的方法,其特征在于,计算所述ncRNA1-ncRNA2配对对应的正相关显著性概率值,包括:
计算所述ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数;
根据所述皮尔逊相关系数,计算获取所述正相关显著性概率值。
4.根据权利要求3所述的方法,其特征在于,计算所述ncRNA1-ncRNA2配对对应的敏感性偏相关系数值,包括:
根据所述ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件下对应的所述ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的偏相关系数值,计算获取所述敏感性偏相关系数值。
5.根据权利要求2-4任一项所述的方法,其特征在于,若所述ncRNA1-ncRNA2配对同时满足所述协同竞争mRNA统计显著性概率值小于第一阈值、所述正相关显著性概率值小于第二阈值、以及所述敏感性偏相关系数值大于第三阈值,则确定所述ncRNA1-ncRNA2配对为协同竞争关系对,包括:
若同时满足所述协同竞争mRNA统计显著性概率值小于0.05、所述正相关显著性概率值小于0.05、以及所述敏感性偏相关系数值大于0.1,则确定所述ncRNA1-ncRNA2配对为协同竞争关系对。
6.根据权利要求1-4任一项所述的方法,其特征在于,根据所述ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定所述ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,所述方法还包括:
通过融合多种不同的数据库,获取与所述目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关联的先验ncRNA-mRNA竞争网络数据,得到所述ncRNA-mRNA竞争关系数据。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
通过下述方式对确定为协同竞争关系对的所述ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA协同竞争网络进行评估:
1)拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布,以确定所述ncRNA-ncRNA协同竞争网络否属于无标度网络;
2)确定所述ncRNA-ncRNA协同竞争网络中连通度高前10%的节点为枢纽节点;
3)确定两个ncRNA均与所述目标疾病类型关联的ncRNA1-ncRNA2配对为所述目标疾病类型对应的ncRNA-ncRNA协同竞争对;
4)基于ncRNA-ncRNA协同竞争网络,利用马尔可夫聚类算法识别ncRNA-ncRNA协同竞争模块;
5)根据先验所述目标疾病类型关联的ncRNAs和超几何分布检验算法,确定与所述目标疾病类型功能性相关的显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为所述目标疾病类型对应的ncRNA-ncRNA协同竞争模块;
6)对于每个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个所述目标疾病类型匹配样本的风险值;根据所述目标疾病类型匹配样本的风险值,将所述目标疾病类型匹配样本划分为高风险样本集合和低风险样本集合;根据所述高风险样本集合和所述低风险样本集合,计算风险值;根据对数秩检验算法,计算所述高风险样本集合和所述低风险样本集合生存时间差异的显著性概率值,得到对数秩检验显著性概率值;确定所述风险值大于1、且所述对数秩检验显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为所述目标疾病类型的生物标记物。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述ncRNA包括下述任一种:长链非编码RNA、环状RNA、以及伪基因。
9.一种ncRNA协同竞争网络识别装置,其特征在于,包括:
获取模块,用于获取目标疾病类型匹配样本的ncRNA和信使核糖核酸mRNA表达谱数据;
识别模块,用于根据所述ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定所述ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911229601.9A CN111028887B (zh) | 2019-12-04 | 2019-12-04 | 一种ncRNA协同竞争网络识别方法和装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911229601.9A CN111028887B (zh) | 2019-12-04 | 2019-12-04 | 一种ncRNA协同竞争网络识别方法和装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111028887A CN111028887A (zh) | 2020-04-17 |
| CN111028887B true CN111028887B (zh) | 2021-04-06 |
Family
ID=70204255
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201911229601.9A Expired - Fee Related CN111028887B (zh) | 2019-12-04 | 2019-12-04 | 一种ncRNA协同竞争网络识别方法和装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111028887B (zh) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112071369B (zh) * | 2020-09-10 | 2021-08-03 | 暨南大学附属第一医院(广州华侨医院) | 模块标记物挖掘方法、装置、计算机设备及存储介质 |
| CN113539360B (zh) * | 2021-07-21 | 2023-03-31 | 西北工业大学 | 一种基于相关性优化和免疫富集的lncRNA特征识别方法 |
| CN113921085B (zh) * | 2021-10-26 | 2023-08-04 | 李永生 | 非编码rna基因协同调控作用的预测方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102799796A (zh) * | 2011-05-24 | 2012-11-28 | 上海聚类生物科技有限公司 | 一种LncRNA与mRNA关联分析的方法 |
| CN106202993A (zh) * | 2016-07-12 | 2016-12-07 | 王亚帝 | 利用mRNA表达谱与竞争性内源RNA表达谱联合筛选蒽环类药物心脏毒性基因的方法 |
| WO2019147663A1 (en) * | 2018-01-24 | 2019-08-01 | Freenome Holdings, Inc. | Methods and systems for abnormality detection in the patterns of nucleic acids |
-
2019
- 2019-12-04 CN CN201911229601.9A patent/CN111028887B/zh not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102799796A (zh) * | 2011-05-24 | 2012-11-28 | 上海聚类生物科技有限公司 | 一种LncRNA与mRNA关联分析的方法 |
| CN106202993A (zh) * | 2016-07-12 | 2016-12-07 | 王亚帝 | 利用mRNA表达谱与竞争性内源RNA表达谱联合筛选蒽环类药物心脏毒性基因的方法 |
| WO2019147663A1 (en) * | 2018-01-24 | 2019-08-01 | Freenome Holdings, Inc. | Methods and systems for abnormality detection in the patterns of nucleic acids |
Non-Patent Citations (2)
| Title |
|---|
| 《Inferring and analyzing module-specific lncRNA-mRNA causal regulatory networks in human cancer》;Junpeng Zhang 等;《Briefings in Bioinformatics》;20180228;第6-8页,图2 * |
| 《基于lncRNA-mRNA网络识别高血压相关的lncRNA及其功能》;王腾玉 等;《国际遗传学杂志》;20170815;第40卷(第4期);第1节 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111028887A (zh) | 2020-04-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Wu et al. | GAERF: predicting lncRNA-disease associations by graph auto-encoder and random forest | |
| Wang et al. | LightGBM: an effective miRNA classification method in breast cancer patients | |
| Yu et al. | MCLPMDA: A novel method for mi RNA‐disease association prediction based on matrix completion and label propagation | |
| Bandyopadhyay et al. | MBSTAR: multiple instance learning for predicting specific functional binding sites in microRNA targets | |
| CN111028887B (zh) | 一种ncRNA协同竞争网络识别方法和装置 | |
| CN110491442B (zh) | 单细胞miRNA调控网络的识别方法、装置、设备及存储介质 | |
| CN106874704B (zh) | 一种基于线性模型的基因共调控网络中关键调控子识别方法 | |
| Gao et al. | NPCMF: nearest profile-based collaborative matrix factorization method for predicting miRNA-disease associations | |
| Leng et al. | Construction of a long non‑coding RNA-mediated competitive endogenous RNA network reveals global patterns and regulatory markers in gestational diabetes | |
| CN110322926B (zh) | miRNA海绵模块的识别方法和装置 | |
| CN113724789A (zh) | 单样本ceRNA网络识别方法、装置、电子设备及存储介质 | |
| Zhang et al. | Construction of a disease‐specific lncRNA‐miRNA‐mRNA regulatory network reveals potential regulatory axes and prognostic biomarkers for hepatocellular carcinoma | |
| Zarringhalam et al. | Identification of competing endogenous RNAs of the tumor suppressor gene PTEN: a probabilistic approach | |
| CN111370062A (zh) | miRNA因果调控网络识别方法、装置、电子设备及存储介质 | |
| CN111383709B (zh) | ceRNA竞争模块识别方法、装置、电子设备及存储介质 | |
| CN115148291A (zh) | 单样本ceRNA竞争模块识别方法、装置、电子设备及存储介质 | |
| Wang et al. | Identifying potential small molecule–miRNA associations via Robust PCA based on γ-norm regularization | |
| CN110993020B (zh) | 一种miRNA海绵互作对的识别方法 | |
| Zhu et al. | Comprehensive analysis of N6‐methyladenosine‐related long non‐coding RNAs for prognosis prediction in liver hepatocellular carcinoma | |
| CN108108589B (zh) | 基于网络指标差异分析的食管鳞癌标记物的识别方法 | |
| Xiong et al. | Clinical and RNA expression integrated signature for urothelial bladder cancer prognosis | |
| Li et al. | Identification of alternative splicing regulatory patterns and characteristic splicing factors in heart failure using RNA-seq data and machine learning | |
| Hua et al. | Identifying breast cancer subtype related mirnas from two constructed mirnas interaction networks in silico method | |
| Croft et al. | Identification of Cholangiocarcinoma (CCA) Subtype-Specific Biomarkers | |
| CN114446388A (zh) | 一种慢性心衰患者表观遗传信息特征的应用 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210406 |
|
| CF01 | Termination of patent right due to non-payment of annual fee |