CN116884487B - 一种基于最小熵算法的基因表达网络分析方法 - Google Patents
一种基于最小熵算法的基因表达网络分析方法Info
- Publication number
- CN116884487B CN116884487B CN202310912377.3A CN202310912377A CN116884487B CN 116884487 B CN116884487 B CN 116884487B CN 202310912377 A CN202310912377 A CN 202310912377A CN 116884487 B CN116884487 B CN 116884487B
- Authority
- CN
- China
- Prior art keywords
- gene
- correlation
- matrix
- gene expression
- expression network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于最小熵算法的基因表达网络分析方法,包括以下步骤:数据收集及预处理;基因间相关性获取;转换数据格式;基于基因相关性矩阵建立基因表达网络;使用Infomap多级网络聚类模型对基因表达网络进行聚类,利用随机游走的方式识别所有基因之间的关系,将同信息编码的基因划分为同一个群组,并对得到的每一个群组进行网络可视化。本申请基于最小熵算法选择相关性强的基因来构建基因表达网络,解决以往技术无法直接从计算过程中选择相关性强的基因去绘制表达网络的问题,并基于评估最小熵算法每个基因对于聚类任务的重要性,并选择最具代表性的基因作为聚类特征,提升聚类结果的准确性。
Description
技术领域
本发明涉及基因表达分析领域技术领域,尤其涉及一种基于最小熵算法的基因表达网络分析方法。
背景技术
基因表达分析在生物学研究中具有广泛的应用,可以用于研究不同物种、不同生物过程、不同疾病等方面的问题。分析基因表达数据的方法可以分为以下几种:差异分析、聚类分析、生物网络分析、功能注释分析等,这些方法常常互相结合,综合使用以达到更准确、更全面的结果。最小熵算法是一种用于决策树构建的算法,旨在通过最小化熵的值来选择最佳的特征进行分裂。相比于其他聚类算法,最小熵算法的优势在于其不需要先验知识,对于噪声和缺失数据的鲁棒性更强,并且易于解释结果。此外,最小熵算法在处理大规模数据时具有高效性,这使得它成为了分析大型数据集的有力工具。
而在现有软件的使用过程中,无法直接从计算过程中选择相关性强的基因去绘制表达网络。本发明通过对相关参数进行设计改良,使用者能更好的调整自己的聚类结果,最终可获得的数据及图片包括总的基因相关性文件以及各个模块的相关性文件,所有基因的表达网络以及单个模块的表达网络图,样本聚类图,K值评估图,基因及基因间相关性热图,基于得到的基因间关系,可构建出pathway等基因库的二级网络。
发明内容
鉴于此,本发明的目的在于提供一种基于最小熵算法的基因表达网络分析方法,通过获取基因间的相关性,得到基因间相关性矩阵,并基于最小熵算法选择相关性强的基因来构建基因表达网络,解决以往技术无法直接从计算过程中选择相关性强的基因去绘制表达网络的问题。
为实现上述发明目的,本发明提供一种基于最小熵算法的基因表达网络分析方法,所述方法包括以下步骤:
S1.数据收集及预处理:收集各类表达数据或芯片数据,进行预处理,并绘制样本相关性矩阵,去除离群样本;
S2.基因间相关性获取:使用Pearson相关系数,计算所有基因间的相关性,构建基因相关性矩阵;其中,所述Pearson相关系数在统计学中,是用于度量两个变量X和Y之间的相关(线性相关),Pearson相关系数的值范围在-1和1之间,值越接近于1或-1表示相关性越强,值越接近于0表示相关性越弱或不存在;
S3.转换数据格式:基于字段fromNode、toNode、weight,将基因相关性矩阵转换成DataFrame格式,并对字段fromNode、toNode进行标签编码;
S4.基于基因相关性矩阵建立基因表达网络:采用最小熵算法进行聚类分析,并构建出基因表达网络;
S5.使用Infomap多级网络聚类模型对基因表达网络进行聚类,利用随机游走的方式识别所有基因之间的关系,将同信息编码的基因划分为同一个社区,并对得到的每一个社区进行网络可视化。
需要说明的是,所述S1的具体步骤为:
1)收集需要聚类的数据集,包括RNA测序数据或芯片数据,所述数据集包含N个样本,每个样本由d个属性组成,可以表示为一个N x d的矩阵,将所有样本表示为一个矩阵,矩阵的每一行表示一个样本向量;
2)计算每个样本之间的距离:通过计算每个样本与其他样本之间的欧式距离,得到一个N x N的距离矩阵;对于两个d维样本向量X和Y,所述欧式距离d(X,Y)为:
d(X,Y)=sqrt((x1-y1)^2+(x2-y2)^2+...+(xd-yd)^2)
其中,x1、x2、...、xd和y1、y2、...、yd分别是向量X和向量Y在每个维度上的取值;
3)选择簇的数量k,然后使用k-means算法将样本聚类成k个簇;
4)观察是否有离群值或异常值,包括去除无效数据、标准化处理、选择特征基因,并绘制样本相关性矩阵。
需要说明的是,所述S3中基于字段fromNode、toNode、weight,将基因相关性矩阵转换成DataFrame格式,并对字段fromNode、toNode进行标签编码的具体步骤如下:
1)使用Python中的pandas库,将基因相关性矩阵存储在一个名为corr_matrix的变量中,所述corr_matrix是一个基因相关性矩阵;
2)导入pandas库:使用pandas的DataFrame函数创建一个空的DataFrame数组:将基因相关性矩阵设置为DataFrame数组的值,所述DataFrame数组使用基因名称作为行和列索引;
3)将DataFrame的行和列索引设置为基因名称或其他相应的标识符。
需要说明的是,所述S4中采用最小熵算法进行聚类分析并构建出基因表达网络的具体步骤为:
1)选定熵函数、距离度量的相应参数;
2)最小化样本间的信息熵;
3)将数据点分成不同的簇;
4)构建出基因表达网络,在基因表达网络中,每个基因可以表示为节点,基因间的相关性可以表示为边。
需要说明的是,所述S5中Infomap多级网络聚类模型的社区分类评估公式表示为:
$Q=\sum_{i}(e_{ii}-a_{i}^2)+\frac{1}{2}\sum_{i\neqj}(e_{ij}-a_{i}a_{j})\delta(\sigma_i,\sigma_j)$
其中,$Q是表示社区划分的模块度(Modularity),用于衡量社区结构的质量,$e_{ij}表示节点$i和节点$j之间的边权重,$a_{i}表示节点$i的度数,$\delta(\sigma_i,\sigma_j)是一个Kronecker Delta函数,如果节点$i和节点$j属于同一个模块,则该函数的值为1,否则为0,$\sigma_i表示节点$i所属的模块,Infomap算法的目标是找到一个最优的$\sigma_i分配方案,使得$Q最小化。
与现有技术相比,本发明的有益效果是:
(1)基于最小熵算法评估每个基因对于聚类任务的重要性,并选择最具代表性的基因作为聚类特征,提升聚类结果的准确性。
(2)基于最小熵算法选择相关性强的基因来构建基因表达网络,解决以往技术无法直接从计算过程中选择相关性强的基因去绘制表达网络的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于最小熵算法的基因表达网络分析方法的流程图。
图2是本发明实施例提供的一种基于最小熵算法的基因表达网络分析方法的样本聚类图。
图3是本发明实施例提供的一种基于最小熵算法的基因表达网络分析方法的基因聚类图。
图4-a、图4-b、图4-c是本发明实施例提供的一种基于最小熵算法的基因表达网络分析方法的基因表达网络可视化示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所列举实施例只用于解释本发明,并非用于限定本发明的范围。
参照图1,本实施例提供一种基于最小熵算法的基因表达网络分析方法,具体步骤为:
S1.参照图2,数据收集及预处理:收集需要聚类的数据集,包括RNA测序数据或芯片数据,所述数据集包含N个样本,每个样本由d个属性组成,可以表示为一个N x d的矩阵,将所有样本表示为一个矩阵,矩阵的每一行表示一个样本向量;计算每个样本之间的距离:通过计算每个样本与其他样本之间的欧式距离,得到一个N x N的距离矩阵;对于两个d维样本向量X和Y,所述欧式距离d(X,Y)为:
d(X,Y)=sqrt((x1-y1)^2+(x2-y2)^2+...+(xd-yd)^2)
其中,x1、x2、...、xd和y1、y2、...、yd分别是向量X和向量Y在每个维度上的取值;
选择簇的数量k,然后使用k-means算法将样本聚类成k个簇;观察是否有离群值或异常值,包括去除无效数据、标准化处理、选择特征基因,并绘制样本相关性矩阵。
S2.基因间相关性获取:使用Pearson相关系数,计算所有基因间的相关性,构建基因相关性矩阵;其中,所述Pearson相关系数在统计学中,是用于度量两个变量X和Y之间的相关(线性相关),Pearson相关系数的值范围在-1和1之间,值越接近于1或-1表示相关性越强,值越接近于0表示相关性越弱或不存在;
S3.转换数据格式:基于字段fromNode、toNode、weight,使用Python中的pandas库,将基因相关性矩阵存储在一个名为corr_matrix的变量中,所述corr_matrix是一个基因相关性矩阵;导入pandas库:使用pandas的DataFrame函数创建一个空的DataFrame数组:将基因相关性矩阵设置为DataFrame数组的值,令基因相关性矩阵实现DataFrame格式的转换,所述DataFrame数组使用基因名称作为行和列索引;
S4.基于基因相关性矩阵建立基因表达网络:选定熵函数、距离度量的相应参数;最小化样本间的信息熵;将数据点分成不同的簇;构建出基因表达网络,在基因表达网络中,每个基因可以表示为节点,基因间的相关性可以表示为边。
S5.参照图3-4,使用Infomap多级网络聚类模型对基因表达网络进行聚类,利用随机游走的方式识别所有基因之间的关系,将同信息编码的基因划分为同一个社区,并对得到的每一个社区进行网络可视化;所述S5中Infomap多级网络聚类模型的社区分类评估公式表示为:
$Q=\sum_{i}(e_{ii}-a_{i}^2)+\frac{1}{2}\sum_{i\neqj}(e_{ij}-a_{i}a_{j})\delta(\sigma_i,\sigma_j)$
其中,$Q是表示社区划分的模块度(Modularity),用于衡量社区结构的质量,$e_{ij}表示节点$i和节点$j之间的边权重,$a_{i}表示节点$i的度数,$\delta(\sigma_i,\sigma_j)是一个Kronecker Delta函数,如果节点$i和节点$j属于同一个模块,则该函数的值为1,否则为0,$\sigma_i表示节点$i所属的模块,Infomap算法的目标是找到一个最优的$\sigma_i分配方案,使得$Q最小化。
需要说明的是,基于最小熵算法评估每个基因对于聚类任务的重要性,并选择最具代表性的基因作为聚类特征,提升了聚类结果的准确性。
根据基因表达社区可视化结果,用户可以对基因表达社区结构进行解析、挖掘,解决以往技术无法直接从计算过程中选择相关性强的基因去绘制表达网络、实现可视化操作的问题。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于最小熵算法的基因表达网络分析方法,其特征在于,所述方法包括以下步骤:
S1.数据收集及预处理:收集各类RNA测序数据,进行预处理,并绘制样本相关性矩阵,去除离群样本,具体为:
1)收集需要聚类的RNA测序数据集,所述数据集包含N个样本,每个样本由d个属性组成,可以表示为一个N x d的矩阵,将所有样本表示为一个矩阵,矩阵的每一行表示一个样本向量;
2)计算每个样本之间的距离:通过计算每个样本与其他样本之间的欧式距离,得到一个N x N的距离矩阵;对于两个d维样本向量X和Y,所述欧式距离d(X,Y)为:
d(X,Y)=sqrt((x1-y1)^2+(x2-y2)^2+...+(xd-yd)^2)
其中,x1、x2、...、xd和y1、y2、...、yd分别是向量X和向量Y在每个维度上的取值;
3)选择簇的数量k,然后使用k-means算法将样本聚类成k个簇;
4)观察是否有离群值或异常值,包括去除无效数据、标准化处理、选择特征基因,并绘制样本相关性矩阵;
S2.基因间相关性获取:使用Pearson相关系数,计算所有基因间的相关性,构建基因相关性矩阵;其中,所述Pearson相关系数在统计学中,是用于度量两个变量X和Y之间的相关(线性相关),Pearson相关系数的值范围在-1和1之间,值越接近于1或-1表示相关性越强,值越接近于0表示相关性越弱或不存在;
S3.转换数据格式:基于字段fromNode、toNode、weight,将基因相关性矩阵转换成DataFrame格式,并对字段fromNode、toNode进行标签编码;
S4.基于基因相关性矩阵建立基因表达网络:采用最小熵算法进行聚类分析,并构建出基因表达网络,具体步骤为:
1)选定熵函数、距离度量的相应参数;
2)最小化样本间的信息熵;
3)将数据点分成不同的簇;
4)构建出基因表达网络,在基因表达网络中,每个基因可以表示为节点,基因间的相关性可以表示为边;
S5.使用Infomap多级网络聚类模型对基因表达网络进行聚类,利用随机游走的方式识别所有基因之间的关系,将同信息编码的基因划分为同一个社区,并对得到的每一个社区进行网络可视化。
2.根据权利要求1所述的一种基于最小熵算法的基因表达网络分析方法,其特征在于,所述S3中基于字段fromNode、toNode、weight,将基因相关性矩阵转换成DataFrame格式,并对字段fromNode、toNode进行标签编码的具体步骤如下:
1)使用Python中的pandas库,将基因相关性矩阵存储在一个名为corr_matrix的变量中,所述corr_matrix是一个基因相关性矩阵;
2)导入pandas库:使用pandas的DataFrame函数创建一个空的DataFrame数组:将基因相关性矩阵设置为DataFrame数组的值,所述DataFrame数组使用基因名称作为行和列索引;
3)将DataFrame的行和列索引设置为基因名称或其他相应的标识符。
3.根据权利要求1所述的一种基于最小熵算法的基因表达网络分析方法,其特征在于,所述S5中Infomap多级网络聚类模型的社区分类评估公式表示为:
$Q=\sum_{i}(e_{ii}-a_{i}^2)+\frac{1}{2}\sum_{i\neqj}(e_{ij}-a_{i}a_{j})\delta(\sigma_i,\sigma_j)$
其中,$Q是表示社区划分的模块度(Modularity),用于衡量社区结构的质量,$e_{ij}表示节点$i和节点$j之间的边权重,$a_{i}表示节点$i的度数,$\delta(\sigma_i,\sigma_j)是一个Kronecker Delta函数,如果节点$i和节点$j属于同一个模块,则该函数的值为1,否则为0,$\sigma_i表示节点$i所属的模块,Infomap算法的目标是找到一个最优的$\sigma_i分配方案,使得$Q最小化。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310912377.3A CN116884487B (zh) | 2023-07-24 | 2023-07-24 | 一种基于最小熵算法的基因表达网络分析方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310912377.3A CN116884487B (zh) | 2023-07-24 | 2023-07-24 | 一种基于最小熵算法的基因表达网络分析方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN116884487A CN116884487A (zh) | 2023-10-13 |
| CN116884487B true CN116884487B (zh) | 2025-07-15 |
Family
ID=88254710
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310912377.3A Active CN116884487B (zh) | 2023-07-24 | 2023-07-24 | 一种基于最小熵算法的基因表达网络分析方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116884487B (zh) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119601090B (zh) * | 2024-11-19 | 2025-11-18 | 广东药科大学 | 一种基于图卷积神经网络的基因共表达网络识别方法和系统 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109215735A (zh) * | 2018-09-21 | 2019-01-15 | 西南民族大学 | 一种构建基因调控网络的方法 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11321609B2 (en) * | 2016-10-19 | 2022-05-03 | Samsung Electronics Co., Ltd | Method and apparatus for neural network quantization |
| CN113611366B (zh) * | 2021-07-26 | 2022-04-29 | 哈尔滨工业大学(深圳) | 基于图神经网络的基因模块挖掘方法、装置、计算机设备 |
| CN113673619B (zh) * | 2021-08-27 | 2023-08-04 | 湖南航天远望科技有限公司 | 一种基于拓扑分析的地理大数据空间潜模式分析方法 |
| CN115691661A (zh) * | 2022-09-26 | 2023-02-03 | 之江实验室 | 一种基于图聚类的基因编码育种预测方法和装置 |
-
2023
- 2023-07-24 CN CN202310912377.3A patent/CN116884487B/zh active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109215735A (zh) * | 2018-09-21 | 2019-01-15 | 西南民族大学 | 一种构建基因调控网络的方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN116884487A (zh) | 2023-10-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
| CN114610941B (zh) | 基于对比学习的文物图像检索系统 | |
| CN112487991B (zh) | 一种基于特征自学习的高精度负荷辨识方法及系统 | |
| CN118969060B (zh) | 基于迁移学习和三通道组合gnn预测蛋白质功能的方法 | |
| CN117437976B (zh) | 基于基因检测的疾病风险筛查方法及系统 | |
| CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
| CN116884487B (zh) | 一种基于最小熵算法的基因表达网络分析方法 | |
| CN119397309A (zh) | 海量单细胞数据的自监督聚类方法 | |
| CN112071362B (zh) | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 | |
| CN119207582B (zh) | 一种基于对比学习的单细胞多组学基因调控网络推理方法 | |
| CN116842330B (zh) | 一种可对比历史记录的保健信息处理方法及装置 | |
| CN118842720A (zh) | 基于Transformer和扩散模型的网络业务流量预测方法及系统 | |
| CN118365251A (zh) | 一种基于物联网的化工物料仓储管理系统 | |
| CN112445939A (zh) | 一种社交网络群体发现系统、方法及存储介质 | |
| CN118570637A (zh) | 一种基于植被信息感知网络的高光谱遥感湿地制图方法 | |
| CN108563662A (zh) | 一种改进初始聚类中心选择的方法及系统 | |
| CN116108892A (zh) | 一种基于网络表征学习的社团检测方法及系统 | |
| CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
| CN114692689B (zh) | 基于空间注意力剪枝胶囊网络的表面肌电信号分类方法 | |
| CN117746997B (zh) | 一种基于多模态先验信息的顺式调控模体识别方法 | |
| CN115238819B (zh) | 一种基于图神经网络的特殊人员特征信息分类方法及系统 | |
| CN117093913B (zh) | 一种辐射源识别方法、装置、设备及介质 | |
| CN120072105B (zh) | 一种任务特异性药物分子活性悬崖预测方法 | |
| CN117290742B (zh) | 一种基于动态聚类的信号时序数据故障诊断方法及系统 | |
| CN118820813B (zh) | 基于深度学习模型的产品聚类分析方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |