CN116884487B

CN116884487B - 一种基于最小熵算法的基因表达网络分析方法

Info

Publication number: CN116884487B
Application number: CN202310912377.3A
Authority: CN
Inventors: 夏志强; 江思容; 邹枚伶
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2025-07-15
Anticipated expiration: 2043-07-24
Also published as: CN116884487A

Abstract

本发明提供一种基于最小熵算法的基因表达网络分析方法，包括以下步骤：数据收集及预处理；基因间相关性获取；转换数据格式；基于基因相关性矩阵建立基因表达网络；使用Infomap多级网络聚类模型对基因表达网络进行聚类，利用随机游走的方式识别所有基因之间的关系，将同信息编码的基因划分为同一个群组，并对得到的每一个群组进行网络可视化。本申请基于最小熵算法选择相关性强的基因来构建基因表达网络，解决以往技术无法直接从计算过程中选择相关性强的基因去绘制表达网络的问题，并基于评估最小熵算法每个基因对于聚类任务的重要性，并选择最具代表性的基因作为聚类特征，提升聚类结果的准确性。

Description

一种基于最小熵算法的基因表达网络分析方法

技术领域

本发明涉及基因表达分析领域技术领域，尤其涉及一种基于最小熵算法的基因表达网络分析方法。

背景技术

基因表达分析在生物学研究中具有广泛的应用，可以用于研究不同物种、不同生物过程、不同疾病等方面的问题。分析基因表达数据的方法可以分为以下几种：差异分析、聚类分析、生物网络分析、功能注释分析等，这些方法常常互相结合，综合使用以达到更准确、更全面的结果。最小熵算法是一种用于决策树构建的算法，旨在通过最小化熵的值来选择最佳的特征进行分裂。相比于其他聚类算法，最小熵算法的优势在于其不需要先验知识，对于噪声和缺失数据的鲁棒性更强，并且易于解释结果。此外，最小熵算法在处理大规模数据时具有高效性，这使得它成为了分析大型数据集的有力工具。

而在现有软件的使用过程中，无法直接从计算过程中选择相关性强的基因去绘制表达网络。本发明通过对相关参数进行设计改良，使用者能更好的调整自己的聚类结果，最终可获得的数据及图片包括总的基因相关性文件以及各个模块的相关性文件，所有基因的表达网络以及单个模块的表达网络图，样本聚类图，K值评估图，基因及基因间相关性热图，基于得到的基因间关系，可构建出pathway等基因库的二级网络。

发明内容

鉴于此，本发明的目的在于提供一种基于最小熵算法的基因表达网络分析方法，通过获取基因间的相关性，得到基因间相关性矩阵，并基于最小熵算法选择相关性强的基因来构建基因表达网络，解决以往技术无法直接从计算过程中选择相关性强的基因去绘制表达网络的问题。

为实现上述发明目的，本发明提供一种基于最小熵算法的基因表达网络分析方法，所述方法包括以下步骤：

S1.数据收集及预处理：收集各类表达数据或芯片数据，进行预处理，并绘制样本相关性矩阵，去除离群样本；

S2.基因间相关性获取：使用Pearson相关系数，计算所有基因间的相关性，构建基因相关性矩阵；其中，所述Pearson相关系数在统计学中，是用于度量两个变量X和Y之间的相关(线性相关)，Pearson相关系数的值范围在-1和1之间，值越接近于1或-1表示相关性越强，值越接近于0表示相关性越弱或不存在；

S3.转换数据格式：基于字段fromNode、toNode、weight，将基因相关性矩阵转换成DataFrame格式，并对字段fromNode、toNode进行标签编码；

S4.基于基因相关性矩阵建立基因表达网络：采用最小熵算法进行聚类分析，并构建出基因表达网络；

S5.使用Infomap多级网络聚类模型对基因表达网络进行聚类，利用随机游走的方式识别所有基因之间的关系，将同信息编码的基因划分为同一个社区，并对得到的每一个社区进行网络可视化。

需要说明的是，所述S1的具体步骤为：

1)收集需要聚类的数据集，包括RNA测序数据或芯片数据，所述数据集包含N个样本，每个样本由d个属性组成，可以表示为一个N x d的矩阵，将所有样本表示为一个矩阵，矩阵的每一行表示一个样本向量；

2)计算每个样本之间的距离：通过计算每个样本与其他样本之间的欧式距离，得到一个N x N的距离矩阵；对于两个d维样本向量X和Y，所述欧式距离d(X,Y)为：

d(X,Y)＝sqrt((x1-y1)^2+(x2-y2)^2+...+(xd-yd)^2)

其中，x1、x2、...、xd和y1、y2、...、yd分别是向量X和向量Y在每个维度上的取值；

3)选择簇的数量k，然后使用k-means算法将样本聚类成k个簇；

4)观察是否有离群值或异常值，包括去除无效数据、标准化处理、选择特征基因，并绘制样本相关性矩阵。

需要说明的是，所述S3中基于字段fromNode、toNode、weight，将基因相关性矩阵转换成DataFrame格式，并对字段fromNode、toNode进行标签编码的具体步骤如下：

1)使用Python中的pandas库，将基因相关性矩阵存储在一个名为corr_matrix的变量中，所述corr_matrix是一个基因相关性矩阵；

2)导入pandas库：使用pandas的DataFrame函数创建一个空的DataFrame数组：将基因相关性矩阵设置为DataFrame数组的值，所述DataFrame数组使用基因名称作为行和列索引；

3)将DataFrame的行和列索引设置为基因名称或其他相应的标识符。

需要说明的是，所述S4中采用最小熵算法进行聚类分析并构建出基因表达网络的具体步骤为：

1)选定熵函数、距离度量的相应参数；

2)最小化样本间的信息熵；

3)将数据点分成不同的簇；

4)构建出基因表达网络，在基因表达网络中，每个基因可以表示为节点，基因间的相关性可以表示为边。

需要说明的是，所述S5中Infomap多级网络聚类模型的社区分类评估公式表示为：

$Q＝\sum_{i}(e_{ii}-a_{i}^2)+\frac{1}{2}\sum_{i\neqj}(e_{ij}-a_{i}a_{j})\delta(\sigma_i,\sigma_j)$

其中，$Q是表示社区划分的模块度(Modularity)，用于衡量社区结构的质量，$e_{ij}表示节点$i和节点$j之间的边权重，$a_{i}表示节点$i的度数，$\delta(\sigma_i,\sigma_j)是一个Kronecker Delta函数，如果节点$i和节点$j属于同一个模块，则该函数的值为1，否则为0，$\sigma_i表示节点$i所属的模块，Infomap算法的目标是找到一个最优的$\sigma_i分配方案，使得$Q最小化。

与现有技术相比，本发明的有益效果是：

(1)基于最小熵算法评估每个基因对于聚类任务的重要性，并选择最具代表性的基因作为聚类特征，提升聚类结果的准确性。

(2)基于最小熵算法选择相关性强的基因来构建基因表达网络，解决以往技术无法直接从计算过程中选择相关性强的基因去绘制表达网络的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于最小熵算法的基因表达网络分析方法的流程图。

图2是本发明实施例提供的一种基于最小熵算法的基因表达网络分析方法的样本聚类图。

图3是本发明实施例提供的一种基于最小熵算法的基因表达网络分析方法的基因聚类图。

图4-a、图4-b、图4-c是本发明实施例提供的一种基于最小熵算法的基因表达网络分析方法的基因表达网络可视化示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所列举实施例只用于解释本发明，并非用于限定本发明的范围。

参照图1，本实施例提供一种基于最小熵算法的基因表达网络分析方法，具体步骤为：

S1.参照图2，数据收集及预处理：收集需要聚类的数据集，包括RNA测序数据或芯片数据，所述数据集包含N个样本，每个样本由d个属性组成，可以表示为一个N x d的矩阵，将所有样本表示为一个矩阵，矩阵的每一行表示一个样本向量；计算每个样本之间的距离：通过计算每个样本与其他样本之间的欧式距离，得到一个N x N的距离矩阵；对于两个d维样本向量X和Y，所述欧式距离d(X,Y)为：

d(X,Y)＝sqrt((x1-y1)^2+(x2-y2)^2+...+(xd-yd)^2)

选择簇的数量k，然后使用k-means算法将样本聚类成k个簇；观察是否有离群值或异常值，包括去除无效数据、标准化处理、选择特征基因，并绘制样本相关性矩阵。

S3.转换数据格式：基于字段fromNode、toNode、weight，使用Python中的pandas库，将基因相关性矩阵存储在一个名为corr_matrix的变量中，所述corr_matrix是一个基因相关性矩阵；导入pandas库：使用pandas的DataFrame函数创建一个空的DataFrame数组：将基因相关性矩阵设置为DataFrame数组的值，令基因相关性矩阵实现DataFrame格式的转换，所述DataFrame数组使用基因名称作为行和列索引；

S4.基于基因相关性矩阵建立基因表达网络：选定熵函数、距离度量的相应参数；最小化样本间的信息熵；将数据点分成不同的簇；构建出基因表达网络，在基因表达网络中，每个基因可以表示为节点，基因间的相关性可以表示为边。

S5.参照图3-4，使用Infomap多级网络聚类模型对基因表达网络进行聚类，利用随机游走的方式识别所有基因之间的关系，将同信息编码的基因划分为同一个社区，并对得到的每一个社区进行网络可视化；所述S5中Infomap多级网络聚类模型的社区分类评估公式表示为：

需要说明的是，基于最小熵算法评估每个基因对于聚类任务的重要性，并选择最具代表性的基因作为聚类特征，提升了聚类结果的准确性。

根据基因表达社区可视化结果，用户可以对基因表达社区结构进行解析、挖掘，解决以往技术无法直接从计算过程中选择相关性强的基因去绘制表达网络、实现可视化操作的问题。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于最小熵算法的基因表达网络分析方法，其特征在于，所述方法包括以下步骤：

S1.数据收集及预处理：收集各类RNA测序数据，进行预处理，并绘制样本相关性矩阵，去除离群样本，具体为：

1)收集需要聚类的RNA测序数据集，所述数据集包含N个样本，每个样本由d个属性组成，可以表示为一个N x d的矩阵，将所有样本表示为一个矩阵，矩阵的每一行表示一个样本向量；

d(X,Y)＝sqrt((x1-y1)^2+(x2-y2)^2+...+(xd-yd)^2)

3)选择簇的数量k，然后使用k-means算法将样本聚类成k个簇；

4)观察是否有离群值或异常值，包括去除无效数据、标准化处理、选择特征基因，并绘制样本相关性矩阵；

S4.基于基因相关性矩阵建立基因表达网络：采用最小熵算法进行聚类分析，并构建出基因表达网络，具体步骤为：

1)选定熵函数、距离度量的相应参数；

2)最小化样本间的信息熵；

3)将数据点分成不同的簇；

4)构建出基因表达网络，在基因表达网络中，每个基因可以表示为节点，基因间的相关性可以表示为边；

2.根据权利要求1所述的一种基于最小熵算法的基因表达网络分析方法，其特征在于，所述S3中基于字段fromNode、toNode、weight，将基因相关性矩阵转换成DataFrame格式，并对字段fromNode、toNode进行标签编码的具体步骤如下：

3.根据权利要求1所述的一种基于最小熵算法的基因表达网络分析方法，其特征在于，所述S5中Infomap多级网络聚类模型的社区分类评估公式表示为：