CN117806828B

CN117806828B - 一种基于对等内存访问的gpu合并舒尔补的方法

Info

Publication number: CN117806828B
Application number: CN202410088800.7A
Authority: CN
Inventors: 陈婧蕊; 吴涛; 卓立文; 陈芳芳; 程明厚; 郑瑞卿
Original assignee: Shenzhen Huada Jiutian Technology Co ltd
Current assignee: Shenzhen Huada Jiutian Technology Co ltd
Priority date: 2024-01-22
Filing date: 2024-01-22
Publication date: 2025-08-08
Anticipated expiration: 2044-01-22
Also published as: CN117806828A

Abstract

一种基于对等内存访问的GPU合并舒尔补的方法，包括：开启GPU设备之间的对等内存访问功能；对稀疏矩阵进行对角分块处理，在不同GPU上分解底层矩阵，存储为稀疏格式；对底层矩阵进行编号，并建立编号到底层矩阵数据存储地址的映射关系；遍历底层矩阵的舒尔补，根据每个位置的非零元素数量计算得到第一数组；按上层矩阵非零元素的存储顺序，对底层矩阵的舒尔补的所有非零元素进行排序，取出排序后的非零元素的位置和所在矩阵的编号，得到第二数组；查询第一数组及第二数组，根据底层矩阵的编号取到底层矩阵数据的存储地址，使用对等内存访问的方式，根据非零元素的位置从该存储地址取出数据，对标识的求和范围内取出的所有矩阵数据进行加和。

Description

一种基于对等内存访问的GPU合并舒尔补的方法

技术领域

本发明涉及电子设计自动化(EDA)电路仿真技术领域，尤其涉及一种基于对等内存访问的GPU合并舒尔补的方法。

背景技术

在电路瞬态仿真过程中，求解大规模稀疏线性方程组是最耗时的部分。目前，采用对角加边矩阵划分的方法求解稀疏线性方程时，需要将底层矩阵的舒尔补加到上一层的对应位置。使用多GPU(Graphics Processing Unit，缩写：GPU，图形处理器)求解时，底层矩阵的舒尔补以及上层矩阵位于不同的GPU上，如果拷贝到同一个GPU上进行累加，则需要消耗大量显存。如何减少对显存的占用量、避免因显存不足而无法仿真，是本领域需要解决的问题。

发明内容

为了解决现有技术的缺陷，本发明的目的在于提供一种基于对等内存访问的GPU合并舒尔补的方法，使用对等内存访问的方法，直接累加位于多个GPU上的底层矩阵的舒尔补，减少显存使用量，从而避免因显存不足而无法仿真。

为了实现上述目的，本发明提供的基于对等内存访问的GPU合并舒尔补的方法，包括以下步骤：

1)开启GPU设备之间的对等内存访问功能；

2)对稀疏矩阵进行对角分块处理，在不同GPU上分解底层矩阵，将底层矩阵的舒尔补存储为稀疏格式；

3)对所述底层矩阵进行编号，并建立所述编号到所述底层矩阵数据存储地址的映射关系；

4)遍历所述底层矩阵的舒尔补，根据各个位置的非零元素数量形成第一数组，并计算所述第一数组的前缀和数组，对所述前缀和数组首位补0得到第二数组；

5)按上层矩阵非零元素的存储顺序，对所述底层矩阵的舒尔补的所有非零元素进行排序，取排序后的非零元素的位置和所在矩阵的编号，得到第三数组；

6)查询所述第二数组及所述第三数组，根据底层矩阵的编号取到底层矩阵数据的存储地址，使用对等内存访问的方式，根据非零元素的位置从取到的存储地址中取出矩阵数据，对标识的求和范围内取出的所有矩阵数据进行加和。

进一步地，所述稀疏格式，包括：COO格式、行压缩格式和列压缩格式。

进一步地，所述步骤6)，进一步包括：

对上层矩阵的每个位置，在所述第二数组中查询元素，相邻元素标识求和范围；

对所述求和范围中的每个位置，在所述第三数组中查询底层矩阵的编号和非零元素的位置，根据底层矩阵的编号取到底层矩阵数据的存储地址。

进一步地，在对稀疏结构相同的多个稀疏矩阵进行计算时，执行一次所述步骤1)至步骤5)，重复执行所述步骤6)。

进一步地，所述步骤6)，进一步包括：对上层矩阵不同位置的加和进行并行计算。

进一步地，所述第一数组的前缀和等于所述第一数组中每个位置上的元素与其之前所有位置上的元素相加。

进一步地，所述根据各个位置的非零元素数量形成第一数组的步骤，进一步包括：按列依次计算底层矩阵中每个位置上的非零元素数量，得到第一数组。

更进一步地，使用CUDA c++开启多个GPU设备之间的对等内存访问功能。

为实现上述目的，本发明还提供一种电子设备，包括存储器、处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器，用于执行所述存储器所存放的计算机程序，以实现如上所述的基于对等内存访问的GPU合并舒尔补的方法。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上所述的基于对等内存访问的GPU合并舒尔补的方法。

本发明提供的基于对等内存访问的GPU合并舒尔补的方法，与现有技术相比具有如下有益效果：

将底层矩阵的舒尔补保留在分解时使用的若干GPU上，通过构造辅助数据结构，使用对等内存访问的方式进行加和，在合并舒尔补时可以并行计算，提高了计算效率；使用对等内存访问的方式进行计算，有效的节省了显存，避免因显存不足而无法仿真的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，并与本发明的实施例一起，用于解释本发明，并不构成对本发明的限制。在附图中：

图1为根据本发明实施例中基于对等内存访问的GPU合并舒尔补的方法流程图；

图2为根据本发明实施例中CUDA c++编程的示例代码示意图；

图3为根据本发明实施例中对角加边分块的矩阵示意图；

图4为根据本发明实施例中底层矩阵在不同的GPU上分解后的结果示意图；

图5为根据本发明实施例中底层矩阵的舒尔补示意图；

图6为根据本发明实施例中舒尔补在GPU上元素存储示意图；

图7为根据本发明实施例中元素顺序及ExpandPos数组示意图；

图8为根据本发明实施例的电子设备结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本发明中可能提及了“第一”、“第二”等概念仅用于对不同的装置、组件或部件进行区分，并非用于限定这些装置、组件或部件所执行的功能的顺序或者相互依存关系。

需要注意，本发明中可能提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。“多个”应理解为两个或以上。

GPU是一种众核并行处理器，在处理单元的数量上要远远超过CPU。传统的GPU只负责图形渲染，而大部分的处理都交给了CPU。现在的GPU已经发展为一种多核、多线程、具有强大计算能力和极高存储器带宽、可编程的处理器。在通用计算模型下，GPU作为CPU的协处理器工作，通过任务合理分配分解完成高性能计算。

稀疏线性方程组求解计算具有并行性。因为采用对角加边分块，底层矩阵可以在不同处理器并行分解，然后将右下角的舒尔补累加到上层矩阵，再对上层矩阵分解，以得到整个矩阵的LU分解。不同底层矩阵的LU分解互相独立，没有依赖关系，适合在多个GPU上并行执行。

现有技术中，采用对角加边矩阵划分的方法求解稀疏线性方程时，需要将底层矩阵的舒尔补加到上一层的对应位置。使用多GPU求解时，底层矩阵的舒尔补以及上层矩阵位于不同的GPU上，如果拷贝到同一个GPU上进行累加，则需要消耗大量显存。本发明使用对等内存访问的方法，直接累加位于多个GPU上的底层矩阵的舒尔补，减少显存使用量。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

图1为根据本发明实施例中基于对等内存访问的GPU合并舒尔补的方法流程图，如图1所示，首先，在步骤101，开启GPU设备之间的对等内存访问功能。对不同GPU设备间启用对等内存访问，不同GPU之间能够相互访问内部的内存数据。

本发明实施例中，以使用CUDA c++启用GPU设备间的对等内存访问功能为例，开启不同GPU设备之间的对等内存访问功能，图2为根据本发明实施例中CUDA c++编程的示例代码示意图。

在步骤102，对稀疏矩阵进行对角加边分块，在不同GPU上分解底层矩阵，将底层矩阵的舒尔补存储为稀疏格式。

图3为根据本发明实施例中对稀疏矩阵进行角加边分块处理后的矩阵示意图，如图3所示，对稀疏矩阵进行对角加边分块处理成矩阵A的形式；图4为根据本发明实施例中底层矩阵示意图，如图4所示，矩阵A包括四个底层矩阵，这些底层矩阵将在不同的GPU上分解，这四个底层矩阵对应的舒尔补如图5所示，其中，AA_top1、AA_top2、AA_top3、AA_top4相加即为上层矩阵。

在不同的GPU上分解底层矩阵后，将舒尔补按稀疏格式存储在这些GPU上，其元素存储如图6所示。

本发明实施例中，所述稀疏格式包括COO格式、行压缩格式和列压缩格式(本实施例中按列压缩存储为例)。其中，COO格式是将矩阵中的非零元素以坐标的方式存储；行压缩格式是将矩阵元素按行依次存储，非零元素从0开始编码索引号；列压缩格式是将矩阵元素按列依次存储，非零元素也是从0开始编码索引号。

在步骤103，对底层矩阵进行编号，并建立编号到底层矩阵数据的存储地址的映射关系。

本发明实施例中，对步骤102中底层矩阵进行编号，AA_top1，AA_top2，AA_top3，AA_top4分别编号为0,1,2,3。

在步骤104，遍历底层矩阵的舒尔补，以各个位置的非零元素数量为一个数组，计算此数组的前缀和数组并在首位补0得到ExpandIndex数组。

本发明实施例中，计算数组的前缀和，即分别计算数组中每个位置的前n项和，比如[1,2,3,4]，其前缀和数组为[1,1+2,1+2+3,1+2+3+4]。

遍历底层矩阵AA_top1，AA_top2，AA_top3，AA_top4，计算所有底层矩阵中每个位置的非零元素数量，如AA_top1、AA_top2、AA_1op3、AA_top4的第1行第1列位置上均为非零元素，那么第1行第1列位置上的非零元素数量为4，第2行第1列位置上均为零元素，即第2行第1列位置上的非零元素数量为0。如图5所示，统计得到所有底层矩阵每个位置的非零元素数量分别为4,0,1,1,4,1,2,2,4，计算其前缀和并在首位补0得到ExpandIndex数组为0,4,4,5,6,10,11,13,15,19。

在步骤105，将底层矩阵的舒尔补的所有非零元素，按上层矩阵非零元素存储顺序进行排序，取排序后的非零元素的位置和所在底层矩阵的编号，得到ExpandPos数组。

本发明实施例中，将底层矩阵AA_top1，AA_top2，AA_too3，AA_top4的所有非零元素，按上层矩阵非零元素的存储顺序排序；取出所有非零元素的位置和所在底层矩阵的编号，得到ExpandPos数组。元素顺序及ExpandPos数组如图7所示。

在步骤106，查询ExpandIndex数组以及ExpandIndex数组的元素，根据底层矩阵的编号取到底层矩阵数据存储地址，使用对等内存访问方式，根据非零元素的位置从此存储地址取到数据，对求和范围内取出的所有矩阵数据进行加和。

该步骤中，对于上层矩阵的每个位置，在ExpandIndex数组中查询元素，相邻元素标识求和范围；对求和范围中的每个位置，在ExpandPos数组中查询矩阵的编号和非零元素的位置，根据矩阵的编号取到底层矩阵数据的存储地址，再使用对等内存访问方式，根据非零元素的位置从该存储地址取到数据，并对求和范围内取出的所有矩阵数据进行加和。该步骤中，上层矩阵不同位置的加和可以并行计算。

本发明实施例中，对上层矩阵的每个位置，使用底层矩阵对应的元素进行求和。以AA_top第二行第二列的元素为例，在存储中的位置为4，ExpandIndex[4]和ExpandIndex[5]分别为6和10，ExpandPos[6～9]为{1,0},{2,1},{2,2},{1,3}，分别对应0号矩阵位置1的元素a22、1号矩阵位置2的元素b22、2号矩阵位置2的元素c22和3号矩阵位置1的元素d22，将4个值取出累加到第二行第二列上。AA_top其它位置的求和以此类推，不同位置的求和可以并行计算。

在步骤107，在对稀疏结构相同的多个稀疏矩阵进行计算时，步骤101至步骤105仅需要执行一次，重复执行步骤106即可。

本发明实施例中，还提供了一种电子设备，图8为根据本发明实施例的电子设备结构示意图，如图8所示，本发明的电子设备，包括处理器801，以及存储器802，其中，

存储器802存储有计算机程序，计算机程序在被处理器801读取执行时，执行如上所述的基于对等内存访问的GPU合并舒尔补的方法实施例中的步骤。

本发明实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行如上所述的基于对等内存访问的GPU合并舒尔补的方法实施例中的步骤。

在本实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本领域普通技术人员可以理解：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对等内存访问的GPU合并舒尔补的方法，其特征在于，包括以下步骤：

1)开启GPU设备之间的对等内存访问功能；

2.根据权利要求1所述的基于对等内存访问的GPU合并舒尔补的方法，其特征在于，所述稀疏格式，包括：COO格式、行压缩格式和列压缩格式。

3.根据权利要求1所述的基于对等内存访问的GPU合并舒尔补的方法，其特征在于，所述步骤6)，进一步包括：

4.根据权利要求1所述的基于对等内存访问的GPU合并舒尔补的方法，其特征在于，在对稀疏结构相同的多个稀疏矩阵进行计算时，执行一次所述步骤1)至步骤5)，重复执行所述步骤6)。

5.根据权利要求1所述的基于对等内存访问的GPU合并舒尔补的方法，其特征在于，所述步骤6)，进一步包括：对上层矩阵不同位置的加和进行并行计算。

6.根据权利要求1所述的基于对等内存访问的GPU合并舒尔补的方法，其特征在于，所述第一数组的前缀和等于所述第一数组中每个位置上的元素与其之前所有位置上的元素相加。

7.根据权利要求1所述的基于对等内存访问的GPU合并舒尔补的方法，其特征在于，所述根据各个位置的非零元素数量形成第一数组的步骤，进一步包括：按列依次计算底层矩阵中每个位置上的非零元素数量，得到第一数组。

8.根据权利要求1所述的基于对等内存访问的GPU合并舒尔补的方法，其特征在于，使用CUDAc++开启多个GPU设备之间的对等内存访问功能。

9.一种电子设备，包括存储器、处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器，用于执行所述存储器所存放的计算机程序，以实现权利要求1至8任一项所述的基于对等内存访问的GPU合并舒尔补的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现权利要求1至8任一项所述的基于对等内存访问的GPU合并舒尔补的方法。