CN119716136A - 一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法 - Google Patents
一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法 Download PDFInfo
- Publication number
- CN119716136A CN119716136A CN202411816519.7A CN202411816519A CN119716136A CN 119716136 A CN119716136 A CN 119716136A CN 202411816519 A CN202411816519 A CN 202411816519A CN 119716136 A CN119716136 A CN 119716136A
- Authority
- CN
- China
- Prior art keywords
- module
- scale
- neg
- particle image
- res2raft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及粒子图像测速PIV领域,具体涉及一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法。旨在解决现有光流网络在复杂流场中对细粒度位移场预测不足的问题,特别是在多尺度涡旋和湍流流场中的应用。通过设计具有多尺度特征提取与全局信息交互的光流估计结构,Res2RAFT能够更精确地捕捉复杂流场中的细微流动特征,提升PIV任务中的流场预测精度和适应性。本发明提出的Res2RAFT粒子图像测速方法,克服了传统PIV方法在处理水下复杂流场时的不足,通过精细的多尺度特征提取和全局注意力机制,实现了对流场的高分辨率位移场预测,具有广泛的应用前景。
Description
技术领域
本发明涉及粒子图像测速PIV领域,具体涉及一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法。
背景技术
粒子图像测速(PIV)技术是实验流体力学中一种常用的流场测量方法,广泛应用于揭示流体运动的细节。然而,传统PIV方法在复杂流场中的测量精度和适应性方面存在局限性,尤其在水下或湍流环境中,由于光照不足和流场不规则性,传统的交叉相关法和变分光流法难以捕捉到细微的流动结构。
交叉相关法是PIV最常用的方法之一,它通过寻找连续图像对中局部窗口的最大相关性来估计流体的位移场。这种方法在简单流场中效果较好,但由于窗口尺寸固定,难以适应不同尺度的流动结构,导致复杂流场中的细微流动结构往往无法被有效捕捉。同时,该方法生成的速度场相对稀疏,难以实现流体的细粒度跟踪。变分光流法通过偏微分方程求解流场位移,能生成密集的速度场。然而,该方法的计算过程复杂,计算成本高,且在流场中梯度变化剧烈的区域容易出现误差。变分光流法通常依赖物理假设和先验知识,这种限制在实际应用中难以满足复杂流场的动态特征,尤其在高梯度和非线性流场中,容易失去精度。
近年来,随着深度学习的发展,光流网络逐渐被引入PIV任务,但现有网络在复杂流场下的细粒度预测仍面临诸多挑战。
随着计算机视觉和深度学习的发展,卷积神经网络(CNN)被广泛应用于PIV任务中,通过端到端的方式对粒子图像进行处理。这些深度学习模型,如FlowNet和LiteFlowNet等光流估计网络,将光流预测提升至一定水平,但仍存在一些不足:FlowNet系列网络在光流估计中引入了端到端的卷积网络结构,具备较高的密集光流预测能力。然而,FlowNet2的结构复杂,计算资源消耗大,模型训练时间长,同时对多尺度信息的捕捉能力有限,导致其在处理复杂的湍流流场时,预测精度和泛化能力不足。LiteFlowNet采用轻量化设计,降低了计算成本,但由于参数量减少,模型在高分辨率细粒度预测上表现不足,难以同时兼顾预测精度和模型效率,尤其在复杂流场中,细微结构的捕捉能力较弱。RAFT作为一种递归型光流估计网络,通过全对特征匹配计算相关性体积,实现了高效精确的流场估计。尽管RAFT在密集光流估计中表现优异,但其多尺度特征提取能力有限,在复杂、细粒度的流动结构预测上仍有提升空间,尤其在具有多尺度涡旋结构的流场中,模型的局部特征表达不足。
Res2Net网络是一种具备多尺度特征提取能力的卷积神经网络,其Bottle2neck模块通过细粒度的特征划分和并行卷积操作,实现多尺度特征的逐层提取和融合。Bottle2neck的结构创新体现在以下两点,一是多尺度并行卷积:Bottle2neck模块将输入特征划分为若干尺度,每个尺度上进行并行卷积运算,并将不同尺度的特征进行融合。这种方式提升了模型对细粒度流动信息的捕捉能力,即使在图像分辨率较低的情况下,依然能够保留丰富的多尺度特征。二是特征分层组合:模块在卷积操作中逐步组合不同尺度的特征图,使得网络在保持计算效率的同时,最大化多尺度信息的利用。这种特征组合方式能够帮助模型在处理粒子图像中的多尺度运动信息时,保持对局部和全局信息的敏感性,适应PIV任务中复杂流场的预测需求。
GAM是一种通道与空间混合的全局注意力机制,能够增强模型对特征选择的敏感性。其核心在于通过通道注意力和空间注意力对输入特征进行选择性增强。通道注意力机制通过对特征图的通道维度进行加权,强化了特征之间的通道依赖性。在PIV任务中,通道注意力能够有效分辨不同粒子图像中的流场特征,抑制不重要的特征信息。空间注意力则对特征图的空间维度进行加权,通过聚焦流场中的显著特征区域,进一步优化模型对流动特性的关注点。GAM的通道和空间注意力协同工作,可以将全局信息有效地聚焦到重要特征上,显著提升复杂流场中涡流、湍流等不规则区域的细节捕捉能力。
目前已有的光流网络模型,如FlowNet、LiteFlowNet和RAFT,已展示出一定的光流估计性能,但在精度和多尺度特征提取能力上仍有改进空间。因此,提出一种基于深度学习的多尺度光流估计网络,以更好地处理复杂流场,具有重要意义。
发明内容
本发明的目的在于提供一种用于粒子图像测速(PIV)的高精度光流估计方法,即基于Res2Net多尺度特征提取和GAM全局注意力机制的Res2RAFT模型。该方法旨在解决现有光流网络在复杂流场中对细粒度位移场预测不足的问题,特别是在多尺度涡旋和湍流流场中的应用。通过设计具有多尺度特征提取与全局信息交互的光流估计结构,Res2RAFT能够更精确地捕捉复杂流场中的细微流动特征,提升PIV任务中的流场预测精度和适应性。
粒子图像测速(PIV)是实验流体力学中研究流场分布的重要手段,为揭示流体动态和速度场分布提供了关键技术支持。特别是在深海羽流等复杂水下流场环境中,PIV方法有助于观察粒子流动和扩散行为,这对研究水下粒子流场状态及其对深海生态环境的影响具有重要意义。深海羽流中的粒子运动特征复杂、流动结构细微,传统PIV方法在观测这种细粒度动态时存在分辨率和精度上的限制。
本发明的Res2RAFT模型通过引入Res2Net网络中的Bottle2neck模块以增强多尺度特征提取能力,并结合GAM全局注意力机制,实现了对水下复杂流场的精准捕捉。该方法在不同尺度上均可有效提取粒子图像中的流动特征,从而更加准确地预测流场中的位移场分布。Res2RAFT将为包括深海羽流在内的复杂水下流场提供一种高效、可靠的粒子图像测速解决方案,满足对水下粒子流场状态的细节观测需求,为海洋环境监测与保护提供技术支持。
本发明提供一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,包括以下步骤:
S1、获取PIV数据集以及数据预处理:
所述PIV数据集中的每个数据样本包括连续两帧的粒子图像以及该粒子图像对应的粒子真实速度;
S2、构建粒子图像测速模型,所述粒子图像测速模型基于RAFT光流网络,
所述RAFT光流网络包括特征提取网络、上下文网络、全对相关性层、GRU递归更新模块;
将RAFT光流网络的特征提取网络和上下文网络均替换为Res2encoder网络,
得到粒子图像测速模型;
所述Res2Encoder网络依次包括:卷积层一、RA-Bottle2neck模块、RB-
Bottle2neck模块、RA-Bottle2neck模块、RB-Bottle2neck模块、RA-Bottle2neck模块、RB-Bottle2neck模块、卷积层二;
所述卷积层一使用一个7×7的卷积层来生成64通道的初始特征图;
所述卷积层二使用一个1×1卷积生成128通道的输出特征图;
所述RA-Bottle2neck模块是基于Bottle2neck结构的带有残差学习的瓶颈结构,用于下采样以保持多尺度信息,在每个残差块中引入了多尺度的特征处理方式,将Res2Encoder模块的输入特征映射划分为s个子集,如以下公式,每个子集独立进行卷积操作,在若干个尺度上提取特征,以增加特征空间的多样性:
对于第一个子集xi,不进行卷积操作,直接保留原始输入作为输出yi;第二个子集x2经过一个标准的3×3卷积操作K2(x2)后得到输出y2;从第三个子集x3开始,卷积操作不仅依赖于该组输入x3,还会结合前一组的输出y2,即K3(x3+y2),从而逐层融合来自不同尺度的信息;逐层累积和递归的特征提取方式继续进行,直到最后一个子集xs的处理完成;
RB-Bottle2neck模块是基于Bottle2neck结构的带有全局注意力机制的瓶颈结构,用于保持分辨率;RB-Bottle2neck模块在RA-Bottle2neck模块的基础上添加了一个全局注意力机制GAM,所述全局注意力机制GAM添加在在RA-Bottle2neck模块的最后一层之后;且RB-Bottle2neck模块中的所述全局注意力机制GAM包括通道注意力和空间注意力模块,利用通道和空间维度的交互,使所述粒子图像测速模型专注于连续两帧中的粒子流动信息;
S3构建损失函数,通过监督学习的方式,使用步骤S1中所述PIV数据集对粒子图像测速模型进行模型训练。
优选的,步骤S1中,所述数据预处理具体包括:将PIV数据集中的粒子图像尺寸进行统一处理,长宽大小全部都设置为256×256,再对图像进行正则化处理以保证适配Res2Encoder的输入。
优选的,步骤S2中,s=4,所述RA-Bottle2neck模块的stride和baseWidth参数分别设为2和26。
优选的,步骤S2中,所述RB-Bottle2neck模块的stride和baseWidth参数分别设为1和26。
优选的,步骤S3中,所述损失函数公式如下:
式中,n为PIV数据集中的样本数量,Fi为将PIV数据集中样本的连续两帧的粒子图像输入所述粒子图像测速模型后得到的光流预测值,Fgt为反映PIV数据集中样本中粒子真实速度的真实光流值;
优选的,λi=0.8n-i是每次预测的权重,给予后期预测更大的权重,以提升最终结果的精度。
优选的,所述全对相关性层用于对特征提取网络提取的特征进行全对相关性计算,得到一个四层相关性金字塔;
全对相关性层通过计算两帧图像中每个像素之间的相似性来建立像素之间的关联。通过按如下公式构建一个4D相关性体积进行相似性计算,所述4D相关性体积保存有所有像素对之间的特征向量的内积:
C(gθ(I1),gθ(I2))∈RH×W×H×W,Cijkl=∑hgθ(I1)ijh·gθ(I2)klh
在公式中,C是相关性体积,gθ(I1)和gθ(I2)是两帧图像通过特征编码器提取的特征图;
Cijkl代表的是卷积核中的第i,,j空间维度(如卷积核的宽度和高度)和第k,l通道维度的权重系数。
h是卷积计算的输入,它是输入图像或前一层特征图的局部区域的值。它是进行卷积操作时的一部分,卷积核通过它来提取特征。
该公式表示,两个图像中的每个像素对(即(i,j)和(k,l))通过计算内积来得到它们的相似性得分;
所述四层相关性金字塔由对相关性体积进行池化操作构建得到。
优选的,所述GRU递归更新模块使用了卷积GRU和分离卷积GRU来递归更新特征,逐步调整流场预测。在每次递归中,GRU根据输入的相关性特征、
当前的光流估计和隐藏状态,通过更新门和重置门保留重要的历史信息,同时结合当前特征,计算出光流增量,并对光流进行迭代更新;
所述分离卷积GRU通过水平和垂直两个方向上的分离卷积来捕捉更加细粒度的特征信息,使得光流估计更加精确。
本发明具有的有益效果:
本发明提供了一种用于粒子图像测速(PIV)的高精度光流估计方法,通过多尺度特征提取和全局注意力机制来增强模型对复杂流场的感知能力。该方法包括数据预处理、Res2Encoder特征提取、全对相关性计算、GRU递归优化、上采样以及高分辨率位移场输出等流程。特别适用于水下复杂环境的粒子位移场预测,能够应对水下光照不足、杂质干扰、流动不规则性等常见挑战,为复杂流场的高精度观测提供了一种可靠的解决方案。通过该方法,模型在处理复杂的水下流场(如深海羽流等)时,能够更精确地捕捉粒子的运动状态,有效提升了流场预测的分辨率和细节保留能力。本发明适合应用于水下环境的生态监测、流场研究等领域,提供更高的观察精度和可靠性。
本发明采用Res2Net的Bottle2neck模块构建Res2Encoder,利用多尺度特征提取对粒子图像中的流动信息进行分层处理。通过将输入特征划分为不同尺度并行卷积处理,该模块能够在不同尺度下有效提取流场中的细粒度特征。这种多尺度结构可以确保模型在处理复杂流动时,能够捕捉到从大尺度整体流动趋势到小尺度涡流的多层次信息。多尺度特征的融合使得模型在应对复杂流场时,具备更高的适应性和精度,有效提升了对细节信息的捕捉能力。
在模型中引入GAM全局注意力机制,通过通道和空间注意力的结合,提升了模型对重要特征的选择性。在PIV任务中,粒子图像中包含大量冗余信息,GAM机制能够聚焦于关键流动区域,抑制不相关特征,从而避免信息的分散。通道注意力机制在特征的通道维度上加权,增强了不同通道特征间的依赖关系;而空间注意力则通过加权空间维度的特征,集中于图像中的显著区域。GAM的引入使得Res2RAFT模型能够更好地适应高复杂度流场中的流动模式变化,特别是在湍流、涡旋等动态剧烈的场景中表现出色。
本发明的Res2RAFT模型通过多尺度特征提取与全局注意力机制的协同作用,显著提升了PIV任务在水下复杂环境中的实用性。该模型适用于流体力学中的多种应用场景,例如实验室环境中的模拟流场测试、海洋生态监测中的深海粒子流动观察,以及工业应用中的复杂流场评估。特别是在深海羽流、近海浮游颗粒流等具有复杂流动特征的场景中,本发明能够提供精准的流场观测数据,有助于揭示流体运动中的细节变化,为科学研究和环境保护提供技术支持。综合来看,本发明提出的Res2RAFT粒子图像测速方法,克服了传统PIV方法在处理水下复杂流场时的不足,通过精细的多尺度特征提取和全局注意力机制,实现了对流场的高分辨率位移场预测,具有广泛的应用前景。
附图说明
图1:Res2RAFT的整体结构图。
图2:Res2Encoder的层级结构。
图3:RA-Bottle2neck模块的多尺度卷积结构图。
图4:RB-Bottle2neck模块的多尺度卷积结构图。
图5:RB-Bottle2neck模块中GAM全局注意力机制的结构图。
图6:雷诺数200的预测结果图。
图7:Res2RAFT的实验结果与传统方法的比较图。
图8:Res2RAFT的实验结果与深度学习方法的比较。
具体实施方式
一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,本发明步骤:准备数据集并进行预处理;引入Res2Net网络中的Bottle2neck模块以增强多尺度特征提取能力,以及引入GAM(全局注意力机制)来提升特征的全局维度交互,减少信息弥散。后续通过相关性计算层、GRU递归更新模块、上采样模块等步骤方法使得改进模型Res2RAFT光流预测网络能够有效地从低分辨率特征中恢复出高分辨率的光流场,提高了流场测量的精度和适应性。包括下列步骤:
步骤1、数据集选择以及预处理:
本研究选取了专门用于评估粒子图像测速性能的数据集,即Cai等人利用计算流体力学的技术人工合成的数据集PIV Dataset。如表1,一共包含五个类别11650个成对的PIV粒子图像和标准流场结果。其中每对数据集中包含连续的两帧粒子图像以及该粒子图像对对应的真实速度结果。该数据集根据计算流体力学生成了各种流的运动过程图像。PIVDataset数据集的详细信息见表1。
表1数据集构成
通过获取包含连续两帧粒子图像的PIV数据集,将数据集的图像尺寸进行统一处理,长宽大小全部都设置为256×256,对图像进行正则化处理保证适配Res2Encoder的输入。实验采取交叉验证的方法,将数据集分为十份,其中九份为训练集,一份为测试集,通过计算各种分类指标来分析算法的性能。
本发明使用平均端点误差来衡量模型流场预测的准确性。平均端点误差(AEE)的计算公式如下:
公式中,N表示像素的总数。fgt表示每个像素的真实光流(ground truth opticalflow)fes,i表示第i次迭代估计的光流。∥.∥表示L1范数,也就是光流的绝对误差。直接取AEE值显得数值过小,不易比较,所以本文取每100像素的误差值进行比较,更为清晰明了。
关于损失计算,通过监督学习的方式,我们对光流预测结果和真实的位移场进行损失计算,并通过反向传播更新模型参数。损失计算采用了序列损失函数。具体来说,光流预测序列{F1,F2,…,Fn}与真实光流Fgt之间的差异通过加权L1损失来衡量
公式中,λi=0.8n-i是每次预测的权重,给予后期预测更大的权重,以提升最终结果的精度。
步骤2、特征提取网络Res2Encoder:
本发明主要提出了一种新的Res2Encoder特征编码器,同时作用于特征提取和上下文网络。Res2Encoder在特征编码器和上下文网络中使用了统一的结构设计,由多个RA-Bottle2neck和RB-Bottle2neck模块组成。其中,RA-Bottle2neck模块主要通过stride=2的设计实现分辨率下降,增强对多尺度特征的表达能力。RB-Bottle2neck模块通过保留分辨率并结合GAM(全局注意力机制),增强特征选择性和对全局信息的理解能力。这种模块化的设计使得Res2Encoder在两个子网络中的功能实现具有一致性和可扩展性。
特征编码器的任务是对输入图像对提取丰富的多尺度特征,具体作用包括:
(1)多尺度特征提取
通过RA-Bottle2neck模块,Res2Encoder能够逐层对输入图像对进行降采样,从而在不同的空间尺度上捕捉特征。这对于粒子图像中特有的多尺度流动模式尤为重要,因为特征编码器需要为光流估计提供全面的特征信息。
(2)增强特征表达能力
RB-Bottle2neck模块通过GAM全局注意力机制,对多尺度特征进一步筛选和优化,从中突出关键特征。这一过程既能够增强模型对全局信息的理解,又能在特征分辨率逐层降低的过程中保留必要的细节信息。
(3)为光流估计提供高质量特征
特征编码器的最终输出是一个多通道、高维度的特征图。这些特征图被输入到相关性层和后续模块,为光流估计任务提供强有力的支持。
上下文网络的任务是利用全局上下文信息,进一步优化光流估计结果。Res2Encoder在其中的作用主要体现在:
(1)维持高分辨率特征
上下文网络中的Res2Encoder保持特征图的空间分辨率不变(RA-Bottle2neck中的stride=1)。这一设计确保了模型能够更好地捕捉局部细节特征,为光流的细粒度估计提供支持。
(2)加强全局信息交互
RB-Bottle2neck模块中的GAM机制能够通过通道注意力和空间注意力强化特征表达的全局语义关系。上下文网络依赖这一能力,对光流估计过程中潜在的全局依赖进行建模,从而提升估计精度。
(3)提供全局优化能力
上下文网络对来自特征编码器的特征图进行进一步处理,为光流估计过程提供全局的优化支持,使模型在处理复杂流场时更加鲁棒。
尽管特征编码器和上下文网络中的Res2Encoder结构一致,但其功能定位有所不同:在特征编码器中,Res2Encoder的核心是提取多尺度特征,同时逐层降采样以获得更高效的特征表示。在上下文网络中,Res2Encoder通过全局注意力机制进一步优化高分辨率特征,增强模型对全局依赖和复杂流场模式的捕捉能力。这种统一但功能互补的设计,使得Res2Encoder成为了连接特征提取与全局优化的核心模块,为模型的整体性能提升提供了重要保障。
在本发明的特征提取网络Res2Encoder设计中,网络架构主要由三个层级的模块组合而成,如图2所示。每一层级都由RA-Bottle2neck和RB-Bottle2neck模块组成,它们分别承担不同的特征处理任务,前者用于下采样以保持多尺度信息,后者用于保持分辨率并引入全局注意力。从而实现对粒子图像多尺度特征的有效提取。在整体架构中,输入图像首先通过一个7×7的卷积层来生成64通道的初始特征图,然后依次经过三层RA-Bottle2neck和RB-Bottle2neck模块的处理,最终通过1×1卷积生成128通道的输出特征图。这种层级化结构通过RA-Bottle2neck模块进行下采样,而RB-Bottle2neck模块则负责保留分辨率并引入全局注意力机制,形成特征的逐步提炼与增强。
对于Res2Encoder,核心设计思想是通过多尺度特征表示增强网络的特征提取能力。传统的卷积网络通常在每一层使用固定大小的卷积核来提取特征,而Res2Encoder模块在每个残差块中引入了多尺度特征的处理方式。具体来说,输入特征映射被划分为多个子集,每个子集可以独立地进行卷积操作,并在不同的尺度上提取特征,这大大增加了特征空间中的多样性。
如公式所示,输入特征映射被分为s个子集xi对于第一个子集xi,不进行卷积操作,直接保留原始输入作为输出yi。接下来的子集x2经过一个标准的3×3卷积操作K2(x2)后得到输出y2。从第三个子集x3开始,卷积操作不仅依赖于该组输入x3,还会结合前一组的输出y2,即K3(x3+y2),从而逐层融合来自不同尺度的信息。这种逐层累积和递归的特征提取方式继续进行,直到最后一个子集xs的处理完成。
这种设计的关键优势在于,每个3×3卷积核不仅仅是对当前输入特征进行简单的卷积操作,还将前一层次的特征也纳入其中,从而有效扩大了感受野。感受野的扩展意味着网络能够在不同的尺度上捕获更加丰富的空间信息,尤其是在处理复杂的视觉任务时,这种多尺度特征的表达能力使网络能够更好地适应不同的物体大小、运动模式和结构复杂性。
此外,通过这种特征的逐级传递,形成了多个“等效感受野”,即网络可以在不同的尺度上捕获和融合特征,这种组合效应有效提高了对输入信息的建模能力。例如,在处理流体力学中的粒子图像测速(PIV)任务时,流场的多尺度特性(从大尺度的整体流动到小尺度的湍流结构)都能够通过这种方式进行捕捉和建模。
从参数优化的角度来看,还通过减少直接3×3卷积核操作的次数,显著降低了网络的参数量。相比于在每一层都直接使用完整的卷积操作,Res2Net采用了逐层传递特征的方式,大大减轻了计算负担,同时保持了信息的完整性。由于特征组之间的紧密联系,输入特征被高效地转化为输出特征,从而提升了网络的整体性能,而不会增加太多的计算开销。
scale(尺度)是Bottle2neck提出的全新维度,它与传统的深度(depth)、宽度(width)和基数(cardinality)等维度互为正交。通过在细粒度的层次上处理多尺度特征,Res2Encoder不仅提升了网络的表现能力,还使其能够更好地处理复杂的视觉任务。
(1)RA-Bottle2neck
RA-Bottle2neck模块的设计如图3所示。其scale参数为4,baseWidth设为26。该模块将输入特征划分为多个尺度(如图中的x1至x4),并对这些尺度进行并行卷积操作。每个尺度的输出分别经过卷积后融合,以形成输出特征(y1至y4),最后将这些特征重新汇总至主分支。RA-Bottle2neck模块通过设置stride=2来减小输入特征图的分辨率,使得下采样过程中仍能保留多尺度信息。这种多尺度的卷积结构能够增强模型在不同尺度下的特征表达能力,确保即使在降低分辨率的同时,仍然能够捕捉到足够的局部和全局信息。
与普通的残差连接不同的是,RA-Bottle2neck模块引入了更细粒度的特征分割与处理方法。通过多尺度处理,该模块能够在保持计算效率的同时,最大化模型对输入图像中各个尺度信息的捕捉能力。这种多尺度特征提取对于粒子图像中的流动信息非常重要,因为在粒子图像中,流动信息往往呈现出多种不同的尺度变化。
(2)RB-Bottle2neck
RB-Bottle2neck模块的设计如图4所示,其特点是通过引入GAM全局注意力机制来增强特征的选择性。该模块在特征图分辨率保持不变的前提下,通过多尺度卷积操作提取局部特征,最后在末尾使用GAM注意力机制对特征进行优化。如图5所示,GAM机制首先通过通道注意力强化特征在通道间的依赖性,然后通过空间注意力模块对重要的空间区域进行聚焦。
GAM机制在RB-Bottle2neck中的引入,提升了对全局信息的理解能力,使得模型能够更好地捕捉粒子图像中的复杂流动模式。由于粒子图像流场中的信息具有复杂的全局依赖关系,GAM全局注意力机制的作用在于通过通道和空间维度的交互,抑制不重要的特征,从而使得模型可以专注于图像中最关键的流动信息。
在本发明设计的RA-Bottle2neck和RB-Bottle2neck模块中,scale参数设置为4,baseWidth设置为26,这一设计具有充分的理论依据与实验验证支持。具体而言,多尺度特征提取是提升模型性能的关键,而scale参数的大小直接决定了特征分割的粒度及多尺度卷积操作的有效性。然而,过大的scale值会显著增加模型的计算复杂度,不仅降低了训练和推理效率,还可能引入过多冗余信息,导致模型在特定数据集上的过拟合问题。同时,scale值过小又无法充分发挥多尺度特征提取的作用,从而无法有效提升模型的性能。
经过多次实验对比,我们选择将scale设置为4,这一值在特征提取的有效性与模型的复杂性之间取得了良好的平衡。此外,baseWidth参数设为26,这一较小的基宽进一步控制了每层卷积的计算负担,使模型在保持多尺度特征提取能力的同时,具备更高的效率。
为进一步降低过拟合的风险,我们在设计过程中引入了Dropout机制,并将其值设置为0.2。Dropout作为一种常用的正则化手段,可以随机丢弃部分神经元连接,防止模型对训练数据的过拟合。这一设置不仅在理论上符合模型鲁棒性提升的需求,还通过大量实验验证了其有效性。实验结果表明,当scale参数为4、baseWidth为26、Dropout值为0.2时,模型在不同类型的数据集上均表现出最佳的性能。这一设计使得模型能够在多尺度特征提取和计算效率之间达到最佳平衡,同时显著降低过拟合的可能性,为复杂流场的精确预测奠定了基础。
步骤3、相关性计算层
相关性层(All-pair Correlation Layer):对提取的特征进行全对相关性计算,生成一个四层相关性金字塔(如图1中的四层结构所示),用于捕捉不同尺度下的特征相似性。相关性层(correlation layer)起着至关重要的作用。它通过计算两帧图像中每个像素之间的相似性来建立像素之间的关联。这个过程通过构建一个4D相关性体积(correlationvolume)完成,该体积保存了所有像素对之间的特征向量的内积。
如下公式所示:
C(gθ(I1),gθ(I2))∈RH×W×H×W,Cijkl=∑hgθ(I1)ijh·gθ(I2)klh (4)
在公式中,C是相关性体积,gθ(I1)和gθ(I2)是两帧图像通过特征编码器提取的特征图。该公式表示,两个图像中的每个像素对(即(i,j)和(k,l))通过计算内积来得到它们的相似性得分。
多尺度相关金字塔由对相关性体积进行池化操作构建,具体为对体积的最后两个维度进行平均池化,得到多个分辨率的体积。通过这种方式,能够同时捕捉大尺度和小尺度的位移信息。在计算过程中,首先对初始光流场(f1,f2)进行估计,将其用于在金字塔的多个层级上进行局部查找。
查找操作可以定义为:
LC={x′+dx∣dx∈Z2,∣∣dx∣∣1≤r} (5)
在公式中,x′=(u+f1(u),v+f2(v)),这个局部网格会根据光流估计值在相关性体积中进行采样,得到新的特征图用于下一步的光流估计。这种全对像素相关性方法显著增强了RAFT模型在捕捉大位移和复杂运动场景时的能力,尤其适用于粒子图像测速中的复杂流场预测任务。
步骤4、GRU递归更新模块
GRU递归更新模块(Conv-GRU Update Block):该模块使用卷积GRU来迭代地更新光流估计,通过对相关性和特征进行递归优化,从而逐步逼近真实的光流场。每次迭代都能够基于上一轮的估计进一步提升光流预测精度。
具体来说,通过门控循环单元(GRU)逐步优化光流预测。该模块使用了卷积GRU(ConvGRU)和分离卷积GRU(SepConvGRU)来递归地更新特征,逐步调整流场预测。在每次递归中,GRU根据输入的相关性特征、当前的光流估计和隐藏状态,通过更新门和重置门有效地保留重要的历史信息,同时结合当前特征,计算出光流增量(delta_flow),并对光流进行迭代更新。
此外,动作特征编码器将相关性特征和初始光流编码成动作特征,进一步提高了递归更新的效果。SepConvGRU通过水平和垂直两个方向上的分离卷积来捕捉更加细粒度的特征信息,使得光流估计更加精确。通过这种递归优化,GRU递归更新模块能够在复杂的粒子图像测速任务中,逐帧细化流场预测,从而逐步提升模型的整体精度。
步骤5、上采样模块
在Res2RAFT模型的上采样过程中,使用了凸组合(convex combination)上采样方法,这是提升光流分辨率的重要步骤。
具体来说,模型首先通过递归更新模块生成低分辨率的光流预测结果。为了将这些低分辨率的光流场还原为与原始图像分辨率相同的高分辨率流场,convex上采样方法将低分辨率光流经过卷积运算后进行插值,生成更高分辨率的预测结果。
具体实现中,convex上采样通过构建多个用于插值的掩码(mask),然后对每个流场的局部区域进行卷积操作。这些掩码通过softmax函数归一化,确保插值过程中每个像素的贡献都能合理分配。最终,经过多次卷积后的低分辨率流场与生成的掩码相结合,完成对光流的上采样过程。这样不仅可以保持原始光流的细节,还能有效提升光流预测的空间分辨率,使得预测结果更加精确。该方法的优势在于,它能够在不显著增加计算成本的情况下,实现光流场从低分辨率到高分辨率的精确上采样,适合用于复杂流体场的预测。
步骤6、输出位移场
进过多层模块的处理,最终可以得到预测位移场,输出一张位移场图片。如图6所示,图左展示了粒子图像中的真实位移场,其中箭头表示流动的方向,颜色代表位移的大小。颜色越深,表示位移越大。这些真实值用于衡量模型预测的准确性,是我们评估模型性能的基准。图中间展示Res2RAFT模型预测的流场,同样以箭头表示流动方向,颜色表示位移大小。通过与左侧的真实流场对比,我们可以直观地观察到模型在不同雷诺数下的表现。图右侧展示了模型预测流场与真实流场的误差,使用平均端点误差(EPE)作为评价标准。颜色越深表示误差越大。通过这些误差图,可以清楚地看到模型在哪些区域的预测精度较低,这为进一步改进模型提供了参考。
实验验证:
如表2所示,使用多个数据集(如Cylinder、DNS_turbulence和SQG)进行模型性能测试,结果表明该方法在复杂流场下具有较高的精度和鲁棒性,尤其在Cylinder和DNS_turbulence类流场中,精度提升超过20%。
表2不同方法预测值比较
可以清楚看到Res2RAFT在大多数流场(尤其是复杂流场如Cylinder和DNSTurbulence)中表现显著优于传统方法,而在JHTDB Channel流场中则存在一些误差上的波动。整体来看,Res2RAFT对复杂流场的多尺度特征提取能力具有明显优势。
实验结果分析:
从整体上看,Res2RAFT作为改进的深度学习模型,不仅在简单的流场中表现稳定,而且在复杂流场(如DNS Turbulence和SQG)中表现出色,如图7、图8所示,相比RAFT和其他传统方法、深度学习模型等均有显著的性能提升。在最具挑战性的流场中,Res2RAFT提供了多尺度特征提取和全局注意力机制的强大组合,使其能够更加精准地捕捉流场中的复杂非线性特征。尽管在JHTDB Channel流场中仍有改进空间,Res2RAFT在大多数流场中的表现足以证明其在光流预测任务中的强大能力。
实验结论:
Res2RAFT模型在多个复杂流场数据集(包括Cylinder、DNS_turbulence和SQG)上均显著优于传统方法以及现有的深度学习模型,特别是在精度提升方面,表现出超过20%的优势。通过引入多尺度特征提取和全局注意力机制,Res2RAFT模型在复杂流场中的全局与局部信息提取能力得到了显著增强,在处理复杂非线性流动(如涡流与湍流)时表现出更高的鲁棒性和准确性。本发明Res2RAFT模型通过在特征提取和特征选择方面的创新设计,为PIV任务中的光流估计提供了更加精确且高效的解决方案。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,其特征在于,包括以下步骤:
S1、获取PIV数据集以及数据预处理:
所述PIV数据集中的每个数据样本包括连续两帧的粒子图像以及该粒子图像对应的粒子真实速度;
S2、构建粒子图像测速模型,所述粒子图像测速模型基于RAFT光流网络,所述RAFT光流网络包括特征提取网络、上下文网络、全对相关性层、GRU递归更新模块;
将RAFT光流网络的特征提取网络和上下文网络均替换为Res2encoder网络,得到粒子图像测速模型;
所述Res2Encoder网络依次包括:卷积层一、RA-Bottle2neck模块、RB-Bottle2neck模块、RA-Bottle2neck模块、RB-Bottle2neck模块、RA-Bottle2neck模块、RB-Bottle2neck模块、卷积层二;
所述卷积层一使用一个7×7的卷积层来生成64通道的初始特征图;
所述卷积层二使用一个1×1卷积生成128通道的输出特征图;
所述RA-Bottle2neck模块是基于Bottle2neck结构的带有残差学习的瓶颈结构,用于下采样以保持多尺度信息,在每个残差块中引入了多尺度的特征处理方式,将Res2Encoder模块的输入特征映射划分为s个子集,如以下公式,每个子集独立进行卷积操作,在若干个尺度上提取特征,以增加特征空间的多样性:
对于第一个子集xi,不进行卷积操作,直接保留原始输入作为输出yi;第二个子集x2经过一个标准的3×3卷积操作K2(x2)后得到输出y2;从第三个子集x3开始,卷积操作不仅依赖于该组输入x3,还会结合前一组的输出y2,即K3(x3+y2),从而逐层融合来自不同尺度的信息;逐层累积和递归的特征提取方式继续进行,直到最后一个子集xs的处理完成;
RB-Bottle2neck模块是基于Bottle2neck结构的带有全局注意力机制的瓶颈结构,用于保持分辨率;RB-Bottle2neck模块在RA-Bottle2neck模块的基础上添加了一个全局注意力机制GAM,所述全局注意力机制GAM添加在在RA-Bottle2neck模块的最后一层之后;且RB-Bottle2neck模块中的所述全局注意力机制GAM包括通道注意力和空间注意力模块,利用通道和空间维度的交互,使所述粒子图像测速模型专注于连续两帧中的粒子流动信息;
S3构建损失函数,通过监督学习的方式,使用步骤S1中所述PIV数据集对粒子图像测速模型进行模型训练。
2.如权利要求1所述的一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,其特征在于,
步骤S1中,所述数据预处理具体包括:将PIV数据集中的粒子图像尺寸进行统一处理,长宽大小全部都设置为256×256,再对图像进行正则化处理。
3.如权利要求1所述的一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,其特征在于,步骤S2中,s=4,所述RA-Bottle2neck模块的stride和baseWidth参数分别设为2和26。
4.如权利要求3所述的一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,其特征在于,步骤S2中,所述RB-Bottle2neck模块的stride和baseWidth参数分别设为1和26。
5.如权利要求1所述的一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,其特征在于,步骤S3中,所述损失函数公式如下:
式中,n为PIV数据集中的样本数量,Fi为将PIV数据集中样本的连续两帧的粒子图像输入所述粒子图像测速模型后得到的光流预测值,Fgt为反映PIV数据集中样本中粒子真实速度的真实光流值。
6.如权利要求5所述的一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,其特征在于,
λi=0.8n-i是每次预测的权重,给予后期预测更大的权重,以提升最终结果的精度。
7.如权利要求1所述的一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,其特征在于,
所述全对相关性层用于对特征提取网络提取的特征进行全对相关性计算,得到一个四层相关性金字塔;
全对相关性层通过计算两帧图像中每个像素之间的相似性来建立像素之间的关联;通过按如下公式构建一个4D相关性体积进行相似性计算,所述4D相关性体积保存有所有像素对之间的特征向量的内积:
C(gθ(I1),gθ(I2))∈RH×W×H×W,Cijkl=∑hgθ(I1)ijh·gθ(I2)klh
在公式中,C是相关性体积,gθ(I1)和gθ(I2)是两帧图像通过特征编码器提取的特征图;
其中,Cijkl代表的是卷积核中的第i,,j空间维度和第k,l通道维度的权重系数;h是卷积计算的输入;
所述四层相关性金字塔由对相关性体积进行池化操作构建得到。
8.如权利要求1所述的一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法,其特征在于,所述GRU递归更新模块使用卷积GRU和分离卷积GRU来递归更新特征,逐步调整流场预测;在每次递归中,GRU根据输入的相关性特征、当前的光流估计和隐藏状态,通过更新门和重置门保留重要的历史信息,同时结合当前特征,计算出光流增量,并对光流进行迭代更新;
所述分离卷积GRU通过水平和垂直两个方向上的分离卷积来捕捉更加细粒度的特征信息。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411816519.7A CN119716136B (zh) | 2024-12-11 | 2024-12-11 | 一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411816519.7A CN119716136B (zh) | 2024-12-11 | 2024-12-11 | 一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN119716136A true CN119716136A (zh) | 2025-03-28 |
| CN119716136B CN119716136B (zh) | 2025-12-12 |
Family
ID=95082299
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202411816519.7A Active CN119716136B (zh) | 2024-12-11 | 2024-12-11 | 一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN119716136B (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120430241A (zh) * | 2025-07-04 | 2025-08-05 | 西北工业大学 | 一种基于多尺度训练策略的非定常流场预测方法 |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2005095993A1 (ja) * | 2004-03-31 | 2005-10-13 | The Tokyo Electric Power Company, Incorporated | 流体計測システム、流体計測方法及びコンピュータプログラム |
| KR101659443B1 (ko) * | 2015-05-28 | 2016-09-23 | 서울대학교산학협력단 | 상관계수 및 옵티컬플로우 통합 방식을 이용한 고정밀 입자영상유속 측정방법 |
| CN115496781A (zh) * | 2022-10-17 | 2022-12-20 | 南京理工大学 | 一种级联注意力机制的PWC-Net的示踪粒子图像速度场分析方法 |
| CN115861206A (zh) * | 2022-11-24 | 2023-03-28 | 华中科技大学 | 一种用于粒子图像测速的图像成像方法及装置 |
| CN116127834A (zh) * | 2022-12-20 | 2023-05-16 | 中国科学院力学研究所 | 一种基于pinn神经网络的速度场测量方法 |
| CN117333516A (zh) * | 2023-09-27 | 2024-01-02 | 大连海事大学 | 一种基于光流卷积神经网络的鲁棒性粒子图像测速方法 |
| CN118628759A (zh) * | 2024-05-24 | 2024-09-10 | 浙江理工大学 | 基于无监督学习和注意力机制的海洋粒子图像测速方法 |
-
2024
- 2024-12-11 CN CN202411816519.7A patent/CN119716136B/zh active Active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2005095993A1 (ja) * | 2004-03-31 | 2005-10-13 | The Tokyo Electric Power Company, Incorporated | 流体計測システム、流体計測方法及びコンピュータプログラム |
| KR101659443B1 (ko) * | 2015-05-28 | 2016-09-23 | 서울대학교산학협력단 | 상관계수 및 옵티컬플로우 통합 방식을 이용한 고정밀 입자영상유속 측정방법 |
| CN115496781A (zh) * | 2022-10-17 | 2022-12-20 | 南京理工大学 | 一种级联注意力机制的PWC-Net的示踪粒子图像速度场分析方法 |
| CN115861206A (zh) * | 2022-11-24 | 2023-03-28 | 华中科技大学 | 一种用于粒子图像测速的图像成像方法及装置 |
| CN116127834A (zh) * | 2022-12-20 | 2023-05-16 | 中国科学院力学研究所 | 一种基于pinn神经网络的速度场测量方法 |
| CN117333516A (zh) * | 2023-09-27 | 2024-01-02 | 大连海事大学 | 一种基于光流卷积神经网络的鲁棒性粒子图像测速方法 |
| CN118628759A (zh) * | 2024-05-24 | 2024-09-10 | 浙江理工大学 | 基于无监督学习和注意力机制的海洋粒子图像测速方法 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN120430241A (zh) * | 2025-07-04 | 2025-08-05 | 西北工业大学 | 一种基于多尺度训练策略的非定常流场预测方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN119716136B (zh) | 2025-12-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111882002B (zh) | 一种基于msf-am的低照度目标检测方法 | |
| CN111476219A (zh) | 智能家居环境中图像目标检测方法 | |
| CN113657388A (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
| CN116740439A (zh) | 一种基于跨尺度金字塔Transformer的人群计数方法 | |
| CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
| Lyu et al. | DSTnet: a new discrete shearlet transform-based CNN model for image denoising | |
| CN113705331A (zh) | 一种基于四元特征金字塔网络的sar船只检测方法 | |
| CN119716136B (zh) | 一种基于全局注意力机制优化的多尺度Res2RAFT粒子图像测速方法 | |
| CN113095254A (zh) | 一种人体部位关键点的定位方法及系统 | |
| CN118628907A (zh) | 一种融合spd-hsfpn-rvb的轻量化图像检测方法及系统 | |
| CN119888729A (zh) | 一种基于YOLOv11改进的细胞实例分割方法和系统 | |
| CN119672340A (zh) | 基于DeepLabv3+的语义细节融合与上下文增强遥感图像分割方法 | |
| CN118942052A (zh) | 一种基于重构卷积与增强特征融合的船舶检测方法 | |
| CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
| CN115131414B (zh) | 基于深度学习的无人机图像对齐方法、电子设备和存储介质 | |
| Deepan et al. | Comparative analysis of scene classification methods for remotely sensed images using various convolutional neural network | |
| Wang et al. | LUMF-YOLO: a lightweight object detection network integrating UAV motion features | |
| CN120298723A (zh) | 一种基于Mamba模型解译代价体的遥感图像立体匹配方法及系统 | |
| Shen et al. | High-strength synergic-calibration attention system in YOLO for underwater object detection application | |
| CN119888231A (zh) | 一种基于自注意力的车道线语义分割方法 | |
| CN119295752A (zh) | 一种结合双向多层级道路特征动态融合与双上下文动态提取的遥感影像道路分割方法 | |
| Ferdaus et al. | Widened Attention‐Enhanced Atrous Convolutional Network for Efficient Embedded Vision Applications under Resource Constraints | |
| CN117575971A (zh) | 图像增强方法、装置、设备及可读存储介质 | |
| Zhu et al. | FANet: Feature attention network for semantic segmentation | |
| Hasan et al. | PC-SRGAN: Physically Consistent Super-Resolution Generative Adversarial Network for General Transient Simulations |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant |