CN114862699B

CN114862699B - 基于生成对抗网络的人脸修复方法、装置及存储介质

Info

Publication number: CN114862699B
Application number: CN202210395733.4A
Authority: CN
Inventors: 葛国敬; 朱贵波; 王金桥
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-12-30
Anticipated expiration: 2042-04-14
Also published as: CN114862699A

Abstract

本发明提供一种基于生成对抗网络的人脸修复方法、装置及存储介质，该方法包括：获取待修复的人脸图像，将待修复的人脸图像输入图像生成器，得到待修复的人脸图像所对应的人脸修复图像，其中，图像生成器用于基于多个不同尺度的特征图分别对应的多个中间隐向量生成目标图像，图像生成器是基于原始样本人脸图像、原始样本人脸图像对应的降质样本人脸图像以及图像判别器训练得到的，图像生成器与图像判别器构成生成对抗网络，图像判别器用于区分图像生成器生成的图像和原始样本人脸图像。通过本发明提供的基于生成对抗网络的人脸修复方法、装置及存储介质，可以实现修复严重降质人脸图像，得到清晰、细节丰富，自然的高质量人脸图像。

Description

基于生成对抗网络的人脸修复方法、装置及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于生成对抗网络的人脸修复方法、装置及存储介质。

背景技术

低质量人脸图片，如老照片，由于当时的技术条件限制，本身像素值比较低，随着时间的流逝，容易导致永久性损坏宝贵的照片内容，并且其退化过程十分复杂，目前没有能够真实再现老照片伪影的智能退化模型。因此，从人为生成数据上学习到的模型通常难以在真实照片上很好地进行泛化，这将难以设计统一的自动化算法修复人脸图像。另外，影响人脸图像恢复的因素还有：人脸图像普遍存在光照变化大、姿态多、表情复杂、遮挡严重、年龄变化跨度大等，这些问题都为人脸图像恢复带来困难。在低质量人脸恢复过程中，这些困难导致容易出现复原出过于平滑的人脸图像，或者虽然表观尚可，但与原图人脸不像的问题。

因此，低质量人脸修复依然是目前业界亟待解决的重要课题。

发明内容

针对现有技术存在的问题，本发明提供一种基于生成对抗网络的人脸修复方法、装置及存储介质。

第一方面，本发明提供一种基于生成对抗网络的人脸修复方法，包括：

获取待修复的人脸图像；

将所述待修复的人脸图像输入图像生成器，得到所述待修复的人脸图像所对应的人脸修复图像；

其中，所述图像生成器用于基于多个不同尺度的特征图分别对应的多个中间隐向量生成目标图像；

所述图像生成器是基于原始样本人脸图像、所述原始样本人脸图像对应的降质样本人脸图像以及图像判别器训练得到的，所述图像生成器与所述图像判别器构成生成对抗网络，所述图像判别器用于区分所述图像生成器生成的图像和所述原始样本人脸图像。

可选地，所述图像生成器包括编码器模块、映射变换模块和解码器模块；

所述编码器模块用于对输入图像进行多尺度特征提取，得到多个不同尺度的特征图；

所述映射变换模块用于分别将每个所述不同尺度的特征图映射变换为相应的中间隐向量；

所述解码器模块包括与所述多个不同尺度的特征图一一对应的多个子模块，各所述子模块按照各自对应的特征图的尺度从小到大的顺序依次连接；每个所述子模块用于基于各自对应的特征图、所述特征图对应的中间隐向量以及第三输入参数，进行图像输出；

其中，对于最小尺度的特征图所对应的子模块，所述第三输入参数为常数或傅立叶特征；

对于除所述最小尺度的特征图所对应的子模块以外的其他子模块，所述第三输入参数为上一子模块的输出结果。

可选地，所述对输入图像进行多尺度特征提取，包括：

基于特征金字塔提取网络，对输入图像进行多尺度特征提取。

可选地，所述原始样本人脸图像对应的降质样本人脸图像通过以下方式得到：

对所述原始样本人脸图像进行降质处理，得到所述原始样本人脸图像对应的降质图像；

获取所述降质图像与所述原始样本人脸图像之间的相似度；

若所述相似度小于预设阈值，则将所述降质图像作为所述原始样本人脸图像对应的降质样本人脸图像；

若所述相似度大于预设阈值，则对所述降质图像重复所述进行降质处理的步骤，直到降质处理后得到的图像与所述原始样本人脸图像之间的相似度小于预设阈值，将最后一次降质处理后得到的图像作为所述原始样本人脸图像对应的降质样本人脸图像。

可选地，所述进行降质处理包括：

对输入的图像依次进行模糊操作、下采样操作、加噪声操作以及JPEG压缩操作。

可选地，所述图像生成器基于以下损失函数训练得到：

L_gen＝L_gen1+γL_gen2

L_gen1＝L_pl

其中，L_gen表示所述图像生成器的总损失；L_pl表示路径长度损失；

表示非饱和损失；L_smoothL1表示平滑L1损失；L_id(x)表示降质样本人脸图像x对应的ID损失；γ表示懒惰正则化系数；λ₁和λ₂均为超参数。

可选地，所述ID损失根据第一ID损失L_{ID_part1}(x)和第二ID损失L_{ID_part2}(x)确定，所述第一ID损失L_{ID_part1}(x)和所述第二ID损失L_{ID_part2}(x)通过以下公式确定：

L_{ID_part1}(x)＝1-<R(y),R(G(x))>

L_{ID_part2}(x)＝max(<R(z),R(G(x))>)

其中，R表示基于Arcface算法得到的预训练网络；R(y)、R(z)和R(G(x))分别表示输入y、z和G(x)至所述预训练网络得到的输出结果；x表示降质样本人脸图像，y表示与x对应的原始样本人脸图像，z表示除y以外的其他原始样本人脸图像；G(x)表示输入x至所述图像生成器得到的输出图像。

可选地，所述ID损失通过以下公式确定：

L_id(x)＝L_{ID_part1}(x)+L_{ID_part2}(x)

其中，L_id(x)表示降质样本人脸图像x对应的ID损失；L_{ID_part1}(x)和L_{ID_part2}(x)分别表示降质样本人脸图像x对应的第一ID损失和第二ID损失。

可选地，所述图像生成器的训练方式包括：

将所述降质样本人脸图像输入预训练的图像生成器，得到生成的人脸图像；

固定图像生成器，基于所述生成的人脸图像和所述原始样本人脸图像，优化图像判别器；

固定图像判别器，基于所述降质样本人脸图像和所述原始样本人脸图像，优化图像生成器；

交替重复所述优化图像判别器和所述优化图像生成器的步骤，直至满足预设收敛条件，得到训练好的图像生成器。

第二方面，本发明还提供一种基于生成对抗网络的人脸修复装置，包括：

获取模块，用于获取待修复的人脸图像；

修复模块，用于将所述待修复的人脸图像输入图像生成器，得到所述待修复的人脸图像所对应的人脸修复图像；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述第一方面所述的基于对抗生成网络的人脸修复方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述第一方面所述的基于生成对抗网络的人脸修复方法。

本发明提供的基于生成对抗网络的人脸修复方法、装置及存储介质，通过将待修复人脸图像输入图像生成器，图像生成器基于多个不同尺度的特征图对应的中间隐向量生成目标图像。由于图像生成器基于原始样本人脸图像、原始样本人脸图像对应的降质样本人脸图像以及图像判别器训练得到，并且该图像判别器用于区分原始样本人脸图像和图像生成器生成的图像。因此，从图像生成器恢复的图像清晰、自然，与原图高度相似，从而实现低质量图像的人脸修复。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于生成对抗网络的人脸修复方法的流程示意图；

图2是本发明提供的生成对抗网络总体结构示意图；

图3是本发明提供的图像生成器的结构示意图；

图4是本发明提供的映射网络的结构示意图；

图5是本发明提供的GAN Block内部第二层的结构示意图；

图6是本发明提供的特征金字塔提取网络的结构示意图；

图7是本发明提供的降质处理过程示意图；

图8是本发明提供的基于生成对抗网络的人脸修复方法的训练流程示意图；

图9是本发明提供的基于生成对抗网络的人脸修复装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

本发明中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明中术语“多个”是指两个或两个以上，其它量词与之类似。

为了使本发明的目的，技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

低质量图像，如老照片，由于当时的技术条件限制，本身像素值比较低，随着时间的流逝，容易导致永久性损坏宝贵的照片内容。将老照片数字化并请专家进行手工修复通常费时费力，使得大量的老照片无法修复；其次老照片的退化过程十分复杂，目前没有能够真实再现老照片伪影的智能退化模型，因此，从人为生成数据上学习到的模型通常难以在真实照片上很好地进行泛化，因此难于设计统一的自动化算法对人脸图像进行修复；再次，老照片中充斥着各种各样的退化现象，而需要不同的处理策略：空间上均匀的非结构化缺陷应通过利用邻域像素进行修复，而结构化缺陷(例如划痕和灰尘)，需要利用全局图像上下文进行修复，也为人脸图像修复带来困难。另外，人脸图像普遍存在光照变化大、姿态多、表情复杂、遮挡严重、年龄变化跨度大等问题，也给图像恢复带来挑战。低质量人脸恢复过程中，这些困难导致容易出现复原出过于平滑的人脸图像，或者虽然表观尚可，但与原图人脸不像的问题。

基于以上种种问题，在现实的应用场景中，低质量人脸修复依然是目前业界亟待解决的重要课题。

针对上述问题，本发明提供了一种解决方案，基于生成对抗网络训练好的图像生成器，能够对低质量人脸图像如严重退化的人脸图像，低分辨率的图像等进行处理，生成清晰、自然、与原图高度相似的高质量的人脸图像，从而实现低质量人脸图像的恢复。

本发明各实施例的核心思想是基于生成对抗网络训练得到的图像生成器修复人脸图像，该图像生成器用于基于多个不同尺度的特征图对应的多个中间隐向量生成目标图像。以下结合多个实施例对本发明进行详细介绍。

图1为本发明提供的基于生成对抗网络的人脸修复方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤100、获取待修复的人脸图像。

步骤101、将待修复的人脸图像输入图像生成器，得到待修复的人脸图像所对应的人脸修复图像。

具体的，待修复的人脸图像即需要修复的人脸图像，例如可以是老照片或者其他需要修复的低质量人脸图像。

其中，图像生成器用于基于多个不同尺度的特征图分别对应的多个中间隐向量生成目标图像。

多个不同尺度的特征图是对输入图像生成器的图像进行多尺度特征提取得到多个不同尺度的特征图，例如可以通过特征金字塔提取网络得到不同尺度的特征图。

特征图对应的中间隐向量是指该特征图转换得到的隐向量z经过映射变换得到的中间隐向量w，多个中间隐向量w用于控制不同的视觉特征，同时扩大了图像生成器训练空间。本发明实施例中，图像生成器可基于多个不同尺度的特征图分别对应的多个中间隐向量生成目标图像。

图像生成器是基于原始样本人脸图像、原始样本人脸图像对应的降质样本人脸图像以及图像判别器训练得到的。

原始样本人脸图像可以是作为训练样本的高质量人脸图像，原始样本人脸图像对应的降质样本人脸图像即与原始样本人脸图像同源的降质样本人脸图像，例如可以是原始样本人脸图像经降质处理后得到的图像。

图像生成器与图像判别器构成生成对抗网络，所述图像判别器用于区分所述图像生成器生成的图像和所述原始样本人脸图像。

图2为本发明提供的生成对抗网络总体结构示意图，如图2所示，生成对抗网络中，图像生成器可以包括编码器模块、映射变换模块、解码器模块。输入图像输入至图像生成器，图像生成器输出的前向结果图像与真值图像(Ground Truth,GT)同时输入至图像判别器，即输入图像，真值图像，与图像判别器一起训练图像生成器，使图像生成器可以生成高质量的图像。输入图像可以为原始样本图像对应的降质样本图像，此时真值图像为原始样本图像。采用原始样本人脸图像和其对应的降质样本人脸图像，便于在一个batch中同时计算生成图像与同人图像的人脸损失，有效训练图像生成器，同时也便于评价图像生成器的图像恢复效果。

本发明实施例提供的基于生成对抗网络的人脸修复方法，通过将待修复人脸图像输入图像生成器，图像生成器基于多个不同尺度的特征图对应的中间隐向量生成目标图像。图像生成器基于原始样本人脸图像、原始样本人脸图像对应的降质样本人脸图像以及图像判别器训练得到，从而通过训练好的图像生成器，可以从待修复人脸图像中恢复出自然，清晰的同分辨率图像，克服低质量人脸图像复原出过于平滑的人像，或者与原图人脸不像的问题。

可选地，图像生成器包括编码器模块、映射变换模块和解码器模块；

编码器模块用于对输入图像进行多尺度特征提取，得到多个不同尺度的特征图；

映射变换模块用于分别将每个所述不同尺度的特征图映射变换为相应的中间隐向量；

解码器模块包括与多个不同尺度的特征图一一对应的多个子模块，各子模块按照各自对应的特征图的尺度从小到大的顺序依次连接；每个子模块用于基于各自对应的特征图、特征图对应的中间隐向量以及第三输入参数，进行图像输出；

其中，对于最小尺度的特征图所对应的子模块，第三输入参数为常数或傅立叶特征；

对于除最小尺度的特征图所对应的子模块以外的其他子模块，第三输入参数为上一子模块的输出结果。

具体地，图3为本发明提供的图像生成器的结构示意图，如图3所示，编码器模块用于对输入图像进行多尺度特征提取，得到不同尺度特征图；映射变换模块用于对不同尺度的特征图进行映射变换，首先经过全连接层(Fully Connected，FC)变换到隐码空间Z，再通过映射网络(Mapping Network)转换到中间隐向量空间W；解码器模块包括多个与不同尺度特征图一一对应的生成对抗网络子模块(Generative Adversarial Network Block,GANBlock)，GAN Block按照各自对应的特征图尺度从小到大的顺序依次级联，每个GAN Block有三个输入，分别为对应尺度的特征图、特征图对应的中间隐向量w和第三输入参数。在图3中，对于顶层最小尺度特征图，第三输入参数为常数(const)或者傅立叶特征，对于其他子模块，第三输入参数为上级子模块的级联输出结果。例如当第三输入参数为常数可参考StyleGan 2，即第二代基于风格的生成对抗网络(A Style-Based GeneratorArchitecture for Generative Adversarial Networks，StyleGan)模型，第三输入参数为傅立叶特征可参考StyleGan 3模型。多个GAN Block级联最后的输出为输出图像。如果输入图像为原始样本人脸图像对应的降质样本人脸图像，则输出图像为与原始样本人脸图像高度相似的高质量图像。

图4为本发明提供的映射网络的结构示意图，在图4中，映射网络由8个全连接层组成，但是本领域技术人员应当理解，这并非是限制性的，全连接层数可以根据需要灵活调整。随机向量(Random Vector)转化为的输入隐向量(Latent Code)，经过归一化(Normalize)操作后输入至映射网络，输出为中间隐向量。映射网络的目地是将输入隐向量z编码为中间隐向量w，中间隐向量w的不同元素控制不同的视觉特征，例如头发丝，皱纹，肤色等，将隐向量z转换到中间隐向量w是因为使用输入隐向量z控制视觉特征的能力是有限的，它必须遵循训练数据的概率密度。例如，如果黑色头发的人的图像在数据集中更常见，那么更多的输入值将映射到该特性。因此该模型无法将输入隐向量z的一部分(如向量中的元素)，映射到特征，这种现象称为特征纠缠。但是通过映射网络，该模型可以生成一个不需要跟随训练数据分布的中间隐向量w，并且可以减少特征之间的相关性，即对特征进行解耦，也就是特征分离。

图4同时给出了映射网络与解码器的连接关系，如图4生成网络(Synthesisnetwork)就是本发明图像生成器的解码器模块。从图像生成器的编码器输出的不同尺度的特征图经过映射变换模块得到的中间隐向量w分别输入至解码器相应层的GAN Block，例如，1024×1024尺度的特征图对应的中间隐向量w输入至尺度大小为1024×1024的GANBlock，64×64尺度的特征图对应的中间隐向量w输入至尺度大小为64×64的GAN Block，4×4尺度的特征图对应的中间隐向量w输入至尺度大小为4×4的GAN Block。

图5为本发明提供的GAN Block内部第二层的结构示意图，图中以第二层(L2)为例，其中，第二层中间隐向量w2经过仿生变换为A2与w2取模运算(Mod)后，执行去取模运算(Demod)后作为卷积运算(Convolutional，Conv)的一个输入，上层即第一层输出结果与自身经过指数移动平均值(Exponential Moving Average，EMA)相除运算的结果作为卷积运算的另外一个输入，卷积运算的结果与GAN Block第二层另外一个输入b2相加后顺次执行上采样(Upsample)，响应激活函数(Leaky ReLU)，下采样(Downsample)，剪裁(Crop)这四步操作，从而得到GAN Block第二层的输出。对应解码器的三个输入，可知L2层b2可以为与GANBlock尺度对应的特征图。其他GAN Block层与之类似，此处不再赘述。

另外，图像生成器解码器模块可以根据输入图像分辨率来决定层数。

例如：对于输入分辨率为1024×1024的图像，编码器模块可以提取9种不同尺度的特征图分别为：1024×1024，512×512，256×256，128×128，64×64，32×32，16×16，8×8，4×4。此时，图像生成器解码器模块的GAN Block层数也为9层,每一层GAN Block分别一一对应特征图9个不同尺度。9层GAN Blcok按照各自对应特征图尺度大小从小到大的顺序依次连接，级联输出图像即为生成图像。

不同尺度的特征图与其一一对应的GAN Block子模块逐层进行运算，极大的提高了图像生成器生成图像的质量，从而使恢复的图像更加清晰、自然、与原图相似度高。

可选地，对输入图像进行多尺度特征提取，包括：

具体地，本发明实施例中，可以基于特征金字塔提取网络，对输入图像进行多尺度特征提取，特征金字塔提取网络可以采用任意可进行特征金字塔提取的神经网络，如VGG19或其他特征提取网络，在此不做限定，其主要可以包含卷积层、归一化层、非线性层、最大池化层、平均池化层、全连接层等。

图6为本发明提供的特征金字塔提取网络的结构示意图，输入图像经过该特征金字塔提取网络后输出为不同尺度的特征图，如图6所示，特征图的分辨率可以包括512×512，256×256，128×128，64×64，32×32，16×16，8×8，4×4等。根据输入图像分辨率的不同，也可以有不同的金字塔层数，例如对于1024×1024分辨率的输入图像，经过特征提取金字塔后，特征金字塔层数为9层，特征图分辨率包括：512×512，256×256，128×128，64×64，32×32，16×16，8×8，4×4。

基于特征金字塔提取网络，对输入图像进行多尺度特征提取之后，得到不同尺度的特征图，每个特征图和该特征图对应的中间隐向量输入相应的解码器子模块，通过每个解码器子模块中输入不同尺度的特征图，可以得到图像更多细节，生成更加清晰自然的人脸图像。

可选地，原始样本人脸图像对应的降质样本人脸图像通过以下方式得到：

对原始样本人脸图像进行降质处理，得到原始样本人脸图像对应的降质图像；

获取降质图像与原始样本人脸图像之间的相似度；

若相似度小于预设阈值，则将降质图像作为原始样本人脸图像对应的降质样本人脸图像；

若相似度大于预设阈值，则述降质图像重复进行降质处理的步骤，直到降质处理后得到的图像与原始样本人脸图像之间的相似度小于预设阈值，将最后一次降质处理后得到的图像作为所述原始样本人脸图像对应的降质样本人脸图像。

具体地，对原始样本人脸图像降质，得到同源的降质样本图像，对生成对抗网络训练，便于后续采用在一个batch中同时计算生成图像和同人图像的人脸损失，使图像生成器生成的图像更加清晰，自然，与原图相似度高。降质图像与原始样本人脸图像的相似度阈值可根据需要调整，并预先设置好。在降质处理过程中，可以采用任意可以使图像质量降低的操作，例如模糊，加噪声，下采样等，也可以是这些操作的任意组合。

通过对原始样本人脸图像降质处理，可以得到原始样本人脸图像对应的降质样本人脸图像，有利于训练图像生成器生成更加逼近原图的图像。

可选地，进行降质处理包括：

图7为本发明提供的降质处理过程示意图，示例性的，图中以2阶降质处理为例，当然，本领域技术人员应当理解，这并非是限制性的，降质处理可以根据需要进行任意多次。

如图7所示，原始样本人脸图像输入降质处理模块后，可以顺次执行模糊、下采样、加噪声、JPEG(Joint Photographic Experts Group)压缩操作，得到降质图像，然后可以将该降质图像与原始样本图像进行相似度比较，例如可采用学习感知图像块相似度(LearnedPerceptual Image Patch Similarity，LPIPS)或弗雷谢特起始距离(Frechet InceptionDistance，FID)指标来评价相似度。若相似度小于预先设置的阈值，则可以将该降质图像作为原始样本人脸图像对应的降质样本人脸图像；如果相似度大于预先设置的阈值，则再进行一次降质处理，并在降质处理后再次将降质图像与原始样本图像进行相似度比较，不断重复进行降质处理过程，直到满足相似度小于设定的阈值，将最后一次得到的降质图像作为训练样本中的降质样本人脸图像。

可选地，降质处理中的模糊操作可以包括高斯模糊、运动模糊等；下采样操作可以包括双三次插值(Bicubic)、双线性插值(Bilinear)、区域插值(Area)等；加噪声操作可以包括高斯噪声、泊松噪声等。

本发明采用的一阶降质模型和高阶降质模型随机融合的方式对原始样本人脸图像进行降质，更好地模拟真实场景中的严重退化导致的低质量人脸图像效果，从而更好地训练图像生成器。

可选地，图像生成器基于以下损失函数训练得到：

L_gen＝L_gen1+γL_gen2

L_gen1＝L_pl

懒惰正则化即每隔几个固定的minibatch(例如16个)计算一次L_gen2损失，目的是减少计算消耗和内存占用。

下面深入介绍本损失函数的各个部分：

首先，路径长度损失可以采用现有的一些路径长度损失函数得到，在此不做详细介绍，例如：

其中，

是路径长度，α是路径长度变化的移动平均，E表示数学期望；路径长度正则化的意义是使得隐空间的插值变得更加平滑和线性。简单来说，当在隐空间中对隐向量进行插值操作时，路径长度正则化可以使得对隐向量的等比例的变化直接反映到图像中去。

其次，非饱和损失：

表示图像生成器希望最大化被判别为真的概率。其中，G(x)表示输入降质样本人脸图像x至图像生成器得到的输出结果，D(G(x))表示输入G(x)至图像判别器得到的输出结果。

在训练的初始阶段，图像生成器生成的样本很容易被图像判别器识别出来，也就是D(G(x))趋近于0，非饱和图像生成器的log(D(G(x)))的梯度不趋近于0，能够为网络的权重更新提供好的梯度方向，帮助收敛。

再其次，平滑L1损失：

其中，m是计算生成图像与真值图像的每一个像素点的差值，其对离群点、异常值(outlier)不敏感，可控制梯度的量级，增加训练鲁棒性。

可选地，ID损失可以根据第一ID损失L_{ID_part1}(x)和第二ID损失L_{ID_part2}(x)确定，第一ID损失L_{ID_part1}(x)和第二ID损失L_{ID_part2}(x)可以通过以下公式确定：

L_{ID_part1}(x)＝1-〈R(y),R(G(x))>

L_{ID_part2}(x)＝max(<R(z),R(G(x))>)

其中，R表示基于Arcface算法得到的预训练网络； R(y)、R(z)和R(G(x))分别表示输入y、z和G(x)至预训练网络得到的输出结果；x表示降质样本人脸图像，y表示与x对应的原始样本人脸图像，z表示除y以外的其他原始样本人脸图像；G(x)表示输入x至所述图像生成器得到的输出图像。

具体地，L_{ID_part1}(x)用于拉近与原始样本人脸图像的距离，L_{ID_part2}(x)用于拉远与其他图像的距离，使得生成的图像与原始样本人脸图像有更好的还原度以及清晰程度。

ID损失可以包括两部分内容，即第一ID损失L_{ID_part1}(x)和第二ID损失L_{ID_part2}(x)。可选地，ID损失可以是对L_{ID_part1}(x)与L_{ID_part2}(x)进行加权求和得到的。

ID损失可以衡量生成的图像与原始样本人脸图像的距离，以及与原始样本人脸图像对应的降质样本图像的距离，便于调整图像生成器的参数。

可选地，ID损失可以通过以下公式确定：

L_id(x)＝L_{ID_part1}(x)+L_{ID_part2}(x)

具体地，举例来说，在一个batchsize为32的训练过程中，降质样本人脸图像作为图像生成器输入所生成的图像为G(x)，y为该降质样本人脸图像对应的原始样本人脸图像，剩余31个真值图像为其他图像。采用在一个batch中同时计算生成图像和同人图像的人脸损失以及其他不同人的人脸损失加权的方法，使得生成的图像不仅清晰度高且与同源高质量图像的相似度更高。

可选地，所述图像生成器的训练方式包括：

将降质样本人脸图像输入预训练的图像生成器，得到生成的人脸图像；

固定图像生成器，基于生成的人脸图像和原始样本人脸图像，优化图像判别器；

固定图像判别器，基于降质样本人脸图像和原始样本人脸图像，优化图像生成器；

交替重复优化图像判别器和所述优化图像生成器的步骤，直至满足预设收敛条件，得到训练好的图像生成器。

图8为本发明提供的基于生成对抗网络的人脸修复方法的训练流程示意图，如图8所示，对输入图像进行降质，得到高质量图像与低质量图像样本对；对低质量图像提取特征金字塔；特征金字塔输入至图像生成器得到生成图像；根据生成图像与高低质量图像样本对计算生成器损失；生成图像与与高质量图像输入至图像判别器；根据图像判别器输出结果计算图像判别器损失。

具体的，将原始样本人脸图像输入至降质模块中，得到满足一定相似度阈值的降质样本人脸图像。该原始样本人脸图像与该原始样本人脸图像对应的降质样本人脸图像构成样本人脸图像对。接着将降质样本人脸图像输入至图像生成器，经过图像生成器编码器，得到多尺度特征图，图像生成器可基于多个不同尺度的特征图分别对应的多个中间隐向量得到生成图像。固定图像生成器，该生成图像、原始样本人脸图像同时输入图像判别器，计算图像判别器损失，反传梯度，优化图像判别器；固定图像判别器，基于生成图像、样本人脸图像对一起计算图像生成器损失，反传梯度，优化图像生成器，最终得到满足性能要求的图像生成器。固定图像生成器，优化图像判别器与固定图像判别器，优化图像生成器步骤交替执行，直到训练出满足性能要求的图像生成器。

其中图像判别器使用的损失函数可以采用现有的一些判别器损失函数，在此不做详细介绍，例如可以为：

Loss_{D_logistic}＝log(exp(D(G(x)))+1)+log(-D(y)+1)

其中，Loss_D是总损失值；Loss_{D_logistic}是主损失；

是在Loss_{D_logistic}判别损失基础上增加的梯度惩罚项，其中，

表示生成图像与真实图像的差值，

是真实样本分布和生成样本分布之间进行插值得到的分布，目的是让判别损失尽量符合1-lipschitz范数限制，即梯度的模始终小于1，这样能让图像判别器的求解结果逼尽推土机距离(Wassertein距离)；y是原始样本人脸图像即监督样本；x是降质样本人脸图像；γ是正则化系数；G(x)是降质样本人脸图像输入至图像生成器得到的结果；D(G(x))是G(x)输入至图像判别器得到的输出结果；D(y)是原始样本人脸图像输入至图像判别器得到的结果。

图像生成器的损失函数已在前文详述，此处不再赘述。

但要补充说明的是优化图像生成器反传梯度需考虑如下条件：

L_{ID_part1}(x)>L_{ID_part2}(x)+0.3

L_{ID_part1}(x)表示第一ID损失；L_{ID_part2}(x)表示第二ID损失；x表示降质样本人脸图像。如果满足上述条件，则不用反传梯度，如果不满足条件，则需要反传梯度，优化图像生成器。

图像生成器和图像判别器的训练过程交替进行，直到满足预设的收敛条件，得到训练好的图像生成器。这个对抗的过程使得图像生成器生成的图像越来越逼真，图像判别器识别假的图像的能力也越来越强。

基于训练好的图像生成器，当输入严重降质或者退化的人脸图像，图像生成器会输出细节丰富，清晰、自然，与原图高度相似的高质量图像。

下面对本发明提供的一种基于生成对抗网络的人脸修复装置进行描述，下文描述的基于生成对抗网络的人脸修复装置与上文描述的基于生成对抗网络的人脸修复方法可相互对应参照。

图9为本发明提供的基于生成对抗网络的人脸修复装置的结构示意图，如图9所示，该装置包括：

获取模块900，用于获取待修复的人脸图像；

修复模块910，用于将待修复的人脸图像输入图像生成器，得到待修复的人脸图像所对应的人脸修复图像；

其中，图像生成器用于基于多个不同尺度的特征图分别对应的多个中间隐向量生成目标图像；

图像生成器是基于原始样本人脸图像、原始样本人脸图像对应的降质样本人脸图像以及图像判别器训练得到的，图像生成器与图像判别器构成生成对抗网络，图像判别器用于区分图像生成器生成的图像和原始样本人脸图像。

映射变换模块用于分别将每个不同尺度的特征图映射变换为相应的中间隐向量；

可选地，对输入图像进行多尺度特征提取，包括：

获取降质图像与原始样本人脸图像之间的相似度；

若相似度大于预设阈值，则对降质图像重复进行降质处理的步骤，直到降质处理后得到的图像与所述原始样本人脸图像之间的相似度小于预设阈值，将最后一次降质处理后得到的图像作为所述原始样本人脸图像对应的降质样本人脸图像。

可选地，进行降质处理包括：

可选地，图像生成器基于以下损失函数训练得到：

L_gen＝L_gen1+γL_gen2

L_gen1＝L_pl

可选地，ID损失根据第一ID损失L_{ID_part1}(x)和第二ID损失L_{ID_part2}(x)确定，所述第一ID损失L_{ID_part1}(x)和第二ID损失L_{ID_part2}(x)通过以下公式确定：

L_{ID_part1}(x)＝1-＜R(y),R(G(x))>

L_{ID_part2}(x)＝max(<R(z),R(G(x))>)

可选地，所述ID损失通过以下公式确定：

L_id(x)＝L_{ID_part1}(x)+L_{ID_part2}(x)

可选地，图像生成器的训练方式包括：

交替重复优化图像判别器和优化图像生成器的步骤，直至满足预设收敛条件，得到训练好的图像生成器。

在此需要说明的是，本发明提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图10为本发明提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行上述各实施例提供的任一所述基于生成对抗网络的人脸修复方法的步骤，例如：

获取待修复的人脸图像；

将待修复的人脸图像输入图像生成器，得到待修复的人脸图像所对应的人脸修复图像；

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的任一所述基于生成对抗网络的人脸修复方法的步骤。

在此需要说明的是，本发明提供的非暂态计算机可读存储介质，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于生成对抗网络的人脸修复方法，其特征在于，包括：

获取待修复的人脸图像；

所述图像生成器是基于原始样本人脸图像、所述原始样本人脸图像对应的降质样本人脸图像以及图像判别器训练得到的，所述图像生成器与所述图像判别器构成生成对抗网络，所述图像判别器用于区分所述图像生成器生成的图像和所述原始样本人脸图像；

所述图像生成器包括编码器模块、映射变换模块和解码器模块；

2.根据权利要求1所述的基于生成对抗网络的人脸修复方法，其特征在于，所述原始样本人脸图像对应的降质样本人脸图像通过以下方式得到：

获取所述降质图像与所述原始样本人脸图像之间的相似度；

3.根据权利要求1所述的基于生成对抗网络的人脸修复方法，其特征在于，所述图像生成器基于以下损失函数训练得到：

L_gen＝L_gen1+γL_gen2

L_gen1＝L_pl

4.根据权利要求3所述的基于生成对抗网络的人脸修复方法，其特征在于，所述ID损失根据第一ID损失L_{ID_part1}(x)和第二ID损失L_{ID_part2}(x)确定，所述第一ID损失L_{ID_part1}(x)和所述第二ID损失L_{ID_part2}(x)通过以下公式确定：

L_{ID_part1}(x)＝1-<R(y),R(G(x))>

L_{ID_part2}(x)＝max(<R(z),R(G(x))>)

5.根据权利要求4所述的基于生成对抗网络的人脸修复方法，其特征在于，所述ID损失通过以下公式确定：

L_id(x)＝L_{ID_part1}(x)+L_{ID_part2}(x)

6.根据权利要求1至5任一项所述的基于生成对抗网络的人脸修复方法，其特征在于，所述图像生成器的训练方式包括：

7.一种基于生成对抗网络的人脸修复装置，其特征在于，包括：

获取模块，用于获取待修复的人脸图像；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于生成对抗网络的人脸修复方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于生成对抗网络的人脸修复方法。