[go: up one dir, main page]

CN111667399A - 风格迁移模型的训练方法、视频风格迁移的方法以及装置 - Google Patents

风格迁移模型的训练方法、视频风格迁移的方法以及装置 Download PDF

Info

Publication number
CN111667399A
CN111667399A CN202010409043.0A CN202010409043A CN111667399A CN 111667399 A CN111667399 A CN 111667399A CN 202010409043 A CN202010409043 A CN 202010409043A CN 111667399 A CN111667399 A CN 111667399A
Authority
CN
China
Prior art keywords
image
model
loss function
images
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010409043.0A
Other languages
English (en)
Other versions
CN111667399B (zh
Inventor
张依曼
陈醒濠
王云鹤
许春景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010409043.0A priority Critical patent/CN111667399B/zh
Publication of CN111667399A publication Critical patent/CN111667399A/zh
Application granted granted Critical
Publication of CN111667399B publication Critical patent/CN111667399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了人工智能领域中的一种风格迁移模型的训练方法、视频风格迁移的方法以及装置,包括:获取训练数据;通过神经网络模型根据样本风格图像对N帧样本内容图像进行图像风格迁移处理,得到N帧预测合成图像;根据N帧样本内容图像与N帧预测合成图像之间的图像损失函数,确定神经网络模型的参数,图像损失函数包括低秩损失函数,低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,第一低秩矩阵是基于N帧样本内容图像与光流信息得到的,第二低秩矩阵是基于N帧预测合成图像与光流信息得到的,光流信息用于表示N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。本申请的技术方案能够提高视频在风格迁移处理后的稳定性。

Description

风格迁移模型的训练方法、视频风格迁移的方法以及装置
技术领域
本申请涉人工智能领域,更具体地,涉及计算机视觉领域中的风格迁移模型的训练方法、视频风格迁移的方法以及装置。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
图像风格迁移等图像渲染任务在终端设备上具有广泛的应用需求场景。随着终端设备的性能和网络性能的高速提升,终端设备的娱乐需求渐渐从图像级别转为了视频级别,即从对单张图像的图像风格迁移处理转为对视频的图像风格迁移处理;与图像风格迁移任务相比,视频风格迁移任务不仅要考虑图像的风格化效果,还要考虑视频包括的多帧图像之间的稳定性,从而确保经过图像风格迁移处理后的视频的流畅性。
因此,如何提高视频在图像迁移处理后的稳定性成为一个亟需解决的问题。
发明内容
本申请提供一种风格迁移模型的训练方法、视频风格迁移的方法及装置,通过在训练用于视频的风格迁移模型的过程中引入了低秩损失函数,能够同步风格迁移后的视频与原始视频的稳定性,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
第一方面,提供了一种风格迁移模型的训练方法,包括:获取训练数据,其中,所述训练数据包括N帧样本内容图像、样本风格图像以及N帧合成图像,所述N帧合成图像是根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像,N为大于或者等于2的整数;通过神经网络模型根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理,得到N帧预测合成图像;根据所述N帧样本内容图像与所述N帧预测合成图像之间的图像损失函数,确定所述神经网络模型的参数,
其中,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于所述N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。
应理解,对于多帧图像构成的矩阵中,低秩矩阵可以用于表示N帧图像中都出现且不是运动边界的区域。稀疏矩阵可以用于表示N帧图像中间歇性出现的区域;例如,稀疏矩阵可以是指由于摄像机移动而在图像边界新出现或消失的区域,或者,移动物体的边界区域。
在本申请的实施例中,在训练用于视频风格迁移处理的目标风格迁移模型时引入低秩损失函数,通过引入低秩损失函数可以使得待处理视频中相邻多帧图像中都出现且不是运动边界的区域在经过风格迁移处理后仍保持相同,即使得风格迁移处理后的视频中该区域的秩逼近于待处理视频该区域的秩,从而能够提高风格迁移处理后视频的稳定性。
应理解,图像风格迁移处理是指将一幅具有风格迁移需要的图像即内容图像A中的图像内容与一幅风格图像B的图像风格进行融合的处理,从而生成一张具有图像A的内容和图像B的风格的合成图像C,或者成为融合图像C。
其中,风格图像可以是指进行风格迁移处理的参考图像,图像中的风格可以包括图像的纹理特征、图像的艺术表现形式;比如,著名画作的风格,图像的艺术表现形式可以包括卡通、漫画、油画、水彩、水墨等图像风格;内容图像可以是指需要进行风格迁移的图像,图像中的内容可以是指图像中的语义信息,即可以包括内容图像中的高频信息、低频信息等。
在一种可能的实现方式中,第一低秩矩阵是基于N帧样本内容图像与光流信息得到的;比如,第一低秩矩阵可以是指通过计算N帧样本内容图像中相邻图像帧之间的光流信息;根据光流信息可以得到掩码信息,其中,光流信息用于表示相邻帧图像对应的像素点的运行信息,掩码信息可以用于表示通过根据光流信息得到的连续两帧图像中的变化区域;进一步,根据光流信息与掩码信息将N帧样本内容图像映射到固定一帧图像,将映射处理后的N帧样本内容图像分别展成向量并按列组合成一个矩阵,则该矩阵为第一低秩矩阵。同理,第二低秩矩阵可以是基于N帧预测合成图像与光流信息得到的,根据光流信息与掩码信息将N帧预测合成图像映射到固定一帧图像,将映射处理后的N预测合成图像分别展成向量并按列组合成一个矩阵,则该矩阵为第二低秩矩阵,其中,光流信息用于表示N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。
结合第一方面,在第一方面的某些实现方式中,所述图像损失函数还包括残差损失函数,所述残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,其中,所述第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第二样本合成图像是指通过第二模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第一模型与所述第二模型是根据所述样本风格图像预先训练的图像风格迁移模型,所述第二模型包括光流模块,所述第一模型不包括所述光流模块,所述光流模块用于确定所述光流信息。
在本申请实施例中,在训练目标风格迁移模型时引入残差损失函数的目标在于使得神经网络模型在训练的过程中能够学习包括光流模块的风格迁移模型与不包括光流模块的风格迁移模型输出的合成图像的差异,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
应理解,第一样本合成图像与第二样本合成图像之间的差异可以是指第一样本合成图像与第二样本合成图像对应的像素值之间的差值。
在一种可能的实现方式中,第一模型与第二模型在训练阶段可以采用相同的样本内容图像以及样本风格图像;例如,在训练阶段第一模型与第二模型可以是指相同的模型;但是,在测试阶段第二模型还需要计算多帧样本内容图像之间的光流信息;而第一模型则不需要计算多帧图像之间的光流信息。
结合第一方面,在第一方面的某些实现方式中,所述第一模型与所述第二模型为预先训练的老师模型,所述目标风格迁移模型是指根据所述残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
在一种可能的实现方式中,目标风格迁移模型可以是指目标学生模型,在训练目标学生模型时可以根据预先训练的第一老师模型(不包括光流模块)、预先训练的第二老师模型(包括光流模块)、预先训练的基础模型对一个待训练的学生模型进行训练,从而得到目标学生模型;其中,待训练的学生模型、预先训练的基础模型以及目标学生模型的网络结构均相同,通过上述低秩损失函数、残差损失函数以及感知损失函数对待训练的学生模型进行训练,从而得到目标学生模型。
其中,上述预先训练的基础模型可以是指预先通过感知损失函数训练得到的在测试阶段不包括光流模块的风格迁移模型;或者,预先训练的风格迁移模型可以是指通过感知损失函数以及光流损失函数预先训练的在测试阶段不包括光流模块的风格迁移模型;感知损失函数用于表示合成图像与内容图像之间的内容损失以及合成图像与风格图像之间的风格损失;光流损失函数用于表示相邻帧合成图像对应像素点之间的差异。
在一种可能的实现方式中,在训练待训练学生模型的过程中,通过上述残差损失函数使得待训练的学生模型与预先训练的基础模型之间输出的迁移结果(又称为合成图像)的差异不断逼近第二模型与第一模型之间输出的迁移结果的差异。
在本申请的实施例中,目标风格迁移模型可以是指目标学生模型,通过采用老师-学生模型学习的知识蒸馏方法使得待训练的学生模型与预先训练的基础模型输出的风格迁移结果之间的差异不断逼近包括光流模块的老师模型与不包括光流模块的老师模型输出的风格迁移结果之间的差异,通过这种训练方法可以有效避免老师模型和学生模型风格不统一所造成的重影现象。
结合第一方面,在第一方面的某些实现方式中,所述残差损失函数是根据以下等式得到的,
Figure BDA0002492517480000031
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure BDA0002492517480000032
表示所述第一模型;NS表示所述待训练的学生模型;
Figure BDA0002492517480000033
表示预先训练的基础模型,所述预先训练的基础模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
结合第一方面,在第一方面的某些实现方式中,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
结合第一方面,在第一方面的某些实现方式中,所述图像损失函数是通过对所述低秩损失函数、所述残差损失函数以及所述感知损失函数加权处理得到的。
结合第一方面,在第一方面的某些实现方式中,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
第二方面,视频风格迁移的方法,包括:获取待处理视频,其中,所述待处理视频包括N帧待处理内容图像,N为大于或者等于2的整数;根据目标风格迁移模型对所述N帧待处理内容图像进行图像风格迁移处理,得到N帧合成图像;根据所述N帧合成图像,得到所述待处理视频对应的风格迁移处理后的视频,
其中,所述目标风格迁移模型的参数是根据所述目标风格迁移模型对N帧样本内容图像进行风格迁移处理的图像损失函数确定的,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异,所述N帧预测合成图像是指通过所述目标风格迁移模型根据样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像。
需要说明的是,图像风格迁移是指将一幅内容图像A中的图像内容与一幅风格图像B的图像风格融合在一起,从而生成一张具有A图像内容和B图像风格的合成图像C;其中,图像中的风格可以包括图像的纹理特征等信息;图像中的内容可以是指图像中的语义信息,即可以包括内容图像中的高频信息、低频信息等。
应理解,对于多帧图像构成的矩阵中,低秩矩阵可以用于表示N帧图像中都出现且不是运动边界的区域。稀疏矩阵可以用于表示N帧图像中间歇性出现的区域;例如,稀疏矩阵可以是指由于摄像机移动而在图像边界新出现或消失的区域,或者,移动物体的边界区域。
在本申请的实施例中,在训练用于视频风格迁移处理的目标风格迁移模型时引入低秩损失函数,通过引入低秩损失函数可以使得待处理视频中相邻多帧图像中都出现且不是运动边界的区域在经过风格迁移处理后仍保持相同,即使得风格迁移处理后的视频中该区域的秩逼近于待处理视频该区域的秩,从而能够提高风格迁移处理后视频的稳定性。
在另一方面,本申请实施例提供的目标风格迁移模型在对待处理视频进行风格迁移处理的过程中不需要计算待处理视频中包括的多帧图像之间的光流信息,因此本申请实施例提供的目标迁风格移模型在提高稳定性的同时还能缩短模型的风格迁移处理的时间,提升目标风格迁移模型的运行效率。
在一种可能的实现方式中,待处理视频可以是电子设备通过摄像头拍摄到的视频,或者,该待处理视频还可以是从电子设备内部获得的视频(例如,电子设备的相册中存储的视频,或者,电子设备从云端获取的视频)。
应理解,上述待处理视频可以是具有风格迁移需求的视频,本申请并不对待处理视频的来源作任何限定。
结合第二方面,在第二方面的某些实现方式中,所述图像损失函数还包括残差损失函数,所述残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,其中,所述第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第二样本合成图像是指通过第二模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第一模型与所述第二模型是根据所述样本风格图像预先训练的图像风格迁移模型,所述第二模型包括光流模块,所述第一模型不包括所述光流模块,所述光流模块用于确定所述光流信息。
在本申请实施例中,在训练目标风格迁移模型时引入残差损失函数的目标在于使得神经网络模型在训练的过程中能够学习包括光流模块的风格迁移模型与不包括光流模块的风格迁移模型输出的合成图像的差异,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
应理解,第一样本合成图像与第二样本合成图像之间的差异可以是指第一样本合成图像与第二样本合成图像对应的像素值之间的差值。在一种可能的实现方式中,第一模型与第二模型在训练阶段可以采用相同的样本内容图像以及样本风格图像;例如,在训练阶段第一模型与第二模型可以是指相同的模型;但是,在测试阶段第二模型还需要计算多帧样本内容图像之间的光流信息;而第一模型则不需要计算多帧图像之间的光流信息。
结合第二方面,在第二方面的某些实现方式中,所述第一模型与所述第二模型为预先训练的老师模型,所述目标风格迁移模型是指根据所述残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
需要说明的是,上述学生模型与目标学生模型的网络结构可以是相同的,即学生模型可以是指预先训练的在测试阶段不需要输入光流信息的风格迁移模型;而目标学生模型是指在学生模型的基础上通过上述残差损失函数以及低秩损失函数进一步进行训练得到的模型。
在一种可能的实现方式中,预先训练的学生模型可以是通过感知损失函数预先训练得到的学生模型,感知损失函数用于表示视频风格化的效果,即可以用于表示样本合成图像与样本风格图像之间的内容差异以及样本合成图像与样本内容图像之间的风格差异。
在一种可能的实现方式中,预先训练的学生模型可以是通过感知损失函数预先训练得到的学生模型,光流损失函数用于表示相邻帧合成图像对应像素点之间的差异。
结合第二方面,在第二方面的某些实现方式中,所述残差损失函数是根据以下等式得到的,
Figure BDA0002492517480000051
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure BDA0002492517480000052
表示所述第一模型;NS表示所述待训练的学生模型;
Figure BDA0002492517480000053
表示预先训练的基础模型,所述预先训练的基础模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
在一种可能的实现方式中,目标风格迁移模型可以是指目标学生模型,在训练目标学生模型时可以根据预先训练的第一老师模型(不包括光流模块)、预先训练的第二老师模型(包括光流模块)、预先训练的基础模型对一个待训练的学生模型进行训练,从而得到目标学生模型;其中,待训练的学生模型、预先训练的基础模型以及目标学生模型的网络结构均相同,通过上述低秩损失函数、残差损失函数以及感知损失函数对待训练的学生模型进行训练,从而得到目标学生模型。
其中,上述预先训练的基础模型可以是指预先通过感知损失函数训练得到的在测试阶段不包括光流模块的风格迁移模型;或者,预先训练的风格迁移模型可以是指通过感知损失函数以及光流损失函数预先训练的在测试阶段不包括光流模块的风格迁移模型;感知损失函数用于表示合成图像与内容图像之间的内容损失以及合成图像与风格图像之间的风格损失;光流损失函数用于表示相邻帧合成图像对应像素点之间的差异。
在一种可能的实现方式中,在训练待训练学生模型的过程中,通过上述残差损失函数使得待训练的学生模型与预先训练的基础模型之间输出的迁移结果(又称为合成图像)的差异不断逼近第二模型与第一模型输出的迁移结果的之间差异。
在本申请的实施例中,目标风格迁移模型可以是指目标学生模型,通过采用老师-学生模型学习的知识蒸馏方法使得待训练的学生模型与预先训练的基础模型输出的风格迁移结果之间的差异不断逼近包括光流模块的老师模型与不包括光流模块的老师模型输出的风格迁移结果之间的差异,通过这种训练方法可以有效避免老师模型和学生模型风格不统一所造成的重影现象。
结合第二方面,在第二方面的某些实现方式中,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
结合第二方面,在第二方面的某些实现方式中,所述图像损失函数是通过对所述低秩损失函数、所述残差损失函数以及所述感知损失函数加权处理得到的。
结合第二方面,在第二方面的某些实现方式中,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
第三方面,提供了一种风格迁移模型的训练装置,包括:获取单元,用于获取训练数据,其中,所述训练数据包括N帧样本内容图像、样本风格图像以及N帧合成图像,所述N帧合成图像是根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像,N为大于或者等于2的整数;处理单元,用于通过神经网络模型根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理,得到N帧预测合成图像;根据所述N帧样本内容图像与所述N帧预测合成图像之间的图像损失函数,确定所述神经网络模型的参数,其中,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于所述N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。
在一种可能的实现方式中,上述训练装置中包括功能单元/模块还用于执行第一方面以及第一方面中的任意一种实现方式中的方法。
应理解,在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第三方面中相同的内容。
第四方面,提供了一种视频风格迁移的装置,包括:获取单元,用于获取待处理视频,其中,所述待处理视频包括N帧待处理内容图像,N为大于或者等于2的整数;处理单元,用于根据目标风格迁移模型对所述N帧待处理内容图像进行图像风格迁移处理,得到N帧合成图像;根据所述N帧合成图像,得到所述待处理视频对应的风格迁移处理后的视频,
其中,所述目标风格迁移模型的参数是根据所述目标风格迁移模型对N帧样本内容图像进行风格迁移处理的图像损失函数确定的,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异,所述N帧预测合成图像是指通过所述目标风格迁移模型根据样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像。
在一种可能的实现方式中,上述装置中包括功能单元/模块还用于执行第二方面以及第二方面中的任意一种实现方式中的方法。
应理解,在上述第二方面中对相关内容的扩展、限定、解释和说明也适用于第四方面中相同的内容。
第五方面,提供了一种风格迁移模型的训练装置,包括:存储器,用于存储程序;处理器,用于执行该存储器存储的程序,当该存储器存储的程序被执行时,该处理器用于执行:获取训练数据,其中,所述训练数据包括N帧样本内容图像、样本风格图像以及N帧合成图像,所述N帧合成图像是根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像,N为大于或者等于2的整数;通过神经网络模型根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理,得到N帧预测合成图像;根据所述N帧样本内容图像与所述N帧预测合成图像之间的图像损失函数,确定所述神经网络模型的参数,其中,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于所述N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。
在一种可能的实现方式中,上述训练装置中包括处理器还用于执行第一方面以及第一方面中的任意一种实现方式中的方法。
应理解,在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第五方面中相同的内容。
第六方面,提供了一种视频风格迁移的装置,包括:存储器,用于存储程序;处理器,用于执行该存储器存储的程序,当该存储器存储的程序被执行时,该处理器用于执行:获取待处理视频,其中,所述待处理视频包括N帧待处理内容图像,N为大于或者等于2的整数;根据目标风格迁移模型对所述N帧待处理内容图像进行图像风格迁移处理,得到N帧合成图像;根据所述N帧合成图像,得到所述待处理视频对应的风格迁移处理后的视频,其中,所述目标风格迁移模型的参数是根据所述目标风格迁移模型对N帧样本内容图像进行风格迁移处理的图像损失函数确定的,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于所述N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异,所述N帧预测合成图像是指通过所述目标风格迁移模型根据样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像。
在一种可能的实现方式中,上述装置中包括的处理器还用于执行第二方面中的任意二种实现方式中的训练方法。
应理解,在上述第二方面中对相关内容的扩展、限定、解释和说明也适用于第六方面中相同的内容。
第七方面,提供了一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行上述第一方面至第二方面以及第一方面至第二方面中的任意一种实现方式中的方法。
第八方面,提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面至第二方面以及第一方面至第二方面中的任意一种实现方式中的方法。
第九方面,提供了一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面至第二方面以及第一方面至第二方面中的任意一种实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行上述第一方面至第二方面以及第一方面至第二方面中的任意一种实现方式中的方法。
附图说明
图1是本申请实施例提供的一种人工智能主体框架示意图;
图2是本申请实施例提供的应用场景的示意图;
图3是本申请实施例提供了一种系统架构;
图4是本申请实施例提供的一种卷积神经网络结构示意图;
图5是本申请实施例提供的一种芯片硬件结构示意图;
图6是本申请实施例提供了一种系统架构;
图7是本申请实施例提供的风格迁移模型的训练方法的示意性流程图;
图8是本申请实施例提供的风格迁移模型的训练过程的示意图;
图9是本申请实施例提供的视频风格迁移的方法的示意性流程图;
图10是本申请实施例提供的训练阶段以及测试阶段的示意图;
图11是本申请实施例提供的视频风格迁移的装置的示意性框图;
图12是本申请实施例提供的风格迁移模型的训练装置的示意性框图;
图13是本申请实施例提供的视频风格迁移的装置的示意性框图;
图14是本申请实施例提供的风格迁移模型的训练装置的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述;显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。根据本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出一种人工智能主体框架示意图,该主体框架描述了人工智能系统总体工作流程,适用于通用的人工智能领域需求。
下面从“智能信息链”(水平轴)和“信息技术(information technology,IT)价值链”(垂直轴)两个维度对上述人工智能主题框架100进行详细的阐述。
“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。
“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施110
基础设施可以为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。
基础设施可以通过传感器与外部沟通,基础设施的计算能力可以由智能芯片提供。
这里的智能芯片可以是中央处理器(central processing unit,CPU)、神经网络处理器(neural-network processing unit,NPU)、图形处理器(graphics processingunit,GPU)、专门应用的集成电路(application specific integrated circuit,ASIC)以及现场可编程门阵列(field programmable gate array,FPGA)等硬件加速芯片。
基础设施的基础平台可以包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。
例如,对于基础设施来说,可以通过传感器和外部沟通获取数据,然后将这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据120
基础设施的上一层的数据用于表示人工智能领域的数据来源。该数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理130
上述数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等处理方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力140
对数据经过上面提到的数据处理后,进一步根据数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用150
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。
图2是本申请实施例提供的应用场景的示意图。
如图2所示,本申请实施例的视频风格迁移的方法可以应用于智能终端上;例如,将通过智能终端的摄像头的待处理视频,或者智能终端中相册中存储的待处理视频输入至本申请实施例提供的目标风格迁移模型中,从而得到风格迁移处理后的视频;通过采用本申请实施例提供的目标风格迁移模型,能够确保风格迁移处理后视频的稳定性,即确保风格迁移处理后得到视频的流畅性。
在一个示例中,本申请实施例提供的视频风格迁移的方法可以应用于离线场景中。
例如,通过获取待处理视频,将待处理视频输入至目标风格迁移模型中,从而得到风格迁移处理后的视频,即输出的稳定的风格化的视频。
在一个示例中,本申请实施例提供的视频风格迁移的方法可以应用于在线场景中。
例如,获取智能终端实时录制的视频,将该实时录制的视频输入至目标风格迁移模型中,从而得到实时输出的风格迁移处理后的视频;比如,可以用于展台实时展示等场景
例如,通过智能终端进行在线视频通话时,可以将摄像头实时拍摄的用户视频输入至目标风格迁移模型,从而得到输出的风格迁移处理后的视频。比如,可以实时地向别人展示稳定的风格化视频,提升趣味性。
其中,上述目标风格迁移模型是通过本申请实施例提供的风格迁移模型的训练方法进行训练得到的预先训练的模型。
示例性地,上述智能终端可以为移动的或固定的;例如,智能终端可以是具有图像处理功能的移动电话、平板个人电脑(tablet personal computer,TPC)、媒体播放器、智能电视、笔记本电脑(laptop computer,LC)、个人数字助理(personal digital assistant,PDA)、个人计算机(personal computer,PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device,WD)或者自动驾驶的车辆等,本申请实施例对此不作限定。
应理解,上述为对应用场景的举例说明,并不对本申请的应用场景作任何限定。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。
1、神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:
Figure BDA0002492517480000101
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
2、深度神经网络
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:
Figure BDA0002492517480000102
其中,
Figure BDA0002492517480000103
是输入向量,
Figure BDA0002492517480000104
是输出向量,
Figure BDA0002492517480000105
是偏移向量,W是权重矩阵(也称系数),α()是激活函数。每一层仅仅是对输入向量
Figure BDA0002492517480000106
经过如此简单的操作得到输出向量
Figure BDA0002492517480000107
由于DNN层数多,系数W和偏移向量
Figure BDA0002492517480000108
的数量也比较多。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为
Figure BDA0002492517480000111
。上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。
综上,第L-1层的第k个神经元到第L层的第j个神经元的系数定义为
Figure BDA0002492517480000112
需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
3、卷积神经网络
卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器,该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
4、损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数);比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
5、反向传播算法
神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。
具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。
6、图像风格迁移
图像风格迁移是指将一幅内容图像A中的图像内容与一幅风格图像B的图像风格融合在一起,从而生成一张具有A图像内容和B图像风格的合成图像C。
示例性地,根据风格图像1对内容图像1进行图像风格迁移,可以得到合成图像1,其中,合成图像1中包括内容图像1中的内容以及风格图像1中的风格;类似地,根据风格图像2对内容图像1进行图像风格迁移,可以得到合成图像2,其中,合成图像2中包括内容图像1中的内容以及风格图像2中的风格。
其中,风格图像可以是指进行风格迁移的参考图像,图像中的风格可以包括图像的纹理特征、图像的艺术表现形式;比如,著名画作的风格,图像的艺术表现形式可以包括卡通、漫画、油画、水彩、水墨等图像风格;内容图像可以是指需要进行风格迁移的图像,图像中的内容可以是指图像中的语义信息,即可以包括内容图像中的高频信息、低频信息等。
7、光流信息
光流(optical flow or optic flow)用于表示空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。
8、知识蒸馏
知识蒸馏是指使得深度学习模型小型化、达到终端设备部署要求的关键技术。相较与量化、稀疏化等压缩技术,其不需要特定的硬件支持就能达到压缩模型的目的。知识蒸馏技术采用老师-学生模型学习的策略,其中,老师模型可以指模型参数大,一般不能满足部署需求;而学生模型参数量少,能够直接部署。通过设计有效的知识蒸馏算法,让学生模型学习模仿老师模型的行为,进行有效的知识迁移,使得学生模型最终能够表现得与老师模型相同的处理能力。
首先,介绍本申请实施例提供的视频风格迁移的方法与风格迁移模型的训练方法的系统架构。
图3是本申请实施例提供了一种系统架构200。
如图3中的系统架构200所示,数据采集设备260用于采集训练数据。针对本申请实施例的风格迁移模型的训练方法来说,可以通过训练数据对目标风格迁移模型进行进一步训练,即数据采集设备260采集的训练数据。
示例性地,在本申请实施例中训练目标风格迁移模型的训练数据可以N帧样本内容图像、样本风格图像以及N帧样本合成图像,其中,N帧样本合成图像是根据样本风格图像对N帧样本内容图像进行图像风格迁移处理后得到的图像,N为大于或者等于2的整数。
在采集到训练数据之后,数据采集设备260将这些训练数据存入数据库230,训练设备220根据数据库230中维护的训练数据训练得到目标模型/规则201(即本申请实施例中的目标风格迁移模型)。训练设备220将训练数据输入目标风格迁移模型,直到训练目标风格迁移模型的输出数据与样本数据之间的差值满足预设条件(例如,预测数据与样本数据差值小于一定阈值,或者预测数据与样本数据的差值保持不变或不再减少),从而完成目标模型/规则201的训练。
其中,输出数据可以是指目标风格迁移模型输出的N帧预测合成图像;样本数据可以是指N帧样本合成图像。
在本申请提供的实施例中,该目标模型/规则201是通过训练目标风格迁移模型得到的,目标风格迁移模型可以用于对待处理视频进行风格迁移处理。需要说明的是,在实际的应用中,所述数据库230中维护的训练数据不一定都来自于数据采集设备260的采集,也有可能是从其他设备接收得到的。
需要说明的是,训练设备220也不一定完全根据数据库230维护的训练数据进行目标模型/规则201的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。
还需要说明的是,数据库230中维护的训练数据中的至少部分数据也可以用于执行设备210对待处理处理进行处理的过程。
根据训练设备220训练得到的目标模型/规则201可以应用于不同的系统或设备中,如应用于图3所示的执行设备210,所述执行设备210可以是终端,如手机终端,平板电脑,笔记本电脑,AR/VR,车载终端等,还可以是服务器或者云端等。
在图3中,执行设备210配置输入/输出(input/output,I/O)接口212,用于与外部设备进行数据交互,用户可以通过客户设备240向I/O接口212输入数据,所述输入数据在本申请实施例中可以包括:客户设备输入的待处理视频。
其中,预处理模块213和预处理模块214用于根据I/O接口212接收到的输入数据(如待处理视频)进行预处理。在本申请实施例中,也可以没有预处理模块213和预处理模块214(也可以只有其中的一个预处理模块),而直接采用计算模块211对输入数据进行处理。
在执行设备210对输入数据进行预处理,或者,在执行设备210的计算模块211执行计算等相关的处理过程中,执行设备210可以调用数据存储系统250中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统250中。
最后,I/O接口212将处理结果,如上述得到待处理视频,即将得到的风格迁移处理后的视频返回给客户设备240,从而提供给用户。
值得说明的是,训练设备220可以针对不同的目标或称不同的任务,根据不同的训练数据生成相应的目标模型/规则201,该相应的目标模型/规则201即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。
在图3中所示情况下,在一种情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口212提供的界面进行操作。
另一种情况下,客户设备240可以自动地向I/O接口212发送输入数据,如果要求客户设备240自动发送输入数据需要获得用户的授权,则用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端,采集如图所示输入I/O接口212的输入数据及输出I/O接口212的输出结果作为新的样本数据,并存入数据库230。当然,也可以不经过客户设备240进行采集,而是由I/O接口212直接将如图所示输入I/O接口212的输入数据及输出I/O接口212的输出结果,作为新的样本数据存入数据库230。
值得注意的是,图3仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如,在图3中,数据存储系统250相对执行设备210是外部存储器,在其它情况下,也可以将数据存储系统250置于执行设备210中。
如图3所示,根据训练设备220训练得到目标模型/规则201,该目标模型/规则201在本申请实施例中可以是目标风格迁移模型,具体的,本申请实施例提供的目标风格迁移模型可以是深度神经网络,卷积神经网络,或者,可以是深度卷积神经网络等。
下面结合图4重点对卷积神经网络的结构进行详细的介绍。如上文的基础概念介绍所述,卷积神经网络是一种带有卷积结构的深度神经网络,是一种深度学习(deeplearning)架构,深度学习架构是指通过机器学习的算法,在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构,卷积神经网络是一种前馈(feed-forward)人工神经网络,该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。
本申请实施例中风格迁移模型的网络结构可以如图4所示。在图4中,卷积神经网络300可以包括输入层310,卷积层/池化层320(其中,池化层为可选的),以及神经网络层330。其中,输入层310可以获取待处理图像,并将获取到的待处理图像交由卷积层/池化层320以及后面的神经网络层330进行处理,可以得到图像的处理结果。下面对图4中的CNN300中内部的层结构进行详细的介绍。
卷积层/池化层320:
如图4所示卷积层/池化层320可以包括如示例321-326层;举例来说:在一种实现中,321层为卷积层,322层为池化层,323层为卷积层,324层为池化层,325为卷积层,326为池化层;在另一种实现方式中,321、322为卷积层,323为池化层,324、325为卷积层,326为池化层,即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
下面将以卷积层321为例,介绍一层卷积层的内部工作原理。
卷积层321可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素等,这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用多个尺寸(行×列)相同的权重矩阵,即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度,这里的维度可以理解为由上面所述的“多个”来决定。
不同的权重矩阵可以用来提取图像中不同的特征,例如,一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同,经过该多个尺寸相同的权重矩阵提取后的卷积特征图的尺寸也相同,再将提取到的多个尺寸相同的卷积特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息,从而使得卷积神经网络300进行正确的预测。
当卷积神经网络300有多个卷积层的时候,初始的卷积层(例如321)往往提取较多的一般特征,一般特征也可以称之为低级别的特征;随着卷积神经网络300深度的加深,越往后的卷积层(例如326)提取到的特征越来越复杂,比如,高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,在如图4中320所示例的321-326各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中,池化层的目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样,池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。
神经网络层330:
在经过卷积层/池化层320的处理后,卷积神经网络300还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层320只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息),卷积神经网络300需要利用神经网络层330来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层330中可以包括多层隐含层(如图4所示的331、332至33n)以及输出层340,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像检测以及图像超分辨率重建等等。
在神经网络层330中的多层隐含层之后,也就是整个卷积神经网络300的最后层为输出层340,该输出层340具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络300的前向传播(如图4由310至340方向的传播为前向传播)完成,反向传播(如图4由340至310方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络300的损失,及卷积神经网络300通过输出层输出的结果和理想结果之间的误差。
需要说明的是,图4所示的卷积神经网络仅作为一种本申请实施例的目标风格迁移模型的结构示例,在具体的应用中,本申请实施例的视频风格迁移的方法所采用的风格迁移模型还可以以其他网络模型的形式存在。
图5为本申请实施例提供的一种芯片的硬件结构,该芯片包括神经网络处理器400(neural-network processing unit,NPU)。该芯片可以被设置在如图3所示的执行设备210中,用以完成计算模块211的计算工作。该芯片也可以被设置在如图3所示的训练设备220中,用以完成训练设备220的训练工作并输出目标模型/规则201。如图4所示的卷积神经网络中各层的算法均可在如图5所示的芯片中得以实现。
NPU 400作为协处理器挂载到主中央处理器(central processing unit,CPU)上,由主CPU分配任务。NPU 400的核心部分为运算电路403,控制器404控制运算电路403提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路403内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路403是二维脉动阵列。运算电路403还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路403是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路403从权重存储器402中取矩阵B相应的数据,并缓存在运算电路403中每一个PE上。运算电路403从输入存储器401中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器408(accumulator)中。
向量计算单元407可以对运算电路403的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元407可以用于神经网络中非卷积/非FC层的网络计算,如池化(pooling),批归一化(batch normalization),局部响应归一化(local response normalization)等。
在一些实现种,向量计算单元能407将经处理的输出的向量存储到统一存储器406。例如,向量计算单元407可以将非线性函数应用到运算电路403的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元407生成归一化的值、合并值,或二者均有。
在一些实现中,处理过的输出的向量能够用作到运算电路403的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器406用于存放输入数据以及输出数据。
权重数据直接通过存储单元访问控制器405(direct memory accesscontroller,DMAC)将外部存储器中的输入数据存入到输入存储器401和/或统一存储器406、将外部存储器中的权重数据存入权重存储器402,以及将统一存储器406中的数据存入外部存储器。
总线接口单元410(bus interface unit,BIU),用于通过总线实现主CPU、DMAC和取指存储器409之间进行交互。
与控制器404连接的取指存储器409(instruction fetch buffer),用于存储控制器404使用的指令。
控制器404,用于调用取指存储器409中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器406,输入存储器401,权重存储器402以及取指存储器409均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory,DDR SDRAM)、高带宽存储器(high bandwidth memory,HBM)或其他可读可写的存储器。
其中,图4所示的卷积神经网络中各层的运算可以由运算电路403或向量计算单元407执行。
上文中介绍的图3中的执行设备210能够执行本申请实施例的视频风格迁移的方法的各个步骤,图4所示的CNN模型和图5所示的芯片也可以用于执行本申请实施例的视频风格迁移的方法的各个步骤。
图6所示是本申请实施例提供了一种系统架构500。该系统架构包括本地设备520、本地设备530以及执行设备510和数据存储系统550,其中,本地设备520和本地设备530通过通信网络与执行设备510连接。
执行设备510可以由一个或多个服务器实现。可选的,执行设备510可以与其它计算设备配合使用,例如:数据存储器、路由器、负载均衡器等设备。执行设备510可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备510可以使用数据存储系统550中的数据,或者调用数据存储系统550中的程序代码来实现本申请实施例的视频风格迁移的方法。
需要说明的是,上述执行设备510也可以称为云端设备,此时执行设备510可以部署在云端。
具体地,执行设备510可以执行以下过程:
获取训练数据,其中,所述训练数据包括N帧样本内容图像、样本风格图像以及N帧合成图像,所述N帧合成图像是根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像,N为大于或者等于2的整数;通过神经网络模型根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理,得到N帧预测合成图像;根据所述N帧样本内容图像与所述N帧预测合成图像之间的图像损失函数,确定所述神经网络模型的参数,其中,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于所述N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。
或者,执行设备510可以执行以下过程:
获取待处理视频,其中,所述待处理视频包括N帧待处理内容图像,N为大于或者等于2的整数;根据目标风格迁移模型对所述N帧待处理内容图像进行图像风格迁移处理,得到N帧合成图像;根据所述N帧合成图像,得到所述待处理视频对应的风格迁移处理后的视频,其中,所述目标风格迁移模型的参数是根据所述目标风格迁移模型对N帧样本内容图像进行风格迁移处理的图像损失函数确定的,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异,所述N帧预测合成图像是指通过所述目标风格迁移模型根据样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像。
用户可以操作各自的用户设备(例如,本地设备520和本地设备530)与执行设备510进行交互。每个本地设备可以表示任何计算设备,例如,个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。
每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备510进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
在一种实现方式中,本地设备520、本地设备530可以从执行设备510获取到目标风格迁移模型的相关参数,将目标风格迁移模型部署在本地设备520、本地设备530上,利用该目标风格迁移模型进行视频风格迁移处理等。
在另一种实现中,执行设备510上可以直接部署目标风格迁移模型,执行设备510通过从本地设备520和本地设备530获取待处理视频,并根据目标风格迁移模型对待处理视频进行风格迁移处理等。
目前,利用光流信息来稳定风格化视频的视频风格迁移模型主要包括两种,第一种为将光流用于风格迁移模型的训练过程中,但是在测试阶段并不引入光流信息;第二种为将光流模块融入风格迁移模型的结构中;但是,对于第一种方法能够保证了在测试阶段风格迁移模型的运算效率,但得到的风格迁移处理后的视频的稳定性差;第二种方法能够保证风格迁移处理后输出视频的稳定性,但是由于引入光流模块故在测试阶段需要计算视频中包括的图像帧与图像帧之间的光流信息,因此无法风格迁移模型在测试阶段的运算效率。
有鉴于此,本申请实施例提出了一种风格迁移模型的训练方法以及视频风格迁移的方法,在训练用于视频的风格迁移模型的过程中引入了低秩损失函数,通过低秩信息的学习,能够同步风格迁移后的视频与原始视频的稳定性,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性;此外,本申请实施例提出的风格迁移模型在测试阶段即对待处理视频进行风格迁移处理的过程中不需要计算视频中包括的多帧图像之间的光流信息,因此本申请实施例提供的目标迁风格移模型在提高稳定性的同时还能缩短模型的风格迁移处理的时间,提升目标风格迁移模型的运行效率。
图7示出了本申请实施例提供的风格迁移模型的训练方法600的示意性流程图,该方法可以由能够进行图像风格迁移的装置执行;例如,该训练方法可以由图6中的执行设备510执行,或者,也可以由本地设备520执行。其中,训练方法600包括S610至S630,下面分别对这些步骤进行详细的描述。
S610、获取训练数据。
其中,训练数据可以包括N帧样本内容图像、样本风格图像以及N帧合成图像,N帧合成图像是根据样本风格图像对N帧样本内容图像进行图像风格迁移处理后得到的图像,N为大于或者等于2的整数。
示例性地,N帧样本内容图像可以是指样本视频中包括的N帧连续的样本内容图像;N帧合成图像可以是指根据样本风格图像对样本视频进行风格迁移处理后得到的视频中包括的N帧连续的合成图像。
应理解,对于单帧图像的风格迁移处理即图像风格迁移而言只需要考虑内容图像中的内容以及风格图像中的风格;但是对于视频而言,由于视频中包括多帧连续的视频,视频的风格迁移不仅要考虑图像的风格化效果,还要考虑多帧图像之间的稳定性;即需要确保风格迁移处理后视频的流畅性,避免出现闪屏、伪影等噪声。
需要说明的是,上述N帧样本内容图像是指视频中的N帧相邻的图像;N帧合成图像是指与N帧样本内容图像对应的图像。
S620、通过神经网络模型根据样本风格图像对N帧样本内容图像进行图像风格迁移处理,得到N帧预测合成图像。
示例性地,可以将样本视频中包括的N帧样本内容图像以及N帧样本风格图像输入至神经网络模型。
例如,可以是将N帧样本内容图像分别一帧一帧的输入至神经网络模型,神经网络模型可以根据样本风格图像对该一帧样本内容图像进行图像风格迁移处理,从而得到该一帧样本内容图像对应的一帧预测合成图像;执行N次上述过程后,可以得到N帧样本内容图像对应的N帧预测合成图像。
例如,可以是将N帧样本内容图像中的多帧图像一次的输入至神经网络模型,神经网络模型可以根据样本风格图像对该多样本内容图像进行图像风格迁移处理。
S630、根据N帧样本内容图像与N帧预测合成图像之间的图像损失函数,确定神经网络模型的参数。
其中,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。
需要说明的是,对于多帧图像构成的矩阵中,低秩矩阵可以用于表示N帧图像中都出现且不是运动边界的区域。稀疏矩阵可以用于表示N帧图像中间歇性出现的区域;例如,稀疏矩阵可以是指由于摄像机移动而在图像边界新出现或消失的区域,或者,移动物体的边界区域。
例如,N帧样本内容图像可以是指用户在运动的图像,则N帧样本内容图像构成的低秩矩阵可以用于表示N帧样本内容图像中都出现且不是运动边界的区域;比如,N帧样本内容构成的低秩矩阵可以用于表示未发生运动的背景区域,或者,N帧样本内容图像中均出现的用户且不是运动边界的区域。
示例性地,假设视频中包括连续的5帧图像,即连续的5帧样本内容图像;得到5帧样本内容图像进行风格迁移处理的5帧风格迁移结果即5帧样本合成图像;低秩矩阵可以采用如下方式进行计算:
步骤1、根据视频中的5帧图像,即5帧样本内容图像计算图像帧与图像帧之间的光流信息;
步骤2、根据光流信息计算掩码信息,其中,掩码信息可以用于表示通过根据光流信息得到的连续两帧图像中的变化区域;
步骤3、根据光流信息和掩码信息计算将第1、2、4、5帧图像与第3帧图像对齐之后的低秩部分,并将稀疏部分置为0;
步骤4、将对齐后的5帧图像分别展成向量并按列组合成一个矩阵,则该矩阵可以是低秩矩阵。
应理解,在计算低秩损失函数时,目标是5帧样本内容图像构成的图像矩阵的低秩部分的秩与5帧样本合成图像构成的图像矩阵的低秩部分的秩逼近;其中,通过优化核范数可以不断优化低秩部分的秩,核范数是通过对矩阵进行奇异值分解得到的。
示例性地,对于连续的K帧图像
Figure BDA0002492517480000191
和其对应的光流信息(例如,可以包括前向光流信息和反向光流信息)
Figure BDA0002492517480000192
学生模型输出的合成图像
Figure BDA0002492517480000193
首先,可以根据前向光流信息、后向光流信息以及掩码信息将K帧合成图像映射到固定一帧,一般来说为τ=[K/2]帧;即对于第t帧合成图像,在将其映射到第τ帧合成图像后,其低秩矩阵可以表示为:
Rt=Mt-τ⊙W[Ns(xt),ft-τ];
其中,Mt-τ用于表示K帧图像的前向光流信息与反向光流信息计算得到的掩码信息;W用于表示映射操作(warp)。
根据步骤4可以得到向量化后并按列组合得到的矩阵X,X=[vec(R0),...,vec(RK)]T∈RK*L,其中,L=H*W*3,K用于表示矩阵X的行数,是图像的帧数;L用于表示矩阵X的列数;H用于表示每帧图像的高;W用于表示每帧图像的宽。
对X进行奇异值分解,希望能得到核范数,分解过程为X=u∑vT,其中,矩阵X的大小为K*L,u∈RK*K,v∈RL*L,而核范数||X||*=tr(∑)。tr用于表示矩阵的迹;比如,对于一个n×n矩阵A的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩阵A的迹,tr(A)。
低秩损失函数为:
L=(||Xinput||*-||Xs||*)2
其中,Xinput表示输入的K帧图像得到的向量化矩阵;Xs表示根据目标学生网络输出的K帧合成图像得到的向量化矩阵。
在本申请的实施例中在训练风格迁移模型时引入低秩损失函数的目标是在原始视频中相邻多帧内容图像中都出现且不是运动边界的区域,在经过风格迁移处理后仍保持相同,即使得风格迁移处理后的视频中该区域的秩逼近于原始视频该区域的秩,从而能够提高风格迁移处理后视频的稳定性。
进一步地,在本申请的实施例中,上述图像损失函数中还包括残差损失函数,残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,其中,第一样本合成图像是通过第一模型对述N帧样本内容图像进行图像风格迁移处理得到的,第二样本合成图像是通过第二模型对N帧样本内容图像进行图像风格迁移处理得到的,第一模型与第二模型是根据样本风格图像预先训练的图像风格迁移模型,第二模型包括光流模块,第一模型不包括光流模块,光流模块用于确定N帧样本内容图像的光流信息。
需要说明的是,上述第一模型与第二模型是指通过相同的风格图像训练的风格迁移模型,其中,第一模型与第二模型的区别在于第一模型中不包括光流模块;第二模型中包括光流模块;即第一模型与第二模型在训练时可以采用相同的样本内容图像以及样本风格图像,例如,在训练阶段第一模型与第二模型可以是指相同的模型;但是,在测试阶段第二模型还需要计算多帧样本内容图像之间的光流信息;而第一模型则不需要计算多帧图像之间的光流信息。
在本申请实施例中,在训练目标风格迁移模型时引入残差损失函数的目标在于使得神经网络模型在训练的过程中能够学习包括光流模块的风格迁移模型与不包括光流模块的风格迁移模型输出的合成图像的差异,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
进一步地,在本申请的实施例中,为了满足移动终端的部署需求可以采用老师-学生模型学习的策略,即训练的风格迁移模型可以是目标学生模型;在训练过程中,通过图像损失函数可以更新学生模型的参数,从而得到目标学生模型。
需要说明的是,学生模型与目标学生模型的网络结构是相同的,学生模型可以是指预先训练的在测试阶段不需要输入光流信息的风格迁移模型。
可选地,在一种可能的实现方式中,第一模型与第二模型可以为预先训练的老师模型,目标风格迁移模型是指根据残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
应理解,知识蒸馏是指使得深度学习模型小型化、达到终端设备部署要求的关键技术。相较与量化、稀疏化等压缩技术,其不需要特定的硬件支持就能达到压缩模型的目的。知识蒸馏技术采用老师-学生模型学习的策略,其中,老师模型可以指模型参数大,一般不能满足部署需求;而学生模型参数量少,能够直接部署。通过设计有效的知识蒸馏算法,让学生模型学习模仿老师模型的行为,进行有效的知识迁移,使得学生模型最终能够表现得与老师模型相同的处理能力。
在本申请的实施例中,可以通过采用测试时包括光流模块的模型来对测试时无光流模块的模型进行知识蒸馏;在视频进行风格迁移中,由于老师模型与学生模型的结构不同以及训练方式不同,学生模型与老师模型的风格化效果可能会不完全相同;若让学生模型直接像素级地学习老师模型的输出信息,则学生模型的输出可能会出现重影或者模糊的现象。在本申请的实施例中,目标风格迁移模型可以是指目标学生模型,通过采用老师-学生模型学习的知识蒸馏方法使得待训练的学生模型与预先训练的基础模型输出的风格迁移结果之间的差异不断逼近包括光流模块的老师模型与不包括光流模块的老师模型输出的风格迁移结果之间的差异,通过这种训练方法可以有效避免教师模型和学生模型风格不统一所造成的重影现象。
可选地,在一种可能的实现方式中,所述残差损失函数是根据以下等式得到的,
Figure BDA0002492517480000211
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure BDA0002492517480000212
表示所述第一模型;NS表示所述待训练的学生模型;
Figure BDA0002492517480000213
表示预先训练的基础模型,所述预先训练的基础模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
在一个示例中,目标风格迁移模型可以是指目标学生模型,在训练目标学生模型时可以根据预先训练的第一老师模型(不包括光流模块)、预先训练的第二老师模型(包括光流模块)、预先训练的基础模型对一个待训练的学生模型进行训练,从而得到目标学生模型;其中,待训练的学生模型、预先训练的基础模型以及目标学生模型的网络结构均相同,通过上述低秩损失函数、残差损失函数以及感知损失函数对待训练的学生模型进行训练,从而得到目标学生模型。
其中,上述预先训练的基础模型可以是指预先通过感知损失函数训练得到的在测试阶段不包括光流模块的风格迁移模型;或者,预先训练的风格迁移模型可以是指通过感知损失函数以及光流损失函数预先训练的在测试阶段不包括光流模块的风格迁移模型;感知损失函数用于表示合成图像与内容图像之间的内容损失以及合成图像与风格图像之间的风格损失;光流损失函数用于表示相邻帧合成图像对应像素点之间的差异。
在一种可能的实现方式中,在训练待训练学生模型的过程中,通过上述残差损失函数使得待训练的学生模型与预先训练的基础模型之间输出的迁移结果(又称为合成图像)的差异不断逼近第二模型与第一模型之间输出的迁移结果的差异。
在本申请的实施例中,目标风格迁移模型可以是指目标学生模型,通过采用老师-学生模型学习的知识蒸馏方法使得待训练的学生模型与预先训练的基础模型输出的风格迁移结果之间的差异不断逼近包括光流模块的老师模型与不包括光流模块的老师模型输出的风格迁移结果之间的差异,通过这种训练方法可以有效避免教师模型和学生模型风格不统一所造成的重影现象。
在一个示例中,根据N帧样本合成图像与N帧预测合成图像之间的图像损失函数,确定神经网络模型的参数,其中,图像损失函数包括上述低秩损失函数,低秩损失函数用于表示N帧样本内容图像构成的低秩矩阵与N帧样本合成图像构成的低秩矩阵之间的差异。
在一个示例中,根据N帧样本合成图像与N帧预测合成图像之间的图像损失函数,确定神经网络模型的参数,其中,图像损失函数包括上述低秩损失函数与上述残差损失函数,低秩损失函数用于表示N帧样本内容图像构成的低秩矩阵与N帧样本合成图像构成的低秩矩阵之间的差异;残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的;第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,第二样本合成图像是指通过第二模型对N帧样本内容图像进行图像风格迁移处理得到的图像,第一模型与第二模型是根据相同的样本风格图像预先训练的图像风格迁移模型,第二模型包括光流模块,第一模块不包括光流模块,光流模块用于确定N帧样本内容图像的光流信息。
可选地,在一种可能的实现方式中,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
其中,感知损失函数可以用于表示样本内容图像与对应的合成图像之间的内容相似性;以及用于表示样本风格图像与对应的合成图像之间的风格相似性。
在一个示例中,根据N帧样本合成图像与N帧预测合成图像之间的图像损失函数,确定神经网络模型的参数,其中,图像损失函数包括上述低秩损失函数、上述残差损失函数以及上述感知损失函数。
例如,图像损失是通过对上述低秩损失函数、上述残差损失函数以及上述感知损失函数加权处理得到的。
可选地,在一种可能的实现方式中,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
示例性地,图8是本申请实施例提供的风格迁移模型的训练过程的示意图。
如图8所示,第一老师模型可以是指上述第二模型,即预先训练的包括光流模块的风格迁移模型;第二老师模型可以是指上述第一模型,即预先训练的不包括光流模块的风格迁移模型;预先训练的基础模型与待训练的学生模型以及目标学生模型的网络结构均相同;其中,第一老师模型的输入数据可以包括第T帧内容图像、用光流信息处理过的第T-1帧合成图像、用光流信息计算后的变化信息,变化信息可以是指根据第T-1内容图像与第T帧内容图像得到的两帧内容图像中不相同的区域;光流信息可以是指第T-1内容图像与第T帧内容图像中对应像素的运动信息,第一老师模型的输出数据为第T帧合成图像(#1)。对于第二老师模型而言,由于该模型不包括光流模块,因此,第二老师模型输入数据中的变化信息可以全置为1;用光流信息处理过的T-1帧合成图像可以全置为0,第二老师模型的输出数据为第T帧合成图像(#2);待训练的学生模型的输入数据为第T帧内容图像,输出数据为第T帧合成图像(#3);在训练过程中,预先训练的基础模型的输入数据可以为第T帧内容图像,输出数据为预测的第T帧合成图像(#4);依次输入第T帧至第T~T+N-1帧共N帧样本内容图像,则预先训练的基础模型可以得到第T~T+N-1帧共N帧预测合成图像,根据图像损失函数即低秩损失函数、残差损失函数以及感知损失函数通过反向传播算法不断更新待训练学生模型的参数,从而得到训练后的目标学生模型。
其中,上述预先训练的基础模型可以是指预先通过感知损失函数训练得到的在测试阶段不包括光流模块的风格迁移模型;或者,预先训练的风格迁移模型可以是指通过感知损失函数以及光流损失函数预先训练的在测试阶段不包括光流模块的风格迁移模型;感知损失函数用于表示合成图像与内容图像之间的内容损失以及合成图像与风格图像之间的风格损失;光流损失函数用于表示相邻帧合成图像对应像素点之间的差异。
在本申请的实施例中,在训练用于视频的风格迁移模型的过程中引入了低秩损失函数,通过低秩信息的学习,能够同步风格迁移后的视频与原始视频的稳定性,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
此外,本申请实施例中训练的用于视频的风格迁移模型可以是通过采用老师-学习模型学习的策略得到的目标学生模型,一方面能够满足移动设备部署风格迁移模型的需求;另一方面,在训练目标学生模型时使得学习模型学习包括光流模块的老师模型与不包括光流模块的老师模型输出信息之间的差异,从而能够有效避免老师模型和学生模型风格不统一所造成的重影现象,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
图9示出了本申请实施例提供的视频风格迁移的方法700的示意性流程图,该方法可以由能够进行图像风格迁移的装置执行;例如,该方法可以由图6中的执行设备510执行,或者,也可以由本地设备520执行。其中,方法700包括S710至S730,下面分别对这些步骤进行详细的描述。
S710、获取待处理视频。
其中,待处理视频包括N帧待处理内容图像,N为大于或者等于2的整数。
示例性地,待处理视频可以是电子设备通过摄像头拍摄到的视频,或者,该待处理视频还可以是从电子设备内部获得的视频(例如,电子设备的相册中存储的视频,或者,电子设备从云端获取的视频)。
应理解,上述待处理视频可以是具有风格迁移需求的视频,本申请并不对待处理视频的来源作任何限定。
S720、根据目标风格迁移模型对N帧待处理内容图像进行图像风格迁移处理,得到N帧合成图像。
S730、根据N帧合成图像,得到待处理视频对应的风格迁移处理后的视频。
其中,目标风格迁移模型的参数是根据目标风格迁移模型对N帧样本内容图像进行风格迁移处理的图像损失函数确定的,图像损失函数包括低秩损失函数,低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异,N帧预测合成图像是指通过目标风格迁移模型根据样本风格图像对N帧样本内容图像进行图像风格迁移处理后得到的图像。
需要说明的是,上述N帧样本内容图像是指视频中的N帧相邻的图像;N帧合成图像是指与N帧样本内容图像对应的图像;上述目标风格迁移网络可以是指通过图7所示的训练的方法得到的预先训练的风格迁移模型。
应理解,对于单帧图像的风格迁移处理即图像风格迁移而言只需要考虑内容图像中的内容以及风格图像中的风格;但是对于视频而言,由于视频中包括多帧连续的视频,视频的风格迁移不仅要考虑图像的风格化效果,还要考虑多帧图像之间的稳定性;即需要确保风格迁移处理后视频的流畅性,避免出现闪屏、伪影等噪声。
例如,假设视频中包括连续的5帧图像,即连续的5帧样本内容图像;得到5帧样本内容图像进行风格迁移处理的5帧风格迁移结果即5帧样本合成图像;低秩矩阵可以采用如下方式进行计算:
步骤1、根据视频中的5帧图像,即5帧样本内容图像计算图像帧与图像帧之间的光流信息;
步骤2、根据光流信息计算掩码信息,其中,掩码信息可以用于表示通过根据光流信息得到的连续两帧图像中的变化区域;
步骤3、根据光流信息和掩码信息计算将第1、2、4、5帧图像与第3帧图像对齐之后的低秩部分,并将稀疏部分置为0;
步骤4、将对齐后的5帧图像分别展成向量并按列组合成一个矩阵,则该矩阵可以是低秩矩阵。
应理解,在计算低秩损失函数时,目标是5帧样本内容图像构成的图像矩阵的低秩部分的秩与5帧样本合成图像构成的图像矩阵的低秩部分的秩逼近;其中,通过优化核范数可以不断优化低秩部分的秩,核范数是通过对矩阵进行奇异值分解得到的。
在本申请的实施例中在训练风格迁移模型时引入低秩损失函数的目标是在原始视频中相邻多帧图像中都出现且不是运动边界的区域,在经过风格迁移处理后仍保持相同,即使得风格迁移处理后的视频中该区域的秩逼近于原始视频该区域的秩,从而能够提高风格迁移处理后视频的稳定性。
进一步地,在本申请的实施例中,上述图像损失函数中还包括残差损失函数,残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,其中,第一样本合成图像是通过第一模型对述N帧样本内容图像进行图像风格迁移处理得到的,第二样本合成图像是通过第二模型对N帧样本内容图像进行图像风格迁移处理得到的,第一模型与第二模型是根据样本风格图像预先训练的图像风格迁移模型,第二模型包括光流模块,光流模块用于确定N帧样本内容图像的光流信息。
应理解,第一样本合成图像与第二样本合成图像之间的差异可以是指第一样本合成图像与第二样本合成图像对应的像素值之间的位置差值。
需要说明的是,上述第一模型与第二模型是指通过相同的风格图像训练的风格迁移模型,其中,第一模型与第二模型的区别在于第一模型中不包括光流模块;第二模型中包括光流模块;即第一模型与第二模型在训练时可以采用相同的样本内容图像以及样本风格图像;例如,在训练阶段第一模型与第二模型可以是指相同的模型;但是,在测试阶段第二模型还需要计算多帧样本内容图像之间的光流信息;而第一模型则不需要计算多帧图像之间的光流信息。
在本申请实施例中,在训练目标风格迁移模型时引入残差损失函数的目标在于使得神经网络模型在训练的过程中能够学习包括光流模块的风格迁移模型与不包括光流模块的风格迁移模型输出的合成图像的差异,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
进一步地,在本申请的实施例中,为了满足移动终端的部署需求可以采用老师-学生模型学习的策略,即训练的风格迁移模型可以是目标学生模型;在训练过程中,通过图像损失函数可以更新学生模型的参数,从而得到目标学生模型。
需要说明的是,学习模型与目标学生模型的网络结构是相同的,学生模型可以是指预先训练的在测试阶段不需要输入光流信息的风格迁移模型。
可选地,在一种可能的实现方式中,第一模型与第二模型可以为预先训练的老师模型,目标风格迁移模型是指根据残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
应理解,知识蒸馏是指使得深度学习模型小型化、达到终端设备部署要求的关键技术。相较与量化、稀疏化等压缩技术,其不需要特定的硬件支持就能达到压缩模型的目的。知识蒸馏技术采用老师-学生模型学习的策略,其中,老师模型可以指模型参数大,一般不能满足部署需求;而学生模型参数量少,能够直接部署。通过设计有效的知识蒸馏算法,让学生模型学习模仿老师模型的行为,进行有效的知识迁移,使得学生模型最终能够表现得与老师模型相同的处理能力。
在本申请的实施例中,可以通过采用测试时包括光流模块的模型来对测试时无光流模块的模型进行知识蒸馏;在视频进行风格迁移中,由于老师模型与学生模型的结构不同以及训练方式不同,学生模型与老师模型的风格化效果可能会不完全相同;若让学生模型直接像素级地学习老师模型的输出信息,则学生模型的输出可能会出现重影或者模糊的现象。在本申请的实施例中,通过学习测试时包括光流模块的老师模型和测试时不包括光流模块的教师模型输出的风格迁移结果的不同,从而能够有效避免老师模型和学生模型风格不统一所造成的重影现象,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
可选地,在一种可能的实现方式中,所述残差损失函数是根据以下等式得到的,
Figure BDA0002492517480000251
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure BDA0002492517480000252
表示所述第一模型;NS表示所述待训练的学生模型;
Figure BDA0002492517480000253
表示预先训练的基础模型,所述预先训练的基础模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
在一个示例中,根据N帧样本合成图像与N帧预测合成图像之间的图像损失函数,确定神经网络模型的参数,其中,图像损失函数包括上述低秩损失函数,低秩损失函数用于表示N帧样本内容图像构成的低秩矩阵与N帧样本合成图像构成的低秩矩阵之间的差异。
在一个示例中,根据N帧样本合成图像与N帧预测合成图像之间的图像损失函数,确定神经网络模型的参数,其中,图像损失函数包括上述低秩损失函数与上述残差损失函数,低秩损失函数用于表示N帧样本内容图像构成的低秩矩阵与N帧样本合成图像构成的低秩矩阵之间的差异;残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的;第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,第二样本合成图像是指通过第二模型对N帧样本内容图像进行图像风格迁移处理得到的图像,第一模型与第二模型是根据相同的样本风格图像预先训练的图像风格迁移模型,第二模型包括光流模块,第一模型不包括光流模块,光流模块可以用于确定N帧样本内容图像的光流信息。
可选地,在一种可能的实现方式中,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
其中,感知损失函数可以用于表示样本内容图像与对应的合成图像之间的内容相似性;以及用于表示样本风格图像与对应的合成图像之间的风格相似性。
在一个示例中,根据N帧样本合成图像与N帧预测合成图像之间的图像损失函数,确定神经网络模型的参数,其中,图像损失函数包括上述低秩损失函数、上述残差损失函数以及上述感知损失函数。
例如,图像损失是通过对上述低秩损失函数、上述残差损失函数以及上述感知损失函数加权处理得到的。
可选地,在一种可能的实现方式中,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
在本申请的实施例中,在目标风格迁移模型的过程中引入了低秩损失函数,通过低秩信息的学习,能够同步风格迁移后的视频与原始视频的稳定性,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
此外,本申请实施例中目标风格迁移模型可以是通过采用老师-学习模型学习的策略得到的目标学生模型,一方面能够满足移动设备部署风格迁移模型的需求;另一方面,在训练目标学生模型时使得学习模型学习包括光流模块的老师模型与不包括光流模块的老师模型输出信息之间的差异,从而能够有效避免老师模型和学生模型风格不统一所造成的重影现象,从而能够提高目标迁移模型得到的风格迁移处理后视频的稳定性。
进一步,本申请实施例中提供的目标风格迁移模型在测试阶段即对待处理视频进行风格迁移处理的过程中不需要计算视频中包括的多帧图像之间的光流信息,因此本申请实施例提供的目标迁风格移模型在提高稳定性的同时还能缩短模型的风格迁移处理的时间,提升目标风格迁移模型的运行效率。
示例性地,图10是本申请实施例提供的训练阶段以及测试阶段的示意图。
训练阶段:
例如,在本申请实施例中可以采用Flownet2网络和根据Hollywood2数据集生成了带有光流数据的数据集,并采用本申请实施例所示的训练方法对网络进行训练。
例如,具体实现步骤包括:首先只采用感知损失函数或者采用感知损失函数与光流损失函数训练一个风格迁移模型即预先训练的基础模型
Figure BDA0002492517480000261
采用视频数据和光流数据训练一个包括光流模块的老师模型NT和一个不包括光流模块的老师模型
Figure BDA0002492517480000262
然后根据
Figure BDA0002492517480000263
NT
Figure BDA0002492517480000264
以及上述低秩损失函数以及残差损失函数训练待训练的学生模型NS,最终得到训练后的目标学生模型,其中,预先训练的基础模型、待训练的学生模型以及目标学生模型的网络结构均相同。
需要说明的是,训练阶段的具体实现方式可以参见前述图7以及图8中的描述,此处不再赘述。
测试阶段:
示例性地,在测试可以在目标学生模型中输入测试数据,通过目标学生模型可以得到测试结果,即风格迁移处理后的数据。
需要说明的是,测试阶段的具体实现方式可以参见前述图9中的描述,此处不再赘述。
表1
Figure BDA0002492517480000271
其中,表1中的老师模型可以是指上述实施例中的第二模型,即在测试阶段包括光流模块的风格迁移模型;第一类学生模型可以是指通过感知损失函数训练得到的预先训练的学生模型;第二类学生模型可以是指通过感知损失函数与光流损失函数训练得到的预先训练的学生模型;损失函数1可以是指本申请中的残差损失函数;损失函数2可以是指本申请中的低秩损失函数;Alley_2、Ambush_5、Bandage_2、Market_6以及Temple_2分别表示MPI-Sintel数据集中五个视频数据的名称;All表示前面的五个视频。表1中示出在通过采用MPI-Sintel数据集对不同模型的稳定性的测试结果;其中,稳定性指标计算方式可以采用如下公式:
Figure BDA0002492517480000272
其中,T表示视频包括的图像帧数;D=c*w*d,Mt∈R(w*d)表示掩码信息,Ot表示t帧的风格迁移结果;O(t-1)表示t-1帧的风格迁移结果;Wt表示从t-1帧到t帧的光流信息;Wt(Ot-1)表示将t-1帧的风格迁移结果和t帧的风格迁移结果对齐。
如表1所示,稳定性指标的结果越小则表示模型的迁移处理后的输出数据的稳定性越好;从表1所示的测试结果可以看出本申请实施例提供的目标迁移模型的进行风格迁移处理后的输出数据的稳定性明显优于其它模型。
应理解,上述举例说明是为了帮助本领域技术人员理解本申请实施例,而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本申请实施例的范围内。
上文结合图1至图10,详细描述了本申请实施例提供的风格迁移的训练方法以及视频风格迁移的方法;下面将结合图11至图14,详细描述本申请的装置实施例。应理解,本申请实施例中的图像处理装置可以执行前述本申请实施例的各种方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。
图11是本申请实施例提供的视频风格迁移的装置的示意性框图。
应理解,视频风格迁移的装置800可以执行图9所示的方法,或者,图10所示的测试阶段的方法。该装置800包括:获取单元810和处理单元820。
其中,获取单元810用于获取待处理视频,其中,所述待处理视频包括N帧待处理内容图像,N为大于或者等于2的整数;处理单元820用于根据目标风格迁移模型对所述N帧待处理内容图像进行图像风格迁移处理,得到N帧合成图像;根据所述N帧合成图像,得到所述待处理视频对应的风格迁移处理后的视频,
其中,所述目标风格迁移模型的参数是根据所述目标风格迁移模型对N帧样本内容图像进行风格迁移处理的图像损失函数确定的,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异,所述N帧预测合成图像是指通过所述目标风格迁移模型根据样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像。
可选地,作为一个实施例,所述图像损失函数还包括残差损失函数,所述残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,
其中,所述第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第二样本合成图像是指通过第二模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第一模型与所述第二模型是根据所述样本风格图像预先训练的图像风格迁移模型,所述第二模型包括光流模块,所述第一模块不包括所述光流模块,所述光流模块用于确定所述N帧样本内容图像的光流信息。
可选地,作为一个实施例,所述第一模型与所述第二模型为预先训练的老师模型,所述目标风格迁移模型是指根据所述残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
可选地,作为一个实施例,所述残差损失函数是根据以下等式得到的,
Figure BDA0002492517480000281
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure BDA0002492517480000282
表示所述第一模型;NS表示所述待训练的学生模型;
Figure BDA0002492517480000283
表示预先训练的基础模型,所述预先训练的基础模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
可选地,作为一个实施例,所述图像损失函数还包括感知损失函数,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
可选地,作为一个实施例,所述图像损失函数是通过对所述低秩损失函数、所述残差损失函数以及所述感知损失函数加权处理得到的。
可选地,作为一个实施例,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
图12是本申请实施例提供的风格迁移模型的训练装置的示意性框图。
应理解,训练装置900可以执行图7、图8或图10所示的风格迁移模型的训练方法。该训练装置900包括:获取单元910和处理单元920。
其中,获取单元910用于获取训练数据,其中,所述训练数据包括N帧样本内容图像、样本风格图像以及N帧合成图像,所述N帧合成图像是根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像,N为大于或者等于2的整数;处理单元920用于通过神经网络模型根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理,得到N帧预测合成图像;根据所述N帧样本内容图像与所述N帧预测合成图像之间的图像损失函数,确定所述神经网络模型的参数,
其中,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。
可选地,作为一个实施例,所述图像损失函数还包括残差损失函数,所述残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,
其中,所述第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第二样本合成图像是指通过第二模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第一模型与所述第二模型是根据所述样本风格图像预先训练的图像风格迁移模型,所述第二模型包括光流模块,所述第一模型不包括所述光流模块,所述光流模块用于确定所述N帧样本内容图像的光流信息。
可选地,作为一个实施例,所述第一模型与所述第二模型为预先训练的老师模型,所述目标风格迁移模型是指根据所述残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
可选地,作为一个实施例,所述残差损失函数是根据以下等式得到的,
Figure BDA0002492517480000291
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure BDA0002492517480000292
表示所述第一模型;NS表示所述待训练的学生模型;
Figure BDA0002492517480000293
表示预先训练的基础模型,所述预先训练的基础模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
可选地,作为一个实施例,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
可选地,作为一个实施例,所述图像损失函数是通过对所述低秩损失函数、所述残差损失函数以及所述感知损失函数加权处理得到的。
可选地,作为一个实施例,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
需要说明的是,上述装置800以及训练装置900以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图13是本申请实施例提供的视频风格迁移的装置的硬件结构示意图。图13所示的装置1000(该装置1000具体可以是一种计算机设备)包括存储器1010、处理器1020、通信接口1030以及总线1040。其中,存储器1010、处理器1020、通信接口1030通过总线1040实现彼此之间的通信连接。
存储器1010可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器1010可以存储程序,当存储器1010中存储的程序被处理器1020执行时,处理器1020用于执行本申请实施例的视频风格迁移的方法的各个步骤;例如,执行图9所示的各个步骤。
应理解,本申请实施例所示的视频风格迁移的装置可以是服务器,例如,可以是云端的服务器,或者,也可以是配置于云端的服务器中的芯片。
处理器1020可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序以实现本申请方法实施例的图像分类方法。
处理器1020还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的图像分类方法的各个步骤可以通过处理器1020中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器1020还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1010,处理器1020读取存储器1010中的信息,结合其硬件完成本申请实施中图11所示的装置中包括的单元所需执行的功能,或者,执行本申请方法实施例的图9所示的视频风格迁移的方法。
通信接口1030使用例如但不限于收发器一类的收发装置,来实现装置1000与其他设备或通信网络之间的通信。
总线1040可包括在装置1000各个部件(例如,存储器1010、处理器1020、通信接口1030)之间传送信息的通路。
图14是本申请实施例提供的风格迁移模型的训练装置的硬件结构示意图。图14所示的训练装置1100(该训练装置1100具体可以是一种计算机设备)包括存储器1110、处理器1120、通信接口1130以及总线1140。其中,存储器1110、处理器1120、通信接口1130通过总线1140实现彼此之间的通信连接。
存储器1110可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器1110可以存储程序,当存储器1110中存储的程序被处理器1120执行时,处理器1120用于执行本申请实施例的风格迁移模型的训练方法的各个步骤;例如,执行图7或图8所示的各个步骤。
应理解,本申请实施例所示的训练装置可以是服务器,例如,可以是云端的服务器,或者,也可以是配置于云端的服务器中的芯片。
示例性地,处理器1120可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的图像分类模型的训练方法。
示例性地,处理器1120还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的风格迁移模型的训练方法的各个步骤可以通过处理器1120中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器1120还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1110,处理器1120读取存储器1110中的信息,结合其硬件完成图12所示的训练装置中包括的单元所需执行的功能,或者,执行本申请方法实施例的图7或者图8所示的风格迁移模型的训练方法。
通信接口1130使用例如但不限于收发器一类的收发装置,来实现训练装置1100与其他设备或通信网络之间的通信。
总线1140可包括在训练装置1100各个部件(例如,存储器1110、处理器1120、通信接口1130)之间传送信息的通路。
应注意,尽管上述装置1000和训练装置1100仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,装置1000和训练装置1100还可以包括实现正常运行所必须的其他器件。同时,根据具体需要本领域的技术人员应当理解,上述装置1000和训练装置1100还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,上述装置1000和训练装置1100也可仅仅包括实现本申请实施例所必须的器件,而不必包括图13或图14中所示的全部器件。
示例性地,本申请实施例还提供一种芯片,该芯片包括收发单元和处理单元。其中,收发单元可以是输入输出电路、通信接口;处理单元为该芯片上集成的处理器或者微处理器或者集成电路;该芯片可以执行上述方法实施例中的视频风格迁移的方法。
示例性地,本申请实施例还提供一种芯片,该芯片包括收发单元和处理单元。其中,收发单元可以是输入输出电路、通信接口;处理单元为该芯片上集成的处理器或者微处理器或者集成电路;该芯片可以执行上述方法实施例中的风格迁移模型的训练方法。
示例性地,本申请实施例还提供一种计算机可读存储介质,其上存储有指令,该指令被执行时执行上述方法实施例中的视频风格迁移的方法。
示例性地,本申请实施例还提供一种计算机可读存储介质,其上存储有指令,该指令被执行时执行上述方法实施例中的风格迁移模型的训练方法。
示例性地,本申请实施例还提供一种包含指令的计算机程序产品,该指令被执行时执行上述方法实施例中的视频风格迁移的方法。
示例性地,本申请实施例还提供一种包含指令的计算机程序产品,该指令被执行时执行上述方法实施例中的风格迁移模型的训练方法。
应理解,本申请实施例中的处理器可以为中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (30)

1.一种风格迁移模型的训练方法,其特征在于,包括:
获取训练数据,其中,所述训练数据包括N帧样本内容图像、样本风格图像以及N帧合成图像,所述N帧合成图像是根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像,N为大于或者等于2的整数;
通过神经网络模型根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理,得到N帧预测合成图像;
根据所述N帧样本内容图像与所述N帧预测合成图像之间的图像损失函数,确定所述神经网络模型的参数,
其中,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于所述N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。
2.如权利要求1所述的训练方法,其特征在于,所述图像损失函数还包括残差损失函数,所述残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,
其中,所述第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第二样本合成图像是指通过第二模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第一模型与所述第二模型是根据所述样本风格图像预先训练的图像风格迁移模型,所述第二模型包括光流模块,所述第一模型不包括所述光流模块,所述光流模块用于确定所述光流信息。
3.如权利要求2所述的训练方法,其特征在于,所述第一模型与所述第二模型为预先训练的老师模型,所述目标风格迁移模型是指根据所述残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
4.如权利要求3所示的训练方法,其特征在于,所述残差损失函数是根据以下等式得到的,
Figure FDA0002492517470000011
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure FDA0002492517470000012
表示所述第一模型;NS表示所述待训练的学生模型;
Figure FDA0002492517470000013
表示预先训练的基础模型,所述预先训练的基础模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
5.如权利要求1至4中任一项所述的训练方法,其特征在于,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
6.如权利要求5所述的训练方法,其特征在于,所述图像损失函数是通过对所述低秩损失函数、所述残差损失函数以及所述感知损失函数加权处理得到的。
7.如权利要求1至6中任一项所述的训练方法,其特征在于,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
8.一种视频风格迁移的方法,其特征在于,包括:
获取待处理视频,其中,所述待处理视频包括N帧待处理内容图像,N为大于或者等于2的整数;
根据目标风格迁移模型对所述N帧待处理内容图像进行图像风格迁移处理,得到N帧合成图像;
根据所述N帧合成图像,得到所述待处理视频对应的风格迁移处理后的视频,
其中,所述目标风格迁移模型的参数是根据所述目标风格迁移模型对N帧样本内容图像进行风格迁移处理的图像损失函数确定的,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异,所述N帧预测合成图像是指通过所述目标风格迁移模型根据样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像。
9.如权利要求8所述的方法,其特征在于,所述图像损失函数还包括残差损失函数,所述残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,
其中,所述第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第二样本合成图像是指通过第二模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第一模型与所述第二模型是根据所述样本风格图像预先训练的图像风格迁移模型,所述第二模型包括光流模块,所述第一模型不包括所述光流模块,所述光流模块用于确定所述光流信息。
10.如权利要求9所述的方法,其特征在于,所述第一模型与所述第二模型为预先训练的老师模型,所述目标风格迁移模型是指根据所述残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
11.如权利要求10所示的方法,其特征在于,所述残差损失函数是根据以下等式得到的,
Figure FDA0002492517470000021
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure FDA0002492517470000022
表示所述第一模型;NS表示所述待训练的学生模型;
Figure FDA0002492517470000023
表示预先训练的风格迁移模型,所述预先训练的风格迁移模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
12.如权利要求8至11中任一项所述的方法,其特征在于,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
13.如权利要求12所述的方法,其特征在于,所述图像损失函数是通过对所述低秩损失函数、所述残差损失函数以及所述感知损失函数加权处理得到的。
14.如权利要求8至13中任一项所述的方法,其特征在于,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
15.一种风格迁移模型的训练装置,其特征在于,包括:
获取单元,用于获取训练数据,其中,所述训练数据包括N帧样本内容图像、样本风格图像以及N帧合成图像,所述N帧合成图像是根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像,N为大于或者等于2的整数;
处理单元,用于通过神经网络模型根据所述样本风格图像对所述N帧样本内容图像进行图像风格迁移处理,得到N帧预测合成图像;根据所述N帧样本内容图像与所述N帧预测合成图像之间的图像损失函数,确定所述神经网络模型的参数,
其中,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于所述N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异。
16.如权利要求15所述的训练装置,其特征在于,所述图像损失函数还包括残差损失函数,所述残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,
其中,所述第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第二样本合成图像是指通过第二模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第一模型与所述第二模型是根据所述样本风格图像预先训练的图像风格迁移模型,所述第二模型包括光流模块,所述第一模型不包括所述光流模块,所述光流模块用于确定所述光流信息。
17.如权利要求16所述的训练装置,其特征在于,所述第一模型与所述第二模型为预先训练的老师模型,所述目标风格迁移模型是指根据所述残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
18.如权利要求17所示的训练装置,其特征在于,所述残差损失函数是根据以下等式得到的,
Figure FDA0002492517470000031
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure FDA0002492517470000032
表示所述第一模型;NS表示所述待训练的学生模型;
Figure FDA0002492517470000033
表示预先训练的基础模型,所述预先训练的基础模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
19.如权利要求15至18中任一项所述的训练装置,其特征在于,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
20.如权利要求19所述的训练装置,其特征在于,所述图像损失函数是通过对所述低秩损失函数、所述残差损失函数以及所述感知损失函数加权处理得到的。
21.如权利要求15至20中任一项所述的训练装置,其特征在于,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
22.一种视频风格迁移的装置,其特征在于,包括:
获取单元,用于获取待处理视频,其中,所述待处理视频包括N帧待处理内容图像,N为大于或者等于2的整数;
处理单元,用于根据目标风格迁移模型对所述N帧待处理内容图像进行图像风格迁移处理,得到N帧合成图像;根据所述N帧合成图像,得到所述待处理视频对应的风格迁移处理后的视频,
其中,所述目标风格迁移模型的参数是根据所述目标风格迁移模型对N帧样本内容图像进行风格迁移处理的图像损失函数确定的,所述图像损失函数包括低秩损失函数,所述低秩损失函数用于表示第一低秩矩阵与第二低秩矩阵之间的差异,所述第一低秩矩阵是基于所述N帧样本内容图像与光流信息得到的,所述第二低秩矩阵是基于N帧预测合成图像与所述光流信息得到的,所述光流信息用于表示所述N帧样本内容图像中相邻两帧图像之间对应像素点的位置差异,所述N帧预测合成图像是指通过所述目标风格迁移模型根据样本风格图像对所述N帧样本内容图像进行图像风格迁移处理后得到的图像。
23.如权利要求22所述的装置,其特征在于,所述图像损失函数还包括残差损失函数,所述残差损失函数是根据第一样本合成图像与第二样本合成图像之间的差异得到的,
其中,所述第一样本合成图像是指通过第一模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第二样本合成图像是指通过第二模型对所述N帧样本内容图像进行图像风格迁移处理得到的图像,所述第一模型与所述第二模型是根据所述样本风格图像预先训练的图像风格迁移模型,所述第二模型包括光流模块,所述第一模型不包括所述光流模块,所述光流模块用于确定所述光流信息。
24.如权利要求23所述的装置,其特征在于,所述第一模型与所述第二模型为预先训练的老师模型,所述目标风格迁移模型是指根据所述残差损失函数与知识蒸馏算法对待训练的学生模型进行训练得到的目标学生模型。
25.如权利要求24所述的装置,其特征在于,所述残差损失函数是根据以下等式得到的,
Figure FDA0002492517470000041
其中,Lres表示所述残差损失函数;NT表示所述第二模型;
Figure FDA0002492517470000042
表示所述第一模型;NS表示所述待训练的学生模型;
Figure FDA0002492517470000043
表示预先训练的基础模型,所述预先训练的基础模型与所述待训练的学生模型的网络结构相同;xi表示所述样本视频中包括的第i帧样本内容图像,i为正整数。
26.如权利要求22至25中任一项所述的装置,其特征在于,所述图像损失函数还包括感知损失函数,其中,所述感知损失函数包括内容损失与风格损失,所述内容损失用于表示所述N帧预测合成图像与其对应的所述N帧样本内容图像之间的图像内容差异,所述风格损失用于表示所述N帧预测合成图像与所述样本风格图像之间的图像风格差异。
27.如权利要求26所述的装置,其特征在于,所述图像损失函数是通过对所述低秩损失函数、所述残差损失函数以及所述感知损失函数加权处理得到的。
28.如权利要求22至27中任一项所述的装置,其特征在于,所述目标风格迁移模型的参数是基于所述图像损失函数通过反向传播算法多次迭代得到的。
29.一种风格迁移模型的训练装置,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行权利要求1至7或者8至14中任一项所述的方法。
30.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,当所述程序指令由处理器运行时,实现权利要求1至7或者8至14中任一项所述的方法。
CN202010409043.0A 2020-05-14 2020-05-14 风格迁移模型的训练方法、视频风格迁移的方法以及装置 Active CN111667399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010409043.0A CN111667399B (zh) 2020-05-14 2020-05-14 风格迁移模型的训练方法、视频风格迁移的方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010409043.0A CN111667399B (zh) 2020-05-14 2020-05-14 风格迁移模型的训练方法、视频风格迁移的方法以及装置

Publications (2)

Publication Number Publication Date
CN111667399A true CN111667399A (zh) 2020-09-15
CN111667399B CN111667399B (zh) 2023-08-25

Family

ID=72383795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010409043.0A Active CN111667399B (zh) 2020-05-14 2020-05-14 风格迁移模型的训练方法、视频风格迁移的方法以及装置

Country Status (1)

Country Link
CN (1) CN111667399B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365556A (zh) * 2020-11-10 2021-02-12 成都信息工程大学 一种基于感知损失和风格损失的图像扩展方法
CN112734627A (zh) * 2020-12-24 2021-04-30 北京达佳互联信息技术有限公司 图像风格迁移模型的训练方法、图像风格迁移方法及装置
CN112785493A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 模型的训练方法、风格迁移方法、装置、设备及存储介质
CN113033566A (zh) * 2021-03-19 2021-06-25 北京百度网讯科技有限公司 模型训练方法、识别方法、设备、存储介质及程序产品
CN113076685A (zh) * 2021-03-04 2021-07-06 华为技术有限公司 图像重建模型的训练方法、图像重建方法及其装置
CN113327265A (zh) * 2021-06-10 2021-08-31 厦门市美亚柏科信息股份有限公司 一种基于指导学习策略的光流估计方法和系统
CN113362243A (zh) * 2021-06-03 2021-09-07 Oppo广东移动通信有限公司 模型训练方法、图像处理方法及装置、介质和电子设备
CN113570636A (zh) * 2021-06-16 2021-10-29 北京农业信息技术研究中心 一种风机通风量检测方法及装置
CN113559513A (zh) * 2021-01-19 2021-10-29 腾讯科技(深圳)有限公司 动作生成模型的训练方法、动作生成方法、装置、设备
CN113822957A (zh) * 2021-02-26 2021-12-21 北京沃东天骏信息技术有限公司 用于合成图像的方法和装置
GB2596901A (en) * 2020-05-15 2022-01-12 Nvidia Corp Content-aware style encoding using neural networks
CN113947525A (zh) * 2021-11-25 2022-01-18 中山大学 一种基于可逆流网络的无监督动作风格迁移方法
WO2022095757A1 (zh) * 2020-11-09 2022-05-12 华为技术有限公司 图像渲染方法和装置
CN114490922A (zh) * 2020-10-27 2022-05-13 华为技术有限公司 一种自然语言理解模型训练方法及装置
CN114511441A (zh) * 2022-01-27 2022-05-17 北京奇艺世纪科技有限公司 模型训练、图像风格化方法、装置、电子设备及存储介质
CN114581341A (zh) * 2022-03-28 2022-06-03 杭州师范大学 一种基于深度学习的图像风格迁移方法及系统
CN114596469A (zh) * 2022-03-17 2022-06-07 北京达佳互联信息技术有限公司 图像分类方法、装置、电子设备和存储介质
CN114615421A (zh) * 2020-12-07 2022-06-10 华为技术有限公司 图像处理方法及电子设备
CN114863212A (zh) * 2022-05-06 2022-08-05 中国人民解放军63729部队 一种基于共享特征网络的红外图像目标检测方法
CN115240102A (zh) * 2022-06-21 2022-10-25 有米科技股份有限公司 基于图像和文本的模型训练方法及装置
WO2023116711A1 (zh) * 2021-12-24 2023-06-29 北京字跳网络技术有限公司 视频纹理迁移方法、装置、电子设备及存储介质
CN117078790A (zh) * 2023-10-13 2023-11-17 腾讯科技(深圳)有限公司 图像生成方法、装置、计算机设备和存储介质
CN117541625A (zh) * 2024-01-05 2024-02-09 大连理工大学 一种基于域适应特征融合的视频多目标跟踪方法
WO2024066549A1 (zh) * 2022-09-29 2024-04-04 华为技术有限公司 一种数据处理方法及相关设备
CN119540431A (zh) * 2025-01-21 2025-02-28 苏州元脑智能科技有限公司 三维场景的图像风格化编辑方法、装置、设备及介质
CN120387924A (zh) * 2025-06-26 2025-07-29 江苏奥斯汀光电科技股份有限公司 面向电子照片墙风格迁移一致性的视频生成方法
CN120495069A (zh) * 2025-04-30 2025-08-15 佛山市国科禾路信息科技有限公司 基于多模态特征解耦与动态传播的传统纹样影像风格迁移系统及方法
CN114511441B (zh) * 2022-01-27 2025-12-16 北京奇艺世纪科技有限公司 模型训练、图像风格化方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156575A1 (en) * 2012-11-30 2014-06-05 Nuance Communications, Inc. Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization
US20150254513A1 (en) * 2014-03-10 2015-09-10 Mitsubishi Electric Research Laboratories, Inc. Method for Extracting Low-Rank Descriptors from Images and Videos for Querying, Classification, and Object Detection
US20170169563A1 (en) * 2015-12-11 2017-06-15 Macau University Of Science And Technology Low-Rank and Sparse Matrix Decomposition Based on Schatten p=1/2 and L1/2 Regularizations for Separation of Background and Dynamic Components for Dynamic MRI
CN108537776A (zh) * 2018-03-12 2018-09-14 维沃移动通信有限公司 一种图像风格迁移模型生成方法及移动终端
US20180300850A1 (en) * 2017-04-14 2018-10-18 Facebook, Inc. Artifact reduction for image style transfer
US20180373999A1 (en) * 2017-06-26 2018-12-27 Konica Minolta Laboratory U.S.A., Inc. Targeted data augmentation using neural style transfer
CN109766895A (zh) * 2019-01-03 2019-05-17 京东方科技集团股份有限公司 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法
CN109840531A (zh) * 2017-11-24 2019-06-04 华为技术有限公司 训练多标签分类模型的方法和装置
CN109859096A (zh) * 2018-12-28 2019-06-07 北京达佳互联信息技术有限公司 图像风格迁移方法、装置、电子设备及存储介质
CN110175951A (zh) * 2019-05-16 2019-08-27 西安电子科技大学 基于时域一致性约束的视频风格迁移方法
CN110598781A (zh) * 2019-09-05 2019-12-20 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备及存储介质
CN111079781A (zh) * 2019-11-07 2020-04-28 华南理工大学 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156575A1 (en) * 2012-11-30 2014-06-05 Nuance Communications, Inc. Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization
US20150254513A1 (en) * 2014-03-10 2015-09-10 Mitsubishi Electric Research Laboratories, Inc. Method for Extracting Low-Rank Descriptors from Images and Videos for Querying, Classification, and Object Detection
US20170169563A1 (en) * 2015-12-11 2017-06-15 Macau University Of Science And Technology Low-Rank and Sparse Matrix Decomposition Based on Schatten p=1/2 and L1/2 Regularizations for Separation of Background and Dynamic Components for Dynamic MRI
US20180300850A1 (en) * 2017-04-14 2018-10-18 Facebook, Inc. Artifact reduction for image style transfer
US20180373999A1 (en) * 2017-06-26 2018-12-27 Konica Minolta Laboratory U.S.A., Inc. Targeted data augmentation using neural style transfer
CN109840531A (zh) * 2017-11-24 2019-06-04 华为技术有限公司 训练多标签分类模型的方法和装置
CN108537776A (zh) * 2018-03-12 2018-09-14 维沃移动通信有限公司 一种图像风格迁移模型生成方法及移动终端
CN109859096A (zh) * 2018-12-28 2019-06-07 北京达佳互联信息技术有限公司 图像风格迁移方法、装置、电子设备及存储介质
CN109766895A (zh) * 2019-01-03 2019-05-17 京东方科技集团股份有限公司 用于图像风格迁移的卷积神经网络的训练方法和图像风格迁移方法
CN110175951A (zh) * 2019-05-16 2019-08-27 西安电子科技大学 基于时域一致性约束的视频风格迁移方法
CN110598781A (zh) * 2019-09-05 2019-12-20 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备及存储介质
CN111079781A (zh) * 2019-11-07 2020-04-28 华南理工大学 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田佳鹭;邓立国;: "基于改进VGG16的猴子图像分类方法", 信息技术与网络安全, no. 05 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2596901B (en) * 2020-05-15 2025-02-12 Nvidia Corp Content-aware style encoding using neural networks
US12505595B2 (en) 2020-05-15 2025-12-23 Nvidia Corporation Content-aware style encoding using neural networks
GB2596901A (en) * 2020-05-15 2022-01-12 Nvidia Corp Content-aware style encoding using neural networks
CN114490922B (zh) * 2020-10-27 2024-10-18 华为技术有限公司 一种自然语言理解模型训练方法及装置
CN114490922A (zh) * 2020-10-27 2022-05-13 华为技术有限公司 一种自然语言理解模型训练方法及装置
WO2022095757A1 (zh) * 2020-11-09 2022-05-12 华为技术有限公司 图像渲染方法和装置
CN112365556A (zh) * 2020-11-10 2021-02-12 成都信息工程大学 一种基于感知损失和风格损失的图像扩展方法
CN114615421B (zh) * 2020-12-07 2023-06-30 华为技术有限公司 图像处理方法及电子设备
CN114615421A (zh) * 2020-12-07 2022-06-10 华为技术有限公司 图像处理方法及电子设备
CN112734627A (zh) * 2020-12-24 2021-04-30 北京达佳互联信息技术有限公司 图像风格迁移模型的训练方法、图像风格迁移方法及装置
CN112734627B (zh) * 2020-12-24 2023-07-11 北京达佳互联信息技术有限公司 图像风格迁移模型的训练方法、图像风格迁移方法及装置
CN113559513A (zh) * 2021-01-19 2021-10-29 腾讯科技(深圳)有限公司 动作生成模型的训练方法、动作生成方法、装置、设备
CN112785493B (zh) * 2021-01-22 2024-02-09 北京百度网讯科技有限公司 模型的训练方法、风格迁移方法、装置、设备及存储介质
CN112785493A (zh) * 2021-01-22 2021-05-11 北京百度网讯科技有限公司 模型的训练方法、风格迁移方法、装置、设备及存储介质
CN113822957A (zh) * 2021-02-26 2021-12-21 北京沃东天骏信息技术有限公司 用于合成图像的方法和装置
CN113076685A (zh) * 2021-03-04 2021-07-06 华为技术有限公司 图像重建模型的训练方法、图像重建方法及其装置
CN113033566A (zh) * 2021-03-19 2021-06-25 北京百度网讯科技有限公司 模型训练方法、识别方法、设备、存储介质及程序产品
CN113362243B (zh) * 2021-06-03 2024-06-11 Oppo广东移动通信有限公司 模型训练方法、图像处理方法及装置、介质和电子设备
CN113362243A (zh) * 2021-06-03 2021-09-07 Oppo广东移动通信有限公司 模型训练方法、图像处理方法及装置、介质和电子设备
CN113327265B (zh) * 2021-06-10 2022-07-15 厦门市美亚柏科信息股份有限公司 一种基于指导学习策略的光流估计方法和系统
CN113327265A (zh) * 2021-06-10 2021-08-31 厦门市美亚柏科信息股份有限公司 一种基于指导学习策略的光流估计方法和系统
CN113570636B (zh) * 2021-06-16 2024-05-10 北京农业信息技术研究中心 一种风机通风量检测方法及装置
CN113570636A (zh) * 2021-06-16 2021-10-29 北京农业信息技术研究中心 一种风机通风量检测方法及装置
CN113947525A (zh) * 2021-11-25 2022-01-18 中山大学 一种基于可逆流网络的无监督动作风格迁移方法
WO2023116711A1 (zh) * 2021-12-24 2023-06-29 北京字跳网络技术有限公司 视频纹理迁移方法、装置、电子设备及存储介质
CN114511441B (zh) * 2022-01-27 2025-12-16 北京奇艺世纪科技有限公司 模型训练、图像风格化方法、装置、电子设备及存储介质
CN114511441A (zh) * 2022-01-27 2022-05-17 北京奇艺世纪科技有限公司 模型训练、图像风格化方法、装置、电子设备及存储介质
CN114596469A (zh) * 2022-03-17 2022-06-07 北京达佳互联信息技术有限公司 图像分类方法、装置、电子设备和存储介质
CN114581341A (zh) * 2022-03-28 2022-06-03 杭州师范大学 一种基于深度学习的图像风格迁移方法及系统
CN114863212A (zh) * 2022-05-06 2022-08-05 中国人民解放军63729部队 一种基于共享特征网络的红外图像目标检测方法
CN114863212B (zh) * 2022-05-06 2025-11-07 中国人民解放军63729部队 一种基于共享特征网络的红外图像目标检测方法
CN115240102A (zh) * 2022-06-21 2022-10-25 有米科技股份有限公司 基于图像和文本的模型训练方法及装置
WO2024066549A1 (zh) * 2022-09-29 2024-04-04 华为技术有限公司 一种数据处理方法及相关设备
CN117078790B (zh) * 2023-10-13 2024-03-29 腾讯科技(深圳)有限公司 图像生成方法、装置、计算机设备和存储介质
CN117078790A (zh) * 2023-10-13 2023-11-17 腾讯科技(深圳)有限公司 图像生成方法、装置、计算机设备和存储介质
CN117541625A (zh) * 2024-01-05 2024-02-09 大连理工大学 一种基于域适应特征融合的视频多目标跟踪方法
CN117541625B (zh) * 2024-01-05 2024-03-29 大连理工大学 一种基于域适应特征融合的视频多目标跟踪方法
CN119540431A (zh) * 2025-01-21 2025-02-28 苏州元脑智能科技有限公司 三维场景的图像风格化编辑方法、装置、设备及介质
CN120495069A (zh) * 2025-04-30 2025-08-15 佛山市国科禾路信息科技有限公司 基于多模态特征解耦与动态传播的传统纹样影像风格迁移系统及方法
CN120495069B (zh) * 2025-04-30 2025-11-04 佛山市国科禾路信息科技有限公司 基于多模态特征解耦与动态传播的传统纹样影像风格迁移系统及方法
CN120387924A (zh) * 2025-06-26 2025-07-29 江苏奥斯汀光电科技股份有限公司 面向电子照片墙风格迁移一致性的视频生成方法

Also Published As

Publication number Publication date
CN111667399B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN111667399B (zh) 风格迁移模型的训练方法、视频风格迁移的方法以及装置
CN112308200B (zh) 神经网络的搜索方法及装置
CN112446834B (zh) 图像增强方法和装置
CN113284054B (zh) 图像增强方法以及图像增强装置
CN111914997B (zh) 训练神经网络的方法、图像处理方法及装置
CN112446398B (zh) 图像分类方法以及装置
US20250104397A1 (en) Image classification method and apparatus
CN112070664B (zh) 一种图像处理方法以及装置
CN109993707B (zh) 图像去噪方法和装置
CN111882031B (zh) 一种神经网络蒸馏方法及装置
WO2022042713A1 (zh) 一种用于计算设备的深度学习训练方法和装置
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
CN114255361A (zh) 神经网络模型的训练方法、图像处理方法及装置
CN110532871A (zh) 图像处理的方法和装置
CN112446380A (zh) 图像处理方法和装置
CN113011562A (zh) 一种模型训练方法及装置
CN112561028B (zh) 训练神经网络模型的方法、数据处理的方法及装置
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN111797882A (zh) 图像分类方法及装置
CN113128285A (zh) 一种处理视频的方法及装置
CN113627163A (zh) 一种注意力模型、特征提取方法及相关装置
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
WO2021057091A1 (zh) 视点图像处理方法及相关设备
CN115146757A (zh) 一种神经网络模型的训练方法及装置
CN113066018A (zh) 一种图像增强方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant