CN109997168B

CN109997168B - 用于生成输出图像的方法和系统

Info

Publication number: CN109997168B
Application number: CN201880004376.6A
Authority: CN
Inventors: N.E.卡尔奇布伦纳; D.贝洛夫; S.戈梅兹科尔梅纳勒约; A.G.A.范登奥德; Z.王; J.F.戈梅斯德弗雷塔斯; S.E.里德
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2017-02-24
Filing date: 2018-02-26
Publication date: 2023-09-12
Anticipated expiration: 2038-02-26
Also published as: US11734797B2; WO2018154092A8; EP3526765A1; CN109997168A; KR20190097205A; JP2020508504A; US11361403B2; EP3526765B1; US20220284546A1; WO2018154092A1; JP6848071B2; US20210027425A1; KR102253627B1

Abstract

一种生成具有N像素×N像素的输出分辨率的输出图像的方法，输出图像中的每个像素具有多个颜色通道中的每一个的相应颜色值，该方法包括：获得输出图像的低分辨率版本；通过重复执行以下操作，升级输出图像的低分辨率版本以生成具有输出分辨率的输出图像：获得具有当前K×K分辨率的输出图像的当前版本；使用特定于当前分辨率的卷积神经网络集合处理输出图像的当前版本，以生成具有2K×2K分辨率的输出图像的更新版本。

Description

用于生成输出图像的方法和系统

相关申请的交叉引用

本申请要求2017年2月24日提交的美国临时申请序列号62/463,538的优先权。该在先申请的公开内容被认为是本申请的公开内容的一部分，并且通过引用并入本申请的公开内容中。

技术领域

本说明书涉及使用神经网络生成图像，更具体地，涉及多尺度图像生成。

背景技术

神经网络是机器学习模型，其使用一个或多个非线性单元层来预测针对接收输入的输出。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层即下一个隐藏层或输出层的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。

发明内容

本说明书描述了使用多个卷积神经网络集合生成输出图像的系统和方法。

通常，本说明书中描述的主题的一个创新方面可以体现在生成具有N像素×N像素的输出分辨率的输出图像的计算机实施的方法中，其中输出图像中的每个像素具有多个颜色通道中的每一个的相应颜色值。该方法包括获得输出图像的低分辨率版本；通过重复执行以下操作，升级(upscale)输出图像的低分辨率版本以生成具有输出分辨率的输出图像：获得具有当前K×K分辨率的输出图像的当前版本；使用特定于当前分辨率的卷积神经网络集合处理输出图像的当前版本，以生成具有2K×2K分辨率的输出图像的更新版本。

前述和其他实施例可以各自可选地单独地或组合地包括以下特征中的一个或多个。

获得低分辨率版本可以包括使用图像生成机器学习模型生成低分辨率版本。图像生成机器学习模型可以是自回归图像生成机器学习模型。输出图像可以以输入上下文(context)为条件，并且其中图像生成机器学习模型被配置为以输入上下文为条件生成低分辨率版本。每个卷积神经网络集合中的每个卷积神经网络可以以输入上下文为条件。

特定于当前分辨率的卷积神经网络集合可以包括其中包括两个或更多个卷积神经网络(convolutional neural network，CNN)的CNN集合，其用于使分辨率变为四倍。特定于当前分辨率的卷积神经网络集合可以包括：第一卷积神经网络，其被配置为接收包括图像的当前版本的第一输入并生成包括来自输出图像的K×2K版本的像素列的第一输出图像；以及第二卷积神经网络，其被配置为接收包括输出图像的K×2K版本的第二输入并生成包括来自输出图像的2K×2K版本的像素行的第二输出图像。

使用特定于当前分辨率的卷积神经网络集合处理输出图像的当前版本以生成更新版本可以包括：使用第一卷积神经网络处理当前版本以生成第一输出图像；通过合并当前版本和第一输出图像来生成K×2K版本；使用第二卷积神经网络处理K×2K版本以生成第二输出图像；并通过合并K×2K版本和第二输出图像来生成2K×2K版本。

合并当前版本和第一输出图像可以包括通过将来自当前版本的像素列与来自第一输出图像的像素列交替，生成包括来自当前图像的K列像素和来自第一输出图像的K列像素的K×2K图像。

合并K×2K版本和第二输出图像可以包括通过将来自K×2K版本的像素行与来自第二输出图像的像素行交替，生成包括来自K×2K版本的K行像素和来自第二输出图像的K行像素的2K×2K图像。

根据通道顺序对多个颜色通道进行排序，其中，第一卷积神经网络被配置为，对于每个颜色通道，以(i)当前版本和(ii)第一输出图像中的像素对于按通道顺序在所述颜色通道之前的任何颜色通道的颜色值为条件，并且不以(iii)第一输出图像中的像素对于按通道顺序在所述颜色通道之后的任何颜色通道的颜色值为条件，为第一输出图像中的像素生成颜色通道的颜色值。第二卷积神经网络被配置为，对于每个颜色通道，以(i)K×2K版本和(ii)第二输出图像中的像素对于按通道顺序在所述颜色通道之前的任何颜色通道的颜色值为条件，并且不以(iii)第二输出图像中的像素对于按通道顺序在所述颜色通道之后的任何颜色通道的颜色值为条件，为第二输出图像中的像素生成颜色通道的颜色值。

使用第一卷积神经网络处理当前版本以生成第一输出图像可以包括：迭代地处理当前版本和来自第一输出图像的已经生成的颜色值以生成第一输出图像。使用第二卷积神经网络处理K×2K版本以生成第二输出图像可以包括：迭代地处理K×2K版本和来自第二输出图像的已经生成的颜色值以生成第二输出图像。

特定于当前分辨率的卷积神经网络集合可以包括：第一卷积神经网络，其被配置为接收包括图像的当前版本的第一输入并生成包括来自输出图像的2K×K版本的像素行的第一输出图像，以及第二卷积神经网络，其被配置为接收包括输出图像的2K×K版本的第二输入并生成包括来自输出图像的2K×2K版本的像素列的第二输出图像。

使用特定于当前分辨率的卷积神经网络集合处理输出图像的当前版本以生成更新版本可以包括：使用第一卷积神经网络处理当前版本以生成第一输出图像；通过合并当前版本和第一输出图像来生成2K×K版本；使用第二卷积神经网络处理2K×K版本以生成第二输出图像；以及，通过合并2K×K版本和第二输出图像来生成2K×2K版本。

合并当前版本和第一输出图像可以包括通过将来自当前版本的像素行与来自第一输出图像的像素行交替，来生成包括来自当前图像的K行像素和来自第一输出图像的K行像素的2K×K图像。合并2K×K版本和第二输出图像可以包括通过将来自2K×K版本的像素列和来自第二输出图像的像素列交替，来生成包括来自2K×K版本的K列像素和来自第二输出图像的K列像素的2K×2K图像。

可以根据通道顺序对多个颜色通道进行排序。第一卷积神经网络被配置为，对于每个颜色通道，以(i)当前版本和(ii)第一输出图像中的像素对于按通道顺序在所述颜色通道之前的任何颜色通道的颜色值为条件，并且不以(iii)第一输出图像中的像素对于按通道顺序在所述颜色通道之后的任何颜色通道的颜色值为条件，为第一输出图像中的像素生成颜色通道的颜色值。第二卷积神经网络被配置为，对于每个颜色通道，以(i)2K×K版本和(ii)第二输出图像中的像素对于按通道顺序在所述颜色通道之前的任何颜色通道的颜色值为条件，并且不以(iii)第二输出图像中的像素对于按通道顺序在所述颜色通道之后的任何颜色通道的颜色值为条件，为第二输出图像中的像素生成颜色通道的颜色值。

在相关方面，一种从输出图像的较低分辨率版本生成输出图像的方法包括：从图像的较低分辨率版本确定输出图像的第一像素组；迭代地生成输出图像的相应后续像素组的一系列值，其中每个像素组的值以先前生成的像素组的值为条件；以及在每个像素组内并行地确定组内像素的值。像素组内的像素值定义所述输出图像。

在一些实施方案中，像素被分组以便利用空间局部性。因此，可以布置像素组，使得输出图像的两个相邻像素不在同一组中。在一些实施方案中，可以以外部输入(例如提供上下文信息的向量)为条件迭代生成像素组的值，外部输入可定义期望的输出图像。

本说明书中描述的主题可以在特定实施例中实施，以实施以下优点中的一个或多个。通过切割现有图像生成模型所依赖的一些空间依赖关系，可以极大地减少使用这里描述的自动回归图像生成机器学习模型生成输出图像所需的处理时间，而输出图像的质量几乎没有降低或者没有降低。此外，因为系统采用的卷积神经网络的处理可以在训练期间并行化，所以仍然可以以高效利用资源和时间的方式训练网络。另外，本说明书中描述的自回归图像生成机器学习模型是适当的密度模型，即，可以以原理方式从模型生成图像。这样，实施本文描述的自回归模型的系统可以计算模型下的真实图像的概率，评估模型，并且定量地将模型与其他现有图像生成模型进行比较。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1是图像生成系统的示例的框图。

图2是示例像素分组和排序规则的框图。

图3是处理输出图像的当前版本以生成输出图像的更新版本的示例过程的框图。

图4是处理输出图像的当前版本以生成输出图像的更新版本的示例过程的流程图。

各附图中相同的参考标记和名称表示相同的元素。

具体实施方式

图1示出了图像生成系统100的示例。系统100是在一个或多个位置处的一个或多个计算机上实施为计算机程序的系统的示例，其中可以实施下面描述的系统、组件和技术。通常，系统100被配置为使用自回归图像生成机器学习模型102(以下称为“自回归模型102”)生成输出图像110。自回归模型102包括多个卷积神经网络(convolutional neuralnetwork，CNN)集合104。

具体地，为了生成输出图像110，自回归模型102首先生成输出图像110的初始低分辨率图像108。在一些实施方案中，自回归模型102可从低分辨率图像集合中随机地对初始低分辨率图像108进行采样。

在一些其他实施方案中，自回归模型102以输入上下文106为条件生成初始低分辨率图像108。可以使用传统的自回归模型(例如，生成高质量图像但是计算密集的模型)来生成初始低分辨率图像108。Van den Oord等人发表于https://arxiv.org/abs/1606.05328的“Conditional Image Generation with PixelCNN Decoders”描述了传统自回归模型的一个示例。

通常，输入上下文106是可能影响输出图像中的像素的颜色值的外部信息的表示，即，张量，例如矢量、矩阵或高阶张量。在某些情况下，外部信息可以是文本描述。例如，文本描述可以是例如描述输出图像中的对象的标题，例如“长着鲜绿色头、黄色喙和橙色脚的棕色大鸟”。在某些情况下，外部信息可以是图像分割。图像分割可以包括用输出图像中的最大对象掩蔽的图像，即，仅包括输出图像中的前景像素。在某些情况下，外部信息可以包括指定输出图像中的一个或多个对象的位置或形状的关键点。在某些其他情况下，外部信息可以包括一个或多个先前的视频帧。在这些情况下，系统100可以在图像解码设备(例如，移动设备或另外类型的用户计算机)上实施，并且用于对接收的编码图像或接收的编码视频帧进行解码。

在一些实施方案中，自回归模型102可以不生成低分辨率版本108，而是例如从另一系统获得低分辨率版本108作为输入。

在生成或获得输出图像110的低分辨率图像108之后，自回归模型102使用CNN集合104来升级低分辨率版本108，以便生成具有最终期望的输出分辨率(例如，N个像素×N个像素)的输出图像110。例如，在一些实施方案中，初始低分辨率图像108具有4像素×4像素的分辨率，并且输出图像110具有128像素×128像素的分辨率。通常，自回归模型102通过根据“像素的粗略到精细排序”原则生成更高分辨率的图像来对低分辨率图像108进行升级。这意味着模型102先后生成更高分辨率的图像，这些更高分辨率的图像以先前的分辨率为条件生成。

如本说明书中所述，先后生成更高分辨率图像的自回归模型102具有优于现有图像生成模型的多个技术优势。

一些先前的自回归图像生成模型将图像的联合分布分解为逐像素(per-pixel)因子。具体地，这些模型将T个像素在图像上的联合分布计算为条件分布的下列乘积，其中x_t是单个像素：

由于条件分布的因果结构，这些模型需要推理以光栅顺序(即逐行地以及在每行中逐个像素地)先后逐个像素地进行。这需要每个像素的完整网络评估，这是昂贵的，即，由于需要大量的全网络评估，所以需要大量的计算资源来生成整个图像。

相反，本说明书中描述的自回归模型102通过将图像的联合分布分解为像素组因子来降低计算成本并加速训练和推理。这种方法可以被视为合并逐像素因子的一种方式，从而削减现有自回归图像生成模型所依赖的一些空间依赖关系并允许并行采样。因此，生成输出图像所需的处理时间可以大大减少，而输出图像的质量几乎不会降低或不会降低。例如，自回归模型102可以允许在O(log N)时间内处理N像素图像，而不是如传统自回归模型中那样在O(N)时间内处理。

具体地，假设图像的N个像素(而不是其他地方提到的N²个像素)被分成每组T个像素的G个组，自回归模型102将T像素在图像上的联合分布计算为相应G因子的乘积：

等式(2)假设每个组包括T个像素，但实际上该数量可以变化。

在训练期间，系统100通过调整自回归模型102的参数θ的值在训练数据集上训练自回归模型102以最大化logP(x；θ)。由于联合分布在像素组和尺度上进行分解，因此可以有效地并行化训练，即，在训练期间可以并行化自回归模型102中的卷积神经网络的处理。因此，可以以高效利用资源和时间的方式训练模型102中的卷积神经网络。

一经训练，自回归模型102就例如通过迭代地执行以下操作升级低分辨率图像108：获得具有当前K×K分辨率的输出图像的当前版本，即，来自先前迭代的图像的版本，并且使用CNN集合和特定于当前分辨率的预定义分组和排序规则来处理输出图像的当前版本，以生成具有2K×2K分辨率的输出图像的更新版本。重复执行上述操作，直到获得期望的分辨率(例如，N×N)。

预定义分组和排序规则指定如何以预定方式对像素进行分组，以便在每个分辨率下利用空间局部性，即，图像的两个相邻像素不在同一组中。图2示出了示例分组和排序规则，其中图像被分成不相交的像素组，组之间具有自回归结构，即，可以以先前生成的像素组为条件先后生成每组像素。

为了将图像从给定的K×K分辨率升级到2K×2K分辨率，自回归模型102使用CNN集合中的第一CNN和特定于给定分辨率的像素组集合来处理具有给定分辨率的当前版本。根据预定义分组和排序规则形成像素组集合。第一CNN被配置为基于当前图像中包括的先前像素组来生成对应于新像素组的第一输出图像。然后，自回归模型102通过根据预定义分组和排序规则合并当前版本和第一输出图像来生成中间版本(例如，输出图像的K×2K版本或2K×K版本)。自回归模型102使用CNN集合中的第二CNN处理中间版本，以类似方式生成第二输出图像。自回归模型102通过根据预定义分组和排序规则合并中间版本和第二输出图像来生成2K×2K版本。

在一些实施方案中，由CNN生成的较高分辨率图像中的每个像素(例如，每次迭代中的第一输出图像和第二输出图像)具有多个颜色通道集合中的每个通道的相应颜色值。例如，颜色通道集合可以包括{红色、绿色、蓝色}或{青色、品红色、黄色、黑色}。集合中的颜色通道根据通道顺序(例如RGB顺序或CMYK顺序)排序。第一卷积网络和第二卷积网络在生成第一输出图像和第二输出图像时考虑通道顺序。下面参考图4更详细地描述为第一输出图像和第二输出图像中的像素生成颜色通道的颜色值的过程。

在一些实施方案中，当由自回归模型102生成的初始低分辨率图像108以输入上下文106为条件时，用于生成更高分辨率图像的每个CNN集合以输入上下文106为条件。

下面参考图3更详细地描述处理输出图像的当前版本以生成输出图像的更新版本的过程。

作为说明性示例，当初始低分辨率是4×4并且最终期望的输出分辨率是128×128时，模型102使用一个CNN集合从4×4图像生成8×8图像，使用另一个CNN集合从8×8图像生成16×16图像，使用另一个CNN集合从16×16图像生成32×32图像，使用另一个CNN集合从32×32图像生成64×64图像，并且使用另一个CNN集合从64×64图像生成最终的128×128图像。

图2是示出针对图像200的示例像素分组和排序规则的框图。

通常，图像200中的像素以图像200的两个相邻像素不在同一组中的方式分组，从而允许相邻像素并行生成，这可以在训练和推理期间大大加快更高分辨率图像的生成。

在该示例中，图像200具有4像素×4像素的分辨率。可以使用以下规则将图像200划分为不相交的像素组。为了创建组，图像200用2×2块平铺(tile)。这些2×2块的角以给定的尺度形成四个像素组，即左上、右上、左下和右下。具体地，左上角像素形成组1像素(202)。右上角像素形成组2像素(204)。左下角像素形成组3像素(206)。右下角像素形成组4像素(208)。每组像素对应于等式2的联合分布中的因子。

给定组中的像素取决于一个或多个先前组中的像素。为清楚起见，图2使用箭头来指示紧邻的依赖关系，但前面的组中的所有像素可用于预测(即，生成)给定组中的所有像素。例如，组2中的所有像素可用于预测组4中的像素。在一些实施方案中，组1中的像素可源自较低分辨率图像。在一些实施方案中，可以在给定视频中的先前帧的情况下生成组1中的像素。

虽然图像200的两个相邻像素不在同一组中，但是每个块内以及跨越块的一些像素对仍然可以是相互依赖的。这些额外的依赖关系允许捕获局部纹理并避免边界伪像。

图3是处理输出图像的当前版本(K×K)以生成输出图像的更新版本(2K×2K)的示例过程的框图。为方便起见，过程300将被描述为由位于一个或多个位置处的一个或多个计算机的系统执行。例如，根据本说明书适当编程的图像生成系统(例如，图1的图像生成系统100)可以执行过程300。

系统获得输出图像的当前版本306。当前版本306具有当前K×K分辨率。在一些情况下，当前版本306可以是系统使用自回归图像生成机器学习模型生成的输出图像的初始低分辨率图像(例如，图1的初始低分辨率图像108)。在一些其他情况下，输出图像的当前版本306可以是在过程300的先前迭代期间生成的图像。

系统使用第一CNN 302处理当前版本306以生成第一输出图像308。第一CNN 302被配置为接收输出图像的当前版本306并以当前版本306为条件生成第一输出图像308。第一输出图像308包括由系统使用的像素列或像素行，以生成具有比当前版本更高分辨率的输出图像的后续版本。

在一些实施方案中，第一CNN 302被配置为从当前版本306直接生成第一输出图像308。在这些实施方案中，第一CNN 302可以包括一个或多个残余神经网络层。

在一些其他实施方案中，第一CNN 302可以包括一个或多个残余神经网络层和一个或多个卷积神经网络层。一个或多个残余神经网络层提取当前版本的特征以形成特征图(map)并将特征图分割成空间连续的特征块318，特征块318在实施方案中是非重叠的。然后，一个或多个卷积神经网络层并行地提供这些块(即，通过为每个特征块318生成相应的像素值和/或颜色值)以形成第一输出图像308。可以用于提供这些块的示例CNN是浅PixelCNN，通过该PixelCNN可以馈送特征图块。浅PixelCNN是具有少量层(例如，小于5层)的标准PixelCNN，与更深的神经网络相比，浅PixelCNN可以使得采样更快。

作为说明性示例，当前版本306可以包括形成图2中的组1像素的4个左上角像素。第一CNN 302可以使用组1像素来生成包括组2像素(即，4个右上角像素)的第一输出图像310。第一CNN 302可以包括一个或多个残余神经网络层。

系统将第一输出图像308分割成K列像素310。然后，系统将来自当前版本306的K列像素与来自第一输出图像308的K列像素310交替，并将它们合并以创建K×2K版本312。

系统使用第二卷积神经网络304处理K×2K版本312以生成第二输出图像314。第二CNN 304被配置为接收K×2K版本312并生成第二输出图像314，第二输出图像314包括要用于生成输出图像的2K×2K版本的像素行。第二CNN 304可以包括一个或多个残余神经网络层。

系统通过合并K×2K版本312和第二输出图像314来生成更新的输出图像316(即2K×2K版本)。具体地，系统通过将来自K×2K版本的像素行和来自第二输出图像的像素行交替，来生成包括来自K×2K版本312的K行像素和来自第二输出图像314的K行像素的2K×2K图像316。

在训练期间，系统通过调整CNN的参数θ的值来训练所有CNN集合(每个CNN集合用于过程300的迭代)以优化目标函数。假设给定输入的输出图像的N个像素被分成每组T个像素的G个组，系统训练CNN以最大化log P(χ；θ)，其中P(χ；θ)表示在给定参数θ的值的情况下T个像素在输出图像上的联合分布。如前所述，作为相应G因子的乘积的T个像素在图像上的联合分布是：

由于联合分布在像素组和尺度上进行分解，并且因为输出图像中的像素可以以输出图像的两个相邻像素不在同一组中(即同一组中的像素彼此独立)的方式分组，所以可以有效地并行训练CNN。具体地，在训练时，可以并行计算组内所有像素的损耗和梯度。因此，可以以高效利用资源和时间的方式训练卷积神经网络。该系统可以使用诸如随机梯度下降或梯度下降方法的传统训练技术来训练CNN。

图4是处理输出图像的当前版本以生成输出图像的更新版本的示例过程的流程图。为方便起见，过程400将被描述为由位于一个或多个位置处的一个或多个计算机的系统执行。例如，根据本说明书适当编程的图像生成系统(例如，图1的图像生成系统100)可以执行过程400。

系统获得具有当前K×K分辨率的输出图像的当前版本(步骤402)。

系统使用第一CNN处理当前版本以生成第一输出图像(步骤404)。第一CNN以当前版本中的像素为条件生成第一输出图像。第一输出图像包括要用于生成输出图像的中间版本的像素列或像素行，输出图像的中间版本具有比当前版本更高的分辨率。

在一些情况下，第一输出图像中的每个像素可以具有颜色通道集合(例如，红色、绿色和蓝色通道)中的每个颜色通道的相应颜色值。集合中的颜色通道根据通道顺序(例如RGB顺序)排序。在这些情况下，第一CNN被配置为基于由通道顺序定义的颜色通道依赖关系(例如，绿色取决于红色，蓝色取决于红色和绿色)为第一输出图像中的像素生成颜色通道的颜色值。具体地，第一CNN被配置为，对于每个颜色通道，以(i)当前版本和(ii)第一输出图像中的像素对于按通道顺序在所述颜色通道之前的任何颜色通道的颜色值为条件，且不以(iii)第一输出图像中的像素对于按通道顺序在所述颜色通道之后的任何颜色通道的颜色值为条件，为第一输出图像中的像素生成颜色通道的颜色值。第一CNN迭代地处理当前版本和来自第一输出图像的已经生成的颜色值以生成第一输出图像。第一CNN是用以通道方式掩蔽的(channel-wise masked)卷积来捕获颜色依赖关系的CNN。以通道方式掩蔽的卷积的数量取决于颜色通道集合中的颜色通道的数量。

例如，如果颜色通道集合具有三个颜色通道，则第一CNN具有三个以通道方式掩蔽的卷积以产生三个颜色通道。在该示例中，第一CNN处理输出图像的当前版本以生成第一颜色通道的值，然后处理当前版本和第一颜色通道的值以生成第二颜色通道的值，然后处理当前版本和前两个颜色通道的值以生成第三颜色通道的值。

系统通过合并当前版本和第一输出图像来生成输出图像的中间版本(步骤406)。

在一些实施方案中，输出图像的中间版本是输出图像的K×2K版本。由第一CNN生成的第一输出图像包括用于生成K×2K版本的K列像素。系统通过将来自当前版本的K列像素与来自第一输出图像的K列像素交替，来生成包括来自当前版本的K列像素和来自第一输出图像的K列像素的K×2K版本。

在一些其他实施方案中，输出图像的中间版本是输出图像的2K×K版本。在这些实施方案中，由第一CNN生成的第一输出图像包括用于生成2K×K版本的K行像素。系统通过将来自当前版本的K行像素与来自第一输出图像的K行像素交替，来生成包括来自当前版本的K行像素和来自第一输出图像的K行像素的2K×K版本。

系统使用第二CNN处理中间版本以生成第二输出图像(步骤408)。

第二CNN以中间版本为条件生成第二输出图像。第二输出图像包括要用于生成输出图像的2K×2K版本的像素行或像素列。

在一些情况下，第二输出图像中的每个像素可以具有上述颜色通道集合中的每个颜色通道的相应颜色值。第二CNN被配置为，对于每个颜色通道，以(i)中间版本和(ii)第二输出图像中的像素对于按通道顺序在所述颜色通道之前的任何颜色通道的颜色值为条件，且不以(iii)第二输出图像中的像素对于按通道顺序在所述颜色通道之后的任何颜色通道的颜色值为条件，为第二输出图像中的像素生成颜色通道的颜色值。第二CNN迭代处理中间版本和来自第二输出图像的已经生成的颜色值以生成第二输出图像。第二CNN是利用以通道方式掩蔽的卷积以捕获颜色依赖关系的CNN。以通道方式掩蔽的卷积的数量取决于颜色通道集合中的颜色通道的数量。例如，如果该颜色通道集合具有三个颜色通道，则第二CNN具有三个以通道方式掩蔽的卷积以产生三个颜色通道。

系统通过合并中间版本和第二输出图像来生成具有2K×2K分辨率的输出图像的更新版本(步骤410)。

具体地，当输出图像的中间版本是K×2K版本时，系统通过将来自K×2K版本的像素行与来自第二输出图像的像素行交替来生成2K×2K版本。

当输出图像的中间版本是2K×K版本时，系统通过将来自2K×K版本的像素列和来自第二输出图像的像素列交替来生成2K×2K版本。

本说明书使用与系统和计算机程序组件相关的术语“被配置为”。对于被配置为执行特定操作或动作的一个或多个计算机的系统意味着系统已经在其上安装了在操作中使得系统执行操作或动作的软件、固件、硬件或它们的组合。对于要被配置为执行特定操作或动作的一个或多个计算机程序意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以在包括本说明书中公开的结构及其结构等同物的数字电子电路、有形实施的计算机软件或固件、计算机硬件中实施，或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序，即，在有形非暂时性存储介质上编码的一个或多个计算机程序指令模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备，或者它们中的一个或多个的组合。可替代地或另外地，程序指令可以编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成以对用于传输到合适的接收器设备的信息进行编码以便由数据处理装置执行。

术语“数据处理装置”指的是数据处理硬件并且包括用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置还可以是或者进一步包括专用逻辑电路，例如FPGA(field programmable gate array，现场可编程门阵列)或ASIC(application specific integrated circuit，专用集成电路)。除了硬件之外，该装置还可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中一个或多个的组合的代码。

计算机程序也可以被称为或描述为程序、软件、软件应用、应用、模块、软件模块、脚本或代码，其可以用任何形式的编程语言(包括编译或解释性语言、或声明性或程序性语言)编写；并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如，一个或多个脚本存储在标记语言文档、专用于所讨论的程序的单个文件、或者多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。可以部署计算机程序以在一个计算机或位于一个站点上或分布在多个站点上并通过数据通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机可以基于通用或专用微处理器或这两者，或者任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，或者可操作地耦合以从该一个或多个大容量存储设备接收数据或将数据传输到该一个或多个大容量存储设备，该一个或多个大容量存储设备例如磁盘、磁光盘或光盘。但是，计算机不需要这样的设备。此外，计算机可以嵌入在另一个设备中，例如移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器或便携式存储设备(例如，通用串行总线(universal serial bus，USB)闪存驱动器)，仅举几例。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实施，该计算机具有显示设备，例如用于向用户显示信息的CRT(cathode ray tube，阴极射线管)或LCD(liquid crystal display，液晶显示器)监视器、以及键盘和指示设备，例如鼠标或跟踪球，用户可以通过它们向计算机提供输入。其他类型的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且，可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求将网页发送到用户设备上的web浏览器。此外，计算机可以通过向个人设备(例如，运行消息收发应用程序的智能电话)发送文本消息或其他形式的消息来与用户交互，并且反过来从用户接收响应消息。

用于实施机器学习模型的数据处理装置还可以包括，例如，专用硬件加速器单元，用于处理机器学习训练的公共和计算密集部分，或生产(即，推断)工作负载。

可以使用机器学习框架，例如TensorFlow框架、微软认知工具包框架、ApacheSinga框架或Apache MXNet框架，来实施和部署机器学习模型。

本说明书中描述的主题的实施例可以在计算系统中实施，该计算系统包括后端组件(例如，作为数据服务器)、或者包括中间件组件(例如，应用服务器)、或者包括前端组件(例如，具有图形用户界面、网络浏览器或app的客户端计算机，用户可以通过图形用户界面、网络浏览器或app与本说明书中描述的主题的实施方案交互)、或者包括一个或多个这样的后端、中间件或前端组件的任意组合。系统的组件可以通过数字数据通信的任何形式或介质(例如通信网络)互连。通信网络的示例包括局域网(LAN，local area network)和例如互联网的广域网(wide area network，WAN)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且典型地通过通信网络交互。客户端和服务器的关系是通过在相应的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序产生的。在一些实施例中，服务器将数据(例如，HTML页面)传输到用户设备，例如，以用于向与充当客户端的设备交互的用户显示数据和从该用户接收用户输入的目的。在用户设备处生成的数据，例如用户交互的结果，可以在服务器处从设备接收。

虽然本说明书包含许多具体的实施细节，但这些不应被解释为是对任何发明的范围或可以要求保护的范围的限制，而是对可特定于具体发明的具体实施例的特征的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。反过来，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分开地或以任何合适的子组合来实施。此外，尽管特征在上面可以被描述为以某些组合起作用，并且甚至初始被要求这样保护，但是在一些情况下，来自要求保护的组合的一个或多个特征可以从该组合中删除，并且要求保护的组合可以指向子组合或子组合的变体。

类似地，虽然在附图中描绘了操作，并且在权利要求中以具体顺序叙述了操作，但是这不应该被理解为要求这些操作以所示的具体顺序或以相继顺序执行，或者要求执行所有所示的操作以获得期望的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述实施例中各种系统模块和组件的分离不应理解为在所有实施例中都要求这种分离，并且应理解，所描述的程序组件和系统通常可以集成在单个软件产品中或者封装到多个软件产品中。

已经描述了主题的具体实施例。其他实施例在所附权利要求的范围内。例如，权利要求中叙述的动作可以以不同的顺序执行，但仍然获得期望的结果。作为一个示例，为获得期望的结果，附图中描绘的过程不一定要求所示的具体顺序或相继顺序。在一些情况下，多任务处理和并行处理可以是有利的。

Claims

1.一种生成具有输出分辨率的输出图像的方法，所述输出图像中的每个像素具有一个或多个通道中的每一个通道的相应值，所述方法包括：

获得所述输出图像的低分辨率版本；以及

通过重复执行以下操作，升级所述输出图像的低分辨率版本以生成具有输出分辨率的输出图像直到获得具有输出分辨率的图像：

获得具有当前分辨率的输出图像的当前版本；以及

使用特定于当前分辨率的卷积神经网络集合处理所述输出图像的当前版本，以生成具有比当前分辨率更高的更新分辨率的输出图像的更新版本，其中，特定于当前分辨率的卷积神经网络集合包括：

第一卷积神经网络，被配置为接收包括所述图像的当前版本的第一输入，并生成包括来自所述输出图像的中间版本的像素列的第一输出图像，所述输出图像具有比当前分辨率高但比更新分辨率低的中间分辨率；以及

第二卷积神经网络，被配置为接收包括所述输出图像的中间版本的第二输入，并生成包括来自所述输出图像的更新版本的像素行的第二输出图像。

2.如权利要求1所述的方法，其中，获得所述低分辨率版本包括：

使用图像生成机器学习模型生成所述低分辨率版本。

3.如权利要求2所述的方法，其中，所述图像生成机器学习模型是自回归图像生成机器学习模型。

4.如权利要求3所述的方法，其中，所述输出图像以输入上下文为条件，并且其中，所述图像生成机器学习模型被配置为以所述输入上下文为条件生成所述低分辨率版本。

5.如权利要求4所述的方法，其中，每个卷积神经网络集合中的每个卷积神经网络以所述输入上下文为条件。

6.如权利要求1所述的方法，其中，使用特定于当前分辨率的卷积神经网络集合处理所述输出图像的当前版本以生成所述输出图像的更新版本包括：

使用所述第一卷积神经网络处理所述输出图像的当前版本以生成所述第一输出图像；

通过合并所述当前版本和所述第一输出图像来生成所述中间版本；

使用所述第二卷积神经网络处理所述中间版本以生成所述第二输出图像；以及

通过合并所述中间版本和所述第二输出图像来生成所述更新版本。

7.如权利要求6所述的方法，其中，合并所述当前版本和所述第一输出图像包括：

通过将来自所述当前版本的像素列与来自所述第一输出图像的像素列交替，生成包括来自所述当前版本的K列像素和来自所述第一输出图像的K列像素的中间图像。

8.如权利要求6所述的方法，其中合并所述中间版本和所述第二输出图像包括：

通过将来自所述中间版本的像素行与来自所述第二输出图像的像素行交替，生成包括来自所述中间版本的多行像素和来自所述第二输出图像的多行像素的更新图像。

9.如权利要求6所述的方法，

其中，根据通道顺序对所述一个或多个通道进行排序，

其中，所述第一卷积神经网络被配置为，对于每个通道：

以(i)所述当前版本和(ii)所述第一输出图像中的像素对于按所述通道顺序在所述通道之前的任何通道的值为条件，并且不以(iii)所述第一输出图像中的像素对于按通道顺序在通道之后的任何通道的值为条件，为所述第一输出图像中的像素生成所述通道的值，并且

其中，所述第二卷积神经网络被配置为，对于每个通道：

以(i)所述中间版本和(ii)所述第二输出图像中的像素对于按所述通道顺序在所述通道之前的任何通道的值为条件，并且不以(iii)所述第二输出图像中的像素对于按所述通道顺序在所述通道之后的任何通道的值为条件，为所述第二输出图像中的像素生成所述通道的值。

10.如权利要求9所述的方法，其中，使用所述第一卷积神经网络处理所述当前版本以生成所述第一输出图像包括：

迭代地处理所述当前版本和来自所述第一输出图像的已经生成的值以生成所述第一输出图像，并且

其中，使用所述第二卷积神经网络处理所述中间版本以生成所述第二输出图像包括：

迭代地处理所述中间版本和来自所述第二输出图像的已经生成的值以生成所述第二输出图像。

11.一种生成具有输出分辨率的输出图像的方法，所述输出图像中的每个像素具有一个或多个通道中的每一个通道的相应值，所述方法包括：

获得所述输出图像的低分辨率版本；以及

获得具有当前分辨率的输出图像的当前版本；以及

使用特定于当前分辨率的卷积神经网络集合处理所述输出图像的当前版本，以生成具有高于当前分辨率的更新分辨率的输出图像的更新版本，

其中，特定于当前分辨率的卷积神经网络集合包括：

第一卷积神经网络，被配置为接收包括所述图像的当前版本的第一输入并生成包括来自所述输出图像的中间版本的像素行的第一输出图像，所述输出图像具有比当前分辨率高但比更新分辨率低的中间分辨率；以及

第二卷积神经网络，被配置为接收包括所述输出图像的中间版本的第二输入，并生成包括来自所述输出图像的更新版本的像素列的第二输出图像。

12.如权利要求11所述的方法，其中，使用特定于当前分辨率的卷积神经网络集合处理所述输出图像的当前版本以生成更新版本包括：

使用所述第一卷积神经网络处理所述当前版本以生成所述第一输出图像；

13.如权利要求12所述的方法，其中，合并所述当前版本和所述第一输出图像包括：

通过将来自所述当前版本的像素行与来自所述第一输出图像的像素行交替，生成包括来自所述当前版本的多行像素和来自所述第一输出图像的多行像素的中间图像。

14.如权利要求12所述的方法，其中，合并所述中间版本和所述第二输出图像包括：

通过将来自所述中间版本的像素列和来自所述第二输出图像的像素列交替，生成包括来自所述中间版本的多列像素和来自所述第二输出图像的多列像素的更新图像。

15.如权利要求11所述的方法，

其中，根据通道顺序对所述一个或多个通道进行排序，

其中，所述第一卷积神经网络被配置为，对于每个通道：

以(i)所述当前版本和(ii)所述第一输出图像中的像素对于按所述通道顺序在所述通道之前的任何通道的值为条件，并且不以(iii)所述第一输出图像中的像素对于所述通道顺序按所述通道之后的任何通道的值为条件，为所述第一输出图像中的像素生成所述通道的值，并且

其中，所述第二卷积神经网络被配置为，对于每个通道：

16.如权利要求15所述的方法，其中，使用所述第一卷积神经网络处理所述当前版本以生成所述第一输出图像包括：

17.如权利要求11所述的方法，其中，获得所述低分辨率版本包括：

使用图像生成机器学习模型生成所述低分辨率版本。

18.如权利要求17所述的方法，其中，所述图像生成机器学习模型是自回归图像生成机器学习模型。

19.如权利要求11至18中的任一项所述的方法，其中，所述输出图像以输入上下文为条件，并且其中，所述图像生成机器学习模型被配置为以所述输入上下文为条件生成所述低分辨率版本。

20.如权利要求19所述的方法，其中，每个卷积神经网络集合中的每个卷积神经网络以所述输入上下文为条件。

21.一种用于生成输出图像的系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行如权利要求1-20中任一项所述的相应方法的操作。

22.存储指令的一个或多个计算机存储介质，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行如权利要求1-20中任一项所述的相应方法的操作。