CN113673635A

CN113673635A - 一种基于自监督学习任务的手绘草图理解深度学习方法

Info

Publication number: CN113673635A
Application number: CN202010411459.6A
Authority: CN
Inventors: 付彦伟; 林航宇; 姜育刚; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-19
Anticipated expiration: 2040-05-15
Also published as: CN113673635B

Abstract

本发明提供了一种基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，包括如下步骤：步骤S1，基于不同的手绘草图中点的数据的分类对其中部分数据进行抹除，进一步将抹除部分数据后的手绘草图的数据用于自监督学习；步骤S2，将手绘草图的数据序列化后嵌入编码；步骤S3，将基于双向编码表示和自注意力机制的深度学习网络作为深度特征提取模块，并利用该深度特征提取模块提取手绘草图对应的点数据的深度特征；步骤S4，利用提取的深度特征预测被抹除的部分数据的坐标数据和状态数据；步骤S5，使用损失函数分别对坐标数据的预测与状态数据的预测任务进行训练从而获得训练好的网络模型。

Description

一种基于自监督学习任务的手绘草图理解深度学习方法

技术领域

本发明属于计算机图像识别技术领域，涉及一种基于自监督学习任务的手绘草图理解深度学习方法。

背景技术

随着触屏设备的普及，比如平板电脑和手机等，每个人都可以容易地进行手绘草图的绘制。目前，关于如何自动化地理解手绘草图的研究集中在2D的像素图片以及有监督学习上。事实上，手绘草图是有关物体的抽象与概念化的表示，可以用来表示简单的逻辑或者有关场景的结构。所以相对于像素化图片，手绘草图的原始序列化形式可能是一种更好的表示方法以及结构。比如，一张手绘草图由一系列的笔划构成，而每一笔划可以看作一系列的点。

在现有的研究中，有关手绘草图的学习总是集中在有监督学习。并且这些有监督的学习模型往往聚焦在一个具体的任务上，比如分类，检索等。而这样的方法并不具备直接迁移到其他任务上的能力，所以这种方法泛用能力较差。而且，对于大量的数据进行标注是一件费时费力的任务，需要大量的经济与人员的付出。

目前，在自然语言处理领域，有相当一部分自监督学习模型显示出了对于各种自然语言任务的优越性，比如BERT(Bidirectional Encoder Representation fromTransformer)模型，GPT模型以及XLNet模型等。这些模型都采取了利用背景数据预测未知数据的自监督学习任务。更进一步地，从数据类型上看这些模型的本质处理的是序列数据，但这些模型并不能直接解决有关手绘草图的自监督学习任务，因为语言本质是离散的数据，而手绘草图的数据是连续的序列数据。

发明内容

为解决上述问题，提供一种基于自监督学习任务的手绘草图理解深度学习方法，本发明采用了如下技术方案：

本发明提供了一种基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，包括如下步骤：

步骤S1，基于不同的手绘草图中点的数据的分类对其中部分数据进行抹除，进一步将抹除部分数据后的手绘草图的数据用于自监督学习；

步骤S2，将手绘草图的数据序列化后嵌入编码；

步骤S3，将基于双向编码表示和自注意力机制的深度学习网络作为深度特征提取模块，并利用该深度特征提取模块提取手绘草图对应的点数据的深度特征；

步骤S4，利用提取的深度特征预测被抹除的部分数据的坐标数据和状态数据；

步骤S5，使用损失函数分别对坐标数据的预测与状态数据的预测任务的损失函数对深度网络模型进行训练从而获得训练好的网络模型；

步骤S6，将步骤S5中训练好的模型在进行分类训练以及检索训练从而获得分类训练好的分类网络和用于检索的深度特征网络；

步骤S7，在数据集上，用分类训练好的网络进行分类结果预测以及用检索训练好的网络进行检索结果计算。

本发明提供的基于自监督学习任务的手绘草图理解深度学习方法，还可以具有这样的特征，其中，

本发明提供的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S1的具体过程如下：

根据手绘草图的不同状态将手绘草图的数据分为三类，数量记为π₁，π₂，π₃，在每一类的手绘草图的数据中选择15％的数据作为抹除数据，得到总共15％的抹除数据。

本发明提供的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S2的具体过程如下：

使用序列化的形式将手绘草图的数据表示为一系列的点数据，每一个点数据的具体形式为(Δx，Δy，p₁，p₂，p₃)，其中，(Δx，Δy)表示当前点相对于前一点的坐标位移，(p₁，p₂，p₃)是one-hot编码表示点状态的状态向量，p₁，p₂，p₃分别表示笔划开始，笔划结束和手绘草图完整结束的状态，

针对坐标位移中的数据，使用三层神经元数量为(128，256，512)的全连接层进行编码，针对状态向量中的数据使用字典编码方法，对每一种状态使用512维的向量进行编码。

本发明提供的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S3的具体过程如下：

步骤S3.1，使用全连接网络将输入的手绘草图的数据(s₁,s₂,...,s_n)转化为检索向量Query、键向量Key以及以及值向量Value三种数据，具体表示为(q₁,q₂,...,q_n)，(k₁,k₂,...,k_n)，以及(v₁,v₂,...,v_n)，

步骤S3.2，使用自注意力机制对检索向量、键向量以及值向量进行处理获取经过注意力权重以及更新后的特征，注意力权重为

N为手绘草图的类别数量，更新后的深度特征为

步骤S3.3，利用全连接层以及残差网络对更新后的深度特征进行处理得到与输入特征同纬度的输出特征。

本发明提供的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S4的具体过程如下：

基于被抹除数据的深度特征，利用三层神经元数量为(256，128，5)的全连接层预测被抹除数据的坐标和状态，使用

来表示预测出的坐标数据和状态数据。

本发明提供的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S5的具体过程如下：

针对坐标数据使用L2范数损失函数进行训练，针对状态数据使用交叉熵联合进行训练。

本发明提供的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S6的具体过程如下：

步骤S6.1，分类网络训练，基于深度特征提取网络以及分类结果的预测，利用交叉熵损失函数对深度神经网络进行训练，

步骤S6.2，检索网络训练，利用深度特征提取模块，得到用于检索的深度特征网络，利用triplet损失函数对深度特征进行监督与训练。

本发明提供的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S7的具体过程如下：

步骤S7.1，利用深度特征提取网络对待识别的手绘草图的数据进行处理获得对应的深度特征，

步骤S7.2，利用分类网络对手绘草图的点数据进行处理预测手绘草图的分类结果，

步骤S7.3，利用深度特征提取网络对手绘草图的点数据进行处理得到手绘草图的检索结果。

本发明提供的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S7.3的具体过程如下：

步骤S7.3.1，随机选择数据集中的手绘草图作为检索项，获取该手绘草图的点数据作为测试数据，将未被选择的手绘草图作为备选项，获取对应的手绘草图的点数据作为备选数据，

步骤S7.3.2，使用深度特征提取网络对测试数据与手绘草图的备选数据提取相应的深度特征，

步骤S7.3.3，使用L2范数距离计算获取手绘草图数据的深度特征与备选数据的深度特征之间的距离，

步骤S7.3.4，选择步骤S3.3.2中获得的距离的最小时的手绘草图的数据作为待测试数据的检索结果。

发明作用与效果

根据本发明的基于自监督学习任务的手绘草图理解深度学习方法，提出了新的手绘草图格式塔任务，一种旨在预测未知的连续坐标数据以及离散数据的自监督学习任务。并且根据这一自监督学习任务以及基于双向编码表示和自注意力机制的深度神经网络模型提出了基于自监督学习的手绘草图理解模型。在自监督学习模型之外，本系统还可自然地迁移到各种有关手绘草图的下游任务上，比如手绘草图分类和检索任务。相比于过去的系统和方法，本系统的效果更好，所需要的监督数据更少，泛化性更强，不仅可以使用大量未标注数据进行学习还可以提升下游任务的表现。

附图说明

图1是本发明实施例的基于自监督学习任务的手绘草图理解深度学习方法的流程图；

图2是本发明实施例的基于自监督学习任务的手绘草图理解深度学习方法对应的系统示意图；

图3是本发明实施例的基于手绘草图格式塔任务的深度特征提取网络结构图；

图4是本发明实施例的在分类任务上进行训练和应用的流程；

图5是本发明实施例的在检索任务上进行训练和应用的流程。

具体实施方式

以下结合附图以及实施来说明本发明的具体实施方式。

<实施例>

图1是本发明实施例的基于自监督学习任务的手绘草图理解深度学习方法的流程图。

如图1所示，本实施例基于自监督学习任务的手绘草图理解深度学习方法，包括如下步骤：

步骤S1，基于不同的手绘草图中点的数据的分类对其中部分数据进行抹除，进一步将抹除部分数据后的手绘草图的数据用于自监督学习。

根据手绘草图的不同状态将手绘草图的数据分为三类，数量记为n₁，n₂，n₃，在每一类的手绘草图的数据中选择15％的数据作为抹除数据，得到总共15％的抹除数据。

图3是本发明实施例的基于手绘草图格式塔任务的深度特征提取网络结构图。

如图3所示，步骤S2，将手绘草图的数据序列化后嵌入编码。

如图3所示，步骤S3，将基于双向编码表示和自注意力机制的深度学习网络作为深度特征提取模块，并利用该深度特征提取模块提取手绘草图对应的点数据的深度特征，具体步骤如下：

步骤S3.1，使用全连接网络将输入的手绘草图的数据(s₁,s₂,...,s_n)转化为检索向量Query、键向量Key以及值向量Value三种数据，具体表示为(q₁,q₂,...,q_n)，(k₁,k₂,...,k_n)，以及(v₁,v₂,...,v_n)。

N为手绘草图的类别数量，更新后的特征为

步骤S4，利用提取的深度特征预测被抹除的部分数据的坐标数据和状态数据。

来表示预测出的坐标数据和状态数据。

步骤S5，使用损失函数分别对坐标数据的预测与状态数据的预测任务的损失函数对深度网络模型进行训练从而获得训练好的网络模型。

图4是本发明实施例的在分类任务上进行训练和应用的流程。图5是本发明实施例的在检索任务上进行训练和应用的流程。

如图4和图5所示，步骤S6，将步骤S5中训练好的模型在进行分类训练以及检索训练从而获得分类训练好的分类网络和用于检索的深度特征网络，具体步骤如下：

步骤S6.1，分类网络训练，基于深度特征提取网络以及分类结果的预测，利用交叉熵损失函数对深度神经网络进行训练。

步骤S7，在数据集上，用分类训练好的网络进行分类结果预测以及用检索训练好的网络进行检索结果计算，具体步骤如下：

步骤S7.1，利用深度特征提取网络对待识别的手绘草图的数据进行处理获得对应的深度特征。

步骤S7.2，利用分类网络对手绘草图的点数据进行处理预测手绘草图的分类结果。

步骤S7.3的具体过程如下：

步骤S7.3.1，随机选择所述数据集中的所述手绘草图作为检索项，获取该手绘草图的点数据作为测试数据，将未被选择的所述手绘草图作为备选项，获取对应的手绘草图的点数据作为备选数据。

步骤S7.3.2，使用深度特征提取网络对测试数据与备选数据提取相应的深度特征。

步骤S7.3.3，使用L2范数距离计算获取手绘草图数据的深度特征与手绘草图的备选数据的深度特征之间的距离。

图2是本发明实施例的基于自监督学习任务的手绘草图理解深度学习方法对应的系统示意图。

如图2所示，该系统100包括媒体数据101，计算机设备110和展示设备191。

媒体数据101为本实施例中使用的手绘草图数据，该手绘草图数据可以是从触屏设备上获得数据也可以是网络上存在的数据。

计算设备110用于处理媒体数据101，具有处理器120和内存130。其中处理器120包括中央处理器130和图形计算处理器120，内存130存储了可执行计算机代码140和用于训练的手绘草图数据135。

可执行代码140包含嵌入编码模块141、特征提取模块142以及分类网络模块143。

嵌入编码模块141用于对手绘草图数据进行编码以用于特征提取模块142。

特征提取模块142使用基于双向编码表示和自注意力机制的深度神经网络提取编码后的数据的深度特征，从而进行自监督学习。

分类网络模块143基于提取的进行手绘草图分类任务的学习与应用。

展示设备191是播放媒体数据101或者计算设备110得到的评测结果的设备，可以是电脑或者移动设备。

实施例作用与效果

本实施例的基于自监督学习任务的手绘草图理解深度学习方法，提出了新的手绘草图格式塔任务，一种旨在预测未知的连续坐标数据以及离散数据的自监督学习任务。并且根据这一自监督学习任务以及基于双向编码表示和自注意力机制的深度神经网络模型提出了基于自监督学习的手绘草图理解模型。在自监督学习模型之外，本系统还可自然地迁移到各种有关手绘草图的下游任务上，比如手绘草图分类和检索任务。相比于过去的系统和方法，本系统的效果更好，所需要的监督数据更少，泛化性更强，不仅可以使用大量未标注数据进行学习还可以提升下游任务的表现。

进一步地，本实施例使用手绘草图的序列化特性以及格式塔任务从未标注的手绘草图数据中学习到了优秀的深度特征，从而解决了有监督学习需要大量标注数据的缺点，保证了模型的高效性，同时具有精确度高、鲁棒性好、泛化能力佳、可扩展性强等优点，非常适用于手绘草图的理解，学习以及有关手绘草图的下游分类和检索等实际应用。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，包括如下步骤：

步骤S1，基于不同的手绘草图中点的数据的分类对其中部分数据进行抹除，进一步将抹除部分数据后的所述手绘草图的数据用于自监督学习；

步骤S2，将所述手绘草图的数据序列化后嵌入编码；

步骤S3，将基于双向编码表示和自注意力机制的深度学习网络作为深度特征提取模块，并利用该深度特征提取模块提取所述手绘草图对应的点数据的深度特征；

步骤S4，利用提取的所述深度特征预测被抹除的部分数据的坐标数据和状态数据；

步骤S5，使用损失函数分别对所述坐标数据的预测与所述状态数据的预测任务的损失函数对深度网络模型进行训练从而获得训练好的网络模型；

2.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S1的具体过程如下：

根据所述手绘草图的不同状态将所述手绘草图的数据分为三类，数量记为n₁，n₂，n₃，在每一类的所述手绘草图的数据中选择15％的数据作为抹除数据，得到总共15％的抹除数据。

3.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S2的具体过程如下：

使用序列化的形式将所述手绘草图的数据表示为一系列的点数据，每一个点数据的具体形式为(Δx，Δy，p₁，p₂，p₃)，其中，(Δx，Δy)表示当前点相对于前一点的坐标位移，(p₁，p₂，p₃)是one-hot编码表示点状态的状态向量，p₁，p₂，p₃分别表示笔划开始，笔划结束和所述手绘草图完整结束的状态，

针对所述坐标位移中的数据，使用三层神经元数量为(128，256，512)的全连接层进行编码，针对所述状态向量中的数据使用字典编码方法，对每一种状态使用512维的向量进行编码。

4.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S3的具体过程如下：

步骤S3.1，使用全连接网络将输入的所述手绘草图的数据(s₁,s₂,...,s_n)转化为检索向量Query、键向量Key以及值向量Value三种数据，具体表示为(q₁,q₂,...,q_n)，(k₁,k₂,...,k_n)，以及(v₁,v₂,...,v_n)，

步骤S3.2，使用所述自注意力机制对所述检索向量、所述键向量以及所述值向量进行处理获取经过注意力权重以及更新后的特征，所述注意力权重为

N为所述手绘草图的类别数量，更新后的所述深度特征为

步骤S3.3，利用全连接层以及残差网络对更新后的所述深度特征进行处理得到与输入特征同纬度的输出特征。

5.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S4的具体过程如下：

基于所述被抹除数据的所述深度特征，利用三层神经元数量为(256，128，5)的全连接层预测所述被抹除数据的坐标和状态，使用

来表示预测出的所述坐标数据和所述状态数据。

6.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S5的具体过程如下：

针对所述坐标数据使用L2范数损失函数进行训练，针对所述状态数据使用交叉熵联合进行训练。

7.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S6的具体过程如下：

步骤S6.1，分类网络训练，基于所述深度特征提取网络以及分类结果的预测，利用交叉熵损失函数对所述深度神经网络进行训练，

步骤S6.2，检索网络训练，利用所述深度特征提取模块，得到用于检索的深度特征网络，利用triplet损失函数对所述深度特征进行监督与训练。

8.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S7的具体过程如下：

步骤S7.1，利用深度特征提取网络对待识别的所述手绘草图的数据进行处理获得对应的所述深度特征，

步骤S7.2，利用所述分类网络对所述手绘草图的点数据进行处理预测所述手绘草图的分类结果，

步骤S7.3，利用所述深度特征提取网络对所述手绘草图的点数据进行处理得到所述手绘草图的检索结果。

9.根据权利要求8所述的基于自监督学习任务的手绘草图理解深度学习方法，其特征在于，步骤S7.3的具体过程如下：

步骤S7.3.1，随机选择所述数据集中的所述手绘草图作为检索项，获取该手绘草图的点数据作为测试数据，将未被选择的所述手绘草图作为备选项，获取对应的手绘草图的点数据作为备选数据，

步骤S7.3.2，使用所述深度特征提取网络对所述测试数据与所述备选数据提取相应的深度特征，

步骤S7.3.3，使用L2范数距离计算获取所述手绘草图数据的深度特征与所述手绘草图的备选数据的深度特征之间的距离，

步骤S7.3.4，选择步骤S3.3.2中获得的距离的最小时的所述手绘草图的数据作为待测试数据的检索结果。