[go: up one dir, main page]

CN113673635A - 一种基于自监督学习任务的手绘草图理解深度学习方法 - Google Patents

一种基于自监督学习任务的手绘草图理解深度学习方法 Download PDF

Info

Publication number
CN113673635A
CN113673635A CN202010411459.6A CN202010411459A CN113673635A CN 113673635 A CN113673635 A CN 113673635A CN 202010411459 A CN202010411459 A CN 202010411459A CN 113673635 A CN113673635 A CN 113673635A
Authority
CN
China
Prior art keywords
data
hand
drawn sketch
network
drawn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010411459.6A
Other languages
English (en)
Other versions
CN113673635B (zh
Inventor
付彦伟
林航宇
姜育刚
薛向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010411459.6A priority Critical patent/CN113673635B/zh
Publication of CN113673635A publication Critical patent/CN113673635A/zh
Application granted granted Critical
Publication of CN113673635B publication Critical patent/CN113673635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,包括如下步骤:步骤S1,基于不同的手绘草图中点的数据的分类对其中部分数据进行抹除,进一步将抹除部分数据后的手绘草图的数据用于自监督学习;步骤S2,将手绘草图的数据序列化后嵌入编码;步骤S3,将基于双向编码表示和自注意力机制的深度学习网络作为深度特征提取模块,并利用该深度特征提取模块提取手绘草图对应的点数据的深度特征;步骤S4,利用提取的深度特征预测被抹除的部分数据的坐标数据和状态数据;步骤S5,使用损失函数分别对坐标数据的预测与状态数据的预测任务进行训练从而获得训练好的网络模型。

Description

一种基于自监督学习任务的手绘草图理解深度学习方法
技术领域
本发明属于计算机图像识别技术领域,涉及一种基于自监督学习任务的手绘草图理解深度学习方法。
背景技术
随着触屏设备的普及,比如平板电脑和手机等,每个人都可以容易地进行手绘草图的绘制。目前,关于如何自动化地理解手绘草图的研究集中在2D的像素图片以及有监督学习上。事实上,手绘草图是有关物体的抽象与概念化的表示,可以用来表示简单的逻辑或者有关场景的结构。所以相对于像素化图片,手绘草图的原始序列化形式可能是一种更好的表示方法以及结构。比如,一张手绘草图由一系列的笔划构成,而每一笔划可以看作一系列的点。
在现有的研究中,有关手绘草图的学习总是集中在有监督学习。并且这些有监督的学习模型往往聚焦在一个具体的任务上,比如分类,检索等。而这样的方法并不具备直接迁移到其他任务上的能力,所以这种方法泛用能力较差。而且,对于大量的数据进行标注是一件费时费力的任务,需要大量的经济与人员的付出。
目前,在自然语言处理领域,有相当一部分自监督学习模型显示出了对于各种自然语言任务的优越性,比如BERT(Bidirectional Encoder Representation fromTransformer)模型,GPT模型以及XLNet模型等。这些模型都采取了利用背景数据预测未知数据的自监督学习任务。更进一步地,从数据类型上看这些模型的本质处理的是序列数据,但这些模型并不能直接解决有关手绘草图的自监督学习任务,因为语言本质是离散的数据,而手绘草图的数据是连续的序列数据。
发明内容
为解决上述问题,提供一种基于自监督学习任务的手绘草图理解深度学习方法,本发明采用了如下技术方案:
本发明提供了一种基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,包括如下步骤:
步骤S1,基于不同的手绘草图中点的数据的分类对其中部分数据进行抹除,进一步将抹除部分数据后的手绘草图的数据用于自监督学习;
步骤S2,将手绘草图的数据序列化后嵌入编码;
步骤S3,将基于双向编码表示和自注意力机制的深度学习网络作为深度特征提取模块,并利用该深度特征提取模块提取手绘草图对应的点数据的深度特征;
步骤S4,利用提取的深度特征预测被抹除的部分数据的坐标数据和状态数据;
步骤S5,使用损失函数分别对坐标数据的预测与状态数据的预测任务的损失函数对深度网络模型进行训练从而获得训练好的网络模型;
步骤S6,将步骤S5中训练好的模型在进行分类训练以及检索训练从而获得分类训练好的分类网络和用于检索的深度特征网络;
步骤S7,在数据集上,用分类训练好的网络进行分类结果预测以及用检索训练好的网络进行检索结果计算。
本发明提供的基于自监督学习任务的手绘草图理解深度学习方法,还可以具有这样的特征,其中,
本发明提供的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S1的具体过程如下:
根据手绘草图的不同状态将手绘草图的数据分为三类,数量记为π1,π2,π3,在每一类的手绘草图的数据中选择15%的数据作为抹除数据,得到总共15%的抹除数据。
本发明提供的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S2的具体过程如下:
使用序列化的形式将手绘草图的数据表示为一系列的点数据,每一个点数据的具体形式为(Δx,Δy,p1,p2,p3),其中,(Δx,Δy)表示当前点相对于前一点的坐标位移,(p1,p2,p3)是one-hot编码表示点状态的状态向量,p1,p2,p3分别表示笔划开始,笔划结束和手绘草图完整结束的状态,
针对坐标位移中的数据,使用三层神经元数量为(128,256,512)的全连接层进行编码,针对状态向量中的数据使用字典编码方法,对每一种状态使用512维的向量进行编码。
本发明提供的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S3的具体过程如下:
步骤S3.1,使用全连接网络将输入的手绘草图的数据(s1,s2,...,sn)转化为检索向量Query、键向量Key以及以及值向量Value三种数据,具体表示为(q1,q2,...,qn),(k1,k2,...,kn),以及(v1,v2,...,vn),
步骤S3.2,使用自注意力机制对检索向量、键向量以及值向量进行处理获取经过注意力权重以及更新后的特征,注意力权重为
Figure BDA0002493710530000041
N为手绘草图的类别数量,更新后的深度特征为
Figure BDA0002493710530000042
步骤S3.3,利用全连接层以及残差网络对更新后的深度特征进行处理得到与输入特征同纬度的输出特征。
本发明提供的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S4的具体过程如下:
基于被抹除数据的深度特征,利用三层神经元数量为(256,128,5)的全连接层预测被抹除数据的坐标和状态,使用
Figure BDA0002493710530000043
来表示预测出的坐标数据和状态数据。
本发明提供的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S5的具体过程如下:
针对坐标数据使用L2范数损失函数进行训练,针对状态数据使用交叉熵联合进行训练。
本发明提供的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S6的具体过程如下:
步骤S6.1,分类网络训练,基于深度特征提取网络以及分类结果的预测,利用交叉熵损失函数对深度神经网络进行训练,
步骤S6.2,检索网络训练,利用深度特征提取模块,得到用于检索的深度特征网络,利用triplet损失函数对深度特征进行监督与训练。
本发明提供的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S7的具体过程如下:
步骤S7.1,利用深度特征提取网络对待识别的手绘草图的数据进行处理获得对应的深度特征,
步骤S7.2,利用分类网络对手绘草图的点数据进行处理预测手绘草图的分类结果,
步骤S7.3,利用深度特征提取网络对手绘草图的点数据进行处理得到手绘草图的检索结果。
本发明提供的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S7.3的具体过程如下:
步骤S7.3.1,随机选择数据集中的手绘草图作为检索项,获取该手绘草图的点数据作为测试数据,将未被选择的手绘草图作为备选项,获取对应的手绘草图的点数据作为备选数据,
步骤S7.3.2,使用深度特征提取网络对测试数据与手绘草图的备选数据提取相应的深度特征,
步骤S7.3.3,使用L2范数距离计算获取手绘草图数据的深度特征与备选数据的深度特征之间的距离,
步骤S7.3.4,选择步骤S3.3.2中获得的距离的最小时的手绘草图的数据作为待测试数据的检索结果。
发明作用与效果
根据本发明的基于自监督学习任务的手绘草图理解深度学习方法,提出了新的手绘草图格式塔任务,一种旨在预测未知的连续坐标数据以及离散数据的自监督学习任务。并且根据这一自监督学习任务以及基于双向编码表示和自注意力机制的深度神经网络模型提出了基于自监督学习的手绘草图理解模型。在自监督学习模型之外,本系统还可自然地迁移到各种有关手绘草图的下游任务上,比如手绘草图分类和检索任务。相比于过去的系统和方法,本系统的效果更好,所需要的监督数据更少,泛化性更强,不仅可以使用大量未标注数据进行学习还可以提升下游任务的表现。
附图说明
图1是本发明实施例的基于自监督学习任务的手绘草图理解深度学习方法的流程图;
图2是本发明实施例的基于自监督学习任务的手绘草图理解深度学习方法对应的系统示意图;
图3是本发明实施例的基于手绘草图格式塔任务的深度特征提取网络结构图;
图4是本发明实施例的在分类任务上进行训练和应用的流程;
图5是本发明实施例的在检索任务上进行训练和应用的流程。
具体实施方式
以下结合附图以及实施来说明本发明的具体实施方式。
<实施例>
图1是本发明实施例的基于自监督学习任务的手绘草图理解深度学习方法的流程图。
如图1所示,本实施例基于自监督学习任务的手绘草图理解深度学习方法,包括如下步骤:
步骤S1,基于不同的手绘草图中点的数据的分类对其中部分数据进行抹除,进一步将抹除部分数据后的手绘草图的数据用于自监督学习。
根据手绘草图的不同状态将手绘草图的数据分为三类,数量记为n1,n2,n3,在每一类的手绘草图的数据中选择15%的数据作为抹除数据,得到总共15%的抹除数据。
图3是本发明实施例的基于手绘草图格式塔任务的深度特征提取网络结构图。
如图3所示,步骤S2,将手绘草图的数据序列化后嵌入编码。
使用序列化的形式将手绘草图的数据表示为一系列的点数据,每一个点数据的具体形式为(Δx,Δy,p1,p2,p3),其中,(Δx,Δy)表示当前点相对于前一点的坐标位移,(p1,p2,p3)是one-hot编码表示点状态的状态向量,p1,p2,p3分别表示笔划开始,笔划结束和手绘草图完整结束的状态,
针对坐标位移中的数据,使用三层神经元数量为(128,256,512)的全连接层进行编码,针对状态向量中的数据使用字典编码方法,对每一种状态使用512维的向量进行编码。
如图3所示,步骤S3,将基于双向编码表示和自注意力机制的深度学习网络作为深度特征提取模块,并利用该深度特征提取模块提取手绘草图对应的点数据的深度特征,具体步骤如下:
步骤S3.1,使用全连接网络将输入的手绘草图的数据(s1,s2,...,sn)转化为检索向量Query、键向量Key以及值向量Value三种数据,具体表示为(q1,q2,...,qn),(k1,k2,...,kn),以及(v1,v2,...,vn)。
步骤S3.2,使用自注意力机制对检索向量、键向量以及值向量进行处理获取经过注意力权重以及更新后的特征,注意力权重为
Figure BDA0002493710530000081
N为手绘草图的类别数量,更新后的特征为
Figure BDA0002493710530000082
步骤S3.3,利用全连接层以及残差网络对更新后的深度特征进行处理得到与输入特征同纬度的输出特征。
步骤S4,利用提取的深度特征预测被抹除的部分数据的坐标数据和状态数据。
基于被抹除数据的深度特征,利用三层神经元数量为(256,128,5)的全连接层预测被抹除数据的坐标和状态,使用
Figure BDA0002493710530000083
来表示预测出的坐标数据和状态数据。
步骤S5,使用损失函数分别对坐标数据的预测与状态数据的预测任务的损失函数对深度网络模型进行训练从而获得训练好的网络模型。
针对坐标数据使用L2范数损失函数进行训练,针对状态数据使用交叉熵联合进行训练。
图4是本发明实施例的在分类任务上进行训练和应用的流程。图5是本发明实施例的在检索任务上进行训练和应用的流程。
如图4和图5所示,步骤S6,将步骤S5中训练好的模型在进行分类训练以及检索训练从而获得分类训练好的分类网络和用于检索的深度特征网络,具体步骤如下:
步骤S6.1,分类网络训练,基于深度特征提取网络以及分类结果的预测,利用交叉熵损失函数对深度神经网络进行训练。
步骤S6.2,检索网络训练,利用深度特征提取模块,得到用于检索的深度特征网络,利用triplet损失函数对深度特征进行监督与训练。
步骤S7,在数据集上,用分类训练好的网络进行分类结果预测以及用检索训练好的网络进行检索结果计算,具体步骤如下:
步骤S7.1,利用深度特征提取网络对待识别的手绘草图的数据进行处理获得对应的深度特征。
步骤S7.2,利用分类网络对手绘草图的点数据进行处理预测手绘草图的分类结果。
步骤S7.3,利用深度特征提取网络对手绘草图的点数据进行处理得到手绘草图的检索结果。
步骤S7.3的具体过程如下:
步骤S7.3.1,随机选择所述数据集中的所述手绘草图作为检索项,获取该手绘草图的点数据作为测试数据,将未被选择的所述手绘草图作为备选项,获取对应的手绘草图的点数据作为备选数据。
步骤S7.3.2,使用深度特征提取网络对测试数据与备选数据提取相应的深度特征。
步骤S7.3.3,使用L2范数距离计算获取手绘草图数据的深度特征与手绘草图的备选数据的深度特征之间的距离。
步骤S7.3.4,选择步骤S3.3.2中获得的距离的最小时的手绘草图的数据作为待测试数据的检索结果。
图2是本发明实施例的基于自监督学习任务的手绘草图理解深度学习方法对应的系统示意图。
如图2所示,该系统100包括媒体数据101,计算机设备110和展示设备191。
媒体数据101为本实施例中使用的手绘草图数据,该手绘草图数据可以是从触屏设备上获得数据也可以是网络上存在的数据。
计算设备110用于处理媒体数据101,具有处理器120和内存130。其中处理器120包括中央处理器130和图形计算处理器120,内存130存储了可执行计算机代码140和用于训练的手绘草图数据135。
可执行代码140包含嵌入编码模块141、特征提取模块142以及分类网络模块143。
嵌入编码模块141用于对手绘草图数据进行编码以用于特征提取模块142。
特征提取模块142使用基于双向编码表示和自注意力机制的深度神经网络提取编码后的数据的深度特征,从而进行自监督学习。
分类网络模块143基于提取的进行手绘草图分类任务的学习与应用。
展示设备191是播放媒体数据101或者计算设备110得到的评测结果的设备,可以是电脑或者移动设备。
实施例作用与效果
本实施例的基于自监督学习任务的手绘草图理解深度学习方法,提出了新的手绘草图格式塔任务,一种旨在预测未知的连续坐标数据以及离散数据的自监督学习任务。并且根据这一自监督学习任务以及基于双向编码表示和自注意力机制的深度神经网络模型提出了基于自监督学习的手绘草图理解模型。在自监督学习模型之外,本系统还可自然地迁移到各种有关手绘草图的下游任务上,比如手绘草图分类和检索任务。相比于过去的系统和方法,本系统的效果更好,所需要的监督数据更少,泛化性更强,不仅可以使用大量未标注数据进行学习还可以提升下游任务的表现。
进一步地,本实施例使用手绘草图的序列化特性以及格式塔任务从未标注的手绘草图数据中学习到了优秀的深度特征,从而解决了有监督学习需要大量标注数据的缺点,保证了模型的高效性,同时具有精确度高、鲁棒性好、泛化能力佳、可扩展性强等优点,非常适用于手绘草图的理解,学习以及有关手绘草图的下游分类和检索等实际应用。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (9)

1.一种基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,包括如下步骤:
步骤S1,基于不同的手绘草图中点的数据的分类对其中部分数据进行抹除,进一步将抹除部分数据后的所述手绘草图的数据用于自监督学习;
步骤S2,将所述手绘草图的数据序列化后嵌入编码;
步骤S3,将基于双向编码表示和自注意力机制的深度学习网络作为深度特征提取模块,并利用该深度特征提取模块提取所述手绘草图对应的点数据的深度特征;
步骤S4,利用提取的所述深度特征预测被抹除的部分数据的坐标数据和状态数据;
步骤S5,使用损失函数分别对所述坐标数据的预测与所述状态数据的预测任务的损失函数对深度网络模型进行训练从而获得训练好的网络模型;
步骤S6,将步骤S5中训练好的模型在进行分类训练以及检索训练从而获得分类训练好的分类网络和用于检索的深度特征网络;
步骤S7,在数据集上,用分类训练好的网络进行分类结果预测以及用检索训练好的网络进行检索结果计算。
2.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S1的具体过程如下:
根据所述手绘草图的不同状态将所述手绘草图的数据分为三类,数量记为n1,n2,n3,在每一类的所述手绘草图的数据中选择15%的数据作为抹除数据,得到总共15%的抹除数据。
3.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S2的具体过程如下:
使用序列化的形式将所述手绘草图的数据表示为一系列的点数据,每一个点数据的具体形式为(Δx,Δy,p1,p2,p3),其中,(Δx,Δy)表示当前点相对于前一点的坐标位移,(p1,p2,p3)是one-hot编码表示点状态的状态向量,p1,p2,p3分别表示笔划开始,笔划结束和所述手绘草图完整结束的状态,
针对所述坐标位移中的数据,使用三层神经元数量为(128,256,512)的全连接层进行编码,针对所述状态向量中的数据使用字典编码方法,对每一种状态使用512维的向量进行编码。
4.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S3的具体过程如下:
步骤S3.1,使用全连接网络将输入的所述手绘草图的数据(s1,s2,...,sn)转化为检索向量Query、键向量Key以及值向量Value三种数据,具体表示为(q1,q2,...,qn),(k1,k2,...,kn),以及(v1,v2,...,vn),
步骤S3.2,使用所述自注意力机制对所述检索向量、所述键向量以及所述值向量进行处理获取经过注意力权重以及更新后的特征,所述注意力权重为
Figure FDA0002493710520000021
N为所述手绘草图的类别数量,更新后的所述深度特征为
Figure FDA0002493710520000031
步骤S3.3,利用全连接层以及残差网络对更新后的所述深度特征进行处理得到与输入特征同纬度的输出特征。
5.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S4的具体过程如下:
基于所述被抹除数据的所述深度特征,利用三层神经元数量为(256,128,5)的全连接层预测所述被抹除数据的坐标和状态,使用
Figure FDA0002493710520000032
来表示预测出的所述坐标数据和所述状态数据。
6.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S5的具体过程如下:
针对所述坐标数据使用L2范数损失函数进行训练,针对所述状态数据使用交叉熵联合进行训练。
7.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S6的具体过程如下:
步骤S6.1,分类网络训练,基于所述深度特征提取网络以及分类结果的预测,利用交叉熵损失函数对所述深度神经网络进行训练,
步骤S6.2,检索网络训练,利用所述深度特征提取模块,得到用于检索的深度特征网络,利用triplet损失函数对所述深度特征进行监督与训练。
8.根据权利要求1所述的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S7的具体过程如下:
步骤S7.1,利用深度特征提取网络对待识别的所述手绘草图的数据进行处理获得对应的所述深度特征,
步骤S7.2,利用所述分类网络对所述手绘草图的点数据进行处理预测所述手绘草图的分类结果,
步骤S7.3,利用所述深度特征提取网络对所述手绘草图的点数据进行处理得到所述手绘草图的检索结果。
9.根据权利要求8所述的基于自监督学习任务的手绘草图理解深度学习方法,其特征在于,步骤S7.3的具体过程如下:
步骤S7.3.1,随机选择所述数据集中的所述手绘草图作为检索项,获取该手绘草图的点数据作为测试数据,将未被选择的所述手绘草图作为备选项,获取对应的手绘草图的点数据作为备选数据,
步骤S7.3.2,使用所述深度特征提取网络对所述测试数据与所述备选数据提取相应的深度特征,
步骤S7.3.3,使用L2范数距离计算获取所述手绘草图数据的深度特征与所述手绘草图的备选数据的深度特征之间的距离,
步骤S7.3.4,选择步骤S3.3.2中获得的距离的最小时的所述手绘草图的数据作为待测试数据的检索结果。
CN202010411459.6A 2020-05-15 2020-05-15 一种基于自监督学习任务的手绘草图理解深度学习方法 Active CN113673635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010411459.6A CN113673635B (zh) 2020-05-15 2020-05-15 一种基于自监督学习任务的手绘草图理解深度学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010411459.6A CN113673635B (zh) 2020-05-15 2020-05-15 一种基于自监督学习任务的手绘草图理解深度学习方法

Publications (2)

Publication Number Publication Date
CN113673635A true CN113673635A (zh) 2021-11-19
CN113673635B CN113673635B (zh) 2023-09-01

Family

ID=78537490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010411459.6A Active CN113673635B (zh) 2020-05-15 2020-05-15 一种基于自监督学习任务的手绘草图理解深度学习方法

Country Status (1)

Country Link
CN (1) CN113673635B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373127A (zh) * 2021-12-24 2022-04-19 复旦大学 一种基于手绘草图的目标物可抓取点检测方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1372669A (zh) * 1999-07-03 2002-10-02 纽约市哥伦比亚大学托管会 对普通声频可视数据信号描述的基本实体关系模型
CN101706780A (zh) * 2009-09-03 2010-05-12 北京交通大学 一种基于视觉注意力模型的图像语义检索方法
CN101763439A (zh) * 2010-03-05 2010-06-30 中国科学院软件研究所 一种基于草图的超视频构建方法
CN104778242A (zh) * 2015-04-09 2015-07-15 复旦大学 基于图像动态分割的手绘草图图像检索方法及系统
WO2017168125A1 (en) * 2016-03-31 2017-10-05 Queen Mary University Of London Sketch based search methods
CN107491782A (zh) * 2017-07-22 2017-12-19 复旦大学 利用语义空间信息的针对少量训练数据的图像分类方法
CN107563279A (zh) * 2017-07-22 2018-01-09 复旦大学 针对人体属性分类的自适应权重调整的模型训练方法
CN108009286A (zh) * 2017-12-25 2018-05-08 合肥阿巴赛信息科技有限公司 一种基于深度学习的草图检索方法
CN109299303A (zh) * 2018-10-19 2019-02-01 中国石油大学(华东) 基于可变形卷积与深度网络的手绘草图检索方法
CN109408655A (zh) * 2018-10-19 2019-03-01 中国石油大学(华东) 结合带孔卷积与多尺度感知网络的手绘草图检索方法
CN109670066A (zh) * 2018-12-11 2019-04-23 江西师范大学 一种基于双路径深层语义网络的手绘式服装商品图像检索方法
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN110569761A (zh) * 2019-08-27 2019-12-13 武汉大学 一种基于对抗学习的手绘草图检索遥感图像的方法
CN110598018A (zh) * 2019-08-13 2019-12-20 天津大学 一种基于协同注意力的草图图像检索方法
US20200106788A1 (en) * 2018-01-23 2020-04-02 Hangzhou Dianzi University Method for detecting malicious attacks based on deep learning in traffic cyber physical system

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1372669A (zh) * 1999-07-03 2002-10-02 纽约市哥伦比亚大学托管会 对普通声频可视数据信号描述的基本实体关系模型
CN101706780A (zh) * 2009-09-03 2010-05-12 北京交通大学 一种基于视觉注意力模型的图像语义检索方法
CN101763439A (zh) * 2010-03-05 2010-06-30 中国科学院软件研究所 一种基于草图的超视频构建方法
CN104778242A (zh) * 2015-04-09 2015-07-15 复旦大学 基于图像动态分割的手绘草图图像检索方法及系统
WO2017168125A1 (en) * 2016-03-31 2017-10-05 Queen Mary University Of London Sketch based search methods
CN107563279A (zh) * 2017-07-22 2018-01-09 复旦大学 针对人体属性分类的自适应权重调整的模型训练方法
CN107491782A (zh) * 2017-07-22 2017-12-19 复旦大学 利用语义空间信息的针对少量训练数据的图像分类方法
CN108009286A (zh) * 2017-12-25 2018-05-08 合肥阿巴赛信息科技有限公司 一种基于深度学习的草图检索方法
US20200106788A1 (en) * 2018-01-23 2020-04-02 Hangzhou Dianzi University Method for detecting malicious attacks based on deep learning in traffic cyber physical system
WO2019148898A1 (zh) * 2018-02-01 2019-08-08 北京大学深圳研究生院 基于受限文本空间的对抗性跨媒体检索方法
CN109299303A (zh) * 2018-10-19 2019-02-01 中国石油大学(华东) 基于可变形卷积与深度网络的手绘草图检索方法
CN109408655A (zh) * 2018-10-19 2019-03-01 中国石油大学(华东) 结合带孔卷积与多尺度感知网络的手绘草图检索方法
CN109670066A (zh) * 2018-12-11 2019-04-23 江西师范大学 一种基于双路径深层语义网络的手绘式服装商品图像检索方法
CN110598018A (zh) * 2019-08-13 2019-12-20 天津大学 一种基于协同注意力的草图图像检索方法
CN110569761A (zh) * 2019-08-27 2019-12-13 武汉大学 一种基于对抗学习的手绘草图检索遥感图像的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHANG X: "learning from sunthetic data using a stacked multichannel autoencoder", WEB OF SCIENCE *
杨娜;罗航哉;薛向阳;吴立德;: "基于内容的图像检索中相关反馈算法综述", 计算机科学, no. 09 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373127A (zh) * 2021-12-24 2022-04-19 复旦大学 一种基于手绘草图的目标物可抓取点检测方法及系统
CN114373127B (zh) * 2021-12-24 2025-04-29 复旦大学 一种基于手绘草图的目标物可抓取点检测方法及系统

Also Published As

Publication number Publication date
CN113673635B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN116524593B (zh) 一种动态手势识别方法、系统、设备及介质
CN112149603B (zh) 一种基于跨模态数据增广的连续手语识别方法
CN110633683A (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN117542064B (zh) 一种手写数学公式识别方法
CN113052156B (zh) 光学字符识别方法、装置、电子设备和存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111881731A (zh) 基于人体骨架的行为识别方法、系统、装置及介质
CN114973229A (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
CN115114407B (zh) 意图识别方法、装置、计算机设备及存储介质
CN116343190B (zh) 自然场景文字识别方法、系统、设备及存储介质
CN103593677A (zh) 一种近似重复图像检测方法
CN114463760A (zh) 一种基于双流编码的文字图像书写轨迹恢复方法
CN114863437A (zh) 文本识别方法、装置、电子设备和存储介质
CN117743614B (zh) 基于遥感多模态基础模型的遥感图像文本检索方法
CN120107854A (zh) 基于时序标记的高性能视频推理分割方法
Cao et al. An Improved YOLOv4 Lightweight Traffic Sign Detection Algorithm.
Liu et al. NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition
CN117095433A (zh) 素描人脸识别方法及装置
CN113673635A (zh) 一种基于自监督学习任务的手绘草图理解深度学习方法
Yuan et al. MGN-Net: Multigranularity Graph Fusion Network in Multimodal for Scene Text Spotting
Saini et al. A novel approach of image caption generator using deep learning
Hu et al. Spacegtn: A time-agnostic graph transformer network for handwritten diagram recognition and segmentation
CN114548067B (zh) 一种基于模板的多模态命名实体识别方法及相关设备
CN115965775A (zh) 处理图像中的对象的实例的方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant