CN111079601A

CN111079601A - 基于多模态注意力机制的视频内容描述方法、系统、装置

Info

Publication number: CN111079601A
Application number: CN201911243331.7A
Authority: CN
Inventors: 胡卫明; 孙亮; 李兵
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-28

Abstract

本发明属于计算机视觉和自然语言处理领域，具体涉及一种基于多模态注意力机制的视频内容描述方法、系统、装置，旨在解决视频内容描述方法只考虑视频特征而忽略高级语义属性信息，导致生成的描述语句准确度较低的问题。本发明方法包括：获取待描述视频的视频帧序列；提取视频帧序列的多模态特征向量，构建多模态特征向量序列，并通过循环神经网络得到各模态特征向量序列对应的特征表示；通过语义属性检测网络得到各特征表示对应的语义属性向量；基于各模态特征向量序列对应的特征表示级联后的向量、语义属性向量，通过基于注意力机制的LSTM网络得到待描述视频的描述语句。本发明融合视觉特征和高层语义属性，提高了生成视频描述语句的准确度。

Description

基于多模态注意力机制的视频内容描述方法、系统、装置

技术领域

本发明属于计算机视觉和自然语言处理领域，具体涉及一种基于多模态注意力机制的视频内容描述方法、系统、装置。

背景技术

人工智能大体可分为两个研究方向：感知智能和认知智能。感知智能研究进展讯速，比如图片分类、自然语言翻译，但认知智能发展速度有限，比如看图说话、视觉描述等。将自然语言和计算机视觉结合起来研究，有利于搭起人类和机器之间沟通的桥梁，促进认知智能的研究。

视频内容描述不同于视频分类、物体检测等标签式的粗粒度视觉理解任务，而是需要用通顺准确的一句话来描述视频内容。这不仅需要识别出视频中的物体，还需要理解视频中物体之间的相互关系。同时由于视频内容描述风格多样，比如对场景的抽象描述，对各物体之间关系的描述，对视频中物体行为和运动的描述等，这将给视频内容描述研究带来很大的挑战性。传统的视频内容描述算法主要采用基于语言模板的方法或基于检索的方法。基于语言模板的方法，由于受到固定语言模板的限制，只能生成形式单一缺乏灵活性的句子。而基于检索的方法过于依赖检索视频库的大小，当数据库中缺少与待描述视频相似的视频时，生成的描述语句将和视频内容存在较大的偏差。同时这两种方法都需要在前期对视频进行复杂的预处理过程，而对后端的语言序列部分优化不足，从而导致生成的语句质量较差。

随着深度学习技术的进步，基于编码解码器的序列学习模型在视频内容描述问题中取得突破性的进展。本发明也是基于编码解码器模型，此类方法前期不需要对视频采取复杂的处理过程，直接通过网络实现端到端的训练，能够直接从大量的训练数据中学习到视频到语言的映射关系，从而产生内容更加精确、形式多样和语法灵活的视频描述。

视频内容描述问题的关键首先在于视频特征的提取，由于视频中不同模态信息能够互相辅助，对视频多模态信息进行编码有助于挖掘更多的语义信息。同时由于通常的视频内容描述算法只考虑视频特征而忽略了视频高级语义属性信息，为了提高生成描述句子的质量，本发明还探讨了如何提取高层语义属性以及将语义属性运用到视频内容描述任务上来。本发明还对解码器端语言生成部分优化不足的问题进行分析与研究，当前大部分的视频内容描述算法都采用最大似然对语言序列建模，用交叉熵损失进行训练优化，这将带来两个明显的缺陷：一是曝光偏差问题，模型在训练的时候，解码器每个时刻的输入来自训练集中真实词，而模型测试的时候，每个时刻输入来自上一时刻预测到的单词。如果其中某一个单词预测不够准确，错误可能会向下传递，导致后面生成的单词质量越来越差。二是训练指标和评价准则不统一的问题，训练阶段采用交叉熵损失函数来最大化后验概率，而评价阶段采用BLEU、METEOR、CIDER等客观评价准则，这种不一致导致模型无法充分对视频内容描述生成的评价指标充分优化。

发明内容

为了解决现有技术中的上述问题，即为了解决现有视频内容描述方法只考虑视频特征而忽略了视频高级语义属性信息，导致生成的描述语句准确度较低的问题，本发明第一方面，提出了一种基于多模态注意力机制的视频内容描述方法，该方法包括：

步骤S100，获取待描述视频的视频帧序列，作为输入序列；

步骤S200，提取所述输入序列的多模态特征向量，构建多模态特征向量序列，并通过循环神经网络得到各模态特征向量序列对应的特征表示；所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列；

步骤S300，基于各模态特征向量序列对应的特征表示，分别通过语义属性检测网络得到各特征表示对应的语义属性向量；

步骤S400，将各模态特征向量序列对应的特征表示进行级联，得到初始编码向量；基于所述初始编码向量、各特征表示对应的语义属性向量，通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句；

其中，

所述语义属性检测网络基于多层感知机构建，并基于训练样本进行训练，所述训练样本包括特征表示样本、对应的语义属性向量标签。

在一些优选的实施方式中，步骤S200中“提取所述输入序列的多模态特征向量，构建多模态特征向量序列”，其方法为：

基于深度残差网络对所述输入序列中每一帧RGB图像进行特征提取，得到视频帧特征向量序列；

基于所述输入序列，通过Lucas-Kanade算法得到光流序列；通过深度残差网络对该光流序列进行特征提取，得到光流帧特征向量序列；

将所述输入序列平分为T段，通过三维卷积深度神经网络分别提取各段序列的特征向量，得到视频片段特征向量序列。

在一些优选的实施方式中，所述语义属性检测网络其训练方法为：

获取训练数据集，所述训练数据集包括视频及对应的描述语句；

提取所述训练数据集中描述语句的单词，并按照出现频率进行排序，选择前K个单词作为高层语义属性向量；根据所述描述语句是否包含所述高层语义属性向量，获取视频真实的语义属性向量标签；

获取所述训练数据集中视频的多模态特征向量序列对应的特征表示；

基于所述特征表示、所述真实的语义属性向量标签，训练所述语义属性检测网络。

在一些优选的实施方式中，所述语义属性检测网络在训练过程中其损失函数loss₁为：

其中，N为训练数据集中描述语句的数量，K为语义属性检测网络输出的预测语义属性向量标签的维度，s_ik为语义属性检测网络输出的预测语义属性向量标签，y_ik为真实的语义属性向量标签，i、k为下标，α为权重，W^encoder为循环神经网络、语义属性检测网络所有的权重矩阵和偏置矩阵参数的集合。

在一些优选的实施方式中，步骤S400中“基于所述初始编码向量、各特征表示对应的语义属性向量，通过基于注意力机制的LSTM网络得到所述待描述视频的语句描述”，其方法为：

通过注意力机制对各特征表示对应的语义属性向量进行加权，获取多模态的语义属性向量；

基于所述初始编码向量、所述多模态的语义属性向量，通过LSTM网络生成所述待描述视频的语句描述。

在一些优选的实施方式中，所述基于注意力机制的LSTM网络在训练过程中采用因式分解的方法进行权重矩阵的计算。

本发明的第二方面，提出了一种基于多模态注意力机制的视频内容描述系统，该系统包括获取模块、提取特征表示模块、语义属性检测模块、生成视频描述模块；

所述获取模块，配置为获取待描述视频的视频帧序列，作为输入序列；

所述提取特征表示模块，配置为提取所述输入序列的多模态特征向量，构建多模态特征向量序列，并通过循环神经网络得到各模态特征向量序列对应的特征表示；所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列；

所述语义属性检测模块，配置为基于各模态特征向量序列对应的特征表示，分别通过语义属性检测网络得到各特征表示对应的语义属性向量；

所述生成视频描述模块，配置为将各模态特征向量序列对应的特征表示进行级联，得到初始编码向量；基于所述初始编码向量、各特征表示对应的语义属性向量，通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句；

其中，

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行以实现上述的基于多模态注意力机制的视频内容描述方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于多模态注意力机制的视频内容描述方法。

本发明的有益效果：

本发明融合视觉特征和高层语义属性，提高了生成视频描述语句的准确度。本发明从多模态信息出发，采用视频帧、光流帧和视频片段相结合的方法得到视频特征向量序列，同时检测和生成视频的语义属性向量标签。为了获得更有效的视觉特征和语义属性，将语义属性向量标签生成阶段的辅助分类损失和LSTM网络损失进行同时优化，可以保证句子中的上下文关系。在解码阶段，提出结合语义属性的注意力机制算法，将语义属性向量融入到传统的循环神经网络权重矩阵中，并且在生成句子单词的每一时刻，采用注意力机制来关注特定的语义属性，提高了视频内容描述的准确度。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于多模态注意力机制的视频内容描述方法的流程示意图；

图2本发明一种实施例的基于多模态注意力机制的视频内容描述系统的框架示意图；

图3是本发明一种实施例的基于多模态注意力机制的视频内容描述方法的训练过程的示意图；

图4是本发明一种实施例的语义属性检测网络的网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的基于多模态注意力机制的视频内容描述方法，如图1所示，包括以下步骤：

步骤S100，获取待描述视频的视频帧序列，作为输入序列；

其中，

为了更清晰地对本发明基于多模态注意力机制的视频内容描述方法进行说明，下面结合附图对本发明方法一种实施例中各步骤进行展开详述。

本发明的方法具体运行的编程语言并不受限制，用任何语言编写都可以实现本发明的方法。发明采用一台具有12G字节内存的4卡Titan Xp GPU服务器，并用Python语言编制了基于多模态注意力机制的视频内容描述方法的工作程序，实现了本发明的方法。具体实现步骤如下：

步骤S100，获取待描述视频的视频帧序列，作为输入序列。

在本实施例中，待描述视频可以是实时拍摄的视频，例如智能监控及行为分析场景中，需要对摄像头实时拍摄的视频进行描述，此时，待描述视频可以是摄像头实时拍摄的视频；或者待描述视频可以是从网络中获取的视频，例如视频内容预览场景中，需要将网络获取的视频通过自然语言进行描述，实现用户对视频内容的预览，此时，待描述视频可以是网络中获取的需要进行预览的视频；或者，待描述视频可以是本地存储的视频，例如视频分类存储场景中，需要对视频进行描述，并根据描述信息进行分类存储，此时待描述视频可以是本地存储的需要进行分类存储的视频。基于获取的待描述视频，提取视频帧序列，作为输入。

步骤S200，提取所述输入序列的多模态特征向量，构建多模态特征向量序列，并通过循环神经网络得到各模态特征向量序列对应的特征表示；所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列。

在本实例中，对待描述视频进行多模态视频特征的提取，分别为视频帧、光流帧和视频片段。具体步骤如下：

步骤S201，使用经过预训练的深度残差网络对待描述视频的视频帧序列每一帧进行特征提取，将网络第i层的输出作为对该帧的特征表示，得到视频帧特征向量序列

将视频帧特征向量序列按顺序输入循环神经网络LSTM中，将网络最后时刻的隐藏状态h_t作为视频的视频帧特征向量的特征表示，记为v_f。

步骤S202，待描述视频的视频帧序列通过Lucas-Kanade算法，生成视频的光流序列，经过预训练的深度残差网络对每一帧进行特征提取，将网络第i层的输出作为对该帧的特征表示，得到光流帧特征向量序列

将光流帧特征向量序列按顺序输入循环神经网络LSTM中，将网络最后时刻的隐藏状态h_t作为视频的光流帧的特征表示，记为v_o

步骤S203，待描述视频的视频帧序列平均分成T段，每段使用三维卷积深度神经网络进行特征提取，将网络第i层的输出作为对第t段视频的特征表示，得到视频片段特征向量序列

将视频片段特征向量序列按顺序输入循环神经网络LSTM中，将网络最后时刻的隐藏状态h_t作为视频的视频段的特征表示，记为v_c。

上述步骤提取视频的多模态特征表示的过程，如图3所示，输入Video(视频)，分为视频帧(Frame)、光流帧(Optical flow)和视频片段(Video clip)，其中视频帧输出的是Frame Feature(视频帧特征向量的特征表示)即静态特征，视频片段输出的是C3D Feature(视频片段的3D-CNN特征)，光流帧输出的是Motion Feature(动态特征)。图3中的其他步骤在下文中描述。

步骤S300，基于各模态特征向量序列对应的特征表示，分别通过语义属性检测网络得到各特征表示对应的语义属性向量。

在本实施例中，先对语义属性检测网络的训练进行介绍，再对通过语义属性检测网络得到各特征表示对应的语义属性向量进行介绍。

语义属性检测网络基于多层感知机构建，结构如图4所示，包括输入层(InputLayer)、隐藏层(Hidden Layer)、输出层(Output layer)，输入的是一个视频(InputVideo)及对应的描述语句是“A Small child id playing the guitar(一个小孩子正在弹吉他)”，通过循环神经网络LSTM，得到多模态特征向量序列(v_i1,v_i2,...,v_in)，通过语义属性检测网络输出语义属性向量s_i1,s_i2,...,s_iK。语义属性检测网络的具体训练过程如下：

步骤A301，获取训练数据集，所述训练数据集包括视频及对应的描述语句。

步骤A302，提取所述训练数据集中描述语句的单词，并按照出现频率进行排序，选择前K个单词作为高层语义属性向量；根据所述描述语句是否包含所述高层语义属性向量，获取视频真实的语义属性向量标签。

提取训练数据集中描述语句的单词，按照单词出现频率对单词排序，移除虚词，然后选择出现概率最高的K个单词作为高层语义属性值

假设训练数据集有N条语句，y_i＝[y_i1,y_i1,...y_il,...y_iK]是第i个视频的真实的语义属性向量标签。其中如果视频i对应的描述语句中包含属性单词l，则y_il＝1；否则y_il＝0。

步骤A303，通过步骤S200的方法，获取上述训练数据集中视频的多模态特征向量序列对应的特征表示。

步骤A304，基于特征表示、真实的语义属性向量标签，训练所述语义属性检测网络。

让v_i∈{v_f，v_o，v_c}表示第i个视频学习到的特征表示，此时的训练样本为{v_i,y_i}。本发明中采用基于采用多层感知机构建的语义属性检测网络来学习函数f(·):R^m→R^K，其表示为将一个m维的空间映射为K维，其中，R^m为m维度的实数空间，R^K同理，m为输入特征表示的维度，K为输出语义属性向量的维度，这个维度和上述提取的语义属性值的个数(高层语义属性向量的维度)相等，多层感知机输出向量s_i＝[s_i1,...,s_iK]为第i个视频的预测语义属性向量标签。语义属性检测网络的分类损失函数loss₁如公式(1)所示：

其中，W^encoder表示循环神经网络、语义属性检测网络所有权重矩阵和偏置矩阵参数的集合，α为权重，s_i＝α(f(v_i))学习得到K维向量，α(·)表示sigmoid函数，f(·)由多层感知机实现。

将语义属性检测网络训练完成后，在实际的应用过程中，基于各模态特征向量序列对应的特征表示，分别通过语义属性检测网络得到各特征表示对应的语义属性向量。如图3中的Multimodal Semantic Detector模块。

步骤S400，将各模态特征向量序列对应的特征表示进行级联，得到初始编码向量；基于所述初始编码向量、各特征表示对应的语义属性向量，通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句。

在本实施例中，将{v_f，v_o，v_c}级联，作为初始编码向量v，如图3中的Concatenation模块。Attention Fusion为基于注意力模块。

下文先对基于注意力机制的LSTM网络的训练过程进行介绍，再对通过基于注意力机制的LSTM网络获取待描述视频的描述语句的方法进行介绍。

基于注意力机制的LSTM网络在训练时，输入的描述语句是“A Small child idplaying the guitar(一个小孩子正在弹吉他)”，具体的训练过程如下：

当输出是一个句子的时候，用LSTM网络作为解码器，此时能够捕获句子的长期依赖性。假设当前时刻输入的单词为w_t，LSTM网络上一时刻隐藏状态为h_t-1，上一时刻细胞的记忆状态为c_t-1，则LSTM网络在t时刻的更新规则如公式(2)(3)(4)(5)(6)(7)(8)所示：

i_t＝σ(W_iw_t+U_hih_t-1+z) (2)

f_t＝σ(W_fw_t+U_hfh_t-1+z) (3)

o_t＝σ(W_ow_t+U_hoh_t-1+z) (4)

h_t＝o_t⊙tanh(c_t) (7)

z＝1(t＝1)·Cv (8)

用*表示上述公式{i,f,o,c}中的某一个下标，其中，W_*、U_h*和C均为权重矩阵，i_t,f_t,o_t,c_t,

分别表示t时刻输入门、遗忘门、输出门、记忆单元和压缩输入的状态，tanh(·)表示双曲正切函数，1(t＝1)为指示函数，初始编码向量v在LSTM的初始时刻作为输入，z表示在t＝1初始时刻将视频向量作为输入。为了简化，上述公式中的偏置项均被省略。

为了更好的利用来自多个模态语义属性的辅助信息，我们提出结合语义属性的注意力机制来计算权重矩阵W_*和U_h*，将传统LSTM的每个权重矩阵扩展为与K个属性相关权重矩阵的集合，用于挖掘单个单词的含义以生成最终的描述语句。用W_*(S_t)/U_h*(S_t)替换初始权重矩阵W_*/U_h*，其中S_t∈R^K是一个多模态的语义属性向量，随时刻动态变化。特别地，定义两个权重矩阵

其中n_h是隐藏单元数目，n_x是词嵌入向量的维数，则W_*(S_t)/U_h*(S_t)的表达式如公式(9)(10)所示：

其中，W_τ[k]、U_τ[k]分别表示为权重矩阵W_τ和U_τ的第k个2D切片，其与概率值S_t[k]相关联，S_t[k]是多模态的语义属性向量S_t的第k个元素。由于W_τ为三维向量，所以2D切片指的是W_τ的一个切片，是一个二维的向量。

S_t的计算过程如公式(11)(12)(13)所示：

e_ti＝w^Ttanh(W_ah_t-1+U_as_i) (13)

其中，l＝3表示学习到的三个语义属性向量{s_f，s_o，s_c}，注意力权重a_ti反映了生成当前时刻视频中第i个语义属性的重要性程度。可以看出，对于不同的时间步长t，语义属性S_t是不同的，这使得模型在每次产生单词时有选择性地关注视频中的不同语义属性部分，j表示下标，e_ti表示未正则化的注意力权重，w^T表示转换矩阵。

在基于注意力机制的LSTM网络的训练过程中，等同于联合训练K个LSTM，网络的参数量和K值成正比，当K值很大时，网络几乎不能完成训练，采取以下的因式分解方法，如公式(14)(15)所示：

W_*(S_t)＝W_a·diag(W_bS_t)·W_c (14)

U_h*(S_t)＝U_a·diag(U_bS_t)·U_c (15)

其中，

和

n_f表示因子分解的相关超参数。

为什么采用因式分解网络的参数量大大减少，规避了原始网络的参数量和K值成正比的难题，下面对网络的参数量进行一个分析。在公式(9)(10)中，总的参数量为K·n_h·(n_x+n_h)，可以认为参数量和K成正比。在公式(14)(15)中，W_*(S_t)公式参数量为n_f·(n_h+K+n_x)，U_h*(S_t)公式参数量为n_f·(2n_h+K)，二者的参数量之和为n_f·(3n_h+2K+n_x)。当指定n_f＝n_h时，对于较大的K值，n_f·(3n_h+2K+n_x)要远远小于K·n_h·(n_x+n_h)。

把因式分解的公式(14)(15)带入LSTM网络更新规则中可得公式(16)(17)(18)：

其中，⊙表示逐元素乘法运算符，对于S_t中的每个元素值，参数矩阵W_a和U_a是共享的，这可以有效地捕获视频中共有的语言模式，而对角线矩阵diag(W_bS_t)和diag(U_bS_t)考虑了不同视频中的特定语义属性部分，

表示融入语义属性向量的输入，

表示融入语义属性向量的隐藏状态。同理可证，f_t,o_t,c_t的表达式和上面公式相似。

从上述这些公式可得，网络充分训练之后，既可以有效的捕获视频中共有的语言模式部分，又可以关注于视频中特定语义属性部分，同时由于采用因式分解，网络的参数量大大减少，规避了原始网络的参数量和K值成正比的难题。

在生成视频的描述语句过程中，先采用贪婪搜索，每时刻输出的单词如公式(19)所示：

w_t＝softmax(Wh_t) (19)

其中，W为转换矩阵。

因此，设计网络的生成句子的损失函数loss₂，如公式(20)所示：

loss₂＝-logP(Y|v,s_f,s_c,s_o)＝-∑logP(w_t|w_0～t-1) (20)

其中，Y＝{w₁,w₂,.......w_N}，表示由N个单词组成的句子，w_0～t-1为t时刻之前生成的单词。

将生成高层语义属性的分类损失loss₁和生成描述句子的损失loss₂相加，同时进行优化，可以保证句子中的上下文关系。基于获取的损失值，采用反向传播算法对网络进行训练。如图3中的Classification Loss(分类损失)模块和Captioning Loss(句子损失)模块，通过相加得到Total Loss(总的损失或全局损失)模块。

基于注意力机制的LSTM网络训练完毕后，基于所述初始编码向量、各特征表示对应的语义属性向量，通过基于注意力机制的LSTM网络得到待描述视频的描述语句。

本发明第二实施例的一种基于多模态注意力机制的视频内容描述系统，如图2所示，包括：获取模块100、提取特征表示模块200、语义属性检测模块300、生成视频描述模块400；

所述获取模块100，配置为获取待描述视频的视频帧序列，作为输入序列；

所述提取特征表示模块200，配置为提取所述输入序列的多模态特征向量，构建多模态特征向量序列，并通过循环神经网络得到各模态特征向量序列对应的特征表示；所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列；

所述语义属性检测模块300，配置为基于各模态特征向量序列对应的特征表示，分别通过语义属性检测网络得到各特征表示对应的语义属性向量；

所述生成视频描述模块400，配置为将各模态特征向量序列对应的特征表示进行级联，得到初始编码向量；基于所述初始编码向量、各特征表示对应的语义属性向量，通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句；

其中，

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于多模态注意力机制的视频内容描述系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于多模态注意力机制的视频内容描述方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于多模态注意力机制的视频内容描述方法。

所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多模态注意力机制的视频内容描述方法，其特征在于，该方法包括：

步骤S100，获取待描述视频的视频帧序列，作为输入序列；

其中，

2.根据权利要求1所述的基于多模态注意力机制的视频内容描述方法，其特征在于，步骤S200中“提取所述输入序列的多模态特征向量，构建多模态特征向量序列”，其方法为：

3.根据权利要求1所述的基于多模态注意力机制的视频内容描述方法，其特征在于，所述语义属性检测网络其训练方法为：

4.根据权利要求3所述的基于多模态注意力机制的视频内容描述方法，其特征在于，所述语义属性检测网络在训练过程中其损失函数loss₁为：

5.根据权利要求1所述的基于多模态注意力机制的视频内容描述方法，其特征在于，步骤S400中“基于所述初始编码向量、各特征表示对应的语义属性向量，通过基于注意力机制的LSTM网络得到所述待描述视频的语句描述”，其方法为：

6.根据权利要求1所述的基于多模态注意力机制的视频内容描述方法，其特征在于，所述基于注意力机制的LSTM网络在训练过程中采用因式分解的方法进行权重矩阵的计算。

7.一种基于多模态注意力机制的视频内容描述系统，其特征在于，该系统包括获取模块、提取特征表示模块、语义属性检测模块、生成视频描述模块；

其中，

8.一种存储装置，其中存储有多条程序，其特征在于，所述程序应用由处理器加载并执行以实现权利要求1-6任一项所述的基于多模态注意力机制的视频内容描述方法。

9.一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于多模态注意力机制的视频内容描述方法。