[go: up one dir, main page]

CN111079601A - 基于多模态注意力机制的视频内容描述方法、系统、装置 - Google Patents

基于多模态注意力机制的视频内容描述方法、系统、装置 Download PDF

Info

Publication number
CN111079601A
CN111079601A CN201911243331.7A CN201911243331A CN111079601A CN 111079601 A CN111079601 A CN 111079601A CN 201911243331 A CN201911243331 A CN 201911243331A CN 111079601 A CN111079601 A CN 111079601A
Authority
CN
China
Prior art keywords
video
semantic attribute
feature
sequence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911243331.7A
Other languages
English (en)
Inventor
胡卫明
孙亮
李兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201911243331.7A priority Critical patent/CN111079601A/zh
Publication of CN111079601A publication Critical patent/CN111079601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机视觉和自然语言处理领域,具体涉及一种基于多模态注意力机制的视频内容描述方法、系统、装置,旨在解决视频内容描述方法只考虑视频特征而忽略高级语义属性信息,导致生成的描述语句准确度较低的问题。本发明方法包括:获取待描述视频的视频帧序列;提取视频帧序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;通过语义属性检测网络得到各特征表示对应的语义属性向量;基于各模态特征向量序列对应的特征表示级联后的向量、语义属性向量,通过基于注意力机制的LSTM网络得到待描述视频的描述语句。本发明融合视觉特征和高层语义属性,提高了生成视频描述语句的准确度。

Description

基于多模态注意力机制的视频内容描述方法、系统、装置
技术领域
本发明属于计算机视觉和自然语言处理领域,具体涉及一种基于多模态注意力机制的视频内容描述方法、系统、装置。
背景技术
人工智能大体可分为两个研究方向:感知智能和认知智能。感知智能研究进展讯速,比如图片分类、自然语言翻译,但认知智能发展速度有限,比如看图说话、视觉描述等。将自然语言和计算机视觉结合起来研究,有利于搭起人类和机器之间沟通的桥梁,促进认知智能的研究。
视频内容描述不同于视频分类、物体检测等标签式的粗粒度视觉理解任务,而是需要用通顺准确的一句话来描述视频内容。这不仅需要识别出视频中的物体,还需要理解视频中物体之间的相互关系。同时由于视频内容描述风格多样,比如对场景的抽象描述,对各物体之间关系的描述,对视频中物体行为和运动的描述等,这将给视频内容描述研究带来很大的挑战性。传统的视频内容描述算法主要采用基于语言模板的方法或基于检索的方法。基于语言模板的方法,由于受到固定语言模板的限制,只能生成形式单一缺乏灵活性的句子。而基于检索的方法过于依赖检索视频库的大小,当数据库中缺少与待描述视频相似的视频时,生成的描述语句将和视频内容存在较大的偏差。同时这两种方法都需要在前期对视频进行复杂的预处理过程,而对后端的语言序列部分优化不足,从而导致生成的语句质量较差。
随着深度学习技术的进步,基于编码解码器的序列学习模型在视频内容描述问题中取得突破性的进展。本发明也是基于编码解码器模型,此类方法前期不需要对视频采取复杂的处理过程,直接通过网络实现端到端的训练,能够直接从大量的训练数据中学习到视频到语言的映射关系,从而产生内容更加精确、形式多样和语法灵活的视频描述。
视频内容描述问题的关键首先在于视频特征的提取,由于视频中不同模态信息能够互相辅助,对视频多模态信息进行编码有助于挖掘更多的语义信息。同时由于通常的视频内容描述算法只考虑视频特征而忽略了视频高级语义属性信息,为了提高生成描述句子的质量,本发明还探讨了如何提取高层语义属性以及将语义属性运用到视频内容描述任务上来。本发明还对解码器端语言生成部分优化不足的问题进行分析与研究,当前大部分的视频内容描述算法都采用最大似然对语言序列建模,用交叉熵损失进行训练优化,这将带来两个明显的缺陷:一是曝光偏差问题,模型在训练的时候,解码器每个时刻的输入来自训练集中真实词,而模型测试的时候,每个时刻输入来自上一时刻预测到的单词。如果其中某一个单词预测不够准确,错误可能会向下传递,导致后面生成的单词质量越来越差。二是训练指标和评价准则不统一的问题,训练阶段采用交叉熵损失函数来最大化后验概率,而评价阶段采用BLEU、METEOR、CIDER等客观评价准则,这种不一致导致模型无法充分对视频内容描述生成的评价指标充分优化。
发明内容
为了解决现有技术中的上述问题,即为了解决现有视频内容描述方法只考虑视频特征而忽略了视频高级语义属性信息,导致生成的描述语句准确度较低的问题,本发明第一方面,提出了一种基于多模态注意力机制的视频内容描述方法,该方法包括:
步骤S100,获取待描述视频的视频帧序列,作为输入序列;
步骤S200,提取所述输入序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列;
步骤S300,基于各模态特征向量序列对应的特征表示,分别通过语义属性检测网络得到各特征表示对应的语义属性向量;
步骤S400,将各模态特征向量序列对应的特征表示进行级联,得到初始编码向量;基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句;
其中,
所述语义属性检测网络基于多层感知机构建,并基于训练样本进行训练,所述训练样本包括特征表示样本、对应的语义属性向量标签。
在一些优选的实施方式中,步骤S200中“提取所述输入序列的多模态特征向量,构建多模态特征向量序列”,其方法为:
基于深度残差网络对所述输入序列中每一帧RGB图像进行特征提取,得到视频帧特征向量序列;
基于所述输入序列,通过Lucas-Kanade算法得到光流序列;通过深度残差网络对该光流序列进行特征提取,得到光流帧特征向量序列;
将所述输入序列平分为T段,通过三维卷积深度神经网络分别提取各段序列的特征向量,得到视频片段特征向量序列。
在一些优选的实施方式中,所述语义属性检测网络其训练方法为:
获取训练数据集,所述训练数据集包括视频及对应的描述语句;
提取所述训练数据集中描述语句的单词,并按照出现频率进行排序,选择前K个单词作为高层语义属性向量;根据所述描述语句是否包含所述高层语义属性向量,获取视频真实的语义属性向量标签;
获取所述训练数据集中视频的多模态特征向量序列对应的特征表示;
基于所述特征表示、所述真实的语义属性向量标签,训练所述语义属性检测网络。
在一些优选的实施方式中,所述语义属性检测网络在训练过程中其损失函数loss1为:
Figure BDA0002306852780000041
其中,N为训练数据集中描述语句的数量,K为语义属性检测网络输出的预测语义属性向量标签的维度,sik为语义属性检测网络输出的预测语义属性向量标签,yik为真实的语义属性向量标签,i、k为下标,α为权重,Wencoder为循环神经网络、语义属性检测网络所有的权重矩阵和偏置矩阵参数的集合。
在一些优选的实施方式中,步骤S400中“基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到所述待描述视频的语句描述”,其方法为:
通过注意力机制对各特征表示对应的语义属性向量进行加权,获取多模态的语义属性向量;
基于所述初始编码向量、所述多模态的语义属性向量,通过LSTM网络生成所述待描述视频的语句描述。
在一些优选的实施方式中,所述基于注意力机制的LSTM网络在训练过程中采用因式分解的方法进行权重矩阵的计算。
本发明的第二方面,提出了一种基于多模态注意力机制的视频内容描述系统,该系统包括获取模块、提取特征表示模块、语义属性检测模块、生成视频描述模块;
所述获取模块,配置为获取待描述视频的视频帧序列,作为输入序列;
所述提取特征表示模块,配置为提取所述输入序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列;
所述语义属性检测模块,配置为基于各模态特征向量序列对应的特征表示,分别通过语义属性检测网络得到各特征表示对应的语义属性向量;
所述生成视频描述模块,配置为将各模态特征向量序列对应的特征表示进行级联,得到初始编码向量;基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句;
其中,
所述语义属性检测网络基于多层感知机构建,并基于训练样本进行训练,所述训练样本包括特征表示样本、对应的语义属性向量标签。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的基于多模态注意力机制的视频内容描述方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于多模态注意力机制的视频内容描述方法。
本发明的有益效果:
本发明融合视觉特征和高层语义属性,提高了生成视频描述语句的准确度。本发明从多模态信息出发,采用视频帧、光流帧和视频片段相结合的方法得到视频特征向量序列,同时检测和生成视频的语义属性向量标签。为了获得更有效的视觉特征和语义属性,将语义属性向量标签生成阶段的辅助分类损失和LSTM网络损失进行同时优化,可以保证句子中的上下文关系。在解码阶段,提出结合语义属性的注意力机制算法,将语义属性向量融入到传统的循环神经网络权重矩阵中,并且在生成句子单词的每一时刻,采用注意力机制来关注特定的语义属性,提高了视频内容描述的准确度。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于多模态注意力机制的视频内容描述方法的流程示意图;
图2本发明一种实施例的基于多模态注意力机制的视频内容描述系统的框架示意图;
图3是本发明一种实施例的基于多模态注意力机制的视频内容描述方法的训练过程的示意图;
图4是本发明一种实施例的语义属性检测网络的网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于多模态注意力机制的视频内容描述方法,如图1所示,包括以下步骤:
步骤S100,获取待描述视频的视频帧序列,作为输入序列;
步骤S200,提取所述输入序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列;
步骤S300,基于各模态特征向量序列对应的特征表示,分别通过语义属性检测网络得到各特征表示对应的语义属性向量;
步骤S400,将各模态特征向量序列对应的特征表示进行级联,得到初始编码向量;基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句;
其中,
所述语义属性检测网络基于多层感知机构建,并基于训练样本进行训练,所述训练样本包括特征表示样本、对应的语义属性向量标签。
为了更清晰地对本发明基于多模态注意力机制的视频内容描述方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
本发明的方法具体运行的编程语言并不受限制,用任何语言编写都可以实现本发明的方法。发明采用一台具有12G字节内存的4卡Titan Xp GPU服务器,并用Python语言编制了基于多模态注意力机制的视频内容描述方法的工作程序,实现了本发明的方法。具体实现步骤如下:
步骤S100,获取待描述视频的视频帧序列,作为输入序列。
在本实施例中,待描述视频可以是实时拍摄的视频,例如智能监控及行为分析场景中,需要对摄像头实时拍摄的视频进行描述,此时,待描述视频可以是摄像头实时拍摄的视频;或者待描述视频可以是从网络中获取的视频,例如视频内容预览场景中,需要将网络获取的视频通过自然语言进行描述,实现用户对视频内容的预览,此时,待描述视频可以是网络中获取的需要进行预览的视频;或者,待描述视频可以是本地存储的视频,例如视频分类存储场景中,需要对视频进行描述,并根据描述信息进行分类存储,此时待描述视频可以是本地存储的需要进行分类存储的视频。基于获取的待描述视频,提取视频帧序列,作为输入。
步骤S200,提取所述输入序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列。
在本实例中,对待描述视频进行多模态视频特征的提取,分别为视频帧、光流帧和视频片段。具体步骤如下:
步骤S201,使用经过预训练的深度残差网络对待描述视频的视频帧序列每一帧进行特征提取,将网络第i层的输出作为对该帧的特征表示,得到视频帧特征向量序列
Figure BDA0002306852780000091
将视频帧特征向量序列按顺序输入循环神经网络LSTM中,将网络最后时刻的隐藏状态ht作为视频的视频帧特征向量的特征表示,记为vf
步骤S202,待描述视频的视频帧序列通过Lucas-Kanade算法,生成视频的光流序列,经过预训练的深度残差网络对每一帧进行特征提取,将网络第i层的输出作为对该帧的特征表示,得到光流帧特征向量序列
Figure BDA0002306852780000092
将光流帧特征向量序列按顺序输入循环神经网络LSTM中,将网络最后时刻的隐藏状态ht作为视频的光流帧的特征表示,记为vo
步骤S203,待描述视频的视频帧序列平均分成T段,每段使用三维卷积深度神经网络进行特征提取,将网络第i层的输出作为对第t段视频的特征表示,得到视频片段特征向量序列
Figure BDA0002306852780000093
将视频片段特征向量序列按顺序输入循环神经网络LSTM中,将网络最后时刻的隐藏状态ht作为视频的视频段的特征表示,记为vc
上述步骤提取视频的多模态特征表示的过程,如图3所示,输入Video(视频),分为视频帧(Frame)、光流帧(Optical flow)和视频片段(Video clip),其中视频帧输出的是Frame Feature(视频帧特征向量的特征表示)即静态特征,视频片段输出的是C3D Feature(视频片段的3D-CNN特征),光流帧输出的是Motion Feature(动态特征)。图3中的其他步骤在下文中描述。
步骤S300,基于各模态特征向量序列对应的特征表示,分别通过语义属性检测网络得到各特征表示对应的语义属性向量。
在本实施例中,先对语义属性检测网络的训练进行介绍,再对通过语义属性检测网络得到各特征表示对应的语义属性向量进行介绍。
语义属性检测网络基于多层感知机构建,结构如图4所示,包括输入层(InputLayer)、隐藏层(Hidden Layer)、输出层(Output layer),输入的是一个视频(InputVideo)及对应的描述语句是“A Small child id playing the guitar(一个小孩子正在弹吉他)”,通过循环神经网络LSTM,得到多模态特征向量序列(vi1,vi2,...,vin),通过语义属性检测网络输出语义属性向量si1,si2,...,siK。语义属性检测网络的具体训练过程如下:
步骤A301,获取训练数据集,所述训练数据集包括视频及对应的描述语句。
步骤A302,提取所述训练数据集中描述语句的单词,并按照出现频率进行排序,选择前K个单词作为高层语义属性向量;根据所述描述语句是否包含所述高层语义属性向量,获取视频真实的语义属性向量标签。
提取训练数据集中描述语句的单词,按照单词出现频率对单词排序,移除虚词,然后选择出现概率最高的K个单词作为高层语义属性值
假设训练数据集有N条语句,yi=[yi1,yi1,...yil,...yiK]是第i个视频的真实的语义属性向量标签。其中如果视频i对应的描述语句中包含属性单词l,则yil=1;否则yil=0。
步骤A303,通过步骤S200的方法,获取上述训练数据集中视频的多模态特征向量序列对应的特征表示。
步骤A304,基于特征表示、真实的语义属性向量标签,训练所述语义属性检测网络。
让vi∈{vf,vo,vc}表示第i个视频学习到的特征表示,此时的训练样本为{vi,yi}。本发明中采用基于采用多层感知机构建的语义属性检测网络来学习函数f(·):Rm→RK,其表示为将一个m维的空间映射为K维,其中,Rm为m维度的实数空间,RK同理,m为输入特征表示的维度,K为输出语义属性向量的维度,这个维度和上述提取的语义属性值的个数(高层语义属性向量的维度)相等,多层感知机输出向量si=[si1,...,siK]为第i个视频的预测语义属性向量标签。语义属性检测网络的分类损失函数loss1如公式(1)所示:
Figure BDA0002306852780000111
其中,Wencoder表示循环神经网络、语义属性检测网络所有权重矩阵和偏置矩阵参数的集合,α为权重,si=α(f(vi))学习得到K维向量,α(·)表示sigmoid函数,f(·)由多层感知机实现。
将语义属性检测网络训练完成后,在实际的应用过程中,基于各模态特征向量序列对应的特征表示,分别通过语义属性检测网络得到各特征表示对应的语义属性向量。如图3中的Multimodal Semantic Detector模块。
步骤S400,将各模态特征向量序列对应的特征表示进行级联,得到初始编码向量;基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句。
在本实施例中,将{vf,vo,vc}级联,作为初始编码向量v,如图3中的Concatenation模块。Attention Fusion为基于注意力模块。
下文先对基于注意力机制的LSTM网络的训练过程进行介绍,再对通过基于注意力机制的LSTM网络获取待描述视频的描述语句的方法进行介绍。
基于注意力机制的LSTM网络在训练时,输入的描述语句是“A Small child idplaying the guitar(一个小孩子正在弹吉他)”,具体的训练过程如下:
当输出是一个句子的时候,用LSTM网络作为解码器,此时能够捕获句子的长期依赖性。假设当前时刻输入的单词为wt,LSTM网络上一时刻隐藏状态为ht-1,上一时刻细胞的记忆状态为ct-1,则LSTM网络在t时刻的更新规则如公式(2)(3)(4)(5)(6)(7)(8)所示:
it=σ(Wiwt+Uhiht-1+z) (2)
ft=σ(Wfwt+Uhfht-1+z) (3)
ot=σ(Wowt+Uhoht-1+z) (4)
Figure BDA0002306852780000121
Figure BDA0002306852780000122
ht=ot⊙tanh(ct) (7)
z=1(t=1)·Cv (8)
用*表示上述公式{i,f,o,c}中的某一个下标,其中,W*、Uh*和C均为权重矩阵,it,ft,ot,ct,
Figure BDA0002306852780000123
分别表示t时刻输入门、遗忘门、输出门、记忆单元和压缩输入的状态,tanh(·)表示双曲正切函数,1(t=1)为指示函数,初始编码向量v在LSTM的初始时刻作为输入,z表示在t=1初始时刻将视频向量作为输入。为了简化,上述公式中的偏置项均被省略。
为了更好的利用来自多个模态语义属性的辅助信息,我们提出结合语义属性的注意力机制来计算权重矩阵W*和Uh*,将传统LSTM的每个权重矩阵扩展为与K个属性相关权重矩阵的集合,用于挖掘单个单词的含义以生成最终的描述语句。用W*(St)/Uh*(St)替换初始权重矩阵W*/Uh*,其中St∈RK是一个多模态的语义属性向量,随时刻动态变化。特别地,定义两个权重矩阵
Figure BDA0002306852780000131
其中nh是隐藏单元数目,nx是词嵌入向量的维数,则W*(St)/Uh*(St)的表达式如公式(9)(10)所示:
Figure BDA0002306852780000132
Figure BDA0002306852780000133
其中,Wτ[k]、Uτ[k]分别表示为权重矩阵Wτ和Uτ的第k个2D切片,其与概率值St[k]相关联,St[k]是多模态的语义属性向量St的第k个元素。由于Wτ为三维向量,所以2D切片指的是Wτ的一个切片,是一个二维的向量。
St的计算过程如公式(11)(12)(13)所示:
Figure BDA0002306852780000134
Figure BDA0002306852780000135
eti=wTtanh(Waht-1+Uasi) (13)
其中,l=3表示学习到的三个语义属性向量{sf,so,sc},注意力权重ati反映了生成当前时刻视频中第i个语义属性的重要性程度。可以看出,对于不同的时间步长t,语义属性St是不同的,这使得模型在每次产生单词时有选择性地关注视频中的不同语义属性部分,j表示下标,eti表示未正则化的注意力权重,wT表示转换矩阵。
在基于注意力机制的LSTM网络的训练过程中,等同于联合训练K个LSTM,网络的参数量和K值成正比,当K值很大时,网络几乎不能完成训练,采取以下的因式分解方法,如公式(14)(15)所示:
W*(St)=Wa·diag(WbSt)·Wc (14)
Uh*(St)=Ua·diag(UbSt)·Uc (15)
其中,
Figure BDA0002306852780000141
Figure BDA0002306852780000142
Figure BDA0002306852780000143
nf表示因子分解的相关超参数。
为什么采用因式分解网络的参数量大大减少,规避了原始网络的参数量和K值成正比的难题,下面对网络的参数量进行一个分析。在公式(9)(10)中,总的参数量为K·nh·(nx+nh),可以认为参数量和K成正比。在公式(14)(15)中,W*(St)公式参数量为nf·(nh+K+nx),Uh*(St)公式参数量为nf·(2nh+K),二者的参数量之和为nf·(3nh+2K+nx)。当指定nf=nh时,对于较大的K值,nf·(3nh+2K+nx)要远远小于K·nh·(nx+nh)。
把因式分解的公式(14)(15)带入LSTM网络更新规则中可得公式(16)(17)(18):
Figure BDA0002306852780000144
Figure BDA0002306852780000145
Figure BDA0002306852780000146
其中,⊙表示逐元素乘法运算符,对于St中的每个元素值,参数矩阵Wa和Ua是共享的,这可以有效地捕获视频中共有的语言模式,而对角线矩阵diag(WbSt)和diag(UbSt)考虑了不同视频中的特定语义属性部分,
Figure BDA0002306852780000151
表示融入语义属性向量的输入,
Figure BDA0002306852780000152
表示融入语义属性向量的隐藏状态。同理可证,ft,ot,ct的表达式和上面公式相似。
从上述这些公式可得,网络充分训练之后,既可以有效的捕获视频中共有的语言模式部分,又可以关注于视频中特定语义属性部分,同时由于采用因式分解,网络的参数量大大减少,规避了原始网络的参数量和K值成正比的难题。
在生成视频的描述语句过程中,先采用贪婪搜索,每时刻输出的单词如公式(19)所示:
wt=softmax(Wht) (19)
其中,W为转换矩阵。
因此,设计网络的生成句子的损失函数loss2,如公式(20)所示:
loss2=-logP(Y|v,sf,sc,so)=-∑logP(wt|w0~t-1) (20)
其中,Y={w1,w2,.......wN},表示由N个单词组成的句子,w0~t-1为t时刻之前生成的单词。
将生成高层语义属性的分类损失loss1和生成描述句子的损失loss2相加,同时进行优化,可以保证句子中的上下文关系。基于获取的损失值,采用反向传播算法对网络进行训练。如图3中的Classification Loss(分类损失)模块和Captioning Loss(句子损失)模块,通过相加得到Total Loss(总的损失或全局损失)模块。
基于注意力机制的LSTM网络训练完毕后,基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到待描述视频的描述语句。
本发明第二实施例的一种基于多模态注意力机制的视频内容描述系统,如图2所示,包括:获取模块100、提取特征表示模块200、语义属性检测模块300、生成视频描述模块400;
所述获取模块100,配置为获取待描述视频的视频帧序列,作为输入序列;
所述提取特征表示模块200,配置为提取所述输入序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列;
所述语义属性检测模块300,配置为基于各模态特征向量序列对应的特征表示,分别通过语义属性检测网络得到各特征表示对应的语义属性向量;
所述生成视频描述模块400,配置为将各模态特征向量序列对应的特征表示进行级联,得到初始编码向量;基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句;
其中,
所述语义属性检测网络基于多层感知机构建,并基于训练样本进行训练,所述训练样本包括特征表示样本、对应的语义属性向量标签。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于多模态注意力机制的视频内容描述系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于多模态注意力机制的视频内容描述方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于多模态注意力机制的视频内容描述方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于多模态注意力机制的视频内容描述方法,其特征在于,该方法包括:
步骤S100,获取待描述视频的视频帧序列,作为输入序列;
步骤S200,提取所述输入序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列;
步骤S300,基于各模态特征向量序列对应的特征表示,分别通过语义属性检测网络得到各特征表示对应的语义属性向量;
步骤S400,将各模态特征向量序列对应的特征表示进行级联,得到初始编码向量;基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句;
其中,
所述语义属性检测网络基于多层感知机构建,并基于训练样本进行训练,所述训练样本包括特征表示样本、对应的语义属性向量标签。
2.根据权利要求1所述的基于多模态注意力机制的视频内容描述方法,其特征在于,步骤S200中“提取所述输入序列的多模态特征向量,构建多模态特征向量序列”,其方法为:
基于深度残差网络对所述输入序列中每一帧RGB图像进行特征提取,得到视频帧特征向量序列;
基于所述输入序列,通过Lucas-Kanade算法得到光流序列;通过深度残差网络对该光流序列进行特征提取,得到光流帧特征向量序列;
将所述输入序列平分为T段,通过三维卷积深度神经网络分别提取各段序列的特征向量,得到视频片段特征向量序列。
3.根据权利要求1所述的基于多模态注意力机制的视频内容描述方法,其特征在于,所述语义属性检测网络其训练方法为:
获取训练数据集,所述训练数据集包括视频及对应的描述语句;
提取所述训练数据集中描述语句的单词,并按照出现频率进行排序,选择前K个单词作为高层语义属性向量;根据所述描述语句是否包含所述高层语义属性向量,获取视频真实的语义属性向量标签;
获取所述训练数据集中视频的多模态特征向量序列对应的特征表示;
基于所述特征表示、所述真实的语义属性向量标签,训练所述语义属性检测网络。
4.根据权利要求3所述的基于多模态注意力机制的视频内容描述方法,其特征在于,所述语义属性检测网络在训练过程中其损失函数loss1为:
Figure FDA0002306852770000021
其中,N为训练数据集中描述语句的数量,K为语义属性检测网络输出的预测语义属性向量标签的维度,sik为语义属性检测网络输出的预测语义属性向量标签,yik为真实的语义属性向量标签,i、k为下标,α为权重,Wencoder为循环神经网络、语义属性检测网络所有的权重矩阵和偏置矩阵参数的集合。
5.根据权利要求1所述的基于多模态注意力机制的视频内容描述方法,其特征在于,步骤S400中“基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到所述待描述视频的语句描述”,其方法为:
通过注意力机制对各特征表示对应的语义属性向量进行加权,获取多模态的语义属性向量;
基于所述初始编码向量、所述多模态的语义属性向量,通过LSTM网络生成所述待描述视频的语句描述。
6.根据权利要求1所述的基于多模态注意力机制的视频内容描述方法,其特征在于,所述基于注意力机制的LSTM网络在训练过程中采用因式分解的方法进行权重矩阵的计算。
7.一种基于多模态注意力机制的视频内容描述系统,其特征在于,该系统包括获取模块、提取特征表示模块、语义属性检测模块、生成视频描述模块;
所述获取模块,配置为获取待描述视频的视频帧序列,作为输入序列;
所述提取特征表示模块,配置为提取所述输入序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;所述多模态特征向量序列包括视频帧特征向量序列、光流帧特征向量序列、视频片段特征向量序列;
所述语义属性检测模块,配置为基于各模态特征向量序列对应的特征表示,分别通过语义属性检测网络得到各特征表示对应的语义属性向量;
所述生成视频描述模块,配置为将各模态特征向量序列对应的特征表示进行级联,得到初始编码向量;基于所述初始编码向量、各特征表示对应的语义属性向量,通过基于注意力机制的LSTM网络得到所述待描述视频的描述语句;
其中,
所述语义属性检测网络基于多层感知机构建,并基于训练样本进行训练,所述训练样本包括特征表示样本、对应的语义属性向量标签。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序应用由处理器加载并执行以实现权利要求1-6任一项所述的基于多模态注意力机制的视频内容描述方法。
9.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于多模态注意力机制的视频内容描述方法。
CN201911243331.7A 2019-12-06 2019-12-06 基于多模态注意力机制的视频内容描述方法、系统、装置 Pending CN111079601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911243331.7A CN111079601A (zh) 2019-12-06 2019-12-06 基于多模态注意力机制的视频内容描述方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911243331.7A CN111079601A (zh) 2019-12-06 2019-12-06 基于多模态注意力机制的视频内容描述方法、系统、装置

Publications (1)

Publication Number Publication Date
CN111079601A true CN111079601A (zh) 2020-04-28

Family

ID=70313089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911243331.7A Pending CN111079601A (zh) 2019-12-06 2019-12-06 基于多模态注意力机制的视频内容描述方法、系统、装置

Country Status (1)

Country Link
CN (1) CN111079601A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723649A (zh) * 2020-05-08 2020-09-29 天津大学 一种基于语义分解的短视频事件检测方法
CN111783709A (zh) * 2020-07-09 2020-10-16 中国科学技术大学 针对教育视频的信息预测方法及装置
CN112801017A (zh) * 2021-02-09 2021-05-14 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN113191263A (zh) * 2021-04-29 2021-07-30 桂林电子科技大学 一种视频描述方法及装置
CN113269253A (zh) * 2021-05-26 2021-08-17 大连民族大学 视频描述中视觉特征融合语义检测方法及系统
CN113269093A (zh) * 2021-05-26 2021-08-17 大连民族大学 视频描述中视觉特征分割语义检测方法及系统
CN113312923A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种球类赛事文字解说生成方法
CN113553445A (zh) * 2021-07-28 2021-10-26 北京理工大学 一种生成视频描述的方法
CN113641854A (zh) * 2021-07-28 2021-11-12 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN113673535A (zh) * 2021-05-24 2021-11-19 重庆师范大学 一种多模态特征融合网络的图像描述生成方法
CN113705402A (zh) * 2021-08-18 2021-11-26 中国科学院自动化研究所 视频行为预测方法、系统、电子设备及存储介质
CN113792183A (zh) * 2021-09-17 2021-12-14 咪咕数字传媒有限公司 一种文本生成方法、装置及计算设备
CN114268846A (zh) * 2020-09-16 2022-04-01 镇江多游网络科技有限公司 一种基于注意机制的视频描述生成模型
CN114339450A (zh) * 2022-03-11 2022-04-12 中国科学技术大学 视频评论生成方法、系统、设备及存储介质
CN114386260A (zh) * 2021-12-29 2022-04-22 桂林电子科技大学 一种视频描述生成方法、装置以及存储介质
CN114627413A (zh) * 2022-03-11 2022-06-14 电子科技大学 视频密集事件内容理解方法
CN115248879A (zh) * 2022-07-05 2022-10-28 维沃移动通信有限公司 视频数据的匹配方法、装置和电子设备
CN115311595A (zh) * 2022-06-30 2022-11-08 中国科学院自动化研究所 视频特征提取方法、装置及电子设备
CN115359383A (zh) * 2022-07-07 2022-11-18 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115457433A (zh) * 2022-08-27 2022-12-09 华为技术有限公司 注意力检测方法、装置及存储介质
CN115512265A (zh) * 2022-09-26 2022-12-23 山东大学 基于多模态交互和时间语义聚合的视频描述方法及系统
CN115828186A (zh) * 2022-12-05 2023-03-21 国网智能电网研究院有限公司 变电主设备多模态数据大规模预训练方法、装置及设备
WO2023050295A1 (zh) * 2021-09-30 2023-04-06 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法
CN116089651A (zh) * 2021-11-01 2023-05-09 腾讯科技(深圳)有限公司 一种特征提取模型的训练方法、装置、设备以及存储介质
CN116743609A (zh) * 2023-08-14 2023-09-12 清华大学 一种基于语义通信的视频流媒体的QoE评估方法及装置
CN117789099A (zh) * 2024-02-26 2024-03-29 北京搜狐新媒体信息技术有限公司 视频特征提取方法及装置、存储介质及电子设备
CN118132803A (zh) * 2024-05-10 2024-06-04 成都考拉悠然科技有限公司 一种零样本视频时刻检索方法、系统、设备及介质
CN118135452A (zh) * 2024-02-02 2024-06-04 广州像素数据技术股份有限公司 一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备
CN118658104A (zh) * 2024-08-16 2024-09-17 厦门立马耀网络科技有限公司 一种基于交叉注意力和序列注意力的视频切分方法及系统
CN119312901A (zh) * 2024-12-11 2025-01-14 中国电子科技集团公司第二十八研究所 一种基于表示学习的自适应知识构建方法、系统、设备及存储介质
CN119603525A (zh) * 2024-12-04 2025-03-11 哈尔滨工业大学 一种基于大语言模型的冰壶比赛视频描述方法
CN119649461A (zh) * 2024-12-11 2025-03-18 山东大学 一种基于视频语义的跌倒检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN110110145A (zh) * 2018-01-29 2019-08-09 腾讯科技(深圳)有限公司 描述文本生成方法及装置
CN110333774A (zh) * 2019-03-20 2019-10-15 中国科学院自动化研究所 一种基于多模态交互的远程用户注意力评估方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN110110145A (zh) * 2018-01-29 2019-08-09 腾讯科技(深圳)有限公司 描述文本生成方法及装置
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN110333774A (zh) * 2019-03-20 2019-10-15 中国科学院自动化研究所 一种基于多模态交互的远程用户注意力评估方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIANG SUN ET AL.: "Multimodal Semantic Attention Network for Video Captioning", 《HTTPS://ARXIV.ORG/ABS/1905.02963V1》 *
戴国强 等: "《科技大数据》", 31 August 2018, 科学技术文献出版社 *

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723649A (zh) * 2020-05-08 2020-09-29 天津大学 一种基于语义分解的短视频事件检测方法
CN111783709A (zh) * 2020-07-09 2020-10-16 中国科学技术大学 针对教育视频的信息预测方法及装置
CN111783709B (zh) * 2020-07-09 2022-09-06 中国科学技术大学 针对教育视频的信息预测方法及装置
CN114268846A (zh) * 2020-09-16 2022-04-01 镇江多游网络科技有限公司 一种基于注意机制的视频描述生成模型
CN112801017A (zh) * 2021-02-09 2021-05-14 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN112801017B (zh) * 2021-02-09 2023-08-04 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN113191263A (zh) * 2021-04-29 2021-07-30 桂林电子科技大学 一种视频描述方法及装置
CN113673535B (zh) * 2021-05-24 2023-01-10 重庆师范大学 一种多模态特征融合网络的图像描述生成方法
CN113673535A (zh) * 2021-05-24 2021-11-19 重庆师范大学 一种多模态特征融合网络的图像描述生成方法
CN113269093A (zh) * 2021-05-26 2021-08-17 大连民族大学 视频描述中视觉特征分割语义检测方法及系统
CN113269253B (zh) * 2021-05-26 2023-08-22 大连民族大学 视频描述中视觉特征融合语义检测方法及系统
CN113269253A (zh) * 2021-05-26 2021-08-17 大连民族大学 视频描述中视觉特征融合语义检测方法及系统
CN113269093B (zh) * 2021-05-26 2023-08-22 大连民族大学 视频描述中视觉特征分割语义检测方法及系统
CN113312923A (zh) * 2021-06-18 2021-08-27 广东工业大学 一种球类赛事文字解说生成方法
CN113641854B (zh) * 2021-07-28 2023-09-26 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN113553445B (zh) * 2021-07-28 2022-03-29 北京理工大学 一种生成视频描述的方法
CN113641854A (zh) * 2021-07-28 2021-11-12 上海影谱科技有限公司 一种将文字转化为视频的方法及系统
CN113553445A (zh) * 2021-07-28 2021-10-26 北京理工大学 一种生成视频描述的方法
CN113705402A (zh) * 2021-08-18 2021-11-26 中国科学院自动化研究所 视频行为预测方法、系统、电子设备及存储介质
CN113792183B (zh) * 2021-09-17 2023-09-08 咪咕数字传媒有限公司 一种文本生成方法、装置及计算设备
CN113792183A (zh) * 2021-09-17 2021-12-14 咪咕数字传媒有限公司 一种文本生成方法、装置及计算设备
WO2023050295A1 (zh) * 2021-09-30 2023-04-06 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法
CN116089651A (zh) * 2021-11-01 2023-05-09 腾讯科技(深圳)有限公司 一种特征提取模型的训练方法、装置、设备以及存储介质
CN114386260A (zh) * 2021-12-29 2022-04-22 桂林电子科技大学 一种视频描述生成方法、装置以及存储介质
CN114386260B (zh) * 2021-12-29 2025-06-13 桂林电子科技大学 一种视频描述生成方法、装置以及存储介质
CN114627413A (zh) * 2022-03-11 2022-06-14 电子科技大学 视频密集事件内容理解方法
CN114627413B (zh) * 2022-03-11 2022-09-13 电子科技大学 视频密集事件内容理解方法
CN114339450B (zh) * 2022-03-11 2022-07-15 中国科学技术大学 视频评论生成方法、系统、设备及存储介质
CN114339450A (zh) * 2022-03-11 2022-04-12 中国科学技术大学 视频评论生成方法、系统、设备及存储介质
CN115311595A (zh) * 2022-06-30 2022-11-08 中国科学院自动化研究所 视频特征提取方法、装置及电子设备
CN115311595B (zh) * 2022-06-30 2023-11-03 中国科学院自动化研究所 视频特征提取方法、装置及电子设备
CN115248879B (zh) * 2022-07-05 2025-10-31 维沃移动通信有限公司 视频数据的匹配方法、装置和电子设备
CN115248879A (zh) * 2022-07-05 2022-10-28 维沃移动通信有限公司 视频数据的匹配方法、装置和电子设备
CN115359383A (zh) * 2022-07-07 2022-11-18 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115457433A (zh) * 2022-08-27 2022-12-09 华为技术有限公司 注意力检测方法、装置及存储介质
CN115512265A (zh) * 2022-09-26 2022-12-23 山东大学 基于多模态交互和时间语义聚合的视频描述方法及系统
CN115512265B (zh) * 2022-09-26 2025-09-16 山东大学 基于多模态交互和时间语义聚合的视频描述方法及系统
CN115828186A (zh) * 2022-12-05 2023-03-21 国网智能电网研究院有限公司 变电主设备多模态数据大规模预训练方法、装置及设备
CN116743609A (zh) * 2023-08-14 2023-09-12 清华大学 一种基于语义通信的视频流媒体的QoE评估方法及装置
CN116743609B (zh) * 2023-08-14 2023-10-17 清华大学 一种基于语义通信的视频流媒体的QoE评估方法及装置
CN118135452A (zh) * 2024-02-02 2024-06-04 广州像素数据技术股份有限公司 一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备
CN117789099A (zh) * 2024-02-26 2024-03-29 北京搜狐新媒体信息技术有限公司 视频特征提取方法及装置、存储介质及电子设备
CN117789099B (zh) * 2024-02-26 2024-05-28 北京搜狐新媒体信息技术有限公司 视频特征提取方法及装置、存储介质及电子设备
CN118132803A (zh) * 2024-05-10 2024-06-04 成都考拉悠然科技有限公司 一种零样本视频时刻检索方法、系统、设备及介质
CN118132803B (zh) * 2024-05-10 2024-08-13 成都考拉悠然科技有限公司 一种零样本视频时刻检索方法、系统、设备及介质
CN118658104B (zh) * 2024-08-16 2024-11-19 厦门立马耀网络科技有限公司 一种基于交叉注意力和序列注意力的视频切分方法及系统
CN118658104A (zh) * 2024-08-16 2024-09-17 厦门立马耀网络科技有限公司 一种基于交叉注意力和序列注意力的视频切分方法及系统
CN119603525A (zh) * 2024-12-04 2025-03-11 哈尔滨工业大学 一种基于大语言模型的冰壶比赛视频描述方法
CN119312901A (zh) * 2024-12-11 2025-01-14 中国电子科技集团公司第二十八研究所 一种基于表示学习的自适应知识构建方法、系统、设备及存储介质
CN119649461A (zh) * 2024-12-11 2025-03-18 山东大学 一种基于视频语义的跌倒检测方法及系统
CN119649461B (zh) * 2024-12-11 2025-11-11 山东大学 一种基于视频语义的跌倒检测方法及系统

Similar Documents

Publication Publication Date Title
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
JP7193252B2 (ja) 画像の領域のキャプション付加
CN114332578B (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
US11381651B2 (en) Interpretable user modeling from unstructured user data
CN111507378A (zh) 训练图像处理模型的方法和装置
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN109543112A (zh) 一种基于循环卷积神经网络的序列推荐方法及装置
CN115311598A (zh) 基于关系感知的视频描述生成系统
KR20220098991A (ko) 음성 신호에 기반한 감정 인식 장치 및 방법
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质
US20250201019A1 (en) Systems, methods, and storage media for creating image data embeddings to be used for image recognition
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
CN119739990B (zh) 一种基于超图层级对比学习的多模态情感识别方法
US20250157213A1 (en) Method and apparatus with image-quality assessment
Yuan et al. Deep learning from a statistical perspective
CN116341564A (zh) 基于语义理解的问题推理方法和装置
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
CN117009560A (zh) 图像处理方法、装置、设备及计算机存储介质
Mai et al. From efficient multimodal models to world models: A survey
CN119202826A (zh) 融合视觉预训练模型的sku智能分类与标签生成方法
Nguyen et al. Fa-yolov9: Improved yolov9 based on feature attention block
CN111242059A (zh) 基于递归记忆网络的无监督图像描述模型的生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428

RJ01 Rejection of invention patent application after publication