[go: up one dir, main page]

WO2018171109A1 - 基于卷积神经网络的视频动作检测方法 - Google Patents

基于卷积神经网络的视频动作检测方法 Download PDF

Info

Publication number
WO2018171109A1
WO2018171109A1 PCT/CN2017/097610 CN2017097610W WO2018171109A1 WO 2018171109 A1 WO2018171109 A1 WO 2018171109A1 CN 2017097610 W CN2017097610 W CN 2017097610W WO 2018171109 A1 WO2018171109 A1 WO 2018171109A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
layer
convolutional neural
neural network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CN2017/097610
Other languages
English (en)
French (fr)
Inventor
王文敏
李志豪
王荣刚
李革
董胜富
王振宇
李英
赵辉
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to US16/414,783 priority Critical patent/US11379711B2/en
Publication of WO2018171109A1 publication Critical patent/WO2018171109A1/zh
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Definitions

  • the invention relates to computer vision recognition technology, in particular to a video motion detection method based on a convolutional neural network.
  • Video motion detection refers to classifying the actions in the video and giving the start time and end time of the action, as shown in Figure 1.
  • video motion recognition tasks have made great progress, but mainly for video that has been cropped, that is, there is only one action in the video, and there is no redundant frame. Therefore, researchers began to study uncut video, that is, video motion detection tasks.
  • the Convolutional Neural Network has made great breakthroughs in image tasks and video motion recognition tasks. Therefore, researchers began to apply convolutional neural networks to video motion detection tasks. Some researchers have tried to extract the frame-level features of video using convolutional neural networks, and then combine traditional features. However, in this kind of method, the two-dimensional convolutional neural network is difficult to mine the motion information in the video, and the motion information plays an important role in the modeling of the action and the determination of the time boundary of the action (ie, the start time and the end time). .
  • Segment-CNN Segment-CNN
  • 3D CNN three-dimensional convolutional neural network
  • the first one is the Proposal Network, which performs a simple two-category of the segments, and removes the action segments into the second network;
  • the second is the Classification Network, which gives the specific category of the segment (including the category "background”).
  • the third is the Localization Network.
  • the Loss Function considers the coincidence rate of the clip and the actual video motion segment (Ground Truths), so that the more the overlap, the higher the confidence of the segment. Processing determines the time boundary of the action.
  • Video clips acquired at different sampling frequencies share a network for training, which will increase intra-class differences, make the network learning burden large, require more complex networks, and more training data.
  • the present invention provides a video motion detection method based on a convolutional neural network, which is a scheme in which the size of a video segment that does not require input is consistent.
  • a convolutional neural network which is a scheme in which the size of a video segment that does not require input is consistent.
  • the core features of the present invention are as follows: one is to add a space-time pyramid pooling layer between the last convolutional layer and the first full-connection layer of the traditional convolutional neural network; the second is to input the entire video into the network, at the last layer.
  • the feature map processes the features corresponding to the region of interest, acquires features of uniform size, inputs the fully connected layer, and classifies.
  • the space-time pyramid pooling layer is added.
  • the space-time pyramid pooling layer has the following advantages: First, regardless of the input size, the space-time pyramid pooling layer can provide uniform size output, while the traditional sliding window The pooling layer can't do this; second, the space-time pyramid pooling layer can provide multi-level and more robust spatio-temporal features, while the traditional pooling method can only provide a single level of features; third, due to the input Dimensions vary in size, and the space-time pyramid pooling layer can pool features extracted at different sizes.
  • an existing convolutional neural network consists of two parts: a convolutional layer and a fully connected layer thereafter.
  • the convolution layer operates in the form of a sliding window. Because of its weight sharing, the input size of the network is not required to be consistent, and a feature map of any size can be generated.
  • the fully connected layer requires a uniform input size because of its definition. Therefore, existing methods require fixed size inputs, especially video. In the existing method, the network needs the same size input, only because of the network.
  • the present invention adopts a space-time pyramid pooling layer as the last pooling layer of the 3D CNN network, that is, inserting a space-time pyramid pooling layer between the last convolutional layer and the first fully connected layer of the 3D CNN network, so that the network
  • the fully connected layer provides a uniform size input.
  • a video motion detection method based on convolutional neural network by adding a space-time pyramid pooling layer in the network structure, eliminating network input restrictions, speeding up training and testing, and improving video action classification and time positioning performance;
  • the convolutional neural network includes a convolutional layer, a common pooling layer, a space-time pyramid pooling layer, and a fully connected layer;
  • the classification confidence is the output of the fully connected layer softmax at the end of the model.
  • the video motion detection method based on the convolutional neural network adds a space-time pyramid pooling layer in the traditional network structure, so that the space-time pyramid pooling layer can pool the features extracted in different sizes regardless of the input size, and provide Uniform size output; in addition, the space-time pyramid pooling layer provides multi-level, more robust spatio-temporal features.
  • the training phase adopts a stochastic gradient descent method to learn the parameters until convergence.
  • the sample is obtained in the same way as the training phase. After the output is obtained, the segment with the highest score is selected, and the class of the action occurring in the video, and the start time and end time of the action occur.
  • the video motion detection method based on convolutional neural network increases the space-time pyramid pooling layer in the traditional network structure, and the technical advantages thereof include: First, regardless of the input size, the space-time pyramid pooling layer can provide a uniform size. The output, while the traditional sliding window pooling layer can not do this; second, the space-time pyramid pooling layer can provide multi-level, more robust spatio-temporal features, while the traditional pooling method can only provide a single level of features Third, due to the different sizes of the inputs, the space-time pyramid pooling layer can pool features extracted at different sizes.
  • the method of the invention can eliminate the limitation of the network on the input, speed up the training and the test, better excavate the motion information in the video, and improve the performance of the video action classification and the time positioning.
  • the technical solution of the present invention is used to detect the video recognition action, and the video segment of different time lengths is not required to be downloaded by downsampling, but the entire video is directly input, and the multiple input is changed into one input, thereby improving efficiency; Since the network trains video clips of the same frequency (both not downsampled), there is no increase in intra-class variability, which reduces the learning burden of the network, making the model converge faster and the detection effect is better.
  • FIG. 1 is a schematic diagram of the start time of video action and video action detection and recognition.
  • (a) is the training phase; (b) is the testing phase.
  • FIG. 4 is a structural block diagram of a convolutional neural network in which a space-time pyramid pooling layer is added to a network according to the present invention.
  • Figure 5 is a difference between three-dimensional convolution and two-dimensional convolution
  • the invention provides a video motion detection method based on a convolutional neural network, which is added when a traditional network structure is added.
  • the empty pyramid pooling layer eliminates the network's input restrictions, speeds up training and testing, and better mines the motion information in the video, so that the performance of video action classification and time positioning can be improved.
  • the invention does not require the input video segments to be of uniform size.
  • FIG. 3 is a flow chart of the training phase and the testing phase of the technical solution.
  • FIG. 4 is a structural block diagram of a convolutional neural network in which a space-time pyramid pooling layer is added to a network according to the present invention.
  • the space-time pyramid pooling layer can generate features of uniform size.
  • pooling can be divided into n levels. Set the size of the last layer of the feature map to W*H*T. The situation of each level is as follows:
  • the first level is the first level
  • k is set to 3.
  • the first level can be divided into 4*4*4 regions. If the size of the last layer feature map is W*H*T, the front left upper corner 3* The size of 3*3 areas is ( It is rounded down to the symbol), and the dimensions of the remaining areas are taken as the basis.
  • the second level we can divide into 2 * 2 * 2 areas, the calculation of each area size is similar to the first level.
  • the third level we can think of the entire feature map as an area.
  • the pooling method in each region can adopt Max Pooling, that is, take the maximum value.
  • one frame is taken every three frames, so that the number of frames in the input network is reduced, and the memory burden caused by the redundant frames is reduced.
  • the invention can obtain positive and negative samples by sliding window, that is, sliding for 75%, 31, 61, 121, 241, 481 with different time lengths and sliding at 75% overlap rate.
  • the present invention uses the "Intersection-over-Union (IoU)" method as a criterion for dividing positive and negative samples.
  • the positive sample satisfies one of the following two conditions: one, the IoU value is the largest with the true label; the second, and the actual label IoU value is greater than 0.7.
  • the second condition can get multiple positive samples in one video, so enough positive samples can be obtained if the second condition is met, but in some cases, the second condition cannot obtain positive samples, so Condition one ensures that there is at least one positive sample.
  • the negative sample satisfies the following conditions: the IoU value is less than 0.3 with the true label.
  • the feature of the last layer of the convolution layer corresponding to the sample is sent into the space-time pyramid convolution layer to obtain a uniform size feature, and then input to the next layer network.
  • the invention is implemented on a three-dimensional convolutional neural network structure.
  • the three-dimensional convolutional neural network treats the time dimension and the spatial dimension equally, and simultaneously performs a three-dimensional convolution kernel in the convolution operation, and also uses a three-dimensional pooling in the pooling operation.
  • the difference between two-dimensional convolution and three-dimensional convolution is shown in Figure 5.
  • all pooling operations use a maximum pooling operation, using a size of 2*2 in the spatial dimension, a step size of 2, and different layers in the time dimension; convolution of all convolution operations
  • the kernel size is 3*3*3, and the step size in the space-time dimension is 1.
  • Structure A with a fully connected layer is expressed as:
  • Structure B without a fully connected layer is represented as:
  • conv the number of convolution kernels
  • pool the kernel size of the time dimension, the step size of the time dimension
  • pool_pyramid represents the space-time pyramid pooling layer
  • fc the number of neurons
  • K is the number of categories of action classification
  • K+1 is an action with no specified category.
  • FCN Fully Convolutional Networks
  • the network has two output layers at the end, one is the category classification, and the other is the time-based regression calculation, which can be regarded as multi-task (2 tasks) learning.
  • the loss function can be defined as:
  • t u ⁇ v t u and v is the intersection
  • t u ⁇ v is t u and v and set.
  • Stochastic gradient descent can be used during the training phase to learn the parameters until convergence.
  • the batch size is 256, and the ratio of the positive and negative samples is 1:1. If the positive sample quantity is insufficient, the negative sample is supplemented.
  • Momentum can be set to 0.9.
  • the model trained on the Sports-1M dataset using the 3D convolutional network is used as the parameter for network initialization.
  • the learning rate of the fc8 layer of the all-connected layer is 0.01, and the learning rate of other layers is 0.0001. When the network converges, it drops to the original. 1/10, so stop training twice.
  • the sample is obtained in the same way as the training phase.
  • the output of the last category classification of the network is the confidence level. After the output is output, the segment with the highest confidence is selected, and the action type and action of the video are obtained.
  • the start time and end time of the occurrence that is, the output of the regression calculation at the last layer of the network).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种视频动作检测方法,涉及计算机视觉识别技术领域。本发明视频动作检测方法基于卷积神经网络,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;本发明方法不需要通过下采样来获取不同时间长度的视频片段,而是直接一次输入整个视频,提高了效率;同时,由于网络训练的是同一频率的视频片段,并无增加类内的差异性,降低了网络的学习负担,模型收敛得更快,检测效果更好。

Description

基于卷积神经网络的视频动作检测方法 技术领域
本发明涉及计算机视觉识别技术,尤其涉及一种基于卷积神经网络的视频动作检测方法。
背景技术
近些年来,几乎人手一部手机。每部手机上都有摄像头。加上互联网的发展和通信技术的进步,人们越来越喜欢拍摄视频,并且传播到互联网上,所以视频的数量呈爆发式增长,视频的储存和分析技术非常重要。
视频动作检测是指对视频中的动作进行分类,并且给出动作发生的开始时间和结束时间,示例如图1所示。近几年,视频动作识别任务取得了很大的进展,但是主要适用于已经裁剪好的视频,即视频中有且只有一个动作,没有冗余的帧。于是,学者开始着手研究未裁剪的视频,即视频动作检测任务。
视频任务过去所采用的主流方法是首先手工提取传统特征,而后结合建模方法。此类方法目前效果最好的是提取基于改进后的稠密轨迹(improved Dense Trajectory,iDT)的传统特征,结合费舍尔向量(Fisher Vector,FV)建模。
卷积神经网络(Convolutional Neural Network,CNN)在图片任务和视频动作识别任务上取得了很大的突破。于是,学者开始把卷积神经网络应用到视频动作检测任务上。有学者尝试用卷积神经网络提取视频中帧级别的特征,再结合传统特征。但这类方法中,二维的卷积神经网络难以挖掘视频中的运动信息,而运动信息对动作的建模和动作的时间边界(即开始时间和结束时间)的确定起着非常重要的作用。
针对这个局限,有学者运用三维(二维空间+时间)卷积神经网络(3D CNN),提出了分段卷积神经网络(Segment-CNN,S-CNN)。这类方法在视频中提取不同尺度的片段(Segment),用三个结构相同的网络对其进行处理,各网络特点分述如下:
第一个是候选网络(Proposal Network),对片段进行简单的二分类,剔除非动作片段,将动作片段输入第二个网络;
第二个是分类网络(Classification Network),给出片段的具体类别(包括类别“背景”)。用分类网络的参数初始化第三个网络;
第三个是定位网络(Localization Network),其损失函数(Loss Function)考虑了片段和实际视频动作片段(Ground Truths)的重合率,使得重合越多的片段的置信度越高,方便后 处理确定动作的时间边界。
但是,有学者认为上述方法中的三个网络独立工作,阻碍了其间的信息共享,而且在训练阶段会耗费大量的运算资源和时间,同时,总体效果的上限受到候选网络的限制。于是,他们提出了将三个阶段的网络整合为一个网络,进行多任务学习。但是,这些方法都有一个局限:即要求网络输入的视频片段的尺寸一致,尤其是视频片段的帧数一致。由于上述现有方法均通过控制下采样的频率来获取不同时间长度的片段,例如每2帧取1帧,每4帧取一帧,每8帧取1帧……,而这些不同采样频率获得的片段通过同一网络结构来处理,因此会导致以下问题:
(一)稀疏采样会破坏动作内的连续性,使得3D CNN学习不到较好的运动特征;
(二)不同采样频率获取的视频片段共用一个网络进行训练,会增加类内差异性,使网络学习负担大,需要更复杂的网络,和更多的训练数据。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于卷积神经网络的视频动作检测方法,这是一种不要求输入的视频片段尺寸一致的方案。本发明通过在传统网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和测试的速度,更好地挖掘视频中的运动信息,使视频动作分类和时间定位的性能都得以提高。
本发明的核心特点:一是在传统卷积神经网络最后一个卷积层和第一个全连接层之间中加入了一个时空金字塔池化层;二是把整个视频输入网络,在最后一层特征图对感兴趣区域对应的特征进行处理,获取统一尺寸的特征,输入全连接层,进行分类。在传统卷积神经网络结构中增加时空金字塔池化层,时空金字塔池化层有以下几方面优势:第一,不管输入尺寸如何,时空金字塔池化层能提供统一尺寸的输出,而传统滑动窗口式的池化层做不到这一点;第二,时空金字塔池化层能提供多层次、更鲁棒的时空特征,而传统池化方法只能提供单一层次的特征;第三,由于输入的尺寸各异,时空金字塔池化层能对在不同尺寸上提取的特征进行池化。
一般地,现有卷积神经网络由两部分组成:卷积层和其后的全连接层。卷积层以滑动窗口的形式进行操作,因其权重共享,其实并不要求网络的输入尺寸一致,且能生成任意尺寸的特征图。但是,全连接层因其定义,则需要统一的输入尺寸。因此,现有方法需要固定尺寸的输入,尤其是视频。而在现有方法中,网络之所以需要同一尺寸的输入,仅是因为网络 后面的全连接层。因此,本发明提出在3D CNN中增加时空金字塔池化层(Pooling Layers)来消除3D CNN网络对统一(固定)尺寸输入的限制。本发明采用时空金字塔池化层作为3D CNN网络最后一个池化层,即在3D CNN网络的最后一个卷积层和第一个全连接层之间插入一个时空金字塔池化层,使网络中的全连接层能获得统一尺寸的输入。
本发明提供的技术方案是:
一种基于卷积神经网络的视频动作检测方法,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和测试的速度,提高视频动作分类和时间定位的性能;所述卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;
包括如下步骤:
(一)在训练阶段,执行如下操作:
11)把训练视频整个输入到三维卷积神经网络(3D CNN)模型中,得到特征图;
12)在训练视频中获取不同长度的片段,根据实际视频动作片段(ground truth),从中挑选正样本和负样本,作为训练样本;
13)把训练样本在特征图中对应的特征区域输入到时空金字塔池化层,得到统一尺寸的特征表达;
14)把统一尺寸的特征输入到全连接层,定义损失函数,获取损失值;进行反向传播,调整模型中的参数,进行训练;
15)逐步降低训练的学习率,当训练损失已经不再下降时,便可得到已训练完毕的模型了;
(二)在检测阶段,执行如下操作:
21)把整个待检测视频输入到已训练完毕的模型中;
22)在待检测视频中提取不同长度的片段,在网络的特征层获取对应片段的特征区域,输入到时空金字塔池化层,得到统一尺寸的特征表达;
23)对统一尺寸的特征进行判别,得到分类置信度;最后选择置信度最高的为最终的定位结果和类别。分类置信度为模型最后的全连接层softmax的输出。
上述基于卷积神经网络的视频动作检测方法,在传统网络结构中增加时空金字塔池化层,使得不管输入尺寸如何,时空金字塔池化层能对在不同尺寸上提取的特征进行池化,且提供统一尺寸的输出;另外,时空金字塔池化层能提供多层次、更鲁棒的时空特征。在本发明实 施例中,训练阶段采用随机梯度下降方式,学习参数,直至收敛。在测试阶段,和训练阶段一样获取样本,得到输出后,再选取得分最高的片段,即可得到视频中所发生的动作的类别,以及动作发生的起始时间和结束时间。
与现有技术相比,本发明的有益效果是:
本发明提供的基于卷积神经网络的视频动作检测方法,通过在传统网络结构中增加时空金字塔池化层,其技术优势包括:第一,不管输入尺寸如何,时空金字塔池化层能提供统一尺寸的输出,而传统滑动窗口式的池化层做不到这一点;第二,时空金字塔池化层能提供多层次、更鲁棒的时空特征,而传统池化方法只能提供单一层次的特征;第三,由于输入的尺寸各异,时空金字塔池化层能对在不同尺寸上提取的特征进行池化。
本发明方法能够消除网络对输入的限制,加快训练和测试的速度,更好地挖掘视频中的运动信息,使视频动作分类和时间定位的性能都得以提高。具体地,采用本发明技术方案来检测识别视频动作,不需要通过下采样来获取不同时间长度的视频片段,而是直接输入整个视频,把多次输入变为一次输入,提高了效率;同时,由于网络训练的是同一频率(都没有经过下采样)的视频片段,并无增加类内的差异性,降低了网络的学习负担,使得模型收敛得更快,检测效果更好。
附图说明
图1是视频动作与视频动作检测识别的起始时间示意图。
图2是本发明方法与传统方法的不同流程框图;
其中,(a)为现有传统方法;(b)为本发明提供的方法。
图3是本技术方案训练阶段和测试阶段流程框图;
其中,(a)为训练阶段;(b)为测试阶段。
图4是本发明采用的在网络中加入时空金字塔池化层的卷积神经网络的结构框图。
图5是三维卷积与二维卷积的区别;
其中,(a)为二维卷积;(b)为三维卷积。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于卷积神经网络的视频动作检测方法,通过在传统网络结构中增加时 空金字塔池化层,消除网络对输入的限制,加快训练和测试的速度,更好地挖掘视频中的运动信息,使视频动作分类和时间定位的性能都得以提高。本发明不要求输入的视频片段尺寸一致。
如图2所示,由于传统卷积神经网络要求输入的视频片段尺寸一致,视频片段输入网络前需要经过下采样操作。而本发明则去除下采样过程,在最后一个卷积层和第一个全连接层之间插入了一个时空金字塔池化层。图3是本技术方案训练阶段和测试阶段流程框图。
图4是本发明采用的在网络中加入时空金字塔池化层的卷积神经网络的结构框图。如图4所示,时空金字塔池化层能生成统一尺寸的特征。其中,池化可分为n个层次。设定最后一层特征图的尺寸为W*H*T,各层次划分区域情况如下:
第一个层次:
我们把整个特征图看为一个区域,区域大小为W*H*T;
第k(k>1且k≤n)个层次:
我们把整个特征图划分为2k-1*2k-1*2k-1个区域,从前左上角开始划分,前左上角的(2k-1-1)*(2k-1-1)*(2k-1-1)个区域的大小为
Figure PCTCN2017097610-appb-000001
其余区域的大小在此基础上取所余,如
Figure PCTCN2017097610-appb-000002
Figure PCTCN2017097610-appb-000003
本发明具体实施时,设定k为3,第一个层次,我们可以划分为4*4*4个区域,如果最后一层特征图的尺寸为W*H*T,则前左上角3*3*3个区域的尺寸为
Figure PCTCN2017097610-appb-000004
Figure PCTCN2017097610-appb-000005
(
Figure PCTCN2017097610-appb-000006
是向下取整符号),其余区域的尺寸在此基础上取所余。第二个层次,我们可以划分为2*2*2个区域,各区域尺寸的计算和第一个层次相仿。第三个层次,我们可以把整个特征图看为一个区域。各区域内的池化方法可以采用最大池化法(Max Pooling),即取最大值。
输入样本处理:
如果把一个片段的每一帧都输入网络当中,会导致两个问题:其一,相邻两帧间变化较小,包含的运动信息也少,有点冗余;其二,输入网络的帧数较多,使得网络占用内存过大。
因此,本发明实施例以每三帧取一帧,使得输入网络的帧数减少,减轻冗余帧带来的内存负担。
本发明可以用滑动窗口的方式获取正负样本,即以16,31,61,121,241,481这些不同时间长度,以75%的重叠率滑动获取。本发明以“交集比并集(Intersection-over-Union,IoU)”方法作为划分正负样本的标准。
正样本满足以下两个条件之一即可:一,与真实标注IoU值最大;二,与真实标注IoU值大于0.7。
通常情况下,第二个条件可以在一个视频中获取多个正样本,所以满足第二个条件就可以获得足够多的正样本了,但有些情况下,第二个条件无法获得正样本,所以条件一可以确保至少有一个正样本。
负样本满足以下条件:与真实标注IoU值小于0.3。
其他既不是正样本也不是负样本的样本不参与训练。
把样本对应的最后一层卷积层的特征送入时空金字塔卷积层中,获得统一尺寸的特征,然后再输入到下一层网络。
网络结构:
本发明在三维卷积神经网络结构上进行实现。三维卷积神经网络将时间维度与空间维度同等对待,同时进行,在卷积操作中,采用三维卷积核,在池化操作中,也采用三维池化。二维卷积和三维卷积的区别如图5所示。
本发明实施例中,所有池化操作使用最大池化运算,在空间维度上使用2*2的大小,步长为2,在时间维度上,各层有所不同;所有卷积操作的卷积核大小为3*3*3,在时空维度的步长都是1。网络结构可以有2种,一种为带全连接层的结构,另一种为不带全连接层的结构,即全卷积结构。
带全连接层的结构A表示为:
conv1a(64)-pool1(1,1)-conv2a(128)-pool2(2,2)-conv3a(256)-conv3b(256)-pool3(2,2)-conv4a(512)-conv4b(512)-pool4(2,2)-conv5a(512)-conv5b(512)–pool_pyramid-fc6(4096)-fc7(4096)-fc8(K+1)
不带全连接层的结构B表示为:
conv1a(64)-pool1(1,1)-conv2a(128)-pool2(2,2)-conv3a(256)-conv3b(256)-pool3(2,2)-conv4a(512)-conv4b(512)-pool4(2,2)-conv5a(512)-conv5b(512)-pool_pyramid-fc8(K+1)
其中,conv(卷积核的数量)代表三维卷积层,pool(时间维度的核尺寸,时间维度的步长) 代表三维池化层,pool_pyramid代表时空金字塔池化层,fc(神经元数量)代表全连接层,K是动作分类的类别数量,K+1是加上了无指定类别的动作。不带全连接层的结构B是基于全卷积神经网络(Fully Convolutional Networks,FCN)的,相比带全连接层的结构A,B结构的参数数量更少。A、B两种结构变式皆可。
输出:
网络最后有两个输出层,一个是类别分类,另一个是时间定位的回归计算,可视为多任务(2个任务)学习。
损失函数可定义为:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v)      (式1)
其中,Lcls(p,u)=-log pu;p是样本在K+1个类别上的概率分布,p=(p0...,pk);u是真实的类别;v是样本所在时间轴上的真实位置(即开始时间和结束时间)v=(vb,ve);tu是计算得到的位置
Figure PCTCN2017097610-appb-000007
λ为控制2个任务的损失值之间的平衡的参数,其取值范围为0到正无穷大;[u≥1]表示当u所代表的类别是动作时等于1,否则为0;
Figure PCTCN2017097610-appb-000008
其中,tu∩v是tu和v的交集,tu∪v是tu和v的并集。
训练阶段:
在训练阶段可采用随机梯度下降,学习参数,直至收敛。本发明实施例中,批大小(batch size)为256,正负样本的比例为1:1,如果正样本数量不足,则由负样本补充。动量(momentum)可设为0.9。用三维卷积网络在Sports-1M数据集上训练得到的模型作为网络初始化的参数,全连接层fc8层的学习率为0.01,其他层的学习率为0.0001,当网络收敛时再降到原来的1/10,如此两次便停止训练。
测试阶段(检测):
在测试阶段,和训练阶段一样获取样本,网络最后一层类别分类的输出即为置信度,得到输出后,再选取置信度最高的片段,即可得到视频中所发生的动作的类别,以及动作发生的起始时间和结束时间(即网络最后一层时间定位回归计算的输出)。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

  1. 一种视频动作检测方法,基于卷积神经网络模型,所述卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;所述卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;所述视频动作检测方法分为训练阶段和检测阶段,包括如下步骤:
    (一)在训练阶段,执行如下操作:
    11)把训练视频整个输入到卷积神经网络模型中,得到特征图;
    12)在训练视频中获取不同长度的片段,根据实际视频动作片段ground truth,挑选出正样本和负样本,作为训练样本;
    13)把训练样本在特征图中对应的特征区域输入到时空金字塔池化层,得到统一尺寸的特征表达;
    14)把统一尺寸的特征输入到全连接层,通过定义损失函数获取损失值;再进行反向传播,调整模型中的参数,进行训练;
    15)逐步降低训练的学习率,当训练损失不再下降时,得到训练好的模型;
    (二)在检测阶段,执行如下操作:
    21)把待检测视频整个输入到步骤15)所述训练好的模型中;
    22)在待检测视频中提取不同长度的片段,在网络的特征层获取对应片段的特征区域,输入到时空金字塔池化层,得到统一尺寸的特征表达;
    23)对统一尺寸的特征进行判别,根据类别分类输出层得到分类置信度;选择置信度最高的分类,得到视频中所发生动作的类别;并根据网络输出层输出的时间定位计算结果,得到动作发生的起始时间和结束时间;由此实现视频动作检测。
  2. 如权利要求1所述视频动作检测方法,其特征是,所述卷积神经网络模型采用三维卷积神经网络。
  3. 如权利要求1所述视频动作检测方法,其特征是,在所述卷积神经网络中加入时空金字塔池化层,所述时空金字塔池化层分为n个层次,设定最后一层特征图的尺寸为W*H*T,按以下方法划分各层次的区域:
    第1个层次为整个特征图,区域大小为W*H*T;
    第k个层次:将整个特征图划分为2k-1*2k-1*2k-1个区域,从前左上角开始划分,前 左上角的(2k-1-1)*(2k-1-1)*(2k-1-1)个区域的大小为
    Figure PCTCN2017097610-appb-100001
    Figure PCTCN2017097610-appb-100002
    其余区域的大小在此基础上取所余,为
    Figure PCTCN2017097610-appb-100003
    Figure PCTCN2017097610-appb-100004
    其中1<k≤n。
  4. 如权利要求1所述视频动作检测方法,其特征是,所述正样本和负样本采用交集比并集方法进行划分。
  5. 如权利要求1所述视频动作检测方法,其特征是,所述损失函数定义为式1:
    Figure PCTCN2017097610-appb-100005
    其中,
    Lcls(p,u)=-log pu;p是样本在K+1个类别上的概率分布,p=(p0...,pk);
    Figure PCTCN2017097610-appb-100006
    tu∩v是tu和v的交集,tu∪v是tu和v的并集;
    u是真实的类别;
    v是样本所在时间轴上的真实位置,即开始时间和结束时间,v=(vb,ve);
    tu是计算得到的位置,
    Figure PCTCN2017097610-appb-100007
    [u≥1]表示当u所代表的类别是动作时等于1,否则等于0;
    λ为控制2个任务的损失值之间的平衡的参数,其取值范围为0到正无穷大。
  6. 如权利要求1所述视频动作检测方法,其特征是,在训练阶段采用随机梯度下降方式训练参数,直至收敛。
PCT/CN2017/097610 2017-03-23 2017-08-16 基于卷积神经网络的视频动作检测方法 Ceased WO2018171109A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/414,783 US11379711B2 (en) 2017-03-23 2017-08-16 Video action detection method based on convolutional neural network

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710177579.2A CN106897714B (zh) 2017-03-23 2017-03-23 一种基于卷积神经网络的视频动作检测方法
CN201710177579.2 2017-03-23

Publications (1)

Publication Number Publication Date
WO2018171109A1 true WO2018171109A1 (zh) 2018-09-27

Family

ID=59193099

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/097610 Ceased WO2018171109A1 (zh) 2017-03-23 2017-08-16 基于卷积神经网络的视频动作检测方法

Country Status (3)

Country Link
US (1) US11379711B2 (zh)
CN (1) CN106897714B (zh)
WO (1) WO2018171109A1 (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871778A (zh) * 2019-01-23 2019-06-11 长安大学 基于迁移学习的车道保持控制方法
CN109993151A (zh) * 2019-04-15 2019-07-09 方玉明 一种基于多模块全卷积网络的三维视频视觉注意力检测方法
CN110362907A (zh) * 2019-07-03 2019-10-22 安徽继远软件有限公司 基于ssd神经网络输电线路目标缺陷识别与诊断方法
CN110569814A (zh) * 2019-09-12 2019-12-13 广州酷狗计算机科技有限公司 视频类别识别方法、装置、计算机设备及计算机存储介质
CN110991219A (zh) * 2019-10-11 2020-04-10 东南大学 一种基于双路3d卷积网络的行为识别方法
CN111050219A (zh) * 2018-10-12 2020-04-21 奥多比公司 用于定位视频内容中的目标对象的空间-时间记忆网络
CN111242276A (zh) * 2019-12-27 2020-06-05 国网山西省电力公司大同供电公司 一种用于负荷电流信号识别的一维卷积神经网络构建方法
CN111325097A (zh) * 2020-01-22 2020-06-23 陕西师范大学 增强的单阶段解耦的时序动作定位方法
CN111339892A (zh) * 2020-02-21 2020-06-26 青岛联合创智科技有限公司 一种基于端到端3d卷积神经网络的泳池溺水检测方法
CN111553209A (zh) * 2020-04-15 2020-08-18 同济大学 一种基于卷积神经网络和时间序列图的司机行为识别方法
CN111582091A (zh) * 2020-04-27 2020-08-25 西安交通大学 基于多分支卷积神经网络的行人识别方法
CN111598169A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 一种模型训练方法、游戏测试方法、模拟操作方法及装置
CN111738044A (zh) * 2020-01-06 2020-10-02 西北大学 一种基于深度学习行为识别的校园暴力评估方法
CN111784633A (zh) * 2020-05-26 2020-10-16 西安理工大学 一种面向电力巡检视频的绝缘子缺损自动检测算法
CN111832336A (zh) * 2019-04-16 2020-10-27 四川大学 一种基于改进的c3d视频行为检测方法
CN112418164A (zh) * 2020-12-07 2021-02-26 公安部昆明警犬基地 一种多任务学习网络对警犬动作进行动态识别的方法
CN112686856A (zh) * 2020-12-29 2021-04-20 杭州优视泰信息技术有限公司 一种基于深度学习的实时肠镜息肉检测装置
CN113313682A (zh) * 2021-05-28 2021-08-27 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
CN113469088A (zh) * 2021-07-08 2021-10-01 西安电子科技大学 一种无源干扰场景下的sar图像舰船目标检测方法及系统
WO2021204143A1 (en) * 2020-04-08 2021-10-14 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Methods for action localization, electronic device and storage medium
CN113569758A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于动作三元组引导的时序动作定位方法、系统、设备及介质
CN113609918A (zh) * 2021-07-12 2021-11-05 河海大学 一种基于零次学习的短视频分类方法
CN113627499A (zh) * 2021-07-28 2021-11-09 中国科学技术大学 基于检查站柴油车尾气图像的烟度等级估算方法及设备
CN114511927A (zh) * 2022-01-20 2022-05-17 青岛联合创智科技有限公司 一种基于视频时序特征分析的泳池溺水行为判识方法
CN114863556A (zh) * 2022-04-13 2022-08-05 上海大学 一种基于骨骼姿态的多神经网络融合连续动作识别方法
CN115115987A (zh) * 2022-06-28 2022-09-27 北京颂泽科技有限公司 基于视觉视频分析技术的乒乓球智能导播技术方法
CN117809228A (zh) * 2024-02-27 2024-04-02 四川省川建勘察设计院有限公司 一种穿心锤锤击数统计方法

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018089210A1 (en) * 2016-11-09 2018-05-17 Konica Minolta Laboratory U.S.A., Inc. System and method of using multi-frame image features for object detection
CN106897714B (zh) * 2017-03-23 2020-01-14 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN108229280B (zh) * 2017-04-20 2020-11-13 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107463878A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别系统
CN107392131A (zh) * 2017-07-14 2017-11-24 天津大学 一种基于人体骨骼节点距离的动作识别方法
CN110730970B (zh) * 2017-09-20 2024-03-05 谷歌有限责任公司 优化策略控制器的方法和系统
US10482572B2 (en) 2017-10-06 2019-11-19 Ford Global Technologies, Llc Fusion of motion and appearance features for object detection and trajectory prediction
WO2019097784A1 (ja) * 2017-11-16 2019-05-23 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN107909041A (zh) * 2017-11-21 2018-04-13 清华大学 一种基于时空金字塔网络的视频识别方法
CN107945185B (zh) * 2017-11-29 2020-02-07 北京工商大学 基于宽残差金字塔池化网络的图像分割方法及系统
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN108734095B (zh) * 2018-04-10 2022-05-20 南京航空航天大学 一种基于3d卷积神经网络的动作检测方法
CN108564065B (zh) * 2018-04-28 2020-02-21 广东电网有限责任公司 一种基于ssd的电缆隧道明火识别方法
CN108665769B (zh) * 2018-05-11 2021-04-06 深圳市鹰硕技术有限公司 基于卷积神经网络的网络教学方法以及装置
CN108664931B (zh) * 2018-05-11 2022-03-01 中国科学技术大学 一种多阶段视频动作检测方法
US11521044B2 (en) * 2018-05-17 2022-12-06 International Business Machines Corporation Action detection by exploiting motion in receptive fields
CN110533053B (zh) * 2018-05-23 2022-12-06 杭州海康威视数字技术股份有限公司 一种事件检测方法、装置及电子设备
CN108875610B (zh) * 2018-06-05 2022-04-05 北京大学深圳研究生院 一种基于边界查找的用于视频中动作时间轴定位的方法
CN108830209B (zh) * 2018-06-08 2021-12-17 西安电子科技大学 基于生成对抗网络的遥感图像道路提取方法
CN108830212B (zh) * 2018-06-12 2022-04-22 北京大学深圳研究生院 一种视频行为时间轴检测方法
CN110632608B (zh) * 2018-06-21 2022-02-22 北京京东乾石科技有限公司 一种基于激光点云的目标检测方法和装置
CN108769674B (zh) * 2018-06-27 2019-11-12 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法
CN109146058B (zh) * 2018-07-27 2022-03-01 中国科学技术大学 具有变换不变能力且表达一致的卷积神经网络
CN109271876B (zh) * 2018-08-24 2021-10-15 南京理工大学 基于时间演化建模和多示例学习的视频动作检测方法
CN109033476B (zh) * 2018-09-11 2022-04-01 北京航空航天大学 一种基于事件线索网络的智能时空数据事件分析方法
CN109325435B (zh) * 2018-09-15 2022-04-19 天津大学 基于级联神经网络的视频动作识别及定位方法
CN109409241B (zh) * 2018-09-28 2024-11-22 百度在线网络技术(北京)有限公司 视频核验方法、装置、设备及可读存储介质
CN109376773A (zh) * 2018-09-30 2019-02-22 福州大学 基于深度学习的裂纹检测方法
CN109492579B (zh) * 2018-11-08 2022-05-10 广东工业大学 一种基于st-sin的视频物体检测方法及系统
CN109784150B (zh) * 2018-12-06 2023-08-01 东南大学 基于多任务时空卷积神经网络的视频驾驶员行为识别方法
CN109376747A (zh) * 2018-12-11 2019-02-22 北京工业大学 一种基于双流卷积神经网络的视频火焰检测方法
CN109697434B (zh) * 2019-01-07 2021-01-08 腾讯科技(深圳)有限公司 一种行为识别方法、装置和存储介质
CN109919011A (zh) * 2019-01-28 2019-06-21 浙江工业大学 一种基于多时长信息的动作视频识别方法
CN109961061A (zh) * 2019-04-15 2019-07-02 艾物智联(北京)科技有限公司 一种边缘计算视频数据结构化方法及系统
CN110188794B (zh) * 2019-04-23 2023-02-28 深圳大学 一种深度学习模型的训练方法、装置、设备及存储介质
CN110070052A (zh) * 2019-04-24 2019-07-30 广东工业大学 一种基于人类演示视频的机器人控制方法、装置和设备
CN110110651B (zh) * 2019-04-29 2023-06-13 齐鲁工业大学 基于时空重要性和3d cnn的视频中行为识别方法
US11669743B2 (en) * 2019-05-15 2023-06-06 Huawei Technologies Co., Ltd. Adaptive action recognizer for video
CN110236530A (zh) * 2019-06-20 2019-09-17 武汉中旗生物医疗电子有限公司 一种心电信号qrs波群定位方法、装置及计算机存储介质
CN112308885B (zh) * 2019-07-29 2024-09-27 顺丰科技有限公司 基于光流的暴力抛扔检测方法、装置、设备和存储介质
WO2021041337A1 (en) * 2019-08-23 2021-03-04 Memorial Sloan Kettering Cancer Center Multi-task learning for dense object detection
CN111368682B (zh) * 2020-02-27 2023-12-12 上海电力大学 一种基于faster RCNN台标检测与识别的方法及系统
CN111353428B (zh) * 2020-02-28 2022-05-24 北京市商汤科技开发有限公司 动作信息识别方法、装置、电子设备及存储介质
CN113408328B (zh) * 2020-03-16 2023-06-23 哈尔滨工业大学(威海) 基于毫米波雷达的手势分割与识别算法
CN113453040B (zh) * 2020-03-26 2023-03-10 华为技术有限公司 短视频的生成方法、装置、相关设备及介质
CN111461298A (zh) * 2020-03-26 2020-07-28 广西电网有限责任公司电力科学研究院 一种用于断路器故障识别的卷积神经网络及方法
CN111461259B (zh) * 2020-04-26 2023-11-28 武汉大学 基于红黑形态小波池化网络的图像分类方法及系统
CN111652226B (zh) * 2020-04-30 2024-05-10 平安科技(深圳)有限公司 基于图片的目标识别方法、装置及可读存储介质
CN111723692B (zh) * 2020-06-03 2022-08-09 西安交通大学 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
CN113781519A (zh) * 2020-06-09 2021-12-10 华为技术有限公司 目标跟踪方法和目标跟踪装置
CN111898440B (zh) * 2020-06-30 2023-12-01 成都思晗科技股份有限公司 一种基于三维卷积神经网络的山火检测方法
CN111881802B (zh) * 2020-07-22 2023-03-28 清华大学 基于双分支时空图卷积网络的交警手势识别方法
CN111985409B (zh) * 2020-08-21 2021-03-16 四川省人工智能研究院(宜宾) 一种用于实时街道场景分割的方法
CN112069966B (zh) * 2020-08-31 2023-11-28 中国计量大学 基于改进型lstm网络的表面粗糙度预测方法
CN112217792A (zh) * 2020-09-04 2021-01-12 中国人民解放军战略支援部队信息工程大学 一种支持变长输入的加密恶意流量检测装置和方法
CN112085102B (zh) * 2020-09-10 2023-03-10 西安电子科技大学 基于三维时空特征分解的无参考视频质量评价方法
CN112131995A (zh) * 2020-09-16 2020-12-25 北京影谱科技股份有限公司 一种动作分类方法、装置、计算设备、以及存储介质
CN112101253B (zh) * 2020-09-18 2024-07-12 广东机场白云信息科技有限公司 一种基于视频动作识别的民用机场地面保障状态识别方法
CN112163489A (zh) * 2020-09-21 2021-01-01 南京特殊教育师范学院 基于深度学习技术的危险犬只识别预警系统
US11792438B2 (en) * 2020-10-02 2023-10-17 Lemon Inc. Using neural network filtering in video coding
CN112257643A (zh) * 2020-10-30 2021-01-22 天津天地伟业智能安全防范科技有限公司 一种基于视频流的抽烟行为和打电话行为识别方法
CN112418005B (zh) * 2020-11-06 2024-05-28 北京工业大学 一种基于反向辐射注意力金字塔网络的烟雾多分类识别方法
CN112380954A (zh) * 2020-11-10 2021-02-19 四川长虹电器股份有限公司 一种基于图像识别的视频分类截取系统及方法
CN112487967A (zh) * 2020-11-30 2021-03-12 电子科技大学 一种基于三维卷积网络的景区涂画行为识别方法
CN112464835A (zh) * 2020-12-03 2021-03-09 北京工商大学 一种基于时序增强模块的视频人体行为识别方法
CN112508014A (zh) * 2020-12-04 2021-03-16 东南大学 一种基于注意力机制的改进YOLOv3目标检测方法
CN112699786B (zh) * 2020-12-29 2022-03-29 华南理工大学 一种基于空间增强模块的视频行为识别方法及系统
CN112966547A (zh) * 2021-01-05 2021-06-15 北京市燃气集团有限责任公司 一种基于神经网络的燃气现场异常行为识别预警方法、系统、终端及存储介质
US11902548B2 (en) 2021-03-16 2024-02-13 Huawei Technologies Co., Ltd. Systems, methods and computer media for joint attention video processing
CN113011322B (zh) * 2021-03-17 2023-09-05 贵州安防工程技术研究中心有限公司 监控视频特定异常行为的检测模型训练方法及检测方法
CN113158962A (zh) * 2021-05-06 2021-07-23 北京工业大学 一种基于YOLOv4的泳池溺水检测方法
CN113536916B (zh) * 2021-06-10 2024-02-13 杭州电子科技大学 一种基于骨骼信息的分组混淆图卷积动作识别方法
CN113524175B (zh) * 2021-06-22 2022-08-12 香港理工大学深圳研究院 一种基于多模态行为在线预测的人机协作方法和系统
CN113743188B (zh) * 2021-06-28 2024-02-09 杭州电子科技大学 一种基于特征融合的互联网视频低俗行为检测方法
KR20220153088A (ko) * 2021-07-01 2022-11-17 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 비디오 태그 추천 모델의 트레이닝 방법 및 비디오 태그 확정 방법
CN113806463B (zh) * 2021-09-06 2023-04-28 北京信息科技大学 一种基于时空金字塔匹配的轨迹相似度计算方法
CN113537164B (zh) * 2021-09-15 2021-12-07 江西科技学院 一种实时的动作时序定位方法
CN113870281B (zh) * 2021-09-17 2025-03-14 海南大学 一种基于金字塔机制的遥感影像海洋与非海区域分割方法
CN113869181B (zh) * 2021-09-24 2023-05-02 电子科技大学 一种选择池化核结构的无人机目标检测方法
CN113887419B (zh) * 2021-09-30 2023-05-12 四川大学 一种基于提取视频时空信息的人体行为识别方法及系统
CN113935373B (zh) * 2021-10-11 2024-11-19 南京邮电大学 基于相位信息和信号强度的人体动作识别方法
KR20230077330A (ko) * 2021-11-25 2023-06-01 삼성전자주식회사 시공간 자기-유사도를 이용하는 전자 장치 및 그 동작 방법
CN114419486B (zh) * 2021-12-24 2025-02-14 南京创思奇科技有限公司 一种基于新型记忆网络的视频异常检测方法
CN114596463B (zh) * 2022-02-28 2025-03-04 复旦大学 一种基于图像的地块类型分类方法
CN114781431B (zh) * 2022-03-21 2024-10-01 大连理工大学 基于跨模态迁移的人体行为数据标注及识别系统与方法
CN114881085B (zh) * 2022-05-18 2024-09-06 华中科技大学 基于空-时-频特征金字塔网络的模式识别系统
CN114998989B (zh) * 2022-05-25 2025-06-10 杭州电子科技大学 一种基于动态实例交互头的稀疏时序动作检测方法
CN114758285B (zh) * 2022-06-14 2022-10-14 山东省人工智能研究院 基于锚自由和长时注意力感知的视频交互动作检测方法
CN114973107B (zh) * 2022-06-24 2023-03-24 山东省人工智能研究院 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法
CN115294644B (zh) * 2022-06-24 2024-07-02 北京昭衍新药研究中心股份有限公司 一种基于3d卷积参数重构的快速猴子行为识别方法
CN118196672A (zh) * 2022-12-12 2024-06-14 顺丰科技有限公司 暴力分拣识别方法、装置、计算机设备及存储介质
CN116543204B (zh) * 2023-04-25 2025-09-23 合肥工业大学 基于3d卷积神经网络和位移响应的金属板裂纹识别方法
CN116484227B (zh) * 2023-05-04 2024-09-10 西北工业大学 用于机弹对抗末端机动规避指标生成的神经网络建模方法
CN116662928A (zh) * 2023-05-16 2023-08-29 郑州恒达智控科技股份有限公司 一种用于实时轴承故障诊断的金字塔型时间卷积网络结构及诊断方法
CN117392760B (zh) * 2023-12-12 2024-04-23 河海大学 一种基于折半交叉网络的健康指导方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933417A (zh) * 2015-06-26 2015-09-23 苏州大学 一种基于稀疏时空特征的行为识别方法
US20160104056A1 (en) * 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Spatial pyramid pooling networks for image processing
CN105894045A (zh) * 2016-05-06 2016-08-24 电子科技大学 一种基于空间金字塔池化的深度网络模型的车型识别方法
CN105955708A (zh) * 2016-05-09 2016-09-21 西安北升信息科技有限公司 一种基于深度卷积神经网络的体育视频镜头分类方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
WO2016065534A1 (zh) * 2014-10-28 2016-05-06 中国科学院自动化研究所 一种基于深度学习的歩态识别方法
US10929977B2 (en) * 2016-08-25 2021-02-23 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US9836853B1 (en) * 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
US10810485B2 (en) * 2016-09-13 2020-10-20 Intel Corporation Dynamic context-selective convolutional neural network for time series data classification
KR102835519B1 (ko) * 2016-09-28 2025-07-17 에스케이하이닉스 주식회사 합성곱 신경망의 연산 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160104056A1 (en) * 2014-10-09 2016-04-14 Microsoft Technology Licensing, Llc Spatial pyramid pooling networks for image processing
CN104933417A (zh) * 2015-06-26 2015-09-23 苏州大学 一种基于稀疏时空特征的行为识别方法
CN105894045A (zh) * 2016-05-06 2016-08-24 电子科技大学 一种基于空间金字塔池化的深度网络模型的车型识别方法
CN105955708A (zh) * 2016-05-09 2016-09-21 西安北升信息科技有限公司 一种基于深度卷积神经网络的体育视频镜头分类方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111050219A (zh) * 2018-10-12 2020-04-21 奥多比公司 用于定位视频内容中的目标对象的空间-时间记忆网络
CN109871778B (zh) * 2019-01-23 2022-11-15 长安大学 基于迁移学习的车道保持控制方法
CN109871778A (zh) * 2019-01-23 2019-06-11 长安大学 基于迁移学习的车道保持控制方法
CN109993151A (zh) * 2019-04-15 2019-07-09 方玉明 一种基于多模块全卷积网络的三维视频视觉注意力检测方法
CN111832336A (zh) * 2019-04-16 2020-10-27 四川大学 一种基于改进的c3d视频行为检测方法
CN111832336B (zh) * 2019-04-16 2022-09-02 四川大学 一种基于改进的c3d视频行为检测方法
CN110362907A (zh) * 2019-07-03 2019-10-22 安徽继远软件有限公司 基于ssd神经网络输电线路目标缺陷识别与诊断方法
CN110362907B (zh) * 2019-07-03 2023-10-20 安徽继远软件有限公司 基于ssd神经网络输电线路目标缺陷识别与诊断方法
CN110569814A (zh) * 2019-09-12 2019-12-13 广州酷狗计算机科技有限公司 视频类别识别方法、装置、计算机设备及计算机存储介质
CN110569814B (zh) * 2019-09-12 2023-10-13 广州酷狗计算机科技有限公司 视频类别识别方法、装置、计算机设备及计算机存储介质
CN110991219A (zh) * 2019-10-11 2020-04-10 东南大学 一种基于双路3d卷积网络的行为识别方法
CN110991219B (zh) * 2019-10-11 2024-02-06 东南大学 一种基于双路3d卷积网络的行为识别方法
CN111242276A (zh) * 2019-12-27 2020-06-05 国网山西省电力公司大同供电公司 一种用于负荷电流信号识别的一维卷积神经网络构建方法
CN111242276B (zh) * 2019-12-27 2023-08-25 国网山西省电力公司大同供电公司 一种用于负荷电流信号识别的一维卷积神经网络构建方法
CN111738044A (zh) * 2020-01-06 2020-10-02 西北大学 一种基于深度学习行为识别的校园暴力评估方法
CN111738044B (zh) * 2020-01-06 2024-01-19 西北大学 一种基于深度学习行为识别的校园暴力评估方法
CN111325097A (zh) * 2020-01-22 2020-06-23 陕西师范大学 增强的单阶段解耦的时序动作定位方法
CN111339892A (zh) * 2020-02-21 2020-06-26 青岛联合创智科技有限公司 一种基于端到端3d卷积神经网络的泳池溺水检测方法
CN111339892B (zh) * 2020-02-21 2023-04-18 青岛联合创智科技有限公司 一种基于端到端3d卷积神经网络的泳池溺水检测方法
US12175757B2 (en) 2020-04-08 2024-12-24 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Methods for action localization, electronic device and non-transitory computer-readable storage medium
WO2021204143A1 (en) * 2020-04-08 2021-10-14 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Methods for action localization, electronic device and storage medium
CN111553209A (zh) * 2020-04-15 2020-08-18 同济大学 一种基于卷积神经网络和时间序列图的司机行为识别方法
CN111553209B (zh) * 2020-04-15 2023-05-12 同济大学 一种基于卷积神经网络和时间序列图的司机行为识别方法
CN111582091A (zh) * 2020-04-27 2020-08-25 西安交通大学 基于多分支卷积神经网络的行人识别方法
CN111582091B (zh) * 2020-04-27 2023-05-02 西安交通大学 基于多分支卷积神经网络的行人识别方法
CN111598169A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 一种模型训练方法、游戏测试方法、模拟操作方法及装置
CN111598169B (zh) * 2020-05-18 2023-04-07 腾讯科技(深圳)有限公司 一种模型训练方法、游戏测试方法、模拟操作方法及装置
CN111784633A (zh) * 2020-05-26 2020-10-16 西安理工大学 一种面向电力巡检视频的绝缘子缺损自动检测算法
CN111784633B (zh) * 2020-05-26 2024-02-06 西安理工大学 一种面向电力巡检视频的绝缘子缺损自动检测算法
CN112418164A (zh) * 2020-12-07 2021-02-26 公安部昆明警犬基地 一种多任务学习网络对警犬动作进行动态识别的方法
CN112686856A (zh) * 2020-12-29 2021-04-20 杭州优视泰信息技术有限公司 一种基于深度学习的实时肠镜息肉检测装置
CN113313682A (zh) * 2021-05-28 2021-08-27 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
CN113313682B (zh) * 2021-05-28 2023-03-21 西安电子科技大学 基于时空多尺度分析的无参考视频质量评价方法
CN113469088A (zh) * 2021-07-08 2021-10-01 西安电子科技大学 一种无源干扰场景下的sar图像舰船目标检测方法及系统
CN113609918A (zh) * 2021-07-12 2021-11-05 河海大学 一种基于零次学习的短视频分类方法
CN113609918B (zh) * 2021-07-12 2023-10-13 河海大学 一种基于零次学习的短视频分类方法
CN113627499A (zh) * 2021-07-28 2021-11-09 中国科学技术大学 基于检查站柴油车尾气图像的烟度等级估算方法及设备
CN113627499B (zh) * 2021-07-28 2024-04-02 中国科学技术大学 基于检查站柴油车尾气图像的烟度等级估算方法及设备
CN113569758A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于动作三元组引导的时序动作定位方法、系统、设备及介质
CN113569758B (zh) * 2021-07-29 2024-04-02 西安交通大学 基于动作三元组引导的时序动作定位方法、系统、设备及介质
CN114511927A (zh) * 2022-01-20 2022-05-17 青岛联合创智科技有限公司 一种基于视频时序特征分析的泳池溺水行为判识方法
CN114511927B (zh) * 2022-01-20 2024-10-22 青岛联合创智科技有限公司 一种基于视频时序特征分析的泳池溺水行为判识方法
CN114863556A (zh) * 2022-04-13 2022-08-05 上海大学 一种基于骨骼姿态的多神经网络融合连续动作识别方法
CN115115987A (zh) * 2022-06-28 2022-09-27 北京颂泽科技有限公司 基于视觉视频分析技术的乒乓球智能导播技术方法
CN117809228A (zh) * 2024-02-27 2024-04-02 四川省川建勘察设计院有限公司 一种穿心锤锤击数统计方法
CN117809228B (zh) * 2024-02-27 2024-04-30 四川省川建勘察设计院有限公司 一种穿心锤锤击数统计方法

Also Published As

Publication number Publication date
US11379711B2 (en) 2022-07-05
US20200057935A1 (en) 2020-02-20
CN106897714B (zh) 2020-01-14
CN106897714A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
WO2018171109A1 (zh) 基于卷积神经网络的视频动作检测方法
CN108229338B (zh) 一种基于深度卷积特征的视频行为识别方法
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN105701508B (zh) 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法
CN110852383B (zh) 基于注意力机制深度学习网络的目标检测方法及装置
CN112529005B (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
CN111401516A (zh) 一种神经网络通道参数的搜索方法及相关设备
CN110941995A (zh) 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
WO2019228317A1 (zh) 人脸识别方法、装置及计算机可读介质
CN110570458A (zh) 一种基于内部裁剪和多层特征信息融合的目标跟踪方法
CN113239865B (zh) 基于深度学习的车道线检测方法
CN107529650A (zh) 网络模型的构建和闭环检测方法、相应装置及计算机设备
CN105205475A (zh) 一种动态手势识别方法
CN107680106A (zh) 一种基于Faster R‑CNN的显著性目标检测方法
CN107844785B (zh) 一种基于尺度估计的人脸检测方法
WO2018028255A1 (zh) 基于对抗网络的图像显著性检测方法
WO2017096758A1 (zh) 图像分类方法、电子设备和存储介质
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN117152625B (zh) 一种基于CoordConv和YOLOv5的遥感小目标识别方法、系统、设备及介质
CN111783523A (zh) 一种遥感影像旋转目标检测方法
CN105869173A (zh) 一种立体视觉显著性检测方法
CN112733942A (zh) 一种基于多级特征自适应融合的变尺度目标检测方法
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110490136A (zh) 一种基于知识蒸馏的人体行为预测方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17901692

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17901692

Country of ref document: EP

Kind code of ref document: A1