CN116645717A

CN116645717A - 一种基于PCANet+和LSTM的微表情识别方法及系统

Info

Publication number: CN116645717A
Application number: CN202310681811.1A
Authority: CN
Inventors: 姚俊峰; 王仕琪; 龙飞
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-08-25
Anticipated expiration: 2043-06-09
Also published as: CN116645717B

Abstract

本发明提供了表情识别技术领域的一种基于PCANet+和LSTM的微表情识别方法及系统，方法包括：步骤S10、对人像视频中的各帧人头图像的人脸进行关键点检测；步骤S20、基于关键点对人头图像进行预处理得到若干张人脸图像；步骤S30、对人脸图像的帧数进行归一化；步骤S40、对各人脸图像进行光流计算，得到光流图像序列；步骤S50、将光流图像序列输入PCANet+网络得到若干张特征图，对各特征图进行加权平均得到一张二维特征图；步骤S60、基于关键点从二维特征图中截取特征区域，将各特征区域输入LSTM网络提取时序特征并进行加权求合得到不同类别微表情的分数；步骤S70、使用Softmax函数将分数映射为不同类别微表情的概率。本发明的优点在于：极大的提升了微表情的识别效果。

Description

一种基于PCANet+和LSTM的微表情识别方法及系统

技术领域

本发明涉及表情识别技术领域，特别指一种基于PCANet+和LSTM的微表情识别方法及系统。

背景技术

随着科技的进步，人工智能也在不断发展，其中便包括表情识别技术，通过自动识别视频中人物的微表情，可快速判断当前人物的心情以及心理活动。然而，传统上基于深度学习的微表情识别方法往往包含较深的网络层次，因此参数过多，在对数据量较少的微表情进行识别的过程中容易出现过拟合，且二维卷积神经网络无法提取微表情的完整时序信息，导致微表情的识别效果欠佳。

因此，如何提供一种基于PCANet+和LSTM的微表情识别方法及系统，实现提升微表情的识别效果，成为一个亟待解决的技术问题。

发明内容

本发明要解决的技术问题，在于提供一种基于PCANet+和LSTM的微表情识别方法及系统，实现提升微表情的识别效果。

第一方面，本发明提供了一种基于PCANet+和LSTM的微表情识别方法，包括如下步骤：

步骤S10、获取人像视频，对所述人像视频中的各帧人头图像的人脸进行关键点检测；

步骤S20、基于各所述关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理，得到若干张人脸图像；

步骤S30、对所述人脸图像的帧数进行归一化；

步骤S40、对各所述人脸图像进行光流计算，得到光流图像序列；

步骤S50、将所述光流图像序列输入PCANet+网络进行空间特征提取，得到若干张特征图，对各所述特征图进行加权平均得到一张二维特征图；

步骤S60、基于各所述关键点从二维特征图中截取特征区域，将各所述特征区域输入LSTM网络提取时序特征，对各所述时序特征进行加权求合得到不同类别微表情的分数；

步骤S70、使用Softmax函数将所述分数映射为不同类别微表情的概率，以完成微表情的识别。

进一步地，所述步骤S10具体为：

获取人像视频，通过主动形状模型对所述人像视频中的各帧人头图像的人脸进行68个关键点的检测。

进一步地，所述步骤S20具体为：

从各所述关键点获取各帧人头图像中左眼内角点和右眼内角点，基于所述左眼内角点和右眼内角点的连线对各帧人头图像进行旋转对齐，再基于各所述关键点对人头图像中的人脸区域进行剪裁，将剪裁后的各所述人脸区域缩放到统一尺寸，以完成各帧所述人头图像的预处理，得到若干张人脸图像。

进一步地，所述步骤S30具体为：

对各帧所述人脸图像进行灰度处理后，利用时间插值算法对所述人脸图像的帧数进行归一化。

进一步地，所述步骤S60中，所述特征区域至少包括眉毛区域、眼睛区域、嘴巴区域以及鼻翼区域。

第二方面，本发明提供了一种基于PCANet+和LSTM的微表情识别系统，包括如下模块：

关键点检测模块，用于获取人像视频，对所述人像视频中的各帧人头图像的人脸进行关键点检测；

人头图像预处理模块，用于基于各所述关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理，得到若干张人脸图像；

帧数归一化模块，用于对所述人脸图像的帧数进行归一化；

光流计算模块，用于对各所述人脸图像进行光流计算，得到光流图像序列；

PCANet+特征提取模块，用于将所述光流图像序列输入PCANet+网络进行空间特征提取，得到若干张特征图，对各所述特征图进行加权平均得到一张二维特征图；

LSTM特征提取模块，用于基于各所述关键点从二维特征图中截取特征区域，将各所述特征区域输入LSTM网络提取时序特征，对各所述时序特征进行加权求合得到不同类别微表情的分数；

分数映射模块，用于使用Softmax函数将所述分数映射为不同类别微表情的概率，以完成微表情的识别。

进一步地，所述关键点检测模块具体用于：

进一步地，所述人头图像预处理模块具体用于：

进一步地，所述帧数归一化模块具体用于：

进一步地，所述LSTM特征提取模块中，所述特征区域至少包括眉毛区域、眼睛区域、嘴巴区域以及鼻翼区域。

本发明的优点在于：

通过对获取的人像视频中的各帧人头图像的人脸进行关键点检测，基于各关键点对各帧人头图像进行对齐、剪裁以及缩放的预处理，得到若干张人脸图像，并对人脸图像的帧数进行归一化；接着对各人脸图像进行光流计算得到光流图像序列，将光流图像序列输入PCANet+网络进行空间特征提取和加权平均得到一张二维特征图；从二维特征图中截取特征区域输入LSTM网络提取时序特征，对各时序特征进行加权求合得到不同类别微表情的分数，最后使用Softmax函数将分数映射为不同类别微表情的概率，以完成微表情的识别；即结合了PCANet+网络和LSTM网络，通过PCANet+网络提取空间特征，通过LSTM网络提取时序特征，有效提取微表情的时空特征，且PCANet+网络可以直接通过当前层的输入计算本层的网络参数，减少了网络的参数和计算量，避免出现过拟合，最终极大的提升了微表情的识别效果。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种基于PCANet+和LSTM的微表情识别方法的流程图。

图2是本发明一种基于PCANet+和LSTM的微表情识别系统的结构示意图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：结合PCANet+网络和LSTM网络，通过PCANet+网络提取空间特征，通过LSTM网络提取时序特征，以有效提取微表情的时空特征，PCANet+网络可以直接通过当前层的输入计算本层的网络参数，减少了网络的参数和计算量，避免出现过拟合，以提升微表情的识别效果。

请参照图1至图2所示，本发明一种基于PCANet+和LSTM的微表情识别方法的较佳实施例，包括如下步骤：

步骤S30、对所述人脸图像的帧数进行归一化；

考虑到微表情只在人脸的部分区域有较为明显的运动，因此并不是所有的面部区域都有助于微表情的分类，因此从二维特征图中截取特征区域。

所述步骤S10具体为：

主动形状模型是在点分布模型的基础上建立的，在检测人脸时综合考虑了图像的灰度、大小、形状和大致位置等先验知识，通过对训练集标注的特征点进行学习，获取训练图像样本特征点分布的统计模型，并以此为初始位置，通过不断迭代得到目标图像的形状模型，最后在测试集上应用形状约束，搜索最佳匹配的点，从而实现对人脸特征点(关键点)的定位。

所述步骤S20具体为：

为了消除头部转动和偏移给微表情识别带来的影响，需要根据检测到的关键点对人头图像进行人脸对齐；由于左眼内角和右眼内角的特征点在人脸中的相对位置是比较稳定的，不会因为面部肌肉运动而发生改变，因此本发明根据左眼内角点和右眼内角点的连线进行水平对齐，然后根据对齐后的图像以及关键点对人脸区域进行剪裁，去除人头图像中的衣服、背景和头发等与微表情无关的区域；由于人头图像中头部的旋转以及距摄像头远近等因素的变化，剪裁得到的人脸图像大小并不完全一致，为了适应后续网络对输入尺寸的要求，需要对尺寸进行统一。

所述步骤S30具体为：

由于微表情在采集过程中持续的时间不同以及不同数据集使用的相机帧率不同，导致得到的微表情图像序列长短不一致，且本发明在提取微表情特征时，需要使用LSTM网络，为了便于后续LSTM网络的处理，在数据预处理时需要使用时间插值算法将微表情样本序列(人脸图像)的帧数归一化。时间插值算法最早用于唇语识别，是一种基于流的插值方法，它将整个微表情序列映射为一个曲线，序列中的每个帧对应曲线中的一个点，然后在曲线上重新采样得到插值后的图像序列。

所述步骤S40中，光流是图像平面上的一个二维向量场，描述了一个视频序列中连续两帧的像素运动的瞬时速度；为了提高PCANet+网络特征学习的效果，本发明对微表情的图像序列(人脸图像)进行密集光流计算，以增强面部运动信息。光流计算依赖两个基本假设：1、亮度保持不变，即物体在运动及拍摄过程中对应位置像素的亮度在图像序列中是保持不变的；2、时间连续性，即相邻帧之间目标像素的运动不能过于剧烈，这样可以保证像素坐标在时间上连续可微。

光流计算过程如下：

光流法将一个图像序列表示为一个三维矩阵，序列中的某个像素的亮度表示为I(x,y,t)，其中x,y,t为其时空坐标，该像素经过Δt的时间到达下一帧，并且在图像中完成了Δx,Δy的位移，根据亮度保持不变的假设，运动前后像素的强度恒定，得到如下公式：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt)---------------------------(1)

根据时间连续性的假设，对公式(1)的右侧进行泰勒展开，得到如下公式：

其中，ε表示高阶无穷小，可忽略；将公式(2)代入公式(1)并除以Δt，得到如下公式：

令u和v分别表示像素在x轴和y轴的速度矢量，即u＝Δx/Δt，v＝Δy/Δt，将其代入公式(3)，得到如下公式：

I_xu+I_yv+I_t＝0---------------------------------------(4)

(u,v)便是像素在Δt时间内产生的光流场，可以通过添加约束条件解得；添加不同的约束条件，可以得到不同的光流场计算方法。本发明将TV-L1算法应用于光流场的计算中，TV-L1算法引入了子空间轨迹模型来保证光流的时间一致性，同时可以保留图像中的边缘特征；对于微表情序列中的一个像素点,首先使用公式(5)所示的光流估计损失函数来计算连续的光流场：

其中，L表示微表情图像序列的长度；表示用于构造轨迹空间的R基轨迹；/>表示图像的空间域；lin:/>表示映射函数，可以将光流场u(t)，v(t)映射到由R基轨迹构造的新空间；公式(5)的第一项表示亮度恒定约束的惩罚项，第二项用于使导出的光流位于基轨迹上，第三项表示轨迹模型系数基于总变差的空间正则化。

设一个微表情图像序列为将其第一帧设置为参考帧，根据上述光流计算方法计算出其余所有帧的水平方向和竖直方向的光流分量U，/>接着将计算得到的光流序列以帧单位进行堆叠，输入到PCANet+网络中；对于光流序列U，/>分别使用大小为T，步长为s的滑动窗口对其进行采样，得到两个子序列集μ和ν，其定义如公式(6)：

其中，通过公式(6)将μ和ν中的对应位置的元素连接起来，形成一个由堆叠的光流分量构成的输入序列Γ：

其中，||表示在通道维度对光流分量进行连接，通过多通道堆叠操作将每个视频片段的水平方向和竖直方向的光流序列以T帧进行堆叠，得到一个通道数为2T的光流图像序列。

所述步骤S50具体为：

将人像视频分割为K个片段，每个片段包含T帧人脸图像，对每个片段进行光流计算和堆叠后，得到一个多通道光流图像的集合Γ＝{I₁,I₂,...,I_K}，其中I_i为第i个视频片段对应的多通道图像；然后把Γ中的光流图像依次输入到两层的PCANet+网络中，其中第一个PCA卷积层的滤波器个数表示为D1，大小为k1×k1，第二个PCA卷积层的滤波器个数表示为D2，大小为k2×k2。每个卷积层后面接一个池化层，其中第一个为平均池化层，其滤波器的大小固定为3×3。第二个池化层是最大池化层，其滤波器的大小设置为3×3。对于多通道图像I_i，在经过两层的PCANet+网络后得到D2张二维的特征图像集合O²＝{O²,O²,...,O²}。

接下来直接将PCANet+网络第二层输出的特征图(取面部关键局部区域)作为后续LSTM网络的输入。由PCANet+的滤波器学习过程可知，第二层网络的PCA滤波器是由该层前L₂个最大特征值对应的特征向量转化而来的。特征值越大的滤波器，其卷积后输出的特征图所含有的分类信息越重要；因此，接下来根据滤波器对应特征值的大小，对第二层输出的特征图进行加权平均，如公式(8)所示，得到一张二维特征图O_i'。同时，这也有利于统一LSTM网络的输入大小，使其不受PCA滤波器数量的影响。

其中，表示第2层的第j个滤波器输出的特征图；λ_j表示第j个滤波器对应的特征值。

所述步骤S60中，所述特征区域至少包括眉毛区域、眼睛区域、嘴巴区域以及鼻翼区域。

微表情数据集中的一个样本经过预处理后会得到一个含有L张图片的序列，在进行光流计算时，以第一帧为参考帧来计算其余所有帧的光流，从而得到L-1张包含水平方向光流分量和竖直方向光流分量的双通道光流特征图，将这些光流特征图以T帧进行堆叠，得到K＝L-T+1张多通道图像，其中T取值为奇数。一张多通道光流图像经过PCANet+的特征提取以及关键区域特征分割后，得到眉眼、嘴巴以及鼻翼附近的二维特征，将这些二维特征分别转化为一维向量后拼接起来，得到LSTM网络一个时间节点的输入。由于LSTM网络的输入是包含K个特征向量的时序数据，输出是微表情各类别的分数，所以使用多对一的展开模型进行训练。

基于LSTM网络的特征学习模型主要由两个部分组成，第一部分为两个LSTM层组成的时序特征提取网络，第二部分由一个全连接层和Softmax函数组成的分类器。其中，每个LSTM层展开为K个LSTM单元，对应了微表情样本生成的K个时序数据，通过对门控单元的参数进行调整，选择性记忆序列信息，并完成时序特征的提取。然后使用全连接层对提取的特征进行加权求和得到微表情各个类别的分数。最后用Softmax函数将分数映射为概率，即为微表情最后的分类结果。模型使用交叉熵损失函数来对网络进行优化：

其中，表示Softmax函数输出的微表情样本对应的第k种情绪类别的预测值；y表示样本真实标签的独热编码向量；y_k表示样本在第k种情绪类别的值，当样本的真实标签为k时其值为1，否则值为0。

本发明一种基于PCANet+和LSTM的微表情识别系统的较佳实施例，包括如下模块：

帧数归一化模块，用于对所述人脸图像的帧数进行归一化；

所述关键点检测模块具体用于：

所述人头图像预处理模块具体用于：

所述帧数归一化模块具体用于：

所述光流计算模块中，光流是图像平面上的一个二维向量场，描述了一个视频序列中连续两帧的像素运动的瞬时速度；为了提高PCANet+网络特征学习的效果，本发明对微表情的图像序列(人脸图像)进行密集光流计算，以增强面部运动信息。光流计算依赖两个基本假设：1、亮度保持不变，即物体在运动及拍摄过程中对应位置像素的亮度在图像序列中是保持不变的；2、时间连续性，即相邻帧之间目标像素的运动不能过于剧烈，这样可以保证像素坐标在时间上连续可微。

光流计算过程如下：

I(x,y,t)＝I(x+Δx,y+Δy,t+Δt)---------------------------(1)

I_xu+I_yv+I_t＝0---------------------------------------(4)

所述PCANet+特征提取模块具体用于：

所述LSTM特征提取模块中，所述特征区域至少包括眉毛区域、眼睛区域、嘴巴区域以及鼻翼区域。

综上所述，本发明的优点在于：

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于PCANet+和LSTM的微表情识别方法，其特征在于：包括如下步骤：

步骤S30、对所述人脸图像的帧数进行归一化；

2.如权利要求1所述的一种基于PCANet+和LSTM的微表情识别方法，其特征在于：所述步骤S10具体为：

3.如权利要求1所述的一种基于PCANet+和LSTM的微表情识别方法，其特征在于：所述步骤S20具体为：

4.如权利要求1所述的一种基于PCANet+和LSTM的微表情识别方法，其特征在于：所述步骤S30具体为：

5.如权利要求1所述的一种基于PCANet+和LSTM的微表情识别方法，其特征在于：所述步骤S60中，所述特征区域至少包括眉毛区域、眼睛区域、嘴巴区域以及鼻翼区域。

6.一种基于PCANet+和LSTM的微表情识别系统，其特征在于：包括如下模块：

帧数归一化模块，用于对所述人脸图像的帧数进行归一化；

7.如权利要求6所述的一种基于PCANet+和LSTM的微表情识别系统，其特征在于：所述关键点检测模块具体用于：

8.如权利要求6所述的一种基于PCANet+和LSTM的微表情识别系统，其特征在于：所述人头图像预处理模块具体用于：

9.如权利要求6所述的一种基于PCANet+和LSTM的微表情识别系统，其特征在于：所述帧数归一化模块具体用于：

10.如权利要求6所述的一种基于PCANet+和LSTM的微表情识别系统，其特征在于：所述LSTM特征提取模块中，所述特征区域至少包括眉毛区域、眼睛区域、嘴巴区域以及鼻翼区域。