CN101971190B

CN101971190B - 实时身体分割系统

Info

Publication number: CN101971190B
Application number: CN200980108017.6A
Authority: CN
Inventors: 颜庆义; 李宏亮
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2008-03-07
Filing date: 2009-03-02
Publication date: 2014-06-04
Anticipated expiration: 2029-03-02
Also published as: WO2009109127A1; HK1150284A1; US8233676B2; CN101971190A; US20090226044A1

Abstract

本发明公开了人特征识别系统，该系统旨在提供基本上实时的人体部分识别，其中提供了多种方法和结构，以通过减少的计算需求便于实时识别。人特征识别系统包括：在混合级联结构上使用了主动提升程序和懒惰提升程序的面部检测模块，人体分割模块和边界抠图模块。混合级联结构是树形结构，其中一类分类器是通过低计算量的懒惰提升得到的，弱分类器是从前面的层得到的。

Description

实时身体分割系统

相关申请的交叉引用

本申请基于2008年3月7日提交的第12/044,416号美国专利申请并且要求其权益，其全部内容通过引用并入本申请。

技术领域

本发明涉及三维数据分析，更具体地，涉及用于应用计算机视觉的图案识别的对象分割。

背景技术

对象分割是语义对象提取的关键技术，并且在数字视频处理、图案识别和计算机视觉方面是有用的。分割/追踪视频对象形式的三维图像的工作出现在很多应用中，例如视频监控和监视、视频摘要和索引以及数字娱乐。应用的采样包括：

-视频监视，其中分割结果用于允许识别入侵者或者异常情况，并且有助于预测和揭示环境中的动作和相互作用的图案，以确定何时应当把“警报”通知给安全单位。

-基于内容的视频摘要，例如体育赛事摘要，视频预览，视频图案挖掘，即，需要已分割的语义对象以执行内容分类、表现或理解的工作。

-基于内容的编码应用，其中视频序列的每一帧被分割为具有任意形状的语义上有意义的对象。

-计算机视觉，例如视频抠图、视频“艺术风格化”和渲染，其中来自输入图像或者视频序列的已分割的二维对象能够用于3D场景重建。

-视频会议和视频电话应用，其中分割能够通过以较高质量对最相关对象进行编码而实现更好的质量。

-数字娱乐，其中通过分割能够取代一些具体对象，如视频游戏。

其他可能的应用包括工业检查、环境监控或者元数据与已分割对象的关联等。

人体图像对象分割通常被认为是人体识别、行为分析或者人机通信的关键步骤。从图像等取得的、作为所谓人体对象的数据集和特征能够应用于很多领域，例如视频监视、计算机视觉和视频娱乐。例如，所提取的人体对象能够用于允许可疑行为的识别，并且它可以帮助发现有问题的行为并且向安全中心警告可能发生的危险。

通常，对象分割能够分为两个阶段，即与图案识别相关的期望对象检测和与聚类(clustering)技术相关的对象提取。在检测模式中，对象分割能够以两种方式执行，有监督的和无监督的。然而，由于不同的对象特征，例如颜色、强度、外形和轮廓，通常难以自动地发现(无监督的)期望对象。为了避免对感兴趣对象的分割的错误检测，已经开发了很多交互式方法，这些交互式方法需要用户事先限定所期望的对象。由于以用户方面的交互式努力为代价而避免了对象检测的复杂步骤，所以这些方法通常能够向用户提供比自动方法更好的分割性能。

为了满足未来的基于内容的多媒体服务，在真实世界的场景中迫切地需要以无监督的方式分割有意义的对象。

在文献中能够找到很多视频分割方法，并且通常使用空间和时间信息。空间分割方法关于颜色或强度将每一帧划分成同种区域。典型的划分方法通常被分成基于区域的方法、基于边界的方法和基于分类的方法。

包含区域增长、分裂和合并的空间分割方法依赖于局部特征(例如，颜色、纹理、运动和其他像素统计)的同质性。时间分割方法使用主梯度信息来对对象边界进行定位。在基于分类的方法中，首先创建特征空间的划分，然后将其转换为视频信号。这种方法可以是记号(cue)的组合，例如纹理、颜色、运动和深度。空间分割方法能够产生相对准确的对象边界。然而，由于必须对于每一帧在整个图像上进行分割，所以计算复杂度充分高并且限制了用于非实时应用。此外，基于空间方法的主要问题是对于下面的“被破坏的”情况缺少鲁棒性(robustness)，例如有噪声的或者模糊的视频图像，在视频图像中区域的边界经常缺失或者与其他区域混合。

另一方面，时间分割利用运动而不是空间信息来获得对象的初始位置和边界。所谓的变化检测掩模(mask)是被并入分割处理中的动作信息的最常见的形式。因为感兴趣的对象通常是运动的，所以能够根据帧间或者背景帧基础进行变化检测。由于图像噪声的原因，对象的边界常常是不规则的，必须使用图像的空间信息进行提炼。由于边界微调程序只包含已分割的运动区域而不是整个帧，所以获得了更高的效率。然而，阴影效应、反射和噪声可能被错误地分配给前景对象。而且，通常难以辨别由真实对象运动引起的改变和由噪声、阴影效应等引起的改变。

由于感兴趣的对象通常对应于可能具有很多空间-时间变化的多个区域，所以大多数现有的视频图像分割技术不能自动地提取图像中的对象。不使用任何主分割准则难以自动地分割这些对象。“盲分割”算法没有关于被分割对象的环境知识的假设，其内在问题是，相对于低级特性，感兴趣的对象之间可能没有同质性，或者对象可能随着环境因素(例如光照条件等)改变。

由于这些和其他原因，需要适用于动态人体形状的改进的对象分割。

发明内容

在旨在提供基本上实时识别人体部分的人特征识别系统中，提供了多种方法和结构，以通过减少的计算需求便于实时识别，包括面部检测模块、人体检测模块以及边界抠图模块。在具体的实施方式中，面部检测模块使用了主动提升程序。在另一实施方式中，面部检测模块在混合级联结构上使用了懒惰提升程序来加速对象检测。混合级联结构是树形结构，在树形结构中一类节点表示从主动提升学习到的强分类器，另一类分类器是通过低计算量的懒惰提升得到的，弱分类器从前面的层得到。

本发明有用的贡献是能够在检测有效面部时拒绝非面部样本的、基于特征的拒绝器。该拒绝器使用了非归一化的Haar变换来帮助拒绝处理。其他机制包括主动提升和被动提升，被动提升利用了之前帧的前景特征。在具体的实施方式中提供的是精细和粗略的分割以及利用能量最小化技术自动产生的三分图。其他特征包括根据为实时分割专门开发的算法的方法。

在很多的优势之中，本发明能够独立地对对象进行操作，从而使适合的编码算法能够用于每个对象，致使主观质量的提升。

本发明应用于由提供多媒体服务的电信公司以及诸如银行、旅馆和安全机构的服务行业提供的、预期的基于内容的实时多媒体服务。例如，电信公司能够将该技术并入产品中，以对用户提供更好的多媒体服务，其具有建立在基于内容的编码基础之上的更好的视觉质量、视频内容浏览(例如电视或电影节目)和检索以及视频游戏等。本发明还向视频监视应用提供关键技术，该视频监视应用能够为一些特定用户(例如银行、超市和旅馆)提供待识别和追踪的分割的对象(人)。此外，作为图案识别领域的重要技术，本方案的结果还可以用于护照、身份证/信用卡或者其他带有相片的证书中的面部识别。

基于本发明的产品能够直接增强实时多媒体服务的竞争力，并且提升当地电信业的技术水平。

通过参照以下详细描述及附图，将更好地理解本发明。

附图说明

图1A是根据本发明的对象分割系统的实施方式的结构框图；

图1B是示出了根据本发明的实施方式的系统工作的流程图；

图2是人脸检测程序的简化流程图；

图3是示出了基于特征集的非归一化Haar变换(NHT)系数的实例的图；

图4示出了用作学习特征的基本单元的矩形块的形式；

图5是示出了给定的归一化权重的采样结果的概率图；

图6是示出了两块的特征结构的一对相关的三维图；

图7A是现有技术中已知的级联分类器的图示；

图7B是根据本发明的混合级联结构的图示；

图8是权重系数w的计算的图解说明，其中F和B分别表示前景和背景；

图9是示出了如何将矩形使用在用于粗略分割的初始区域选择中的二维图解说明；

图10是示出了根据跟踪方案的分割的图；

图11A-11C是蒙板问题的图示；

图12A-12B示出了面部检测处理的详细流程图；

图13A-13F示出了身体分割处理的详细流程图；并且

图14A-14D示出了对处理进行说明的一组图。

下面列出了图12A-12B中变量的定义：

SIZE_H：帧图像的宽度

SIZE_V：帧图像的高度

IGR(I)：计算I图像的积分图像

IGR(I²)：计算I²图像的积分图像

W：样本窗口

Ws：样本窗口的尺寸

分类器的数目层Lnum＝12

每个层中的节点NodeNum

训练数据：

窗口W_T；变量V_T；变量V_T12；

特征模式M[]；变量alpha[]；阈值Thrshold；

阈值taoT[]

V2num＝40：变量分类器的层

B2num＝50：块分类器的层

p[]：学习变量的符号

mv[]：学习变量

下面列出了图13A-13F中变量的定义：

Y，Cb，Cr：表示YCbCr颜色空间的分量

start_Px：初始窗口的左上点的坐标宽度

start_Py：初始窗口的左上点的坐标高度

W：初始窗口的尺寸

Sequare：存储前景像素的结构

Ri：前景中第i个对象区域

CenterNumF：前景的聚类数目

CenterNumB：背景的聚类数目

V_PIXEL：图像的像素值

Beta←(0，1)：学习参数的权重

Struct sequare

{

self；//当前像素

right；//右邻的像

below；//相邻的像素

}；

μ_R：区域R的均值

∑_R：区域R的协方差

d(V₁，V₂)：V1和V2之间的欧几里德距离

dis (a, b) = \exp (- \frac{{(a - b)}^{2}}{2 σ^{2}})

具体实施方式

已经发现，通过基于物理模型或者训练方案来设计适当的检测器，能够检测一些感兴趣的具体对象。图1A是对象检测系统10的框图，该对象检测系统10适合于通过图像元素的分割来识别人体部分。图1B是系统10的相关流程图。

参照图1A，通过集中在人体的问题上，环境混淆被最小化，并且促进了人体的自动分割，这特别适用于直播视频中有主要人的实时交互系统。本系统10具有三个关键处理：集中于例如面部检测12的对象检测，集中于人体结构14的对象分割，和边界抠图(boundarymatting)16。输出是描述人体的可用的数据描述17，该可用的数据描述17适合用于这里被称为艺术风格化(tooning)18的应用。下面将总结每个技术的详细考虑。

参见图1B，首先捕获视频输入作为图像数据(步骤A)，如果不对图像数据进行处理(步骤B)，则将其引导至显示监视器(步骤C)。如果对图像数据进行处理，即自动分割(步骤B)，那么首先应用面部检测处理(步骤D)，构建由面部检测处理的输出(积分图像)(步骤E)，并且检测积分图像，以确认该积分图像是面部区域(步骤F)。如果未通过确认，则显示该输出(步骤C)。如果通过确认，则该数据用于计算身体区域(步骤G)，并且应用身体分割处理(步骤G)，与当前掩模(步骤H)和当前帧(步骤J)相互作用。如果分割产生像素的数目少于1000(步骤K)，那么再次调用面部检测处理(步骤D)。否则，结合积分图像输入(步骤E)调用边界抠图处理(步骤L)，以产生至少用于显示(步骤C)或者其他数据应用的输出结果。

人脸检测：作为非常不定型的对象，人脸的特征在于尺寸、形状、颜色和肌理的高度易变性。由于面容、光照、头部姿势和表情的变化，面部与非面部图案之间的边界也是高度非线性的。在通常的工作中，面部检测器12(图2)以很多标度扫描图像，以在缩放的窗口内寻找面部位置。存在三个部分或者子处理器：肤色滤波器18，拒绝级联20和提升面部级联(cascades-of-boosted-face)分类器22A、...、22N。肤色滤波器18用于在面部检测期间清除有色图像中的非皮肤区域。拒绝元件20用于移除大多数非面部的候选区同时允许面部检测的100％的准确度。在最后的提升面部分类器22A-22N中将检查有希望的类面部位置。

Cb-Cr颜色空间中的快速肤色滤波：已知，在肤色滤波器18中，通过感知YCbCr颜色空间中具有狭窄且一致分布的一定范围的色度值的存在，能够检测肤色。在元件18、光学滤波器和/或与模拟-数字转换器相连的特定波长光电检测器中，图像扫描和位置处颜色的分类软件可以用于此目的。所使用的色度值的经验范围通常是Cr＝[130，175]和Cb＝[75，130]。由于面部区域通常显示与不同皮肤类型无关的类似的肤色特性，所以可能快速地消除或者跳过大多数非皮肤颜色区域，以节省相当多的计算时间。

假设S(m，n)表示当前图像中位置(m，n)处滤波后的二进制结果，即，“1”用于肤色色度值，或者相反“0”用于肤色色度值。然后我们计算二进制映射的积分图像。如果没有或者只有较少肤色像素出现在这个扫描窗口w×w中，那么我们能够断言在当前窗口中没有发现人脸，可以跳过该窗口的数据集。这里，阈值设置为一个较小的值(例如0.06w×w)。

基于特征的拒绝器：基于特征的拒绝器20优选地是拒绝模块的级联，拒绝模块被共同设计，以拒绝大量的非面部样本，而同时检测几乎100％的有效面部。在访问更复杂的面部分类器以实现低错误肯定率之前，级联能够显著减少计算时间。简单的特征能够用作标志，该标志用于构建能够作为级联的一部分的高效拒绝器模块。由于这些特性还用于在拒绝级联20之后的提升面部分类器元件22，所以对于某些特征产生需要很少或者不需要额外的计算。

存在两个特征集：第一特征集是区域方差，其能够从两个积分图像中获取，即“积分图像”和“平方的图像的积分图像”。已知这些积分图像用于在图像扫描处理期间执行光照校正。对于24×24像素的图像，存在76176个待被考虑的方差特征。假设σ_i表示第i个区域的方差，训练处理能够在算法1中描述：

算法1：对使用方差特征的拒绝器的训练

1.输入训练实例(x₁，y₁)，...，(x_n，y_n)，其中对于非面部实例和面部实例分别有y_i＝0，1。

2.对于y_i＝0，初始化拒绝标签l_i＝0。

3.对于t＝1，...，T：

4.对于来自于面部训练实例中的每个区域k找到

的最小值和最大值，它们分别由

和

表示。

5.计算对于非面部训练集的拒绝数r_k，即

r^{p} k = \underset{y 2 = 0,1, = 0}{Σ} sign [p σ_{i, k} > p σ^{p} k]

6.选择具有最高拒绝数的区域。

7.对于所有被拒绝的样本{i}设置标签l_i＝1。

8.从步骤3开始重复。

第二特征集是两个低-低(LL)非归一化Haar变换(NHT)系数之间的差。由于这些系数将被用于计算高频NHT系数作为用于训练阶段(例如，容易得到的自适应提升(AdaBoost)二进制分类学习算法作为训练阶段)的输入特征，所以没有与这个特征集的产生相关联的额外的计算量。基于Haar特征的缩放优势，仅使用LL系数，即，以4×4的块大小作为训练集，其包括了对于24×24像素图像的97020个特征。该训练方法与第一个类似，从步骤4至步骤6具有小的修改，如在算法2中：

算法2：对使用块差异的拒绝器的训练

4.对于来自于面部训练实例中的两个任意系数找到D_(k，j)＝LL_k-LL_j的最小值和最大值，分别用

和

表示。

5.计算非面部训练集的拒绝数r_k，即

r^{p} k = \underset{y 2 = 0,1, = 0}{Σ} sign [p D_{i, (k, j)} σ_{i, k} > p {D^{p}}_{(k, j)}]

6.选择具有最高拒绝数的差异特征。

使用分别用于区域方差集和LL NHT系数集的40到50个之间的拒绝器，系统能够对测试数据集产生98.269％的拒绝率和100％的检测率。与LL NHT系数相比，区域方差显示出相对高的拒绝率。已经观察到，对于由500000个非面部图像和12536个面部图像组成的训练面部集，第一方差特征拒绝器能够拒绝大约47.6％的非面部图像并产生100％的检测率。

因为使用积分图像能够非常快地计算类Haar特征，所以这些方法中的大多数通过从给定的特征集中选择一个特征来构建弱分类器。图3中所示的四类特征是根据不同的NHT系数构建的。从某种意义上说，这些系数更像是能够根据某个风格组成建造的“积木”。每个特征由一块或多块“积木”组成，这些“积木”通过算术运算(具体地，加法、减法和绝对值运算)组合而成。在图3的右下栏中能发现实例。通过分别计算两个LH和HL系数之间的差值，获得最初的两个特征。通过四块HH积木的加和减能够获得第六个中心环绕特征。对于24×24的窗口尺寸，过完备(over-complete)特征的数目非常大，例如，对于特征A是2646，对于特征B是69768，对于特征C是830574，对于特征D是1045386。

主动提升(active boosting)：主动提升的特征在于特征集、重要性权重采样、Kullback-Leibler置信图、基于均值漂移的区域分割和主动特征选择。下面对这些特征中的每一个进行解释。

1)特征集：如图4中所示，采用矩形块的形式(栏A)作为学习特征的基本单元。每个特征通过两个或四个块的线性组合(栏B、C和D)构建。通过适当地调整这些块的组合，能够产生具有不同的类Haar特征的系数。假设输入实例尺寸为24×24。可能的矩形块的数目将是76176。因此，由四个块组成的特征的总数会达到3.3672e+019。即使对于每个弱分类器用一秒，全部运行时间仍需要3.8973e+014天，这对于训练处理来说是无法想象的。已知，特征集是过完备的，其中很多特征对于最佳分类器的贡献很小。然而，在整个特征集中进行强力搜索的过程中，它们将占去大多数的训练时间。可以以交互式的方法构建最佳特征集。

2)重要性权重采样：根据本发明的该实施方式的算法的第一步是来自权重分布的重要性采样，也就是消除带有低重要性权重的样本并且增加带有高重要性权重的样本。

如本发明上面所述，被错误分类的实例将在接下来的提升阶段被分配更多权重，并且对于那些正确的实例将保持小权重。然而，样本的数目对于具有大权重的样本或者具有小权重的样本是固定的。图5示出了给定的归一化权重的采样结果。曲线表示通过提升程序可以获得的权重分布。能够看出，在重新采样步骤之后，那些具有大权重的实例将增加。该处理对于随后的特征选择步骤十分重要，因为该选择是基于训练数据中的信息增益。

3)Kullback-Leibler置信图：用

表示来自于原始实例的已重新采样的数据。假设样本x’s中的每一个能够被写成{x^s(e₁)，x^s(e₂)，...，x^s(e_d)}，其中e_i是第i个元素(例如像素)。用Ω_e表示给定样本的元素集。使用重新采样的数据，Kullback-Leibler(KL)散度用于测量正样本和负样本之差。这里使用了对称的Lullback-Leibler距离(KLD)，其被定义为

KLD (P, Q) = &Integral; q (x) \log \frac{q (x)}{p (x)} dx + &Integral; p (x) \log \frac{p (x)}{q (x)} dx - - - (1)

规则1：如果块其中之一具有较大的KL散度距离且其他块具有较小的KL散度距离，那么能够把特征视为候选的弱分类器。

为了根据规则1选择适当的特征，首先对于每个元素E_i∈Ω_e计算KL散度。假设C(e_i)表示来自正样本和负样本x^s在元素e_i处的KL测量。这里，集合C被称为给定样本的KL置信图，该置信图描述了在每个元素处正样本和负样本之差。

4)基于均值漂移的区域分割：为了从KL置信图中发现块特征，使用均值漂移滤波来进行聚类，这能够根据置信值将置信图划分成不同区域。均值漂移是在迭代过程中估计密度分布模式的非参数方法。均值漂移程序的核(kernel)在联合密度梯度的最大增加的方向上移动。

5)主动特征选择：用(z_i，l_i)表示置信图C的分割结果，其中l_i是区域标签。分别用z_max和l_max表示z_i和标签l的最大值。然后使用由粗略到精细的技术进行特征搜索。

由于选择低置信块处于半分辨率，精细阶段的任务是当通过提升阶段发现最佳候选时搜索相邻位置。在图6的右侧能够找到图示。此外，应该注意，这个精细处理将强加于每个高置信块上。

在特征搜索处理中，使用了两个阈值，即τ₁和τ₂，以截短两块特征的搜索范围。τ₂的大值或者τ₁的小值将增加特征集的数目。在当前的特定实施方式中，设置τ₁＞0.5且τ₂＜0.5。不同的阈值将用于不同的级联分类器。

除两块特征外，四块特征也被认为在本发明的考虑范围内。在两块特征提升步骤之后，选择一些具有更低误差的特征，并且通过线性组合评估分类误差。所选择的最终最佳弱分类器是两块/四块特征之中最好的一个。下面给出了详细的组合过程：

对于每个两块特征，

执行提升程序，

记录分类误差，

B.选择具有最低误差的两块特征并且根据误差按照(上升)顺序整理两块特征，

C.选择最高的m个两块特征。

从这m个两块特征中组成四块特征，

对于每个四块特征执行提升程序，

记录分类误差，

D.将四块特征与最好的两块特征相比较，并选择具有最低误差的特征。

懒惰提升(lazy boosting)：与主动提升学习算法不同，懒惰提升被指定用于分类器的级联，而且它用于提高检测性能并且显著节省计算时间。该方法将在解释特定的级联结构之后更详细地描述。

混合级联结构：已知直通级联结构的形式用于有效地消除尽可能多的负样本。图7A和图7B是级联分类器的图示。图7A是本领域所公知的级联结构。图7B是级联结构，更具体地是混合级联结构。

图7A示出了决策树图。级联中的每一层被调整为具有带有可预测“失败”率的较高决策率。仅允许“已接受的”样本进入下一层。在几个层的有价值的检测之后，大多数的计算集中在少数正样本上，而不是负样本。

根据本发明的实施方式，提供了混合级联数据结构以加速对象检测和所需的处理。这种树形的级联结构示出在图7B中，其中节点C_i表示从主动提升中学习到的强分类器。准备好的节点C_i’表示通过懒惰提升得到的强分类器。弱分类器来自于前面的层，如在图7B中用表示数据路径的虚线所示。由于没有用于在C_i’中发现弱分类器的额外计算，所以检测性能将很高效，并且只需要一些乘法和加法来构造强分类器。下面将描述懒惰提升的详细说明。

懒惰提升用于混合级联结构。该方法的目的在于尽可能高效地利用弱分类器。在图7A所示的常规分类器的级联中，可以从几十万个特征中选择在某一层中的每个弱分类器，其是给定的特征集中最佳的一个。然而，这些最佳特征仅使用一次。每个层的目的是找到实现所需检测率的最佳强分类器。

在根据本发明的实施方式的提升算法(即懒惰提升算法)中，检测效率是焦点，而不是每个弱分类器的最佳性能。懒惰提升算法中的弱分类器可以不是最好的一个，因为弱分类器选自前面的层。由于在懒惰提升步骤之前已经计算了这些弱分类器的输出，所以对于它们不需要计算。计算是最后的分类器的焦点，其只包括一些乘法和加法。下面给出详细的懒惰提升算法：

懒惰提升算法

1.(输入)

输入训练实例(x₁，y₁)，...，(x_n，y_n)，其中x_i表示样本，并且对于正样本和负样本，y_i＝1或-1。

2.(初始化)

初始化样本权重wi＝1/2p和1/2q，其中p和q是正样本和负样本的数目。

3.(懒惰提升)

对于t＝1，...，T重复。

a.归一化权重w_t，j

b.从前面的层中获得弱分类器

c.对于给定的弱分类器计算分类误差

d.选择具有最低误差的最佳弱分类器

e.更新权重

4.(输出)

输出已组合的分类器

在人分割中的贡献：在面部检测之后，能够快速访问输入图像中的面部位置。下面描述最小切割(min-cut)优化方法，以在获得的面部区域中执行面部分割算法。

通常，当用户的输入明确地限定了前景或背景时，能够根据图形切割优化来执行分割处理。遗憾地，在无监督的方式中，将只存在从提升面部检测器中获得的粗略面部位置。相应的子窗口可以覆盖完整的面部轮廓或者只覆盖面部区域的一些部分。这意味着窗口外的像素可以属于背景，且窗口内的像素可能是面部的一部分。无法有把握地确定哪个像素应该被标记为背景或前景。下面描述在过不完备标签条件下分割面部区域的技术。

A.代价函数：由一组节点V(例如像素或区域)和一组连接这些节点的有向边E来定义图G＝<V，E>。如果每个像素表示一个节点，那么图像的分割Z＝{z_i}能够通过基于两个代价函数对能量函数进行求解来表示，两个代价函数是：用于将每个节点i分配给前景或背景标签的数据代价E1，以及用于测量两个节点之间相似度的平滑代价E2：

E (Z) = \underset{i &Element; V}{Σ} E_{1} (z_{i}) + λ \underset{(i, j) &Element; ϵ}{Σ} E_{2} (z_{i}, z_{j}) - - - (2)

数据代价E1：E1项用于设置将每个像素分配给前景或背景的损失。通常，在交互式方法中，两个终端F和B或者至少终端B已由用户的输入来定义。这样，能够施加一些硬约束，以通过最小切割程序来保证与用户的绘图一致的标签。这意味着当所分配的标签与用户的绘图笔画相违背时，可能会应用无穷的代价。然而，在自动处理中没有预定义的终端。因此，使用了下述E1的新颖的推导。

在具体的实施方式中，Gaussian混合模型(GMM)用来根据初始的面部位置对前景或背景的颜色分布建模。对于具有颜色z_i和标签α(i)的给定的像素i，如下定义像素i到前景F和B的距离：

E_{1} (α (i) &Element; F) = \frac{\log (d_{i}^{F})}{\log (d_{i}^{F}) + \log (d_{i}^{B})} - - - (3)

E_{1} (α (i) &Element; B) = \frac{\log (d_{i}^{B})}{\log (d_{i}^{F}) + \log (d_{i}^{B})} - - - (4)

其中

d_{i}^{F} = Σ_{k = 1}^{K} w_{k}^{F} {(\frac{1}{1 + 2 \det Σ_{k}})}^{1 / 2} \exp (- \frac{1}{2} {[z_{i} - μ_{k}^{F}]}^{T} Σ_{k}^{- 1} [z_{i} - μ_{k}^{F}]) - - - (5)

d_{i}^{B} = β d_{i}^{B 1} + (1 - β) d_{i}^{B 2} - - - (6)

d_{i}^{B 1} = Σ_{k = 1}^{K} w_{k}^{B} {(\frac{1}{1 + 2 \det Σ_{k}})}^{1 / 2} \exp (- \frac{1}{2} {[z_{i} - μ_{k}^{B}]}^{T} Σ_{k}^{- 1} [z_{i} - μ_{k}^{B}]) - - - (7)

d_{i}^{B 2} = {(\frac{1}{1 + 2 \det Σ_{i}^{O}})}^{1 / 2} \exp (- \frac{1}{2} {[z_{i} - μ_{i}^{O}]}^{T} Σ_{k}^{- 1} [z_{i} - μ_{k}^{O}]) - - - (8)

其中，w_k表示对于GMM的第k个分量与空间样本的百分比相对应的权重，μ_k和∑_k分别表示均值颜色和协方差矩阵。K表示在前景和背景中GMM的分量的数目。图8示出了权重计算的实例，其中，左边和右边分别表示前景F和背景B。根据画圈区域内聚类的像素的数目能够计算像素的空间样本(在F区域和B区域之间)。

平滑代价E2：E2项用于设置两个节点(例如两个像素)之间的不连续性的损失。当在像素i和j之间发现较小的变化时，E2变得更大，这意味着在相邻像素之间出现边缘的可能性较小。一般格式是根据局部的强度梯度来定义的。这种新颖的推导允许基于梯度但不通过标签约束采用指数函数。

背景学习：每个节点和背景之间的距离由两部分组成，该距离通过加权系数β混合。根据当前帧i中背景的颜色分布计算第一

且从初始化中学习到第二通过调节权重β，我们或多或少地能够将先前的背景信息合并到当前的边连接计算中。例如，如果β设置为0，那么到每个节点的背景的连接仅依赖于现有知识，对于那些静态场景(例如视频监视)能够得到现有知识。相反地，对于动态场景，尤其是对于那些快速移动背景，应该考虑更大的权重。

背景学习中的每个像素被建模为高斯分布，其具有均值

和方差

它们是从系统的初始化中学习到的。我们使用500个帧来估计模式参数。

B.由粗略到精细的分割：必须从不完整标记的人体区域中建立颜色分布。所推荐的方法工作在两个等级上，即粗略尺度和精细尺度。

最初的分割在粗略等级上进行。如在图9中所示[TLO：新颖]，存在用于估计前景信息的四个区域(即a～d)，同时存在用于估计背景的九个区域(即A～J)。例如，选择七个部分，即A、(B+E)、(C+F)、(D+E)、(F+G)、H和I，用于估计背景的颜色分布。采用它们的均值和方差作为背景的初始聚类，这意味着在背景中存在四个分量用于对GMM进行建模。而对于身体区域，设置具有四个分量的初始高斯模型。初始面部区域设置为小的方形窗口，该窗口位于检测窗口的中心，大小为W/2×W/2。相应的均值和方差被认为是面部区域的初始聚类。对于这个区域中的每个像素，根据(3)、(4)和与其他的相似性计算面部和背景聚类之间的加权距离。最后，使用最小切割来进行整体优化。

第二等级是更精细的分割，其目的在于改进初始分割结果。相应的前景区域被限定为当前窗口中属于身体端的像素集，而背景区域由该窗口外被分类为背景端的像素组成。我们分别使用8个分量来描述前景颜色和8个分量来描述背景颜色。基于K均值算法来估计分量k的均值和协方差。然后，可使用与粗略尺度类似的方法来计算能量E1和E2。注意，在数据代价函数E1中，根据位于当前节点中心的、20×20个像素的限定窗口中的空间样本来估计每个分量的权重。最小切割也被用于最终的优化。

基于跟踪的人分割的贡献

A.最佳位置预测：通过追踪技术实现连续帧中的身体分割。在当前帧n中跟踪身体的第一步是在前面的帧(n-1)中预测状态空间。这里状态空间指的是身体区域的位置。

对于前面的帧，根据运动估计来获得候选身体区域的当前位置。在具体的系统中，运动估计技术用于根据由粗略到精细的精细化策略理念来获得候选焦点区域的投影位置。首先，在一半空间分辨率的采样空间中使用15的搜索窗执行全搜索运动估计。然后，对于最佳匹配位置，只对八个相邻点执行更精细尺度的搜索。绝对差之和(SAD)用作两个区域之间的相似性测量。

接着，二阶自动回归(AR)模型用于描述状态改变。当对象平滑移动时，AR模型通常能够提供更好的预测结果。然而，人对象经常因突然移动而改变方向，这导致了对随后分割的不准确预测。为了避免这种恶化的情况发生，在预测位置和原始位置之间进行误差校验，并选择最优的一个。此外，位于预测中心的小窗口用于找到最佳匹配位置，对于运动情况和静止情况，该小窗口被分别优选地设置为5×5个像素和11×11个像素。

B.多级分割：在状态预测后，获得了当前帧n中的粗略掩模。为了减少计算时间，使用三种模式进行身体分割。第一种模式基于三分图(trimap)，其由三个区域组成，即，前景区域、背景区域和未知区域。如图10中所示，O_n-1表示第(n-1)帧中的候选面部区域。通过第n帧中的预测来获得投影区域O_n。然后对投影区域O_n进行腐蚀和膨胀形态操作。所获得的区域分别由

和表示。所使用的结构化元素是宽度为10个像素的正方形结构化元素。使用基于由等式(2)、(3)和(6)表示的函数的处理，能够确定未知区域中节点的数据代价和平滑代价。然后使用最小分割来将标签分配给每个节点。

由于节点集很小，所以第一模式运行的很快，且它还能够得到与当人体没有意外改变时的精细分割类似的分割结果。然而，为了避免在第一模式中由噪声效应引起的可能的累积误差，需要第二模式(即精细分割)来修正这些错误。如图10所示，在身体区域和未知区域中的像素被认为是所构建的图的节点。然后使用最小分割来将标记分配给每个节点。

C.前景模型的更新[TLO：系统实时特征的新颖和关键]：为了执行快速多级分割，使用了之前帧的前景信息。在当前帧的分割之后，通过下面的函数更新前景：

μ_{l}^{F} (n) = \frac{1}{W} \underset{k}{Σ} μ_{k}^{F} (n) \exp (- \frac{1}{2} {[μ_{k}^{F} (n) - μ_{l}^{F} (1)]}^{T} Σ_{k}^{- 1} [μ_{k}^{F} (n) - μ_{l}^{F} (1)])

σ_{l}^{F} (n) = \frac{1}{W} \underset{k}{Σ} σ_{k}^{F} (n) \exp (- \frac{1}{2} {[σ_{k}^{F} (n) - σ_{l}^{F} (1)]}^{T} Σ_{k}^{- 1} [σ_{k}^{F} (n) - σ_{l}^{F} (1)])

其中

W = \underset{k}{Σ} \exp (- \frac{1}{2} {[σ_{k}^{F} (n) - σ_{l}^{F} (1)]}^{T} Σ_{k}^{- 1} [σ_{k}^{F} (n) - σ_{l}^{F} (1)])

其中W是归一化因数，和表示帧n的前景的第i个分量的均值和方差。

边界抠图的贡献：抠图是重要操作，其通过估计在每个像素处前景元素的不透明性而使任意形状的前景元素与图像分离。由于等式9中示出的抠图等式具有太多的未知量，所以抠图固有地是欠约束的。

I＝αF+(1-α)B (9)

从等式8中能够看出，当蒙板α从1(或0)变为0(或1)时，将存在从前景(或背景)到背景(或前景)的逐渐的颜色过渡。由于α的值限定在[0，1]的范围内，所以在抠图区域中的原始数据I必须是前景和背景之间的某一个值。

A.自适应的三分图：自适应的三分图可以用于解决抠图的问题。图11A示出了典型的抠图实例，其中在F区域和B区域之间存在逐渐改变的前进区。上部区域具有在前景和背景之间的不同的过渡处理。下部区域示出了α蒙板的曲线。此外，还存在很多能够在背景和前景之间观察到明显边界的情况，这意味着在两个区域之间没有出现混合效应。当在图11B示出的未知区域中较好地估计前景和背景颜色分布时，根据在第一种情况中的类似方法，能够求解出相应的α值(1或0)。然而，这种方法在一些情况下会失效，在这些情况中两个区域的分布其中之一不能从相邻的区域中估算出。例如，在图11C中所示，存在明显的边界并且在前景和背景之间没有混合区域，虽然在前景区域内能够观察到过渡区域。如果假设两条虚线之间的区域为对该区域执行α计算的未知区域，那么优化的蒙板将使未知区域中的前景区域平滑，这导致了明显的人工痕迹。这样的病态条件可以通过使用人工限定的三分图来避免，即三个区域：Ω_F(“明确的前景区域(α＝1)”)、Ω_B(“明确的背景区域(α＝0)”)和Ω_U(“未知区域(α∈[0，1])”)，但是其难以通过无监督的方式处理。不幸的是，对于人面部边界通常观察到最后一种情况。

为了避免无法管理的情况并且减少可能的估计误差，根据本发明的实施方式，使用自适应的方法来构建三分图。通常，通过使用形态腐蚀和膨胀来根据初始对象边界产生未知区域，能够实现自动地产生三分图。使用了一致的结构尺寸，例如5个像素。然而，根据本发明特定的实施方式，三分图的尺寸依赖于居中的像素关于其相邻像素的模糊度。这意味着如果这个区域在前景和背景之间较好地混合，那么将需要较大的尺寸；否则将考虑小的未知区域。由于抠图从闭合的面部轮廓开始，所以在初始边界上对每个像素计算三分图。半径为r的圆用来通过分别移除和膨胀轮廓的一侧产生未知区域。用r_p表示面部轮廓上像素p的半径。这产生了：

r_p＝r_max exp(-k||I_p-(g*I)_p||) (10)

其中g是具有标准差σ(＝5)的高斯函数，其用来通过卷积运算估计平滑度。r_max表示最大半径，在我们的工作中该最大半径设置为5。

根据初始面部边界的腐蚀和膨胀操作以及未知区域的相应尺寸r，产生了新的三分图。该处理对于初始面部边界像素p的任一侧上的前景和背景腐蚀了和膨胀了少于r_p个像素。这意味着相应的结构化元素使用了具有计算过的半径r的圆形结构元素。

B.使用能量最小化的Alpha估计：为了估计未知区域Ω_U中的α，定义下面的能量函数用作定义：

E＝E₁+λE₂

其中E1是误差能量，以测量数据估计度，E2是平滑能量，表示相邻α值之间的变化。

能量E1被定义为：

E_{1} = \underset{(m, n) &Element; Ω_{U}}{Σ} {[I_{m, n} - α (m, n) {\hat{F}}_{m, n} - (1 - α (m, n)) {\hat{B}}_{m, n}]}^{2} - - - (11)

其中

{\hat{F}}_{m, n} = \frac{1}{L} \underset{(j, k) &Element; δ_{m, n}^{F}, α (j, k) &GreaterEqual; 0.95}{Σ} w_{j, k} F_{j, k}

以及 (12)

{\hat{B}}_{m, n} = \frac{1}{L} \underset{(j, k) &Element; δ_{m, n}^{B}, α (j, k) &GreaterEqual; 0.05}{Σ} w_{j, k} B_{j, k}

(13)

这里，L是权重w_j，k的归一化因数，其对于前景和背景分别被定义为α²d和(1-α)²d。d表示关于像素(j，k)的距离。

和

表示位于像素(m，n)中心的区域。在我们的工作中，使用半径为11的圆形区域来执行估计。

平滑项E2被定义为：

E_{2} = \underset{(m, n) &Element; Ω_{U}}{Σ} \min {{(f_{k} * α)}_{m, n}^{2}, k = 0,1, . . .} - - - (14)

其中，f_k表示对应于方向k的滤波器。E2测量某一方向上相邻α的变化，其促进了α平滑地改变。在我们的工作中，基于四个4抽头滤波器、关于0、π/4、π/2和3π/4方向执行滤波处理。

为了使能量函数E最小化，使用梯度下降优化方法。能量E的梯度能够写成：

在每次迭代中，α值被更新为：

α_{n + 1} (m, n) = α_{n} (m, n) - τ &dtri; E_{m, n} - - - (16)

其中τ是步长，其用于沿着方向使能量最小化并且被设置为1.5。

能量最小化问题是迭代优化过程，其由三个步骤组成。第一步是根据等式12和等式13在未知区域Ω_U中对F和B的初始化。第二步是基于梯度下降优化对α值的更新。初始α₀(x，y)，(x，y)∈Ω_U被设置为0.5。然后等式16用于执行蒙板值的更新。最后一步是(F，B)精细化。如果满足条件α(x，y)＞0.99，(x，y)∈Ω_U，将通过将该蒙板值设置为1更新面部。对于α(x，y)＜0.01，(x，y)∈Ω_U的情况，像素被分类为背景。否则，在0.01≤α(x，y)≤0.99的情况下，像素(x，y)的值将被作为前景Ω_f和背景Ω_b的混合结果处理。因此我们不把那些像素分类为分割的前景区域。

为了增强本发明，参考了图12A-12B、图13A-13F和图14A-14D，其中图12A-12B示出了面部检测处理的详细流程图，图13A-13F示出了身体分割处理的详细流程图，图14A-14D示出了图示了处理的一组图形。

参照一个或多个具体实施方式解释了本发明。在本领域技术人员审阅本说明书后，其他实施方式是将对他们是显而易见的。因此，除了权利要求所指出的之外，本发明不是限制性的。

Claims

1.一种用于在识别人的系统中识别所选的人体部分的特性和特征的方法，包括：

捕获具有已知人体部分的人体的至少一部分的图像作为数据集；

通过使所述数据集经过多次基于特征的拒绝测试，从代表所述图像的所述数据集中识别对应于所述已知人体部分的子数据集；

将所述已经识别出的子数据集分割成用于已知人体部分的子数据集片段；

使所述子数据集片段与描述人体的可用的数据描述匹配；以及

将所匹配的数据描述作为输出报告给输出装置，

其中，所述基于特征的拒绝测试使用区域方差特征集作为第一分类器。

2.如权利要求1所述的方法，其中所述已知人体部分是人脸。

3.如权利要求2所述的方法，其中所述区域方差特征集是从在输入扫描期间用于光照修正的积分图像中构造的。

4.如权利要求2所述的方法，其中所述基于特征的拒绝测试进一步使用仅由低-低非归一化Haar变换系数之间的差构成的特征集作为第二分类器。

5.如权利要求4所述的方法，其中所述特征集由通过算术运算组合的多个根据不同的非归一化Haar变换系数而构建的特征形成。

6.如权利要求1所述的方法，其中所述分割步骤使用了主动提升来实现，所述主动提升的特征在于重要性权重采样、Kullback-Leibler置信图、基于均值漂移的区域分割以及主动特征选择。

7.如权利要求6所述的方法，其中所述特征集包括两个矩形块或四个矩形块的多个线性组合，所述矩形块用于产生表示Haar变换系数的特征。

8.如权利要求7所述的方法，其中所述两个矩形块或所述四个矩形块的组合过程包括：

对每个由两个矩形块组成的特征执行主动提升程序；

对于每个提升程序记录分类误差；然后

通过下面的方式选择具有最低误差的由两个矩形块组成的特征：

根据误差按升序整理所述由两个矩形块组成的特征，以及

选择多个具有最低误差的由两个矩形块组成的特征；然后

通过这些具有最低误差的由两个矩形块组成的特征来构成由四个矩形块组成的特征；然后

对每个所述由四个矩形块组成的特征执行所述提升程序；

对于所述提升程序记录分类误差；然后

将所述由四个矩形块组成的特征的分类误差与所述具有最低误差的由两个矩形块组成的特征的分类误差相比较；以及

选择具有最低总误差的特征。

9.如权利要求6所述的方法，其中所述主动特征选择包括利用粗略标准搜索特征，然后利用精细标准搜索特征。

10.如权利要求1所述的方法，其中所述子数据集的数据结构为混合级联结构，所述混合级联结构是树形结构，其中第一节点类型表示从主动提升学习到的强分类器，第二节点类型是通过低计算量的懒惰提升得到的，并且弱分类器是从前面的层得到的。

11.如权利要求1所述的方法，其中所述分割步骤包括将之前的图像帧的前景信息用于当前计算，并且更新前景信息为之后的帧作准备，以促进快速多层分割。

12.如权利要求11所述的方法，其中根据下面的函数更新前景信息：

μ_{l}^{F} (n) = \frac{1}{W} \underset{k}{Σ} μ_{k}^{F} (n) \exp (- \frac{1}{2} {[μ_{k}^{F} (n) - μ_{l}^{F} (1)]}^{T} Σ_{k}^{- 1} [μ_{k}^{F} (n) - μ_{l}^{F} (1)])

σ_{l}^{F} (n) = \frac{1}{W} \underset{k}{Σ} σ_{k}^{F} (n) \exp (- \frac{1}{2} {[σ_{k}^{F} (n) - σ_{l}^{F} (1)]}^{T} Σ_{k}^{- 1} [σ_{k}^{F} (n) - σ_{l}^{F} (1)])

其中

W = \underset{k}{Σ} \exp (- \frac{1}{2} {[σ_{k}^{F} (n) - σ_{l}^{F} (1)]}^{T} Σ_{k}^{- 1} [σ_{k}^{F} (n) - σ_{l}^{F} (1)])

其中，W是归一化因数，和

表示帧n的前景的第i个分量的均值和方差。

13.如权利要求1所述的方法，其中所述分割步骤包括利用能量最小化自动产生三分图。

14.一种通过识别所选人体部分的特性和特征来识别人的系统，包括：

用于捕获的装置，其捕获具有已知人体部分的人体的至少一部分的图像作为数据集；

用于识别的装置，其通过使所述数据集经过多次基于特征的拒绝测试，从代表所述图像的所述数据集中识别对应于所述已知人体部分的子数据集；

用于分割的装置，将已经识别出的子数据集分割成用于已知人体部分的子数据集片段；

用于匹配的装置，其使所述子数据集片段与描述人体的可用的数据描述匹配；以及

用于报告的装置，其将所匹配的数据描述作为输出报告给输出装置，

15.如权利要求14所述的系统，其中所述已知人体部分是人脸，所述特征集是从在输入扫描期间用于光照修正的积分图像中构造的，并且所述特征集包括用于构建的装置，所述用于构建的装置用于将仅由低-低非归一化Haar变换系数之间的差构成的特征集构建为第二分类器。

16.如权利要求15所述的系统，包括用于两个矩形块或四个矩形块组合的装置，所述矩形块用于产生表示Haar变换系数的特征，所述用于两个矩形块或四个矩形块组合的装置包括：

用于对每个由两个矩形块组成的特征执行主动提升程序的装置；

用于对于每个提升程序记录分类误差的装置；

用于通过下面的方式选择具有最低误差的由两个矩形块组成的特征的装置：

根据误差按升序整理所述由两个矩形块组成的特征，以及

选择多个具有最低误差的由两个矩形块组成的特征；

用于通过这些具有最低误差的由两个矩形块组成的特征来构成由四个矩形块组成的特征的装置；然后

用于对每个所述由四个矩形块组成的特征执行所述提升程序的装置；

用于对于所述提升程序记录分类误差的装置；

用于将所述由四个矩形块组成的特征的分类误差与所述具有最低误差的由两个矩形块组成的特征的分类误差相比较的装置；以及

用于选择具有最低总误差的特征的装置。

17.如权利要求14所述的系统，其中所述子数据集的数据结构为混合级联结构，所述混合级联结构是树形结构，其中第一节点类型表示从主动提升学习到的强分类器，并且第二节点类型是通过低计算量的懒惰提升得到的，且弱分类器是从前面的层得到的，其中所述用于分割的装置包括用于执行懒惰提升程序以加速匹配的装置。

18.如权利要求17所述的系统，其中根据下面的函数更新前景信息：

μ_{l}^{F} (n) = \frac{1}{W} \underset{k}{Σ} μ_{k}^{F} (n) \exp (- \frac{1}{2} {[μ_{k}^{F} (n) - μ_{l}^{F} (1)]}^{T} Σ_{k}^{- 1} [μ_{k}^{F} (n) - μ_{l}^{F} (1)])

σ_{l}^{F} (n) = \frac{1}{W} \underset{k}{Σ} σ_{k}^{F} (n) \exp (- \frac{1}{2} {[σ_{k}^{F} (n) - σ_{l}^{F} (1)]}^{T} Σ_{k}^{- 1} [σ_{k}^{F} (n) - σ_{l}^{F} (1)])

其中

W = \underset{k}{Σ} \exp (- \frac{1}{2} {[σ_{k}^{F} (n) - σ_{l}^{F} (1)]}^{T} Σ_{k}^{- 1} [σ_{k}^{F} (n) - σ_{l}^{F} (1)])

其中，W是归一化因数，和

表示帧n的所述前景的第i个分量的均值和方差。

19.如权利要求14所述的系统，其中所述用于分割的装置包括利用能量最小化自动产生三分图的装置。