基于信息融合的面部表情分析与识别 研 究 生:刘 松 指导老师:应自炉 学科专业:信号与信息处理
论文选题来源 广东自然科学基金项目: (032356)
研究现状 国际上对人脸面部表情识别的研究现在逐渐成为科研热点。国内外很多机构都在进行这方面的研究,尤其美国、日本。进入90 年代,对人脸表情识别的研究变得非常活跃,吸引了大量的研究人员和基金支持,EI 可检索到的相关文献就多达数千篇。美国、日本、英国、德国、荷兰、法国等经济发达国家和发展中国家如印度、新加坡都有专门的研究组进行这方面的研究。其中MIT、CMU、Maryland 大学、Standford 大学、日本城蹊大学、东京大学、ATR 研究所的贡献尤为突出 。 国内国内的清华大学、哈尔滨工业大学、中科院、中国科技大学、南京理工大学、北方交通大学等都有人员从事人脸表情识别的研究
目前面部表情识别的主要方法: 基于模板匹配的面部表情识别方法 基于神经网络的面部表情识别方法 基于规则的人脸面部表情识别方法 基于随机序列模型的面部表情识别方法 其他方法,比如支持向量机,小波分析等
论文主要工作 介绍了信息融合在面部表情识别应用的三个层次模型 探索了基于单特征单分类器的面部表情识别 将支持向量机理论和信息融合理论结合在一起,提出基于基于SVM的多特征多分类器融合的面部表情识别 将径向基函数神经网络用于面部表情特征的融合上,提出基于RBF网络的多特征融合的面部表情识别
面部表情识别:一般可描述为给定一个静止人脸图像或者动态的人脸图像序列,利用已有的人脸表情数据库确定图像中的一个人或者多个人的面部表情,研究内容包括以下三方面: 人脸检测:即从各种不同的场景中检测出人脸的存在并确定其位置. 面部表情特征提取:即确定表示检测出的人脸表情和数据库中的已有的人脸面部表情的描述方式。通常的表示方式包括几何特征、代数特征、固定特征模板、云纹图、3D网格等。 面部表情识别:就是将待识别的人脸面部表情和数据库中的已知人脸面部表情比较,得出相关信息。这一过程是选择适当的人脸面部表情表示方式与匹配策略
论文主要工作 介绍了信息融合在面部表情识别应用的三个层次模型 探索了基于单特征单分类器的面部表情识别 将支持向量机理论和信息融合理论结合在一起,提出基于基于SVM的多特征多分类器融合的面部表情识别 将径向基函数神经网络用于面部表情特征的融合上,提出基于RBF网络的多特征融合的面部表情识别
信息融合与面部表情分析 信息融合就是把来自多个信息源的目标信息合并归纳为一个具有同意表示形式输出的推理过程, 其基本的出发点是通过对这些信息源所提供的信息的合理支配和使用, 利用多个信源在时间或空间上的冗余性和互补性对这些信息进行综合处理, 以获得对被测对象具有一致性的解释和描述, 使得该信息系统获得比它得各个组成部分更优越的性能。 人脸面部表情识别包含大量的变量, 反映待识别目标各要素的非度量形式允许许多类型的表示技术, 每一种技术又可以采用不同的方法进行计算。
基于信息融合面部表情识别的三个模型 基于像素层融合的面部表情识别 基于特征层融合的面部表情识别 基于决策层融合的面部表情识别
基于像素层融合的面部表情识别 这种方法对每幅图像预处理之前进行像素层融合后, 得到一个融合的人脸图像数据,并在此基础上再进行特征提取和面部表情识别。
基于特征层融合的面部表情识别 这种方法对每个传感器的观测数据进行特征的抽取以得到一个特征向量, 然后把这些特征向量融合起来并根据融合后得到的特征向量进行面部表情识别及判定。
基于决策层融合的面部表情识别 这种方法对每个传感器都执行面部表情特征提取和面部表情识别,然后对多个识别结果进行信息融合从而得出一个面部表情判决结果,再融合来自每个传感器的面部表情判决。
论文主要工作 介绍了信息融合在面部表情识别应用的三个层次模型 探索了基于单特征单分类器的面部表情识别 将支持向量机理论和信息融合理论结合在一起,提出基于基于SVM的多特征多分类器融合的面部表情识别 将径向基函数神经网络用于面部表情特征的融合上,提出基于RBF网络的多特征融合的面部表情识别
基于单特征单分类器的面部表情识别 基于神经网络级联的面部表情识别 基于几何特征的面部表情识别 基于均值主元分析的面部表情识别 基于Fisher线性判别的面部表情识别
基于神经网络级联的面部表情识别 网络级联的面部表情识别结构 BP网络的算法流程 网络级联的面部表情识别的实验结果
网络级联的面部表情识别结构
网络级联的面部表情识别流程
网络级联的面部表情识别的实验结果 在两个数据库上进行实验,从耶鲁大学的Yale Face 数据库中选取60幅人脸图像,共15个人,4幅/人,其中训练样本56幅,14个人,4幅/人,测试样本为剩下的4幅图像,1个人,4/人,通过随机变换训练样本和测试样本,我们重复15次这样的实验。从日本女性表情数据库中(JAFFE)选取120幅图像,共10个人,12幅/人,其中84幅图像作为训练样本,7个人,12幅/人,测试样本为36幅图像,3个人,12幅/人。通过随机变换训练样本和测试样本,我们重复10次这样的实验。
日本女性表情数据库上的实验 SOFM权值向量图 BP网络性能图 表情类型 识别结果 Happy 76.7% Normal 73.3% Sad 70% Surprise 80%
Yale Face 数据库上的实验 SOFM权值向量图 BP网络性能图 表情类型 实验结果 Happy 66.7% Normal 73.3% Sad 60% Surprise 80%
基于单特征单分类器的面部表情识别 基于神经网络级联的面部表情识别 基于几何特征的面部表情识别 基于均值主元分析的面部表情识别 基于Fisher线性判别的面部表情识别
基于几何特征的面包表情识别 面部特征点 几何特征向量的形成 识别流程 实验结果
面部特征点
几何特征的形成
基于几何特征的面部表情识别流程 1.在人脸图像上标记24个面部特征点. 2.按照上表得到12个测量距离,对测量距离按上面的公式进行归一化处理得到12维局部特征 3.读入人脸库。读入每一个人脸图像几何特征数据并转化为一维的向量 ,对于一个表情的人脸图像,选择一定数量的图像构成训练集,其余的构成测试集。 4.把所有测试图像和训练图像进行比较,确定待识别的样本 的所属类别。本文采用最近距离分类器进行识别
两个数据库上的实验结果 Yale Face 数据库 日本女性表情数据库 表情类型 实验结果 Happy 73.3% Normal 66.7% Sad 60% Surprised 表情类型 识别结果 Happy 76.7% Normal 70% Sad 73.3% Surprised 80%
基于单特征单分类器的面部表情识别 基于神经网络级联的面部表情识别 基于几何特征的面部表情识别 基于均值主元分析的面部表情识别 基于Fisher线性判别的面部表情识别
基于均值主元分析的面部表情识别 主元分析 主元分析的改进:均值主元分析 面部表情识别流程 实验结果
主元分析 考虑 维图像空间的 个人脸图像 , 每个样本属于 类 中的一类, 考虑将 维特征空间投影到 维特征空间的线性变换。用表示列向量正交的矩阵。变换后的新的向量 ,由下式线性变换定义: 总离散度矩阵 : 其中 是所有样本的平均值,经过线性变换得到的新的特征向量 的离散度是 。PCA 选择最优的投影变换 : 是按照降序排列的前 个特征值对应的特征向量,这种变换变化就称为主元分析。由所组成的空间就是面部表情特征空间。
主元分析的改进:均值主元分析 传统的主元分析的产生矩阵是协方差矩阵,也叫总体离散布矩阵, 总体离散布矩阵是有两部分组成: 类间离散布矩阵和类内离散布矩阵,而改进算法只考虑类间离散度矩阵。 设训练样本集共有N 个训练样本 ,分为c 类 , 为第i样本的数目, 其中 是表示第个人脸图像的列向量。 每一类的均值为: 总均值为: 类间离散度矩阵 : 相对于传统的主元分析, 其基本区别是以每一类的平均值代替类内的具体图像, 我们称为MPCA 。由于每一类平均值是类内图像的一个线性叠加,因此每一类的平均值必然保留了相当的各具体图像的变化特征,换句话说,对各图像的变化特征进行了一定程度的压缩处理,而且保留的特征更有利于表情模式的识别。关于这一点我们将在后面的实验中加以说明,用每一类的平均值代替类内的具体图像的另一个明显的好处就是训练时间明显降低。
面部表情识别流程 1.人脸图像预处理。主要包括几何归一化和灰度归一化。 2.读入人脸库。读入每一个二维的人脸图像数据并转化为一维的向量,对于一个表情的人脸图像,选择一定数量的图像构成训练集,其余的构成测试集,假定图像的大小是w*h(w和h分别维图像的宽度和高度),用于训练的人脸个数是n1,测试的图像个数是n2,令m=w*h,则训练集m*n1是一个的矩阵,测试集是m*n2的矩阵。第幅人脸可以表示为: 3.计算每一类的均值 、总均值 和类间离散度矩阵 。 4.取类间离散度矩阵 为KL变换生成矩阵 ,进行KL变换。 5.计算生成矩阵 的特征值和特征向量,构造特征子空间。首先把特征值从大到小进行排序,同时,其对应的特征向量的顺序也作相应的调整。然后选取其中一 部分构造特征子空间。特征向量具体选取多少,本文采取实验的方法进行确定。 6.把训练图像和测试图像投影到上一步骤构造的特征子空间中。每一幅人脸图像投影到特征子空间以后,就对应于子空间中的一个点。同样,子空间中的任一点也对应 于一幅图像。 7.把投影到子空间中的所有测试图像和训练图像进行比较,确定待识别的样本 的所属类别。本文采用最近邻距离分类器进行识别。
实验结果 Yale Face数据库 MPCA和PCA比较 日本女性表情数据库 表情类型 PCA识别结果 MPCA识别结果 Happy 66.7% 73.3% Normal Sad 60% Surprised 80% 表情类型 PCA识别结果 MPCA识别结果 Happy 76.7% 80% Normal 73.3% Sad 70% Surprised 83.3% 比较项目 MPCA PCA 主元数目 38 42 训练时间 0.09 0.25
基于单特征单分类器的面部表情识别 基于神经网络级联的面部表情识别 基于几何特征的面部表情识别 基于均值主元分析的面部表情识别 基于Fisher线性判别的面部表情识别
基于Fisher线性判别的面部表情识别 Fisher 线性判别 Fisher线性判别的改进:T+PCA+FLD 基于Fisher线性判别的面部表情识别流程 实验结果
Fisher 线性判别 设训练样本集共有N 个训练样本 ,分为c类 , 每一类的均值为: 总均值为: 第i 类样本的离散度矩阵为: Fisher 线性判别 ( Fisher’s Linear Discriminant : FLD )是基于样本的类别进行整体特征提取的有效方法, FLD则在PCA基础上的改进,目标在于,试图建立一个更小的维数的、只包含最基本元素的空间,它试图最大化类间分布,而最小化类内分布, 换句话说 , 对于人脸面部表情识别 FLD 移动同一类的人脸图像更近, 而不同类的人脸图像移的越远 。 设训练样本集共有N 个训练样本 ,分为c类 , 每一类的均值为: 总均值为: 第i 类样本的离散度矩阵为:
总类内离散度矩阵: 类间离散度矩阵: 离散度矩阵: 求下列两两正交的矩阵: 是SB与SW的广义特征值相对应的广义特征向量,即: 由于最多只有c-1个非零广义特征值,因此m的最大值为c-1
Fisher线性判别的改进:T+PCA+FLD
PCA+FLD策略,将训练样本的人脸图像向量投影到一个较低维的空间以至于类内分布矩阵为非奇异的。可以通过PCA 将特征空间降为 N-c维,然后通过标准的FLD 将维数降为c-1。通过PCA将人脸图像投影到N-c维特征空间: 通过标准的FLD将维数降为c-1:
基于Fisher线性判别的面部表情识别流程 1.人脸图像预处理。主要包括几何归一化和灰度归一化。 2. 读入人脸库。读入每一个二维的人脸图像数据并转化为一维的向量,对于一个表情的人脸图像,选择一定数量的图像构成训练集,其余的构成测试集,假定图像的大小是w*h (w和h分别维图像的宽度和高度),用于训练的人脸个数是,n1测试的图像个数是n2,令m=w*h,则训练集是一个m*n1的矩阵,测试集是m*n2的矩阵。第i幅人脸可以表示为: 3.计算每一类的均值、总均值和类间离散度矩阵,同时求类内离散度矩阵 和总离散度矩阵。 4.利用矩阵分块技术,得到 和 的替换矩阵 和 。 5.取类间离散度矩阵 为KL变换生成矩阵 ,进行KL变换。
6.计算生成矩阵 的特征值和特征向量,构造特征子空间。首先把特征值从大到小进行排序,同时,其对应的特征向量的顺序也作相应的调整。然后选取其中一部分构造特征子空间。在耶鲁大学Yale face数据库上我们用m=N-c=52维特征向量构造特征子空间。在JAFFE上我们用m-N-c=76维特征向量构造特征子空间,其中N为训练样本数目,c为类别数。 7.把训练图像和测试图像投影到上一步骤构造的特征子空间中。每一幅人脸图像投影到特征子空间以后,就对应于子空间中的一个点。同样,子空间中的任一点也对应于一幅图像。 8.用替换矩阵 和 替换 和 进行FLD。得到表征面部表情的特征向量。 9.对于新的测试图像用最大相关分类器进行分类.
实验结果 Yale Face 数据库 日本女性表情数据库 表情类型 实验结果 Happy 80% Normal Sad 66.7% Surprised 86.7% 表情类型 识别结果 Happy 83.3% Normal 80% Sad 76.7% Surprised 86.7%
论文主要工作 介绍了信息融合在面部表情识别应用的三个层次模型 探索了基于单特征单分类器的面部表情识别 将支持向量机理论和信息融合理论结合在一起,提出基于基于SVM的多特征多分类器融合的面部表情识别 将径向基函数神经网络用于面部表情特征的融合上,提出基于RBF网络的多特征融合的面部表情识别
基于基于SVM的多特征多分类器融合的面部表情识别 支持向量机和最优超平面 SVM融合原理 SVM融合函数以及融合模型 几种常用的核函数 基于SVM信息融合的面部表情识别流程 实验结果
基于SVM信息融合的面部表情识别结构 本文结合整体特征建模、局部特征建模和多分类器信息融合的优势,提出一种基于支持向量机(SVM)的信息融合方法进行人脸表情识别。为了提高识别系统的识别率和识别系统的鲁棒性,充分的利用人脸的图像的各种信息,我们对预前处理后的人脸图像提取局部表情特征和整体表情特征,然后对不同的类型的特征采用不同的分类器对人脸表情进行初步的分类,最后构造一个3阶多项式的支持向量机来对多个分类器的输出进行信息融合,以便到达人脸表情识别的目的。识别结构如下:
基于基于SVM的多特征多分类器融合的面部表情识别 支持向量机和最优超平面 SVM融合原理 SVM融合函数以及融合模型 几种常用的核函数 基于SVM信息融合的面部表情识别流程 实验结果
支持向量机和最优超平面 支持向量机(SVM) 是一种基于结构风险最小化原则的学习方法,它可以用来解决三大问题:模式识别、 函数的回归估计及分布密度函数的估计。本课题应用支持向量机来探索多特征多分类器融合的面情识别问题,即从有限的训练样本中提取融合规则,使得该规则对于独立的测试样本具有较小的误差。 假定训练数据 , , 可以被一个超平面分开, 该平面的方程为: 如果训练集没有被错误地划分,而且离超平面最近的向量与超平面之间的距离最大, 则称该超平面为最优超平面,如下图 5所示。
先对参数和施加约束条件: 对于全体训练样本,则下列不等式成立 最优超平面使得下式取得最小的超平面 通过对上式的优化问题求解,可得一组解 , 并且该解满足 下列各式: 只有支持向量的系数才可能为非零值, 所以可以表示为: 并且,对于任意的支持向量,都有:
基于基于SVM的多特征多分类器融合的面部表情识别 支持向量机和最优超平面 SVM融合原理 SVM融合函数以及融合模型 几种常用的核函数 基于SVM信息融合的面部表情识别流程 实验结果
SVM融合原理 假设有个分类器,若已经取得个决策样本值以及实际的决策值: 其中 表示对于第i个输入样本图像,这n个分类器作出的决策矢量, 是对应第输入样本图像的标签.要求能根据这组样本值,找到一个适当的融合函数 ,使得对于确定的损失函数 具有最小的期望风险,从信息变换的角度来看,多分类器起到把输入的人脸图像映射到决策空间的作用。为了很好的识别人脸表情,基于支持向量机的决策融合应作如下处理:首先,将多种分类器的决策通过非线性映射 映射到一个高维空间中去,然后,在高维空间中进行线性回归。综合上述两个过程,得到融合后的决策为: 5.12 其中,为普通的向量内积运算。
SVM融合函数以及融合模型 融合函数可表示为 其中 是属性空间向量内积形式:
几种常用的核函数 线性函数 P多项式核函数 高斯径向基函数(RBF)核函数 多层感知器(MLP)核函数
基于SVM信息融合的面部表情识别流程 1.在人脸图像上标记24个面部特征点. 2.按照29页表得到12个测量距离,对测量距离按29页的公式进行归一化处理得到12维局部特征 3.对人脸图像进行纯脸切割,缩放,形状归一化和灰度归一化 4.基于神经网络级联的面部表情识别结果为分类器1的结果, 5.基于几何的特征的面部表情识别结果为分类器2的结果 6.基于均值主元分析的面部表情识别结果为分类器四的结果 7.基于 T+PCA+FLD的面部表情识别结构为分类器四的结果 8.构造一个三阶多项式支持向量机,即用式5.20作为核函数,其中取3,利用一对多原则进行表情识别, 支持向量机的输入对应分类器1,2,3,4的输出。结果对于四种表情的二进制编码,即00-----Happy, 01----Normal, 10------Sad, 11------Surprised。
实验结果 在两个数据库上进行实验,从耶鲁大学的Yale Face 数据库中选取60幅人脸图像,共15个人,4幅/人,其中训练样本56幅,14个人,4幅/人,测试样本为剩下的4幅图像,1个人,4/人,通过随机变换训练样本和测试样本,我们重复15次这样的实验。从日本女性表情数据库中(JAFFE)选取120幅图像,共10个人,12幅/人,其中84幅图像作为训练样本,7个人,12幅/人,测试样本为36幅图像,3个人,12幅/人。通过随机变换训练样本和测试样本,我们重复10次这样的实验。
Yale Face数据库 上的实验结果 表情类型 分类器1 分类器2 分类器3 分类器4 SVM信息融合 Happy 66.7% 73.3% 80% 86.7% Normal Sad 60% Surprised 93.3%
日本女性表情数据库上的实验结果 表情类型 分类器1 分类器2 分类器3 分类器4 SVM信息融合 Happy 76.7% 80% 83.3% 86.7% Normal 73.3% 70% Sad Surprised 90%
论文主要工作 介绍了信息融合在面部表情识别应用的三个层次模型 探索了基于单特征单分类器的面部表情识别 将支持向量机理论和信息融合理论结合在一起,提出基于基于SVM的多特征多分类器融合的面部表情识别 将径向基函数神经网络用于面部表情特征的融合上,提出基于RBF网络的多特征融合的面部表情识别
基于径向基函数网络多特征融合的面部表情识别 基于RBF网络的多特征融合的面部表情识别结构 径向基神经网络 基于RBF网络融合的面部表情识别流程 实验
基于RBF网络的多特征融合的面部表情识别结构
径向基函数神经网络(RBF) 径向基函数网络是一种两层前向网络,如图所示。 其输出是由隐节点基函数的线性组合计算得到。隐节点的基函数只对输入空间中的一个很小区域产生非零响应。隐层神经元将输入空间映射到一个新的空间,输出层在该空间中实现线性组合。
径向基函数常采用高斯函数作为非线性映射函数,不失一般性,对于单个网络输出的RBF网络来说,其第个单元对应的输出为其中: -------欧几里德范数 ------第个输入向量 -------第个隐层节点的中心 ------第个隐层节点的宽度 整个网络的输出方程为: 其中 -------输出空间与第个隐层节点的连接权 --------------隐层节点的总个数
基于RBF网络融合的面部表情识别流程 1.在人脸图像上标记24个面部特征点. 2.按照29页表得到12个测量距离,对测量距离按29页的公式进行归一化处理得到12维局部特征 3.对人脸图像做预处理,首先对图像做纯脸部分的切割,形成的纯脸图像,然后对纯脸图像进行直方图均衡化,标准化和归一化处理; 4.对纯脸图像做均值主元分析,提取均值主元成分,根据实验本文选=38,即形成38维的表情特征 5.用Fisher 线性判别来提取面部表情特征,为了解决小样本问题,本文采取 T+PCA+FLD策略。在Yale face数据库上用=52维特征向量构造特征子空间。在JAFFE上用=76维特征向量构造特征子空间,其中c为类别数。用
T替换函数替换散布矩阵后用FLD变换到c-1=3维特征空间作为表示面部表情特征的一部分特征; 6.构造一个的RBF神经网络,53个输入单元对应三种特征提取技术提取的特征。X个隐层神经元由径向基函数网络自适应算法确定,这些隐层神经元负责特征融合决策,2个输出神经元对应四种表情的二进制编码,即 00代表Happy, 01 代表Normal, 10代表Sad, 11代表Surprised。
Yale face 数据库上的实验结果 表情类型 GF PCA FLD RBFSN Happy 73.3% 66.7% 80% Normal Sad 60% Surprised 86.7%
日本女性表情数据库上的实验结果 表情类型 GF PCA FLD RBFS Happy 80% 70% 73.3% 83.3% Normal 73.3%% 76.7% Sad 66.7% Surprised 80%% 86.7%
展 望 人脸的自动分割。人脸表情识别技术应该包括复杂背景下的人脸定位和纯脸分割,以及人脸表情识别两个方面的工作。要想使面部表情识别技术得到广泛的发展和应用,首先必须要解决人脸自动分割问题。而人脸的自动分割是一个很有挑战性的研究课题。 基于代数特征的面部表情识别方法。它的有点在于应用简单,算法稳健,随着新的分类算法的出现,基于代数特征的面部表情的识别方法仍然有很大的发展空间。 基于多特征信息融合的方法。人脸面部的细节信息非常重要,对表情的识别起着极其重要的作用, 如何充分利用人脸本身的丰富信息将是面部表情识别研究一个值得探索的方向 基于多分类器融合的表情识别方法,由于不同的分类器想对于不同的特征和环境有着不同的性能, 研究一个良好的融合策略将是提高面部表情识别系统的一个很好的研究方向。
攻读硕士期间发表论文 1、《基于局部特征和整体特征融合的面部表情识别》, 电子技术应用,2005年第3期 2、《基于SVM信息融合的面部表情识别》,五邑大学学报(自然科学版),已录用
谢 谢!