Presentation is loading. Please wait.

Presentation is loading. Please wait.

模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。

Similar presentations


Presentation on theme: "模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。"— Presentation transcript:

1 模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计

2 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。

3 模式识别 – 概率密度函数的参数估计 概率密度函数的估计方法 参数估计方法:预先假设每一个类别的概 率密度函数的形式已知,而具体的参数未 知; – 最大似然估计 (MLE, Maximum Likelihood Estimation) ; – 贝叶斯估计 (Bayesian Estimation) 。 非参数估计方法。

4 模式识别 – 概率密度函数的参数估计 3.1 最大似然估计 独立同分布假设:样本集 D 中包含 n 个样本: x 1 , x 2 , …, x n ,样本都是独立同分布的随机变量 ( i.i.d , independent identically distributed ) 。 对类条件概率密度函数的函数形式作出假设,参 数可以表示为参数矢量 θ :

5 模式识别 – 概率密度函数的参数估计 最大似然估计

6 模式识别 – 概率密度函数的参数估计 似然函数 样本集 D 出现的概率: 对数似然函数:

7 模式识别 – 概率密度函数的参数估计 最大似然估计 最大似然估计:寻找到一个最优矢量 ,使 得似然函数 最大。

8 模式识别 – 概率密度函数的参数估计 正态分布的似然估计 Gauss 分布的参数:由均值矢量 μ 和协方差 矩阵 Σ 构成,最大似然估计结果为:

9 模式识别 – 概率密度函数的参数估计 3.2 期望最大化算法 (EM 算法 ) EM 算法的应用可以分为两个方面: 1. 训练样本中某些特征丢失情况下,分布参数 的最大似然估计; 2. 对某些复杂分布模型假设,最大似然估计很 难得到解析解时的迭代算法。

10 模式识别 – 概率密度函数的参数估计 混合密度模型 混合密度模型:一个复杂的概率密度分布函 数可以由多个简单的密度函数混合构成: 高斯混合模型: GMM , Gauss Mixture Model

11 模式识别 – 概率密度函数的参数估计 两个高斯函数的混合

12 模式识别 – 概率密度函数的参数估计 样本的产生过程 高斯模型样本的产生:每一个样本都是按 照正态分布产生的; GMM 样本的产生:先按照先验概率 a i 选择 一个子类,然后按照这个子类满足的正态 分布产生样本。

13 模式识别 – 概率密度函数的参数估计 GMM 模型产生的 2 维样本数据

14 模式识别 – 概率密度函数的参数估计 GMM 模型的参数估计 GMM 的参数: 参数估计:已知样本 x 1,…,x n ,估计参数 θ 。 存在的问题:每个样本是由哪一个子集产生 的未知。

15 模式识别 – 概率密度函数的参数估计 训练样本: 来自子类: 已知 y 的条件下,参数的估计: 已知参数条件下, y 的估计: K-mean 算法

16 模式识别 – 无监督学习与聚类 K- 均值聚类 1.begin initialize 样本数 n ,聚类数 K ,初始聚类中 心 μ 1, …, μ c ; 2. do 按照最近邻 μ i 分类 n 个样本; 3. 重新计算聚类中心 μ 1, …, μ c ; 4. until μ i 不再改变; 5.return μ 1, …, μ c ; 6.end

17 模式识别 – 概率密度函数的参数估计 存在的问题:样本 x t 可能来自于任何一个子类,但 在参数估计时只出现在一个子类中。 修改计算过程: EM 算法

18 模式识别 – 概率密度函数的参数估计 GMM 的参数估计算法 (EM) 1. 随机初始化参数: 2. 计算: 3. 重新估计参数 θ ; 4. 迭代计算 2 , 3 步,直到收敛为止。

19 模式识别 – 概率密度函数的参数估计 基本 EM 算法 样本集:令 X 是观察到的样本数据集合, Y 为 丢失的数据集合,完整的样本集合 D=X  Y 。 似然函数:由于 Y 未知,在给定参数 θ 时,似 然函数可以看作 Y 的函数:

20 模式识别 – 概率密度函数的参数估计 基本 EM 算法 由于 Y 未知,因此我们需要寻找到一个在 Y 的 所有可能情况下,平均意义下的似然函数最 大值,即似然函数对 Y 的期望的最大值: E 步: M 步:

21 模式识别 – 概率密度函数的参数估计 基本 EM 算法 1.begin initialize , T , i  0 ;  do i  i+1  E 步:计算 ;  M 步:  until 6.return

22 模式识别 – 概率密度函数的参数估计 EM 算法的性质 收敛性: EM 算法具有收敛性; 最优性: EM 算法只能保证收敛于似然函数 的局部最大值点(极值点),而不能保证 收敛于全局最优点。

23 模式识别 – 概率密度函数的参数估计 隐含 Markov 模型 (Hidden Markov Model, HMM) 应用领域:识别对象存在着先后次序信息, 如语音识别,手势识别,唇读系统等; 模式描述:特征矢量序列。

24 模式识别 – 概率密度函数的参数估计 输入语音波形

25 模式识别 – 概率密度函数的参数估计 观察序列 观察序列:信号的特征需要用一个特征矢 量的序列来表示: 其中的 v i 为一个特征矢量,称为一个观察值。

26 模式识别 – 概率密度函数的参数估计 一阶 Markov 模型 M 个状态: w 1, w 2, …, w M 时刻 t :处于状态 w(t) ; 经过 T 个时刻: W T =w(1),…,w(T) 。

27 模式识别 – 概率密度函数的参数估计 一阶 Markov 模型的状态转移 Markov 性:模型在时刻 t 处于状态 w j 的概率完全 由 t-1 时刻的状态 w i 决定,而且与时刻 t 无关,即:

28 模式识别 – 概率密度函数的参数估计 Markov 模型的初始状态概率 模型初始于状态 w i 的概率用 表示。 模型参数:一阶 Markov 模型可以用参数 表示,其中:

29 模式识别 – 概率密度函数的参数估计 一阶 Markov 模型输出状态序列 的概率 输出状态序列的概率:由初始状态概率与各次状 态转移概率相乘得到。 例如: W 5 =w 1, w 1, w 3, w 1, w 2 ,则模型输出该序 列的概率为:

30 模式识别 – 概率密度函数的参数估计 一阶 Markov 模型实例 某个城市天气的变化可以采用一阶马尔科夫模型 描述,每天的天气有 4 种状态 { 晴、阴、雨、雪 } 。

31 模式识别 – 概率密度函数的参数估计 一阶隐含 Markov 模型 隐含 Markov 模型中,状态是不可见的,在 每一个时刻 t ,模型当前的隐状态输出一个 观察值。 隐状态输出的观察值可以是离散值,连续 值,也可以是一个矢量。

32 模式识别 – 概率密度函数的参数估计 一阶隐含 Markov 模型实例 我们不知道某城市的天气情况,只知道当地某人 每天的活动情况 { 散步、购物、做家务 } 。

33 模式识别 – 概率密度函数的参数估计 HMM 的工作原理 观察序列的产生过程: HMM 的内部状态转移过程同 Markov 模型相同,在每次状态转移之后,由该状态输 出一个观察值,只是状态转移过程无法观察到,只能 观察到输出的观察值序列。 输出概率:以离散的 HMM 为例,隐状态可能输出的观 察值集合为 {v 1, v 2, …, v K } ,第 i 个隐状态输出第 k 个观 察值的概率为 b ik 。 例如: T=5 时,可能的观察序列 V 5 =v 3 v 2 v 3 v 4 v 1

34 模式识别 – 概率密度函数的参数估计 HMM 的参数表示 状态转移矩阵: A , M*M 的方阵; 状态输出概率: B , M*K 的矩阵; 初始概率: π ,包括 M 个元素。 M 个状态, K 个可能的输出值。

35 模式识别 – 概率密度函数的参数估计 HMM 的三个核心问题 估值问题:已有一个 HMM 模型,其参数已知, 计算这个模型输出特定的观察序列 V T 的概率; 解码问题:已有一个 HMM 模型,其参数已知, 计算最有可能输出特定的观察序列 V T 的隐状态转 移序列 W T ; 学习问题:已知一个 HMM 模型的结构,其参数 未知,根据一组训练序列对参数进行训练;

36 模式识别 – 概率密度函数的参数估计 估值问题 一个 HMM 模型产生观察序列 V T 可以由下式计算: r max =M T 为 HMM 所有可能的状态转移序列数; 为状态转移序列 输出观察序列 的 概率; 为 状态转移序列 发生的概率。

37 模式识别 – 概率密度函数的参数估计 估值问题的计算 计算复杂度:

38 模式识别 – 概率密度函数的参数估计 HMM 估值算法的简化

39 模式识别 – 概率密度函数的参数估计 HMM 的前向算法 1. 初始化: 2. 迭代计算: 3. 结束输出: 计算复杂度:

40 模式识别 – 概率密度函数的参数估计 解码问题 解码问题的计算:同估值问题的计算类似, 最直观的思路是遍历所有的可能状态转移序 列,取出最大值,计算复杂度为: O(M T T) 。 同样存在着优化算法: Viterbi 算法。

41 模式识别 – 概率密度函数的参数估计 Viterbi 算法 1. 因为需要回朔最优路径,所以建立一个矩阵 Φ ,其元 素 保存第 t 步,第 i 个状态在第 t-1 步的最优状态。  初始化:  迭代计算:  结束:  路径回朔:

42 模式识别 – 概率密度函数的参数估计 Viterbi 算法图示

43 模式识别 – 概率密度函数的参数估计 学习问题 HMM 的学习问题: 已知一组观察序列 ( 训练样本集合 ) : 如何确定最优的模型参数 θ ,使得模型产生训练集 合 V 的联合概率最大 这同样是一个最大似然估计问题,需要采用 EM 算法。

44 模式识别 – 概率密度函数的参数估计 图示

45 模式识别 – 概率密度函数的参数估计 变量说明 :表示在 t-1 时刻 HMM 处于状态 ω i ,并且从 1  t-1 时刻 之间产生观察序列 V 1  t-1 的概率; :表示在 t 时刻 HMM 处于状态 ω j ,并且从 t+1  T 时刻之 间产生观察序列 V t+1  T 的概率;

46 模式识别 – 概率密度函数的参数估计 变量说明 输出观察序列 V T 时, 在 t-1 时刻 HMM 处 于 ω i 状态,在时刻 t 处于 ω j 状态的概率:

47 模式识别 – 概率密度函数的参数估计 前向 - 后向算法 (Baum-Welch 算法 ) 迭代公式: 初始概率: 状态转移概率: 输出概率:

48 模式识别 – 概率密度函数的参数估计 HMM 的其它问题 连续 HMM 模型:在观察序列中每个观察值是一个特征 矢量,相应的模型中输出概率 b 就需要用一个概率密度 函数描述,其函数形式需要假设,通常使用 GMM 。 训练问题:通常可以用每个训练样本分别计算 γ 值,然 后分子和分母部分分别进行累加,最后统一进行参数修 正; 模型的拓扑结构:模型结构可以根据实际问题的需要来 设计,在初始化状态转移矩阵 A 时,将某些元素设为 0 即可。

49 模式识别 – 概率密度函数的参数估计 “ 左 - 右 ” 模型结构

50 模式识别 – 概率密度函数的参数估计 带跨越的 “ 左 - 右 ” 结构 HMM 模型

51 模式识别 – 概率密度函数的参数估计 3.3 贝叶斯估计 为什么要采用贝叶斯估计? 贝叶斯估计与最大似然估计有什么差别?

52 模式识别 – 概率密度函数的参数估计 贝叶斯估计与最大似然估计的差别 观点不同: – 最大似然估计认为 θ 是一个确定的未知矢量 ; – 贝叶斯估计认为 θ 是一个随机矢量。 过程不同: – 最大似然估计:样本集 D  估计最优参数 θ * ; – 贝叶斯估计:样本集 D 和先验分布 p(θ)  估计参数的 后验分布 p(θ|D) ; 优点:提高小样本集条件下的估计准确率; 缺点:计算复杂

53 模式识别 – 概率密度函数的参数估计 贝叶斯估计的一般理论 识别过程:类条件概率密度的计算 学习过程:参数后验概率密度的估计

54 模式识别 – 概率密度函数的参数估计 单变量正态分布的贝叶斯估计 已知概率密度函数满足正态分布,其中方 差 σ 2 已知,均值 μ 未知,假设 μ 的先验概率 满足正态分布,即:

55 模式识别 – 概率密度函数的参数估计 均值的后验概率 经推导可得,在已知训练样本集合 D 的条件 下,参数 μ 的分布:

56 模式识别 – 概率密度函数的参数估计 均值的后验概率 均值的后验概率仍满足正态分布,其中:

57 模式识别 – 概率密度函数的参数估计 均值分布的变化

58 模式识别 – 概率密度函数的参数估计 类条件概率密度的计算

59 模式识别 – 概率密度函数的参数估计 类条件概率密度的计算

60 模式识别 – 概率密度函数的参数估计 共轭先验分布 如果假设参数的先验分布为其共轭分布, 则参数的后验分布与先验分布属于同一分 布族。 GMM 中参数的共轭先验分布: –μ 的共轭先验为 Gauss 分布; –Σ 的共轭先验分布为 Wishart 分布; –π 的共轭先验分布为 Dirichlet 分布。


Download ppt "模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。"

Similar presentations


Ads by Google