Chp9:参数推断 本节课内容:计算似然的极大值 牛顿法 EM算法.

Slides:



Advertisements
Similar presentations
第八节 函数图形的描绘. 一、渐近线 定义 : 1. 铅直渐近线 例如 有铅直渐近线两条 : 2. 水平渐近线 例如 有水平渐近线两条 :
Advertisements

政治全球化 促進國際間的了解, 抑或加劇了種族、宗教、文化和政 治實體之間的衝突 ?. 政治全球化 指一個國家或國際的政治事務,由一國或少數國家決定的模 式,逐漸過渡至複雜的跨國以至全球決策模式 政治活動和政治決策跨越國家界限.
2 Chp1 知识概述 一、莆田概况 1 、位置 位于北纬 25° ,东经 119° , 背山面海,北依省会福州市, 南邻泉州市。东南靠濒海,与 台湾省隔海相望。 2 、面积 全市陆地面积约为 3781 平 方千米。海域面积 1.1 万平方 千米。
弟子规 带读简说. 一、弟子规之名称由来 原名【训蒙文】 为清朝康熙年间秀才李毓秀所作。 后经贾存仁修订改名为【弟子规】。
全国青少年科技创新大赛 科技辅导员项目组织与实施
窦娥冤 关汉卿 感天动地 元·关汉卿.
102學年度 多元入學 大 學.
第五章 主张超尘绝俗的 佛家.
第八章 收益分配决策补:案例,习题 本章结构、主要内容、重点难点: 收益分配的原则;程序 收益分配的政策: 影响股利的因素 股利政策的种类
湖南省科学技术奖励 推荐工作要求.
南京师范大学数学科学院 涂荣豹 中 国 数 学 教 学 的 继 承 与 发 展 南京师范大学数学科学院 涂荣豹
知其不可而为之.
第一讲: 春江花月夜 张若虚.
中国画家协会理事、安徽省美术家协会会员、 工艺美术师、黄山市邮协常务理事余承平主讲
邮票上的数学 所有的科学,要么是物理,要么是邮集。 ——卢瑟福 熊梦杰 光电子技术科学.
第二课 扬起自信的风帆 我能“行”.
第二章 语音 第六节 音变 轻 声1.
《考试大纲》对本考点提出的能力要求是:识记现代汉字的字形。据此,高考对汉字的笔画、笔顺、造字法等内容均不作考查,只考查现代使用的汉字字形的识记能力。命题的依据是《现代汉语常用字表》,包括2000个常用字和1000个次常用字。考查重点为词语(包括成语)中的同音字、音近字、形近字。本考点的能力层级为A。
知识准备-倒排索引 文档集 索引 关键思想:将文档初筛变成O(1)的时间复杂度 D0=``谷歌地图之父跳槽Facebook“
在系統完成資料填報後 系統產生所有表件請全數印出 如下載的表件為「空白」文件,請安裝PDF中文字型 ★系統參考畫面:
声调.
父亲的菜园 王树槐 引导者:江山市长台小学 朱丽云.
江西 6、下列关于名著的表述,不正确的一项是
语文版九年级(下) 多媒体课件.
五年級上學期 體育課教學方案 設計者:吳文芳.
汉字的构造.
诵读欣赏 古代诗词三首.
广东省高新技术企业培育库入库企业认定(第二批)工作介绍
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
文学名作与影视改编 郁达夫文学作品及相关影视赏析 授课教师 胡芳.
Xiàn lù zuàn 陷入 忙碌 攥着.
大地醫療團隊- 微生物製劑環保與農業應用.
“海鸥老人”——吴庆恒.
甄選入學招生 第二階段集體及個別報名系統 系統開放時間:102/6/3 10:00~ 102/6/7 17:00止
第4章 数值积分和数值微分 一、数值求积的基本思想.
趣味数学加油站.
导入新课: 莲花,自古以来就被人们看作是美丽圣洁的象征。我们一起先来欣赏一下莲的形象,然后请同学说说你觉得莲花美在哪里。
关注空巢老人的心理健康 525宿舍.
贴近教学 服务师生 方便老师.
六年级 语文 下册 第四单元 指尖的世界.
(浙教版)四年级品德与社会下册 共同生活的世界 第四单元 世界之窗 第二课时.
袁 星 谢正辉,梁妙玲 中国科学院大气物理研究所
隐马尔可夫模型 Hidden Markov model
Chp7:非参数估计 CDF估计 点估计 区间估计 统计函数估计.
EM算法 一种参数估计的方法.
学习报告 —语音转换(voice conversion)
第四节 函数展开成幂级数 本节内容: 一、泰勒 ( Taylor ) 级数 二、函数展开成幂级数 第十二章 两类问题: 在收敛域内 求 和
最大熵模型简介 A Simple Introduction to the Maximum Entropy Models
Artificial Intelligence - 人工智慧導論
第14章 總體經濟政策之爭論:法則與權衡性.
Chapter 8 Model Inference and Averaging
全文检索 墨香简介 平台功能 产品优势 产品对比
Chp9:参数推断 主要内容 参数推断的基本概念 参数推断的方法 矩方法
中汇会计师事务所(特殊普通合伙)无锡分所
107年 國中教育會考 准考證資料處理系統 學校版 (集體報名單位) 操作說明
108新課綱教學目標與特色 (一)強化務實致用 (二)落實課程連貫 (三)深化基本職能 (四)符應產業需求 考招連動配套 部定實習科目
102學年度大學個人申請入學 招生審查資料上傳作業說明
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
第 四 章 迴歸分析應注意之事項.
鋼液冶煉製程介紹.
隐马尔可夫模型简介 X1 X2 XT ………… O1 O2 OT 刘群
Xián 伯 牙 绝 弦 安徽淮南市八公山区第二小学 陈燕朵.
新疆维吾尔自治区高校科研计划项目网络管理平台项目申报操作指南
第 1 章 單一預測變數線性迴歸.
3-3 随机误差的正态分布 一、 频率分布 在相同条件下对某样品中镍的质量分数(%)进行重复测定,得到90个测定值如下:
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
亞洲大學 資訊工程學系 多重來源影像監控系統
新疆维吾尔自治区高校科研计划项目网络管理平台项目申报操作指南
§2.2.1对数与对数运算.
大學考招新方案與銜接配套措施 【十二年國民基本教育課程綱要宣講】 教育部 大學招生委員會聯合會 108 年 9月.
Presentation transcript:

Chp9:参数推断 本节课内容:计算似然的极大值 牛顿法 EM算法

极大似然估计 似然函数:令 为IID,其pdf为 ,似然函数定义为 log似然函数: 极大似然估计(MLE):使得 最大的 ,即

极大似然估计 计算MLE,需要求似然函数的极值 解析法(如本章已讲过的例子) 数值计算:通过迭代 牛顿法:简单 EM算法 迭代需要初始值,矩方法得到的结果是一个较好的初始值的选择

牛顿法 亦称牛顿-拉夫逊( Newton-Raphson )方法 在MLE计算中,求 的根 牛顿在17世纪提出的一种近似求解方程的方法 使用函数 的泰勒级数的前面几项来寻找方程 的根 在MLE计算中,求 的根 对应处似然函数 取极值

牛顿法 将log似然函数的导数 在 处进行Taylor展开: 从而得到 因此迭代机制为:

牛顿法 当参数 包含多个参数为向量时,迭代机制为: 其中 为log似然函数 一阶偏导数(向量), 为二阶偏导数矩阵,

EM算法 (Expectation Maximization) 特别适合:“缺失数据”(missing data)问题中对参数用MLE求解 由于观测过程的限制或问题引起的数据缺失(如聚类问题) 直接对观测数据,似然函数极值解析不可求;但若假设缺失数据(隐含变量)的值已知,则似然函数形式很简单

EM算法 (Expectation Maximization) E—步:求期望(Expectation ) 在给定观测数据的条件下,计算完整似然的期望(随机变量为隐含变量) 涉及计算缺失数据的条件期望,需要利用参数的当前估计值 M —步:求极大值( Maximization ) 求使得完整似然的期望最大的参数 又是一个极大值求解问题。通常可以解析求解,这时EM是一个很方便的工具;否则,需借助一个可靠的最大化方法求解 完整似然的期望为边缘似然(非完整似然,在观测数据上的似然函数),即为我们感兴趣的似然

混合模型(Mixed Model) 混合模型: 其中 ,满足 即混合模型由K个成分组成,每个成分 的权重为 如一个班级每个学生的身高为 , 其中 ,满足 即混合模型由K个成分组成,每个成分 的权重为 如一个班级每个学生的身高为 , 假设男生身高和女生分别服从高斯分布 、 则 其中p为男生的比例 混合模型的参数估计是EM算法最典型的应用

混合高斯模型 (Mixture of Gaussians Model,GMM) 若混合模型中每个成分为高斯分布, 则称为混合高斯模型 假设每个数据点根据如下规则产生: 随机选择一个成分,选择第k个成分的概率为 从第k个成分产生数据: 即

混合高斯模型 问题:给定IID数据 ,求参数 MLE不能解析求得,因此我们通过数值计算(如EM算法)求解。 将非完整数据 转换为完整数据 将非完整数据 转换为完整数据 ,其中 为 所属的类别。

观测数据和缺失数据 观测数据:观测到随机变量X的IID样本: 缺失数据:未观测到的隐含变量Y的值: 在GMM中,若 来自第k个分成,则 完整数据:包含观测到的随机变量X和未观测到的随机变量Y的数据,

似然函数 给定观测数据 ,非完整数据的似然函数为: 涉及求和的log运算,计算困难

完整似然函数 若隐含变量的值 也已知,得到完整数据的似然函数为: 明显简化 若Yi未知,则对每个Xi,需要求和 若隐含变量的值 也已知,得到完整数据的似然函数为: 明显简化 若Yi未知,则对每个Xi,需要求和 若Yi已知,则对每个Xi,只需Yi

EM—Expectation 由于Y是未知的,计算完整似然函数对Y求期望 定义 根据贝叶斯公式:Y的分布为 去掉完整似然函数中的变量Y 刚好得到边缘似然—非完整似然,正好是感兴趣量

EM—Maximization 对E步计算得到的完整似然函数的期望 求极大值(Maximization),得到参数新的估计值,即 每次参数更新会增大似然(非完整似然)值 反复迭代后,会收敛到似然的局部极大值

EM的收敛性(1)

EM的收敛性(2) 所以相邻两次似然之差为 当 时

EM的收敛性(3) 所以 其中 为KL散度。 所以: 如果Q增大,则观测数据的似然增大 当Q 取极大值时,观测数据的似然也在相同点取极大值 在M步,Q肯定增大 当Q 取极大值时,观测数据的似然也在相同点取极大值 EM算法会收敛到似然的局部极大值

混合模型中的EM算法 完整似然函数: Y的条件分布:

Expectation t: 第t次猜测值

Expectation 当 yi  l等于0 提出的项与Yi无关

Expectation Y1与其它Y2没有关系,所以乘法与加法可以换位置

Expectation 1

Maximization 给定第t次的猜测 t, 我们计算,使得上述期望最大。 反复迭代,直到收敛。

混合高斯模型GMM)中的EM算法 目标: 高斯分布: 最大化:

混合高斯模型GMM)中的EM算法 只与l 相关 目标: 高斯分布: 只与l 相关 最大化:

计算 l 由于l有限制,我们引入Lagrange乘子 , 并解下述方程。

计算 l 1 n 1

计算l

只需最大化该项 计算 l 对GMM unrelated

计算l 因此,我们需要最大化: unrelated

计算l 因此,我们需要最大化:

计算l 因此,我们需要最大化:

总结 第t次的估计为 则第t+1次的估计为

GMM实验结果举例 来自Gaussian分布N(0,1)的5, 50个点

GMM实验结果举例 来自Gaussian分布N(0,1)的500, 5000个点

来自均分分布Uniform[-1,1]的500个点

来自分布 的50, 500个点

来自分布 的5000, 50000个点

来自分布 的个点(k=3, 4)

来自分布 的个点(k=3, 2)

EM总结 总结 参考文献 EM会收敛到局部极值,但不保证收敛到全局最优 对初值很敏感:通常需要一个好的、快速的初始化过程 适合的情况 如矩方法得到的结果 在GMM中,用K-means聚类 适合的情况 缺失数据不太多时 数据维数不太高时(数据维数太高的话,E步的计算很费时) 参考文献 Jeff A. Bilmes, A Gentle Tutorial of the Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models

下节课内容 下节课内容 Bootstrap实验 再下节课内容 假设检验:Chp10