Chp11:贝叶斯推断 内容: 贝叶斯观点和贝叶斯方法 贝叶斯推断 vs. 频率推断.

Slides:



Advertisements
Similar presentations
第一章 、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第二节 换元积分法 一、第一类换元积分 法(凑微分法) 二、第二类换元积分法. 问题 解决方法 利用复合函数,设置中间变量. 过程令 一、第一类换元积分法(凑微分法)
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
非线性时间序列模型 一般非线性时间序列模型介绍 条件异方差模型 上海财经大学 统计与管理学院.
第二部分:统计推断 Chp6:统计推断概述 Chp7:非参数推断 Chp8:Bootstrap Chp9:参数推断 Chp10:假设检验
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第三章 函数逼近 — 最佳平方逼近.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
《高等数学》(理学) 常数项级数的概念 袁安锋
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
第二章 导数与微分 第二节 函数的微分法 一、导数的四则运算 二、复合函数的微分法.
2-7、函数的微分 教学要求 教学要点.
第5章 §5.3 定积分的积分法 换元积分法 不定积分 分部积分法 换元积分法 定积分 分部积分法.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
第二章 矩阵(matrix) 第8次课.
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
EM算法 一种参数估计的方法.
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第十章 方差分析.
数据挖掘工具性能比较.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
Chp9:参数推断 主要内容 参数推断的基本概念 参数推断的方法 矩方法
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
Three stability circuits analysis with TINA-TI
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
数据统计与分析 秦 猛 南京大学物理系 第11讲 办公室:唐仲英楼A
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第六章 参数估计 §6.1 点估计的几种方法 §6.2 点估计的评价标准 §6.3 最小方差无偏估计 §6.4 贝叶斯估计
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
难点:连续变量函数分布与二维连续变量分布
欢迎大家来到我们的课堂 §3.1.1两角差的余弦公式 广州市西关外国语学校 高一(5)班 教师:王琦.
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
本节课内容 MLE的性质 MLE很流行是因为MLE有一些很好的性质.
基于列存储的RDF数据管理 朱敏
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
贝叶斯估计 Bayes Estimation
第四章 函数的 积分学 第七节 定积分的换元积分法     与分部积分法 一、定积分的换元积分法 二、定积分的分部积分法.
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
§4.5 最大公因式的矩阵求法( Ⅱ ).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

Chp11:贝叶斯推断 内容: 贝叶斯观点和贝叶斯方法 贝叶斯推断 vs. 频率推断

贝叶斯观点和贝叶斯方法 从频率到信念

频率学派的观点 到目前为止我们讲述的都是频率(经典的)统计学 概率指的是相对频率,是真实世界的客观属性。 参数是固定的未知常数。由于参数不会波动,因此不能对其进行概率描述。 统计过程应该具有定义良好的频率稳定性。如:一个95%的置信区间应覆盖参数真实值至少95%的频率。 统计学更多关注频率推断

贝叶斯学派的观点 贝叶斯推断采取了另外一个不同的立场: 概率描述的是主观信念的程度,而不是频率。这样除了对从随机变化产生的数据进行概率描述外,我们还可以对其他事物进行概率描述。 可以对各个参数进行概率描述,即使它们是固定的常数。 为参数生成一个概率分布来对它们进行推导,点估计和区间估计可以从这些分布得到 机器学习和数据挖掘更偏爱贝叶斯推断

贝叶斯方法 贝叶斯推断的基本步骤如下: 选择一个概率密度函数 ,用来表示在取得数据之前我们对某个参数 的信念。我们称之为先验分布。 选择一个概率密度函数 ,用来表示在取得数据之前我们对某个参数 的信念。我们称之为先验分布。 选择一个模型 (在参数推断一章记为 ) 来反映在给定参数 情况下我们对x的信念。 当得到数据 X1, X2,…Xn 后,我们更新我们的信念并且计算后验分布 。 从后验分布中得到点估计和区间估计。

回忆贝叶斯规则 亦称贝叶斯定理 条件概率 利用贝叶斯规则将数据和参数的分布联合起来

似然函数 假设我们有n个IID观测 ,记为 ,产生的数据为 ,记为 ,我们用如下公式替代 现在似然函数真正解释为给定参数下数据的概率

后验概率 因此后验概率为 其中 被称为归一化常数(normalizing constant)。该常数经常被忽略,因为我们关心的主要是参数 的不同值之间的比较。所以 也就是说,后验和似然函数与先验的乘积成正比

贝叶斯点估计 后验的均值 是一个常用的点估计 极大后验估计(maximum a posteriori,MAP)是使后验 最大的 的值: L2损失下的贝叶斯规则 极大后验估计(maximum a posteriori,MAP)是使后验 最大的 的值: 是另一个常用的点估计 0-1损失下的贝叶斯规则

贝叶斯置信区间估计 为了得到贝叶斯区间估计,我们需找到a和b,使得 令 因此 C称为 后验区间。 注意:在多次试验中,并不保证θ在 (1 − α)100% 的次数会落在后验区间内。事实上,在复杂的高维模型中,当样本数很少时,覆盖概率可能接近于0。 注意: 是随机的

例:Bernoulli I 令 ,假设先验为均匀分布 ,根据贝叶斯公式,后验为 其中 为成功的次数。

例:Bernoulli I 为了得到后验的均值,我们必须计算 在这个例子中可以解析计算。后验恰好为Beta分布 其中参数 , ,均值为

例:Bernoulli I p的极大似然估计为 ,为无偏估计。 贝叶斯估计还可以写成 其中 为先验的均值,

例:Bernoulli II 现在假设先验不是均匀分布,而是 则后验为Beta分布,参数为 和 ,即 后验的均值为 其中 为先验的均值。 其中 为先验的均值。 先验和后验为相同的分布族:共轭 如例子中的Beta分布

例:正态分布 令 ,为简单起见,假设 已知,并假设先验为 对θ而言为常数 对θ而言为常数

例:正态分布 将二者相乘,去掉一些常数项,最后得到一个正态分布形式的核 最后, θ的后验为 其中 为MLE 的标准误差。

例:正态分布 当 时, , 当n很大时,后验近似为 当n固定而 时,对应先验趋近于均匀分布,上述结论也成立

例:正态分布 计算后验区间 ,使得 所以 且 因此, 由于 ,所以 最后95%的贝叶斯后验区间为 由于 , ,也可用 近似,同频率置信区间

参数的函数 问题:已知 的贝叶斯后验分布为 ,求 的后验分布 两种方法: 利用CDF的定义,先求 的CDF ,然后求后验密度 ,其中CDF为 问题:已知 的贝叶斯后验分布为 ,求 的后验分布 两种方法: 利用CDF的定义,先求 的CDF ,然后求后验密度 ,其中CDF为 仿真/模拟方法

仿真 (Simulation) 可以通过仿真而不是解析计算来得到点估计和区间估计。假设我们抽取样本 则 的直方图可以近似后验密度 则 的直方图可以近似后验密度 后验的均值 近似为 后验的 置信区间为 ,其中 为样本 的 样本分位数(quantile) 一旦从 中抽取样本 ,令 则 为来自 。这样避免了解析计算 但仿真可能很复杂/困难

例:Bernoullil 抽样: 令 则 为 的IID,用直方图方法可以估计

MLE和贝叶斯 令 为 的极大似然估计,标准误差为 在合适的正则条件下,后验均值的渐近分布为 也就是说, 令 为 的极大似然估计,标准误差为 在合适的正则条件下,后验均值的渐近分布为 也就是说, 另外,若 为渐近频率的 置信区间,则 也是贝叶斯后验的 区间:

MLE和贝叶斯 定义 则 分别展开

MLE和贝叶斯 将先验也展开 I0为先验中θ的信息 m0最大化f(θ)

MLE和贝叶斯 定义 结合展开,得到

MLE和贝叶斯 后验简化为 结论: 当n相对参数数目很大时,如果先验符合真正的知识,则贝叶斯区间和频率区间相同。 当数据越多时,先验的影响越弱。

先验知识从哪儿来呢? 我们可能在观测数据之前就有一些主观观点或真正的先验知识。 但是,通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些,这时可以选择无信息的先验(noninformative prior)。 或者可以从数据估计先验。这被称为经验贝叶斯(empirical Bayes),有时亦称第II类的极大似然(Type II maximum likelihood)。

扁平先验(Flat Priors) 考虑一个扁平的先验: 其中c > 0为常数。 但是 ,因此这不是一个pdf。我们称之为非正常先验(improper prior)。 通常非正常先验不是问题,只要后验为一个定义良好的pdf即可。 扁平先验有时为病态定义的,因为一个参数的扁平先验并不意味参数的变换也是扁平先验。 请参见书中的例子

通用先验 一个流行的想法是使用通用先验,或在任何场合下都可用的缺省的先验分布。该先验通常从似然函数推导得到。 例子包括最小描述长度 (minimum description length, MDL) 和Jeffrey 先验。 这些通常是完全无信息的。

Jeffrey 先验 Jeffrey提出的创建先验的规则: 其中 为Fisher信息。 例:对 , 例:对 , 则Jeffrey 先验为 ,即 ,与均匀分布很相近。

Jeffrey 先验 对于多元参数情况, Jeffrey 先验为 其中 表示矩阵A的行列式, 为Fisher信息矩阵。

多元参数问题 对于多元参数 的情况,原则上同处理单个参数相同。 后验密度为: 问题:如何对多个参数中的一个进行推断? 对于多元参数 的情况,原则上同处理单个参数相同。 后验密度为: 问题:如何对多个参数中的一个进行推断? 计算感兴趣参数的后验边缘分布 例如 的边缘分布为

多元参数问题 通常计算 是很困难的,可用模拟的方法近似。 从后验分布随机采样: 收集每个样本中向量的第一个成分,得到 上标表示不同的采样, 收集每个样本中向量的第一个成分,得到 为 中的样本,这样可以避免积分运算。

贝叶斯假设检验 从贝叶斯观点看假设检验时一个很复杂的问题,我们只介绍其基本思想。

贝叶斯假设检验 数据和模型: 检验: 例:用X表示一个最近被污染区域中n个蛋中被孵出的蛋的数目,则 ,其中表示被孵出蛋的真正比例 其中0为被孵出蛋比例的经验值

先验分布 令 分别表示H0和H1的先验分布 通常缺省为: 在H1下,用 表示关于位置的信息的先验密度 对二项分布,通常缺省为:

给定数据, H0 为真的后验概率 根据贝叶斯公式,

给定数据, H0 为真的后验概率 对上例中的二项检验问题,

贝叶斯因子 有人更喜欢用H0对H1的贝叶斯因子(Bayes factor) 例:假设在上例中 则 而经典检验给出的p值为0.05 亦称为加权似然比 因为这样不涉及Hi的先验 例:假设在上例中 则 而经典检验给出的p值为0.05

贝叶斯假设检验的优点 反映了真正的期望错误率:但p-values 不是。 后验概率允许加入个人观点,如果喜欢的话。 后验概率可用于多模型检验中: Including nonnested models, models with nuisance parameters, irregular models, ...

贝叶斯推理 vs. 频率推理 我们应该信仰频率学派还是贝叶斯学派?

贝叶斯学派的观点 先验信息:可以方便的结合先验信息,而且人们在做推断时也确实利用了先验信息,贝叶斯推断使得这个过程显式化 提供了更多的结构:对小样本很有效 简练:允许人们对参数进行概率描述,使得似然函数与其逻辑结论一致,减小了数据和参数之间的区别 统一:不必对点估计和区间估计各个解析推导

反对贝叶斯学派的观点 不方便:后验区间不是真正的置信区间,估计通常都是有偏估计 以参数为中心:在很多非参数情况下似然很脆弱 计算强度大:积分/仿真或近似很难处理 不必要的复杂:即使没有先验信息也要有先验函数 假设检验:贝叶斯假设检验对先验的选取很敏感

综上所述 在参数模型中,当样本数目很多时,贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同 贝叶斯方法和频率推理是为了解决不同的问题 结合先验知识和数据:贝叶斯方法 构造长期稳定的性能(如置信区间):频率方法

综上所述 当参数空间为高维时,通常采用贝叶斯方法 但当参数比数据还多时,没有统计方法能跨越自然的本质约束 即使先验知识选择得当,也只能对“过去”预测很好,对将来不一定能预测很好 You cannot get something for nothing. A little bit of data, will not help you to learn about a million dimensional, complex problem.

下节课内容 作业:第11章第2、4题 统计决策理论 (Ch12)