Chp11:贝叶斯推断 内容: 贝叶斯观点和贝叶斯方法 贝叶斯推断 vs. 频率推断
贝叶斯观点和贝叶斯方法 从频率到信念
频率学派的观点 到目前为止我们讲述的都是频率(经典的)统计学 概率指的是相对频率,是真实世界的客观属性。 参数是固定的未知常数。由于参数不会波动,因此不能对其进行概率描述。 统计过程应该具有定义良好的频率稳定性。如:一个95%的置信区间应覆盖参数真实值至少95%的频率。 统计学更多关注频率推断
贝叶斯学派的观点 贝叶斯推断采取了另外一个不同的立场: 概率描述的是主观信念的程度,而不是频率。这样除了对从随机变化产生的数据进行概率描述外,我们还可以对其他事物进行概率描述。 可以对各个参数进行概率描述,即使它们是固定的常数。 为参数生成一个概率分布来对它们进行推导,点估计和区间估计可以从这些分布得到 机器学习和数据挖掘更偏爱贝叶斯推断
贝叶斯方法 贝叶斯推断的基本步骤如下: 选择一个概率密度函数 ,用来表示在取得数据之前我们对某个参数 的信念。我们称之为先验分布。 选择一个概率密度函数 ,用来表示在取得数据之前我们对某个参数 的信念。我们称之为先验分布。 选择一个模型 (在参数推断一章记为 ) 来反映在给定参数 情况下我们对x的信念。 当得到数据 X1, X2,…Xn 后,我们更新我们的信念并且计算后验分布 。 从后验分布中得到点估计和区间估计。
回忆贝叶斯规则 亦称贝叶斯定理 条件概率 利用贝叶斯规则将数据和参数的分布联合起来
似然函数 假设我们有n个IID观测 ,记为 ,产生的数据为 ,记为 ,我们用如下公式替代 现在似然函数真正解释为给定参数下数据的概率
后验概率 因此后验概率为 其中 被称为归一化常数(normalizing constant)。该常数经常被忽略,因为我们关心的主要是参数 的不同值之间的比较。所以 也就是说,后验和似然函数与先验的乘积成正比
贝叶斯点估计 后验的均值 是一个常用的点估计 极大后验估计(maximum a posteriori,MAP)是使后验 最大的 的值: L2损失下的贝叶斯规则 极大后验估计(maximum a posteriori,MAP)是使后验 最大的 的值: 是另一个常用的点估计 0-1损失下的贝叶斯规则
贝叶斯置信区间估计 为了得到贝叶斯区间估计,我们需找到a和b,使得 令 因此 C称为 后验区间。 注意:在多次试验中,并不保证θ在 (1 − α)100% 的次数会落在后验区间内。事实上,在复杂的高维模型中,当样本数很少时,覆盖概率可能接近于0。 注意: 是随机的
例:Bernoulli I 令 ,假设先验为均匀分布 ,根据贝叶斯公式,后验为 其中 为成功的次数。
例:Bernoulli I 为了得到后验的均值,我们必须计算 在这个例子中可以解析计算。后验恰好为Beta分布 其中参数 , ,均值为
例:Bernoulli I p的极大似然估计为 ,为无偏估计。 贝叶斯估计还可以写成 其中 为先验的均值,
例:Bernoulli II 现在假设先验不是均匀分布,而是 则后验为Beta分布,参数为 和 ,即 后验的均值为 其中 为先验的均值。 其中 为先验的均值。 先验和后验为相同的分布族:共轭 如例子中的Beta分布
例:正态分布 令 ,为简单起见,假设 已知,并假设先验为 对θ而言为常数 对θ而言为常数
例:正态分布 将二者相乘,去掉一些常数项,最后得到一个正态分布形式的核 最后, θ的后验为 其中 为MLE 的标准误差。
例:正态分布 当 时, , 当n很大时,后验近似为 当n固定而 时,对应先验趋近于均匀分布,上述结论也成立
例:正态分布 计算后验区间 ,使得 所以 且 因此, 由于 ,所以 最后95%的贝叶斯后验区间为 由于 , ,也可用 近似,同频率置信区间
参数的函数 问题:已知 的贝叶斯后验分布为 ,求 的后验分布 两种方法: 利用CDF的定义,先求 的CDF ,然后求后验密度 ,其中CDF为 问题:已知 的贝叶斯后验分布为 ,求 的后验分布 两种方法: 利用CDF的定义,先求 的CDF ,然后求后验密度 ,其中CDF为 仿真/模拟方法
仿真 (Simulation) 可以通过仿真而不是解析计算来得到点估计和区间估计。假设我们抽取样本 则 的直方图可以近似后验密度 则 的直方图可以近似后验密度 后验的均值 近似为 后验的 置信区间为 ,其中 为样本 的 样本分位数(quantile) 一旦从 中抽取样本 ,令 则 为来自 。这样避免了解析计算 但仿真可能很复杂/困难
例:Bernoullil 抽样: 令 则 为 的IID,用直方图方法可以估计
MLE和贝叶斯 令 为 的极大似然估计,标准误差为 在合适的正则条件下,后验均值的渐近分布为 也就是说, 令 为 的极大似然估计,标准误差为 在合适的正则条件下,后验均值的渐近分布为 也就是说, 另外,若 为渐近频率的 置信区间,则 也是贝叶斯后验的 区间:
MLE和贝叶斯 定义 则 分别展开
MLE和贝叶斯 将先验也展开 I0为先验中θ的信息 m0最大化f(θ)
MLE和贝叶斯 定义 结合展开,得到
MLE和贝叶斯 后验简化为 结论: 当n相对参数数目很大时,如果先验符合真正的知识,则贝叶斯区间和频率区间相同。 当数据越多时,先验的影响越弱。
先验知识从哪儿来呢? 我们可能在观测数据之前就有一些主观观点或真正的先验知识。 但是,通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些,这时可以选择无信息的先验(noninformative prior)。 或者可以从数据估计先验。这被称为经验贝叶斯(empirical Bayes),有时亦称第II类的极大似然(Type II maximum likelihood)。
扁平先验(Flat Priors) 考虑一个扁平的先验: 其中c > 0为常数。 但是 ,因此这不是一个pdf。我们称之为非正常先验(improper prior)。 通常非正常先验不是问题,只要后验为一个定义良好的pdf即可。 扁平先验有时为病态定义的,因为一个参数的扁平先验并不意味参数的变换也是扁平先验。 请参见书中的例子
通用先验 一个流行的想法是使用通用先验,或在任何场合下都可用的缺省的先验分布。该先验通常从似然函数推导得到。 例子包括最小描述长度 (minimum description length, MDL) 和Jeffrey 先验。 这些通常是完全无信息的。
Jeffrey 先验 Jeffrey提出的创建先验的规则: 其中 为Fisher信息。 例:对 , 例:对 , 则Jeffrey 先验为 ,即 ,与均匀分布很相近。
Jeffrey 先验 对于多元参数情况, Jeffrey 先验为 其中 表示矩阵A的行列式, 为Fisher信息矩阵。
多元参数问题 对于多元参数 的情况,原则上同处理单个参数相同。 后验密度为: 问题:如何对多个参数中的一个进行推断? 对于多元参数 的情况,原则上同处理单个参数相同。 后验密度为: 问题:如何对多个参数中的一个进行推断? 计算感兴趣参数的后验边缘分布 例如 的边缘分布为
多元参数问题 通常计算 是很困难的,可用模拟的方法近似。 从后验分布随机采样: 收集每个样本中向量的第一个成分,得到 上标表示不同的采样, 收集每个样本中向量的第一个成分,得到 为 中的样本,这样可以避免积分运算。
贝叶斯假设检验 从贝叶斯观点看假设检验时一个很复杂的问题,我们只介绍其基本思想。
贝叶斯假设检验 数据和模型: 检验: 例:用X表示一个最近被污染区域中n个蛋中被孵出的蛋的数目,则 ,其中表示被孵出蛋的真正比例 其中0为被孵出蛋比例的经验值
先验分布 令 分别表示H0和H1的先验分布 通常缺省为: 在H1下,用 表示关于位置的信息的先验密度 对二项分布,通常缺省为:
给定数据, H0 为真的后验概率 根据贝叶斯公式,
给定数据, H0 为真的后验概率 对上例中的二项检验问题,
贝叶斯因子 有人更喜欢用H0对H1的贝叶斯因子(Bayes factor) 例:假设在上例中 则 而经典检验给出的p值为0.05 亦称为加权似然比 因为这样不涉及Hi的先验 例:假设在上例中 则 而经典检验给出的p值为0.05
贝叶斯假设检验的优点 反映了真正的期望错误率:但p-values 不是。 后验概率允许加入个人观点,如果喜欢的话。 后验概率可用于多模型检验中: Including nonnested models, models with nuisance parameters, irregular models, ...
贝叶斯推理 vs. 频率推理 我们应该信仰频率学派还是贝叶斯学派?
贝叶斯学派的观点 先验信息:可以方便的结合先验信息,而且人们在做推断时也确实利用了先验信息,贝叶斯推断使得这个过程显式化 提供了更多的结构:对小样本很有效 简练:允许人们对参数进行概率描述,使得似然函数与其逻辑结论一致,减小了数据和参数之间的区别 统一:不必对点估计和区间估计各个解析推导
反对贝叶斯学派的观点 不方便:后验区间不是真正的置信区间,估计通常都是有偏估计 以参数为中心:在很多非参数情况下似然很脆弱 计算强度大:积分/仿真或近似很难处理 不必要的复杂:即使没有先验信息也要有先验函数 假设检验:贝叶斯假设检验对先验的选取很敏感
综上所述 在参数模型中,当样本数目很多时,贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同 贝叶斯方法和频率推理是为了解决不同的问题 结合先验知识和数据:贝叶斯方法 构造长期稳定的性能(如置信区间):频率方法
综上所述 当参数空间为高维时,通常采用贝叶斯方法 但当参数比数据还多时,没有统计方法能跨越自然的本质约束 即使先验知识选择得当,也只能对“过去”预测很好,对将来不一定能预测很好 You cannot get something for nothing. A little bit of data, will not help you to learn about a million dimensional, complex problem.
下节课内容 作业:第11章第2、4题 统计决策理论 (Ch12)