Chp11：贝叶斯推断内容: 贝叶斯观点和贝叶斯方法贝叶斯推断 vs. 频率推断.

Chp11：贝叶斯推断内容: 贝叶斯观点和贝叶斯方法贝叶斯推断 vs. 频率推断

贝叶斯观点和贝叶斯方法从频率到信念

频率学派的观点到目前为止我们讲述的都是频率（经典的）统计学概率指的是相对频率，是真实世界的客观属性。
参数是固定的未知常数。由于参数不会波动，因此不能对其进行概率描述。统计过程应该具有定义良好的频率稳定性。如：一个95％的置信区间应覆盖参数真实值至少95％的频率。统计学更多关注频率推断

贝叶斯学派的观点贝叶斯推断采取了另外一个不同的立场：
概率描述的是主观信念的程度，而不是频率。这样除了对从随机变化产生的数据进行概率描述外，我们还可以对其他事物进行概率描述。可以对各个参数进行概率描述，即使它们是固定的常数。为参数生成一个概率分布来对它们进行推导，点估计和区间估计可以从这些分布得到机器学习和数据挖掘更偏爱贝叶斯推断

贝叶斯方法贝叶斯推断的基本步骤如下：选择一个概率密度函数，用来表示在取得数据之前我们对某个参数的信念。我们称之为先验分布。
选择一个概率密度函数，用来表示在取得数据之前我们对某个参数的信念。我们称之为先验分布。选择一个模型（在参数推断一章记为）来反映在给定参数情况下我们对x的信念。当得到数据 X1, X2,…Xn 后，我们更新我们的信念并且计算后验分布。从后验分布中得到点估计和区间估计。

回忆贝叶斯规则亦称贝叶斯定理条件概率利用贝叶斯规则将数据和参数的分布联合起来

似然函数假设我们有n个IID观测，记为 ,产生的数据为，记为，我们用如下公式替代现在似然函数真正解释为给定参数下数据的概率

后验概率因此后验概率为其中被称为归一化常数(normalizing constant)。该常数经常被忽略，因为我们关心的主要是参数的不同值之间的比较。所以也就是说，后验和似然函数与先验的乘积成正比

贝叶斯点估计后验的均值是一个常用的点估计极大后验估计(maximum a posteriori，MAP)是使后验最大的的值：
L2损失下的贝叶斯规则极大后验估计(maximum a posteriori，MAP)是使后验最大的的值：是另一个常用的点估计 0-1损失下的贝叶斯规则

贝叶斯置信区间估计为了得到贝叶斯区间估计，我们需找到a和b，使得令因此 C称为后验区间。
注意：在多次试验中,并不保证θ在 (1 − α)100% 的次数会落在后验区间内。事实上，在复杂的高维模型中，当样本数很少时，覆盖概率可能接近于0。注意：是随机的

例：Bernoulli I 令，假设先验为均匀分布，根据贝叶斯公式，后验为其中为成功的次数。

例：Bernoulli I 为了得到后验的均值，我们必须计算在这个例子中可以解析计算。后验恰好为Beta分布其中参数，，均值为

例：Bernoulli I p的极大似然估计为，为无偏估计。贝叶斯估计还可以写成其中为先验的均值，

例：Bernoulli II 现在假设先验不是均匀分布，而是则后验为Beta分布，参数为和，即后验的均值为其中为先验的均值。
其中为先验的均值。先验和后验为相同的分布族：共轭如例子中的Beta分布

例：正态分布令，为简单起见，假设已知，并假设先验为对θ而言为常数对θ而言为常数

例：正态分布将二者相乘，去掉一些常数项，最后得到一个正态分布形式的核最后， θ的后验为其中为MLE 的标准误差。

例：正态分布当时，，当n很大时，后验近似为当n固定而时，对应先验趋近于均匀分布，上述结论也成立

例：正态分布计算后验区间，使得所以且因此，由于，所以最后95%的贝叶斯后验区间为由于，，也可用近似，同频率置信区间

参数的函数问题：已知的贝叶斯后验分布为，求的后验分布两种方法：利用CDF的定义，先求的CDF ，然后求后验密度，其中CDF为
问题：已知的贝叶斯后验分布为，求的后验分布两种方法：利用CDF的定义，先求的CDF ，然后求后验密度，其中CDF为仿真/模拟方法

仿真 (Simulation) 可以通过仿真而不是解析计算来得到点估计和区间估计。假设我们抽取样本则的直方图可以近似后验密度
则的直方图可以近似后验密度后验的均值近似为后验的置信区间为，其中为样本的样本分位数(quantile) 一旦从中抽取样本，令则为来自。这样避免了解析计算但仿真可能很复杂/困难

例：Bernoullil 抽样：令则为的IID，用直方图方法可以估计

MLE和贝叶斯令为的极大似然估计，标准误差为在合适的正则条件下，后验均值的渐近分布为也就是说，
令为的极大似然估计，标准误差为在合适的正则条件下，后验均值的渐近分布为也就是说，另外，若为渐近频率的置信区间，则也是贝叶斯后验的区间：

MLE和贝叶斯定义则分别展开

MLE和贝叶斯将先验也展开 I0为先验中θ的信息 m0最大化f(θ)

MLE和贝叶斯定义结合展开，得到

MLE和贝叶斯后验简化为结论：当n相对参数数目很大时，如果先验符合真正的知识，则贝叶斯区间和频率区间相同。
当数据越多时，先验的影响越弱。

先验知识从哪儿来呢？我们可能在观测数据之前就有一些主观观点或真正的先验知识。
但是，通常我们并没有真正的先验知识或者我们在贝叶斯估计时想更客观些，这时可以选择无信息的先验(noninformative prior)。或者可以从数据估计先验。这被称为经验贝叶斯(empirical Bayes)，有时亦称第II类的极大似然(Type II maximum likelihood)。

扁平先验(Flat Priors) 考虑一个扁平的先验：其中c > 0为常数。
但是，因此这不是一个pdf。我们称之为非正常先验(improper prior)。通常非正常先验不是问题，只要后验为一个定义良好的pdf即可。扁平先验有时为病态定义的，因为一个参数的扁平先验并不意味参数的变换也是扁平先验。请参见书中的例子

通用先验一个流行的想法是使用通用先验，或在任何场合下都可用的缺省的先验分布。该先验通常从似然函数推导得到。
例子包括最小描述长度 (minimum description length, MDL) 和Jeffrey 先验。这些通常是完全无信息的。

Jeffrey 先验 Jeffrey提出的创建先验的规则：其中为Fisher信息。例：对，
例：对，则Jeffrey 先验为，即，与均匀分布很相近。

Jeffrey 先验对于多元参数情况， Jeffrey 先验为其中表示矩阵A的行列式，为Fisher信息矩阵。

多元参数问题对于多元参数的情况，原则上同处理单个参数相同。后验密度为：问题：如何对多个参数中的一个进行推断？
对于多元参数的情况，原则上同处理单个参数相同。后验密度为：问题：如何对多个参数中的一个进行推断？计算感兴趣参数的后验边缘分布例如的边缘分布为

多元参数问题通常计算是很困难的，可用模拟的方法近似。从后验分布随机采样：收集每个样本中向量的第一个成分，得到
上标表示不同的采样，收集每个样本中向量的第一个成分，得到为中的样本，这样可以避免积分运算。

贝叶斯假设检验从贝叶斯观点看假设检验时一个很复杂的问题，我们只介绍其基本思想。

贝叶斯假设检验数据和模型：检验：例：用X表示一个最近被污染区域中n个蛋中被孵出的蛋的数目，则，其中表示被孵出蛋的真正比例
其中0为被孵出蛋比例的经验值

先验分布令分别表示H0和H1的先验分布通常缺省为：在H1下，用表示关于位置的信息的先验密度对二项分布，通常缺省为：

给定数据， H0 为真的后验概率根据贝叶斯公式，

给定数据， H0 为真的后验概率对上例中的二项检验问题，

贝叶斯因子有人更喜欢用H0对H1的贝叶斯因子(Bayes factor) 例：假设在上例中则而经典检验给出的p值为0.05
亦称为加权似然比因为这样不涉及Hi的先验例：假设在上例中则而经典检验给出的p值为0.05

贝叶斯假设检验的优点反映了真正的期望错误率：但p-values 不是。后验概率允许加入个人观点，如果喜欢的话。
后验概率可用于多模型检验中： Including nonnested models, models with nuisance parameters, irregular models, ...

贝叶斯推理 vs. 频率推理我们应该信仰频率学派还是贝叶斯学派？

贝叶斯学派的观点先验信息：可以方便的结合先验信息，而且人们在做推断时也确实利用了先验信息，贝叶斯推断使得这个过程显式化
提供了更多的结构：对小样本很有效简练：允许人们对参数进行概率描述，使得似然函数与其逻辑结论一致，减小了数据和参数之间的区别统一：不必对点估计和区间估计各个解析推导

反对贝叶斯学派的观点不方便：后验区间不是真正的置信区间，估计通常都是有偏估计以参数为中心：在很多非参数情况下似然很脆弱
计算强度大：积分/仿真或近似很难处理不必要的复杂：即使没有先验信息也要有先验函数假设检验：贝叶斯假设检验对先验的选取很敏感

综上所述在参数模型中，当样本数目很多时，贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同
贝叶斯方法和频率推理是为了解决不同的问题结合先验知识和数据：贝叶斯方法构造长期稳定的性能（如置信区间）：频率方法

综上所述当参数空间为高维时，通常采用贝叶斯方法但当参数比数据还多时，没有统计方法能跨越自然的本质约束
即使先验知识选择得当，也只能对“过去”预测很好，对将来不一定能预测很好 You cannot get something for nothing. A little bit of data, will not help you to learn about a million dimensional, complex problem.

下节课内容作业：第11章第2、4题统计决策理论（Ch12）

Chp11：贝叶斯推断内容: 贝叶斯观点和贝叶斯方法贝叶斯推断 vs. 频率推断.

Similar presentations

Presentation on theme: "Chp11：贝叶斯推断内容: 贝叶斯观点和贝叶斯方法贝叶斯推断 vs. 频率推断."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

Chp11：贝叶斯推断 内容: 贝叶斯观点和贝叶斯方法 贝叶斯推断 vs. 频率推断.

Similar presentations

Presentation on theme: "Chp11：贝叶斯推断 内容: 贝叶斯观点和贝叶斯方法 贝叶斯推断 vs. 频率推断."— Presentation transcript:

Similar presentations

About project

反馈

Chp11：贝叶斯推断内容: 贝叶斯观点和贝叶斯方法贝叶斯推断 vs. 频率推断.

Presentation on theme: "Chp11：贝叶斯推断内容: 贝叶斯观点和贝叶斯方法贝叶斯推断 vs. 频率推断."— Presentation transcript: