Bioelectromagnetics Key Laboratory, College of Medicine 第三章 贝叶斯概率理论 Prof. Bao Jiali Ph.D Bioelectromagnetics Key Laboratory, College of Medicine Tel: 88208171, 13018905641 Email: baojl@zju.edu.cn
贝叶斯概率理论的基本观点
例子 70%的盒子 0个次品 20% 1 10% 2 一个盒子有8个零件 假设:盒子里含有0个、1个、2个次品 70%的盒子 0个次品 20% 1 10% 2 一个盒子有8个零件 假设:盒子里含有0个、1个、2个次品 现在随机地取出3个零件,其中有1件次品 问:这个盒子含有2个次品的概率
分析 任何一个未知量都可以看做是一个随机变量,应用一个概率分布去描述这个随机变量,这个概率分布是在抽样前就已经有关于这个随机变量先验信息的概率陈述。这个概率称为先验概率。
分析 贝叶斯方法对任意命题、假设或模型都赋予了一个似真度,具体说,要合理地实现归纳过程,要遵循以下三步: 清楚地描述出假设或模型,包括背景信息和数据; 使用概率论语言赋予一个先验概率; 在推断过程中使用概率计算,特别是根据已知数据估计假设的后验概率,得到唯一解。
分析 先验概率:根据历史资料和主观判断所确定的各事件发生的概率; 后验概率:利用贝叶斯公式,结合调查等方式获得了新的附加信息,对先验概率进行修正后得到更符合实际的修正概率; 联合概率:指两个任意事件的乘积的概率。
全概率公式 设事件A1, A2, •••, Ak构成一个完备事件组 并且P(Ak) > 0,i = 1, 2, •••, n 则对任何一个事件B,有:
贝叶斯公式的事件形式 假设A1, •••, Ak是互不相容的事件,并且已知其概率为P(Ak)(试验前的假设概率) 事件B ,并且已知P(BAk) 问:如果事件B确实已经发生,计算P(AkB) (试验后的假设概率)有: ( i = 1, 2, , k )
贝叶斯公式的随机变量形式 二维随机变量(,)的联合分布密度是 p(x,y)= p(x) f(y|x) 这样,对的条件分布密度g(x|y)为:
贝叶斯假设
例子 一个人打靶,打了n次,命中了m次,问此人打靶命中的概率应如何估计? 从通常概率论的教科书都是用m/n去估计概率,但这样的估计有它的不合理性: 如果n = m = 1,估计 = 1 n = m = 100,估计还是 = 1 如果n = 100,m = 0,估计 = 0 n = 1,m = 0,估计还是 = 0
贝叶斯假设 假设打靶命中概率为,则打靶n次命中m次的概率是: Cnm m (1- )n- m 如果看作随机变量,则上述概率就是当已知时,m对的条件概率,用g(m)表示Cnmm(1-)n-m 。 如果还知道的边际分布密度g(),则由贝叶斯公式,可求出对m的条件概率密度:
贝叶斯假设 先验概率g() 反映实验前,对命中概率的知识 后验概率f(m)反映试验结果m对关于的信息 似然度 Cnm m(1-)n-m
贝叶斯假设 如果我们对打靶人不了解,他的命中概率在[0, 1]中取哪个值都是同样可能的,这时先验概率g()就在[0, 1]上的均匀分布,即: 这样 上式右端分母是函数B(m+1,n-m+1)
贝叶斯假设 用后验概率期望值E{m}去估计,可以获得估计量: 当n = m = 1,估计 = 0.67,n = m = 100,估计 = 0.99。显然,这个估计比m/n要合理。这就是“相继律”。
先验概率的选取 无信息先验概率(Non-informative Priors):对参数是没有任何过去的知识可以借鉴,而是希望通过试验结果获得。 贝叶斯提出一个原则: 无信息先验概率分布应在参数取值范围内均匀分布。
贝叶斯假设的数学描述 可以获得后验概率密度: h( x1,,xn) 1 l( x1,,xn)
参数估计
估计问题 点估计 区间估计 假设样本x = (x1,,xn) 联合概率密度p (x1,,xn;),简写为p(x) 其中是参数
估计问题 点估计: 就是寻找一个统计量t(x1,,xn)去估计参数,简写 (x)。
估计问题 区间估计 只要有后验概率分布,就可以用分布的分位点给出参数的置信区间。
估计问题 评定估计好坏需要一个标准,根据这个标准去寻找最好的估计量和置信区间。 损失函数和风险函数是常用的两个标准。
损失函数 平方差损失函数:L(, a) = ( - a)2 绝对差损失函数:L(, a) = - a
风险函数 R (x) () = E(L(, (x))) 如果损失函数为平方差损失函数L(, a) = ( - a)2时, R (x) () = E[ (x) - ]2 就是 (x)对的均方差。
无偏估计 E( (x)) = 当 R (x) () = E[ (x) - ]2 相应的一致最小风险估计就是最小均方差估计
最大似然估计 构造一个自变量为模型参数的函数L() : L() = g(x1,,xn, ) L() = 0
谢 谢!