26/07/20161 粒子物理与核物理实验中的 数据分析 杨振伟 清华大学 第二讲:基本概念(续)
艾滋病检验结果再认识 26/07/20162 对于个人而言, 是主观概率。如果没有 其它额外的信息时,应把 当作相对频率解释。 但是往往在病毒检验前,该相对频率被当作一种信 念来处理个人是否患病。 如果还有其它额外的信息,应该给出不同的先 验概率。这种贝叶斯统计的特点必定是主观的。例 如,受检者有过吸毒历史。一旦验前概率改变,贝 叶斯定理就会告诉患病的可能性。对阳性结果的诠 释就会改变。 问题:能否构造含自变量的概率?
26/07/20163 随机变量与概率密度函数 假设实验结果为 x ( 记作样本空间中元素 ) 的概率为 那么概率密度函数 p.d.f. 定义为 f (x) ,它对全部样本空间 S 满足 定义累积分布函数为 对于离散型随机变量
分位数、中值与模 26/07/20164 分位点 x 定义为随机变量 x 的值,它使得 这里 0 1 。因此可以容易求出分位点 随机变量 x 的中值定义为 随机变量 x 被观测到大于或小于中值的概率是相等的。 模定义为使概率密度函数值达到极大的随机变量值。
26/07/20165 直方图与概率密度函数 概率密度函数 p.d.f. 就是拥有无穷大样本,区间宽度为零, 而且归一化到单位面积的直方图。 直方图在统计分析中非常重 要,应准确理解它的含义。
26/07/20166 多变量情形 如果观测量大于一个,例如 x 与 y
26/07/20167 边缘分布 将联合概率密度函数 p.d.f. 分别投影到 x 与 y 轴
若 x , y 相互独立,则可构造 2- 维 p.d.f 26/07/20168 条件概率密度函数 利用条件概率的定义,可得到 定义条件概率的密度函数 p.d.f. 为 则贝叶斯定理可写为 h(y|x) y y x
26/07/20169 名词总汇 随机事例 概率 条件概率 相对频率与主观概率 贝叶斯定理 随机变量 概率密度函数 条件密度函数 直方图
26/07/ 问题 条件概率 如果 A 与 B 相互独立,则从文恩图上得到 因此
26/07/ 解答:概率都是条件概率 由柯尓莫哥洛夫公理,我们定义了概率 P(A) 。 但在实际应用中,我们总是对 A 相对于许多样本空间的概率 感兴趣,而不仅仅只是一个空间。因此,通常以记号 来表示所进行的研究是在特定的样本空间 S 中,也就是 A 相 对于 S 的条件概率。 因此,所有概率在实际应用中都是条件概率。 只有当 S 的选择是明白无误时,才能简单记为
26/07/ 解答:互斥与相互独立 互斥的定义为 也就是两个事例的定义没有交集。所给出的推论为 相互独立的定义为 因此,根据定义两个相互独立的事例不意味着是互斥的。前 面的问题属于把两者定义混淆了。
26/07/ 证明举例:事例与逆事例 如果 A 是在 S 中的任意一个事例,则 证明:由于 A 与 根据定义是互斥的,并且从文恩图得到 因此可以写出
26/07/ 举例:检查给定概率的合理性 如果一个实验有三种可能并且互斥的结果 A , B 和 C ,检查 下列各种情况给出的概率值是否是合理的: 结论:只有 1 )与 4 )是合理的。 评论:作为一个合格的实验研究人员,一定要具备判断 结果是否合理的能力!
26/07/ 举例:检查经验概率密度函数 实验上经常经验性地从直方图中给出概率密度函数(例如 通过拟合直方图分布等等),但是需要确定得到的函数是否 满足概率密度函数的定义,例如 试判断哪一个可以用作概率密度函数? 答案: 1 )有负概率值; 2 )累积函数值大于 1 。因此,两者 在给定的随机变量范围内都不能用作概率密度函数。
26/07/ 数据分析中的问题 粒子与核物理实验中对动量的测量通常是分别测量 在已知两分量测量值的概率密度函数情况下,总动量为 如何导出总动量的测量值的概率密度函数? 是研究随机变量函数的 p.d.f 问题。
26/07/ 一维随机变量的函数 随机变量的函数自身也是一个随机变量。 假设 x 服从 p.d.f. f (x) ,对于函数 a(x) ,其 p.d.f. g(a) 为何?
26/07/ 函数的逆不唯一情况 假如 a(x) 的逆不唯一,则函数的 p.d.f. 应将 dS 中对应于 da 的所有 dx 的区间包括进来
26/07/ 多维随机变量的函数 考虑随机矢量 与函数 ,对应的 p.d.f. 如果两个独立变量 x 与 y ,分别按 g(x) 与 h(y) 分布,那么 函数 z = xy 应具有何种形式?
多维随机变量的函数 ( 续一 ) 26/07/ 记作 g 与 h 的 Mellin 卷积 如果函数为 z = x+y ,则应具有何种形式? 记作 g 与 h 的傅立叶卷积 注意:通常将两者皆称为 g 与 h 的卷积,已相同记号表示。
26/07/ 多维随机变量的函数 ( 续二 ) 考虑具有联合的 p.d.f. 的随机矢量 ,构造 个线性独立的函数: ,而且其逆 函数 存在。那么 的联合 p.d.f. 为 这里 是雅可比行列式 任意一个函数 均可通过对函数 积分掉其它不用的变 量而得到。是数据处 理中误差传递的基础。
26/07/ 期待值 考虑具有 p.d.f. 的随机变量 ,定义期待 ( 平均 ) 值为 注意 : 它不是 的函数,而是 的一个参数。 通常记为: 对离散型变量,有 对具有 p.d.f. 的函数 ,有 方差定义为 通常记为: 标准偏差:
26/07/ 协方差与相关系数 定义协方差 ( 也可用矩阵表示 ) 为 相关系数定义为 如果 x , y 独立,即 则
26/07/ 举例:样本平均值 假设实验上研究一核素衰变寿命,在探测效率为 100% 的情况 下,每次探测到的寿命为 t i ,一共测量了 n 次,求平均寿命 (也就是寿命的期待值)。 根据离散型期待值的定义 问题的关键是 t i 的概率密度函数是什么? 根据概率的相对频率定义,在 n 次测量中出现 t i 频率为一次 因此,期待值(或平均寿命)为 思考:如果频率为 m i 次,结果会不同吗?
26/07/ 误差传递 假设 服从某一联合 p.d.f. ,我们也许并不 全部知道该函数形式 ,但假设我们有协方差 和平均值 现考虑一函数 ,方差 是什么? 将 在 附近按泰勒展开到第一级 然后,计算 与 …
26/07/ 误差传递 ( 续一 ) 由于 所以利用泰勒展开式可求
26/07/ 误差传递 ( 续二 ) 两项合起来给出 的方差 如果 之间是无关的,则 ,那么上式变为 类似地,对于 组函数
26/07/ 误差传递 ( 续三 ) 或者记为矩阵形式 注意:上式只对 为线性时是精确的,近似程度在函数非 线性区变化比 要大时遭到很大的破坏。另外,上式并不需 要知道 的 p.d.f. 具体形式,例如,它可以不是高斯的。
26/07/ 误差传递的一些特殊情况 注意在相关的情况下,最终的误差会有很大的改变,例如当 这种特征有时候是有益的:将公共的或难以估计的误差, 通过适当的数学处理将它们消掉,达到减小误差的目的。
26/07/ 坐标变换下的误差矩阵 实验上经常通过测量粒子在探测器中各点的击中坐标( x, y ) 来拟合在极坐标下的径迹( r, )。通常情况下, ( x, y )的 测量是不关联的。 由于 因此,坐标变换后的误差矩阵为
26/07/ 大亚湾反应堆中微子实验
26/07/ 反应堆中微子 反应堆能产生大量反电子型中微子 3 GW 热功率反应堆 中微子几乎无损穿透物质 假设产生的中微子以球面 波传播,那么在任一地方 任一给定面元的中微子流 强为
26/07/ 大亚湾中微子振荡 中微子振荡 中微子在运动过程中自己不断改变形态 测量中微子形态随运动距离的改变 中微子形态随运动距离的改变理论预言
26/07/ 如何保证 1% 精度? 测量中微子振荡的影响 那一种方案更易实现 1% 精度的测量?为什么?
26/07/ 不同坐标系下相关性的变化 通过转动坐标,随机变量的相关性会发生改变。 显然,通过将坐标系转动 45 0 ,上面的相关性在新坐标系下 消失。
随机变量作正则变换去除相关性 26/07/ 对应的协方差矩阵为 非线性情况 假设有 n 个随机变量 x 1,…,x n 以及协方差矩阵 V ij =cov[x i, x j ] , 可以证明有可能通过线性变换重新定义 n 个新的变量 y 1,…,y n 使得对应的协方差矩阵 U ij =cov[y i, y j ] 非对角元为零。令
26/07/ 变换后的变量协方差矩阵对角化 为了使协方差矩阵 U 对角化 由于协方差矩阵总是对称的,因此可知本征矢量是正交的 可先确定协方差矩阵 V 的本征列矢量 , i=1,…,n 。解方程 变换矩阵 A 由本征矢量 给出,即
26/07/ 正则变换后变量的协方差矩阵 因此,正则变换的协方差矩阵为 变量作正则变换 后,其方差由原 协方差矩阵 V 的 本征值给出。 对应于矢量的转动 不改变模的大小。 | y | 2 = y T y = x T A T Ax =| x | 2 尽管非关联变量经常容易 处理,但是对经过变换的 变量的理解不一定容易。
带电粒子在闪烁体的射程 26/07/ 在原来的定义下,可以得到 粒子射程随动量大小的变化 关系。通过转动变换,粒子 的射程与动量发生了改变, 无物理含义,但是提供了一 个很好的粒子类型甄别变量。
26/07/ 小结 1. 概率 2. 随机变量 3. 随机变量函数 4. 误差传递 a) 定义:柯尔莫哥洛夫公理 + 条件概率 b) 解释:频率或信心程度 c) 贝叶斯定理 a) 概率密度函数 p.d.f. b) 累积分布函数 c) 联合,边缘与条件的 p.d.f. a) 函数自身也是随机变量 b) 几种方法找出 p.d.f. 函数方差的计算方法是基于一阶泰勒展开,只对线性方程精确。