Presentation is loading. Please wait.

Presentation is loading. Please wait.

第一部分:概率 对应教材Chp1-5 课堂上讲述会较快,将知识点串起来,建议大家通读教材 主要内容: 随机变量及其分布

Similar presentations


Presentation on theme: "第一部分:概率 对应教材Chp1-5 课堂上讲述会较快,将知识点串起来,建议大家通读教材 主要内容: 随机变量及其分布"— Presentation transcript:

1 第一部分:概率 对应教材Chp1-5 课堂上讲述会较快,将知识点串起来,建议大家通读教材 主要内容: 随机变量及其分布
独立、条件独立、贝叶斯公式 期望、方差 概率不等式及收敛性

2 概率和随机变量 什么是“数据”(Data)? 什么是“模型”(Model)?

3 样本空间和事件 考虑一个事先不知道输入的试验: 试验的样本空间:所有可能输出 的集合 事件A是样本空间 的子集
试验的样本空间:所有可能输出 的集合 如果抛掷两次硬币,则样本空间为 事件A是样本空间 的子集 上述试验中第一次正面向上的事件为

4 从上述三个公理,可推导出概率的所有的其他性质。
对每个事件A ,我们定义一个数字P(A) ,称为A 的概率。概率根据下述三条公理: 1、事件A 的概率是一个非负实数:P(A) ≥ 0 2、合法命题的概率为1:P( ) = 1 3、对两两不相交(互斥)事件A1, A2, …, 从上述三个公理,可推导出概率的所有的其他性质。

5 公理的推论 不可满足命题的概率为0 对任意两个事件A 、 B 对事件A的补事件Ac 对任意事件A P (∅) = 0
P(A ∩ Ac) = 0 对任意两个事件A 、 B P(A ∪ B) = P (A) + P(B) – P(A ∩ B ) 对事件A的补事件Ac P(Ac) = 1 – P(A) 对任意事件A 0 ≤ P(A) ≤ 1

6 随机变量 随机变量是一个映射 ,将一个实数值 赋给一个试验的每一个输出
随机变量是一个映射 ,将一个实数值 赋给一个试验的每一个输出 例2.2:抛10次硬币,令X(ω)表示序列ω中正面向上的次数,如当 ω = HHTHHTHHTT,则 X(ω) = 6。 例2.3:令 表示单位圆盘,输出为该圆盘中的一点 ,则有随机变量:

7 数据和统计量 数据是随机变量的具体值 统计量是数据/随机变量的任何函数 任何随机变量的函数仍然是随机变量

8 分布函数 令X为一随机变量, x为X的一具体值,则随机变量X的累积分布函数 (cumulative distribution function, CDF) 定义为 CDF是一个非常有用的函数:包含了随机变量的所有信息。 CDF的性质:略 (见书) 有时记为F

9 例:随机变量的CDF CDF 例2.6:公正地抛硬币2次,令X表示正面向上的次数,则 右连续、非减函数 对所有实数x都有定义
虽然随机变量只取0、1、2

10 概率函数 离散型随机变量的概率函数 (probability function or probability mass function, pmf)定义为 对所有的 CDF与pmf之间的关系为: 有时记为 f

11 例:离散型随机变量的pmf 例2.10:公正地抛硬币2次,令X表示正面向上的次数,则 概率函数为:

12 概率(密度)函数 对连续型随机变量X,如果存在一个函数 ,使得对所有的x, ,且对任意 有
则函数 被称为概率密度函数 (probability density function, pdf)。 CDF与pdf之间的关系: 在所有 可微的点x,则 注意: 是可能的

13 例:连续型随机变量的CDF和pmf 例2.12:设X有PDF: 显然有
有该密度的随机变量为(0,1)上的均匀分布:Uniform(0, 1),即在0和1之间随机选择一个点。 其CDF为:

14 常见分布族 离散型随机变量 [2.3节] 连续型随机变量 [2.4节] 均匀(Uniform)分布 贝努利(Bernoulli)分布
二项(Binnomial)分布 超几何(HyperGeometric)分布 几何(Geometric)分布 泊松(Possion)分布 连续型随机变量 [2.4节] 正态(Normal)分布 Gamma分布 Beta分布 分布 指数(Exponential)分布

15 常用离散分布 例Binomial分布:X为一次抛硬币的输出, 则我们说

16 常用连续分布 例均匀分布:

17 正态分布 高斯分布/正态分布: 在实际遇到的许多随机现象都服从或近似服从正态分布 中心极限定理:随机样本的均值近似服从正态分布
最重要的分布之一 在实际遇到的许多随机现象都服从或近似服从正态分布 如考试成绩 中心极限定理:随机样本的均值近似服从正态分布 对任意IID样本 ,则

18 标准正态分布 当 时,正态分布称为标准正态分布,通常用Z表示服从标准正态分布的变量,记为 。 标准化:
pdf和CDF分别记为 标准化: 若 ,则 正态分布的线性组合仍是正态分布:若 是独立的,则

19 多元随机向量的分布 我们可以在多个随机变量组成的向量上定义分布,我们称之为多元随机向量的分布。
统计学习中我们的数据集通常由多元随机向量分布的样本组成。每一列为一个随机变量,也可以将整个随机向量看成一个随机变量。

20 边缘分布 离散型随机变量:

21 边缘分布 连续型随机变量: 联合分布包含了随机向量概率分布的信息 联合分布唯一确定了边缘分布,但反之通常不成立

22 独立 PDF可以因式分解

23 随机变量之间的关系 独立 当且仅当 不独立:随机变量之间的关系用条件分布描述 条件分布:

24 联合分布、边缘分布与条件分布 边缘分布与联合分布: 条件分布与边缘分布、联合分布: 联合分布与条件分布、边缘分布:

25 贝叶斯规则 如果X可以取值 ,y为Y的一个取值, 因此,有贝叶斯规则 连续情况: 似然 先验 后验

26 多元随机向量的分布 令随机向量 ,其中 为随机变量,用 表示X的pdf/pmf,先前讨论的关于二元随机向量分布的结论都可以推广到多元随机向量,如可以定义边缘分布、条件分布等 当随机向量 互相独立时, 随机向量相互独立两两独立,但反之不成立

27 IID(Independent Identically Distribution)样本
当 互相独立且有相同的边缘分布F时,记为 ,我们称 为独立同分布( Independent Identically Distribution, IID)样本,表示 是从相同分布独立抽样/采样,我们也称 是分布F的随机样本。若F有密度f,也可记为 ,样本大小为n 思考题:怎样对任意分布F进行采样(得到多个独立同分布的样本)?

28 期望 期望/均值:随机变量的平均值 概率加权平均 宏观物理量是微观物理量的统计平均值

29 期望 期望是随机变量的一个很好单值概述:随机变量典型的值或期望值
大数定律(Chp5):当有大量独立同分布(Independed Identical Distribution, IID) 样本 时,期望 可视为样本均值 当 ,我们说 是良好定义的(well defined);否则我们说期望不存在。

30 期望 [最小距离] 假设我们用L2距离度量一个随机变量X与一个常数b的距离,即 。b离X越近,这个量就越小。因此我们可以确定b的值,使得 最小,b可认为是X的一个很好预测。(不能直接最小化 因为结果与X有关,对X的预测无用) 问题:如果采用L1作为距离度量呢? 注意: 是常数

31 期望的性质 线性运算: 加法规则: 乘法规则:

32 分位函数 (quantile function)
令随机变量X的CDF为F,CDF的反函数或分位函数(quantile function)定义为 其中 。若F严格递增并且连续,则 为一个唯一确定的实数x,使得 。 为增函数 中值(median): 一个很有用的统计量,对噪声比较鲁棒

33 众数(mode) 众数:设随机变量X有密度 ,且存在 满足 ,则称 为X的众数。 期望、中位数和众数都称为位置参数。
随机变量出现次数最多的位置 期望、中位数和众数都称为位置参数。 当随机变量的分布为高斯分布时,三者相等

34 方差 方差:刻画随机变量围绕均值的散布程度 方差越大,X变化越大;方差越小,X与 越接近 方差:二阶中心矩

35 方差的性质 注意:期望的加法规则无需独立条件 不独立随机变量和的方差计算需考虑变量之间的协方差

36 样本均值和方差 令 为IID,样本均值定义为 样本方差定义为

37 样本均值和方差 和 分别为 和 的很好估计(无偏估计)

38

39 协方差(covariance) /相关系数
协方差/相关系数:刻画两个随机变量之间关系强弱

40 协方差(covariance) /相关系数
X、Y独立,则X、Y 不相关: 但反过来不成立!

41 协方差的性质 对任意两个随机变量X和Y,有 当X、Y独立时: 推广到多个随机变量:

42 方差-协方差矩阵 令随机向量 的形式为: 则 的方差—协方差矩阵 为 当个成分变量独立时,协方差矩阵是什么样子呢?

43 相关(correlation) 相关:度量两个变量之间的线性相关程度 若  变量之间不线性相关 独立意味着不相关 但反过来不成立!
当 时,  变量之间不线性相关 独立意味着不相关 但反过来不成立! 非线性相关,但可能高阶相关

44 作业1 Chp3:第19题 编程环境: 作业上交方式两周后通知
Matlab:提供很多基本基础函数和工具,对理解算法的基本思想很有帮助,编程快捷 VC:实际系统中的算法一般采用C/C++实现 你喜欢的任何编程语言 作业上交方式两周后通知

45 其他内容 随机变量的变换的分布 条件分布、条件独立 条件期望、条件方差

46 下节课内容 概率不等式(Chp4 )


Download ppt "第一部分:概率 对应教材Chp1-5 课堂上讲述会较快,将知识点串起来,建议大家通读教材 主要内容: 随机变量及其分布"

Similar presentations


Ads by Google