第二章 信息量和熵.

Slides:



Advertisements
Similar presentations
第一节 不定积分的概念及其 计算法概述 一、原函数与不定积分的概念 二、基本积分表 三、不定积分的性质及简单计算 四、小结.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
第二章 导数与微分 习题课 主要内容 典型例题 测验题. 求 导 法 则求 导 法 则 求 导 法 则求 导 法 则 基本公式 导 数 导 数 微 分微 分 微 分微 分 高阶导数 高阶微分 一、主要内容.
目录 上页 下页 返回 结束 习题课 一、导数和微分的概念及应用 二、导数和微分的求法 导数与微分 第二章.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
一、会求多元复合函数一阶偏导数 多元复合函数的求导公式 学习要求: 二、了解全微分形式的不变性.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第二章 导数与微分. 二、 微分的几何意义 三、微分在近似计算中的应用 一、 微分的定义 2.3 微 分.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
2.3 函数的微分. 四川财经职业学院 课前复习 高阶导数的定义和计算方法。 作业解析:
信息论 复习.
西南科技大学网络教育系列课程 5. 优 化 设 计 5.2 优化方法的数学基础.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
3.1.3 概率的基本性质.
第三章 函数逼近 — 最佳平方逼近.
《高等数学》(理学) 常数项级数的概念 袁安锋
常用逻辑用语复习课 李娟.
高等数学电子教案 第五章 定积分 第三节 微积分基本定理.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
第四章 一元函数的积分 §4.1 不定积分的概念与性质 §4.2 换元积分法 §4.3 分部积分法 §4.4 有理函数的积分
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
主要内容 § 3.1 多维随机变量及联合分布 联合分布函里数 联合分布律 联合概率密度 § 3.2 二维随机变量的边缘分布
第三节 函数的求导法则 一 函数的四则运算的微分法则 二 反函数的微分法则 三 复合函数的微分法则及微分 形式不变性 四 微分法小结.
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第二章 导数与微分 第二节 函数的微分法 一、导数的四则运算 二、复合函数的微分法.
第三章 导数与微分 习 题 课 主要内容 典型例题.
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第5章 §5.3 定积分的积分法 换元积分法 不定积分 分部积分法 换元积分法 定积分 分部积分法.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
第1章 熵和互信息量.
本次课讲授:第二章第十一节,第十二节,第三章第一节, 下次课讲第三章第二节,第三节,第四节; 下次上课时交作业P29—P30
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
概 率 统 计 主讲教师 叶宏 山东大学数学院.
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
因式定理.
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
概 率 统 计 主讲教师 叶宏 山东大学数学院.
应用概率统计 主讲:刘剑平.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
1.设A和B是集合,证明:A=B当且仅当A∩B=A∪B
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第一节 不定积分的概念与性质 一、原函数与不定积分的概念 二、不定积分的几何意义 三、基本积分表 四、不定积分的性质 五、小结 思考题.
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第三章 多维随机变量及其分布 第一节 二维随机变量 第二节 边缘分布 第三节 条件分布 第四节 相互独立的随机变量
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
难点:连续变量函数分布与二维连续变量分布
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
Presentation transcript:

第二章 信息量和熵

信息量和熵 离散变量的非平均信息量 离散集的平均自信息量-熵 离散集的平均互信息量 信息不等式 凸函数和互信息的凸性 连续随机变量的互信息和微分熵

2.1 离散变量的非平均信息量

p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk) 输入,输出空间定义 输入空间X={xk,k=1,2,…,K},概率记为q(xk) 输出空间Y={yj,j=1,2,…,J},概率记为ω(yj) 联合空间XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率为p(xkyj) p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk)

非平均互信息量 p(xk) 例2.1.1 输入消息 码字 收到0 收到01 收到011 X1 X2 X3 X4 X5 X6 X7 x8 000 001 010 011 100 101 110 111 1/8 1/4 1/2 1

非平均互信息量 p(xk) 输入消息 码字 收到0 收到01 收到011 X1 X2 X3 X4 X5 X6 X7 x8 000 001 010 011 100 101 110 111 1/8 1/4 1/16 1/6 1/3 2/3 1

非平均互信息量 p(xk) 例2.1.2 输入消息 码字 收到0 收到01 收到011 X1 X2 000 111 1/2 1-p p 1 p

非平均互信息量

非平均互信息量 定义2.1.1(非平均互信息量) 给定一个二维离散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量 {X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J})。事件xk∈X与事件yj∈Y的互信息量定义为

非平均互信息量 其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。 几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性: I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。(当两个事件正相关时,互信息量为正值,当两个事件负相关时,互信息量为负值)。

条件互信息和联合事件互信息 三个事件集的条件互信息定义为 可以推广到任意有限多个空间情况

互信息的可加性 u2 u3 u1 系统 u1 u2 u3 系统

互信息量特性: 对称性 可加性 互信息量的值域: -infinite ~ +infinite, 即全体实数

离散变量的非平均自信息量 定义:给定集合{X, q(xk)},事件xk∈X的自信息量定义为:

非平均自信息的性质 非负性 体现先验不确定性大小

条件自信息和联合自信息

自信息、条件自信息和互信息 I(xk) I(yj) I(xk ;yj)

2.2 离散集的平均自信息量-熵

熵 (平均自信息量——熵) 离散型随机变量{X, xk, qk, k=1~K}的平均自信息量(又称为熵)定义为如下的H(X),其中底数a是大于1的常数。 集X中事件出现的平均不确定性

熵 注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。 (2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk) 通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为

H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 。 熵 例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p。 则X的平均自信息量(熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 。 观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具有某种对称性),有 当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0) 当0<p<1时,H(X)>0。p越靠近1/2, H(X)越大。 (X是真正的随机变量时,总有正的熵。随机性越大,熵越大) 当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特)

条件熵(定义2.2.2) XY独立时有H(X|Y)=H(X)

联合熵

熵的性质 对称性 非负性 确定性 扩展性 可加性 极值性 是H(P)上凸函数

熵是概率矢量的函数 P=(p1, p2, …, pk)可以看作是K维矢量,当 ,常称作是概率矢量; 故HK(P)=HK(p1, p2, …, pk)是概率矢量P的函数

熵的性质-对称性 矢量的各分量p1,p2,…pk的次序任意改变时,熵值不变 熵函数的值只与概率分布或将1分割成的K个实数的取值有关,而与这K个实数和K个事件采取何种一一对应方式无关

熵的性质-非负性 HK(P) = HK(p1, p2, …, pK) ≥0 可由单个事件自信息量的非负性得到

熵的性质-确定性 若事件集X中有一个事件为必然事件,其余事件为不可能事件,则此集合的熵值为0

熵的性质-扩展性

熵的性质-可加性 p1 p2 p3 p4 q11 q12 q13 q14 H(p1q11,p1q12,…,p4q44)=H(p1…,p4)+p1H(q11,…,q14)+…+p4H(q41,…,q44)

相对熵和条件相对熵 相对熵用于度量两个概率分布P(x)与Q(x)的距离 两个随机变量集合的条件相对熵定义为 相对熵和条件相对熵满足可加性

熵的唯一性 熵函数的形式是唯一的 对称性 扩展性 可加性 极值性

2.3 离散集的平均互信息量

平均互信息量 定义2.4.1(平均互信息量) 给定一个二维离散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J})。X与Y的平均互信息量定义为如下的I(X; Y):

平均互信息量 注意:事件对(xk, yj)的互信息量值为I(xk; yj)。此外,可以定义半平均互信息量I(xk; Y)和I(X; yj)。

平均互信息量的性质 对称性 I(X;Y)=I(Y;X) 平均互信息用熵与条件熵表示 平均互信息与熵的关系: I(X;Y) ≤H(X) or H(Y) 若X是Y的确定的函数X=g(Y),则I(X;Y)=H(X)≤H(Y); 若Y是X的确定的函数Y=g(X),则I(X; Y)=H(Y)≤H(X)。

平均互信息量 一般印象 (平均互信息量I(X; Y)的各种性质与我们对“互信息量”这个名词的直观理解非常吻合)。 一般情形:总有0≤I(X; Y)≤min{H(X), H(Y)}。 一种极端情形:若X与Y相互独立,则I(X; Y)=0。 另一种极端情形:若X、Y中有一个完全是另一个的确定的函数,则I(X; Y)=min{H(X), H(Y)}。

平均互信息量 H(X) H(Y) I(X;Y) H(Y|X) H(X|Y)

平均条件互信息与联合互信息

链式法则 熵的链式法则 平均互信息量的链式法则

信息不等式与信息处理定理

凸函数 凸集R:a,b属于R,qa+(1-q)b也属于R,其中0≤q≤1 概率矢量: 矢量a的所有分量非负,且和为1 上凸函数 下凸函数

凸函数的性质 定理2.5.1:如果函数f(x)的二阶导数是处处非负,则f(x)是严格下凸的。 f(a)是上凸的,-f(a)是下凸的 f1(a),…,fL(a)是R上的上凸函数,c1,…,cL是正数,c1f1(a)+…+cLfL(a)也是上凸函数

K-T条件 f(a)是定义域R上的上凸函数,a是概率矢量。偏导数 存在且连续, f(a)在R上为极大的 充分必要条件 其中l为一常数。

信息不等式 基础不等式:对于任意的x>0, lnx≤x-1,等号成立当且仅当x=1 Jensen不等式: f(a)是上凸函数,E[f(a)]≤f[E(a)],E为求数学期望 信息散度不等式: D(p||q)≥0,等号成立当且仅当 对所有的x,p(x)=q(x)

信息不等式 互信息量不等式:I(X;Y)≥0 证明:I(X;Y)=D(p(x,y)||p(x)p(y))≥0 最大熵定理:H(X)≤log|X|,|X|是X中元素的数目,等号等概的时候成立。 条件降低熵:H(X|Y) ≤H(X),X与Y独立时等号成立

信息不等式 对数和不等式:a1,a2,…an和b1,b2,…bn都非负 Fano不等式 可以弱化为:

信息处理定理 Z出现情况下,X和Y独立 系统1 系统2 X Z Y

信息处理定理

熵的性质-凸性 相对熵的凸性:D(p||q)是概率分布对(p,q)的下凸函数: H(P)是P的上凸函数

互信息的凸性 记离散型随机变量X的事件为1,2,…,K。 记X的概率分布为P(X=k)=qk,k=1~K。 记离散型随机变量Y的事件为1,2,…,J。 记条件概率P(Y=j|X=k)=p(j|k)。则 rkj=P((X, Y)=(k,j))=qkp(j|k),(概率论中的乘法公式) wj=P(Y=j)=∑k qkp(j|k),(概率论中的全概率公式)

互信息的凸性 p(y | x)给定,I(X; Y)是q(x)的上凸函数 q(x)给定,I(X; Y)是p(y | x)的下凸函数

互信息的凸性 设条件概率{p(j|k),k=1~K,j=1~J}被确定。此时I(X; Y)是概率向量q=(q1, q2, …, qK)的函数。我们希望找到这样的概率向量,使得对应的I(X; Y)达到最大。这就是说,记 我们希望找到这样的K维概率向量a=(a1, a2, …, aK),使得

互信息的凸性 K维概率向量a=(a1, a2, …, aK)使得 当且仅当:以a为X的概率向量的时候,I(X=k; Y)对所有ak>0的k都取一个相同的值C; I(X=k; Y)对所有满足ak=0的k都取值不超过上述的相同值C 。

互信息的凸性 I(X=k; Y)表示什么?表示事件X=k与随机变量Y之间的“半平均互信息量”。

p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。 互信息的凸性 例 设X的事件有0、1; Y的事件有0、1; 已知 p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。 当X服从等概分布(a0=P(X=0)=1/2;a1=P(X=1)=1/2)时,I(X;Y)达到最大。因为此时

互信息的凸性

2.4 连续随机变量的互信息和微分熵

连续随机变量的互信息 定义2.5.1 给定二维连续型随机变量{(X, Y), f(X,Y)(x, y)}(因此就给定了两个连续型随机变量{X, fX(x)}和{Y, fY(y)})。事件x∈X与事件y∈Y的互信息量定义为

连续随机变量的平均互信息 I(X; Y | Z) I(XY; Z) 定义2.5.2 给定二维连续型随机变量{(X, Y), f(X,Y)(x, y)}(因此就给定了两个连续型随机变量{X, fX(x)}和{Y, fY(y)})。 X与Y的平均互信息量定义为 I(X; Y | Z) I(XY; Z)

性质 非负性 对称性 数据处理定理 关系

连续随机变量的微分熵 (连续型随机变量为什么不能类似地定义平均自信息量——熵?这是因为,连续型随机变量的事件有无穷多个,每个事件发生的概率无穷小。如果类似地定义熵,则熵是无穷大。因此只能定义所谓“微分熵”,而“微分熵”的直观合理性大打折扣) 微分熵的定义 给定连续型随机变量{X, fX(x)}。 X的微分熵定义为

互信息与微分熵 连续随机变量的微分熵 HC(XY) HC(Y | X), HC(Y | X) ≤HC(Y) I(X ; Y)=HC(X)-HC(X | Y)=HC(Y)-HC(Y | X) =HC(X)+HC(Y)-HC(X, Y) HC(X, Y)=HC(X)+HC(Y)-I(X ; Y)

均匀随机变量的微分熵 例2.7.2 设X~U(a, b),求X的微分熵(我们将发现, X的微分熵未必非负)。

正态随机变量的微分熵 例2.7.3 设X~N(m, σ2),求X的微分熵(我们将发现, X的微分熵未必非负)。

正态随机变量的微分熵 例2.7.3 熵功率 微分熵不具有非负性

练习: 试求指数分布连续信源的熵

微分熵的极大化 1.峰值功率受限 2.平均功率受限 3.平均功率大于等于熵功率 均匀分布微分熵最大:HC(X) ≤log 2M 高斯分布微分熵最大 3.平均功率大于等于熵功率

习题 10个硬币中有一个重量偏轻,其他9个为标准重量。在不用砝码的天平上至多称多少次,就能发现这个轻的硬币?怎样称?用天平称的信息论含义是什么?