自我介绍 鲁晨光 LU,Chenguang 南航77级,以前在长沙大学教计算机; 早年研究色觉机制,87年在加拿大进修看到信息论文集,90年参加青岛信息论会议,93年出版《广义信息论》, 97年出版《投资组合熵理论和信息价值》,后来从事投资,现在管理一个港股私募基金。 个人网站:survivor99.com/lcg
GPS Information and Rate-Tolerance and its Relationships with Rate Distortion and Complexity Distortions Chenguang LU GPS 信息和限误差信息率 ——及其和信息率失真及复杂性失真之间的关系 鲁晨光 解题: GPS——全球定位系统 GPS信息——GPS读数提供的信息——广义信息 限误差=容许误差=Tolerance, 机械装配概念 限失真是平均误差不超过多少——较宽松 限误差是每个误差不能超过多少——更严格
引言 现在写这篇文章有两个原因: 1)早年发表文章,提出改 造信息率失真理论, 得到 两个函数R(G)和R(T)。 我发现用GPS作为模型, 可以更好说明我的广义信 息公式, 加深我们对信息 率失真之类函数的理解。
2)最近我了解到基于Kolmogorov复杂性理论的结构函数和复杂性失真,发现复杂性失真C(Dc)是信息率真R(D)的特例,更是我提出的限误差信息率R(T)的特例。
2 GPS信息——从统计信息到预测信息 2.1 GPS精度 给定GPS读数xj, 可以期望实际位置xi就在附近,两者有偏差,这时如何度量GPS读数xj提供的信息? 这涉及GPS声称的精度, 即图中曲线分布宽窄。
GPS精度表示方法 GPS精度最常见的表示法是均方根差(root mean square error, 简写为RMS),DRMS=10米就表示标准差是10米,目标有68.2%的可能性在10米之内。 这里假设信源P(X)是等概率分布的。实际上,GPS精度和信源无关。
GPS精度的函数表示 有人认为可用条件概率分布表示———求和是1 其实这是不对的。因为一般情况下, P(X)不是等概率的, 条件概率P(X|yj)也不会呈正态分布。比如,即使GPS定位小车在公路附近水田里, 那也并不意味着汽车在水田里概率最大。因为汽车在水田里的先验概率就小。 合理的表示是用相似度或混淆概率表示——最大值是1 混淆概率也可以解释为模糊集合隶属度, 下面写成与条件概率类似的形式:
混淆概率或GPS精度来自集值统计 用户可以通过统计得到 混淆概率:最大值是1; 条件概率:求和是1.
2.2 推广经典信息量公式 经典信息量公式——用于单个事件 2.2 推广经典信息量公式 经典信息量公式——用于单个事件 对于GPS, 我们不知道条件概率, 但是我们可以根据GPS读数的语义, 通过推理知道
以集合为条件的Bayes公式——Bayes推理P(xi|Aj) 其实它并不陌生,信息率失真函数,甚至热力学中常见这个公式。 其中 如果Aj是清晰集合,那么公式的图解如下:
从统计信息到预测信息 Shannon信息——客观信息——统计信息 广义信息——主观信息_语义信息——预测信息 把经典信息公式 推广为广义信息公式 因为
用于度量GPS信息的语义信息量公式图解 误差越大, 信息量越小, 甚至是负的。它还反映Popper的思想: 先验逻辑概率越小,如果预测准了,信息量就越大。永真命题没有信息。越是把偶然的事件预测准了信息量越大。
2.4 广义Kullback公式及其用于预测优化 推广Kullback信息公式, 我们得到定位和预测的平均信息量公式 广义Kullback公式可以用来优化GPS定位,优化天气预报。 给定概率预测P(X|yj), 选择预测Aj(中心点和标准差), 使I*(X;yj)达最大的Aj就最为可取。
2.5 广义互信息公式用于GPS优化 通过求平均, 我们可以得到广义互信息公式 用广义互信息I*(X;Y)=E[I(xi;yj)]的下限G 取代经典的平均失真测度E(dij)的上限D, 我们就得到新的优化准则。
几个优化结论 无记忆二元信源的R(G)函数 给定Shannon信息R,广义信息G有上下界。-2.69是说,要用谎言造成敌人信息损失,1比特最多造成敌人2.69比特的信息损失。G(R=0)=-0.626表示:相信别人无根据乱说会减少自己已有的信息。 主观信息总是少于或等于客观信息。 G/R反映通信效率, 其最大值是1.最佳匹配点W2, 这时候预测P(X|Y为真)和事实P(X|Y)一致, 两种信息等价。
GPS精度不同时的R(G)函数。精度越高,即主观信道容量越大,最佳匹配点R=G越大
GPS精度提高时,R=G的匹配点如何随单位距离量化比特k变化。
3 限误差信息率R(T)及其和信息率失真R(D)及复杂性失真C(Dc)之间的等价关系 3.1 从信息率失真到复杂性失真 平均失真 信息率失真函数
复杂性失真定义 但是,数据压缩实践中,我们需要对每对(xi, yj)之间的误差给出限制。为此,Kolmogorov提出基于其复杂性理论的结构函数,最近又有人提出复杂性失真。复杂性理论把一个字符串的最短编码长度叫做这个字符串的复杂性。有失真编码时,如果对于每对xi, yj, 存在 那么对于信源集合A中每个xi, 集合B上存在一个以yi为中心的失真球Bi, 用球中任何一个yj表示xi都可以。球的半径都是Dc0.5。 给定信源和失真球限制,可以求出最小平均码长或Shannon互信息,设为C,C=C(Dc) 这就是复杂性失真函数。
复杂性理论研究者证明: C(Dc)=R(Dc). 但是, 这是不对的, 因为根据常识,应该有 C(Dc)>R(Dc). 因为每门60分及格和平均60分及格,这两个标准是不一样的。 3.2 定义限误差信息率并证明复杂性失真是其特例 其实, 我们可以把复杂性失真定义为信息率失真的特例: 考虑为1,2,3,4编码,允许误差Dc=1. 现在用信息率失真理论的定义,符合要求的编码(误差小于或等于1)失真dij=0,不符合要求的编码失真dij= -∞, 根据定义就有C(Dc=1)= R(D=0).
信息率失真函数和广义信息测度之间的关系 信息率失真理论种有下面公式: 信息率失真函数和广义信息测度之间的关系 信息率失真理论种有下面公式: 其中就有以集合为条件的Bayesian公式:
把R(D)函数写成易于理解的形式 如果所有Bi(失真球)大小一样, 广义熵就变成复杂性失真函数C(Dc)。所以复杂性失真C(Dc)是信息率失真R(D)的特例。
3.4 用一个编译码例子说明R(Dc)<C(Dc) 采用上表编码,得到C(Dc=1)=0.5bit 但是, 这时候平均失真D=0.75<Dc=1
说明R(D=1)<C(Dc=1)
3.5 限误差信息率R(T)和信息率失真R(D)之间的一般等价关系 如果误差限制集合是模糊的,限制就变成概率方式: 假设T={ B1, B2, …}是一组模糊集合或模糊失真球,即 求Shannon互信息是I(X;Y)= H(Y) - H(Y|X)最小值R(T)。 可以证明下式成立时I(X;Y)最小: 因为这时P(Y|X)最分散,H(Y|X)最大, I(X;Y)最小。 但是这个等式是必要的, 不是充分的。 改变P(Y)使I(X;Y)达最小,这个最小值才是限误差信息率
Q(Bi |yj)=exp(sdij) for all i,j R(T)和R(D)之间的等价关系 假设Q(Bi|yi)=exp(sdij) for all i, j, 我们得到 R(T)=R(D). 这意味着R(D)函数是R(T)函数在 Q(Bi |yj)=exp(sdij) for all i,j 时的特例。 (s是负值,反应预测精度, exp(sdij) 图像: 显然,广义信息测度和R(D)函数之间存在深刻联系,它们都和误差及语义密切相关。
4 总结 本文以GPS为例,推广经典信息公式到广义信息公式, 讨论限误差信息率R(T)和信息率失真R(D)怎样和广义互信息公式相联系,证明了信息率失真R(D)是限误差信息率R(T)的特例, 而复杂性失真C(Dc)是信息率失真R(D)的特例。 欢迎批评和交流! 2012.11.12于19届信息论年会