第十三章 音频水印 13.1音频水印特点 13.2音频水印算法评价标准 13.3音频水印分类及比较 第十三章 音频水印 13.1音频水印特点 13.2音频水印算法评价标准 13.3音频水印分类及比较 13.4 DCT域分段自适应音频水印算法实例 13.5小结
互联网技术的迅速发展和音频压缩技术的日益成熟使得以MP3为代表的网络音乐在互联网上广泛传播。但是,肆无忌惮的复制和传播盗版音乐制品使得艺术作品的作者和发行者的利益受到极大损害。在这种背景下,能够有效地实行版权保护的音频数字水印(Digital Audio Watermarking)技术变得越来越重要,已成为一个十分热门的研究领域。 数字音频水印技术将具有特定意义的信息嵌入到原始音频中而不显著地影响其质量。根据不同的应用,嵌入的水印数据可以是版权信息、序列号、文本(如音乐或艺术家的名字)、一个小的图像甚至是一小段音频。水印隐藏在宿主音频数据中通常不为人所感知,此外还必须能够抵抗常规音频信号处理以及某些恶意的攻击。
一个好的音频水印算法应该具备如下性质: (1) 水印必须嵌入到宿主音频数据中,否则很容易被修改或除去。 (2) 水印必须具有感知透明性,即不能对原始音频的质量产生明显的影响。 (3) 为保证水印的安全性,一般在嵌入过程和检测过程中要使用密钥。 (4) 水印应该对 MP3 有损压缩、低通滤波、噪声、重采样等音频信号处理具有鲁棒性。 (5) 嵌入和检测的计算代价要足够小以进行实时处理。 (6) 在大多数情形下,水印检测不应该需要原始音频,即进行盲检测,因为寻找原始音频是十分困难的。 (7) 水印算法最好是公开的,即安全性应依赖于密钥的选择而不是对算法进行保密。 设计一个水印系统满足以上全部要求是很困难的。有些性质如鲁棒性、透明性和数据容量之间是相互矛盾的,因此,在这些要求中寻找最佳平衡是水印系统设计的目标。
13.1音频水印特点 在音频中加入水印,要考虑到音频载体信号的在人类听觉系统、音频格式以及传送环境等方面的特点。与图像和视频相比,音频信号在相同的时间间隔内采样的点数少。这使得音频信号中可嵌入的信息量要比可视媒体也要少。并且由于人耳听觉系统(HAS)要比人眼视觉系统(HVS)敏感得多,因此听觉上的不可知觉性实现起来要比视觉上困难得多。
13.1.1人类听觉系统 (HAS-Human Auditory System) 人耳的机理相当复杂,它就像一个频率分析仪,能够探测到从10Hz至20000Hz的声音。描述人类听觉系统的感知特性一般从下面三个方面来分析:响度、音高和掩蔽效应。 (1) 对响度的感知 声音的响度即声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即声压单位(达因/平方厘米)或声强单位(瓦特/平方厘米)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两个概念,但它们之间又有一定的联系。
当声音弱到人耳刚刚可以听见时,称此时的声音强度为“听阈”。例如,1KHz纯音的声强达到时,人耳刚能听见,此时的客观响度级定义为零dB声强级,而主观响度级定义为零方。另一种极端的情况是声音强到是人耳感到疼痛,我们称这个阈值为“痛阈”。例如,当频率为1KHz的纯音声强达到120dB左右时,人耳感到疼痛,此时主观响度级为120方。实验表明,“听阈”和“痛阈”都随频率变化。图13.1说明了人耳对响度的感知随频率变化的特性。图中最上面的一条曲线是“痛阈”随频率变化的曲线,最下面的一条曲线是“听阈” 随频率变化的曲线,这两条曲线之间的区域就是人耳的听觉范围。由图13.1可见,1KHz的10dB的声音和200Hz的30dB的声音,在人耳听起来具有相同的响度。
图13.1 人耳对响度的感知随频率变化的曲线
(2) 对音高的感知 客观上用频率来表示声音的音高,单位为Hz。而主观感觉的音高单位则是“(美)”。它们也是两个不同又有联系的概念。主观音高与客观音高的关系可用下式表示。 人耳对响度的感知有一个从听阈到痛阈的范围,对频率同样也有一个感知范围。人耳可以听见的最低频率约为20Hz,最高频率约为18000Hz。图13.2就反映了人耳对响度感知能力随着信号频率变化的规律。
图13.2 “音高-频率”曲线
(3) 掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音,这种现象称为听觉掩蔽效应。前者称为掩蔽声音,后者称为被掩蔽声音。听觉掩蔽取决于屏蔽声音与被掩蔽声音的幅值与时域特性,可分为频域掩蔽和时域掩蔽。 频域掩蔽是指听觉信号中,若两个信号的频率相近,那么较强的信号将淹没较弱的信号。实验证明低频信号可以有效地掩蔽高频信号,但高频信号对低频信号的掩蔽作用不明显。在当代高质量声音编码技术中就使用了频率掩蔽模型。 时域掩蔽比较直观,它是指强音和弱音同时或几乎同时出现时,强音屏蔽弱音的现象。时域掩蔽包括超前掩蔽与滞后掩蔽。超前掩蔽是指在强掩蔽声音出现前,被掩蔽声音不可听见。滞后掩蔽是指在强掩蔽声音消失后,被掩蔽声音不可听见。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽大约只有5~20ms,而滞后掩蔽可以持续50~200ms。
(4) 对于频域信号中的相位分量和幅值分量,人耳对幅值和相对相位更为敏感,而对绝对相位不敏感。 (5) 人耳对不同频段声音的敏感程度不同,通常人耳可以听见20Hz~18KHz的信号,对2KHz~4KHz范围内的信号最为敏感,在此范围内幅度很低的信号也能被听见,而在低频区和高频区,同样低幅度的信号就可能无法被听见。即使对同样声压级的声音,人耳实际感觉到的音量也是随频率而变化的。
(6) 人类听觉系统对声音文件中附加的随机噪声敏感,并能觉察出微小扰动。 (7) 人类听觉系统有很大的动态范围及较小的分辨范围,HAS能察觉到大于100,000,000:1的能量,也能感觉大于1000:1的频率范围,对加性随机干扰也同样敏感。可以测出音频文件中低于1/10,000,000(低于外界水平80dB)的扰动。因此,较大的声音可屏蔽较小的声音。
13.1.2音频文件格式 对高质量数字音频的描述样本最流行的格式是16比特线性量化,如:Windows中的WAV格式音频文件和AIFF音频交换文件格式。另一种对较低质量声音的流行版本是采用8比特律的对数分度。这些量化方法使信号产生了一些畸变,在8比特律中显得更为明显。 一般声音的流行采样频率包括8KHz,9.6KHz,10KHz,12KHz,16KHz,22.05KHz和44.1KHz。采样频率影响数据隐藏,因为它给出了可用频谱的上限(如果信号的采样频率为8KHz,则由采样定理,引入的修改分量的频率不会超过4KHz)。对于大多数已有的数据隐藏技术而言,可用的数据空间与采样频率的增长至少呈线性关系。需要考虑的是由有损压缩算法(如ISO MPEG-AUDIO)引起的变化。这些变化彻底改变了信号的数据结构,它们仅仅保留了听者能感觉到的特性部分,也就是说,它听起来与原来的相似,即使信号在最小平方意义上完全不同。
13.1.3声音传送环境 音频信息隐藏是指通过对声音文件作一些修改来嵌入信息,如作者信息、产品序号、提示旁白等,这种修改的作用效果类似于向声音文件中添加噪声数据。一般而言,此类修改必须做到不可觉察和难以在不损坏原始信号的情况下去除。其实由环境因素引起的声音变形也很常见,如周围的噪声、电路中的信号干扰等,且易被听者所忽略。尤其是在将模拟声音信号转换到数字音频时需要进行A/D转换,这就不可避免地要引入量化噪声。 一个数字格式的声音文件可在多种环境中传送。在图13.3中描述了几种可能的形式。第一种为无损传输,如图13.3(a)所示,即信号是在未作修改的环境中传送的,因此相位和幅值都没改变。在第二种情况中(图13.3(b)),信号以更高或更低的采样率重新采样,未改变相位和幅值,但改变了时域特性。第三种情况是将信号转换成模拟的形式来传送(图13.3(c))。在这种情况下,即使认为模拟线路是无干扰的,相位、幅值和采样率都改变了。最后一种情况如图13.3(d)所示,当环境有干扰存在时,信号将被非线性地传送,从而导致相位和幅值改变,以及引起回声等。
图13.3 传送媒体
13.2音频水印算法评价标准 13.2.1 感知质量评测标准 (1) 主观感知质量评测标准 在音频水印中,一个常用的主观评价指标称为平均观点分(Mean OpinionScore,MOS),即测试者根据音频的好坏,给音质打分。一般按五分制评分。显然,得分为5或接近于5意味着两个音频数据之间几乎没有差别。MOS分值的含义如表13.1所示。此外,在ITU-R BS.1116中也定义了一个主观评分标准——主观听觉质量区分度(SDG)。
相当于在专业录音棚的录音质量,语音非常清晰。 表13.1 MOS 主观评分标准 分数 音频质量 描述 5 优异 相当于在专业录音棚的录音质量,语音非常清晰。 4 良 相当于长距离PSTN网上的语音质量,语音自然流畅。 3 中 达到通信质量,听起来仍有一定困难。 2 差 语音质量很差,很难理解。 1 不能分辨 语音不清楚,基本被破坏。
(2) 客观感知质量评测标准 ITU-R推荐的BS.1387音频质量听觉评测标准通常用于音频编码器的质量评价,但也可作为一个很好的客观听觉质量评价标准用于音频水印技术。BS.1387有基本版本和高级版本两种,基本版本使用基于FFT的人耳模型,高级版本使用基于滤波器组的人耳模型。在两种情况下,模型输出变量与神经网络结合给出一个量值作为听觉质量客观区分度 ODG(Objective Difference Grade),其含义如表13.2所示。
表13.2 ODG 客观评分标准 ODG 描述 0.0 不可感觉 -1.0 可感觉但不刺耳 -2.0 轻微刺耳 -3.0 刺耳 -4.0 非常刺耳
早期的音频水印算法也采用公式 13.1 所示带水印信号对原始信号的信噪比(SNR)来度量感觉质量, 但它并不是一个好的音频听觉质量评价标准,比如在极轻微的同步攻击下即使听觉质量实际上几乎没有变化但 SNR 却会降到很低。 (13.1)
13.2.2 鲁棒性评测标准 鲁棒性的级别包括以下几种:零级(没有鲁棒性)、低级、中级、中高级、较高级、高级和最高级。比特率是指在单位时间内可靠地植入宿主信号中的水印数据量,例如比特数/秒。鲁棒性可用提取出的水印误码率(BER)来衡量。设嵌入和抽取的水印序列长度为B位比特, 则BER按如下公式计算: (13.2)
13.2.3 虚警率 虚警率是指在没有嵌入水印的媒体中地检测出水印的概率。计算虚警率十分困难,目前的办法一般是建立一个模型再估计它的值。但这样会产生两个问题:首先现实的水印技术难以模拟,再者建立模型就需要理解算法的细节,而这通常是商业机密,尽管它违反了Kerckhoffs准则。再有一种直观的方法就是根据大量实验进行统计,但这又经常由于实验数量巨大而不现实。
13.3音频水印分类及比较 13.3.1 经典的音频信息隐藏技术 音频信息隐藏技术之间的区别主要体现在数据嵌入/提取方案的不同,早期的方法主要有以下四种[3-8]:最不重要位方法、扩展频谱方法、相位编码方法、回声隐藏方法。分别介绍如下: (1) 最不重要位:最不重要位(LSB-Least Significant Bit)方法是一种最简单的数据嵌入方法。 (2) 扩展频谱方法:借鉴扩频通信的思想,可以在编码音频数据流时把秘密数据分散在尽可能多的频率谱分量中以达到隐藏数据的目的。
(3) 相位编码:相位编码(Phase Coding)是最为有效的编码方法之一。它充分地利用了人类听觉系统(HAS)的一种特性:即人耳对绝对相位的不敏感性及对相对相位的敏感性。基于这个特点,将代表秘密数据位的参考相位替换原音频段的绝对相位,并对其它的音频段进行调整,以保持各段之间的相对相位不变。 (4) 回声隐藏方法 :回声隐藏(Echo Hiding)是通过引入回声来将秘密数据嵌入到载体数据中。它利用了音频信号在时域中的后屏蔽作用,即弱信号在强信号消失之后变得无法听见。它可以在强信号消失之后50~200ms作用而不被人耳觉察。载体数据和经过回声隐藏的隐秘数据对于人耳来说,前者就像是从耳机里听到的声音,没有回声。而后者就像是从扬声器里听到的声音,由所处空间诸如墙壁、家具等物体产生的回声。
13.3.2 变换域的音频信息隐藏技术 变换域信息隐藏技术有许多空域信息隐藏技术所不具备的优点,最突出的一点是其鲁棒性得到了加强。 (1) 付氏变换域方法 (2) 离散余弦变换域方法 (3) 小波变换域方法
13.3.3 MP3压缩域的音频信息隐藏技术 目前,围绕MP3格式音频信息隐藏技术的研究很多,归纳起来主要有三大类,分别介绍如下。 水印 嵌入数据 (未压缩域) 重新压缩 MP3文件 解压 图13.4 方案1—还原到未压缩域进行数据嵌入
(2) 方案2:此方案是在MPEG编码过程中将水印嵌入进去,直接形成含有水印的MP3文件。 原始音频码流 WAVE文件 含有水印的 MP3文件 图13.5方案2—在MP3编码过程中进行数据嵌入 嵌入方案(压缩域) 水印 MP3文件 含有水印的MP3文件 图13.6 方案3—在MP3文件中进行数据嵌入
13.4 DCT域分段自适应音频水印算法实例 由人耳的时域掩蔽效应,在安静的环境(信号的能量较小)中我们能听见微小的响动,而当环境嘈杂(信号的能量较大)时则常常觉察不到相对较低的声音。因此,可以利用此特性,当音频信号比较嘈杂时,考虑加大数据嵌入量或增强水印强度,而当音频信号较为安静时,则适当减小数据嵌入量或降低水印强度,这就是本节所提出的利用段分类的DCT域自适应音频水印算法的基本思想,该水印算法可以应用于版权保护的音频水印嵌入,也是对DCT域隐藏算法的一种改进。 水印编码过程的主要工作过程如下: 第1步——分段。将原始音频信号分为长度为N的段。 第2步——分类。利用听觉系统HAS的掩蔽效应,将声音段分为三类。 第3步——水印嵌入。首先对各段数据进行DCT变换,然后根据各段的分类结果,不同强度的水印分量被嵌入到不同声音段中的部分DCT低频系数中,最后对各段数据进行IDCT变换。 第4步——重构。将变换后的各段信号组合成隐秘信号。对于接收方来说,主要是检测水印是否存在。
13.4.1声音段分类方法 令 fk为第k段音频信号,为的能量均值。 当Mk>T1时, ; 当Mk<T3时, ; 假设我们将音频信号分为三类,第一类是能量较高的,根据HAS的屏蔽效应,人耳对其中能量值的改变敏感性最弱,可以考虑迭加强度较强的水印分量;第三类是能量较低的,因为对其修改的修改量之相对幅值高,因而人耳对其中能量值的改变最敏感,所以能迭加的水印分量强度应最弱;其它情况属于第二类。 令 fk为第k段音频信号,为的能量均值。 当Mk>T1时, ; 当Mk<T3时, ; 若以上两种情况都不满足,则 。 T1,T3为门限值,由实验确定。本章的实验中取T1=0.03, T3 =0.01(经归一化处理之后)。
13.4.2水印嵌入 水印嵌入的过程大致可分为以下四步: (1) DCT变换 (2) 产生水印 那么,对 做DCT变换,得到 。 假设在第一步中,原始音频信号被分为长度为N的K个互不重叠的音频信号 , , 。 那么,对 做DCT变换,得到 。 (2) 产生水印 任何水印信号都可看作一个二值序列V。为了保证水印的不可感知性,可以用3.4节定义的混沌二值序列C将V调制成一个伪随机序列W。即 (13.3) (13.4)
(3) 水印分量嵌入 水印分量采用如下方法嵌入到音频段的DCT系数中。 将含有水印的序列W嵌入到DCT系数的低频分量中。具有l个元素,选自的低频分量。为拉伸因子,根据段的类别而定。 (13.5) (13.6)
本章中选择l个DCT低频系数来嵌入水印,是因为: 低频系数集中了信号的大部分能量,对信号来说较为重要,嵌入水印具有足够的鲁棒性。 低频系数通常有较大的值,水印信号嵌入后对音频信号的影响较小,有利于保证不可见性。 上述两点可以由图13.8中对播音“书山有路勤为径,学海无涯苦作舟” (如图13.7所示)所作的频域分析中可见一斑。 需要注意的是不宜取太大,否则会影响水印的不可感知性和鲁棒性。
图13.7 一段音频信号的时域分布 图13.8 一段音频信号的DCT域分布
对DCT域中调整后的各段进行DCT反变换。即 13.4.3 水印检测 水印检测基于相关检测技术。水印检测方案可用图13.9来说明。 (13.7) 图13.9 水印检测方案
将差值信号分为互不重叠的段,段的大小与水印编码时的一样。 具体步骤如下: (1) 信号与原始音频信号的差值为 将差值信号分为互不重叠的段,段的大小与水印编码时的一样。 (2) 差值信号分段做DCT变换 (13.8) (13.9) (13.10)
(3) 相关检测 (13.11) (13.12) (13.13)
13.4.4 仿真结果 研究中对一段采样率为22.05KHz,每个样本8位数据,长度大约为4秒的话音信号进行了该方案的仿真实验。话音的内容是“书山有路勤为径,学海无涯苦作舟”,其时域信号分布如图13.7所示。 图13.10 原始声音信号(时域) 图13.11 嵌入水印后的声音信号(时域)
表13.3说明随着攻击强度的加大,水印检测器响应的灵敏度逐渐降低,同时听觉效果也逐渐受到影响。 我们尝试对嵌入水印的隐秘信号(图13.11)进行加噪攻击。具体做法是用Matlab中的RANDN函数产生一个具有正态分布的伪随机噪声序列,将其幅值缩小m倍并叠加到隐秘信号上。 表13.3说明随着攻击强度的加大,水印检测器响应的灵敏度逐渐降低,同时听觉效果也逐渐受到影响。 图13.14绘出了时,水印检测器对上述1000个水印序列的响应。由图中可见,水印检测器仍然保持了较高的正确率,而此时噪声信号已经明显地降低了隐秘载体信号的音质,以至于人耳能觉察到异常。因此从这个意义上说,攻击者若想在不破坏原始隐秘载体信号的可用性前提下破坏水印是不可能的,即方案对加性噪声攻击具备了一定的鲁棒性。 图13.12 水印检测器对图13.11的响应
表13.3 噪声攻击实验分析 图13.13 声音信号受噪声干扰的情况 图13.14 水印检测器的响应 噪声攻击强度 水印检测器响应的相似度 主观听觉效果 m=1000 19.8555 几乎无影响 m=600 17.6748 有轻微噪声 m=300 15.7989 有明显噪声 图13.13 声音信号受噪声干扰的情况 图13.14 水印检测器的响应
13.5小结 音频信息隐藏技术的研究是目前信息隐藏技术研究领域中仅次于图像的热点方向,本章首先较为详细地介绍了音频信息隐藏技术的工作原理及其主要技术要求,然后按照“经典的音频信息隐藏技术”、“变换域的音频信息隐藏技术”和“MP3压缩域的音频信息隐藏技术”这三大类进行了分析对比。随后介绍了一种基于DCT域分段的自适应音频水印算法。 随着人们对信息隐藏技术理解的加深,嵌入的信息容量和算法的鲁棒性都会增加。因此,未来的数据嵌入算法可能会对音频段进行主动控制。如结合对原始音频信号的预处理和分析,采用针对某些特征的自适应数据嵌入策略,如嵌入位置、嵌入量、嵌入算法等。另外,更多地利用原始音频信息的某些特征,如数据段的统计特征(时域、频域)或声学特征,将数据嵌入到某些知觉显著位置,可极大地提高其抵抗各种攻击的鲁棒性。