第二章 数字声音及MIDI简介 本章将介绍声音的基础知识,重点掌握声音数字化的两个最基本的概念。 此外,还介绍在上网浏览或者脱机工作时你会经常遇到的声音文件存储格式和声音工具。
2.1 声音的重要性 声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。 声音的种类繁多,如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的雷声、风声、雨声、闪电声等。 这些声音有许多共同的特性,也有它们各自的特性。在用计算机处理这些声音时,既要考虑它们的共性,又要利用它们各自的特性。
什么是声音 声音是通过一定介质(如空气、水等)传播的连续的波
声音的物理和心理特征 物理特性 心理/生理感觉特性 frequency (Hz) 音调,音高 Amplitude /power(W,mW) 音量, 响度 shape of waveform 音色
音色 因为声音的波形绝大多数都不是简单的正弦波,而是一种复杂的波。分析表明这 种复杂的波形,可以分解为一系列的正弦波,这些正弦波中有基频f0,还有与f0成 整数倍关系的谐波:f1、f2、f3、f4,它们的振幅有特定的比例。这种比例,赋予 每种乐器以特有的“色彩”—音色。如果没有谐波成分,单纯的基音正弦信号是 毫无音乐感的。 比如:大提琴音色、黑管音色不同 虽然演奏同一音高(基频)的音符,但人们能够明确分辨出哪个是乐器
声音特性 连续性 时间和幅度上都是连续的。 声波具有普通波所具有的特性,例如反射 (reflection)、折射 (refraction)和衍射 (diffraction)等。 图2-01 声音是一种连续的波
第二章 数字声音及MIDI简介 复合声音信号:由许多频率不同的信号组成的声音信号。 分量声音信号:单一频率的信号。 带宽:用来描述复合声音信号的频率范围。如高保真音信号(high-fidelity audio)的频率范围为10Hz~20,000Hz,带宽约为20kHz
声音的参数 声音信号的两个基本参数:频率和幅度 信号的频率: 指信号每秒钟变化的次数,用Hz表示。 例如,大气压的变化周期很长,以小时或天数计算,一般人不容易感到这种气压信号的变化,更听不到这种变化。对于频率为几Hz到20Hz的空气压力信号,人们也听不到,如果它的强度足够大,也许可以感觉到。
按照频率分类 次音信号(infrasonic):频率小于20Hz的信号 可听音(Audio)信号:频率范围为20Hz~ 20kHz的信号 超声波(ultrasonic)信号:频率高于20kHz的 信号。具有很强的方向性,形成波束。在工 业上得到广泛的应用,如超声波探测仪,超 声波焊接设备等。
Audio 其中在Audio中 在多媒体技术中,处理的信号主要是Audio信号,包括音乐、话音、风声、雨声、鸟叫声、机器声等。 话音(speech)信号:频率范围为300~3400Hz的信号 全频带声音 20-20kHz Music /Noise.. 在多媒体技术中,处理的信号主要是Audio信号,包括音乐、话音、风声、雨声、鸟叫声、机器声等。
人的听力 人耳对中频段1~3千赫的声音最为灵敏,对高、低频段的声音,特别是低频段的声音则比较迟钝。 利用这些特性可以在压缩音频数据时区分对待
按照存储方式分类 波形声音(存储的是波形) 语音 音乐 效果声 合成声音(存储的是命令) MIDI
2.2 声音信号数字化 2.2.1 从模拟过渡到数字 数字信号优点 精确、运算容易、可编程
2.2.2 模拟信号与数字信号 话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。 时间上“连续”:指在一个指定的时间范围里声音信号的幅值有无穷多个。 幅度上“连续”:指幅度的数值有无穷多个。 模拟信号:在时间和幅度上都是连续的信号。
数字信号 采样(sampling):在某些特定时刻对模拟信号进行测量。 离散时间信号:由这些特定时刻采样得到的信号。 离散幅度信号:采样得到的幅值是无穷多个实数值中的一个,因此幅度还是连续的。如果把信号幅度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅度信号。 【例】假设输入电压的范围是0.0V~0.7V,并假设它的取值只限定在0、0.1、0.2,…,0.7共8个值。如果采样得到的幅度值是0.123V,它的取值就应算作0.1V,如果采样得到的幅度值是0.26V,它的取值就算作0.3,这种数值就称为离散数值。 数字信号:时间和幅度都用离散数字表示的信号。
2.2.3 声音信号数字化 数字化:采样+量化,声音进入计算机的第一步处理。 编码压缩量化后的数据量 编 码 量 化 采 样 模拟声音信号 编 码 量 化 数字声音 01100011001··· 采 样
采样 采样:连续时间的离散化。若每隔相等的一小段时间采样一次,称为均匀采样(uniform sampling) 采样点
采样 采样频率(fs):决定每秒钟需要采集多少个声音样本。 奈奎斯特定理:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化(lossless digitization)。 采样定律 fs≥2f 或者 Ts≤T/2,其中f为被采样信号的最高频率。 理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为A、频率为f的正弦波至少需要两个采样样本表示,因此,如果一个信号中的最高频率为fmax,采样频率最低要选择2fmax。例如,电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。
量化 量化(quantization):连续幅度的离散化,就是把信号的强度划分成一小段一小段。如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。
2.2.4 量化精度 每个采样点样本大小是用每个声音样本的位数bit表示的,它反映度量声音波形幅度的精度。 量化精度既决定了取样值的动态范围,也决定着所引入的噪声大小。 例如,每个声音样本用16位(2字节)表示,测得的声音样本值是在0~65536的范围里,它的精度就是输入信号的1/65536。 样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。
信号噪声比 采样精度的另一种表示方法是信号噪声比,简称为信噪比(signal-to-noise ratio,SNR),并用下式计算: SNR=10log[(Vsignal)2/(Vnoise)2]=20log(Vsignal/Vnoise) 其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db) 【例1】假设Vnoise=1,采样精度为1位表示Vsignal=21,它的信噪比SNR=6分贝。 【例2】假设Vnoise=1,采样精度为16位表示Vsignal=216,它的信噪比SNR=96分贝。
声音的质量 根据声音的频带,通常把声音的质量分成5个等级,由低到高分别是: 电话(telephone)、 调幅(amplitude modulation,AM)广播、 调频(frequency modulation,FM)广播、 激光唱盘(CD-Audio)和 数字录音带(digital audio tape,DAT)的声音。
声音质量和数据率 表2–01 声音质量和数据率 质量 采样频率 (kHz) 样本精度 (bit/s) 单道声/ 立体声 数据率(kB/s) (未压缩) 频率范围 电话* 8 单道声 200~3 400 Hz AM 11.025 11.0 20~15 000Hz FM 22.050 16 88.2 50~7 000Hz CD 44.1 176.4 20~20 000 Hz DAT 48 192.0
2.2.5 声音质量与数据率 数据率 = 取样频率 x 量化位数 x 通道数目 例:CD的数据率 44.1KHz, 16bits, 2, 例: 电话语音 =8k x 8b x 1 = 64kbps =8kB/s=28MB/h 例:CD的数据率 44.1KHz, 16bits, 2,
2.3 声音文件的存储格式 在因特网上和各种机器上运行的声音文件格式很多,目前比较流行的有wav(waveform),au(audio),aiff(Audio Interchangeable File Format)和snd(sound)文件格式。wav格式主要用在PC上,au主要用在Unix工作站上,aiff和snd主要用在苹果机和美国视算科技有限公司(Silicon Graphics,Inc.,SGI)的工作站上。 wav文件称为波形文件格式(WAVE File Format),它在多媒体编程接口和数据规范1.0(Multimedia Programming Interface and Data Specifications 1.0)文档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的,它是一种为交换多媒体资源而开发的资源交换文件格式(Resource Interchange File Format,RIFF)。
波形文件格式 波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。 波形文件由许多不同类型的文件构造块组成,RIFF WAVE Chunk, Format Chunk, Fact Chunk(可选), Data Chunk。其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。 图2–03 WAVE文件结构 http://www.moon-soft.com/program/FORMAT/sound/wave.htm
RIFF wave chunk struct RIFF_HEADER { char szRiffID[4]; // 'R','I','F','F' DWORD dwRiffSize; char szRiffFormat[4]; // 'W','A','V','E' }; Size为wav文件大小减去ID和Size所占用的字节数
Format Chunk ==================================================================== | | 字节数 | 具体内容 | ==================================================================== | ID | 4 Bytes | 'fmt ' | -------------------------------------------------------------------- | Size | 4 Bytes | 数值为16或18,18则最后又附加信息 | -------------------------------------------------------------------- ---- | FormatTag | 2 Bytes | 编码方式,一般为0x0001 | | -------------------------------------------------------------------- | | Channels | 2 Bytes | 声道数目,1--单声道;2--双声道 | | -------------------------------------------------------------------- | | SamplesPerSec | 4 Bytes | 采样频率 | | -------------------------------------------------------------------- | | AvgBytesPerSec| 4 Bytes | 每秒所需字节数 | |===> WAVE_FORMAT -------------------------------------------------------------------- | | BlockAlign | 2 Bytes | 数据块对齐单位(每个采样需要的字节数) | | -------------------------------------------------------------------- | | BitsPerSample | 2 Bytes | 每个采样需要的bit数 | | -------------------------------------------------------------------- | | | 2 Bytes | 附加信息(可选,通过Size来判断有无) | | -------------------------------------------------------------------- ----
Data Chunk ================================== | |所占字节数| 具体内容 | ================================== | ID | 4 Bytes | 'data' | ---------------------------------- | Size | 4 Bytes | | ---------------------------------- | data | | | ----------------------------------
常见的声音文件扩展名 表2-02 常见的声音文件扩展名 文件的扩展名 说明 Au Sun和NeXT公司的声音文件存储格式(8位m 律编码或者16位线性编码) aif(Audio Interchange) Apple计算机上的声音文件存储格式 cmf(Creative Music Format) 声霸(SB)卡带的MIDI文件存储格式 Mct MIDI文件存储格式 mff(MIDI Files Format) mid(MIDI) Windows的MIDI文件存储格式 Mp2 MPEG Layer I , II Mp3 MPEG Layer III mod(Module) rm(RealMedia) RealNetworks公司的流放式声音文件格式
常见的声音文件扩展名(2) *支持PCM,ADPCM,m 率和A率波形(详见第3章) ra(RealAudio) RealNetworks公司的流放式声音文件格式 Rol Adlib声音卡文件存储格式 snd(sound) Apple计算机上的声音文件存储格式 Seq MIDI文件存储格式 Sng voc(Creative Voice) 声霸卡存储的声音文件存储格式 wav(Waveform)* Windows采用的波形声音文件存储格式 Wrk Cakewalk Pro软件采用的MIDI文件存储格式 *支持PCM,ADPCM,m 率和A率波形(详见第3章)
2.4 声音工具 声音工具(audio tools)用来录放、编辑和分析声音文件,声音工具使用相当普遍,但功能相差很大。 Windows 本身带的“Sound Recorder” 在英文版Windows界面上单击:Start→Programs→Accessori es→Multimedia/Entertainment→Sound Recorder,可录音,作简单的声音编辑(如插入、删除等)。 图2–04 Windows录音机
图2–05 Creative Wave Studio Version 4.00的用户界面 第二章 数字声音及MIDI简介 2. 买声音卡时带的工具 声卡一般都附带有声音工具。例如,声霸(Sound Blaster)卡带有几种声音工具,通常要由用户自己安装。其中,功能比较强的是WaveStudio, 用户界面如图2–05所示。 图2–05 Creative Wave Studio Version 4.00的用户界面
第二章 数字声音及MIDI简介 3. 网络上下载的工具 因特网上有许多站点提供试用的或者是免费的声音工具。图2–06所示的是Cool Edit工具,它很受声音研究工作者的欢迎,还有goldwave公司的声音工具,Cakewalk,Cubase等。 图2–06 Cool Edit 的用户界面
2.5 声音质量的度量 用声音信号带宽来衡量声音的质量:等级由高到低依次是DAT,CD,FM,AM和数字电话。 声音客观质量度量:信噪比(signal to noise ratio,SNR),峰值信噪比PSNR。 主观度量声音质量:召集若干实验者,由他们对声音质量的好坏进行评分,求出平均值作为对声音质量的评价。这种方法称为主观平均判分法,所得的分数称为主观平均(mean opinion score,MOS)分,比较通用的标准是5分制。(类似于评委打分)
MOS 表2-03 声音质量评分标准 分数 质量级别 失真级别 5 优(Excellent) 无察觉 4 良(Good) (刚)察觉但不讨厌 中(Fair) (察觉)有点讨厌 2 差(Poor) 讨厌但不反感 1 劣(Bad) 极讨厌(令人反感)
2.6 电子乐器数字接口(MIDI)系统 2.6.1 MIDI简介 MIDI (Musical Instrument Digital Interface)电子乐器数字接口,是在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。 MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。
MIDI标准的优点 生成的文件比较小,因为MIDI文件存储的是命令,而不是声音波形 容易编辑,因为编辑命令比编辑声音波形要容易得多
2.6.2 产生MIDI乐音的方法 两种方法 1 FM(frequency modulation)合成法 2 乐音样本合成法,也称为波形表(Wavetable)合成法
FM合成声音 早期,音乐合成器的先驱Robert Moog采用模拟电子器件生成复杂乐音。 20世纪80年代初,美国斯坦福大学(Stanford University)一名叫John Chowning的研究生发明了一种产生乐音的新方法,称为数字式频率调制合成法(digital frequency modulation synthesis),简称为FM合成器。 他把几种乐音的波形用数字来表达,并且用数字计算机而不是用模拟电子器件把它们组合起来,通过数模转换器(digital to analog convertor,DAC)来生成乐音。
工作原理 通过组合各种波形参数生成乐音 斯坦福大学得到了发明专利,并且把专利权授给Yamaha公司,该公司把这种技术做在集成电路芯片里,成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。
乐音样本合成声音 乐音样本合成法:使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生。 这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。
乐音样本的采集 乐音样本的采集:音乐家在真实乐器上演奏不同的音符,选择44.1 kHz的采样频率、16位的乐音样本,这相当于CD-DA的质量,把不同音符的真实声音记录下来。乐音样本通常放在ROM芯片上,ROM是超大规模集成电路(very large scale integrated,VLSI)芯片。 乐音样本合成器所需要的输入控制参数比较少,可控的数字音效也不多,产生的声音质量比FM合成方法产生的声音质量要高。
MIDI系统 PC机使用内置的MIDI接口卡,用来把MIDI数据发送到外部的多音色MIDI合成器模块。
语音合成(Speech synthesis) 语音合成:利用适当的方法和手段,从文本、概念或意向通过合成产生语音的过程。 语音合成的3个层次: 从文本到语音的合成(Text-to-Speech,简称TTS); 从概念到语音的合成(Concept-to-Speech); 从意向到语音的合成(Intention-to-Speech) 这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动
文语转换的要求 对合成语音的要求: 应用: 声讯服务,自动应答, 有声电子邮件, 残疾人服务, 自动配音等. 可理解 自然 低延迟 语速可变 声音可变 语言可变 应用: 声讯服务,自动应答, 有声电子邮件, 残疾人服务, 自动配音等.
语音基础知识 音素(phoneme)是语音的最小单位。音素分为: 元音(vowel)(浊音),不受声道阻碍的音。 辅音(consonant)(浊音或清音), 受声道阻碍的音。
英语语音 每字(词)一个或几个音节(syllable)(多音节字) 音节由一个或几个音素组成 英语的音素: 元音20个 辅音28个
汉语语音 每字一个音节(syllable)(单音节字) 音节由一个或几个音素组成 汉语的音素 声母(21个,b,p,m,f,d,t,n,l,······) 韵母(39个,a, e,i, o, u,ao,ou,an,en,eng,ong,) 音调(4个: 阴平、阳平、上声、去声) 汉语语音的数目: 无声调的音节数目:412个 带声调的音节数目:1282个
汉语语音的特点 (1)音系简单(音节少、音素少) (2)汉语没有词的自然界限——分词问题 咬死了猎人的狗 下雨天留客天留我不留 今年真好晦气全无财帛进门 (3)一字多音: 我们都是同行,我们一路同行,去参加人参培植研讨会。 (4)数字的读音: 复旦大学计算机系2002年招收了202名本科生,130多名硕士生,分成2个专业。
文语转换过程 文本分析与理解 文本 文本到发音的转换 韵律分析 韵律控制 语音生成 合成语音 韵律控制参数 发音标注 一串语音基元 发音 查找拼写错误,对不规范或无法发音的字符进行过滤。 分析文本中词或短语的边界, 分析文本中的数字、姓氏、特殊字符、专有词语等有关词语读音的性质。 文语转换过程 根据文本的结构、组成和标点符号,确定发音时语气的变换以及不同音的轻重方式。 分析并决定各个音节的声调、语气和停顿方式,发音的轻重、长短等 文本分析与理解 文本 文本到发音的转换 发音标注 发音 规则库 韵律分析 韵律控制参数 韵律 规则库 韵律控制 语音生成 合成语音 一串语音基元 语音 基元库
几个TTS系统 中国科大讯飞TTS系统 http://www.iflytek.com/ 微软亚洲研究院的木兰系统 贝尔实验室 https://research.microsoft.com/speech/tts/TTS.asp 贝尔实验室 http://www.bell-labs.com/project/tts/mandarin.html IBM的ViaVoice
Demos