4.1 音频信号概述 4.2 音频信号的获取与处理 4.3 话音信号的参数编码 4.4 乐器数字接口MIDI 4.5 声卡概述 第4章 多媒体音频信号处理 4.1 音频信号概述 4.2 音频信号的获取与处理 4.3 话音信号的参数编码 4.4 乐器数字接口MIDI 4.5 声卡概述
4.1 音频信号概述 4.1.1 信号的描述及分类 1. 确定信号及随机信号 能够用一确定的时间函数来表示的信号就是确定信号。这种信号对应某一时刻都有一个确定的信号值。 有一些信号具有不可预知的不确定性,这种信号就是随机信号。 我们将要研究的音频信号、视频信号以至计算机中的数字信号均为确定信号。
2. 周期信号与非周期信号 按一定时间间隔周而复始重复的信号就是周期信号,而在时间上不具有周而复始的重复特性的信号就是非周期信号。 3. 连续信号与离散信号 信号随时间的取值是连续的,这样的信号就是连续信号。如果信号在时间上的取值是离散的,则这种信号就称为离散信号。可见,离散信号在时间上是离散的,但信号在幅度上可以是连续的,也可以是离散的。
4. 模拟信号与数字信号 如果信号在时间上和幅度上都是连续的,那么这样的信号就是模拟信号。模拟信号以一定时间间隔取值,则可获得离散信号,又称之为采样信号。若将离散信号进行二进制编码,以二进制编码来表示离散值的幅度,那么这种二进制编码信号叫做数字信号。 在本书后面的讨论中可以看到,话筒或摄像机产生的信号为模拟信号。模拟信号经过采样可获得离散信号,离散信号经A/D转换变成二进制的数字信号,数字信号就可以由计算机直接进行处理了。 模拟信号、离散信号与二进制编码的数字信号之间的关系表示在图4-1上。
图4-1 模拟信号、离散信号及数字信号
图4-1中,用连续变化的曲线表示模拟信号;用圆点表示以相等时间间隔取值而得到的离散信号;图4-1的纵坐标上标的是幅度的二进制编码值。 4.1.2 采样定理及信号重构 1. 采样定理 设输入信号是带宽有限的信号,最高信号频率为fm,则从采样得到信号序列(离散信号)重构(复现)连续信号的条件是采样频率fs≥2fm,否则,将产生混迭效应,而使信号失真。频率2fm称为奈奎斯特(Nyquist)频率fq, fq =2fm。 时域信号与它的傅立叶变换频谱密度如图4-2所示。
图4-2 时域信号及其频谱密度
2. 信号重构 设时域信号为x(t),对应的频谱密度为X(f),若时域采样脉冲序列为 是等间隔(T)的单位脉冲序列,由信号理论可知对应的频谱为 是一个等间隔(fs)频域冲激序列。其中T是时域采样序列的周期,即采样频率
可以写出时域采样序列的表达式,即 x*(t)就是x(t)在t=nT处的离散序列。 由卷积定理,时域的乘积对应频域的卷积,即 因为是一个冲激序列,卷积的结果相当于X(f)搬移至序列出现的地方,从而成为周期函数。x(t)在时域的采样与X(f)在频域卷积(搬移)的关系如图4-3所示。
图4-3 时域采样与频域卷积
可见,若fs =1/T不是足够大,采样以后对应的频谱就会产生混迭,用矩形(带通)滤波器滤波所得的主频谱就会失真,恢复到时域以后,时域连续信号也将失真。因此,采样频率fs必须满足采样定理的要求,即fs≥2fm 。 图4-4 音频信号的带宽
4.2 音频信号的获取与处理 4.2.1 音频信号 1. 常见音频信号 常见的音频信号主要有电话音频信号、调频、调幅无线电广播音频信号和高保真数字的立体声音频信号。由于用途不同,这些音频信号频带宽度也各不相同,而且,在音响设备中,通常以音频信号的带宽来衡量声音的质量。图4-4中表示了这4种常见音频信号的带宽。
图4-4表示了人们公认的音频信号的质量标准。其中,等级最高的是激光唱盘的音频信号;其次是调频无线电广播,调幅无线电广播;最低的是电话话音的频带,从0.2 kHz到3.4 kHz,带宽只有3.2 kHz。 2. 声音的特性 1) 声音的波动性 任何物体的振动通过空气的传播都会形成连续或间断的波动,这种波动引起人的耳膜的振动,变为人的听觉。因此,声音是一种连续或间断的波动。
2) 声音的三要素 音调、音强和音色称为声音的三要素。其中,音调与声波的频率相关,频率高则音调高,频率低则音调低。音调高时声音尖锐,俗称高音;音调低时声音沉闷,俗称低音。人的耳朵对于声音的感知频率范围为20 Hz~20 kHz之间。低于20 Hz的声波为次声波,高于20 kHz的声波称为超声波。音强取决于声波的幅度,振幅高时音强强,振幅低时音强弱。音色则由叠加在声音基波上的谐波所决定,一个声波上的谐波越丰富,音色越好。
3) 声音的连续谱 声音信号一般为非周期信号,包含有一定频带的所有频率分量,其频谱是连续谱。声波的连续谱成分使声音听起来饱满、生动。 4) 声音的方向性 声音的传播是以弹性波形式进行的,传播具有方向性,人通过到达左右两耳声波的时间差及声音强度差异来辨别声音的方向。声音的方向性是产生立体声效果和空间效果的基础。
3. 音频的种类 在自然界中,声音包含声响、语音和音乐等三种形式。在多媒体系统中,声音不论是何种形式都是一种装载信息的媒体,统称为音频。由产生音频的方式不同音频被分为波形音频,MIDI音频和CD音频三类。 1) 波形音频 以声波表示的声响、语音、音乐等各种形式的声音经过声音获取设备(例如麦克风)和声音播放设备(例如录音机、CD唱机等)输入,并通过声卡控制采样,由A/D转换将模拟信号转变成数字信号,然后以*.WAV文件格式存储在硬盘上,这种声音媒体称为波形音频。波形音频重放时,必须经过D/A转换将数字信号转换成模拟信号,由声卡上的混音器混合后生成声波,再由音箱输出声音。
波形音频的*.WAV文件中记录的是数字信号,可以使用计算机对*.WAV文件进行各种处理,并像其他数据文件一样被存取、复制和传输。 2) MIDI音频 将电子乐器演奏时的指令信息(例如音高、音长和力度等)通过声卡上的MIDI控制器输入计算机,或者利用一种称为音序器的计算机音乐处理软件编辑产生音乐指令集合,以*.MID文件格式存储在硬盘上,这种声音媒体称为MIDI音频。MIDI音频重放时,必须经过合成器将MIDI指令译成相应的声音信号,再由声卡上的混音器混合后生成声波,最后由音箱播出音乐。
MIDI音频的*.MID文件中可以包含多达16种不同乐器的声音定义。MIDI文件记录的不是乐曲本身,而是一些描述乐曲演奏过程中的指令,因此,MIDI音频是乐谱的数字化描述。MIDI文件的存储量比较小,因此,它可以满足较长时间音乐播放的要求,但是MIDI文件的录制工作较为复杂,需要使用MIDI创作并改编作品的专业知识以及专门化工具,例如键盘合成器等。 3) CD音频 CD音频是指以44.1 kHz频率、16位精度采样而获得的一种立体声数字化声音。
4.2.2 音频信号的获取与处理 1. 音频信号的获取 音频信号的获取框图如图4-5所示。 图4-5 音频信号获取框图
2. 音频信号的处理 在第3章里已经提到,不管多媒体信息是音频信号还是视频信号,其数据量都是十分巨大的。如果像图4-5所示的那样,经A/D转换的数字化音频信号直接进入计算机进行存储(记录)或进行传送,是不可取的。 3. 音频信号的回放 经压缩的音频信号以一定的格式记录在有关的媒体上,例如,磁带、磁盘及光盘等,或者以一定的格式传送到接收端。 在音频信号接收端或由媒体回放音频信号时,首先由专用的硬件或软件对压缩数据进行解压缩,恢复音频数字信号,然后,经由图4-6所示的电路框图对音频信号进行放音。
图4-6 音频信号的回放框图
4. 有关音频信号的标准及规范 在第1章中,已经特别说明标准及规范在多媒体世界中的重要性。这里,首先阐明数字电话音频信号的数据压缩标准。在表4-1中列出了国际电报电话咨询委员会(CCITT),欧洲移动通信专家组(GSM),美国移动通信标准(CTIA)及美国国家安全局各自制定的有关电话通信的编码标准。表中还给出了各种标准的大致使用领域以及它们的质量,其中,质量是以最高为5.0分来表示的。
除了上面所提到的数字电话编码标准外,调幅广播的音频信号范围为50 Hz~7 kHz,又称“7 kHz音频信号”,其最高频率为7 kHz,当使用16 kHz对其采样并进行14位二进制编码时,其数据的传送速率为224 KB/s。为了对最高频率进行压缩,CCITT于1988年为其制定了G.722标准,标准规定这种信号的数据传送率为64 KB/s。
表4-1 数字电话的编码标准 组织 ISO CCITT 标准 G.711 G.712 G.728 制定时间 1992 1972 1984 表4-1 数字电话的编码标准 组织 ISO CCITT 标准 G.711 G.712 G.728 制定时间 1992 1972 1984 传送速率(Kb/s) 128 64 32 16 编码算法 PCM ADPCM LD–CELP 质量 5.0 4.3 4.1 4.0 使用场合 CD 长途电话网络
GSM CTIA NSA GIA 1983 1989 1982 13 8 4.8 2.4 RPE–LT VSELP CELP LPC 3.7 3.8 3.2 2.5 移动通信 保密电话
5. 常用语音文件格式 在多媒体计算机的语音处理或在后面将要说明的声卡中所用到的操作系统或工具软件为我们提供了语音文件。这些语音文件都有各自的标准,以便于用户使用和相互转换。在这里将简要介绍目前最常见的语音文件格式。 1) VOC语音文件格式 VOC语音文件由文件头和数据块两大部分组成。其中VOC语音文件的文件头如表4-2所示。
表4-2 VOC语音文件的文件头 偏移地址 内 容 00~13H 文件类型 14~15H 从VOC文件开始到数据块的偏移量 16~17H 内 容 00~13H 文件类型 14~15H 从VOC文件开始到数据块的偏移量 16~17H VOC文件版本号 18~19H VOC文件标志 1AH VOC文件的数据块标志 1B~1DH 数据块长度 1EH 数据采样率
由表4-2看到,VOC文件的文件头主要是对VOC文件的类型、版号及标志做出说明,同时,指出了数据块的起始地址、数据块长度及采样率。 VOC文件中数据块由性质不尽相同的子块组合而成。各子块的功能及其长度也各不相同,例如有语音数据子块、静音标志子块、ASCII码字符子块、循环重复子块、终止子块及用于立体声音响的扩展子块等。VOC文件中数据子块的长度及主要功能列于表4-3中。
表4-3 VOC文件中数据子块的长度及主要功能 数据子块号 长 度 功 能 1B(字节) 终止块 1 7B+? 语音数据 2 5B+? 3 7B 静音 4 6B 标志 5 6B+? ASCII字符 6 循环重复 7 4B 循环结束 8 扩展块
不同子块的开始几个字节除前面4个如上所述外,剩下的就不太相同,表4-3中用 不同子块的开始几个字节除前面4个如上所述外,剩下的就不太相同,表4-3中用?表示。例如,1号数据子块的开始字节中,有规定本数据块的数据压缩比的字节。知道了压缩比,就可以解压缩恢复原始的语音数据。 2) WAV语音文件格式 在多媒体应用中被广泛使用的是RIFF(Resource Interchange File Format)标准给出的WAV语音文件。 与VOC文件类似,WAV文件也是由文件头和数据块两部分组成。其中文件头所规定的内容如表4-4所示。
表4-4 WAV语音文件的文件头 偏移地址 字节数 类型 内 容 00H~03H 4B 字符 ‘RIFF’ 04H~07H 长整数 内 容 00H~03H 4B 字符 ‘RIFF’ 04H~07H 长整数 从下一个地址(08H)开始到文件结束的总字节数 08H~0BH ‘WAVE’ 0CH~0FH ‘fmt’
10H~11H 2B 整数 文件标志 12H~13H 目前为1 14H~15H 声道数 16H~19H 4B 长整数 采样率 1AH~1DH 每秒平均字节数
由表4-4可见,WAV语音文件头也是对文件设置了一些标志并确定了对语音信号的采集速率。单声道语音信号用11 由表4-4可见,WAV语音文件头也是对文件设置了一些标志并确定了对语音信号的采集速率。单声道语音信号用11.025 kHz的采样率采样,采样值为8 bit二进制编码,双声道语音信号用44.1 kHz采样率采样,即左右声道各为22.05 kHz采样,每声道采样值用8 bit二进制编码表示,这样一来,每个语音采样值要用16 bit表示,且高8位放左声道的数据,低8位放右声道的数据。具体数据块的存放情况如表4-5所示。 表4-5表明,数据块紧跟在文件头的后面,其偏移地址从1EH开始,前面是数据块的标志和数据块的总长度。从偏移地址26H开始存放语音数据。
表4-5 WAV文件中的数据块存放 偏移地址 字节数(B) 类型 内容 1EH~21H 4B 字符 ‘data’ 22H~25H 长整数 采样数据总字节数 26H~ … 8位整数 采样数据
以上我们简单地介绍了两种语音文件VOC和WAV。前者是我们在本章后面要介绍的声霸卡所形成的文件格式,后者是Microsoft的语音文件格式。在实际应用中,经常需要知道这些语音文件的格式,而且也经常会遇到由WAV文件向VOC文件的转换或由VOC文件向WAV文件的转换。所幸的是这两种文件的相互转换已有现成的程序可供调用,这就省了许多麻烦。使用者只要用一条简单的命令即可方便地完成它们之间的相互转换。但是,由于两种文件的复杂性,在利用软件命令进行两种文件格式转换时,应注意,WAV文件只支持11.025 kHz、22.05 kHz和44.1 kHz采样率,因此,在形成VOC文件时也要采用这样的采样率才能顺利地进行相互转换。
VOC文件中可包括多个数据块,而WAV文件只支持一个数据块,且只能用一种采样速率播放出来。因此,在WAV和VOC文件相互转换时,只能是功能强的VOC文件来适应WAV文件的规定。 同时,WAV文件不支持压缩文件,因此,当VOC文件向WAV文件转换时,VOC文件中的压缩数据块将被忽略。 3. AU声音文件格式 AU文件是使用于UNIX操作系统下的一种波形文件。其格式如表4-6所示。
表4-6 AU文件格式 偏移量 内 容 0~3 AU文件标志 16~19 数据采样频率 4~7 文件头长度 20~23 内 容 0~3 AU文件标志 16~19 数据采样频率 4~7 文件头长度 20~23 声道数N(1为单声道、2位双声道) 8~11 数据长度 24~(x–1) 附加描述信息(其中x为文件头长度) 12~15 波形格式文件 x~ 声音数据
4. MID文件格式 MID文件是一种记录数字化音乐的MIDI文件,由一个文件头块和多个音轨块组成。文件头块记录了MIDI文件的描述信息,而音轨块记录了MIDI通道的数据流信息。文件头块和音轨的格式分别如表4-7和4-8所示。
表4-7 MID 文 件 头 偏移量 内 容 0~3 MID文件头标识 4~7 文件头块长度 8~15 内 容 0~3 MID文件头标识 4~7 文件头块长度 8~15 记录格式。格式0:文件由包含所有16个通道数据的一个音轨组成。格式1:文件由一个或多个同步的音轨组成。格式2:文件由一个或多个独立的音轨组成 16~17 音轨号 18~19 时间分割,规定了形成1/4音符节拍的时间长度
表4-8 MID 音 轨 偏移量 内容 0~3 MID音轨标识 8~ 音轨数据 4~7 音轨块长度
4.3 话音信号的参数编码 4.3.1 话音源 通过对人的话音生成机理研究,人们认为,人的话音由声道产生,可分为浊音和清音两种类型。 1. 浊音 浊音由声带振动产生的准周期脉冲引起,每次振动使一股空气从肺部流进声道并激励声道,各股空气之间的间隔称为音调间隙或音调周期T。或者说,激励的速度就是音调。
2. 清音 清音由空气通过声道时,受声道某些部分压缩引起,较浊音更具有随机性。话音信号的频谱间隔对应音调周期T,包络信号是浊音在时域中实际波形的函数(音量大小),上限频率fm=3~4 kHz,一般取3.4 kHz,存在三个峰点F1、F2、F3,即谐振峰,话音信号的时域波形及其频谱如图4-7所示。 通过对话音信号的分析可知,同一个人的话音信号的周期T大致是不变的。
图4-7 话音信号的时域波形及其频谱 话音信号(浊音)的时域波形; (b) 话音信号(清音)的时域波形; (c) 话音信号(浊音)的频谱
4.3.2 话音参数的编码及声码器 1.参数编码 在分析合成法中,根据话音生成模型,从话音波形中提取的参数,主要有以下4种: (1) 浊音和清音。浊音用脉冲源模拟;清音用噪声源模拟。 (2) 浊音的基本频率,或音调周期T。 (3) 音源的幅度(音量大小)。 (4) 线性滤波器的特性参数。它反映话音频谱的包络信息,表示发音器官发音的符性(不同的音符),用线性滤波器模拟发音。频谱的包络用于表征各个音符的区别。
分析合成法编码步骤如下: (1) 从话音波形中提取携带重要听觉信息的参数; (2) 对这些参数进行编码; (3) 利用这些参数,尽可能准确、自然地重构原始话音。 2. 声码器的工作原理 1) 工作原理 利用滤波器组把话音频率分成几个相应的频带,然后传送各频带的话音成分(话音频谱的包络线),采样(频率较低)、编码传送到合成器的各频段,控制(调制)脉冲发生器或噪声发生器的各频段的包络,从而合成语音。
2) 声码器结构 声码器结构如图4-8所示。它的工作过程如下: (1) 在发送端,话音信号加到分析器上,带通滤波器将话音频率范围分为若干相邻频段,并由整流器和低通滤波器组成的包络检测器检出各频段时域合成信号包络(反映时域语音包络——强度),并对包络进行采样、编码,由于包络变化比较慢,因而采样速度比较低,为50 Hz/s。音调检测器确定话音的基音频率1/T(决定音调周期)和浊/清音。
(2) 接收端为话音合成器。 当接收到浊音时,脉冲发生器工作,它的信号强度由各频段上的包络控制,多频段合成后便得到合成后的语音。 当接收到清音时,噪声发生器工作。
图4-8 声码器结构图
4.4 乐器数字接口MIDI 4.4.1 计算机音乐 计算机音乐也称为电子音乐,是由计算机音乐软件创作、修改和编辑乐谱,通过合成器把数字乐谱变换成声音波形,再经过混音器混合后送到音箱播放的乐曲。计算机的数字合成技术可以模拟传统乐曲的音色,也可以通过计算机的编辑功能合成不是自然乐器发出的声音。计算机音乐改变了传统音乐的创作和演奏方式的概念。
表4-9 音阶与频率的对应关系 1. 乐音的几个要素 一个乐音主要由3个要素组成。 1) 音高 音高指声波的基频。各音阶的对应频率如表4-9所示。 表4-9 音阶与频率的对应关系 音阶 C D E F G A B 简谱 1 2 3 4 5 6 7 频率(Hz) 261 293 330 349 392 440 494
2) 音色 有时,具有固定音高和相同谐波的乐音给人的感觉有很大差异。 3) 响度和时值 响度是对声音强度的衡量,它是听判乐音的基础。 2. 计算机音乐的生成 计算机音乐系统由演奏控制器、音源和MIDI接口几部分组成。 1) 演奏控制器 演奏控制器是一种输入和记录实时乐曲演奏信息的设备,例如钢琴模拟键盘。
2) 音源 音源是计算机音乐系统的核心,是具体产生声音波形的部分 。 (1) 数字合成音源。 合成FM音乐是使高频振荡波的频率按调制信号规律变化的一种调制方式。在考虑音乐合成时,可以用频率的单音调制信号去调制基波的相角,即
对F(t)进行第一类贝塞尔函数展开可知,该调频波F(t)由载波基频ωc和无数对边频(±ωm,±2ωm,…)分量所组成,各谐波分量的幅值由调制指数I的值确定。因此,采用不同的调制波频率ωm和调制指数I,就可以方便地合成不同频谱分布的波形,再现某些乐器的音乐,还可以得到非真实乐器的“电子模拟声”。
FM音乐合成单元电路的典型形成如图4-9所示,只要给出ωc、ωm、A(t)、I(t)各项参数,这个单元电路就能输出某一特定的调角波F(t)。 图4-9 FM音乐合成单元电路
图中PG是相位产生器,用于为所需频率载波计算相位值,它通过累加每个单位时间的增量来实现;EG是载频包络产生器,电路由ωc、A控制产生正弦载波信号,它的相角由ωm和I控制产生正弦调制信号决定。 YM3812是一种广泛使用的FM音乐合成芯片,能够在软件的控制下产生变化极为丰富的各种音色。它的主要性能是: ˙ 以FM方式产生真实音响; ˙ 具有两种工作模式,9声道同时发音,可以产生6种旋律和5种 节奏乐; ˙ 内置颤音振荡器/调幅(AM)振荡器; ˙ 可采用正弦波组合方式合成语音; ˙ 输入/输出为TTL电平。
使用YM3812构成的音乐系统如图4-10所示。 图4-10 使用YM3812构成的音乐系统框图
该系统由微机通过总线传输必要的数据,由YM3812转换成相应的音高、音色、响度等数字信号,经过数/模转换器DAC变成模拟量,并经音频功率放大器驱动音响输出。 很多声卡使用YM3812产生FM音乐,典型的产品是Sound Blaster。 厂家为这些产品配置了相应的驱动软件,用户可以借助开发工具提供的高级语言界面进行音乐创作或演奏乐曲。 (2) 采样音源。使用FM合成法来产生逼真的乐音是不甚理想的,有些乐音几乎不能产生,只在低档声卡采用。中、高档声卡采用乐音样本合成法,即波表合成法。
(3) 物理模型化音源。 物理模型化音源与合成音源和采样音源有着本质的区别,音源中既没有波形发生器也不存在采样波形,而是利用计算机的强大的处理功能和高速的实时响应能力模拟出各种演奏信息的相应声波。 4.4.2 MIDI接口 MIDI(Musical Instrument Digital Interface)即乐器数字接口,是音乐与计算机结合的产物。它是一种计算机与MIDI设备之间连接的硬件,同时也是一种数字音乐的国际标准。
1. MIDI基本概念 MIDI接口规范由两部分组成。 1) 硬件连接端口 规定了乐器间的物理连接方式,要求乐器必须带有MIDI端口,并对连接两个乐器的MIDI电缆及传输电信号作了规定。 MIDI接口具有三种输入/输出端口,它们分别是MIDI IN、MIDI OUT和MIDI THRU。 (1) MIDI IN:MIDI输入端口,MIDI设备用MIDI IN端口接受MIDI信息。
(2) MIDI OUT:MIDI输出端口,MIDI设备用MIDI OUT端口送出MIDI信息。 (3) MIDI THRU:MIDI转接端口,MIDI设备利用MIDI THRU端口起到中继和桥接的作用。 MIDI接口的IN、OUT、THRU端口均是一个圆形的5孔接头,如图4-11所示。 最常用的MIDI设备连接方法是用一根MIDI电缆将演奏控制器的MIDI OUT端口与计算机(内有音序器)的MIDI IN端口相连接,同时用另一根MIDI电缆将计算机的MIDI OUT端口与音源MIDI IN端口相连接,这样由演奏控制器发出的演奏信息便可被计算机接收和存储,经过处理后送到音源去演奏。
图4-11 MIDI接口示意图
2) 数据传输格式 MIDI标准规定了硬件上传输的信息的编码方式。 2. MIDI设备 通过MIDI接口,计算机可以控制各个乐器的输出。 1) MIDI合成器 已经指出,MIDI声音产生和记录的方法与波形声音产生和记录的方法是不同的, MIDI文件记录的内容是音乐演奏的一系列指令。 2) MIDI音序器 音序器又称声音序列发生器,是一种记录、编辑和播放MIDI文件的软件,是为MIDI作曲而设计的计算机程序。
3) MIDI键盘 演奏者使用键盘可以直接控制合成器的输出。 4) 微处理器 微处理器的任务是接收和发送MIDI信息。 5) 控制面板 控制面板控制那些不直接由键盘产生的音符和与持续时间有关的一些其他量,如控制总音量的滑动条,控制合成器开关的按钮,以及一组确定声音生成器音调的声音选择按钮。 还可以通过辅助控制器调节合成器的音调或加入特殊效果。 另外,MIDI用时钟表示音符的长度,并实现发送端与接收端的同步。
3. MIDI软件 计算机通过MIDI接口与各种MIDI乐器连接后,就可以使用各种各样的MIDI软件。 MIDI软件可以分为以下4类: (1) 音乐记录和演奏软件。 (2) 乐谱创作与打印软件。 (3) 合成器片断编辑或管理软件。 (4) 音乐教学软件。
4.5 声卡概述 4.5.1 声卡的结构与工作原理 1. 声卡的结构 计算机处理声音的硬件设备是声卡,尽管声卡的类型很多,但声卡的基本结构和功能都是类似的。声卡的主要组成部分如图4-12所示。
图4-12 声卡的功能结构模型
1) 音源 声卡可以接受话筒的信号输入(MIC IN),外部的音频信号输入(LINE IN),或是内部连接的CD音频信号。 2) 混音器(Mixer) 混音器芯片可以混合各种音源,包括数字化声音、MIDI(合成)音乐、CD音频输入、LINE IN、MIC IN以及PC扬声器,并通过软件控制多种音源的音量,实现混合录音。 3) 前置放大器 在有些声卡上有独立的音频前置放大器芯片,它是一块模拟信号处理芯片,其主要任务是将各种音源的微弱信号放大到一定的电平,或进行选择、补偿、控制等处理,使其足以推动后级电路。
4) DSP(Digital Signal Processing,数字信号处理)芯片 5) 音乐合成芯片 音乐合成芯片是处理MIDI音乐的关键,合成音乐有两种方式:频率调制(FM)和波形表(Wave Table)合成方式。 6) 波形表ROM 并不是所有的波形表都能达到相同的效果,取得成功的关键在于提供足够多的音色样本数据。
7) CD-ROM驱动器接口 声卡上含有一个或多个CD-ROM驱动器接口,如Sound Blaster系列的一些声卡在卡上安排了Panasonic、Sony和Mitsumi三种接口,有一些声卡必须与特定的CD-ROM驱动器相连,采用SCSI-2标准CD-ROM驱动器的接口卡,使得用户可以使用丰富的CD节目。
8) 功率放大器 音频信号在输出之前必须经过功率放大。声卡一般把信号放大到4 W输出,输出的立体声音频信号可以接到耳机、有源音响或是功率较大的立体声功放。 9) 总线连接 声卡插在电脑的总线扩展槽上,为了实现高速传输数据的要求,声卡和电脑内存之间采用DMA传输方式,当传输完毕时声卡向CPU发送一个中断请求信号(IRQ)。
2. 声卡的基本工作原理 声卡有4种常见的处理声音信号的方式,在不同处理方式下,音频信号(数字的及模拟的)所通过的路径是不同的。声卡的工作原理如图4-13所示。 1) 纯模拟音频通道 外界的各种模拟音频信号,包括LINE IN、MIC IN及CD音频信号通过相应的输入插座送到声卡的混音器芯片,通过软件,可以控制混音器芯片对各种音源的选取、放大和混合比例,以及控制左右声道的输出平衡。
图4-13 声卡的工作原理
2) 数字录音 外界音频信号经过混音器及前置放大器的混合放大,进入DSP。 3) 数字声音的回放 在播放声音文件时,数字化的声音调入内存,通过DMA方式输入声卡的DSP。 4) MIDI的播放 MIDI文件首先从硬盘调入内存,传送给声卡,音乐合成芯片根据MIDI文件的内容,从波形表中获取有关的预存放的声音样本,经过变换和加工产生模拟音频信号,此后通过混音器及功放向外界输出。
4.5.2 声卡的主要性能指标和功能 1. 声卡的主要性能指标 (1) 信噪比SNR(Signal to Noise Ratio)是对声卡抑制噪音能力的评价。 (2) 总谐波失真THD+N(Total Harmonic Distortion +Noise)是对声卡保真度的总体评价。 (3) 频率响应FR(Frequency Response)是对声卡D/A与A/D转换器频率响应能力的评价。 2. 声卡的功能 声卡必须配有功能强大的软件,这些软件在操作系统支持下运行,实现声卡的基本功能。
1) 录制、编辑和回放数字声音文件 来自麦克风、录音机、收音机及激光唱盘等音源的声音信号,经采样、编码、处理后以数字声音文件的形式存储。 2) 对数据进行压缩和对压缩的数据进行解压的功能在记录数字声音信号时,应先进行数据压缩。在进行数字声音文件的回放时,应先进行解压。 3) 语音合成技术的使用 现在大多数声卡都具备语音合成的功能,能够将文字直接转换成声音。
4) 语音识别功能 目前,声卡所具备的语音识别功能还只是初步的,而且不是每种声卡都具备这样的功能。 5) 音量控制 在声卡中,混声器集成电路芯片与软件相结合,可以对各种声源以及数字的、模拟的声音信号的音量进行控制。 6) 具有MIDI接口(乐器数字接口) 利用MIDI接口,计算机可以控制多台具有MIDI接口的乐器。乐器可由MIDI接口产生MIDI文件。这种文件比WAV文件更节省内存,而且也可以对MIDI文件进行编辑和回放。 7) 多媒体制作及演示 有关多媒体软件的制作是本书后面要讲的内容。
8) 软件开发工具 凡是功能强的声卡,均配有十分完备的软件,其中包括用于二次开发(制作)的工具软件。