多媒体技术及应用 2017年9月9日星期六 第二章 多媒体音频技术 第二章 多媒体音频技术
2.1 数字音频基础 一、声音的基本概念 声音是通过一定介质传播的一种连续波。 声波 重要指标 振幅:音量的大小 周期:重复出现的时间间隔 t 振幅 周期 A 重要指标 振幅:音量的大小 周期:重复出现的时间间隔 频率:指信号每秒钟变化的次数
2.1 数字音频基础 声音按频率分类: 人类说话声音频率范围:300Hz-3kHz 声音质量的频率范围: 频带 次声波 可听声波 超声波 多媒体技术及应用 2017年9月9日星期六 2.1 数字音频基础 声音按频率分类: 次声波 可听声波 超声波 20Hz 20kHz f(Hz) 人类说话声音频率范围:300Hz-3kHz 声音质量的频率范围: 10 20 50 200 3.4k 7k 15k 20k CD-DA FM广播 AM广播 电话 f(Hz) 频带 第二章 多媒体音频技术
2.1 数字音频基础 二、声音的数字化 1.声音信号的类型 模拟信号(自然界、物理) 数字信号(计算机) 2.声音数字化过程 模拟信号 采样 量化 编码 模拟信号 数字信号 模拟信号 数字信号 A/D ADC D/A DAC
2.1 数字音频基础 3.声音数字化过程图示 连续的模拟声音信号 声音信号的采样 离散的音频信号 顺序
2.1 数字音频基础 4.声音数字化三要素 采样频率 量化位数 声道数 每秒钟抽取声波幅度样本的次数 每个采样点用多少二进制位表示数据范围 使用声音通道的个数 采样频率越高 声音质量越好 数据量也越大 量化位数越多 音质越好 立体声比单声道的表现力丰富,但数据量翻倍 11.025kHz 22.05 kHz 44.1 kHz 8位=256 个值 16位=65536个值 单声道 立体声
2.1 数字音频基础 5.声音数字化计算公式 数据量=采样频率×量化位数 ×声道数/8(字节/秒) 采样频率 (kHz) 量化位数 数据量=采样频率×量化位数 ×声道数/8(字节/秒) 采样频率 (kHz) 量化位数 (bit) 数据量(KB/s) 单声道 立体声 11.025 8 10.77 21.53 16 43.07 22.05 86.13 44.1 172.27
2.1 数字音频基础 三、数字音频的文件格式 1.WAV文件 WAV是Microsoft/IBM共同开发的PC波形文件。因未经压缩,文件数据量很大。 特点:声音层次丰富,还原音质好 2.MP3文件 MP3(MPEG Audio layer 3)是一种按MPEG标准的音频压缩技术制作的音频文件。 特点:高压缩比(11:1),优美音质
2.1 数字音频基础 3.WMA文件 WMA(Windows Media Audio)是Windows Media格式中的一个子集(音频格式)。 特点:压缩到MP3一半 4.MIDI文件 MIDI(乐器数字接口)是由一组声音或乐器符号的集合。 特点:数据量很小,缺乏重现自然音
压缩编码是用某种方法使数字化信息的编码率减低 2.2 数字音频压缩标准 一、音频压缩方法概述 编码器 传输/存储 解码器 输入音频信号 输出音频信号 压缩编码是用某种方法使数字化信息的编码率减低 ①声音信号中存在大量的冗余度 ②听觉具有强音能抑制弱音现象 音频压缩 依据 无损压缩:霍夫曼编码、算术编码、行程编码 有损压缩:波形编码、参数编码、混合编码
2.2 数字音频压缩标准 二、音频压缩技术标准 分类 标准 说明 电话语 音质量 G.711 采样8kHz,量化8bit,码率64kbps 采用ADPCM编码,码率32kbps G.723 采用ADPCM有损压缩,码率24kbps G.728 采用LD-CELP压缩技术,码率16kbps 调幅广 播质量 G.722 采样16kHz,量化14bit,码率224(64)kbps 高保真 立体声 MPEG 音频 采样44.1kHz,量化16bit,码率705kbps (MPEG三个压缩层次,384-64kbps)
2.2 数字音频压缩标准 三、音频压缩工具 MP3压缩工具(豪杰超级解霸3000)
2.3 声卡与音箱 一、声卡(又称声音卡、音频卡) 1.声卡的主要功能 声卡是负责录音、播音和声音合成的一种多媒体板卡。 ①录制、编辑和回放数字音频文件 ②控制和混合各声源的音量 ③记录和回放音频时进行压缩和解压缩 ④语音合成技术(朗读文本) ⑤具有MIDI接口(乐器数字接口)
2.3 声卡与音箱 2.声卡的组成原理 总线接口芯片 数字音频处理芯片 音乐合成器 A/D和D/A 混音器 话筒输入 扬声器输出 线性输入 线性输出 总线接口芯片 数字音频处理芯片 音乐合成器 A/D和D/A MIDI接口 混音器 CD接口 计算机总线 话筒输入 线性输入 扬声器输出
2.3 声卡与音箱 3.声卡的性能指标 ⑴采样和量化能力 衡量音响器材音质好坏。 采样频率:11.025kHz (语音效果) 量化等级: 8位/256级 (语音质量) 16位/65536级(高保真质量)
2.3 声卡与音箱 ⑵芯片类型 CODEC芯片(依赖CPU,价格便宜) 数字信号处理器DSP(不依赖CPU) ⑶总线类型 ISA总线、PCI总线、USB接口 ⑷输出声道数 2声道(立体声)、2.1/4.1/5.1声道 多通道声卡(营造杜比环绕立体声)
2.3 声卡与音箱 4.声卡的外部接口
2.3 声卡与音箱 二、音箱 音箱是一种电声转换的发音设备,它由箱体、扬声器、电源和信号放大器等组成。 分类:2.0→双声道立体声 2.1/4.1/5.1/7.1 5.1→五声道+超重低音声道
2.3 声卡与音箱 杜比环绕 立体声技术
2.4 音频处理软件 专业音乐软件 音乐编曲软件 (音序器) 合成器软件 Cakewalk 1.0-9.0→Sonar 1.0-3.0 Cubase VSI 5.x→Cubase SX 2.1 (MIDI/音频/合成器一体化) Logic Audio、Vegas Audio/Video等 录音、混音、 音频编辑软件 Sound Forge(Sonic Foundry) Wavelab (德国Steinberg) Cool Edit (Syntrillium) 效果器软件 效果器插件 Waves Native Gold Bundle(20以上) TC Native Bundle(4) Ultrafunk Sonltus fx(7)
2.4 音频处理软件 一、Cool Edit概述 Cool Edit Pro 1.1/1.2/2.0/2.1 (专业版) ①编辑:插入、叠加、替换、调制等; ②音效:回音、延迟、失真、杂音等; ③分析音讯及频率; ④与Cakewalk能很好地结合。
2.4 音频处理软件 1.Cool Edit的启动和退出 开始/所有程序→Cool Edit 2000 2.Cool Edit的窗口组成 标题栏 菜单栏 工具栏 状态栏 显示范围条 波形显示区 声音播放工具 水平缩放工具 时间显示区 垂直缩放工具 CD播放栏 音量电平表
2.4 音频处理软件 二、音频的基本操作 1.声音的录制 Options/Windows Mixer→音量控制 ⑴从麦克风中输入 File/New→New Waveform对话框 语音:11025Hz、Mono、8-bit 音乐:44100Hz、Stereo、16-bit ⑵从CD唱机中输入 CD唱机(波形输出混音)
2.4 音频处理软件 2.音频的编辑 选择 删除(选区、非选区) 复制 粘贴 混合粘贴
2.4 音频处理软件 3.音频文件管理 新建文件 打开文件 保存文件 另存为(其他格式) 保存选择区
2.4 音频处理软件 三、调整音量大小 1.调整音量 Transform/Amplitude/Amplify菜单 Amplify对话框 Constant Amplification选项卡 2.显示振幅边界线(90%) View/Show Boundaries 3.静音(选择区域) Transform/Silence
2.4 音频处理软件 四、淡入与淡出 淡入效果是指音频选区的起始音量很小甚至无声,而最终音量相对效大。 淡出效果是指音频选区的起始音量相对较大,而最终音量很小甚至无声。 操作步骤:选择音频区域→Transform/ Amplitude/Amplify→选择Fade In(淡入)、Fade Out(淡出)→Linear Fades(线性) Logarithmic Fades(对数)
2.4 音频处理软件 五、消除环境噪音 环境噪音是在语音停顿之处有一种振幅变化不大的声音,这个声音贯穿于录制声音的整个过程。 消除环境噪音的方法是在语音停顿之处选择一段环境噪音,让CE记录噪音的特征,然后自动消除所有的环境噪音。 操作步骤:选取噪音样本→Transform/ Noise Reduction/Noise Reduction→双击波形显示区选取整个波形→┅
2.4 音频处理软件 六、延迟效果 1.Delay延迟效果 Transform/Delay Effects/Delay菜单 Delay:延时(-500~500ms) Mixing:声音混合(0~100%) Invert:颠倒 Presets:预置 模拟各种房间效果、空中回声、隧道。
2.4 音频处理软件 2.Echo回声效果 Transform/Delay Effects/Echo菜单 Echo对话框的参数: Decay:衰减(0~100%) Delay:延时(0~2000ms) Initial Echo Volume:初始回声音量 Lock Left/Right:锁定左右声道 Echo Bounce:弹簧回声 模拟声场效果,如礼堂、峡谷、大厅。
2.4 音频处理软件 3.Flanger空间感效果 Transform/Delay Effects/Flanger菜单 Original Delayed 原始声音和延时声音比例 Initial Mix Delay 初始混合延时 Final Mix Delay 最终混合延时 Stereo Phasing 立体声相位 Feedback 反馈量 模拟科幻、火星人、水下等声音感觉。
2.4 音频处理软件 七、正弦波发生器 正弦波发生器 音频信号发生器 非正弦法发生器 噪音发生器 正弦波发生器 音频信号发生器 非正弦法发生器 噪音发生器 Generate/Tones→New Waveform (16000,Mono,16-bit) →Generate Tones (选中Lock to these… 400,0,0…)
2.5 MIDI与音乐合成 一、MIDI技术概述 1.什么是MIDI MIDI是一种利用合成器产生的音乐技术。 Musical Instrument Digital Interface译为乐器数字接口。 利用数字信号处理技术合成的音效有: ①模仿钢琴、小提琴、吉他等音色; ②超越时空的太空音乐。
2.5 MIDI与音乐合成 2.MIDI标准 MIDI是各种电子音乐设备之间以及与计算机交换信息的国际标准。(Yamaha,Roland) MIDI硬件规范:硬件接口标准和信号传输机制(I/O通道类型、连接电缆和插座形式)。 MIDI软件规范:音乐信息数字化编码方式(音符、音符长短、音调和音量等)。 原声钢琴8分音符的C3音:00 00 60 音色Piano编号 音符C3编号 8分音符编号
2.5 MIDI与音乐合成 二、MIDI合成方式 1.调频合成法FM 原理:利用傅立叶级数进行分解。 特点:①系统开销小,声音较清脆; ②声音音色少,音质差。 2.波形表合成法WT 原理:预先存放实际乐器的声音样本。 特点:①音乐真实感强,音色自然。 ②硬波形表,软波形表。
2.5 MIDI与音乐合成 三、MIDI的工作过程 音序器是MIDI音乐 创作的核心控制部件。 MIDI乐器 MIDI接口 MIDI文件 合成器 扬声器 音频卡 PC机 音序器是MIDI音乐 创作的核心控制部件。
2.5 MIDI与音乐合成 四、音乐制作系统 1.基本设备 音源:声卡(模拟乐器发声的设备) 音序器:硬件音序器、软件音序器 输入设备:电子琴(MIDI In,MIDI Out) MIDI键盘(省去音源) Cakewalk虚拟键盘 MIDI连接线
2.5 MIDI与音乐合成 2.音乐制作技术 提取原音软件:Exact Audio Copy(EAC) MP3数字CD抓轨 把CD音轨转换成WAV格式(无失真)。 音频处理软件:Cool Edit 2000 原音伴唱消除:Effect/Amplitude/ Channel Mixer→Vocal Cut VCD(卡拉OK):左声道、右声道 人声 伴音
2.6 语音识别技术 一、语音识别的发展历史 1952:Bell实验室研制可识别十个英文 数字的语音识别器-Audry系统。 60-80:动态规划(DP)、线性预测(LP)、 矢量量化(VQ)、隐马尔可夫模型、 人工神经元网络(ANN)。 1988:卡内基-梅隆大学研制SPHINX系统 非特定人、大词汇量、连续语音。 1997:IBM公司开发出汉语ViaVoice语音 识别系统。ViaVoice98-地方口音
2.6 语音识别技术 二、语音识别的基本原理 三、语音识别系统的分类 1.根据词汇量大小 小词汇量语音识别系统:几十词 中词汇量语音识别系统:几百词
2.6 语音识别技术 大词汇量语音识别系统:几千-几万词 2.根据对说话人依赖程度 特定人语音识别系统:专人 非特定人语音识别系统:所有人 限定人识别系统:一组人 3.根据对说话人说话方式 孤立词语音识别系统:每词后停顿 连接词语音识别系统:连音 连续语音识别系统:连音、变音
2.6 语音识别技术 四、语音识别软件 中文听写 语音识别软件 语音命令 语音合成 IBM ViaVoice 8.0中文语音识别系统 语音识别软件 语音命令 语音合成 IBM ViaVoice 8.0中文语音识别系统 英特尔公司的可视音频语音识别软件(AVSR)。