媒体基础(一) 向辉 山东大学软件学院 2003年秋季
本章内容 媒体的种类与特点 音频媒体 音频的声学基础 声音的数字化 声音的存储格式 语音信号、非语音信号 MIDI音乐 2019年4月20日星期六 多媒体技术-媒体基础
常见媒体形式 文本:text 图形:graphic 动画:animation 图象:image 视频:video 2019年4月20日星期六 多媒体技术-媒体基础
媒体种类 视觉媒体 音频媒体 触觉媒体 图象、图形、动画、视频、文本 听觉:语音、非语音 环境媒体:力反馈 2019年4月20日星期六 多媒体技术-媒体基础
媒体性质 空间性质 时间性质 媒体语义:抽象 复合媒体:“感觉相乘” 隐喻:metaphor,模拟人的知识与技能 表现空间、空间结构 表现时间、时间关系 媒体语义:抽象 复合媒体:“感觉相乘” 隐喻:metaphor,模拟人的知识与技能 2019年4月20日星期六 多媒体技术-媒体基础
音频媒体 音频(audio)或声音(sound) 携带信息的极其重要的媒体 多媒体技术研究中的一个重要内容 与视觉媒体相比具有特殊性 不同场合下的重要性不同 被动观看 (e.g. film, video, etc.) Video conferencing 2019年4月20日星期六 多媒体技术-媒体基础
声音的概念 声音是一种机械振动状态的传播现象,它表现为一种机械被即声波。 产生声波的条件 有作机械振动的物体:声源 有能传播机械振功的弹性介质 声波在介质中传播有一定速度,称之为声波的传播速度(声速) 2019年4月20日星期六 多媒体技术-媒体基础
声波示意(L. A. Rowe ) 压缩 稀薄 正弦波 幅度 时间 2019年4月20日星期六 多媒体技术-媒体基础
声波频率 声压变化可以是周期性的和非周期性 频率概念 声音信号一般由许多频率不同的信号组成,称为复合信号;而单一频率的信号称为分量信号 循环(cycle)- 压缩/稀薄过程 频率(frequency):每秒cycle数,单位 hertz (Hz) 周期 – cycle的持续时间 (1/frequency) 声音信号一般由许多频率不同的信号组成,称为复合信号;而单一频率的信号称为分量信号 2019年4月20日星期六 多媒体技术-媒体基础
频率范围 频率小于20Hz 一般称为次声波(subsonic) 人的听觉器官能感知的声音频率范围约为20Hz~20kHz的信号称为音频(Audio)信号 人发音器官发声频率约是80~3400Hz,但人说话的信号频率约为300~3000Hz,即话音(speech)信号 高于20kHz的信号称为超声波 (ultrasonic) 超声波及次声波一般不能引起人听觉器官的感觉,但可借助一些仪器设备进行观察和测量 2019年4月20日星期六 多媒体技术-媒体基础
乐音与噪音 一般乐音指具有确定的基频以及与该基频有较小整数倍关系的各阶谐频(harmonic tone) 频率比基音高的所有分音统称泛音(over tone),泛音的频率不必与基音成整数倍关系 在主观上把令人不愉快或不需要的声音定义为噪音 噪音的频谱较为复杂, 具有无规则的振幅和波形的连续频谱 2019年4月20日星期六 多媒体技术-媒体基础
声音要素(一) 响度(音响)loudness 到达人耳的声扰动振幅所产生的听觉的大小 声振动能量是物理特性,可用声强(sound pressure)定义,单位:帕斯卡 (Pa) 实用上通常都以对数方式的声压级 (sound pressure level)表示,单位:分贝(db) 响度是主观量,不能用任何仪器正确地测量 声音响度使用了以两个声强之比的对数为基础的相对标度,单位:宋(sone) 2019年4月20日星期六 多媒体技术-媒体基础
声音要素(二) 音调(音高)pitch或tone 人对声音刺激频率的主观判断与估量,称之为音调 (Pitch),单位:美(Mel) Frequency是物理量,而音调是人的感觉 听觉经验 一般女生的声音比男生高 较大物体振动的音调较低 2019年4月20日星期六 多媒体技术-媒体基础
声音要素(三) 音色(音质)timber 由其频谱决定 可以把音色描述为音的瞬时横截面,即用谐音(泛音)的数目、强度、分布和相位来描述。 不同乐器发出同一音高的乐音,仍然可以分辨 可以把音色描述为音的瞬时横截面,即用谐音(泛音)的数目、强度、分布和相位来描述。 泛音的强度可使音色发生变化,音色的主观特性比响度或音调的主观特性复杂得多。 2019年4月20日星期六 多媒体技术-媒体基础
模拟信号与数字信号 在时间和幅度上连续的信号为模拟(analog)信号。 巴时间和幅度都用离散的数字表示的信号就称为数字(digital)信号 采样(sampling)-时间 量化(quantization)-幅度 数字化实际上就是采样和量化 2019年4月20日星期六 多媒体技术-媒体基础
声音的采样和量化 两个关键参数:采样频率与量化精度 2019年4月20日星期六 多媒体技术-媒体基础
采样频率 每秒钟需要采集多少个声音样本 根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的 fs >= 2f 或者 Ts <= T/2 如果一个信号中的最高频率为fmax,采样频率最低要选择2fmax 2019年4月20日星期六 多媒体技术-媒体基础
量化精度 反映度量声音波形幅度的精度,一般用每个声音样本的位数(bit per sample,bps)表示 常见的量化精度有:8与16 声音的质量越高,需要的存储空间越多 2019年4月20日星期六 多媒体技术-媒体基础
声音质量等级 质量 采样频率 (kHz) 样本精度 (bit/s) 单道声/立体声 数据率(未压缩) (kb/s) 频率范围 电话 8 64 200~3400 Hz AM 11.025 88.2 20~15000Hz FM 22.050 16 立体声 705.6 50~7000Hz CD 44.1 1411.2 20~20000 Hz DAT 48 1536.0 2019年4月20日星期六 多媒体技术-媒体基础
声音质量的度量 声音质量的评价目前仍然是一个很困难的问题,需要继续研究 声音质量的度量有两种基本的方法 客观质量度量:主要用信噪比(signal to niose ratio,SNR) 主观质量度量:主观平均判分法 对于图象等其它媒体数据的处理同样存在两种质量度量 主客观结合? 2019年4月20日星期六 多媒体技术-媒体基础
存储格式(一) 用.wav为扩展名的文件格式称为波形文件格式(WAVE File Format) 类似格式 RIFF:Resource Interchange File Format IBM和微软公司于1991年8月联合开发 支持存储各种采样频率和样本精度的声音数据,并支持一定的声音数据的压缩 主要用于PC 类似格式 au(SUN),aiff(Apple),snd(SGI) 2019年4月20日星期六 多媒体技术-媒体基础
存储格式(二) mp3/mp3 pro RealAudio(ra)/RealMedia(rm) Ogg Vorbis WMA QuickTime/QDesign Music VQF MOD 2019年4月20日星期六 多媒体技术-媒体基础
声音信号的分类 非语音信号(nonspeech) 音乐 噪音 一般声音 语音信号 2019年4月20日星期六 多媒体技术-媒体基础
非声音信号 除了语音信号以外的所有音频信号 日常生活中的应用 重要特点 硬盘转动、风扇 驾车时转向提示 外界交互的重要手段 过街、接电话、机器设备检查等 重要特点 用户可以在操作时同时监控(monitoring)多个非语音信号 驾车:radio、谈话、周围环境(警车、救护车) 2019年4月20日星期六 多媒体技术-媒体基础
多媒体技术中的应用 研究不够充分 两种主要应用方式 借鉴日常生活中的应用 辅助交互手段 视觉交互超载 多变量数据展示:数据变量映射到声音 提供反馈,支持人机交互 2019年4月20日星期六 多媒体技术-媒体基础
进一步参考 AUDITORY INTERFACES: The Use of Non-Speech Audio at the Interface William Buxton William Gaver Sara Bly 2019年4月20日星期六 多媒体技术-媒体基础
语音信号 语音信号是人类所特有的也是最重要的交际手段 语音具有两重属性 语音具有表义功能 语音是一种声音,它是由人的头脑中产生的意念通过一组神经信号去控制发音器官,变成空气的振动信号然后由空气传递到人约耳朵或受话器中的信号 2019年4月20日星期六 多媒体技术-媒体基础
语音处理研究内容 语音分析:基本手段 语音增强:准备过程 语音合成:模仿人的发音过程 语音识别:模仿人的听觉功能 语音理解:试图模仿人的“思维”功能? 2019年4月20日星期六 多媒体技术-媒体基础
人的发音生理机构 主声道:声门以上,经咽喉、口腔 鼻道 次声门系统 2019年4月20日星期六 多媒体技术-媒体基础
机理示意 2019年4月20日星期六 多媒体技术-媒体基础
人的发音过程 发音时由肺部收缩送出一股直流空气经气管流至喉头声门处 在发声之初,声门处的声带肌肉收缩,声带并拢间隙小于lmm,直流空气冲过这很小的间隙,使声带得到横向和纵向的速度 此时声带问两边远动缝隙增大,声门处压力下降,弹性恢复力将声带拉回平衡位置,并继续趋向闭合 声带产生振动而且具有一定的振动用期. 2019年4月20日星期六 多媒体技术-媒体基础
语音类型 压缩空气通过声门激励声道滤波器,根据激励方式不同 发出的话音分成三种类型: 浊音(voiced sounds) 清音(unvoiced sounds) 爆破音(plosive sounds) 2019年4月20日星期六 多媒体技术-媒体基础
浊音 准周期脉冲(quasi-periodic pulses)激励 准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲 浊音表现出在音节上有高度的周期性,其值在2~20 ms之间,这个周期性称为长期周期性(long-term periodicity) 2019年4月20日星期六 多媒体技术-媒体基础
清音与爆破音 清音是在声门处在打开状态下强制空气在声道里高速收缩产生不稳定气流 爆破音是在声道关闭之后产生的压缩空 气然后突然打开声道所发出的音 2019年4月20日星期六 多媒体技术-媒体基础
汉语语音度量 一般由音素和音节构成语音的基本单位 音素是构成语音的最小单位 一个音素或几个音素的结合就是一个音 节 汉语中一个方块汉字就代表一个音节 音节是语音的自然单位 2019年4月20日星期六 多媒体技术-媒体基础
MIDI Musical Instrument Digital Interface 用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。 国际MIDI协会(International MIDI Association)出版的MIDI 1.0规范对MIDI协议作了完整的说明 是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等 2019年4月20日星期六 多媒体技术-媒体基础
MIDI特点 生成的文件比较小 容易编辑 可以作背景音乐 MIDI文件存储的是命令,而不是声音波形-用于压缩? 编辑命令比编辑声音波形要容易得多 可以作背景音乐 2019年4月20日星期六 多媒体技术-媒体基础
MIDI合成方法 波表法: FM法: 把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符 John Chowning Stanford大学 YAMAHA公司 20世纪80年代初 2019年4月20日星期六 多媒体技术-媒体基础
使用PC机构成的MIDI系统 2019年4月20日星期六 多媒体技术-媒体基础