第二章 数字声音及MIDI简介 本章将介绍声音的基础知识,重点掌握声音数字化的两个最基本的概念。

Slides:



Advertisements
Similar presentations
3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
音频编辑 第4章第4章. 第 4 章 音频编辑 4.1 数字音频概述 4.2 Audition 音频编辑技术 4.3 习题和思考 内容提要.
第 3 章、音訊媒體. 2 本章大綱 音訊原理 音訊儲存格式 音訊播放 3 影響測量結果的因素 – 以溫度測量為例 測量時間間隔 間隔愈短, 測量次數愈多, 資料愈詳細 間隔愈長, 測量次數愈少, 資料愈粗略 測量單位 單位愈小, 精確度愈高, 需記錄的內容多 單位愈大, 精確度愈低, 需記錄的內容少.
第六章 多媒体辅助教学系统 一、多媒体基本概念
第六章 音频信息及处理 Shan dong Economics University.
声音素材编辑与处理.
Fundamentals of Computers
1.2 信号的描述和分类.
第一章 声现象 第一章 声现象.
第 9 章 多媒體.
第4章 多媒体音频处理技术.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
市八中学 胡亮平 办公室:F504 高中信息科技 市八中学 胡亮平 办公室:F504
多媒体技术及应用 2017年9月9日星期六 第二章 多媒体音频技术 第二章 多媒体音频技术.
4.1 音频信号概述 4.2 音频信号的获取与处理 4.3 话音信号的参数编码 4.4 乐器数字接口MIDI 4.5 声卡概述
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
请你表演.
第二章 音频信息的获取与处理 数字音频基础 音频卡的工作原理 音频编码基础和标准 音乐合成和MIDI规范.
C++中的声音处理 在传统Turbo C环境中,如果想用C语言控制电脑发声,可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为: Beep(频率,持续时间) , 单位毫秒 暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒 引用这两个函数时,必须包含头文件
计算机基础知识 丁家营镇九年制学校 徐中先.
目标 理解多媒体的基本概念、多媒体信息及技术的特点、多媒体技术的应用。掌握多媒体计算机系统的基本组成及简单原理。
Audio.
语音编码 陈虎.
多媒体音频信息处理 音频信号及其概念 模拟音频的数字化过程 声卡 音频文件的格式与处理软件 乐器数字接口-MIDI.
数字音频技术 曾兰芳 教育技术学院
第二章音訊媒體.
數位家庭我的家 大導演開麥拉 社區大學電腦講師 黃仲銘
電腦數位音樂介紹 11組 電機三 陳俊傑 吳岳庭.
第二章 声音和语音编码 南通大学计算机应用教研室.
第9章 声卡与音箱 9.1 声卡 9.2 音箱.
声音的格式 Wav:目前最通用的格式,音质好,但是文件较大 Mp3:目前互联网上音乐的主流,文件小,CD级的音质
SOA – Experiment 3: Web Services Composition Challenge
第十三章 音频水印 13.1音频水印特点 13.2音频水印算法评价标准 13.3音频水印分类及比较
数 控 技 术 华中科技大学机械科学与工程学院.
第四章 数字音频基础 授课教师:.
第2章 数字声音及MIDI简介.
数字媒体技术基础 (第3章 数字音频技术) 周苏 教授 浙江大学城市学院 QQ:
PPT素材的处理 —— 音频的处理.
Cool Edit Pro V2.1集声音录制、混音合成、编辑处理是一款数字音频编辑软件,
第二章 多媒体的硬件和 软件环境的建立 返回.
实验六 积分器、微分器.
多媒体技术 中南大学信息科学与工程学院 黄东军.
SOA – Experiment 2: Query Classification Web Service
第一章 函数与极限.
图片与视频数字化. 图片与视频数字化 图片分类 根据图片的构成元素来分 位图: 由像素组成,计算机按顺序存储每个像素点 的颜色信息的保存方式获得的图片。 位图放大后会模糊失真,存储空间相对较大。 矢量图: 由图元组成,通过数学公式计算获得的图片。 放大后不会失真,占用空间小。
C语言程序设计 主讲教师:陆幼利.
多媒体技术基础 作者:韩小芳
学习目标 1、什么是字符集 2、字符集四个级别 3、如何选择字符集.
媒体基础(一) 向辉 山东大学软件学院 2003年秋季.
晶体管及其小信号放大 -单管共射电路的频率特性.
晶体管及其小信号放大 -单管共射电路的频率特性.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
<编程达人入门课程> 本节内容 内存的使用 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群: ,
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
音频处理及数字化.
第八章 总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
声音信号数字化 信息工程学院 宋 荣 杰.
多媒体技术 中南大学信息科学与工程学院 黄东军.
图片与视频数字化. 图片与视频数字化 图片分类 根据图片的构成元素来分 位图: 由像素组成,计算机按顺序存储每个像素点 的颜色信息的保存方式获得的图片。 位图放大后会模糊失真,存储空间相对较大。 矢量图: 由图元组成,通过数学公式计算获得的图片。 放大后不会失真,占用空间小。
第三章时 域 分 析 引言 语音信号的短时处理方法 短时能量和短时平均幅度 短时平均过零率 短时自相关函数 短时时域处理技术应用举例
第十七讲 密码执行(1).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
B12 竺越
第9章 多媒体技术.
学习目标 1、什么是列类型 2、列类型之数值类型.
Presentation transcript:

第二章 数字声音及MIDI简介 本章将介绍声音的基础知识,重点掌握声音数字化的两个最基本的概念。 此外,还介绍在上网浏览或者脱机工作时你会经常遇到的声音文件存储格式和声音工具。

2.1 声音的重要性 声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。 声音的种类繁多,如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的雷声、风声、雨声、闪电声等。 这些声音有许多共同的特性,也有它们各自的特性。在用计算机处理这些声音时,既要考虑它们的共性,又要利用它们各自的特性。

什么是声音 声音是通过一定介质(如空气、水等)传播的连续的波

声音的物理和心理特征 物理特性 心理/生理感觉特性 frequency (Hz) 音调,音高 Amplitude /power(W,mW) 音量, 响度 shape of waveform 音色

音色 因为声音的波形绝大多数都不是简单的正弦波,而是一种复杂的波。分析表明这 种复杂的波形,可以分解为一系列的正弦波,这些正弦波中有基频f0,还有与f0成 整数倍关系的谐波:f1、f2、f3、f4,它们的振幅有特定的比例。这种比例,赋予 每种乐器以特有的“色彩”—音色。如果没有谐波成分,单纯的基音正弦信号是 毫无音乐感的。 比如:大提琴音色、黑管音色不同 虽然演奏同一音高(基频)的音符,但人们能够明确分辨出哪个是乐器

声音特性 连续性 时间和幅度上都是连续的。 声波具有普通波所具有的特性,例如反射 (reflection)、折射 (refraction)和衍射 (diffraction)等。 图2-01 声音是一种连续的波

第二章 数字声音及MIDI简介 复合声音信号:由许多频率不同的信号组成的声音信号。 分量声音信号:单一频率的信号。 带宽:用来描述复合声音信号的频率范围。如高保真音信号(high-fidelity audio)的频率范围为10Hz~20,000Hz,带宽约为20kHz

声音的参数 声音信号的两个基本参数:频率和幅度 信号的频率: 指信号每秒钟变化的次数,用Hz表示。 例如,大气压的变化周期很长,以小时或天数计算,一般人不容易感到这种气压信号的变化,更听不到这种变化。对于频率为几Hz到20Hz的空气压力信号,人们也听不到,如果它的强度足够大,也许可以感觉到。

按照频率分类 次音信号(infrasonic):频率小于20Hz的信号 可听音(Audio)信号:频率范围为20Hz~ 20kHz的信号 超声波(ultrasonic)信号:频率高于20kHz的 信号。具有很强的方向性,形成波束。在工 业上得到广泛的应用,如超声波探测仪,超 声波焊接设备等。

Audio 其中在Audio中 在多媒体技术中,处理的信号主要是Audio信号,包括音乐、话音、风声、雨声、鸟叫声、机器声等。 话音(speech)信号:频率范围为300~3400Hz的信号 全频带声音 20-20kHz Music /Noise.. 在多媒体技术中,处理的信号主要是Audio信号,包括音乐、话音、风声、雨声、鸟叫声、机器声等。

人的听力 人耳对中频段1~3千赫的声音最为灵敏,对高、低频段的声音,特别是低频段的声音则比较迟钝。 利用这些特性可以在压缩音频数据时区分对待

按照存储方式分类 波形声音(存储的是波形) 语音 音乐 效果声 合成声音(存储的是命令) MIDI

2.2 声音信号数字化 2.2.1 从模拟过渡到数字 数字信号优点 精确、运算容易、可编程

2.2.2 模拟信号与数字信号 话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。 时间上“连续”:指在一个指定的时间范围里声音信号的幅值有无穷多个。 幅度上“连续”:指幅度的数值有无穷多个。 模拟信号:在时间和幅度上都是连续的信号。

数字信号 采样(sampling):在某些特定时刻对模拟信号进行测量。 离散时间信号:由这些特定时刻采样得到的信号。 离散幅度信号:采样得到的幅值是无穷多个实数值中的一个,因此幅度还是连续的。如果把信号幅度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅度信号。 【例】假设输入电压的范围是0.0V~0.7V,并假设它的取值只限定在0、0.1、0.2,…,0.7共8个值。如果采样得到的幅度值是0.123V,它的取值就应算作0.1V,如果采样得到的幅度值是0.26V,它的取值就算作0.3,这种数值就称为离散数值。 数字信号:时间和幅度都用离散数字表示的信号。

2.2.3 声音信号数字化 数字化:采样+量化,声音进入计算机的第一步处理。 编码压缩量化后的数据量 编 码 量 化 采 样 模拟声音信号 编 码 量 化 数字声音 01100011001··· 采 样

采样 采样:连续时间的离散化。若每隔相等的一小段时间采样一次,称为均匀采样(uniform sampling) 采样点

采样 采样频率(fs):决定每秒钟需要采集多少个声音样本。 奈奎斯特定理:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化(lossless digitization)。 采样定律 fs≥2f 或者 Ts≤T/2,其中f为被采样信号的最高频率。 理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为A、频率为f的正弦波至少需要两个采样样本表示,因此,如果一个信号中的最高频率为fmax,采样频率最低要选择2fmax。例如,电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。

量化 量化(quantization):连续幅度的离散化,就是把信号的强度划分成一小段一小段。如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。

2.2.4 量化精度 每个采样点样本大小是用每个声音样本的位数bit表示的,它反映度量声音波形幅度的精度。 量化精度既决定了取样值的动态范围,也决定着所引入的噪声大小。 例如,每个声音样本用16位(2字节)表示,测得的声音样本值是在0~65536的范围里,它的精度就是输入信号的1/65536。 样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。

信号噪声比 采样精度的另一种表示方法是信号噪声比,简称为信噪比(signal-to-noise ratio,SNR),并用下式计算: SNR=10log[(Vsignal)2/(Vnoise)2]=20log(Vsignal/Vnoise) 其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db) 【例1】假设Vnoise=1,采样精度为1位表示Vsignal=21,它的信噪比SNR=6分贝。 【例2】假设Vnoise=1,采样精度为16位表示Vsignal=216,它的信噪比SNR=96分贝。

声音的质量 根据声音的频带,通常把声音的质量分成5个等级,由低到高分别是: 电话(telephone)、 调幅(amplitude modulation,AM)广播、 调频(frequency modulation,FM)广播、 激光唱盘(CD-Audio)和 数字录音带(digital audio tape,DAT)的声音。

声音质量和数据率 表2–01 声音质量和数据率 质量 采样频率 (kHz) 样本精度 (bit/s) 单道声/ 立体声 数据率(kB/s) (未压缩) 频率范围 电话* 8 单道声 200~3 400 Hz AM 11.025 11.0 20~15 000Hz FM 22.050 16 88.2 50~7 000Hz CD 44.1 176.4 20~20 000 Hz DAT 48 192.0

2.2.5 声音质量与数据率 数据率 = 取样频率 x 量化位数 x 通道数目 例:CD的数据率 44.1KHz, 16bits, 2, 例: 电话语音 =8k x 8b x 1 = 64kbps =8kB/s=28MB/h 例:CD的数据率 44.1KHz, 16bits, 2,

2.3 声音文件的存储格式 在因特网上和各种机器上运行的声音文件格式很多,目前比较流行的有wav(waveform),au(audio),aiff(Audio Interchangeable File Format)和snd(sound)文件格式。wav格式主要用在PC上,au主要用在Unix工作站上,aiff和snd主要用在苹果机和美国视算科技有限公司(Silicon Graphics,Inc.,SGI)的工作站上。 wav文件称为波形文件格式(WAVE File Format),它在多媒体编程接口和数据规范1.0(Multimedia Programming Interface and Data Specifications 1.0)文档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的,它是一种为交换多媒体资源而开发的资源交换文件格式(Resource Interchange File Format,RIFF)。

波形文件格式 波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。 波形文件由许多不同类型的文件构造块组成,RIFF WAVE Chunk, Format Chunk, Fact Chunk(可选), Data Chunk。其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。 图2–03 WAVE文件结构 http://www.moon-soft.com/program/FORMAT/sound/wave.htm

RIFF wave chunk  struct RIFF_HEADER  {   char szRiffID[4];  // 'R','I','F','F'   DWORD dwRiffSize;   char szRiffFormat[4]; // 'W','A','V','E'  }; Size为wav文件大小减去ID和Size所占用的字节数

Format Chunk ====================================================================     |               |   字节数  |              具体内容                |     ====================================================================     | ID            |  4 Bytes  |   'fmt '                             |     --------------------------------------------------------------------     | Size          |  4 Bytes  | 数值为16或18,18则最后又附加信息     |     --------------------------------------------------------------------  ----     | FormatTag     |  2 Bytes  | 编码方式,一般为0x0001               |     |     --------------------------------------------------------------------     |     | Channels      |  2 Bytes  | 声道数目,1--单声道;2--双声道       |     |     --------------------------------------------------------------------     |     | SamplesPerSec |  4 Bytes  | 采样频率                             |     |     --------------------------------------------------------------------     |     | AvgBytesPerSec|  4 Bytes  | 每秒所需字节数                       |     |===> WAVE_FORMAT     --------------------------------------------------------------------     |     | BlockAlign    |  2 Bytes  | 数据块对齐单位(每个采样需要的字节数) |     |     --------------------------------------------------------------------     |     | BitsPerSample |  2 Bytes  | 每个采样需要的bit数                  |     |     --------------------------------------------------------------------     |     |               |  2 Bytes  | 附加信息(可选,通过Size来判断有无) |     |     --------------------------------------------------------------------  ----

Data Chunk    ==================================     |       |所占字节数|  具体内容   |     ==================================     | ID    |  4 Bytes |   'data'    |     ----------------------------------     | Size  |  4 Bytes |             |     ----------------------------------     | data  |          |             |     ----------------------------------

常见的声音文件扩展名 表2-02 常见的声音文件扩展名 文件的扩展名 说明 Au Sun和NeXT公司的声音文件存储格式(8位m 律编码或者16位线性编码) aif(Audio Interchange) Apple计算机上的声音文件存储格式 cmf(Creative Music Format) 声霸(SB)卡带的MIDI文件存储格式 Mct MIDI文件存储格式 mff(MIDI Files Format) mid(MIDI) Windows的MIDI文件存储格式 Mp2 MPEG Layer I , II Mp3 MPEG Layer III mod(Module) rm(RealMedia) RealNetworks公司的流放式声音文件格式

常见的声音文件扩展名(2) *支持PCM,ADPCM,m 率和A率波形(详见第3章) ra(RealAudio) RealNetworks公司的流放式声音文件格式 Rol Adlib声音卡文件存储格式 snd(sound) Apple计算机上的声音文件存储格式 Seq MIDI文件存储格式 Sng voc(Creative Voice) 声霸卡存储的声音文件存储格式 wav(Waveform)* Windows采用的波形声音文件存储格式 Wrk Cakewalk Pro软件采用的MIDI文件存储格式 *支持PCM,ADPCM,m 率和A率波形(详见第3章)

2.4 声音工具 声音工具(audio tools)用来录放、编辑和分析声音文件,声音工具使用相当普遍,但功能相差很大。 Windows 本身带的“Sound Recorder” 在英文版Windows界面上单击:Start→Programs→Accessori es→Multimedia/Entertainment→Sound Recorder,可录音,作简单的声音编辑(如插入、删除等)。 图2–04 Windows录音机

图2–05 Creative Wave Studio Version 4.00的用户界面 第二章 数字声音及MIDI简介 2. 买声音卡时带的工具 声卡一般都附带有声音工具。例如,声霸(Sound Blaster)卡带有几种声音工具,通常要由用户自己安装。其中,功能比较强的是WaveStudio, 用户界面如图2–05所示。 图2–05 Creative Wave Studio Version 4.00的用户界面

第二章 数字声音及MIDI简介 3. 网络上下载的工具 因特网上有许多站点提供试用的或者是免费的声音工具。图2–06所示的是Cool Edit工具,它很受声音研究工作者的欢迎,还有goldwave公司的声音工具,Cakewalk,Cubase等。 图2–06 Cool Edit 的用户界面

2.5 声音质量的度量 用声音信号带宽来衡量声音的质量:等级由高到低依次是DAT,CD,FM,AM和数字电话。 声音客观质量度量:信噪比(signal to noise ratio,SNR),峰值信噪比PSNR。 主观度量声音质量:召集若干实验者,由他们对声音质量的好坏进行评分,求出平均值作为对声音质量的评价。这种方法称为主观平均判分法,所得的分数称为主观平均(mean opinion score,MOS)分,比较通用的标准是5分制。(类似于评委打分)

MOS 表2-03 声音质量评分标准 分数 质量级别 失真级别 5 优(Excellent) 无察觉 4 良(Good) (刚)察觉但不讨厌 中(Fair) (察觉)有点讨厌 2 差(Poor) 讨厌但不反感 1 劣(Bad) 极讨厌(令人反感)

2.6 电子乐器数字接口(MIDI)系统 2.6.1 MIDI简介 MIDI (Musical Instrument Digital Interface)电子乐器数字接口,是在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。 MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。

MIDI标准的优点 生成的文件比较小,因为MIDI文件存储的是命令,而不是声音波形 容易编辑,因为编辑命令比编辑声音波形要容易得多

2.6.2 产生MIDI乐音的方法 两种方法 1 FM(frequency modulation)合成法 2 乐音样本合成法,也称为波形表(Wavetable)合成法

FM合成声音 早期,音乐合成器的先驱Robert Moog采用模拟电子器件生成复杂乐音。 20世纪80年代初,美国斯坦福大学(Stanford University)一名叫John Chowning的研究生发明了一种产生乐音的新方法,称为数字式频率调制合成法(digital frequency modulation synthesis),简称为FM合成器。 他把几种乐音的波形用数字来表达,并且用数字计算机而不是用模拟电子器件把它们组合起来,通过数模转换器(digital to analog convertor,DAC)来生成乐音。

工作原理 通过组合各种波形参数生成乐音 斯坦福大学得到了发明专利,并且把专利权授给Yamaha公司,该公司把这种技术做在集成电路芯片里,成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。

乐音样本合成声音 乐音样本合成法:使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生。 这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。

乐音样本的采集 乐音样本的采集:音乐家在真实乐器上演奏不同的音符,选择44.1 kHz的采样频率、16位的乐音样本,这相当于CD-DA的质量,把不同音符的真实声音记录下来。乐音样本通常放在ROM芯片上,ROM是超大规模集成电路(very large scale integrated,VLSI)芯片。 乐音样本合成器所需要的输入控制参数比较少,可控的数字音效也不多,产生的声音质量比FM合成方法产生的声音质量要高。

MIDI系统 PC机使用内置的MIDI接口卡,用来把MIDI数据发送到外部的多音色MIDI合成器模块。

语音合成(Speech synthesis) 语音合成:利用适当的方法和手段,从文本、概念或意向通过合成产生语音的过程。 语音合成的3个层次: 从文本到语音的合成(Text-to-Speech,简称TTS); 从概念到语音的合成(Concept-to-Speech); 从意向到语音的合成(Intention-to-Speech) 这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动

文语转换的要求 对合成语音的要求: 应用: 声讯服务,自动应答, 有声电子邮件, 残疾人服务, 自动配音等. 可理解 自然 低延迟 语速可变 声音可变 语言可变 应用: 声讯服务,自动应答, 有声电子邮件, 残疾人服务, 自动配音等.

语音基础知识 音素(phoneme)是语音的最小单位。音素分为: 元音(vowel)(浊音),不受声道阻碍的音。 辅音(consonant)(浊音或清音), 受声道阻碍的音。

英语语音 每字(词)一个或几个音节(syllable)(多音节字) 音节由一个或几个音素组成 英语的音素: 元音20个 辅音28个

汉语语音 每字一个音节(syllable)(单音节字) 音节由一个或几个音素组成 汉语的音素 声母(21个,b,p,m,f,d,t,n,l,······) 韵母(39个,a, e,i, o, u,ao,ou,an,en,eng,ong,) 音调(4个: 阴平、阳平、上声、去声) 汉语语音的数目: 无声调的音节数目:412个 带声调的音节数目:1282个

汉语语音的特点 (1)音系简单(音节少、音素少) (2)汉语没有词的自然界限——分词问题 咬死了猎人的狗 下雨天留客天留我不留 今年真好晦气全无财帛进门 (3)一字多音: 我们都是同行,我们一路同行,去参加人参培植研讨会。 (4)数字的读音: 复旦大学计算机系2002年招收了202名本科生,130多名硕士生,分成2个专业。

文语转换过程 文本分析与理解 文本 文本到发音的转换 韵律分析 韵律控制 语音生成 合成语音 韵律控制参数 发音标注 一串语音基元 发音 查找拼写错误,对不规范或无法发音的字符进行过滤。 分析文本中词或短语的边界, 分析文本中的数字、姓氏、特殊字符、专有词语等有关词语读音的性质。 文语转换过程 根据文本的结构、组成和标点符号,确定发音时语气的变换以及不同音的轻重方式。 分析并决定各个音节的声调、语气和停顿方式,发音的轻重、长短等 文本分析与理解 文本 文本到发音的转换 发音标注 发音 规则库 韵律分析 韵律控制参数 韵律 规则库 韵律控制 语音生成 合成语音 一串语音基元 语音 基元库

几个TTS系统 中国科大讯飞TTS系统 http://www.iflytek.com/ 微软亚洲研究院的木兰系统 贝尔实验室 https://research.microsoft.com/speech/tts/TTS.asp 贝尔实验室 http://www.bell-labs.com/project/tts/mandarin.html IBM的ViaVoice

Demos