VI. Brief Introduction for Acoustics

Slides:



Advertisements
Similar presentations
广西大学 普通话培训课件 执教 : 赫英娜. 普通话强化培训 标标准普通话定义:  以北京语音为标准音,以 北方话为基础方言,以典范的 现代白话文著作为语法规范。
Advertisements

演讲是面镜子 四、演说基本功. 演讲是面镜子 演说基本功 (一)脑的训练 (二)口语表达的训练 (三)态势语的训练 ( 四)演说心理训练.
國立交通大學應用數學系 數學建模與科學計算研究所 簡 介. 隨著科技的日新月異,人類為追求完美的生活,其 所面臨的科學與工程問題也日趨複雜,舉凡天氣的 預測、飛機的設計、生物醫學中的神經網路、奈米 材料的研發、衍生性金融產品的定價、甚至交通流 量的監測等問題,透過「數學建模」的量化過程, 再配合以「科學計算」的方式去模擬現象並嘗試尋.
语言训练 深圳市特殊需要儿童早期干预中心 黄彬. 什么是语言  语言:它是一种符号,用来表达人类思想和 感情,做为人类交谈或相互传递信息的沟通 工具。是人类的思维工具和最重要的交际工 具。  广义:口头语言、书面语言、表情、手势、 信号、标志、音乐、图画、雕刻等  狭义:口头语言.
苏少版《音乐》教材分析与 教学研究 江苏省中小学教研室 戴海云. 提 纲 第一部分 《音乐》教材分析 编写思路 主要特点 第二部分. 《音乐》教学实验与研究 教学研究 案例分析.
一、韵母的定义  韵母,就是一个音节中声母后面的 部分。  普通话有 39 个韵母,大部分由元音 构成,有的由元音加上鼻辅音 n 或 ng 构成.
一、音调  听过女高音和男低音的歌唱吗?他们的声音 给你的印象是怎样的? 女高音:音调高, 男低音:音调低,比较低沉。
只有今天的课堂上勇于动脑思考、通过自己的发现获得知识奥秘的小朋友才有资格进去!而且还要通过智慧公主的种种挑战,你们有信心吗?
課程名稱:多變的聲音 編授教師: 中興國中 楊秉鈞.
第三章作品之四 《左传·郑伯 克段于鄢》 一、作品简介 二、中心思想 三、课文分析 四、艺术特色.
數位訊號處理 第4章 離散時間訊號與LTI系統之傅利葉分析
“乐圣”贝多芬用它的智慧谱写的《命运交响曲》告诉我们:向命运呐喊,向命运抗挣,我们会胜利的,前面就是美好和幸福。
广告文案作业三 黄佩.
小学语文毕业总复习 ( 基础知识部分) 牡丹区实验小学侯宪梅.
认识 钟表 孤山中心小学 许 蕾.
励步英语授权流程.
民间器乐 第五章.
普通话测试 普通话测试培训 安康职业技术学院 黄超男 QQ:
第一章 光、影像、品質與浮水印.
教师科研:问题与方法 ——以课堂观察为例 广西师大教科院 耿涓涓 QQ:
資料探勘(Data Mining)及其應用之介紹
数字图像处理 Digital Image Processing.
十八岁和其他.
Introduction to Matlab
朗读基本技巧与朗读教学.
“国培计划(2012)”—幼儿园骨干教师远程培目
字词积累与词语运用.
第二节 现代识字与写字教学改革实验 教学内容: 汉语拼音、识字、写字 应对策略: 汉语拼音教学策略、汉字教学策略.
孔子傳第三集: 興辦私學-禮學之美 生命教育工作坊.
國語正音與注音符號教學研習 國立台中教育大學 語文教育學系 施枝芳.
古代汉语 东北师范大学人文学院 文学院精品课程小组 张世超.
提升國小自然與生活科技領域教師教學智能研習
國三第五課 亞洲音樂漫遊.
此课件由360大课堂 隆 中 对.
中华全国魅力女性演说能力训练专题讲座YANSHUONENGLIZHUANJIANG
XI. Hilbert Huang Transform (HHT)
A TIME-FREQUENCY ADAPTIVE SIGNAL MODEL-BASED APPROACH FOR PARAMETRIC ECG COMPRESSION 14th European Signal Processing Conference (EUSIPCO 2006), Florence,
Applications of Digital Signal Processing
V. Homomorphic Signal Processing
李瑛 我骄傲,我是一棵树 江苏省外国语学校 惠慧.
32位元處理器之定點數MFCC演算法的改進與探討 Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors 學生:陳奕宏 指導教授:張智星.
II. Short-time Fourier Transform
口 技 林嗣环.
An en in 你发现了什么?. an en in 你发现了什么?
6一株紫丁香. 6一株紫丁香 任务一: 初读课文,学会生字新词。 策略一:自由朗读课文,边读边勾画生字新词,同桌之间把这些生字新词多读几遍。
第二週 記譜法.
Advanced Digital Signal Processing 高等數位訊號處理
普通話科 聲母zh ch sh及z c s.
XIV. Orthogonal Transform and Multiplexing
VII. Data Compression (A)
張智星 (Roger Jang) 清大資工系 多媒體檢索實驗室
目錄 第一教節 圖片 詞卡: 前途 潛逃 圖紙 桃子 報名 部門 拼音卡 第二教節 銀行存摺 詞卡: 紅包兒 花 攢 第三教節
第4章 连续时间傅立叶变换 The Continuous-Time Fourier Transform
神秘岛.
卷四 課堂語言運用 大綱: (甲) 觀課安排及程序 (乙)「課堂語言運用」評估範疇 大綱: (一) 觀課安排及程序
羊樂多笛笛 作者:吳滋錕、劉智昇.
2019/5/18 普通話 聲調 聲母 韻母.
农业的变化 真大.
An Quick Introduction to R and its Application for Bioinformatics
10、《论语》十二章.
96學年度第二學期電機系教學助理課後輔導進度表(一)(查堂重點)
人民音乐出版社 七年级.
國立苑裡高中 基礎物理講義 聲音(週期波)三要素 噪音
II. Short-time Fourier Transform
复习四 拼音宝宝的聚会.
裕民國小 100學年度第一學期 多元文化社團 直笛社團&合唱社團 期末成果發表會
語音特徵擷取之 資料相關線性特徵轉換 研究生:張志豪 多酌墨在數學式的物理意義及精神。 老師、各位口試委員、各位同學大家好。
Gaussian Process Ruohua Shi Meeting
A o e i u ü 单韵母 ei ai ui 复韵母 ao ou iu ie üe er 特殊韵母.
汉语拼音总复习.
Presentation transcript:

VI. Brief Introduction for Acoustics [參考資料] 王小川, “語音訊號處理”,全華出版,台北,民國94年。 T. F. Quatieri, Discrete-Time Speech Signal Processing: Principle and Practice, Pearson Education Taiwan, Taipei, 2005.  L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, Prentice-Hall, 1978.  張智星教授 網頁 http://neural.cs.nthu.edu.tw/jang/  P. Filippi, Acoustics : Basic Physics, Theory, and Methods, Academic Press, San Diego, 1999.

 6-A 聲音的相關常識 211 人耳可以辨識頻率:20Hz ~ 20000Hz 說話:150~2000Hz 電腦音效卡取樣頻率:44100Hz (最新技術可達192K) (一般用 22050Hz, 11025Hz 即可) > 20000Hz: 超音波 (ultrasound) < 20Hz: 次聲波 (infrasound) 波長較長 -> 傳播距離較遠,但容易散射 波長較短 -> 衰減較快,但傳播方向較接近直線

212  一般聲音檔格式: (1) 取樣頻率 22050Hz (2) 單聲道或雙聲道 (3) 每筆資料用8個bit來表示  電腦中沒有經過任何壓縮的聲音檔: *.wav Q: What is the data size of a song without compression?  數位電話取樣頻率:8000Hz

聲音在空氣中傳播速度 : 每秒 340 公尺 (15°C 時) 所以,人類對3000Hz 左右頻率的聲音最敏感 (一般人,耳翼到鼓膜之間的距離: 2.7公分) 附: (1) 每增加 1°C,聲音的速度增加 0.6 m/sec (2) 聲音在水中的傳播速度是 1500 m/sec 在鋁棒中的傳播速度是 5000 m/sec

214 20000Hz 5000Hz 1000Hz 200Hz annoyance curve lower bound for hearing 20Hz 0dB 80dB 110dB 3000Hz -4dB

dB: 分貝 10log10(P/C), 其中P為音強(正比於振福的平方);C為0dB 時的音強   每增加 10dB,音強增加10倍;每增加3dB ,音強增加2倍; 所幸,內耳的振動不會正比於聲壓  人對於頻率的分辨能力,是由頻率的「比」決定 對人類而言,300Hz 和 400 Hz 之間的差別,與 3000Hz 和 4000 Hz 之間的差別是相同的

 6-B Music Signal 216 電子琴 Do 的頻率:低音 Do: 131.32 Hz 中音 Do: 261.63 Hz 音樂每增加八度音,頻率變為 2 倍 每一音階有12個半音 增加一個半音,頻率增加 21/12 倍 (1.0595 倍) Do 升Do Re 升Re Mi Fa 升Fa So 升So La 升La Si Hz 262 277 294 311 330 349 370 392 415 440 466 494

217 音樂通常會出現「和弦」(chord) 的現象 除了基頻 f0 Hz 之外,也會出現 2f0 Hz, 3f0 Hz, 4f0 Hz , ….. 的頻率 frequency (Hz)

218 為什麼會產生和弦? 因為聲音信號是一個 periodic signal,但是不一定是 sinusoid A non-sinusoid signal with the period of 1/330 seconds can be expressed as:

 6-C 語 音 處 理 的 工 作 219 (1) 語音編碼 (Speech Coding) (2) 語音合成 (Speech Synthesis) (3) 語音增強 (Speech Enhancement) 前三項目前基本上已經很成功 (4) 語音辨認 (Speech Recognition) 音素  音節  詞  句  整段話 目前已有很高的辨識率 (5) 說話人辦認 (Speaker Recognition) (6) 其他:語意,語言,情緒

 6-D 語音的辨認 220 音素  音節  詞  句  整段話 音素:相當於一個音標 (1) Spectrum Analysis Time-Frequency Analysis (2) Cepstrum (3) Correlation for Words

ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ  6-E 子音和母音 ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ   母音: ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 單母音: a, e, i, o, u ㄚ ㄛ ㄜ ㄝ ㄦ ㄧ ㄨ ㄩ 雙母音:ㄞ ㄟ ㄠ ㄡ 母音 + 濁音:ㄢ ㄣ ㄤ ㄥ 子音: ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ

ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ 漢語拚音 b p m f d t n l g k h j q x 通用拚音 c s ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ 漢語拚音 zh ch sh r z c s a o e ai ei ao 通用拚音 jh ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 漢語拚音 ou an en ang eng er i, y u, w yu, iu 通用拚音

母 音: 依唇型而定 子 音: 在口腔,鼻腔中某些部位將氣流暫時堵住後放開   在頻譜上: 子音的能量小,頻率偏高,時間較短,出現在母音前 母音的能量大,頻率偏低,時間較長,出現在子音後或獨立出現

ㄑ一ㄥ ㄈㄤ ㄇㄢ ㄒㄧㄥ ㄔㄜ ㄙㄨ ㄉㄨ

發音模型 (線性非時變近似)   X(z) = R(z)H(z)G(z)Ep(z) R(z) :嘴唇模型, H(z): 口腔模型, G(z):聲帶模型 Ep(z):輸入(假設為週期脈衝) 音量和 Ep(z), G(z) 有關 子音和 H(z), R(z)有關 母音和 R(z)有關

 分析一個聲音信號的頻譜: 用Windowed Discrete-Time Fourier Transform 或稱作 Short-Time Discrete Fourier Transform    Discrete-time Fourier transform Windowed discrete-time Fourier transform 強調 n = m 附近的區域 或

典型的聲音頻譜 (不考慮倍頻) :   頻譜上,大部分的地方都不等於0。 出現幾個 peaks 值 可以依據 peaks 的位置來辨別母音 G(m, f) f F1 F2 F3 F4

母音 peaks 處的頻率 (Hz) (不考慮倍頻): 原則上: (1) 嘴唇的大小,決定F1 (2) 舌面的高低,決定 F2  F1 男聲 女聲 F1 F2 F3 ㄚ 900 1200 2900 1100 1350 3100 ㄛ 560 800 3000 730 3200 ㄜ 1090 790 1250 ㄝ 500 2100 600 2400 3300 ㄧ 310 2300 360 3500 ㄨ 370 540 3400 460 820 3700 ㄩ 300 350 2600 ㄦ 580 1500 760 1700

ㄞ (ai), ㄟ (ei), ㄠ (ao), ㄡ (ou) 頻譜隨時間而改變,一開使始像第一個母音,後變得像另一個母音 ㄚ一 ㄝ一 ㄚㄛ ㄛㄨ  雙母音: ㄞ (ai), ㄟ (ei), ㄠ (ao), ㄡ (ou) 頻譜隨時間而改變,一開使始像第一個母音,後變得像另一個母音 ㄞ 的頻譜 的 peaks位置 900 310 Time F3 2900 F2 1200 F1

 6-F 語意學的角色 以「語意學」或「機率」來補足語音辨識的不足 例如:經過判定,一個聲音可能是 ㄅㄧ ㄖㄢ ㄆㄧ ㄖㄢ ㄅㄧ ㄖㄢ ㄆㄧ ㄖㄢ ㄅㄧ ㄌㄢ ㄆㄧ ㄌㄢ 這個聲音是「必然」的機率比較大。 ㄅㄛ ㄅㄛ ㄆㄛ ㄆㄛ 可能是「伯伯」,也可能是「婆婆」,看上下文  儲存詞庫  當前主流的語音辨識技術: Mel-Frequency Cepstrum + 語意分析 + Machine Learning (人工智慧的一種)

附錄七之一:線性代數觀念補充 (1) x 和 y 兩個向量的內積可表示成 (2) 兩個互相正交(orthogonal)或垂直(perpendicular)的向量,其內積為0。可表示成: 或 (3) 令 S 為內積空間V的一組正交集合(set)且由非零向量構成, 其中 如果 S 是由一組正規集合(orthonormal set)構成,那麼

(4) Gram-Schmidt algorithm: 對於內積空間V的任意一組基底 ,我們可以透過這演算法找到一組正交基底 幾何意義:把 xj 在 y1, y2, …, yj-1上面的分向量全都從向量 xj 身上扣掉之後,剩下的向量 yj自然就會跟 y1, y2, …, yj-1 垂直。 (5) Solving Ax = b but , m > n Interpolation Theorem (插值定理) 1.For any inner-product function of Fm , there exists a vector z that minimizes where 2. If rank(A) = n, then is the unique minimizer of

附錄七之二:PCA and SVD PCA (principle component analysis) 是資料分析和影像處理當中常用到的數學方法,用來分析資料的「主要成分」或是影像中物體的「主軸」。 它其實和各位同學在高中和大一線代所學的回歸線 (regressive line) 很類似。回歸線是用一條一維 (one-dimensional) 的直線來近似二維 (two-dimensional) 的資料,而 PCA 則是用 M-dimensional data 來近似 N-dimensional data ,其中 M 小於等於 N 在講解 PCA 之前,先介紹什麼是 SVD (singular value decomposition) 我們在大一的時候,都已經學到該如何對於 N x N 的矩陣做 eigenvector -eigenvalue decomposition 那麼……… 當一個矩陣的 size 為 M x N,且 M 和 N 不相等時,我們該如何對它來做 eigenvector-eigenvalue decomposition?

SVD 的流程: 假設 A 是一個 M x N 的矩陣。 (Step 1) 計算 注意,B 是 N x N 的矩陣,而 C 是 M x M 的矩陣。上標H代表Hermitian matrix,相當於做共軛轉置。 (Step 2) 接著,對 B 和 C 做 eigenvector-eigenvalue decomposition 其中 V 的每一個 column 是 B 的 eigenvector (with normalization), U 的每一個 column 是 C 的 eigenvector (with normalization) , Λ 和 D 都是對角矩陣, Λ 和 D 對角線上的 entries 是 B 和 C 的 eigenvalues。並假設 eigenvectors 根據 eigenvalues 的大小排序 (由大到小) Note: 值得注意的是,由於 B = BH 且 C = CH,所以 B 和 C 的 eigenvectors 皆各自形成一個 orthogonal set。經過適當的 normalization 使得 U 和 V 的 column 自己和自己的內積為 1 之後, U-1 = UH 和 V-1 = VH將滿足。因此,B 和 C 可以表示成 注意,V和U是unitary matrix

(Step 3) 計算 取絕對值 S 是一個 M x N 的矩陣,只有在 S[n, n] (n = 1, 2, …, min(M, N)) 的地方不為 0 (Step 4) 若 S1[n, n] < 0,改變 U 第 n 個 column 的正負號 即完成 SVD A 也可以表示為 其中 λn = S[n, n], k = min(M, N)) 註: Matlab 有內建的 svd 指令可以計算 SVD

從 SVD 到 PCA (principle component analysis ,主成份分析) k = min(M, N)) 若 λ1 ≧ λ2 ≧ λ3 ≧ ….. ≧ λk 是 A 矩陣的最主要的成份 是 A 矩陣的第二主要的成份 : 是 A 矩陣的最不重要的成份 若為了壓縮或是去除雜訊的考量,可以選擇 h < k,使得 A 可以近似成

PCA 的流程 假設現在有 M 筆資料,每一筆資料 為 N dimension g1 = [f1,1 f1,2, …, f1,N] g2 = [f2,1 f2,2, …, f2,N] : gM = [fM,1 fM,2, …, fM,N] (Step 1) 扣掉平均值,形成新的 data m = 1, 2, …, M 其中 (Step 2) 形成 M x N 的矩陣 A A 的第 m 個 row 為 dm , m = 1, 2, …, M

(Step 3) 對 A 做 SVD 分解 k = min(M, N)) λ1 ≧ λ2 ≧ λ3 ≧ ….. ≧ λk (Step 4) 將 A 近似成 則每一筆資料可以近似為 除了平均值 之外 v1T 是資料的最主要成分, v2T 是資料的次主要成分, v3T 是資料的第三主要成分,以此類推

PCA 的例子 假設在一個二維的空間中,有5個點,座標分別是 (7,8), (9,8), (10, 10), (11,12), (13,12) M = 5, N = 2 試求這五個點的 PCA (即回歸線) (Step 1) 將這五個座標點減去平均值 (10, 10) (-3, -2), (-1 -2), (0, 0), (1, 2), (3, 2) (Step 2) 形成 5x2 的 matrix

(Step 3) 計算 SVD 主成分 次要成分

(Step 4) 得到主成分 這五個座標點可以近似成 m = 1, 2, …, 5 u1 = -0.6116, u2 = -0.3549, u3 = 0, u4 = 0.3549, u5 = 0.6116 回歸線 c  (-, )