VI. Brief Introduction for Acoustics [參考資料] 王小川, “語音訊號處理”,全華出版,台北,民國94年。 T. F. Quatieri, Discrete-Time Speech Signal Processing: Principle and Practice, Pearson Education Taiwan, Taipei, 2005. L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, Prentice-Hall, 1978. 張智星教授 網頁 http://neural.cs.nthu.edu.tw/jang/ P. Filippi, Acoustics : Basic Physics, Theory, and Methods, Academic Press, San Diego, 1999.
6-A 聲音的相關常識 211 人耳可以辨識頻率:20Hz ~ 20000Hz 說話:150~2000Hz 電腦音效卡取樣頻率:44100Hz (最新技術可達192K) (一般用 22050Hz, 11025Hz 即可) > 20000Hz: 超音波 (ultrasound) < 20Hz: 次聲波 (infrasound) 波長較長 -> 傳播距離較遠,但容易散射 波長較短 -> 衰減較快,但傳播方向較接近直線
212 一般聲音檔格式: (1) 取樣頻率 22050Hz (2) 單聲道或雙聲道 (3) 每筆資料用8個bit來表示 電腦中沒有經過任何壓縮的聲音檔: *.wav Q: What is the data size of a song without compression? 數位電話取樣頻率:8000Hz
聲音在空氣中傳播速度 : 每秒 340 公尺 (15°C 時) 所以,人類對3000Hz 左右頻率的聲音最敏感 (一般人,耳翼到鼓膜之間的距離: 2.7公分) 附: (1) 每增加 1°C,聲音的速度增加 0.6 m/sec (2) 聲音在水中的傳播速度是 1500 m/sec 在鋁棒中的傳播速度是 5000 m/sec
214 20000Hz 5000Hz 1000Hz 200Hz annoyance curve lower bound for hearing 20Hz 0dB 80dB 110dB 3000Hz -4dB
dB: 分貝 10log10(P/C), 其中P為音強(正比於振福的平方);C為0dB 時的音強 每增加 10dB,音強增加10倍;每增加3dB ,音強增加2倍; 所幸,內耳的振動不會正比於聲壓 人對於頻率的分辨能力,是由頻率的「比」決定 對人類而言,300Hz 和 400 Hz 之間的差別,與 3000Hz 和 4000 Hz 之間的差別是相同的
6-B Music Signal 216 電子琴 Do 的頻率:低音 Do: 131.32 Hz 中音 Do: 261.63 Hz 音樂每增加八度音,頻率變為 2 倍 每一音階有12個半音 增加一個半音,頻率增加 21/12 倍 (1.0595 倍) Do 升Do Re 升Re Mi Fa 升Fa So 升So La 升La Si Hz 262 277 294 311 330 349 370 392 415 440 466 494
217 音樂通常會出現「和弦」(chord) 的現象 除了基頻 f0 Hz 之外,也會出現 2f0 Hz, 3f0 Hz, 4f0 Hz , ….. 的頻率 frequency (Hz)
218 為什麼會產生和弦? 因為聲音信號是一個 periodic signal,但是不一定是 sinusoid A non-sinusoid signal with the period of 1/330 seconds can be expressed as:
6-C 語 音 處 理 的 工 作 219 (1) 語音編碼 (Speech Coding) (2) 語音合成 (Speech Synthesis) (3) 語音增強 (Speech Enhancement) 前三項目前基本上已經很成功 (4) 語音辨認 (Speech Recognition) 音素 音節 詞 句 整段話 目前已有很高的辨識率 (5) 說話人辦認 (Speaker Recognition) (6) 其他:語意,語言,情緒
6-D 語音的辨認 220 音素 音節 詞 句 整段話 音素:相當於一個音標 (1) Spectrum Analysis Time-Frequency Analysis (2) Cepstrum (3) Correlation for Words
ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ 6-E 子音和母音 ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 母音: ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 單母音: a, e, i, o, u ㄚ ㄛ ㄜ ㄝ ㄦ ㄧ ㄨ ㄩ 雙母音:ㄞ ㄟ ㄠ ㄡ 母音 + 濁音:ㄢ ㄣ ㄤ ㄥ 子音: ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ
ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ 漢語拚音 b p m f d t n l g k h j q x 通用拚音 c s ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ 漢語拚音 zh ch sh r z c s a o e ai ei ao 通用拚音 jh ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 漢語拚音 ou an en ang eng er i, y u, w yu, iu 通用拚音
母 音: 依唇型而定 子 音: 在口腔,鼻腔中某些部位將氣流暫時堵住後放開 在頻譜上: 子音的能量小,頻率偏高,時間較短,出現在母音前 母音的能量大,頻率偏低,時間較長,出現在子音後或獨立出現
ㄑ一ㄥ ㄈㄤ ㄇㄢ ㄒㄧㄥ ㄔㄜ ㄙㄨ ㄉㄨ
發音模型 (線性非時變近似) X(z) = R(z)H(z)G(z)Ep(z) R(z) :嘴唇模型, H(z): 口腔模型, G(z):聲帶模型 Ep(z):輸入(假設為週期脈衝) 音量和 Ep(z), G(z) 有關 子音和 H(z), R(z)有關 母音和 R(z)有關
分析一個聲音信號的頻譜: 用Windowed Discrete-Time Fourier Transform 或稱作 Short-Time Discrete Fourier Transform Discrete-time Fourier transform Windowed discrete-time Fourier transform 強調 n = m 附近的區域 或
典型的聲音頻譜 (不考慮倍頻) : 頻譜上,大部分的地方都不等於0。 出現幾個 peaks 值 可以依據 peaks 的位置來辨別母音 G(m, f) f F1 F2 F3 F4
母音 peaks 處的頻率 (Hz) (不考慮倍頻): 原則上: (1) 嘴唇的大小,決定F1 (2) 舌面的高低,決定 F2 F1 男聲 女聲 F1 F2 F3 ㄚ 900 1200 2900 1100 1350 3100 ㄛ 560 800 3000 730 3200 ㄜ 1090 790 1250 ㄝ 500 2100 600 2400 3300 ㄧ 310 2300 360 3500 ㄨ 370 540 3400 460 820 3700 ㄩ 300 350 2600 ㄦ 580 1500 760 1700
ㄞ (ai), ㄟ (ei), ㄠ (ao), ㄡ (ou) 頻譜隨時間而改變,一開使始像第一個母音,後變得像另一個母音 ㄚ一 ㄝ一 ㄚㄛ ㄛㄨ 雙母音: ㄞ (ai), ㄟ (ei), ㄠ (ao), ㄡ (ou) 頻譜隨時間而改變,一開使始像第一個母音,後變得像另一個母音 ㄞ 的頻譜 的 peaks位置 900 310 Time F3 2900 F2 1200 F1
6-F 語意學的角色 以「語意學」或「機率」來補足語音辨識的不足 例如:經過判定,一個聲音可能是 ㄅㄧ ㄖㄢ ㄆㄧ ㄖㄢ ㄅㄧ ㄖㄢ ㄆㄧ ㄖㄢ ㄅㄧ ㄌㄢ ㄆㄧ ㄌㄢ 這個聲音是「必然」的機率比較大。 ㄅㄛ ㄅㄛ ㄆㄛ ㄆㄛ 可能是「伯伯」,也可能是「婆婆」,看上下文 儲存詞庫 當前主流的語音辨識技術: Mel-Frequency Cepstrum + 語意分析 + Machine Learning (人工智慧的一種)
附錄七之一:線性代數觀念補充 (1) x 和 y 兩個向量的內積可表示成 (2) 兩個互相正交(orthogonal)或垂直(perpendicular)的向量,其內積為0。可表示成: 或 (3) 令 S 為內積空間V的一組正交集合(set)且由非零向量構成, 其中 如果 S 是由一組正規集合(orthonormal set)構成,那麼
(4) Gram-Schmidt algorithm: 對於內積空間V的任意一組基底 ,我們可以透過這演算法找到一組正交基底 幾何意義:把 xj 在 y1, y2, …, yj-1上面的分向量全都從向量 xj 身上扣掉之後,剩下的向量 yj自然就會跟 y1, y2, …, yj-1 垂直。 (5) Solving Ax = b but , m > n Interpolation Theorem (插值定理) 1.For any inner-product function of Fm , there exists a vector z that minimizes where 2. If rank(A) = n, then is the unique minimizer of
附錄七之二:PCA and SVD PCA (principle component analysis) 是資料分析和影像處理當中常用到的數學方法,用來分析資料的「主要成分」或是影像中物體的「主軸」。 它其實和各位同學在高中和大一線代所學的回歸線 (regressive line) 很類似。回歸線是用一條一維 (one-dimensional) 的直線來近似二維 (two-dimensional) 的資料,而 PCA 則是用 M-dimensional data 來近似 N-dimensional data ,其中 M 小於等於 N 在講解 PCA 之前,先介紹什麼是 SVD (singular value decomposition) 我們在大一的時候,都已經學到該如何對於 N x N 的矩陣做 eigenvector -eigenvalue decomposition 那麼……… 當一個矩陣的 size 為 M x N,且 M 和 N 不相等時,我們該如何對它來做 eigenvector-eigenvalue decomposition?
SVD 的流程: 假設 A 是一個 M x N 的矩陣。 (Step 1) 計算 注意,B 是 N x N 的矩陣,而 C 是 M x M 的矩陣。上標H代表Hermitian matrix,相當於做共軛轉置。 (Step 2) 接著,對 B 和 C 做 eigenvector-eigenvalue decomposition 其中 V 的每一個 column 是 B 的 eigenvector (with normalization), U 的每一個 column 是 C 的 eigenvector (with normalization) , Λ 和 D 都是對角矩陣, Λ 和 D 對角線上的 entries 是 B 和 C 的 eigenvalues。並假設 eigenvectors 根據 eigenvalues 的大小排序 (由大到小) Note: 值得注意的是,由於 B = BH 且 C = CH,所以 B 和 C 的 eigenvectors 皆各自形成一個 orthogonal set。經過適當的 normalization 使得 U 和 V 的 column 自己和自己的內積為 1 之後, U-1 = UH 和 V-1 = VH將滿足。因此,B 和 C 可以表示成 注意,V和U是unitary matrix
(Step 3) 計算 取絕對值 S 是一個 M x N 的矩陣,只有在 S[n, n] (n = 1, 2, …, min(M, N)) 的地方不為 0 (Step 4) 若 S1[n, n] < 0,改變 U 第 n 個 column 的正負號 即完成 SVD A 也可以表示為 其中 λn = S[n, n], k = min(M, N)) 註: Matlab 有內建的 svd 指令可以計算 SVD
從 SVD 到 PCA (principle component analysis ,主成份分析) k = min(M, N)) 若 λ1 ≧ λ2 ≧ λ3 ≧ ….. ≧ λk 是 A 矩陣的最主要的成份 是 A 矩陣的第二主要的成份 : 是 A 矩陣的最不重要的成份 若為了壓縮或是去除雜訊的考量,可以選擇 h < k,使得 A 可以近似成
PCA 的流程 假設現在有 M 筆資料,每一筆資料 為 N dimension g1 = [f1,1 f1,2, …, f1,N] g2 = [f2,1 f2,2, …, f2,N] : gM = [fM,1 fM,2, …, fM,N] (Step 1) 扣掉平均值,形成新的 data m = 1, 2, …, M 其中 (Step 2) 形成 M x N 的矩陣 A A 的第 m 個 row 為 dm , m = 1, 2, …, M
(Step 3) 對 A 做 SVD 分解 k = min(M, N)) λ1 ≧ λ2 ≧ λ3 ≧ ….. ≧ λk (Step 4) 將 A 近似成 則每一筆資料可以近似為 除了平均值 之外 v1T 是資料的最主要成分, v2T 是資料的次主要成分, v3T 是資料的第三主要成分,以此類推
PCA 的例子 假設在一個二維的空間中,有5個點,座標分別是 (7,8), (9,8), (10, 10), (11,12), (13,12) M = 5, N = 2 試求這五個點的 PCA (即回歸線) (Step 1) 將這五個座標點減去平均值 (10, 10) (-3, -2), (-1 -2), (0, 0), (1, 2), (3, 2) (Step 2) 形成 5x2 的 matrix
(Step 3) 計算 SVD 主成分 次要成分
(Step 4) 得到主成分 這五個座標點可以近似成 m = 1, 2, …, 5 u1 = -0.6116, u2 = -0.3549, u3 = 0, u4 = 0.3549, u5 = 0.6116 回歸線 c (-, )