Download presentation
Presentation is loading. Please wait.
1
VI. Brief Introduction for Acoustics
[參考資料] 王小川, “語音訊號處理”,全華出版,台北,民國94年。 T. F. Quatieri, Discrete-Time Speech Signal Processing: Principle and Practice, Pearson Education Taiwan, Taipei, 2005. L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, Prentice-Hall, 1978. 張智星教授 網頁 P. Filippi, Acoustics : Basic Physics, Theory, and Methods, Academic Press, San Diego, 1999.
2
6-A 聲音的相關常識 211 人耳可以辨識頻率:20Hz ~ 20000Hz 說話:150~2000Hz
電腦音效卡取樣頻率:44100Hz (最新技術可達192K) (一般用 22050Hz, 11025Hz 即可) > 20000Hz: 超音波 (ultrasound) < 20Hz: 次聲波 (infrasound) 波長較長 -> 傳播距離較遠,但容易散射 波長較短 -> 衰減較快,但傳播方向較接近直線
3
212 一般聲音檔格式: (1) 取樣頻率 22050Hz (2) 單聲道或雙聲道 (3) 每筆資料用8個bit來表示 電腦中沒有經過任何壓縮的聲音檔: *.wav Q: What is the data size of a song without compression? 數位電話取樣頻率:8000Hz
4
聲音在空氣中傳播速度 : 每秒 340 公尺 (15°C 時)
所以,人類對3000Hz 左右頻率的聲音最敏感 (一般人,耳翼到鼓膜之間的距離: 2.7公分) 附: (1) 每增加 1°C,聲音的速度增加 0.6 m/sec (2) 聲音在水中的傳播速度是 1500 m/sec 在鋁棒中的傳播速度是 5000 m/sec
5
214 20000Hz 5000Hz 1000Hz 200Hz annoyance curve lower bound for hearing 20Hz 0dB 80dB 110dB 3000Hz -4dB
6
dB: 分貝 10log10(P/C), 其中P為音強(正比於振福的平方);C為0dB
時的音強 每增加 10dB,音強增加10倍;每增加3dB ,音強增加2倍; 所幸,內耳的振動不會正比於聲壓 人對於頻率的分辨能力,是由頻率的「比」決定 對人類而言,300Hz 和 400 Hz 之間的差別,與 3000Hz 和 4000 Hz 之間的差別是相同的
7
6-B Music Signal 216 電子琴 Do 的頻率:低音 Do: 131.32 Hz 中音 Do: 261.63 Hz
音樂每增加八度音,頻率變為 2 倍 每一音階有12個半音 增加一個半音,頻率增加 21/12 倍 ( 倍) Do 升Do Re 升Re Mi Fa 升Fa So 升So La 升La Si Hz 262 277 294 311 330 349 370 392 415 440 466 494
8
217 音樂通常會出現「和弦」(chord) 的現象 除了基頻 f0 Hz 之外,也會出現 2f0 Hz, 3f0 Hz, 4f0 Hz , ….. 的頻率 frequency (Hz)
9
218 為什麼會產生和弦? 因為聲音信號是一個 periodic signal,但是不一定是 sinusoid A non-sinusoid signal with the period of 1/330 seconds can be expressed as:
10
6-C 語 音 處 理 的 工 作 219 (1) 語音編碼 (Speech Coding)
(2) 語音合成 (Speech Synthesis) (3) 語音增強 (Speech Enhancement) 前三項目前基本上已經很成功 (4) 語音辨認 (Speech Recognition) 音素 音節 詞 句 整段話 目前已有很高的辨識率 (5) 說話人辦認 (Speaker Recognition) (6) 其他:語意,語言,情緒
11
6-D 語音的辨認 220 音素 音節 詞 句 整段話 音素:相當於一個音標 (1) Spectrum Analysis
Time-Frequency Analysis (2) Cepstrum (3) Correlation for Words
12
ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ
6-E 子音和母音 ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 母音: ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 單母音: a, e, i, o, u ㄚ ㄛ ㄜ ㄝ ㄦ ㄧ ㄨ ㄩ 雙母音:ㄞ ㄟ ㄠ ㄡ 母音 + 濁音:ㄢ ㄣ ㄤ ㄥ 子音: ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ
13
ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ 漢語拚音 b p m f d t n l g k h j q x 通用拚音 c s ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ 漢語拚音 zh ch sh r z c s a o e ai ei ao 通用拚音 jh ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 漢語拚音 ou an en ang eng er i, y u, w yu, iu 通用拚音
14
母 音: 依唇型而定 子 音: 在口腔,鼻腔中某些部位將氣流暫時堵住後放開 在頻譜上: 子音的能量小,頻率偏高,時間較短,出現在母音前 母音的能量大,頻率偏低,時間較長,出現在子音後或獨立出現
15
ㄑ一ㄥ ㄈㄤ ㄇㄢ ㄒㄧㄥ ㄔㄜ ㄙㄨ ㄉㄨ
17
發音模型 (線性非時變近似) X(z) = R(z)H(z)G(z)Ep(z) R(z) :嘴唇模型, H(z): 口腔模型, G(z):聲帶模型 Ep(z):輸入(假設為週期脈衝) 音量和 Ep(z), G(z) 有關 子音和 H(z), R(z)有關 母音和 R(z)有關
18
分析一個聲音信號的頻譜: 用Windowed Discrete-Time Fourier Transform 或稱作 Short-Time Discrete Fourier Transform Discrete-time Fourier transform Windowed discrete-time Fourier transform 強調 n = m 附近的區域 或
19
典型的聲音頻譜 (不考慮倍頻) : 頻譜上,大部分的地方都不等於0。 出現幾個 peaks 值 可以依據 peaks 的位置來辨別母音 G(m, f) f F1 F2 F3 F4
20
母音 peaks 處的頻率 (Hz) (不考慮倍頻):
原則上: (1) 嘴唇的大小,決定F1 (2) 舌面的高低,決定 F2 F1 男聲 女聲 F1 F2 F3 ㄚ 900 1200 2900 1100 1350 3100 ㄛ 560 800 3000 730 3200 ㄜ 1090 790 1250 ㄝ 500 2100 600 2400 3300 ㄧ 310 2300 360 3500 ㄨ 370 540 3400 460 820 3700 ㄩ 300 350 2600 ㄦ 580 1500 760 1700
21
ㄞ (ai), ㄟ (ei), ㄠ (ao), ㄡ (ou) 頻譜隨時間而改變,一開使始像第一個母音,後變得像另一個母音
ㄚ一 ㄝ一 ㄚㄛ ㄛㄨ 雙母音: ㄞ (ai), ㄟ (ei), ㄠ (ao), ㄡ (ou) 頻譜隨時間而改變,一開使始像第一個母音,後變得像另一個母音 ㄞ 的頻譜 的 peaks位置 900 310 Time F3 2900 F2 1200 F1
22
6-F 語意學的角色 以「語意學」或「機率」來補足語音辨識的不足 例如:經過判定,一個聲音可能是 ㄅㄧ ㄖㄢ ㄆㄧ ㄖㄢ
ㄅㄧ ㄖㄢ ㄆㄧ ㄖㄢ ㄅㄧ ㄌㄢ ㄆㄧ ㄌㄢ 這個聲音是「必然」的機率比較大。 ㄅㄛ ㄅㄛ ㄆㄛ ㄆㄛ 可能是「伯伯」,也可能是「婆婆」,看上下文 儲存詞庫 當前主流的語音辨識技術: Mel-Frequency Cepstrum + 語意分析 + Machine Learning (人工智慧的一種)
23
附錄七之一:線性代數觀念補充 (1) x 和 y 兩個向量的內積可表示成
(2) 兩個互相正交(orthogonal)或垂直(perpendicular)的向量,其內積為0。可表示成: 或 (3) 令 S 為內積空間V的一組正交集合(set)且由非零向量構成, 其中 如果 S 是由一組正規集合(orthonormal set)構成,那麼
24
(4) Gram-Schmidt algorithm: 對於內積空間V的任意一組基底 ,我們可以透過這演算法找到一組正交基底
幾何意義:把 xj 在 y1, y2, …, yj-1上面的分向量全都從向量 xj 身上扣掉之後,剩下的向量 yj自然就會跟 y1, y2, …, yj-1 垂直。 (5) Solving Ax = b but , m > n Interpolation Theorem (插值定理) 1.For any inner-product function of Fm , there exists a vector z that minimizes where 2. If rank(A) = n, then is the unique minimizer of
25
附錄七之二:PCA and SVD PCA (principle component analysis) 是資料分析和影像處理當中常用到的數學方法,用來分析資料的「主要成分」或是影像中物體的「主軸」。 它其實和各位同學在高中和大一線代所學的回歸線 (regressive line) 很類似。回歸線是用一條一維 (one-dimensional) 的直線來近似二維 (two-dimensional) 的資料,而 PCA 則是用 M-dimensional data 來近似 N-dimensional data ,其中 M 小於等於 N 在講解 PCA 之前,先介紹什麼是 SVD (singular value decomposition) 我們在大一的時候,都已經學到該如何對於 N x N 的矩陣做 eigenvector -eigenvalue decomposition 那麼……… 當一個矩陣的 size 為 M x N,且 M 和 N 不相等時,我們該如何對它來做 eigenvector-eigenvalue decomposition?
26
SVD 的流程: 假設 A 是一個 M x N 的矩陣。 (Step 1) 計算 注意,B 是 N x N 的矩陣,而 C 是 M x M 的矩陣。上標H代表Hermitian matrix,相當於做共軛轉置。 (Step 2) 接著,對 B 和 C 做 eigenvector-eigenvalue decomposition 其中 V 的每一個 column 是 B 的 eigenvector (with normalization), U 的每一個 column 是 C 的 eigenvector (with normalization) , Λ 和 D 都是對角矩陣, Λ 和 D 對角線上的 entries 是 B 和 C 的 eigenvalues。並假設 eigenvectors 根據 eigenvalues 的大小排序 (由大到小) Note: 值得注意的是,由於 B = BH 且 C = CH,所以 B 和 C 的 eigenvectors 皆各自形成一個 orthogonal set。經過適當的 normalization 使得 U 和 V 的 column 自己和自己的內積為 1 之後, U-1 = UH 和 V-1 = VH將滿足。因此,B 和 C 可以表示成 注意,V和U是unitary matrix
27
(Step 3) 計算 取絕對值 S 是一個 M x N 的矩陣,只有在 S[n, n] (n = 1, 2, …, min(M, N)) 的地方不為 0 (Step 4) 若 S1[n, n] < 0,改變 U 第 n 個 column 的正負號 即完成 SVD A 也可以表示為 其中 λn = S[n, n], k = min(M, N)) 註: Matlab 有內建的 svd 指令可以計算 SVD
28
從 SVD 到 PCA (principle component analysis ,主成份分析)
k = min(M, N)) 若 λ1 ≧ λ2 ≧ λ3 ≧ ….. ≧ λk 是 A 矩陣的最主要的成份 是 A 矩陣的第二主要的成份 : 是 A 矩陣的最不重要的成份 若為了壓縮或是去除雜訊的考量,可以選擇 h < k,使得 A 可以近似成
29
PCA 的流程 假設現在有 M 筆資料,每一筆資料 為 N dimension g1 = [f1,1 f1,2, …, f1,N] g2 = [f2,1 f2,2, …, f2,N] : gM = [fM,1 fM,2, …, fM,N] (Step 1) 扣掉平均值,形成新的 data m = 1, 2, …, M 其中 (Step 2) 形成 M x N 的矩陣 A A 的第 m 個 row 為 dm , m = 1, 2, …, M
30
(Step 3) 對 A 做 SVD 分解 k = min(M, N)) λ1 ≧ λ2 ≧ λ3 ≧ ….. ≧ λk (Step 4) 將 A 近似成 則每一筆資料可以近似為 除了平均值 之外 v1T 是資料的最主要成分, v2T 是資料的次主要成分, v3T 是資料的第三主要成分,以此類推
31
PCA 的例子 假設在一個二維的空間中,有5個點,座標分別是 (7,8), (9,8), (10, 10), (11,12), (13,12) M = 5, N = 2 試求這五個點的 PCA (即回歸線) (Step 1) 將這五個座標點減去平均值 (10, 10) (-3, -2), (-1 -2), (0, 0), (1, 2), (3, 2) (Step 2) 形成 5x2 的 matrix
32
(Step 3) 計算 SVD 主成分 次要成分
33
(Step 4) 得到主成分 這五個座標點可以近似成 m = 1, 2, …, 5 u1 = , u2 = , u3 = 0, u4 = , u5 = 回歸線 c (-, )
Similar presentations