Download presentation
Presentation is loading. Please wait.
1
梅爾倒頻譜係數 (Mel-frequency cepstral coefficients)
2
大綱 倒頻譜 人類聽覺特性 梅爾倒頻譜
3
倒頻譜 語音訊號可如下表示: 其中,X(n)為語音訊號 θ(n)為音源訊號 E(n)為聲道的脈衝響應信號
4
倒頻譜 語音訊號之頻域表示方式:
5
倒頻譜 對頻域的語音訊號加上絕對值與對數 在對取完絕對值與對數的訊號,進行逆傅立葉轉換, 所對應的ce(n)會落在n值較大的地方,而 所對應的cθ(n)會存在n值較小處
6
倒頻譜
7
人類聽覺特性 人類在分辨聲音時,是取決於頻域上的解析度,能否聽見聲音或分辨聲音是取決於音強(Intensity)與頻譜(Spectrum)
8
人類聽覺特性 人類聽覺上的兩個重要特性―遮蔽效應、臨界頻帶
當某一頻率的聲音,有一特定音強存在,另一個不同頻率的聲音要將音強提高,才會被聽見,這就是遮蔽效應(Masking Effect) 遮蔽效應有兩種現象,一名為頻率遮蔽(Frequency Masking),另一名為時間遮蔽(Temporal Masking)
9
人類聽覺特性 同時存在的聲音,常常是低頻的聲音傾向於遮蔽高頻的聲音
10
人類聽覺特性 聲音在聽覺器官中,傳遞時間延遲所造成的遮蔽現象,稱時間遮蔽
11
人類聽覺特性 當我們改變窄頻帶聲音刺激(narrowband sound stimulus)時,其聲音成分若跨越某一頻率,則聽覺上會感到有差異,而在一頻率範圍內,則感覺不到差異,這個頻率範圍稱臨界頻帶(Critical Band) 在人類聽覺範圍內,可以分成24個臨界頻帶
12
人類聽覺特性
13
人類聽覺特性 巴克度量(Bark Scale)又稱臨界頻帶率(Critical-Band Rate),它將聲學上的頻率與感知上的頻率解析度對照起來,其公式如下 其中B(f)為臨界頻率帶
14
人類聽覺特性 巴克量度的轉換曲線
15
梅爾倒頻譜 與巴克量度相似的梅爾量度(Mel Scale),其公式如下: 或是
16
梅爾倒頻譜 梅爾量度的轉換曲線
17
梅爾倒頻譜 梅爾倒頻譜流程圖
18
梅爾倒頻譜 梅爾三角濾波器組
19
梅爾倒頻譜 在Filtering步驟,先對頻域訊號進行平方運算以得到頻率能量 將頻率能量乘上梅爾三角濾波器組,並累加起來
其中J為濾波器的數量 為第j個濾波器
20
梅爾倒頻譜 其公式為: 執行DCT,其公式為: 其中,L為MFCC的維度
Similar presentations