梅爾倒頻譜係數 (Mel-frequency cepstral coefficients)
倒頻譜 語音訊號可如下表示: 其中,X(n)為語音訊號 θ(n)為音源訊號 E(n)為聲道的脈衝響應信號
倒頻譜 語音訊號之頻域表示方式:
倒頻譜 對頻域的語音訊號加上絕對值與對數 在對取完絕對值與對數的訊號,進行逆傅立葉轉換, 所對應的ce(n)會落在n值較大的地方,而 所對應的cθ(n)會存在n值較小處
倒頻譜
人類聽覺特性 人類聽覺上的兩個重要特性―遮蔽效應、臨界頻帶 當某一頻率的聲音,有一特定音強存在,另一個不同頻率的聲音要將音強提高,才會被聽見,這就是遮蔽效應(Masking Effect) 遮蔽效應有兩種現象,一名為頻率遮蔽(Frequency Masking),另一名為時間遮蔽(Temporal Masking)
人類聽覺特性 同時存在的聲音,常常是低頻的聲音傾向於遮蔽高頻的聲音
人類聽覺特性 聲音在聽覺器官中,傳遞時間延遲所造成的遮蔽現象,稱時間遮蔽
人類聽覺特性 當我們改變窄頻帶聲音刺激(narrowband sound stimulus)時,其聲音成分若跨越某一頻率,則聽覺上會感到有差異,而在一頻率範圍內,則感覺不到差異,這個頻率範圍稱臨界頻帶(Critical Band) 在人類聽覺範圍內,可以分成24個臨界頻帶
頻帶編號 下限頻率 中心頻率 上限頻率 1 50 100 2 150 200 3 250 300 4 350 400 5 450 510 6 570 630 7 700 770 8 840 920 9 1000 1080 10 1170 1270 11 1370 1480 12 1600 1720 13 1850 2000 14 2150 2320
頻帶編號 下限頻率 中心頻率 上限頻率 15 2320 2500 2700 16 2900 3150 17 3400 3700 18 4000 4400 19 4800 5300 20 5800 6400 21 7000 7700 22 8500 9500 23 10500 12000 24 13500 15500
梅爾倒頻譜 梅爾量度(Mel Scale),其公式如下: 或是
梅爾倒頻譜 梅爾量度的轉換曲線
梅爾倒頻譜 梅爾倒頻譜流程圖
梅爾倒頻譜 梅爾三角濾波器組
梅爾三角帶通濾波器 三角形之頻率 假設取樣頻率為22050Hz,四個三角帶通濾波器,則將有效頻率轉成感知頻率: 11025Hz → 3176.32Hz 將感知頻率分成五個頻帶 3176.32/(4+1)=635.264 635.264 1270.528 1905.792 2541.056 3176.32 529.701 1461.25 3097.58 5972.83 11025
梅爾三角帶通濾波器 529.701 1461.25 3097.58 5972.83 11025 三角形編號 下限頻率 中心頻率 上限頻率 1 529.701 1461.25 3097.58 5972.83 11025 三角形編號 下限頻率 中心頻率 上限頻率 1 529.701 1461.25 2 3097.58 3 5972.83 4 11025
梅爾三角帶通濾波器 找出每個三角形之下限頻率、中心頻率與上限頻率 利用頻率解析度將頻率轉成點數 假設取樣頻率為22050Hz,快速傅立葉轉換後的點數為400點,則500Hz 約在傅立葉轉換後的第幾個點數? 頻率解析度=取樣頻率/轉換點數 頻率解析度: 22050/400=55.125Hz 500/55.125≈10 500Hz大約是傅立葉轉換後的第10個點數
梅爾三角帶通濾波器 利用三角公式製作出梅爾三角帶通濾波器 其中 為第j個三角形的下限頻率點數 為第j個三角形的中心頻率點數
梅爾三角帶通濾波器
梅爾倒頻譜 在Filtering步驟,先對頻域訊號進行平方運算以得到頻率能量 將頻率能量乘上梅爾三角濾波器組,並累加起來 其中J為濾波器的數量 為第j個濾波器
梅爾倒頻譜 執行DCT,其公式為: 其中,L為MFCC的維度
差量倒頻譜係數 差量倒頻譜係數(Delta Cepstrum Coefficients)的意義即在於倒頻譜參數對於時間的斜率,意即代表倒頻譜參數在時間上的動態變化 m = 1,2,…,L
差量倒頻譜係數 舉例說明,M取1: Cm(t-τ) Cm(t) Cm(t+τ)
差量倒頻譜係數