對數能量特徵正規化於語音辨識之進一步研究 陳鴻彬、林士翔、陳柏琳 國立台灣師範大學資工所
綱要 研究動機 研究方法 對數能量特徵正規化實驗環境 對數能量特徵正規化實驗結果 結論
研究動機 現今自動語音辨識系統,不受噪音干擾的語音訓練語料,往往會因為環境中複雜因素的影響,造成訓練環境與測試環境存在環境不匹配的差異,使得系統辨識效能大幅度降低。 希望藉由對語音對數能量特徵參數做適當的處理與調整,以減緩雜訊干擾的影響、降低訓練環境與測試環境不匹配的情形、提升語音特徵參數本身的強健性。
對數能量特徵現象 無雜訊干擾情況下 有雜訊干擾情況下 通常一段無雜訊的語句中,有語音的段落其對數能量特徵值會較高;反之若無語音出現的段落其對數能量特徵值則會接近於零 有雜訊干擾情況下 當受到雜訊影響時將會使得對數能量產生非線性的失真 觀測後發現在對數能量較高的音框僅有輕微的影響;相反地,在對數能量較低的音框則會有嚴重的影響 log energy frame
對數能量特徵 針對語句的對數能量特徵值觀察,我們將乾淨語句與受雜訊環境干擾的語句對數能量特徵值經過排序處理 原本對數能量值較低的部分會有明顯的提升,產生非線性的失真 log energy 噪音對語音特徵參數的影響 log energy
研究方法 基於上述的觀察,本論文提出對數能量尺度重刻法 方法 使用對數轉換函數方式來對語音對數能量作正規化 目的 使原來對數能量值較低的語音音框之對數能量值降低 對數能量值較高的語音音框之對數能量值維持不變 將特徵能量值乘上其所處分位差(Quantile)區間對應的對數轉換函數值
對數能量尺度重刻法 具體作法 每一語句的所有音框中找出最大對數能量值以及最小對數能量值 根據最大對數能量值以及最小對數能量值決定值域範圍,將此範圍等份成M個分位差,取得分位差寬度 根據分位差寬度,找出每音框的對數能量所對應的分位差索引值 最後將每一音框索引值經過對數轉換函數得到正規化對數能量
對數能量尺度重刻法 對數轉換函數 論文中我們設定對數轉換函數分位差個數(M)為100 此對數轉換函數與每個分位差值所對應曲線值的如下
(1)在5db的噪音下能有效逼近clean的曲線 對數能量尺度重刻法 對數能量尺度重刻法處理前與處理後示意圖 (語音內容為:139O) (1)在5db的噪音下能有效逼近clean的曲線 (2)在5db的噪音下能有效降低噪音值 原始曲線(a) 對數能量尺度重刻法處理(b)
實驗設定 本論文實驗所使用的訓練語料和測試語料是由歐洲電信標準協會所發行的Aurora-2語料庫 訓練語料分為乾淨語料與複合情境語料(含雜訊干擾語料) 測試語料分為三組Set A、Set B和Set C Set A:乾淨語料中分別加入地下鐵、人聲、汽車和展覽會館雜訊 Set B:乾淨語料中分別加入機場、餐廳、街道和火車站雜訊 Set C:乾淨語料中分別加入二種不同特性的通道效應 前端處理(Front-End processing) 採用梅爾倒頻譜係數作為語音特徵參數,其中包含12維的梅爾倒頻譜係數以及一維的對數能量(Log Energy),同時取其一階差量係數和二階差量係數 後端辨識(Back-end recognizer) 使用HTK工具訓練與辨識聲學模型
實驗結果 實驗一 針對對數轉換函數分位差個數(M)分別設定50、100、500與1000四種尺度測試 Scale 平均字精確率 ACC(%) Set A Set B Set C 平均 乾淨語料訓練模式 50 74.10 76.71 63.08 71.30 100 74.35 76.72 63.84 71.64 500 73.49 75.32 63.77 70.86 1000 72.93 74.68 63.58 70.39 複合情境訓練模式 86.33 86.25 81.04 84.54 86.31 86.27 81.22 84.60 86.51 85.98 81.66 84.71 85.90 81.59 84.67
實驗結果 實驗二 比較對數能量尺度重刻法與幾種近年被提出用於重建乾淨語音對數能量的方法(包含:音框能量消去法,FES;對數能量動態範圍接近法,LERN;3.4 靜音音框對數能量正規化法,SLEN;動態音框能量搜尋法,ESVFR) 方法 平均字精確率 ACC(%) Set A Set B Set C 平均 乾淨語料訓練模式 MFCC 58.94 58.48 59.97 59.13 FES 70.60 71.20 60.90 67.57 LERN1 73.08 75.83 59.85 69.59 LERN2 69.93 69.87 66.55 SLEN1 63.97 68.45 50.48 60.97 SLEN2 74.59 55.85 66.79 ESVFR 68.52 69.65 61.61 66.59 LER 74.35 76.72 63.84 71.64
結論 藉由觀察語句的語音對數能量特徵在不同雜訊環境下的變化,我們提出以「對數能量尺度重刻法」來減緩噪音的影響,有效地對付不同的環境雜訊干擾 雖然目前這一個方法只適用於音框能量來處理,未來我們將嘗試將我們所提出的對數能量調整作法應用到不同的語音特徵植上。
實驗結果 實驗三 比較對數能量尺度重刻法結合倒頻譜正規化法(CMVN)與多項式擬合統計圖等化法(PHEQ)結果 方法 平均字精確率 ACC(%) Set A Set B Set C 平均 乾淨語料訓練模式 PHEQ 79.08 81.88 74.32 78.43 CMN 77.27 80.40 72.83 76.84 LER+PHEQ 79.39 81.59 74.85 78.61 LER+CMN 80.41 82.98 76.63 80.01 複合情境訓練模式 90.09 90.59 86.86 89.18 90.30 90.50 88.48 89.76 89.70 90.20 86.66 88.85 LER+CVN 90.46 90.42 88.33 89.73