最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究 郭人瑋 國立台灣師範大學
大綱 研究內容簡介 最小化音素錯誤 非監督式聲學模型調適 原始正確率預測模型 實驗語料 實驗結果 結論 2019/4/22 Speech Lab. NTNU
研究內容簡介 目前在大詞彙連續語音辨識中最佳的鑑別式聲學模型訓練 最小化音素錯誤鑑別式聲學模型調適 [Wang 2003, 2004] 最小化音素錯誤 (Minimum Phone Error) 最小化音素錯誤鑑別式聲學模型調適 [Wang 2003, 2004] 在非監督式(Unsupervised)的環境下,如何能再進步? 利用缺失資料(Missing Data)的估測來解決 (提出原始正確率估測模型) [研究貢獻] 2019/4/22 Speech Lab. NTNU
統計式語音辨識基本架構圖 最小化音素錯誤 語音訊號輸入 梅爾倒頻譜特徵向量 辨識結果 前端處理 聲學比對與語言解碼 訓練語句 文字訓練語料 聲學模型 訓練 聲學模型 語言模型 語言模型 訓練 最小化音素錯誤 非監督式聲 學模型調適 2019/4/22 Speech Lab. NTNU
聲學模型參數估測 - 訓練與調適 聲學模型:詞句發生語音O的機率分佈 訓練 調適 λ為聲學模型參數 語料多 事先訓練 直接對模型參數調整 語料少,故能調動的參數也較少 動態調適,要快 常間接透過共享的轉換矩陣來調適 2019/4/22 Speech Lab. NTNU
模型參數估測法則 最大化相似度(Maximum Likelihood) 最小化音素錯誤(Minimum Phone Error) => Maximum Average Accuracy 2019/4/22 Speech Lab. NTNU
最小化音素錯誤 實作上如何產生這些Hypotheses ? 1.0 = 4 2019/4/22 Speech Lab. NTNU
詞圖 台東 妙語 無端 太重 良心 不斷 太多 台中 兩任 SIL 豪雨 兩人 陶藝 失蹤 私人 自任 包含一條文句:陶藝-無端-台中-兩任-失蹤 2019/4/22 Speech Lab. NTNU
正確率的計算 (編輯距離) 今天天氣很好 今天天氣很差 Acc = 5(Match) – 1(Sub)=4 今天天氣很好 今天 氣氛好 今天 氣氛好 Acc = 4(Match) – 1(Sub) -1(Del)=2 今天天氣很好 靜電 氣 好 Acc = 2(Match) – 2(Sub) -2(Del)=-2 需要對整句作Global Search,在詞圖上要如何作? 2019/4/22 Speech Lab. NTNU
取最大值 正確轉譯文句 比 他 好 太多 辨識文句 其他 好在 都 之音素分枝 對正確轉譯文句中的音素所佔之比例 e 14 35 53 86 他 好 太多 b_i (4) i (10) t_a (9) a (12) h_a au (8) (6) ai d_u uo ch_i tz_a u 辨識文句 33 65 其他 好在 都 之音素分枝 4 23 45 59 67 75 3 22 43 55 58 74 2 8 對正確轉譯文句中的音素所佔之比例 e 2/10 =0.2 8/8 =1.0 2/6 =0.33 -1+2*e (正確轉譯文句中的音素=au) -1+e (正確轉譯文句中的音素!=au) -0.8 1.0 -0.67 au之原始正確率 = max(-0.8, 0.1, -0.67) 取最大值 2019/4/22 Speech Lab. NTNU
正確轉譯文句 之音素分枝 辨識文句 音素分枝正確率 1.0 -0.25 0.78 0.67 0.6 -0.5 0.5 0.75 0.0 b_i (4) i (10) t_a (9) a (12) h_a au (8) (6) ai d_u uo ch_i tz_a u 正確轉譯文句 之音素分枝 14 35 53 86 辨識文句 33 65 4 23 45 59 67 75 3 22 43 55 58 74 音素分枝正確率 1.0 -0.25 0.78 0.67 0.6 -0.5 0.5 0.75 0.0 利用此方式所估測之此音素序列正確率 = 4.55 利用編輯距離估測之此音素序列正確率 = 7 2019/4/22 Speech Lab. NTNU
非監督式環境下的調適 非監督式的環境 用估測缺失資料的方法來做 (原始正確率預測模型) 沒有正確的轉譯文句可供計算音素分枝的原始正確率 對每個音素分枝q,先抽取有代表性的資訊,並生成一個觀測資料向量(Observed Data Vector) 2019/4/22 Speech Lab. NTNU
原始正確率預測模型 假設 呈一高斯分佈,平均值向量與共變異矩陣分別為 及 則 最後 2019/4/22 Speech Lab. NTNU
目標函數最大化 目標函數 舊模型參數 2019/4/22 Speech Lab. NTNU
找輔助函數的General Form 目標函數 輔助函數 2019/4/22 Speech Lab. NTNU
在 找”最佳的”輔助函數 (EM中的E Step) 目標函數 “最佳的”輔助函數 2019/4/22 Speech Lab. NTNU
在 找”最佳的”輔助函數 (EM中的E Step) 目標函數 “最佳的”輔助函數 2019/4/22 Speech Lab. NTNU
對輔助函數求Global Maximum (EM中的M Step) 目標函數 2019/4/22 Speech Lab. NTNU
對輔助函數求Global Maximum (EM中的M Step) 目標函數 2019/4/22 Speech Lab. NTNU
重覆剛才的步驟 目標函數 2019/4/22 Speech Lab. NTNU
在 找”最佳的”輔助函數 (EM中的E Step) 目標函數 “最佳的”輔助函數 2019/4/22 Speech Lab. NTNU
對輔助函數求Global Maximum (EM中的M Step) 目標函數 2019/4/22 Speech Lab. NTNU
不是每個目標函數都能找到Strong-sense輔助函數 滿足 則 不是每個目標函數都能找到Strong-sense輔助函數 如 2019/4/22 Speech Lab. NTNU
找輔助函數的General Form 找不到!! 目標函數 輔助函數 ?? 2019/4/22 Speech Lab. NTNU
Weak-sense 輔助函數 目標函數 Weak-sense 輔助函數 2019/4/22 Speech Lab. NTNU
對 Weak-sense 輔助函數求Global Maximum 目標函數 Weak-sense 輔助函數 2019/4/22 Speech Lab. NTNU
對 Weak-sense 輔助函數求Global Maximum 目標函數 Weak-sense 輔助函數 2019/4/22 Speech Lab. NTNU
使用Weak-sense輔助函數來找 不保證每次均能增加 但在實作上還是需要它 加入Smooth 函數 2019/4/22 Speech Lab. NTNU
Smooth函數 目標函數 Smooth函數 2019/4/22 Speech Lab. NTNU
Weak-sense 輔助函數加上Smooth函數 目標函數 Weak-sense 輔助函數 加上Smooth函數 2019/4/22 Speech Lab. NTNU
對加上Smooth函數的Weak-sense 輔助函數求Global Maximum 目標函數 Weak-sense 輔助函數 加上Smooth函數 2019/4/22 Speech Lab. NTNU
利用雙連語言模型作詞層次的搜尋,找出機率最大的詞序列 (用來處理 實驗語料的處理 正確參照轉寫 音訊檔 在標點符號、 句開始、句結束 插入選擇性 的SIL模型 作強迫對齊, 並根據SIL的 位置加以斷句 根據時間邊界,抽取句子 語句 轉譯文句 正確的轉譯 文句及每個 詞的時間邊界 對每個詞作 音素(模型)層 次的強迫對齊 音素(模型)的 時間邊界 5,774句 34,672句 利用雙連語言模型作詞層次的搜尋,找出機率最大的詞序列 (用來處理 破音字的問題)及每個詞的時間邊界 2019/4/22 Speech Lab. NTNU
聲學模型訓練 – 最大化相似度 2019/4/22 Speech Lab. NTNU
聲學模型訓練 – 最小化音素錯誤 2019/4/22 Speech Lab. NTNU
聲學模型調適 – 原始正確率預測模型 2019/4/22 Speech Lab. NTNU
結論 在聲學模型調適上,本論文提出了「原始正確率預測模型」用來輔助非監督式最小化音素錯誤之調適,提供較佳的音素分枝正確率估測。在聲學模型調適的實驗中,本論文初步的假設每個音素(模型)的事前機率分佈為單一高斯分佈,雖然辨識錯誤率下降的幅度有限,但是對調適的上界來說,已達到不錯的成效。 2019/4/22 Speech Lab. NTNU
Q & A