最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究

最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究
郭人瑋國立台灣師範大學

大綱研究內容簡介最小化音素錯誤非監督式聲學模型調適原始正確率預測模型實驗語料實驗結果結論 2019/4/22
Speech Lab. NTNU

研究內容簡介目前在大詞彙連續語音辨識中最佳的鑑別式聲學模型訓練最小化音素錯誤鑑別式聲學模型調適 [Wang 2003, 2004]
最小化音素錯誤 (Minimum Phone Error) 最小化音素錯誤鑑別式聲學模型調適 [Wang 2003, 2004] 在非監督式(Unsupervised)的環境下，如何能再進步？利用缺失資料(Missing Data)的估測來解決 (提出原始正確率估測模型) [研究貢獻] 2019/4/22 Speech Lab. NTNU

統計式語音辨識基本架構圖最小化音素錯誤語音訊號輸入梅爾倒頻譜特徵向量辨識結果前端處理聲學比對與語言解碼訓練語句文字訓練語料
聲學模型訓練聲學模型語言模型語言模型訓練最小化音素錯誤非監督式聲學模型調適 2019/4/22 Speech Lab. NTNU

聲學模型參數估測 - 訓練與調適聲學模型：詞句發生語音O的機率分佈訓練調適 λ為聲學模型參數語料多事先訓練直接對模型參數調整
語料少，故能調動的參數也較少動態調適，要快常間接透過共享的轉換矩陣來調適 2019/4/22 Speech Lab. NTNU

模型參數估測法則最大化相似度(Maximum Likelihood) 最小化音素錯誤(Minimum Phone Error)
=> Maximum Average Accuracy 2019/4/22 Speech Lab. NTNU

最小化音素錯誤實作上如何產生這些Hypotheses ? 1.0 = 4 2019/4/22 Speech Lab. NTNU

詞圖台東妙語無端太重良心不斷太多台中兩任 SIL 豪雨兩人陶藝失蹤私人自任
包含一條文句：陶藝-無端-台中-兩任-失蹤 2019/4/22 Speech Lab. NTNU

正確率的計算 (編輯距離) 今天天氣很好今天天氣很差 Acc = 5(Match) – 1(Sub)＝４今天天氣很好今天氣氛好
今天　氣氛好 Acc　= 4(Match) – 1(Sub) -1(Del)＝2 今天天氣很好靜電　氣　好 Acc　= 2(Match) – 2(Sub) -2(Del)＝-2 需要對整句作Global Search，在詞圖上要如何作？ 2019/4/22 Speech Lab. NTNU

取最大值正確轉譯文句比他好太多辨識文句其他好在都之音素分枝對正確轉譯文句中的音素所佔之比例 e
14 35 53 86 他好太多 b_i (4) i (10) t_a (9) a (12) h_a au (8) (6) ai d_u uo ch_i tz_a u 辨識文句 33 65 其他好在都之音素分枝 4 23 45 59 67 75 3 22 43 55 58 74 2 8 對正確轉譯文句中的音素所佔之比例 e 2/10 =0.2 8/8 =1.0 2/6 =0.33 -1+2*e (正確轉譯文句中的音素=au) -1+e (正確轉譯文句中的音素!=au) -0.8 1.0 -0.67 au之原始正確率 = max(-0.8, 0.1, -0.67) 取最大值 2019/4/22 Speech Lab. NTNU

正確轉譯文句之音素分枝辨識文句音素分枝正確率 1.0 -0.25 0.78 0.67 0.6 -0.5 0.5 0.75 0.0
b_i (4) i (10) t_a (9) a (12) h_a au (8) (6) ai d_u uo ch_i tz_a u 正確轉譯文句之音素分枝 14 35 53 86 辨識文句 33 65 4 23 45 59 67 75 3 22 43 55 58 74 音素分枝正確率 1.0 -0.25 0.78 0.67 0.6 -0.5 0.5 0.75 0.0 利用此方式所估測之此音素序列正確率 = 4.55 利用編輯距離估測之此音素序列正確率 = 7 2019/4/22 Speech Lab. NTNU

非監督式環境下的調適非監督式的環境用估測缺失資料的方法來做 (原始正確率預測模型) 沒有正確的轉譯文句可供計算音素分枝的原始正確率
對每個音素分枝q，先抽取有代表性的資訊，並生成一個觀測資料向量(Observed Data Vector) 2019/4/22 Speech Lab. NTNU

原始正確率預測模型假設呈一高斯分佈，平均值向量與共變異矩陣分別為及則最後 2019/4/22 Speech Lab. NTNU

目標函數最大化目標函數舊模型參數 2019/4/22 Speech Lab. NTNU

找輔助函數的General Form 目標函數輔助函數 2019/4/22 Speech Lab. NTNU

在找”最佳的”輔助函數 (EM中的E Step)
目標函數 “最佳的”輔助函數 2019/4/22 Speech Lab. NTNU

對輔助函數求Global Maximum (EM中的M Step)
目標函數 2019/4/22 Speech Lab. NTNU

重覆剛才的步驟目標函數 2019/4/22 Speech Lab. NTNU

在找”最佳的”輔助函數 (EM中的E Step)
目標函數 “最佳的”輔助函數 2019/4/22 Speech Lab. NTNU

對輔助函數求Global Maximum (EM中的M Step)
目標函數 2019/4/22 Speech Lab. NTNU

不是每個目標函數都能找到Strong-sense輔助函數
滿足則不是每個目標函數都能找到Strong-sense輔助函數如 2019/4/22 Speech Lab. NTNU

找輔助函數的General Form  找不到!!
目標函數輔助函數 ?? 2019/4/22 Speech Lab. NTNU

Weak-sense 輔助函數目標函數 Weak-sense 輔助函數 2019/4/22 Speech Lab. NTNU

對 Weak-sense 輔助函數求Global Maximum
目標函數 Weak-sense 輔助函數 2019/4/22 Speech Lab. NTNU

使用Weak-sense輔助函數來找不保證每次均能增加但在實作上還是需要它加入Smooth 函數
2019/4/22 Speech Lab. NTNU

Smooth函數目標函數 Smooth函數 2019/4/22 Speech Lab. NTNU

Weak-sense 輔助函數加上Smooth函數
目標函數 Weak-sense 輔助函數加上Smooth函數 2019/4/22 Speech Lab. NTNU

對加上Smooth函數的Weak-sense 輔助函數求Global Maximum
目標函數 Weak-sense 輔助函數加上Smooth函數 2019/4/22 Speech Lab. NTNU

利用雙連語言模型作詞層次的搜尋，找出機率最大的詞序列 (用來處理
實驗語料的處理正確參照轉寫音訊檔在標點符號、句開始、句結束插入選擇性的SIL模型作強迫對齊，並根據SIL的位置加以斷句根據時間邊界，抽取句子語句轉譯文句正確的轉譯文句及每個詞的時間邊界對每個詞作音素(模型)層次的強迫對齊音素(模型)的時間邊界 5,774句 34,672句利用雙連語言模型作詞層次的搜尋，找出機率最大的詞序列 (用來處理破音字的問題)及每個詞的時間邊界 2019/4/22 Speech Lab. NTNU

聲學模型訓練 – 最大化相似度 2019/4/22 Speech Lab. NTNU

聲學模型訓練 – 最小化音素錯誤 2019/4/22 Speech Lab. NTNU

聲學模型調適 – 原始正確率預測模型 2019/4/22 Speech Lab. NTNU

結論在聲學模型調適上，本論文提出了「原始正確率預測模型」用來輔助非監督式最小化音素錯誤之調適，提供較佳的音素分枝正確率估測。在聲學模型調適的實驗中，本論文初步的假設每個音素(模型)的事前機率分佈為單一高斯分佈，雖然辨識錯誤率下降的幅度有限，但是對調適的上界來說，已達到不錯的成效。 2019/4/22 Speech Lab. NTNU

最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究

Similar presentations

Presentation on theme: "最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究

Similar presentations

Presentation on theme: "最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究"— Presentation transcript:

Similar presentations

About project

反馈