Presentation is loading. Please wait.

Presentation is loading. Please wait.

指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日

Similar presentations


Presentation on theme: "指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日"— Presentation transcript:

1 指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日
英文連續語音辨識之初步研究 An Initial Study on English Continuous Speech Recognition 指導教授:陳柏琳博士 研究生:許庭瑋     陳冠宇 中華民國 九十六 年 七 月 十三 日

2 大綱 簡介 研究內容與實驗 結論與未來展望 基本語音辨識流程 當前英文語音辨識研究的發展 本論文使用之英文音素定義與辨識用詞典
詞內三連音素狀態分享之聲學模型建立 台師大大詞彙連續語音辨識器 研究內容與實驗 前端語音特徵擷取探討 語言模型調適 聲學模型訓練 實驗語料介紹、設定、結果 結論與未來展望

3 基本語音辨識流程 語音訊號段落: 對應文字詞序列: p(O) 省略 Bayes Theory 詞二連、詞三連語言模型調適
MFCC, LDA, HLDA, MLLT, CMS, CMVN 詞內三連音素狀態分享之聲學模型 詞二連、詞三連語言模型調適

4 當前英文語音辨識研究簡介 目前國外發展語音辨識器之學術單位、科技公司與機構 1 美國麻薩諸塞州BBN科技公司 2
美國IBM華生(T.J. Watson)研究中心 3 英國劍橋大學電機系 4 美國卡內基美隆大學電腦科學學校 5 美國麻薩諸塞州Dragon Systems科技公司 6 法國LIMSI-CNRS 機構 7 美國加州SRI 國際機構之語音科技和研究實驗室 8 美國AT&T 實驗室 9 美國密西西比州MsState – ISIP學術機構 10 美國微軟(Microsoft)科技公司

5 當前英文語音辨識研究簡介(續) 語音評比語料: 語音訓練語料:
2002年3月開始,美國國際電腦科學組織 (International Computer Science Institution , ICSI)的語音研究團隊著手進行美國國防部先進研究計畫機構(DARPA)委託的EARS (Effective Affordable Reusable Speech-to-text Program)計畫,設計適當的評比語料,供辨識器研究者做測試。如大量轉寫文字(Rich Transcription)的評比語料:RT03、RT04 語音訓練語料: 美國語言資料協會(Linguistic Data Consortium, LDC)提供有關於Switchboard、Switchboard Cellular及Callhome等語音語料。在EARS計畫中,就有幾千小時的語音資料來自於LDC,這些語料被稱為費雪集合(Fisher Collection)

6 當前英文語音辨識研究簡介(續) 國外三家現階段大詞彙連續語音辨識器之內容特色 BBN IBM CU 系統名稱
2004 BBN/LIMSI英文對話電話語料辨識系統 IBM 2004英文對話電話語料辨識系統 2004 CU-HTK英文對話電話語料辨識系統 執行時間 20RT 10RT 評比語料 RT 04 RT04 RT03 詞錯誤率 13.5% 15.2% 17% 聲學語料 2,300(時) 2,100(時) 2,180(時) 前端特徵 VTLN(語者正規化) PLP + CMS HLDA+MLLT VTLN PLP + CMVN +LDA fMPE + LDA+MLLT HLDA+ CMVN 聲學模型 1. ML-SI (+HLDA) I. STM II. SCTM III. Cross-word SCTM 2. ML-HLDA-SAT (+MLLT) 1.SI.DC.PLP 2.SA.FC.fMPE 3.SA.DC.fMPE+MPE MPE + Triphone Quinphone

7 當前英文語音辨識研究簡介(續) 國外三家現階段大詞彙連續語音辨識器之內容特色 BBN IBM CU 系統名稱
2004 BBN/LIMSI英文對話電話語料辨識系統 IBM 2004英文對話電話語料辨識系統 2004 CU-HTK英文對話電話語料辨識系統 語言模型 Witten-Bell + Interpolated LM Kneser-Ney + Kneser-Ney + Good-Turing + 解碼步驟 1. ML-SI : I.Triphone + Bigram II.Within-word Quinphone Trigram III.Cross-word Quinphone Fourgram 2. ML-HLDA-SAT 3. Regression Classes 1. SI.DC.PLP: Quinphone + Fourgram 2. SA.FC.fMPE: 3. SA.DC.fMPE+MPE: Septaphone + Fourgram 1. Triphone + Fourgram 2. Quinphone + Fourgram 3. Lattice MLLR

8 本論文使用之英文音素定義與辨識用詞典 英文音素定義 40個相異單連音素 分成6大類
再加入代表靜音(silence) 的sil和代表字與字之間 暫停(pause)的sp

9 本論文使用之英文音素定義與辨識用詞典(續)
英文詞典:選自美國發音之Festlex CMU,共有105,626個英文詞彙 ("begin" nil (((b ih g) 0) ((ih n) 1))) ("coffee" nil (((k aa f) 1) ((iy) 0))) ("hello" nil (((hh ax l) 0) ((ow) 1))) ("yes" nil (((y eh s) 1))) begin b ih g ih n coffee k aa f iy hello hh ax l ow yes y eh s 經前處理後之Festlex CMU詞典 原Festlex CMU詞典

10 英文音素之隱藏式馬可夫聲學模型 以單連音素ax為例 1維高斯分佈圖 2維高斯分佈圖
(Gaussian Mixture Model) (Hidden Markov Model) 1維高斯分佈圖 2維高斯分佈圖 高斯分佈: 平均值 (mean) 共變異矩陣(Covarience Matrix) (對角化假設) (39維)

11 英文詞句:We were away with William in Sea World
詞內三連音素狀態分享之聲學模型建立 英文詞句:We were away with William in Sea World 對應單連音素:w iy w er… …s iy w er l d 三連音素 內文相依 (Context dependence) Hello World hh ax l ow w er l d hh+ax hh-ax+l ax-l+ow l-ow w+er w-er+l er-l+d l+d 英文詞句 單連音素對應 三連音素詞內內文相依

12 詞內三連音素狀態分享之聲學模型建立(續)
主要四步驟: 建立單連音素聲學模型 由單連音素模型建立三連音素模型 建立狀態分享之三連音素模型 增加三連音素模型之高斯混合數目

13 1. 建立單連音素聲學模型 (40種)

14 2.由單連音素模型建立三連音素模型 40*40*40 =64000(種)產生資料稀疏問題 (Data Sparseness)

15 3. 建立狀態分享之三連音素模型 利用模型間的狀態(State)分布做連結(Tying)
以樹為基礎之分群法(Tree-based Clustering) 步驟 1 : 將所有訓練語料的三連音素模型的每個狀態依據條件置於根(Root)群集中

16 3. 建立狀態分享之三連音素模型(續) 步驟 2 : 自定分裂決策樹之問題條件,建立決策樹(Decision Tree) : 問題條件
[2] [3] [4] 問題條件 決策樹

17 3. 建立狀態分享之三連音素模型(續)

18 4. 增加三連音素模型之高斯混合數目

19 台師大大詞彙連續語音辨識器 聲學比對 – 將音素及語句中每個可能的段落做比對,計算      相似度 語言解碼 – 使用Viterbi動態規劃搜尋,對聲學相似度和語      言機率進行解碼,找出機率最大的可能詞序列 二階段解碼過程 第一階段(聲學比對):詞彙數複製搜尋(Tree-Copy Search) 用較低階的語言模型(詞二連Bigram)來搜尋,以產生詞圖 第二階段:詞圖重新評分(Word Graph Rescoring) 在詞圖上用較高階的語言模型(詞三連Trigram)重新搜尋

20 前端語音特徵擷取探討 語音強健性技術 : 消除通道雜訊(Channel Effects) 倒頻譜平均消去法(CMS)
倒頻譜正規化法(CMVN) :降低不同維度間的語音特徵機率分布的差異 資料相關線性特徵轉換:進ㄧ步降低維度並找出較具代表性或鑑別力的特徵 線性鑑別分析(LDA) 異質性線性鑑別分析(HLDA) 最大化相似度線性轉換(MLLT)

21 前端語音特徵擷取探討 線性鑑別分析(LDA)︰統計訓練資料,找出特徵空間中重要的基底矩陣 ,使轉換後的特徵能保有重要的成份或具有較高的鑑別力。缺點為假設各類別分布的變異量相同,資料經轉換後各類別的共變異矩陣非對角化, 造成後端HMM估測失真。 類別間變異量愈大 (共變異矩陣以B表示) 類別內變異量愈小 (共變異矩陣以W表示) 異質性線性鑑別分析(HLDA):假設各類別分布的變異量為異質性 最大化相似度線性轉換(MLLT) :保留矩陣維度,使轉換後類別的共變異矩陣對角化 , ,

22 前端語音特徵擷取探討(續) 基礎語音特徵擷取 鑑別式特徵擷取 梅爾倒頻譜係數 (MFCC)
梅爾倒頻譜係數配合倒頻譜平均消去法 (MFCC+CMS) 梅爾倒頻譜係數配合倒頻譜正規化法 (MFCC+CMVN) 鑑別式特徵擷取 線性鑑別分析配合最大相似度線性轉換 加上倒頻譜正規化法 (LDA+MLLT+CMVN) 異質性線性鑑別分析配合最大相似度線性轉換 加上倒頻譜正規化法 (HLDA+MLLT+CMVN)

23 語言模型調適 語言模型調適法 背景語料 大量語料,涵蓋許多領域和主題,可從中訓練一般性的自然語言規則 調適語料
調適背景語言模型,和辨識任務相關的語料 方法: 詞頻數混合法(Count Merging) 模型插補法(Model Interpolation)

24 語言模型調適(續) 語言模型調適法 方法: 詞頻數混合法(Count Merging) : Data level 結合 -CA表在調適語料中出現的次數 -CB表在背景語料中出現的次數 模型插補法(Model Interpolation) : Model level 結合 其中 是詞 的歷史詞序列

25 聲學模型訓練 三連音素聲學模型 音素模糊矩陣 非監督式聲學模型訓練 信心度評估

26 三連音素聲學模型 HMM狀態中,依據每個HMM模型所分配到訓練語料段落數,分配1至128個不等的高斯混合數目 HMM分配到之語音段落數
<= 5 1 <= 10 2 <= 100 4 <= 500 8 <= 2,500 16 <= 12,500 32 <= 62,500 64 > 62,500 128

27 音素模糊矩陣 利用英文辨識器之第二階段辨識結果,與正確轉寫文字做單連音素、三連音素之比對,統計發生「取代」的個數,利用音素模糊矩陣(Confusion Matrix)法統計並正規化(Normalized)容易辨識錯誤的個數。 聲學模型訓練階段 (觀測單連音素變化) 辨識器搜尋階段 (觀測三連音素變化) 兩個音素之間的模糊機率(Likelihood) 音素 「取代」(Substitution)成 的次數正規化值, 以 表示,其中 且 相符 刪除 取代 插入 正確單連音素: w iy w eh … 辨識單連音素: w w aw ae … 模糊矩陣示意圖

28 實驗語料介紹 語音語料 文字語料 台灣腔英語(EAT) 麥克風語料 (取樣頻率為16 KHz) 依英語系、非英語系與男、女性別做分類
語料內容有英文單字、片語、數字與單字連續語音 美國之音(VOA) 廣播新聞語料(取樣頻率為16 KHz) 男、女聲主播、受訪者 語料內容有新聞時事、專題節目、英語教學節目、流行音樂與社論 文字語料 英國國家文字語料庫 (BNC) 達約一億個詞(102M)有關說、寫的文字語料庫 語料包含90%各領域新聞期刊、學術書籍等文字資料;10%會議或廣播新聞等對話資料

29 實驗語料介紹(續) EAT 1 英文單字 grandpa 2 英文片語 for instance 3 英文數字連續語音
six five seven seven four five seven 4 英文連續語音 Green Mountain Energy VOA 1 their workshops were long ago damaged 2 an internet message taking responsibility for their deaths 3 it is one of those things that i dreaded the entire time

30 實驗設定 EAT語料 VOA語料 語料分配 種類 句數 時間(hr) 詞彙數 訓練語料 20,000 7.02 53,922 測試語料
1,000 0.65 2,781 詞典個數(個) 2,370 語料分配 種類 句數 時間(hr) 詞彙數 訓練語料 5,340 3.33 30,637 測試語料 500 0.56 4,373 詞典個數(個) 5,178

31 三連音素聲學模型實驗結果 VOA語料 實驗 高斯混合數分配 混合數 詞正確率(%) TC WG 1 規則*1 76,073 46.72 54.10 2 規則*2 145,318 46.51 53.01 3 規則*3 217,744 45.62 52.94 4 規則*4 290,505 44.91 50.86 Feature : MFCC_CMS Language Model :BNC+VOA(1:1) 討論: 高斯混合數增加,對辨識率的改變並不大,可能原因為高斯混合數的分配比例是依據訓練語料量增加,又因為訓練語料量不足,故模型中存在資料稀疏問題,使辨識率下降。

32 三連音素聲學模型實驗結果(續) EAT語料
高斯混合數分配 混合數 詞正確率(%) TC WG 1 全給定1 25,375 30.12 40.55 2 規則*1 143,735 36.41 49.53 3 規則*4 549,953 36.45 49.35 Feature : MFCC_CMS Language Model: EAT 討論: 高斯混合數依規則分配時,詞正確率由40.55%提升至49.53% ,然而增加至規則的4倍時,辨識率卻些微下降。

33 語言模型調適法實驗結果 VOA語料 詞頻數混合法(Count Merging)
詞正確率(%) TC WG 1 BNC 45.90 51.43 2 VOA 47.70 49.46 3 BNC+VOA 46.72 54.10 4 50 BNC+VOA*50 46.28 53.78 5 100 BNC+VOA*100 46.31 53.65 Feature: MFCC_CMS Mixtures: 76,073 (依規則) 討論: BNC語料不僅包含與VOA統計特性較相關的會議或廣播新聞等文字語料,且BNC語料內容更為豐富,故加入BNC語料能讓詞正確率提高。

34 語言模型調適法實驗結果(續) EAT語料 詞頻數混合法(Count Merging)
詞正確率(%) TC WG 1 BNC 32.21 28.83 2 EAT 45.22 52.01 3 BNC+EAT 32.35 33.57 4 100 BNC+EAT*100 36.92 39.86 Feature: HLDA+MLLT+CMVN Mixtures: 26,548 討論:EAT語料中大多為英文單字、片語或數字連續語音,而BNC為開會或是廣播新聞等對話資料,故EAT與BNC語料的統計特性差異較大。

35 語言模型調適法實驗結果(續) VOA語料 線性插補法(Model Interpolation) 調適模型比重(%) 詞正確率(%) 0.00
51.43 0.55 52.09 0.05 52.85 0.60 51.86 0.10 52.55 0.65 51.70 0.15 52.94 0.70 0.20 52.80 0.75 51.15 0.25 52.57 0.80 50.97 0.30 52.28 0.85 50.81 0.35 52.14 0.90 50.29 0.40 52.05 0.95 49.85 0.45 52.16 1.00 48.48 0.50 52.23 -

36 前端語音特徵擷取探討實驗結果 VOA語料 實驗 語音特徵 混合數 詞正確率(%) TC WG 1 MFCC 78,412 45.25
52.05 2 MFCC_CMS 76,073 46.72 54.10 3 MFCC_CMVN 73,083 45.83 51.64 4 LDA+MLLT_ CMVN 70,672 51.54 59.89 5 HLDA+MLLT_ CMVN 71,627 49.23 54.42 規則*1 Language Model :BNC+VOA(1:1)

37 前端語音特徵擷取探討實驗結果(續) EAT語料
混合數 詞正確率(%) TC WG 1 MFCC 145,319 29.69 40.04 2 MFCC_CMS 143,735 36.41 49.53 3 MFCC_CMVN 138,713 33.93 47.02 4 LDA+MLLT_CMVN 138,289 47.30 59.53 5 HLDA+MLLT_CMVN 141,333 46.48 59.71 規則*1 Language Model: EAT 討論︰ MFCC較MFCC_CMS與MFCC_CMVN詞正確率低,代表 EAT語料之通道效應(Channel Effects)非常嚴重。

38 信心度評估法 信心度評估法是用於判斷辨識結果的可靠度,給辨識結果一個分數(ex.0~1之間的實數值),我們再設定一個門檻值,選出大於門檻值的語料和原本的語料重新訓練。 研究指出,非監督式的模型經多次迭代訓練後,可以得到較佳的聲學模型! -迭代:即將現有人工轉寫語料的聲學模型對未轉寫的語料做一次辨     識,再將第一名的辨識結果和現有的人工轉寫語料再次訓練     聲學模型 實作時,先求得每個詞句的信心度,再利用viterbi求得第一名的詞序列,而利用先訂好的門檻值來決定詞序列中某個詞是否拿來作聲學模型訓練! 論文中,我們僅挑選信心度是1的句子來做訓練

39 信心度評估法(續) :表聲學相似度 :表語言模型 :詞圖中的一條完整路徑

40 聲學模型的訓練方式 監督式訓練 (Supervised Training)
輕微監督式訓練 (Lightly Supervised Training) 非監督式訓練 (Unsupervised Training) How are you How are you

41 非監督式聲學模型訓練 訓練語料的量越多,對聲學模型的訓練會越有幫助 因為可以看到更多以前所沒有看過的語音特徵
在語料隨手可得的今天,我們卻沒有辦法很容易地提升自動語音辨識器的效能,因為通常我們所收集到的大量語料是不具有正確轉寫文字(True Transcription) 這時便可以利用現有的自動語音辨識器去辨識大量未轉寫的語料,省去大量人工轉寫的力氣,以達成非監督式模型訓練

42 非監督式聲學模型訓練(續) 非監督式最大化相似度聲學模型訓練 並搭配信心度評估方法來過濾可能辨識錯誤的詞段 和正確答案比較
詞正確率:57.84 和正確答案比較 詞正確率:51.73 和正確答案比較 詞正確率:58.20

43 實驗設定 EAT語料之非監督式聲學模型訓練 語音特徵 HLDA+MLLT+CMVN 實驗語料 種類 句數 時間(hr) 詞彙數
監督式訓練語料 20,000 7.02 53,922 非監督式訓練語料 42,960 33.4 108,323 測試語料 1,000 0.65 2,781 詞典個數(個) 4,229

44 非監督式聲學模型訓練實驗結果 EAT語料非監督式訓練之詞正確率
混合數 詞正確率(%) - TC WG 1 HMM(1) 141,333 50.14 57.84 2 HMM(3) 221,820 49.78 51.73 3 HMM(4) 191,314 50.86 58.20 討論︰ 將大量辨識結果全用,詞正確下降。然而利用信心度評估法,可選出信心度較高的語句,對詞正確率有提升效果。

45 非監督式聲學模型訓練實驗結果(續) EAT語料非監督式訓練之詞正確率上界 實驗 聲學模型 混合數 詞正確率(%) - TC WG 1
HMM(1) 141,333 50.14 57.84 2 HMM(2) 216,318 56.29 64.74

46 音素模糊矩陣實驗結果 聲學模型訓練階段 (觀測單連音素) EAT測試語料,門檻值設定為0.2 ,單連音素模糊矩陣變異狀況。 正確音素
聲學模型訓練階段 (觀測單連音素) EAT測試語料,門檻值設定為0.2 ,單連音素模糊矩陣變異狀況。 正確音素 辨識音素 次數正規化 z s 0.38 ay ax 0.25 sh t jh r 0.33 k 0.23 uh zh m n l ao ow ch 0.22 aw 0.30 th ng 0.29 b f 0.21 d 0.27 0.20 aa iy ih

47 音素模糊矩陣實驗結果(續) 辨識器搜尋階段 (觀測三連音素)
辨識器搜尋階段 (觀測三連音素) 將三連音素模糊矩陣挑選門檻值大於 值以上的結果,代入英文辨識器,重新計算每個時間點每個狀態的機率值,以 表示, 代表原本三連音素M之狀態機率值所佔比例 使用大量EAT語料進行辨識。將其辨識結果與正確轉寫文字比對,建立ㄧ般化(General)模糊矩陣,再將此矩陣應用於辨識階段 使用大量EAT語料進行辨識。利用信心度評估法, 挑選適當語句,再與正確轉寫文字比對,建立ㄧ般化模糊矩陣,再將此矩陣應用於辨識階段 M N AMN 10 12 0.5 15 16 0.4 102 140 : α= *

48 詞正確率(%) (辨識結果再用信心度選出)
音素模糊矩陣實驗結果(續) EAT語料ㄧ般化模糊矩陣之詞正確率 詞正確率(%) (辨識結果全用) 詞正確率(%) (辨識結果再用信心度選出) 實驗 λ α TC WG 50.61 58.05 1 0.80 45.87 52.73 46.87 55.28 2 0.97 49.60 56.79 49.86 57.87 3 0.1 51.08 58.20 50.93 58.23 4 0.3 50.86 51.15 58.52 討論:使用ㄧ般化模糊矩陣能夠讓詞辨識率提高,配合信心度評估,更能得到較佳詞正確率。

49 結論 本論文初步研究嘗試英文連續語音辨識,我們實作英文連續語音辨識器,並探討其主要組成,包含語音特徵擷取、聲學模型及語言模型等之改進方法。
VOA與EAT實驗語料最佳設定與詞正確率 VOA EAT 1 前端特徵種類 LDA+MLLT+CMVN HLDA+MLLT+CMVN 2 訓練語料 3.33小時(5340句) 40.42小時(62906句) 3 測試語料 0.56小時(500句) 0.65小時(1000句) 4 詞典個數 5,178個 4,229個 5 高斯混合數 70,672個(依規則) 216,310個(依規則) 6 模型數目 4,373個 8,850個 7 語言模型 BNC+VOA訓練語料人工轉寫(1:1) EAT訓練語料人工轉寫 8 詞正確率 59.89 % 65.71 %

50 未來展望 增加聲學模型之訓練語料量,提高三連音素之訓練資料出現次數,以減少資料稀疏問題。
豐富語言模型訓練語料,並使用其他層次的語言資訊,如詞類別、語意等。 增加系統辨識速度。 使用鑑別式聲學模型訓練,如最小化音素錯誤(Minimum Phone Error, MPE)訓練,以提高模型辨識率。 探討是否EAT語料中台灣英語發音差異,而導致辨識率下降。

51 謝謝老師 謝謝各位學長、同學 請各位先進指教
謝謝老師  謝謝各位學長、同學 請各位先進指教


Download ppt "指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日"

Similar presentations


Ads by Google