Presentation is loading. Please wait.

Presentation is loading. Please wait.

若干資料選取方法 以改善鑑別式聲學模型訓練

Similar presentations


Presentation on theme: "若干資料選取方法 以改善鑑別式聲學模型訓練"— Presentation transcript:

1 若干資料選取方法 以改善鑑別式聲學模型訓練
指導教授:陳柏琳 博士 研究生:朱芳輝 各位口試委員大家好,學生是朱芳輝。 今天要報告的是我的碩士論文,題目為”若干資料…” 學生的碩士指導教授為.. 中華民國九十七年一月二十五日

2 大綱 研究內容與貢獻 AdaBoost演算法 最小化音素錯誤訓練 資料選取方法 實驗與討論 結論與未來展望
基於詞圖期望音素正確率的資料選取方法 實驗與討論 結論與未來展望 以下是今天報告的大綱, 首先先點出本論文的研究內容與貢獻,接續會依序介紹AdaBoost演算法與論文中所使用的鑑別式最小化音素錯誤訓練。 其次會探討本論文所提出的資料選取方法,進而呈現實驗結果及其討論。 最後是結論與未來展望。

3 統計式語音辨識基本架構圖 語言模型 語言解碼 特徵擷取 辨識文字 發音詞典 聲學比對 聲學模型 訓練資料 選取方法 語言模型訓練 語音
特徵向量 語言解碼 特徵擷取 辨識文字 發音詞典 語音訊號 聲學比對 開始之前,學生先簡述統計式語音辨識技術的基本流程。 在給定一待測語音訊號,經由特徵擷取後得到所屬語音特徵向量,再經由聲學模型與語言模型進行搜尋比對以得到最後的辨識文字。 其中有鑑於聲學模型的訓練往往需要大量的訓練語料進行非常耗時的估測過程才能求得。 如何利用有限的訓練語料並以最有效率的方式去估測一個最有一般化能力的聲學模型,一直是大詞彙連續語音辨識之研究所要面臨的課題。 因此,本論文旨在提出訓練資料選取方法來予以改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練! 聲學模型訓練 聲學模型 訓練資料 選取方法

4 研究內容與貢獻 基於AdaBoost演算法之資料選取方法
基於詞圖期望音素正確率(Expected Phone Accuracy)定義域之資料選取方法 訓練語句層次的資料選取方法 音素段落層次的資料選取方法 多重資料選取方法之結合 在本論文中,所提出的方法可依兩個主軸來區分: 首先,有鑑於AdaBoost演算法中強調被錯誤分類的訓練樣本之精神,學生汲取它的概念, 用來調整最小化音素錯誤訓練中每一訓練語句之統計值的權重, 以提高易傾向於被辨識錯誤的語句對於聲學模型訓練之貢獻。 另一方面,啟蒙於最大邊際分類器的概念,學生有別於以往地在詞圖期望音素正確率定義域上嘗試找出其決定邊界, 來選出對於鑑別式聲學模型訓練最能提供鑑別資訊的訓練樣本以利模型的估測。 其中可分為在訓練語句與音素段落兩種不同層次來選取訓練資料。 最後,本論文更將所提出的資料選取方法與前人已經提出的資料選取方法結合,期望獲得更大的改善。

5 緣由 在No Free Lunch Theorem中明確地指出: 解決辦法: 但,該如何結合這些學習器?
不存在任何單一個學習演算法可以推導出一個非常精確的學習器(Learner),使其適用於所有的領域之中 解決辦法: 找出多個具有不同能力的學習器,透過將這些學習器予以結合而得到一個單一個擁有全方位能力的學習器 但,該如何結合這些學習器? 多重階段結合法(Multistage Combination) 多重專家結合法(Multi-Expert Combination) 投票(Voting)演算法 再進入介紹Boosting演算法前,我們先探討其背後的動機為何? 在Wolpert跟Macready這兩位學者在No Free Lunch Theorem中明確地指出:針對一個最佳化問題,並不存在…。 也就是說即使我們可以對訓練樣本估測一個非常精確的模型,但現實中仍然存在著某些樣本他並沒有辦法分類得很好。 因此,對於此問題目前大家的作法都是嘗試找出多個不同…。 先姑且不談如何去估測各種不同的學習器,仍然還是有個問題需要解決,即是應該要如何去結合這些學習器? [Wolpert and Macready 1997]“No Free Lunch Theorems for Optimization,” IEEE Trans. Evolutionary Computation, Vol. 1, No. 1, pp , 1997.

6 Voting演算法 針對一待側樣本 ,若存在多個學習器 ,則: 將 定義為線性組合: + 集成(Ensemble)
針對一待側樣本 ,若存在多個學習器 ,則: 將 定義為線性組合: + 所以,現在的問題便是針對一待側樣本 x,我們要根據每個學習器個別對於x的決策d(x),來總整而成最後對於x的決策y(x)。 因此,我們要求的東西就是這邊的 f() ,其中的 fai 即為此函數的參數。 針對 f() 的設計,最簡單的就是直接將 f() 定義成線性組合函數: 集成(Ensemble)

7 Boosting演算法 Boosting演算法的精神在於 循序的訓練求得多個學習器,每一個學習器的能力可以彌補前一學習器的不足
透過結合多個弱勢學習器(錯誤小於0.5),最終所得之集成可為一個強勢學習器(錯誤為任意小) 幾個缺點: 只能應付二元分類任務 最多三個分類器 訓練樣本集要夠大

8 AdaBoost.M2演算法 輸 入:訓練序列 ,其中包含資料樣本 與其對應 的標記 。 初 始:定義 , 其中 為集合 的元素個數。
輸 入:訓練序列 ,其中包含資料樣本 與其對應 的標記 。 初 始:定義 , 其中 為集合 的元素個數。 重 覆:1.利用事前機率分布 來訓練得到弱勢分類器。 得到其對應的候選假設 並且計算擬似損失: 設定 更新事前機率分布 : 輸 出:最後的候選假設為: 其中 為正規化常數 AdaBoost演算法可以用來改善在Boosting演算法中的問題,藉由針對同一份訓練樣本集的重複取樣,即可訓練求得多個分類器, 此外,訓練樣本集的大小也不必再這麼大。 AdaBoost演算法是Boosting演算法的延伸,用以應付多元分類任務。在此,我們以AdaBoost.M2這個版本來作說明。 給定大小為N的訓練樣本,及其他們在K個類別中所對應的正確類別標記。 首先,必須先定義一個集合B,此集合列舉了所有訓練樣本被錯誤分類的可能。 並估測一事前機率分布D,此事前機率規範了每個訓練樣本在訓練過程中被抓取的可能性大小。於初始時,直接是以uniform的分配。 特別注意的是訓練樣本與其對應的正確標記這樣的pair的事前機率為0,意謂著正確分類的將不被拿來估測模型。 有了此事前機率,便可依此抓取每次迭代訓練所需的訓練樣本而重複求得多個分類器。

9 最小化音素錯誤鑑別式聲學模型訓練(1/3) 最小化音素錯誤鑑別式聲學模型訓練的目標函數
旨在最大化語音辨識器對所有訓練語句 之可能辨識出候選詞序列 ( )的期望音素正確率 其中 可用語音辨識器產生的詞圖 來近似: 最小化音素錯誤訓練的目的是在於針對語音辨識器對訓練語句產生的所有可能候選詞序列, 藉著最大化這些候選詞序列與對應正確轉譯文句的期望正確率,來提高辨識器的辨識率。 故目標函數可以寫成這樣.. 就是要對所有訓練語句中的每一候選詞序列,最大化它與正確轉譯文句的期望正確率。 也就是說,當所有的候選詞序列都越相似正確轉譯文句,那麼此目標函數就會越大。

10 最小化音素錯誤鑑別式聲學模型訓練(2/3) 對於詞圖 上候選詞序列 之正確率為: 候選詞序列中一個音素段落 之正確率為:
對於詞圖 上候選詞序列 之正確率為: 候選詞序列中一個音素段落 之正確率為: 5 10 15 20 25 30 正確轉寫 音素序列 辨識之 音素序列 A( ) = A(a) + A(c) = 2 e(a,a)=10/10 -1+2e(a,a)=1.0 e(a,b)=5/10 -1+e(a,b)=-0.5 A(a)=1.0 e(c,b)=5/10 -1+e(b,c)=-0.5 e(c,c)=10/10 -1+2e(c,c)=1.0 A(c)=1.0

11 最小化音素錯誤鑑別式聲學模型訓練(3/3) 其目標函數可透過延伸波式(Extended Baum-Welch)演算法得到聲學模型參數估測之更新公式

12 基於AdaBoost演算法的資料選取方法(1/3)
對於通過時間音框 上所有的候選音素段落給定不同的權重:

13 基於AdaBoost演算法的資料選取方法(2/3)
則最小化音素錯誤訓練的目標函數可以表示為: 對於 的訓練語句而言,其權重會介於 到1之間; 對於 的訓練語句而言,其權重會介於1到 之間。 亦對I-Smoothing之統計值給予權重 AdaBoost-FL-MPE

14 基於AdaBoost演算法的資料選取方法(3/3)
另一種權重設計: 而最小化音素錯誤訓練的目標函數又可表示為: AdaBoost-IFL-MPE

15 訓練語句選取方法 在鑑別式聲學模型訓練中,詞圖可以被視為一訓練語句能夠帶來多少鑑別資訊的重要憑據
在最小化音素錯誤訓練中,一訓練語句中所有候選詞序列的期望正確率 可以視為其詞圖在混淆程度上的基準 一訓練語句擁有過高或過低的 ,所能提供的鑑別資訊便為有限 因此,訓練語句選取方法可定義為: MPE+US

16 音素段落選取方法(1/2) 在最小化音素錯誤訓練中,在音素段落 上所收集的統計值會根據 區分為正貢獻或是負貢獻兩類
在最小化音素錯誤訓練中,在音素段落 上所收集的統計值會根據 區分為正貢獻或是負貢獻兩類 因此,可將 視為音素段落在期望正確率上的一個決定邊界 音素段落選取藉由定義一個邊際範圍來選取富含鑑別資訊的音素段落: MPE+PS

17 音素段落選取方法(2/2) 另一種柔性的音素段落選取方法,可使每一音素段落對於訓練過程皆有貢獻: MPE+sPS

18 實驗設定 實驗語料 (公視電視新聞語料MATBN) 大詞彙連續語音辨識 (72,000詞) 特徵抽取 最小化音素錯誤訓練
訓練語料 (24.5hrs): 外場記者男女各46,000s (12.25 hrs) 測試語料 (1.45hrs): 外場記者男1300s,女:3900s 大詞彙連續語音辨識 (72,000詞) 詞彙樹複製搜尋: 使用雙連語言模型 詞圖搜尋: 使用三連語言模型 特徵抽取 39維HLDA+MLLT+CN 最小化音素錯誤訓練 I-Smoothing中的參數 皆設為10

19 本論文之實驗方法 基於AdaBoost演算法之資料選取方法
基於詞圖期望音素正確率(Expected Phone Accuracy)定義域之資料選取方法 訓練語句層次的資料選取方法 音素段落層次的資料選取方法 多重資料選取方法之結合

20 AdaBoost演算法結合鑑別式聲學模型訓練之實驗(1/2)
CER(%) MMI AdaBoost -UL-MMI MPE -UL-MPE ML_Itr10 23.64 Itr01 23.28 23.25 22.88 22.87 Itr02 22.89 22.92 22.44 22.48 Itr03 22.58 22.63 22.12 22.16 Itr04 22.28 21.77 Itr05 22.05 21.50 Itr06 22.10 22.15 21.20 21.19 Itr07 22.08 21.95 21.06 21.04 Itr08 21.88 21.82 20.87 20.92 Itr09 21.81 21.72 20.77 20.76 Itr10 20.73 20.72

21 AdaBoost演算法結合鑑別式聲學模型訓練之實驗(2/2)
在各種不同層次上,進行聲學模型之結合 以ROVER進行兩N-最佳詞序列間的結合 以候選詞段落的聲學分數在詞彙樹複製搜尋階段進行結合 以候選詞段落的事後機率進行兩詞圖間的重新搜尋 以候選詞段落的音框錯誤率進行兩詞圖間的重新搜尋 CER(%) MMI_Itr10 AdaBoost-UL- MPE_Itr10 21.77 21.72 20.73 20.72 ROVER-Top1 21.71 ROVER-Top10 21.74 20.74 ROVER-Top20 21.75 20.75 TC-ASCombine 21.81 20.51 WG-PPCombine 21.49 20.56 WG-TFECombine 21.43 20.40

22 基於AdaBoost演算法的資料選取方法之實驗(1/2)
在每個迭代訓練上所得之字錯誤率皆與最小化音素錯誤訓練之結果不相上下 CER(%) MPE AdaBoost -FL-MPE -FL-iMPE -IFL-MPE -IFL-iMPE ML_Itr10 23.64 Itr01 22.88 22.83 22.84 22.82 Itr02 22.44 22.39 22.42 22.50 22.46 Itr03 22.12 21.99 21.95 22.09 Itr04 21.77 21.55 21.59 21.82 21.79 Itr05 21.50 21.52 21.46 21.39 21.42 Itr06 21.20 21.25 21.32 21.22 21.16 Itr07 21.06 21.12 21.10 21.15 Itr08 20.87 21.00 21.05 20.90 20.92 Itr09 20.77 20.97 20.94 20.86 20.89 Itr10 20.73 20.72 20.74 20.82

23 基於AdaBoost演算法的資料選取方法之實驗(2/2)
與最小化音素錯誤 所估測之模型結合, 最多有2.7%的相對 字錯誤率下降 CER(%) AdaBoost -UL-MPE -FL-MPE -FL-iMPE -IFL-MPE -IFL-iMPE 20.72 20.89 20.74 20.82 MPE_Itr10 20.73 ROVER-Top1 20.69 20.66 20.68 20.78 ROVER-Top10 20.58 20.51 20.65 ROVER-Top20 20.75 20.54 20.67 TC-ASCombine 20.61 20.59 WG-PPCombine 20.56 20.40 20.34 20.45 WG-TFECombine 20.25 20.23 20.17 20.20

24 基於詞圖期望音素正確率的資料選取方法之實驗(1/6)
訓練語句層次的資料選取方法 MPE+US--I : MPE+US--II: CER(%) MPE MPE+US --I MPE+US --II ML_Itr10 23.64 Itr01 22.88 22.91 22.94 Itr02 22.44 22.46 22.48 Itr03 22.12 22.27 21.94 Itr04 21.77 21.69 21.70 Itr05 21.50 21.30 21.37 Itr06 21.20 21.06 21.24 Itr07 20.91 21.14 Itr08 20.87 20.90 21.02 Itr09 20.77 20.92 Itr10 20.73 20.64 20.94

25 基於詞圖期望音素正確率的資料選取方法之實驗(2/6)
遞增式的訓練語句選取方法 CER(%) MPE MPE+USv --I MPE+USv --II ML_Itr10 23.64 Itr01 22.88 22.91 22.94 Itr02 22.44 22.46 22.48 Itr03 22.12 22.27 21.94 Itr04 21.77 21.69 21.70 Itr05 21.50 21.30 21.40 Itr06 21.20 21.06 21.14 Itr07 20.92 21.00 Itr08 20.87 20.91 Itr09 20.77 20.82 20.74 Itr10 20.73 20.68 20.58 隨著迭代訓練而放寬選取範圍,能有效抑止過度訓練的問題!

26 基於詞圖期望音素正確率的資料選取方法之實驗(3/6)
訓練語句選取方法以改善最大化S型音框音素正確率訓練 與最小化音素比較,皆有一致地進步。但與最大化S型音框音素正確率訓練比較,其辨識效果乃是不相上下的! CER(%) MSFA MSFA+US --I MSFA+US --II MSFA+USv --I MSFA+USv --II ML_Itr10 23.64 Itr01 22.87 22.85 22.74 Itr02 22.29 22.31 22.41 Itr03 21.89 21.92 22.00 Itr04 21.54 21.45 21.51 Itr05 21.12 21.11 21.20 21.25 Itr06 20.98 20.89 21.09 Itr07 20.68 21.00 20.76 20.92 Itr08 20.55 20.56 20.80 20.60 20.54 Itr09 20.48 20.52 20.58 20.45 Itr10 20.61 20.57 20.69 20.62

27 基於詞圖期望音素正確率的資料選取方法之實驗(4/6)
音素段落層次的資料選取方法 MPE+PS--I : CER(%) MPE MPE+PS MPE+PSv ML_Itr10 23.64 Itr01 22.88 22.73 Itr02 22.44 22.23 Itr03 22.12 21.70 21.64 Itr04 21.77 21.29 21.38 Itr05 21.50 21.05 21.16 Itr06 21.20 21.10 20.92 Itr07 21.06 21.17 20.87 Itr08 21.36 20.70 Itr09 20.77 21.89 20.53 Itr10 20.73 22.22 20.41

28 基於詞圖期望音素正確率的資料選取方法之實驗(5/6)
柔性的音素段落選取方法 SoftWgt(q) MPE+sPS--I MPE+sPS--II 相較之下,不會有過度訓練之問題發生,然而卻需要進行額外的參數設定。 CER(%) MPE MPE+sPS --I MPE+sPS --II ML_Itr10 23.64 Itr01 22.88 22.85 22.84 Itr02 22.44 22.38 22.37 Itr03 22.12 21.95 21.98 Itr04 21.77 21.53 21.48 Itr05 21.50 21.37 21.21 Itr06 21.20 21.14 20.96 Itr07 21.06 20.99 20.82 Itr08 20.87 20.71 20.68 Itr09 20.77 20.66 Itr10 20.73 20.52 20.42

29 基於詞圖期望音素正確率的資料選取方法之實驗(6/6)
音素段落選取方法以改善最大化S型音框音素正確率訓練 CER(%) MSFA MSFA+PS MSFA+PSv MSFA+sPS --I MSFA+sPS --II ML_Itr10 23.64 Itr01 22.87 22.71 22.81 22.80 Itr02 22.29 22.06 22.28 22.33 Itr03 21.89 21.51 21.77 21.76 Itr04 21.54 21.00 21.23 21.21 Itr05 21.12 20.99 20.60 20.94 20.92 Itr06 20.98 20.87 20.36 20.63 20.69 Itr07 20.68 21.60 20.41 20.51 20.58 Itr08 20.55 21.98 20.57 20.47 Itr09 20.48 23.47 20.39 20.49 Itr10 20.61 25.52 20.64 20.70 可些許改善最大化S型音框音素正確率訓練,同時訓練過程中的收斂速度明顯得以提升。

30 結合資料選取方法所求聲學模型之實驗(1/2)
CER(%) MPE+US --II MPE+USv --II MPE+PS MPE+PSv MPE+sPS --I MPE+sPS --II 20.94 20.58 22.22 20.41 20.52 20.42 MPE_Itr10 20.73 ROVER-Top1 20.86 20.66 21.10 20.60 20.56 ROVER-Top10 20.80 20.65 21.08 20.55 20.48 ROVER-Top20 20.79 20.99 20.62 20.46 TC-ASCombine 20.47 20.44 20.50 WG-PPCombine 20.45 20.30 20.29 20.33 20.20 WG-TFECombine 20.07 20.24 20.26 在MPE+PS這組實驗中,儘管其所得聲學模型的辨識率不佳,但與原始最小化音素錯誤之模型結合後,其辨識率獲得很大的改善! 可見兩個模型的辨識能力已達到互補的效果!

31 結合資料選取方法所求聲學模型之實驗(2/2)
CER(%) MSFA+US --II MSFA+USv --II MSFA+PS MSFA+PSv MSFA+sPS --I MSFA+sPS --II 20.69 20.62 25.52 20.57 20.64 20.70 MSFA_Itr10 20.61 ROVER-Top1 20.55 22.08 20.41 20.66 20.71 ROVER-Top10 20.54 20.51 22.02 20.32 20.58 ROVER-Top20 21.87 20.33 20.52 20.60 TC-ASCombine 20.45 20.35 20.15 20.27 20.48 WG-PPCombine 20.30 20.07 20.34 WG-TFECombine 20.12 20.25 19.92 20.17 相較之下,與最大化S型音框音素正確率訓練的結合,其改善效果更為一致。 但由於MSFA+PS嚴重地過度訓練,導致其效果並不明顯!

32 結合多重資料選取方法之實驗 與以正規化熵值為基礎的音框層次資料選取方法結合
最小化音素錯誤訓練的收斂速度明顯獲得提升,其中以MPE+PSv+FSv這組實驗的效果最好! 故可觀察得知:訓練語句選取方法顯得過於粗糙。 CER(%) MPE MPE+USv +PSv MPE+PSv +FSv MPE+USv +FSv MPE+USv +PSv+FSv ML_Itr10 23.64 Itr01 22.88 22.86 22.48 22.60 22.50 Itr02 22.44 22.40 21.53 21.87 21.80 Itr03 22.12 21.88 21.18 21.34 21.21 Itr04 21.77 21.58 20.83 21.12 20.93 Itr05 21.50 21.31 20.58 21.05 20.82 Itr06 21.20 20.98 20.64 20.80 20.79 Itr07 21.06 20.91 20.72 20.87 Itr08 20.59 20.67 Itr09 20.77 20.76 20.49 20.60 Itr10 20.73 20.57 20.46 20.63

33 結合多重資料選取方法之實驗 結合多重資料選取方法以改善最大化S型音框音素正確率訓練
依然以MSFA+PSv+FSv這組實驗的效果最好! 但在後面的迭代訓練上會發生稍微過度訓練的情況。 CER(%) MSFA MSFA+USv +PSv MSFA+PSv +FSv MSFA+USv +FSv MSFA+USv +PSv+FSv ML_Itr10 23.64 Itr01 22.87 22.69 22.33 22.37 Itr02 22.29 22.11 21.39 21.83 21.50 Itr03 21.89 21.94 21.01 21.37 20.85 Itr04 21.54 21.35 20.61 21.13 20.73 Itr05 21.12 21.16 20.49 20.99 20.64 Itr06 20.98 20.84 20.34 20.60 Itr07 20.68 20.56 20.63 20.57 Itr08 20.55 20.40 20.52 20.53 Itr09 20.48 20.47 20.50 20.62 20.59 Itr10 20.72 20.43

34 結論 本論文旨在探討使用各種資料選取方法來改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練 基於AdaBoost演算法之精神的資料選取方法
基於詞圖期望音素正確率的資料選取方法 訓練語句層次 音素段落層次

35 未來展望 未來仍有幾個方向需要繼續努力: 以最小化音素錯誤訓練中的期望正確率來定義AdaBoost演算法中的分類錯誤
由下往上的進行多重資料選取方法之結合

36 謝謝 敬請口試委員指導

37 音框音素正確率函數 用以取代原始音素正確率函數以改進最小化音素錯誤訓練之缺點: 其原始音素正確率函數並沒有給予刪除錯誤適當的懲罰
稱之為音框音素正確率函數(Frame Phone Accuracy, 記作FA) 而詞圖中一候選詞序列 的音框音素正確率為: 為刪除錯誤的懲罰權重

38 為了能使音框音素正確率函數之值域與原始音素正確率同為介於-1到+1之間:
S型音框音素正確率函數 為了能使音框音素正確率函數之值域與原始音素正確率同為介於-1到+1之間: 使用S型函數(Sigmoid Function)來正規化音框音素正確率函數的分子項 稱之為S型音框音素正確率函數(Sigmoid Frame Phone Accuracy, 記作SFA) 而詞圖中一候選詞序列 的S型音框音素正確率為: 及 為S型函數中可調整的參數

39 最大化S型音框音素正確率訓練 以S型音框音素正確率函數取代正確率函數,則最大化S型音框音素正確率的目標函數可表示為: (Maximum Sigmoid Frame Phone Accuracy, 記作MSFA) 本論文中最大化S型音框音素正確率訓練的參數設定為:

40 以熵值為基礎的音框層次資料選取方法(1/3)
以熵值(Entropy)為基礎的時間音框資料選取方法 鑑於傳統熵值之值域會隨著樣本數多寡而不同,在此我們使用正規化熵值 因此 的值域會介於0到1之間 假如其值接近於0: 代表於時間t的音框層次事後機率被某一個高斯模型m給支配 假如其值接近於1: 代表於時間t的音框層次事後機率幾乎是平均分配(uniformly distributed)給所有的高斯模型m 為在時間 時所有的音素段落個數 為在時間 中所有事後機率不為零的高斯模型 的個數

41 以熵值為基礎的音框層次資料選取方法(2/3)
以二元分類器的觀點來探討: 假如其正規化熵值接近於0 此時間音框其實座落於遠離決定邊界(Decision Boundary)的位置上 假如其正規化熵值接近於1 此時間音框座落於決定邊界附近的位置上 總言之,以正規化熵值為基礎的資料選取方法可視為在事後機率定義域中選取資料 旨在找出那些不容易被分類正確的時間音框並只利用其統計值來調整模型參數,以利鑑別式模型訓練 決定邊界 混淆的 樣本 事後機率定義域 1 正規化 熵值

42 以熵值為基礎的音框層次資料選取方法(3/3)
直接在正規化熵值之值域上設定一門檻值 把其值低於此門檻值的時間音框捨棄,只累加被選取到之時間音框的統計值 則其數學式可表示為(以num類為例): 本論文中的參數設定為:


Download ppt "若干資料選取方法 以改善鑑別式聲學模型訓練"

Similar presentations


Ads by Google