若干資料選取方法 以改善鑑別式聲學模型訓練

Slides:



Advertisements
Similar presentations
高三英语有效复习策略 程国学. 一、高考备考的方向把握 1. 认真研究普通高中《英语课程标准》和《福建 省考试说明》关注高考命题原则和发展方向,定 准复习教学起点 1. 认真研究普通高中《英语课程标准》和《福建 省考试说明》关注高考命题原则和发展方向,定 准复习教学起点 一是明确高考英语可能考什么,我们应该怎样准.
Advertisements

考纲研读 语言知识要求 语言运用能力 附录 1: 语音项目表 附录 2: 语法项目表 附录 3: 功能意念项目表 附录 4: 话题项目表 附录 5: 词汇表 听力 阅读 写作 口语.
颐高集团项目中心 海亮地产开发模式研究报告. 目 录 目 录 第四部分:海亮地产高周转模式执行 第二部分:海亮地产高周转模式原因 第三部分:海亮地产高周转模式内涵 第一部分:海亮地产企业背景 第五部分:海亮地产高周转支撑体系.
版 画 制 作版 画 制 作 版 画 种 类版 画 种 类 版 画 作 品版 画 作 品 刘承川.
100 學年度 勞委會就業學程 國際企業管理學系-物業管理學程介紹. 何謂物業管理? 以台灣物業管理學會 所述,物業管理區分為 「物」、「業」、「人」三區塊。台灣物業管理學會 「物」係指傳統的建物設備、設施 「業」為不動產經營的資產管理 「人」則以生活服務、商業服務為主,並以人為 本位連結物與業,形成今日物業管理三足鼎立新.
图书馆管理实务.
行政命令.
共产党领导的多党合作和政治协商制度: 中国特色的政党制度.
主讲:材料工程学院党总支宣传委员、党务秘书 教工党支部书记 王国志 2015年12月7日
普通高中新课程实验 若干问题 广东省教育厅教研室 吴惟粤 2004年4月29日 广州.
前言 採購程序每一環節所涉及人員,無論是訂定招標文件、招標、審標、決標、訂約、履約管理、驗收及爭議處理,如缺乏品德操守,有可能降低採購效率與品質,影響採購目標之達成,甚有違法圖利情事發生,致阻礙政府政策之推動並損害公共利益。因此,較之一般公務人員,採購人員更需遵循較高標準之道德規範。 主講人:林中財.
欢迎新同学.
2015年新课标高考历史试题分析 暨考试方向研判 李树全 西安市第八十九中学.
课题四 以天池、博斯腾湖 为重点的风景旅游区
“健康的基督徒” 入门.
南台科技大學電子工程系 指導老師:楊榮林 老師 學生姓名:蔡博涵 巨物索餌感測裝置(第II版)
KFC市场定位报告.
2015年汕头一模质量分析会 34(1)题分析 濠江区河浦中学 詹金锋 34(2)题分析 汕头市实验学校 董友军
士師逐個捉(II) 石建華牧師 24/07/2016.
簡報大綱 前言 為何會有異質採購最低標 異質採購最低標法令規定 各種決標方式之履約成果分析.
老子的素朴 厦门大学计算机科学系 庄朝晖.
宣讲数学课程标准 增强课程改革意识.
高考地理全国卷和安徽卷 的对比分析及备考策略
快乐生活,快乐学习 《中国古代诗歌散文欣赏》.
班級經營之再思 香港班級經營學會 黃鳳意
系统简介 理财顾问 业务 是基于通信平台的技术优势,整合《理财周刊》、第一理财网、乾隆集团等合作伙伴提供的理财产品内容和权威的理财专家资源,以集中式呼叫中心为主的服务方式,让普通百姓可以享受到快捷、全面、专业、权威的资讯及投资理财的服务平台。
佛法原典研習 五陰誦 (II) 2007/5/13 整理此報告的方式 : 主要節錄 果煜法師說法之重點.
小微企业融资担保产品介绍 再担保业务二部 贾天
2014年度合肥市中小学生学业质量 绿色指标测试相关情况说明及考务工作要求
普通高中课改方案介绍.
曾一 陈策 重庆大学计算机学院基础科学系 重庆
高三物理后期复习策略 秦皇岛市实验中学 刘苏祥.
理想与现实 有一所大学叫做“社会”,它教会人们奉承比自己强的,挤兑和自己差不多的,欺凌比自己弱的。
101學年度第二學期 呼吸治療學系 師生座談會 102年5月15日.
关于职教发展的几个理念 上海市教育科学研究院 周亚弟.
大家都来关注国家安全 南京市江宁中学 傅德柱.
第七章 机械加工工艺规程的制定.
家庭教育與服務學習.
宦官那些事儿 宦官那些事儿 主讲:小学部李永善 主讲:小学部李永善.
压缩语段 II.
普通高中课程改革的方案与推进策略 安徽省教育厅 李明阳.
高校人才培养与学科建设的一些探索 徐哲峰 西北大学数学学院 2015年6月30日.
电视教育课 【5】 小学生行为习惯养成教育.
新课程背景下 高中教务主任工作的思考 南京市教学研究室 陆静.
精彩纷呈的 桂剧和彩调 ——桂林地方戏曲赏析.
網路填報系統學生異動轉銜操作及科技化評量6月 成長測驗施測說明
機械工程學系課程地圖 先進材料與精密製造組 設計分析組 校訂共同必修課程 機械系訂 必修課程 組訂 必修課程 畢業專題 工學院訂必修課程
生命轉化 (II) 天父的心 石建華牧師 13/09/2015.
四气调神大论.
全国高考语文试卷解析 与备考建议 张彬福.
宁波爱地房产市场年报 郊五区
普通高中校本课程开发与实施 崔允漷 教授、博导 普通高中新课程国家级通识研修专题之一 华东师范大学课程与教学研究所副所长
2015年高考病句题 1.(安徽)下列各句中,没有语病的一句是(4分)( )
*§8 反常二重积分 与反常定积分相同, 二重积分亦有推广到积分区域是无界的和被积函数是无界的两种情形, 统称为反常二重积分.
中国未成年人法制安全课程 酒精饮料我不喝 小学段 第三讲 NO.
知识点编号:ZYKC 精馏装置运行中事故及处理方法.
運輸與空間的交互作用 運輸發展的階段 一、分散的港口 二、侵入路線 三、發展支線 四、初步相互連結 五、完全相互連結 六、高度優越的幹線
摩西五經系列:申命記.
檢調機關函調、搜索、約談訊問之認識 (含教師因公涉訟輔助)
高级微观经济学 东北大学工商管理学院 向涛.
產品語意 班級:夜四技產設三甲 學生:鄭舜鴻 學號:9A01C023 指導教師:唐蔚.
織物的認識 演示者:陳明玲 美容科:家政概論.
第六章 假設檢定 6.1 假設檢定概論 6.2 檢定統計量 6.3 假設檢定的形式與步驟 6.4 單一樣本之假設檢定
第三章 指數與對數 3-2 指數函數及其圖形.
第十二章 財務報表的窗飾與舞弊.
性騷擾之調查與防治 主講人:龜山分局 家防官 劉淑卿.
桃園市108學年度國民中學資賦優異學生鑑定家長說明會
幂函数.
八、工程督導 8.1.監辦 8.2.審計機關之稽察 8.3.相關機關之查核 8.4.施工查核小組 8.5.採購稽核小組 8.6.工程督導小組
海葵與小丑魚 照片來源:
Presentation transcript:

若干資料選取方法 以改善鑑別式聲學模型訓練 指導教授:陳柏琳 博士 研究生:朱芳輝 各位口試委員大家好,學生是朱芳輝。 今天要報告的是我的碩士論文,題目為”若干資料…” 學生的碩士指導教授為.. 中華民國九十七年一月二十五日

大綱 研究內容與貢獻 AdaBoost演算法 最小化音素錯誤訓練 資料選取方法 實驗與討論 結論與未來展望 基於詞圖期望音素正確率的資料選取方法 實驗與討論 結論與未來展望 以下是今天報告的大綱, 首先先點出本論文的研究內容與貢獻,接續會依序介紹AdaBoost演算法與論文中所使用的鑑別式最小化音素錯誤訓練。 其次會探討本論文所提出的資料選取方法,進而呈現實驗結果及其討論。 最後是結論與未來展望。

統計式語音辨識基本架構圖 語言模型 語言解碼 特徵擷取 辨識文字 發音詞典 聲學比對 聲學模型 訓練資料 選取方法 語言模型訓練 語音 特徵向量 語言解碼 特徵擷取 辨識文字 發音詞典 語音訊號 聲學比對 開始之前,學生先簡述統計式語音辨識技術的基本流程。 在給定一待測語音訊號,經由特徵擷取後得到所屬語音特徵向量,再經由聲學模型與語言模型進行搜尋比對以得到最後的辨識文字。 其中有鑑於聲學模型的訓練往往需要大量的訓練語料進行非常耗時的估測過程才能求得。 如何利用有限的訓練語料並以最有效率的方式去估測一個最有一般化能力的聲學模型,一直是大詞彙連續語音辨識之研究所要面臨的課題。 因此,本論文旨在提出訓練資料選取方法來予以改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練! 聲學模型訓練 聲學模型 訓練資料 選取方法

研究內容與貢獻 基於AdaBoost演算法之資料選取方法 基於詞圖期望音素正確率(Expected Phone Accuracy)定義域之資料選取方法 訓練語句層次的資料選取方法 音素段落層次的資料選取方法 多重資料選取方法之結合 在本論文中,所提出的方法可依兩個主軸來區分: 首先,有鑑於AdaBoost演算法中強調被錯誤分類的訓練樣本之精神,學生汲取它的概念, 用來調整最小化音素錯誤訓練中每一訓練語句之統計值的權重, 以提高易傾向於被辨識錯誤的語句對於聲學模型訓練之貢獻。 另一方面,啟蒙於最大邊際分類器的概念,學生有別於以往地在詞圖期望音素正確率定義域上嘗試找出其決定邊界, 來選出對於鑑別式聲學模型訓練最能提供鑑別資訊的訓練樣本以利模型的估測。 其中可分為在訓練語句與音素段落兩種不同層次來選取訓練資料。 最後,本論文更將所提出的資料選取方法與前人已經提出的資料選取方法結合,期望獲得更大的改善。

緣由 在No Free Lunch Theorem中明確地指出: 解決辦法: 但,該如何結合這些學習器? 不存在任何單一個學習演算法可以推導出一個非常精確的學習器(Learner),使其適用於所有的領域之中 解決辦法: 找出多個具有不同能力的學習器,透過將這些學習器予以結合而得到一個單一個擁有全方位能力的學習器 但,該如何結合這些學習器? 多重階段結合法(Multistage Combination) 多重專家結合法(Multi-Expert Combination) 投票(Voting)演算法 再進入介紹Boosting演算法前,我們先探討其背後的動機為何? 在Wolpert跟Macready這兩位學者在No Free Lunch Theorem中明確地指出:針對一個最佳化問題,並不存在…。 也就是說即使我們可以對訓練樣本估測一個非常精確的模型,但現實中仍然存在著某些樣本他並沒有辦法分類得很好。 因此,對於此問題目前大家的作法都是嘗試找出多個不同…。 先姑且不談如何去估測各種不同的學習器,仍然還是有個問題需要解決,即是應該要如何去結合這些學習器? [Wolpert and Macready 1997]“No Free Lunch Theorems for Optimization,” IEEE Trans. Evolutionary Computation, Vol. 1, No. 1, pp. 67-82, 1997.

Voting演算法 針對一待側樣本 ,若存在多個學習器 ,則: 將 定義為線性組合: + 集成(Ensemble) 針對一待側樣本 ,若存在多個學習器 ,則: 將 定義為線性組合: + 所以,現在的問題便是針對一待側樣本 x,我們要根據每個學習器個別對於x的決策d(x),來總整而成最後對於x的決策y(x)。 因此,我們要求的東西就是這邊的 f() ,其中的 fai 即為此函數的參數。 針對 f() 的設計,最簡單的就是直接將 f() 定義成線性組合函數: 集成(Ensemble)

Boosting演算法 Boosting演算法的精神在於 循序的訓練求得多個學習器,每一個學習器的能力可以彌補前一學習器的不足 透過結合多個弱勢學習器(錯誤小於0.5),最終所得之集成可為一個強勢學習器(錯誤為任意小) 幾個缺點: 只能應付二元分類任務 最多三個分類器 訓練樣本集要夠大

AdaBoost.M2演算法 輸 入:訓練序列 ,其中包含資料樣本 與其對應 的標記 。 初 始:定義 , 其中 為集合 的元素個數。 輸 入:訓練序列 ,其中包含資料樣本 與其對應 的標記 。 初 始:定義 , 其中 為集合 的元素個數。 重 覆:1.利用事前機率分布 來訓練得到弱勢分類器。 2.得到其對應的候選假設 並且計算擬似損失: 3.設定 4.更新事前機率分布 : 輸 出:最後的候選假設為: 其中 為正規化常數 AdaBoost演算法可以用來改善在Boosting演算法中的問題,藉由針對同一份訓練樣本集的重複取樣,即可訓練求得多個分類器, 此外,訓練樣本集的大小也不必再這麼大。 AdaBoost演算法是Boosting演算法的延伸,用以應付多元分類任務。在此,我們以AdaBoost.M2這個版本來作說明。 給定大小為N的訓練樣本,及其他們在K個類別中所對應的正確類別標記。 首先,必須先定義一個集合B,此集合列舉了所有訓練樣本被錯誤分類的可能。 並估測一事前機率分布D,此事前機率規範了每個訓練樣本在訓練過程中被抓取的可能性大小。於初始時,直接是以uniform的分配。 特別注意的是訓練樣本與其對應的正確標記這樣的pair的事前機率為0,意謂著正確分類的將不被拿來估測模型。 有了此事前機率,便可依此抓取每次迭代訓練所需的訓練樣本而重複求得多個分類器。

最小化音素錯誤鑑別式聲學模型訓練(1/3) 最小化音素錯誤鑑別式聲學模型訓練的目標函數 旨在最大化語音辨識器對所有訓練語句 之可能辨識出候選詞序列 ( )的期望音素正確率 其中 可用語音辨識器產生的詞圖 來近似: 最小化音素錯誤訓練的目的是在於針對語音辨識器對訓練語句產生的所有可能候選詞序列, 藉著最大化這些候選詞序列與對應正確轉譯文句的期望正確率,來提高辨識器的辨識率。 故目標函數可以寫成這樣.. 就是要對所有訓練語句中的每一候選詞序列,最大化它與正確轉譯文句的期望正確率。 也就是說,當所有的候選詞序列都越相似正確轉譯文句,那麼此目標函數就會越大。

最小化音素錯誤鑑別式聲學模型訓練(2/3) 對於詞圖 上候選詞序列 之正確率為: 候選詞序列中一個音素段落 之正確率為: 對於詞圖 上候選詞序列 之正確率為: 候選詞序列中一個音素段落 之正確率為: 5 10 15 20 25 30 正確轉寫 音素序列 辨識之 音素序列 A( ) = A(a) + A(c) = 2 e(a,a)=10/10 -1+2e(a,a)=1.0 e(a,b)=5/10 -1+e(a,b)=-0.5 A(a)=1.0 e(c,b)=5/10 -1+e(b,c)=-0.5 e(c,c)=10/10 -1+2e(c,c)=1.0 A(c)=1.0

最小化音素錯誤鑑別式聲學模型訓練(3/3) 其目標函數可透過延伸波式(Extended Baum-Welch)演算法得到聲學模型參數估測之更新公式

基於AdaBoost演算法的資料選取方法(1/3) 對於通過時間音框 上所有的候選音素段落給定不同的權重:

基於AdaBoost演算法的資料選取方法(2/3) 則最小化音素錯誤訓練的目標函數可以表示為: 對於 的訓練語句而言,其權重會介於 到1之間; 對於 的訓練語句而言,其權重會介於1到 之間。 亦對I-Smoothing之統計值給予權重 AdaBoost-FL-MPE

基於AdaBoost演算法的資料選取方法(3/3) 另一種權重設計: 而最小化音素錯誤訓練的目標函數又可表示為: AdaBoost-IFL-MPE

訓練語句選取方法 在鑑別式聲學模型訓練中,詞圖可以被視為一訓練語句能夠帶來多少鑑別資訊的重要憑據 在最小化音素錯誤訓練中,一訓練語句中所有候選詞序列的期望正確率 可以視為其詞圖在混淆程度上的基準 一訓練語句擁有過高或過低的 ,所能提供的鑑別資訊便為有限 因此,訓練語句選取方法可定義為: MPE+US

音素段落選取方法(1/2) 在最小化音素錯誤訓練中,在音素段落 上所收集的統計值會根據 區分為正貢獻或是負貢獻兩類 在最小化音素錯誤訓練中,在音素段落 上所收集的統計值會根據 區分為正貢獻或是負貢獻兩類 因此,可將 視為音素段落在期望正確率上的一個決定邊界 音素段落選取藉由定義一個邊際範圍來選取富含鑑別資訊的音素段落: MPE+PS

音素段落選取方法(2/2) 另一種柔性的音素段落選取方法,可使每一音素段落對於訓練過程皆有貢獻: MPE+sPS

實驗設定 實驗語料 (公視電視新聞語料MATBN) 大詞彙連續語音辨識 (72,000詞) 特徵抽取 最小化音素錯誤訓練 訓練語料 (24.5hrs): 外場記者男女各46,000s (12.25 hrs) 測試語料 (1.45hrs): 外場記者男1300s,女:3900s 大詞彙連續語音辨識 (72,000詞) 詞彙樹複製搜尋: 使用雙連語言模型 詞圖搜尋: 使用三連語言模型 特徵抽取 39維HLDA+MLLT+CN 最小化音素錯誤訓練 I-Smoothing中的參數 皆設為10

本論文之實驗方法 基於AdaBoost演算法之資料選取方法 基於詞圖期望音素正確率(Expected Phone Accuracy)定義域之資料選取方法 訓練語句層次的資料選取方法 音素段落層次的資料選取方法 多重資料選取方法之結合

AdaBoost演算法結合鑑別式聲學模型訓練之實驗(1/2) CER(%) MMI AdaBoost -UL-MMI MPE -UL-MPE ML_Itr10 23.64 Itr01 23.28 23.25 22.88 22.87 Itr02 22.89 22.92 22.44 22.48 Itr03 22.58 22.63 22.12 22.16 Itr04 22.28 21.77 Itr05 22.05 21.50 Itr06 22.10 22.15 21.20 21.19 Itr07 22.08 21.95 21.06 21.04 Itr08 21.88 21.82 20.87 20.92 Itr09 21.81 21.72 20.77 20.76 Itr10 20.73 20.72

AdaBoost演算法結合鑑別式聲學模型訓練之實驗(2/2) 在各種不同層次上,進行聲學模型之結合 以ROVER進行兩N-最佳詞序列間的結合 以候選詞段落的聲學分數在詞彙樹複製搜尋階段進行結合 以候選詞段落的事後機率進行兩詞圖間的重新搜尋 以候選詞段落的音框錯誤率進行兩詞圖間的重新搜尋 CER(%) MMI_Itr10 AdaBoost-UL- MPE_Itr10 21.77 21.72 20.73 20.72 ROVER-Top1 21.71 ROVER-Top10 21.74 20.74 ROVER-Top20 21.75 20.75 TC-ASCombine 21.81 20.51 WG-PPCombine 21.49 20.56 WG-TFECombine 21.43 20.40

基於AdaBoost演算法的資料選取方法之實驗(1/2) 在每個迭代訓練上所得之字錯誤率皆與最小化音素錯誤訓練之結果不相上下 CER(%) MPE AdaBoost -FL-MPE -FL-iMPE -IFL-MPE -IFL-iMPE ML_Itr10 23.64 Itr01 22.88 22.83 22.84 22.82 Itr02 22.44 22.39 22.42 22.50 22.46 Itr03 22.12 21.99 21.95 22.09 Itr04 21.77 21.55 21.59 21.82 21.79 Itr05 21.50 21.52 21.46 21.39 21.42 Itr06 21.20 21.25 21.32 21.22 21.16 Itr07 21.06 21.12 21.10 21.15 Itr08 20.87 21.00 21.05 20.90 20.92 Itr09 20.77 20.97 20.94 20.86 20.89 Itr10 20.73 20.72 20.74 20.82

基於AdaBoost演算法的資料選取方法之實驗(2/2) 與最小化音素錯誤 所估測之模型結合, 最多有2.7%的相對 字錯誤率下降 CER(%) AdaBoost -UL-MPE -FL-MPE -FL-iMPE -IFL-MPE -IFL-iMPE 20.72 20.89 20.74 20.82 MPE_Itr10 20.73 ROVER-Top1 20.69 20.66 20.68 20.78 ROVER-Top10 20.58 20.51 20.65 ROVER-Top20 20.75 20.54 20.67 TC-ASCombine 20.61 20.59 WG-PPCombine 20.56 20.40 20.34 20.45 WG-TFECombine 20.25 20.23 20.17 20.20

基於詞圖期望音素正確率的資料選取方法之實驗(1/6) 訓練語句層次的資料選取方法 MPE+US--I : MPE+US--II: CER(%) MPE MPE+US --I MPE+US --II ML_Itr10 23.64 Itr01 22.88 22.91 22.94 Itr02 22.44 22.46 22.48 Itr03 22.12 22.27 21.94 Itr04 21.77 21.69 21.70 Itr05 21.50 21.30 21.37 Itr06 21.20 21.06 21.24 Itr07 20.91 21.14 Itr08 20.87 20.90 21.02 Itr09 20.77 20.92 Itr10 20.73 20.64 20.94

基於詞圖期望音素正確率的資料選取方法之實驗(2/6) 遞增式的訓練語句選取方法 CER(%) MPE MPE+USv --I MPE+USv --II ML_Itr10 23.64 Itr01 22.88 22.91 22.94 Itr02 22.44 22.46 22.48 Itr03 22.12 22.27 21.94 Itr04 21.77 21.69 21.70 Itr05 21.50 21.30 21.40 Itr06 21.20 21.06 21.14 Itr07 20.92 21.00 Itr08 20.87 20.91 Itr09 20.77 20.82 20.74 Itr10 20.73 20.68 20.58 隨著迭代訓練而放寬選取範圍,能有效抑止過度訓練的問題!

基於詞圖期望音素正確率的資料選取方法之實驗(3/6) 訓練語句選取方法以改善最大化S型音框音素正確率訓練 與最小化音素比較,皆有一致地進步。但與最大化S型音框音素正確率訓練比較,其辨識效果乃是不相上下的! CER(%) MSFA MSFA+US --I MSFA+US --II MSFA+USv --I MSFA+USv --II ML_Itr10 23.64 Itr01 22.87 22.85 22.74 Itr02 22.29 22.31 22.41 Itr03 21.89 21.92 22.00 Itr04 21.54 21.45 21.51 Itr05 21.12 21.11 21.20 21.25 Itr06 20.98 20.89 21.09 Itr07 20.68 21.00 20.76 20.92 Itr08 20.55 20.56 20.80 20.60 20.54 Itr09 20.48 20.52 20.58 20.45 Itr10 20.61 20.57 20.69 20.62

基於詞圖期望音素正確率的資料選取方法之實驗(4/6) 音素段落層次的資料選取方法 MPE+PS--I : CER(%) MPE MPE+PS MPE+PSv ML_Itr10 23.64 Itr01 22.88 22.73 Itr02 22.44 22.23 Itr03 22.12 21.70 21.64 Itr04 21.77 21.29 21.38 Itr05 21.50 21.05 21.16 Itr06 21.20 21.10 20.92 Itr07 21.06 21.17 20.87 Itr08 21.36 20.70 Itr09 20.77 21.89 20.53 Itr10 20.73 22.22 20.41

基於詞圖期望音素正確率的資料選取方法之實驗(5/6) 柔性的音素段落選取方法 SoftWgt(q) MPE+sPS--I MPE+sPS--II 相較之下,不會有過度訓練之問題發生,然而卻需要進行額外的參數設定。 CER(%) MPE MPE+sPS --I MPE+sPS --II ML_Itr10 23.64 Itr01 22.88 22.85 22.84 Itr02 22.44 22.38 22.37 Itr03 22.12 21.95 21.98 Itr04 21.77 21.53 21.48 Itr05 21.50 21.37 21.21 Itr06 21.20 21.14 20.96 Itr07 21.06 20.99 20.82 Itr08 20.87 20.71 20.68 Itr09 20.77 20.66 Itr10 20.73 20.52 20.42

基於詞圖期望音素正確率的資料選取方法之實驗(6/6) 音素段落選取方法以改善最大化S型音框音素正確率訓練 CER(%) MSFA MSFA+PS MSFA+PSv MSFA+sPS --I MSFA+sPS --II ML_Itr10 23.64 Itr01 22.87 22.71 22.81 22.80 Itr02 22.29 22.06 22.28 22.33 Itr03 21.89 21.51 21.77 21.76 Itr04 21.54 21.00 21.23 21.21 Itr05 21.12 20.99 20.60 20.94 20.92 Itr06 20.98 20.87 20.36 20.63 20.69 Itr07 20.68 21.60 20.41 20.51 20.58 Itr08 20.55 21.98 20.57 20.47 Itr09 20.48 23.47 20.39 20.49 Itr10 20.61 25.52 20.64 20.70 可些許改善最大化S型音框音素正確率訓練,同時訓練過程中的收斂速度明顯得以提升。

結合資料選取方法所求聲學模型之實驗(1/2) CER(%) MPE+US --II MPE+USv --II MPE+PS MPE+PSv MPE+sPS --I MPE+sPS --II 20.94 20.58 22.22 20.41 20.52 20.42 MPE_Itr10 20.73 ROVER-Top1 20.86 20.66 21.10 20.60 20.56 ROVER-Top10 20.80 20.65 21.08 20.55 20.48 ROVER-Top20 20.79 20.99 20.62 20.46 TC-ASCombine 20.47 20.44 20.50 WG-PPCombine 20.45 20.30 20.29 20.33 20.20 WG-TFECombine 20.07 20.24 20.26 在MPE+PS這組實驗中,儘管其所得聲學模型的辨識率不佳,但與原始最小化音素錯誤之模型結合後,其辨識率獲得很大的改善! 可見兩個模型的辨識能力已達到互補的效果!

結合資料選取方法所求聲學模型之實驗(2/2) CER(%) MSFA+US --II MSFA+USv --II MSFA+PS MSFA+PSv MSFA+sPS --I MSFA+sPS --II 20.69 20.62 25.52 20.57 20.64 20.70 MSFA_Itr10 20.61 ROVER-Top1 20.55 22.08 20.41 20.66 20.71 ROVER-Top10 20.54 20.51 22.02 20.32 20.58 ROVER-Top20 21.87 20.33 20.52 20.60 TC-ASCombine 20.45 20.35 20.15 20.27 20.48 WG-PPCombine 20.30 20.07 20.34 WG-TFECombine 20.12 20.25 19.92 20.17 相較之下,與最大化S型音框音素正確率訓練的結合,其改善效果更為一致。 但由於MSFA+PS嚴重地過度訓練,導致其效果並不明顯!

結合多重資料選取方法之實驗 與以正規化熵值為基礎的音框層次資料選取方法結合 最小化音素錯誤訓練的收斂速度明顯獲得提升,其中以MPE+PSv+FSv這組實驗的效果最好! 故可觀察得知:訓練語句選取方法顯得過於粗糙。 CER(%) MPE MPE+USv +PSv MPE+PSv +FSv MPE+USv +FSv MPE+USv +PSv+FSv ML_Itr10 23.64 Itr01 22.88 22.86 22.48 22.60 22.50 Itr02 22.44 22.40 21.53 21.87 21.80 Itr03 22.12 21.88 21.18 21.34 21.21 Itr04 21.77 21.58 20.83 21.12 20.93 Itr05 21.50 21.31 20.58 21.05 20.82 Itr06 21.20 20.98 20.64 20.80 20.79 Itr07 21.06 20.91 20.72 20.87 Itr08 20.59 20.67 Itr09 20.77 20.76 20.49 20.60 Itr10 20.73 20.57 20.46 20.63

結合多重資料選取方法之實驗 結合多重資料選取方法以改善最大化S型音框音素正確率訓練 依然以MSFA+PSv+FSv這組實驗的效果最好! 但在後面的迭代訓練上會發生稍微過度訓練的情況。 CER(%) MSFA MSFA+USv +PSv MSFA+PSv +FSv MSFA+USv +FSv MSFA+USv +PSv+FSv ML_Itr10 23.64 Itr01 22.87 22.69 22.33 22.37 Itr02 22.29 22.11 21.39 21.83 21.50 Itr03 21.89 21.94 21.01 21.37 20.85 Itr04 21.54 21.35 20.61 21.13 20.73 Itr05 21.12 21.16 20.49 20.99 20.64 Itr06 20.98 20.84 20.34 20.60 Itr07 20.68 20.56 20.63 20.57 Itr08 20.55 20.40 20.52 20.53 Itr09 20.48 20.47 20.50 20.62 20.59 Itr10 20.72 20.43

結論 本論文旨在探討使用各種資料選取方法來改善以最小化音素錯誤為基礎的鑑別式聲學模型訓練 基於AdaBoost演算法之精神的資料選取方法 基於詞圖期望音素正確率的資料選取方法 訓練語句層次 音素段落層次

未來展望 未來仍有幾個方向需要繼續努力: 以最小化音素錯誤訓練中的期望正確率來定義AdaBoost演算法中的分類錯誤 由下往上的進行多重資料選取方法之結合

謝謝 敬請口試委員指導

音框音素正確率函數 用以取代原始音素正確率函數以改進最小化音素錯誤訓練之缺點: 其原始音素正確率函數並沒有給予刪除錯誤適當的懲罰 稱之為音框音素正確率函數(Frame Phone Accuracy, 記作FA) 而詞圖中一候選詞序列 的音框音素正確率為: 為刪除錯誤的懲罰權重

為了能使音框音素正確率函數之值域與原始音素正確率同為介於-1到+1之間: S型音框音素正確率函數 為了能使音框音素正確率函數之值域與原始音素正確率同為介於-1到+1之間: 使用S型函數(Sigmoid Function)來正規化音框音素正確率函數的分子項 稱之為S型音框音素正確率函數(Sigmoid Frame Phone Accuracy, 記作SFA) 而詞圖中一候選詞序列 的S型音框音素正確率為: 及 為S型函數中可調整的參數

最大化S型音框音素正確率訓練 以S型音框音素正確率函數取代正確率函數,則最大化S型音框音素正確率的目標函數可表示為: (Maximum Sigmoid Frame Phone Accuracy, 記作MSFA) 本論文中最大化S型音框音素正確率訓練的參數設定為:

以熵值為基礎的音框層次資料選取方法(1/3) 以熵值(Entropy)為基礎的時間音框資料選取方法 鑑於傳統熵值之值域會隨著樣本數多寡而不同,在此我們使用正規化熵值 因此 的值域會介於0到1之間 假如其值接近於0: 代表於時間t的音框層次事後機率被某一個高斯模型m給支配 假如其值接近於1: 代表於時間t的音框層次事後機率幾乎是平均分配(uniformly distributed)給所有的高斯模型m 為在時間 時所有的音素段落個數 為在時間 中所有事後機率不為零的高斯模型 的個數

以熵值為基礎的音框層次資料選取方法(2/3) 以二元分類器的觀點來探討: 假如其正規化熵值接近於0 此時間音框其實座落於遠離決定邊界(Decision Boundary)的位置上 假如其正規化熵值接近於1 此時間音框座落於決定邊界附近的位置上 總言之,以正規化熵值為基礎的資料選取方法可視為在事後機率定義域中選取資料 旨在找出那些不容易被分類正確的時間音框並只利用其統計值來調整模型參數,以利鑑別式模型訓練 決定邊界 混淆的 樣本 事後機率定義域 1 正規化 熵值

以熵值為基礎的音框層次資料選取方法(3/3) 直接在正規化熵值之值域上設定一門檻值 把其值低於此門檻值的時間音框捨棄,只累加被選取到之時間音框的統計值 則其數學式可表示為(以num類為例): 本論文中的參數設定為: