指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日

Slides:



Advertisements
Similar presentations
阿西莫夫科普短文两篇 阿西莫夫. 生字 蟾蜍 ( ) 褶皱 ( ) 劫 ( ) 难 遗骸 ( ) 追搠 ( ) 天衣无缝 ( ) 俯 ( ) 冲 尘埃 ( ) ch á n ch ú zhě zòu ji é háiháiháihái sùsùsùsù f è ng fǔāi.
Advertisements

9 、少年王勃. 探望 南昌 滕王阁 都督 宴会 庆贺 文章 野鸭 胸有成竹 文思如泉 笔走如飞 顺序 读书 拍案叫绝 千古传诵 《滕王阁序》 téng dūdu 序.
饮湖上初晴后雨 水光潋滟晴方好, 山色空蒙雨亦奇。 欲把西湖比西子, 淡妆浓抹总相宜。 杭州学军中学教育集团文澜中学部 沈 华.
介绍服饰特征、生活习俗等 傣( dǎi )族 傣族具有悠久的历史 和灿烂的文化。 主要分 布在云南德宏、西双版 纳、耿马、孟连及新平、 元江、金平等 3O 余个州、 市、县。 有优美的孔雀舞;动 听的象脚鼓和铭锣;欢 乐的泼水节等。主要传 统民族节日有开门节、 关门节、泼水节等。 “ 普 洱茶 ”
29. 手捧空花盆的孩子 pén 位 选宣 分 芽 规 盛 丝 情 煮 表 盆 fē n 分 hái 孩 pén 盆 wèi 位 xuǎn 选 bìn ɡ 并 xuān 宣 yá 芽 ɡ uī 规 shèn ɡ 盛 sī 丝 biǎo 表 zh ǔ 煮 yào 要 méi 没.
手捧空花盆的孩子 pén 从前有个国王年 纪很老了。他想挑 选一个孩子当未来 的国王。国王给每 个孩子发了一粒花 籽,让他们种在自 己的花盆里。三个 月后,国王将根据 种花的成绩来挑 选未来的国王。
营养与健康 谷斌斌.
岳阳楼. 岳阳楼 岳阳楼景区 中山市海洲初级中学 陈远超 岳阳楼耸立在湖南省岳阳市西门城头、紧靠洞庭湖畔。自古有“洞庭天下水,岳阳天下楼”之誉,与江西南昌的滕王阁、湖北武汉的黄鹤楼并称为江南三大名楼。北宋范仲淹脍炙人口的《岳阳楼记》更使岳阳楼著称于世。
沙漠里的奇怪现象 竺可桢.
16岁出嫁,23岁守寡,守了23年寡。冯顺弟并不富有,却处处为儿子的教育设想。母亲冯顺弟早知邻人宋焕家中有一部《图书集成》是儿子一直求之未得的,当她得知宋家减价到八十元时,便借贷为儿子买下。为了资助儿子读书,她甚至不惜变卖自己的首饰。 冯顺弟.
第三章作品之四 《左传·郑伯 克段于鄢》 一、作品简介 二、中心思想 三、课文分析 四、艺术特色.
计算机辅助普通话水平测试 应 试 指 南 云南省普通话培训测试中心
普通话水平测试培训.

“乐圣”贝多芬用它的智慧谱写的《命运交响曲》告诉我们:向命运呐喊,向命运抗挣,我们会胜利的,前面就是美好和幸福。
四年级试卷分析 千山教师进修学校 张艳玲.
贴近教学 服务师生 方便老师.
《诲人不倦》.
五 柳 先 生 传 陶 渊 明.
十八岁和其他.
《大学语文》 俞晓红.
蜀道难 (李白).
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
罗布泊 你对它知多少 ?.
曹刿论战 《左传》.
曹刿论战 《左传》 授课人: 濮阳市第一中学 张宏涛.
曹刿论战 《左传》.
鸿门宴 学习重点 司马迁 作者作品 掌握字词 背景介绍 情节分析 人物分析 课文小结 课外练习.
破釜沉舟 四面楚歌 霸王举鼎 霸王别姬 项庄舞剑意在沛公、人为刀俎我为鱼肉……
林黛玉进贾府.
第一章 语文基础知识 ——正确使用熟语(包括成语).
说“一”不“二” 语言文字运用 --避免歧义.
我用残损的手掌 戴望舒 这既可以做导入画面又可做朗读画面..
济南的冬天 老 舍 周至县辛家寨中学 王菊文.
爱 1爱其子,择师而教之 2秦爱纷奢,人亦念其家 3齐国虽褊小,我何爱一牛 4予独爱莲之出淤泥而不染 5古之遗爱也 6爱而不见,搔首踯躅
产后护理 刘俊梅
学习目标 一、 通过诵读感知,理清故事情节。 二、 通过赏读分析,把握人物形象。 三、 通过研读辩论,理解小说主题.
蜀道难 ——李白.
人教版语文四年级上册 猫.
木兰从军.
普希金. 普希金 检查预习 瞬息( ) 幽寂( ) 延绵( ) 萋萋( ) 忧郁( ) 伫立( ) 涉足( ) 向往( ) 尴尬( ) shùn 瞬息( ) 幽寂( ) 延绵( ) 萋萋( ) 忧郁( ) 伫立( ) 涉足( ) 向往(
李瑛 我骄傲,我是一棵树 江苏省外国语学校 惠慧.
1 Introduction Prof. Lin-Shan Lee.
基於聯合因子分析與麥克風陣列之強健性語音辨認
永續運輸資訊系統 -交通事故資料分析研究 周家慶 高級分析師 交通部運輸研究所.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
我们每个人都听过掌声,有些掌声是你给别人的,有些掌声是别人给你的。掌声响起来,你的心情怎样?
背 影 —朱自清 主讲人:方敏 天河口中学.
教材:北京、开明版初中《语文》第二册第26课
看 动画 成语 (    ) 揠苗助长 (    ) 滥竽充数 猜 (    ) 狐假虎威 (    ) 叶公好龙.
小学四年级语文上册 11 成长 梅江区金山小学肖月梅.
第二十六课 父亲、树林和鸟 会认字: 拼 音 lí níng wù chòng shùn lüè 黎 凝 兀 畅 瞬 掠.
芦 叶 船.
The First Course in Speech Lab
1 Introduction Prof. Lin-Shan Lee.
第六章:N元语法模型.
北师大版 五年级 语文 上册 第七单元 成吉思汗 和 鹰. 北师大版 五年级 语文 上册 第七单元 成吉思汗 和 鹰.
張智星 清大資工系 多媒體檢索實驗室 Tree Net Construction 張智星 清大資工系.
第三編 唐宋文学批评 第五章 唐代文学批评.
2019/5/18 普通話 聲調 聲母 韻母.
More About Auto-encoder
15 画风.
请你欣赏 识 字 5 执教者:夏湾小学 吴妙玲 2013—10—24.
沁园春.雪 毛泽东 库庄初级中学 王周瑜.
记梁任公先生的一次演讲 梁实秋.
2、郑成功.
29.数星星的孩子 幸福陈占梅小学二年(3)班.
第四课 诗两首 1、假如生活欺骗了你 2、未选择的路.
語音特徵擷取之 資料相關線性特徵轉換 研究生:張志豪 多酌墨在數學式的物理意義及精神。 老師、各位口試委員、各位同學大家好。
挖 荠 菜 张 洁.
Presentation transcript:

指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日 英文連續語音辨識之初步研究 An Initial Study on English Continuous Speech Recognition 指導教授:陳柏琳博士 研究生:許庭瑋     陳冠宇 中華民國 九十六 年 七 月 十三 日

大綱 簡介 研究內容與實驗 結論與未來展望 基本語音辨識流程 當前英文語音辨識研究的發展 本論文使用之英文音素定義與辨識用詞典 詞內三連音素狀態分享之聲學模型建立 台師大大詞彙連續語音辨識器 研究內容與實驗 前端語音特徵擷取探討 語言模型調適 聲學模型訓練 實驗語料介紹、設定、結果 結論與未來展望

基本語音辨識流程 語音訊號段落: 對應文字詞序列: p(O) 省略 Bayes Theory 詞二連、詞三連語言模型調適 MFCC, LDA, HLDA, MLLT, CMS, CMVN 詞內三連音素狀態分享之聲學模型 詞二連、詞三連語言模型調適

當前英文語音辨識研究簡介 目前國外發展語音辨識器之學術單位、科技公司與機構 1 美國麻薩諸塞州BBN科技公司 2 美國IBM華生(T.J. Watson)研究中心 3 英國劍橋大學電機系 4 美國卡內基美隆大學電腦科學學校 5 美國麻薩諸塞州Dragon Systems科技公司 6 法國LIMSI-CNRS 機構 7 美國加州SRI 國際機構之語音科技和研究實驗室 8 美國AT&T 實驗室 9 美國密西西比州MsState – ISIP學術機構 10 美國微軟(Microsoft)科技公司

當前英文語音辨識研究簡介(續) 語音評比語料: 語音訓練語料: 2002年3月開始,美國國際電腦科學組織 (International Computer Science Institution , ICSI)的語音研究團隊著手進行美國國防部先進研究計畫機構(DARPA)委託的EARS (Effective Affordable Reusable Speech-to-text Program)計畫,設計適當的評比語料,供辨識器研究者做測試。如大量轉寫文字(Rich Transcription)的評比語料:RT03、RT04 語音訓練語料: 美國語言資料協會(Linguistic Data Consortium, LDC)提供有關於Switchboard、Switchboard Cellular及Callhome等語音語料。在EARS計畫中,就有幾千小時的語音資料來自於LDC,這些語料被稱為費雪集合(Fisher Collection)

當前英文語音辨識研究簡介(續) 國外三家現階段大詞彙連續語音辨識器之內容特色 BBN IBM CU 系統名稱 2004 BBN/LIMSI英文對話電話語料辨識系統 IBM 2004英文對話電話語料辨識系統 2004 CU-HTK英文對話電話語料辨識系統 執行時間 20RT 10RT 評比語料 RT 04 RT04 RT03 詞錯誤率 13.5% 15.2% 17% 聲學語料 2,300(時) 2,100(時) 2,180(時) 前端特徵 VTLN(語者正規化) PLP + CMS HLDA+MLLT VTLN PLP + CMVN +LDA fMPE + LDA+MLLT HLDA+ CMVN 聲學模型 1. ML-SI (+HLDA) I. STM II. SCTM III. Cross-word SCTM 2. ML-HLDA-SAT (+MLLT) 1.SI.DC.PLP 2.SA.FC.fMPE 3.SA.DC.fMPE+MPE MPE + Triphone Quinphone

當前英文語音辨識研究簡介(續) 國外三家現階段大詞彙連續語音辨識器之內容特色 BBN IBM CU 系統名稱 2004 BBN/LIMSI英文對話電話語料辨識系統 IBM 2004英文對話電話語料辨識系統 2004 CU-HTK英文對話電話語料辨識系統 語言模型 Witten-Bell + Interpolated LM Kneser-Ney + Kneser-Ney + Good-Turing + 解碼步驟 1. ML-SI : I.Triphone + Bigram II.Within-word Quinphone + Trigram III.Cross-word Quinphone + Fourgram 2. ML-HLDA-SAT 3. Regression Classes 1. SI.DC.PLP: Quinphone + Fourgram 2. SA.FC.fMPE: 3. SA.DC.fMPE+MPE: Septaphone + Fourgram 1. Triphone + Fourgram 2. Quinphone + Fourgram 3. Lattice MLLR

本論文使用之英文音素定義與辨識用詞典 英文音素定義 40個相異單連音素 分成6大類 再加入代表靜音(silence) 的sil和代表字與字之間 暫停(pause)的sp

本論文使用之英文音素定義與辨識用詞典(續) 英文詞典:選自美國發音之Festlex CMU,共有105,626個英文詞彙 … ("begin" nil (((b ih g) 0) ((ih n) 1))) ("coffee" nil (((k aa f) 1) ((iy) 0))) ("hello" nil (((hh ax l) 0) ((ow) 1))) ("yes" nil (((y eh s) 1))) … begin b ih g ih n coffee k aa f iy hello hh ax l ow yes y eh s 經前處理後之Festlex CMU詞典 原Festlex CMU詞典

英文音素之隱藏式馬可夫聲學模型 以單連音素ax為例 1維高斯分佈圖 2維高斯分佈圖 (Gaussian Mixture Model) (Hidden Markov Model) 1維高斯分佈圖 2維高斯分佈圖 高斯分佈: 平均值 (mean) 共變異矩陣(Covarience Matrix) (對角化假設) (39維)

英文詞句:We were away with William in Sea World 詞內三連音素狀態分享之聲學模型建立 英文詞句:We were away with William in Sea World 對應單連音素:w iy w er… …s iy w er l d 三連音素 內文相依 (Context dependence) Hello World hh ax l ow w er l d hh+ax hh-ax+l ax-l+ow l-ow w+er w-er+l er-l+d l+d 英文詞句 單連音素對應 三連音素詞內內文相依

詞內三連音素狀態分享之聲學模型建立(續) 主要四步驟: 建立單連音素聲學模型 由單連音素模型建立三連音素模型 建立狀態分享之三連音素模型 增加三連音素模型之高斯混合數目

1. 建立單連音素聲學模型 (40種)

2.由單連音素模型建立三連音素模型 40*40*40 =64000(種)產生資料稀疏問題 (Data Sparseness)

3. 建立狀態分享之三連音素模型 利用模型間的狀態(State)分布做連結(Tying) 以樹為基礎之分群法(Tree-based Clustering) 步驟 1 : 將所有訓練語料的三連音素模型的每個狀態依據條件置於根(Root)群集中

3. 建立狀態分享之三連音素模型(續) 步驟 2 : 自定分裂決策樹之問題條件,建立決策樹(Decision Tree) : 問題條件 [2] [3] [4] 問題條件 決策樹

3. 建立狀態分享之三連音素模型(續)

4. 增加三連音素模型之高斯混合數目

台師大大詞彙連續語音辨識器 聲學比對 – 將音素及語句中每個可能的段落做比對,計算      相似度 語言解碼 – 使用Viterbi動態規劃搜尋,對聲學相似度和語      言機率進行解碼,找出機率最大的可能詞序列 二階段解碼過程 第一階段(聲學比對):詞彙數複製搜尋(Tree-Copy Search) 用較低階的語言模型(詞二連Bigram)來搜尋,以產生詞圖 第二階段:詞圖重新評分(Word Graph Rescoring) 在詞圖上用較高階的語言模型(詞三連Trigram)重新搜尋

前端語音特徵擷取探討 語音強健性技術 : 消除通道雜訊(Channel Effects) 倒頻譜平均消去法(CMS) 倒頻譜正規化法(CMVN) :降低不同維度間的語音特徵機率分布的差異 資料相關線性特徵轉換:進ㄧ步降低維度並找出較具代表性或鑑別力的特徵 線性鑑別分析(LDA) 異質性線性鑑別分析(HLDA) 最大化相似度線性轉換(MLLT)

前端語音特徵擷取探討 線性鑑別分析(LDA)︰統計訓練資料,找出特徵空間中重要的基底矩陣 ,使轉換後的特徵能保有重要的成份或具有較高的鑑別力。缺點為假設各類別分布的變異量相同,資料經轉換後各類別的共變異矩陣非對角化, 造成後端HMM估測失真。 類別間變異量愈大 (共變異矩陣以B表示) 類別內變異量愈小 (共變異矩陣以W表示) 異質性線性鑑別分析(HLDA):假設各類別分布的變異量為異質性 最大化相似度線性轉換(MLLT) :保留矩陣維度,使轉換後類別的共變異矩陣對角化 , ,

前端語音特徵擷取探討(續) 基礎語音特徵擷取 鑑別式特徵擷取 梅爾倒頻譜係數 (MFCC) 梅爾倒頻譜係數配合倒頻譜平均消去法 (MFCC+CMS) 梅爾倒頻譜係數配合倒頻譜正規化法 (MFCC+CMVN) 鑑別式特徵擷取 線性鑑別分析配合最大相似度線性轉換 加上倒頻譜正規化法 (LDA+MLLT+CMVN) 異質性線性鑑別分析配合最大相似度線性轉換 加上倒頻譜正規化法 (HLDA+MLLT+CMVN)

語言模型調適 語言模型調適法 背景語料 大量語料,涵蓋許多領域和主題,可從中訓練一般性的自然語言規則 調適語料 調適背景語言模型,和辨識任務相關的語料 方法: 詞頻數混合法(Count Merging) 模型插補法(Model Interpolation)

語言模型調適(續) 語言模型調適法 方法: 詞頻數混合法(Count Merging) : Data level 結合 -CA表在調適語料中出現的次數 -CB表在背景語料中出現的次數 模型插補法(Model Interpolation) : Model level 結合 其中 是詞 的歷史詞序列

聲學模型訓練 三連音素聲學模型 音素模糊矩陣 非監督式聲學模型訓練 信心度評估

三連音素聲學模型 HMM狀態中,依據每個HMM模型所分配到訓練語料段落數,分配1至128個不等的高斯混合數目 HMM分配到之語音段落數 <= 5 1 <= 10 2 <= 100 4 <= 500 8 <= 2,500 16 <= 12,500 32 <= 62,500 64 > 62,500 128

音素模糊矩陣 利用英文辨識器之第二階段辨識結果,與正確轉寫文字做單連音素、三連音素之比對,統計發生「取代」的個數,利用音素模糊矩陣(Confusion Matrix)法統計並正規化(Normalized)容易辨識錯誤的個數。 聲學模型訓練階段 (觀測單連音素變化) 辨識器搜尋階段 (觀測三連音素變化) 兩個音素之間的模糊機率(Likelihood) 音素 「取代」(Substitution)成 的次數正規化值, 以 表示,其中 且 相符 刪除 取代 插入 正確單連音素: w iy w eh … 辨識單連音素: w w aw ae … 模糊矩陣示意圖

實驗語料介紹 語音語料 文字語料 台灣腔英語(EAT) 麥克風語料 (取樣頻率為16 KHz) 依英語系、非英語系與男、女性別做分類 語料內容有英文單字、片語、數字與單字連續語音 美國之音(VOA) 廣播新聞語料(取樣頻率為16 KHz) 男、女聲主播、受訪者 語料內容有新聞時事、專題節目、英語教學節目、流行音樂與社論 文字語料 英國國家文字語料庫 (BNC) 達約一億個詞(102M)有關說、寫的文字語料庫 語料包含90%各領域新聞期刊、學術書籍等文字資料;10%會議或廣播新聞等對話資料

實驗語料介紹(續) EAT 1 英文單字 grandpa 2 英文片語 for instance 3 英文數字連續語音 six five seven seven four five seven 4 英文連續語音 Green Mountain Energy VOA 1 their workshops were long ago damaged 2 an internet message taking responsibility for their deaths 3 it is one of those things that i dreaded the entire time

實驗設定 EAT語料 VOA語料 語料分配 種類 句數 時間(hr) 詞彙數 訓練語料 20,000 7.02 53,922 測試語料 1,000 0.65 2,781 詞典個數(個) 2,370 語料分配 種類 句數 時間(hr) 詞彙數 訓練語料 5,340 3.33 30,637 測試語料 500 0.56 4,373 詞典個數(個) 5,178

三連音素聲學模型實驗結果 VOA語料 實驗 高斯混合數分配 混合數 詞正確率(%) TC WG 1 規則*1 76,073 46.72 54.10 2 規則*2 145,318 46.51 53.01 3 規則*3 217,744 45.62 52.94 4 規則*4 290,505 44.91 50.86 Feature : MFCC_CMS Language Model :BNC+VOA(1:1) 討論: 高斯混合數增加,對辨識率的改變並不大,可能原因為高斯混合數的分配比例是依據訓練語料量增加,又因為訓練語料量不足,故模型中存在資料稀疏問題,使辨識率下降。

三連音素聲學模型實驗結果(續) EAT語料 高斯混合數分配 混合數 詞正確率(%) TC WG 1 全給定1 25,375 30.12 40.55 2 規則*1 143,735 36.41 49.53 3 規則*4 549,953 36.45 49.35 Feature : MFCC_CMS Language Model: EAT 討論: 高斯混合數依規則分配時,詞正確率由40.55%提升至49.53% ,然而增加至規則的4倍時,辨識率卻些微下降。

語言模型調適法實驗結果 VOA語料 詞頻數混合法(Count Merging) 詞正確率(%) TC WG 1 BNC 45.90 51.43 2 VOA 47.70 49.46 3 BNC+VOA 46.72 54.10 4 50 BNC+VOA*50 46.28 53.78 5 100 BNC+VOA*100 46.31 53.65 Feature: MFCC_CMS Mixtures: 76,073 (依規則) 討論: BNC語料不僅包含與VOA統計特性較相關的會議或廣播新聞等文字語料,且BNC語料內容更為豐富,故加入BNC語料能讓詞正確率提高。

語言模型調適法實驗結果(續) EAT語料 詞頻數混合法(Count Merging) 詞正確率(%) TC WG 1 BNC 32.21 28.83 2 EAT 45.22 52.01 3 BNC+EAT 32.35 33.57 4 100 BNC+EAT*100 36.92 39.86 Feature: HLDA+MLLT+CMVN Mixtures: 26,548 討論:EAT語料中大多為英文單字、片語或數字連續語音,而BNC為開會或是廣播新聞等對話資料,故EAT與BNC語料的統計特性差異較大。

語言模型調適法實驗結果(續) VOA語料 線性插補法(Model Interpolation) 調適模型比重(%) 詞正確率(%) 0.00 51.43 0.55 52.09 0.05 52.85 0.60 51.86 0.10 52.55 0.65 51.70 0.15 52.94 0.70 0.20 52.80 0.75 51.15 0.25 52.57 0.80 50.97 0.30 52.28 0.85 50.81 0.35 52.14 0.90 50.29 0.40 52.05 0.95 49.85 0.45 52.16 1.00 48.48 0.50 52.23 -

前端語音特徵擷取探討實驗結果 VOA語料 實驗 語音特徵 混合數 詞正確率(%) TC WG 1 MFCC 78,412 45.25 52.05 2 MFCC_CMS 76,073 46.72 54.10 3 MFCC_CMVN 73,083 45.83 51.64 4 LDA+MLLT_ CMVN 70,672 51.54 59.89 5 HLDA+MLLT_ CMVN 71,627 49.23 54.42 規則*1 Language Model :BNC+VOA(1:1)

前端語音特徵擷取探討實驗結果(續) EAT語料 混合數 詞正確率(%) TC WG 1 MFCC 145,319 29.69 40.04 2 MFCC_CMS 143,735 36.41 49.53 3 MFCC_CMVN 138,713 33.93 47.02 4 LDA+MLLT_CMVN 138,289 47.30 59.53 5 HLDA+MLLT_CMVN 141,333 46.48 59.71 規則*1 Language Model: EAT 討論︰ MFCC較MFCC_CMS與MFCC_CMVN詞正確率低,代表 EAT語料之通道效應(Channel Effects)非常嚴重。

信心度評估法 信心度評估法是用於判斷辨識結果的可靠度,給辨識結果一個分數(ex.0~1之間的實數值),我們再設定一個門檻值,選出大於門檻值的語料和原本的語料重新訓練。 研究指出,非監督式的模型經多次迭代訓練後,可以得到較佳的聲學模型! -迭代:即將現有人工轉寫語料的聲學模型對未轉寫的語料做一次辨     識,再將第一名的辨識結果和現有的人工轉寫語料再次訓練     聲學模型 實作時,先求得每個詞句的信心度,再利用viterbi求得第一名的詞序列,而利用先訂好的門檻值來決定詞序列中某個詞是否拿來作聲學模型訓練! 論文中,我們僅挑選信心度是1的句子來做訓練

信心度評估法(續) :表聲學相似度 :表語言模型 :詞圖中的一條完整路徑

聲學模型的訓練方式 監督式訓練 (Supervised Training) 輕微監督式訓練 (Lightly Supervised Training) 非監督式訓練 (Unsupervised Training) How are you How are you ?

非監督式聲學模型訓練 訓練語料的量越多,對聲學模型的訓練會越有幫助 因為可以看到更多以前所沒有看過的語音特徵 在語料隨手可得的今天,我們卻沒有辦法很容易地提升自動語音辨識器的效能,因為通常我們所收集到的大量語料是不具有正確轉寫文字(True Transcription) 這時便可以利用現有的自動語音辨識器去辨識大量未轉寫的語料,省去大量人工轉寫的力氣,以達成非監督式模型訓練

非監督式聲學模型訓練(續) 非監督式最大化相似度聲學模型訓練 並搭配信心度評估方法來過濾可能辨識錯誤的詞段 和正確答案比較 詞正確率:57.84 和正確答案比較 詞正確率:51.73 和正確答案比較 詞正確率:58.20

實驗設定 EAT語料之非監督式聲學模型訓練 語音特徵 HLDA+MLLT+CMVN 實驗語料 種類 句數 時間(hr) 詞彙數 監督式訓練語料 20,000 7.02 53,922 非監督式訓練語料 42,960 33.4 108,323 測試語料 1,000 0.65 2,781 詞典個數(個) 4,229

非監督式聲學模型訓練實驗結果 EAT語料非監督式訓練之詞正確率 混合數 詞正確率(%) - TC WG 1 HMM(1) 141,333 50.14 57.84 2 HMM(3) 221,820 49.78 51.73 3 HMM(4) 191,314 50.86 58.20 討論︰ 將大量辨識結果全用,詞正確下降。然而利用信心度評估法,可選出信心度較高的語句,對詞正確率有提升效果。

非監督式聲學模型訓練實驗結果(續) EAT語料非監督式訓練之詞正確率上界 實驗 聲學模型 混合數 詞正確率(%) - TC WG 1 HMM(1) 141,333 50.14 57.84 2 HMM(2) 216,318 56.29 64.74

音素模糊矩陣實驗結果 聲學模型訓練階段 (觀測單連音素) EAT測試語料,門檻值設定為0.2 ,單連音素模糊矩陣變異狀況。 正確音素 聲學模型訓練階段 (觀測單連音素) EAT測試語料,門檻值設定為0.2 ,單連音素模糊矩陣變異狀況。 正確音素 辨識音素 次數正規化 z s 0.38 ay ax 0.25 sh t jh r 0.33 k 0.23 uh zh m n l ao ow ch 0.22 aw 0.30 th ng 0.29 b f 0.21 d 0.27 0.20 aa iy ih

音素模糊矩陣實驗結果(續) 辨識器搜尋階段 (觀測三連音素) 辨識器搜尋階段 (觀測三連音素) 將三連音素模糊矩陣挑選門檻值大於 值以上的結果,代入英文辨識器,重新計算每個時間點每個狀態的機率值,以 表示, 代表原本三連音素M之狀態機率值所佔比例 使用大量EAT語料進行辨識。將其辨識結果與正確轉寫文字比對,建立ㄧ般化(General)模糊矩陣,再將此矩陣應用於辨識階段 使用大量EAT語料進行辨識。利用信心度評估法, 挑選適當語句,再與正確轉寫文字比對,建立ㄧ般化模糊矩陣,再將此矩陣應用於辨識階段 M N AMN 10 12 0.5 15 16 0.4 102 140 : α= *

詞正確率(%) (辨識結果再用信心度選出) 音素模糊矩陣實驗結果(續) EAT語料ㄧ般化模糊矩陣之詞正確率 詞正確率(%) (辨識結果全用) 詞正確率(%) (辨識結果再用信心度選出) 實驗 λ α TC WG 50.61 58.05 1 0.80 45.87 52.73 46.87 55.28 2 0.97 49.60 56.79 49.86 57.87 3 0.1 51.08 58.20 50.93 58.23 4 0.3 50.86 51.15 58.52 討論:使用ㄧ般化模糊矩陣能夠讓詞辨識率提高,配合信心度評估,更能得到較佳詞正確率。

結論 本論文初步研究嘗試英文連續語音辨識,我們實作英文連續語音辨識器,並探討其主要組成,包含語音特徵擷取、聲學模型及語言模型等之改進方法。 VOA與EAT實驗語料最佳設定與詞正確率 VOA EAT 1 前端特徵種類 LDA+MLLT+CMVN HLDA+MLLT+CMVN 2 訓練語料 3.33小時(5340句) 40.42小時(62906句) 3 測試語料 0.56小時(500句) 0.65小時(1000句) 4 詞典個數 5,178個 4,229個 5 高斯混合數 70,672個(依規則) 216,310個(依規則) 6 模型數目 4,373個 8,850個 7 語言模型 BNC+VOA訓練語料人工轉寫(1:1) EAT訓練語料人工轉寫 8 詞正確率 59.89 % 65.71 %

未來展望 增加聲學模型之訓練語料量,提高三連音素之訓練資料出現次數,以減少資料稀疏問題。 豐富語言模型訓練語料,並使用其他層次的語言資訊,如詞類別、語意等。 增加系統辨識速度。 使用鑑別式聲學模型訓練,如最小化音素錯誤(Minimum Phone Error, MPE)訓練,以提高模型辨識率。 探討是否EAT語料中台灣英語發音差異,而導致辨識率下降。

謝謝老師 謝謝各位學長、同學 請各位先進指教 謝謝老師  謝謝各位學長、同學 請各位先進指教