最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究

Slides:



Advertisements
Similar presentations
爱护牙齿爱护牙齿 AI HU YA CHI AI HU YA CHI 进入 爱牙日的由来 你对牙齿知道多少 保护牙齿的健康 预防蛀牙 刷牙要三好 2004 级护理 2 大组 郭赛金 朱光影 李蓓 赵文娟.
Advertisements

办公室保健指南. 减少辐射篇 ❤显示器散发出的辐射多数不是来自它的正面,而是侧面和后面。因此,不要 把自己显示器的后面对着同事的后脑或者身体的侧面。 ❤常喝绿茶。茶叶中含有的茶多酚等活性物质,有助吸收放射性物质。 ❤尽量使用液晶显示器。
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
大學中文閱讀與書寫課程 推動事項說明與研議 通識教育中心 賴素玫 以小班制 TA 適性輔導為精神之中文閱讀書寫課 程 共同課綱(經外審) /共同教材/共同 學習成果量 延伸教材: 高大中文 一百 書單 推動班級讀書會 制度班級讀書會 制度 強化中文基礎能力檢測機制 高東屏跨校中文能力檢測.
魏 饴. 处级干部培训班讲座 一、卓越干部的德行素质  常修为政之德、常思贪欲之害、常怀律己之心!  孔老夫子有个观点 “ 为政以德,譬如北辰居其所而众星拱之。 ”  司马光《资治通鉴》 “ 才者,德之资也;德者,才之帅也。 ” “ 德 ” 胜 “ 才 ” 谓之 “ 君子 ” , “ 才 ”
一、真愛密碼 二、尋求真愛 三、有自尊的愛. 。如果雙方對愛情產生 質疑、困惑時,則表示 彼此之間的愛情關係仍 有 待加強或釐清,千萬別 急著為自己的人生大事 下決定。 我是一個 16 歲的未婚媽媽,發現自 己懷孕時,已經五個月大了,我知 道自己沒能力照顧孩子,在驚訝之 於,大人們只好坦然接受,幫我找.
大地遊戲王 課程實錄.
4.体词 体词包括:名词,处所词,方位词,时间词,区别词,数词,量词以及一部分代词。.
作家研究-簡媜 指導教授:鄭定國 執行TA:簡珮如.
報告書名:父母會傷人 班級:二技幼四甲 姓名:吳婉如 學號:1A2I0034 指導老師:高家斌
加強水銀體溫計稽查管制及回收 回收作業須知及緊急應變措施
第4章 分錄及日記簿 4-1 借貸法則 4-2 日記簿的格式及記錄方法 4-3 分錄的意義及記錄方法 4-4 常見分錄題型分析
103年度北區教學資源中心計畫 5月份管考會議
媽,我們真的不一樣 青少年期與中年期 老師: 趙品淳老師 組員: 胡珮玟4A1I0006 馬菀謙4A1I0040
面对高考之—— 战略与战术 主讲:张海顺 我们的口号: 战略上藐视高考 战术上重视高考.
國有土地管理與運用問題之探討 主講人: 廖 蘇 隆 中華民國100年10月17 日.
珠海市夏湾中学 曾雪静 引言: 清朝是中国最后一个封建王朝,共有12位皇帝。他们各有个的故事,有的开创了“盛世”有的则把清朝推向灭亡。下面,请看清朝列位皇帝简介 清朝皇帝史.
短歌行.
第十三屆 Step.1 我們的目標 Step.2 我們的角色 Step.4 權利與義務 義務 權利 年繳會費五百元整
第五章 各类园林绿地的规划设计.
班級:二幼三甲 姓名:郭小瑄 、 詹淑評 學號:1A2I0029 、1A2I0025
财务管理.
指導老師:陳韻如 姓名:吳宜珊 學號:4A0I0911 班級:幼保二乙
植物保护 课程整体设计 汇报 申报省级精品资源共享课建设 植物保护课程组.
傳統童玩遊戲創新 組別:第八組 班級:幼保二甲 組員: 4A0I0005柯舒涵 4A0I0011謝孟真
政府扶持资金通览 技术改造篇.
104-1學期教學助理說明會 教務處 教學業務暨發展中心 教務長:黃啟煌 主 任:蔡錦雀 承辦人:曹君琪
妈妈我爱你 你总说我还不懂事 维护我像一张白纸 你眼中我永远是长不大的孩子 虽然我有好多心事 却已不愿说与你知 我曾任性地排斥你爱我的方式
LINGO.
Project 2 JMVC code tracing
題目:十六對一多工器 姓名:李國豪 學號:B
本科生医保资料的提交.
統計圖表的製作.
Android App簡介及 App Inventor 2體驗 靜宜大學資管系 楊子青
視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生:顏羽君
垃圾郵件過濾之初步研究 邱炫盛 2019/1/15.
CH03 資訊管理的智慧觀點:技術篇.
一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化 圖像壓縮法
《结构力学认知实验》(授课形式)的上课时间改为: 5月5日(周二)晚上18:00~19:30和19:30~21:00,
《结构力学认知实验》(授课形式)的上课时间改为: 5月7日(周四)晚上18:30~20:00和20:00~21:30,
TA教育訓練 微處理機系統實習.
办公自动化基础 主讲教师:韩伟颖. 办公自动化基础 主讲教师:韩伟颖 第十章 数据的处理与分析 10.1 数据排序 10.2 数据筛选 10.3 分类汇总 10.4 创建与编辑图表.
小學四年級數學科 8.最大公因數.
NSC D 蔣依吾 中山大學資訊工程系 紅外線點目標的檢知法則 Automatic detection of small targets in infrared image sequences containing evolving cloud clutter NSC D
田口方法應用於語音辨識 報告者:李建德.
挑戰C++程式語言 ──第8章 進一步談字元與字串
第二章 金融市场.
畢業資格審查系統 操作步驟說明.
指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08
HelloPurr_Extend 靜宜大學資管系 楊子青
新制退休實務計算說明- 現職人員退休範例說明
潜行追踪 之红包快跑. 潜行追踪 之红包快跑 红黑对决 随着互联网的发展,网速的飞速提高,有一个特殊的群体,也随之发展壮大,就是一群抢红包黑客,ta们手段高明,耳目灵通,不管红包们深藏何处,没有一个红包能够逃过ta们的手心,都被ta们迅速收归囊中;这一次两群黑客相互不服,准备来一场赌局,以决定谁才是真正的黑老大;而红包们也决定利用这次机会,派出实景红包来打击一下黑客们的嚣张气焰,激烈的决斗马上开始了。。。。。。
非監督式學習於中文電視新聞 自動轉寫之初步應用
一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化 圖像壓縮法
PowerPoint 操作介紹 106 計算機概論
國立台灣師範大學資訊工程研究所 語音實驗室研究簡介
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
靜宜大學100學年度二學期 服務學習基礎講座 課程助理經驗分享
2010之後 臺灣通識教育的機會與挑戰 臺北醫學大學人文暨社會科學院 林從一.
保變住開發要點 資料來源:台北市政府都發局.
106 學年度新生入學說明會 國立臺灣海洋大學 教務處簡介
國立台灣大學 關懷弱勢族群電腦課程 By 資訊工程 黃振修
學士學位畢業論文說明 逢 學 大 甲 土 理 管 地 2009/10/05.
資料表示方法 資料儲存單位.
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
高雄市97年度國民小學閱讀計畫創新教學-教案達人創新教學方案
非負矩陣分解法介紹 報告者:李建德.
一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化 圖像壓縮法
教育類相關資料庫.
指導教授:陳柏琳 博士 研究生:張志豪 報告人:陳鴻彬
Presentation transcript:

最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究 郭人瑋 國立台灣師範大學

大綱 研究內容簡介 最小化音素錯誤 非監督式聲學模型調適 原始正確率預測模型 實驗語料 實驗結果 結論 2019/4/22 Speech Lab. NTNU

研究內容簡介 目前在大詞彙連續語音辨識中最佳的鑑別式聲學模型訓練 最小化音素錯誤鑑別式聲學模型調適 [Wang 2003, 2004] 最小化音素錯誤 (Minimum Phone Error) 最小化音素錯誤鑑別式聲學模型調適 [Wang 2003, 2004] 在非監督式(Unsupervised)的環境下,如何能再進步? 利用缺失資料(Missing Data)的估測來解決 (提出原始正確率估測模型) [研究貢獻] 2019/4/22 Speech Lab. NTNU

統計式語音辨識基本架構圖 最小化音素錯誤 語音訊號輸入 梅爾倒頻譜特徵向量 辨識結果 前端處理 聲學比對與語言解碼 訓練語句 文字訓練語料 聲學模型 訓練 聲學模型 語言模型 語言模型 訓練 最小化音素錯誤 非監督式聲 學模型調適 2019/4/22 Speech Lab. NTNU

聲學模型參數估測 - 訓練與調適 聲學模型:詞句發生語音O的機率分佈 訓練 調適 λ為聲學模型參數 語料多 事先訓練 直接對模型參數調整 語料少,故能調動的參數也較少 動態調適,要快 常間接透過共享的轉換矩陣來調適 2019/4/22 Speech Lab. NTNU

模型參數估測法則 最大化相似度(Maximum Likelihood) 最小化音素錯誤(Minimum Phone Error) => Maximum Average Accuracy 2019/4/22 Speech Lab. NTNU

最小化音素錯誤 實作上如何產生這些Hypotheses ? 1.0 = 4 2019/4/22 Speech Lab. NTNU

詞圖 台東 妙語 無端 太重 良心 不斷 太多 台中 兩任 SIL 豪雨 兩人 陶藝 失蹤 私人 自任 包含一條文句:陶藝-無端-台中-兩任-失蹤 2019/4/22 Speech Lab. NTNU

正確率的計算 (編輯距離) 今天天氣很好 今天天氣很差 Acc = 5(Match) – 1(Sub)=4 今天天氣很好 今天 氣氛好 今天 氣氛好 Acc = 4(Match) – 1(Sub) -1(Del)=2 今天天氣很好 靜電 氣 好 Acc = 2(Match) – 2(Sub) -2(Del)=-2 需要對整句作Global Search,在詞圖上要如何作? 2019/4/22 Speech Lab. NTNU

取最大值 正確轉譯文句 比 他 好 太多 辨識文句 其他 好在 都 之音素分枝 對正確轉譯文句中的音素所佔之比例 e 14 35 53 86 他 好 太多 b_i (4) i (10) t_a (9) a (12) h_a au (8) (6) ai d_u uo ch_i tz_a u 辨識文句 33 65 其他 好在 都 之音素分枝 4 23 45 59 67 75 3 22 43 55 58 74 2 8 對正確轉譯文句中的音素所佔之比例 e 2/10 =0.2 8/8 =1.0 2/6 =0.33 -1+2*e (正確轉譯文句中的音素=au) -1+e (正確轉譯文句中的音素!=au) -0.8 1.0 -0.67 au之原始正確率 = max(-0.8, 0.1, -0.67) 取最大值 2019/4/22 Speech Lab. NTNU

正確轉譯文句 之音素分枝 辨識文句 音素分枝正確率 1.0 -0.25 0.78 0.67 0.6 -0.5 0.5 0.75 0.0 b_i (4) i (10) t_a (9) a (12) h_a au (8) (6) ai d_u uo ch_i tz_a u 正確轉譯文句 之音素分枝 14 35 53 86 辨識文句 33 65 4 23 45 59 67 75 3 22 43 55 58 74 音素分枝正確率 1.0 -0.25 0.78 0.67 0.6 -0.5 0.5 0.75 0.0 利用此方式所估測之此音素序列正確率 = 4.55 利用編輯距離估測之此音素序列正確率 = 7 2019/4/22 Speech Lab. NTNU

非監督式環境下的調適 非監督式的環境 用估測缺失資料的方法來做 (原始正確率預測模型) 沒有正確的轉譯文句可供計算音素分枝的原始正確率 對每個音素分枝q,先抽取有代表性的資訊,並生成一個觀測資料向量(Observed Data Vector) 2019/4/22 Speech Lab. NTNU

原始正確率預測模型 假設 呈一高斯分佈,平均值向量與共變異矩陣分別為 及 則 最後 2019/4/22 Speech Lab. NTNU

目標函數最大化 目標函數 舊模型參數 2019/4/22 Speech Lab. NTNU

找輔助函數的General Form 目標函數 輔助函數 2019/4/22 Speech Lab. NTNU

在 找”最佳的”輔助函數 (EM中的E Step) 目標函數 “最佳的”輔助函數 2019/4/22 Speech Lab. NTNU

在 找”最佳的”輔助函數 (EM中的E Step) 目標函數 “最佳的”輔助函數 2019/4/22 Speech Lab. NTNU

對輔助函數求Global Maximum (EM中的M Step) 目標函數 2019/4/22 Speech Lab. NTNU

對輔助函數求Global Maximum (EM中的M Step) 目標函數 2019/4/22 Speech Lab. NTNU

重覆剛才的步驟 目標函數 2019/4/22 Speech Lab. NTNU

在 找”最佳的”輔助函數 (EM中的E Step) 目標函數 “最佳的”輔助函數 2019/4/22 Speech Lab. NTNU

對輔助函數求Global Maximum (EM中的M Step) 目標函數 2019/4/22 Speech Lab. NTNU

不是每個目標函數都能找到Strong-sense輔助函數 滿足 則 不是每個目標函數都能找到Strong-sense輔助函數 如 2019/4/22 Speech Lab. NTNU

找輔助函數的General Form  找不到!! 目標函數 輔助函數 ?? 2019/4/22 Speech Lab. NTNU

Weak-sense 輔助函數 目標函數 Weak-sense 輔助函數 2019/4/22 Speech Lab. NTNU

對 Weak-sense 輔助函數求Global Maximum 目標函數 Weak-sense 輔助函數 2019/4/22 Speech Lab. NTNU

對 Weak-sense 輔助函數求Global Maximum 目標函數 Weak-sense 輔助函數 2019/4/22 Speech Lab. NTNU

使用Weak-sense輔助函數來找 不保證每次均能增加 但在實作上還是需要它 加入Smooth 函數 2019/4/22 Speech Lab. NTNU

Smooth函數 目標函數 Smooth函數 2019/4/22 Speech Lab. NTNU

Weak-sense 輔助函數加上Smooth函數 目標函數 Weak-sense 輔助函數 加上Smooth函數 2019/4/22 Speech Lab. NTNU

對加上Smooth函數的Weak-sense 輔助函數求Global Maximum 目標函數 Weak-sense 輔助函數 加上Smooth函數 2019/4/22 Speech Lab. NTNU

利用雙連語言模型作詞層次的搜尋,找出機率最大的詞序列 (用來處理 實驗語料的處理 正確參照轉寫 音訊檔 在標點符號、 句開始、句結束 插入選擇性 的SIL模型 作強迫對齊, 並根據SIL的 位置加以斷句 根據時間邊界,抽取句子 語句 轉譯文句 正確的轉譯 文句及每個 詞的時間邊界 對每個詞作 音素(模型)層 次的強迫對齊 音素(模型)的 時間邊界 5,774句 34,672句 利用雙連語言模型作詞層次的搜尋,找出機率最大的詞序列 (用來處理 破音字的問題)及每個詞的時間邊界 2019/4/22 Speech Lab. NTNU

聲學模型訓練 – 最大化相似度 2019/4/22 Speech Lab. NTNU

聲學模型訓練 – 最小化音素錯誤 2019/4/22 Speech Lab. NTNU

聲學模型調適 – 原始正確率預測模型 2019/4/22 Speech Lab. NTNU

結論 在聲學模型調適上,本論文提出了「原始正確率預測模型」用來輔助非監督式最小化音素錯誤之調適,提供較佳的音素分枝正確率估測。在聲學模型調適的實驗中,本論文初步的假設每個音素(模型)的事前機率分佈為單一高斯分佈,雖然辨識錯誤率下降的幅度有限,但是對調適的上界來說,已達到不錯的成效。 2019/4/22 Speech Lab. NTNU

Q & A