對數能量特徵正規化於語音辨識之進一步研究

Slides:



Advertisements
Similar presentations
元大京華證券 組員名單 : A 楊之奇 A 廖本揚 A 宋俊承 A 陳冠廷 A 郭峻瑋 A 指導教授 : 許素華 副教授.
Advertisements

達悟族報告 作者 : 林琪崴, 許原碩 座號 :13 號,14 號 原碩負責 : 簡介, 傳說, 圖驣, 達悟族飛魚季, 琪崴 : 地理位置, 土地利用方式, 飲食文化, 豐收祭.
主讲:张天明 影像艺术工程师. 声音的聆听 指出听到的是什么物体发出的声音,这一 声音是在什么样的空间环境中传播的。 一、 答案: 1 、打气筒打气的声音 2 、手打打气筒给足球打气的声音 3 、手打打气筒给自行车轮胎打气的声音 4 、七次(七声)打气筒打气的声音 5 、(气流)摩擦的声音 6 、猪在发急时的叫声.
概念導向命題技巧與試題分析 臺灣師大地理系 陳國川. 教學評量是一種『抽樣調查』 實施教學評量時,需具備二項條件: 其一,瞭解命題的理論及其實踐的方法; 其二,瞭解各種題型的功能與命題方式。 壹、前言.
第十八章 林肯大郡 第十八章 林肯大郡災變緊急搶救應變措施 1997 年 8 月 18 日溫妮颱風襲台,汐止鎮 的林肯大郡山崩,遭崩場土石撞擊 1997 年 8 月 18 日溫妮颱風襲台,汐止鎮 的林肯大郡山崩,遭崩場土石撞擊造成二十八人罹難八十戶住宅倒塌的慘劇 此災變要喚起國人的重視 本章介紹搜救行動緊急應變措施。
高峰植物園行前解說 2005/12/07 By 羽明. 陽性先驅物種 陽性植物 --- 陽光需求量大 陰性 ( 或耐蔭性 ) 植物 --- 陽光需求量少, 或 日照太強反而無法生存 先驅植物 --- 森林大火或土石流地震後產生的 裸露空地, 先生長出來的植物.
報 告 人 : 胡 嘉 琪 ˙ˇ˙ 、 王 紫 庭 = ˇ = 台灣夜市文化 作者: 郭明澤‧私立明道高中‧綜二 4 班 馬炯修‧私立明道高中‧綜二 4 班.
5 ˙ 1 第五章 生物的協調作用 5 ‧ 1 神經系統. 5 ˙ 1 人體的神經系統 1. 協調動物生理反應的系統: 神經 系統、 內分 泌 系統。 2. 神經系統負責 統整 和 協調 。分為 中樞 神經 和 周圍 神經。 (1) 中樞神經包括 腦 和 脊髓 。 (2) 周圍 神經包括 腦神經 和.
Chap 3 微分的應用. 第三章 3.1 區間上的極值 3.2 Rolle 定理和均值定理 3.3 函數的遞增遞減以及一階導數的判定 3.4 凹面性和二階導數判定 3.5 無限遠處的極限 3.6 曲線繪圖概要 3.7 最佳化的問題 3.8 牛頓法 3.9 微分.
工職數學 第四冊 第一章 導 數 1 - 1 函數的極限與連續 1 - 2 導數及其基本性質 1 - 3 微分公式 1 - 4 高階導函數.
大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.
文学灵感论 蓦然回首,那人却在灯火阑珊处 ……. 生活中、科学中的灵感 运动鞋 电梯 阿基米德与皇冠 牛顿的三大定律.
从《西游》看大学生的成长 主讲人:颜廷学 时间: 地点:演艺大楼流行剧场.
新员工培训 设计部 思安新能源股份有限公司 主讲人: 韩少华 时 间:
前言:河流的主要功能 1. 交通運輸 優點-運費低廉,維護費用低 缺點-速度慢,裝載費時,不能到達生產區或消費區 的末端,需要轉載。 尚受到河流網路,河口位置,水量變化,河床 狀況,冰封時期 2. 水資源系統.
幽夢影~張潮 小佑子工作室 關於《幽夢影》 作者張潮,記寫他個人對人生世事之體驗透悟的 書。 書中文字,全為「語錄」形式,屬於格言,也是 最精鍊的隨筆。 全書可分為九卷:論才子佳人、論人與人生、論 朋友知己、論讀書、論閒情逸趣、論立身處世、 談文論藝、論四時佳景、論花鳥蟲魚。
成人高考高起点 语文 冲刺班 主讲老师:邓君媚. 复习指导 高考语文含四大块内容: 语言知识和语言表达,古代诗文阅读,现 代文阅读,写作。 在全面复习的前提下,按照《考试大纲》 的要求,要做好思路整理,建立高考的整体框 架的工作。认真归纳整理基础知识、培养基本 能力,复习做到有的放矢。 复习指导.
老师,我可以不 爱 吗? 山东省淄博市张店区实验中学 杜桂兰 星期一的早晨,我紧张而又兴奋,因为 我的赛教课就要开始了。 这是一次级别很 高 的竞赛。
C A D C D.
财政部 国家税务总局 中国人民银行(央行) 银监会 证监会 保监会. 法定存款准备金率 利率 税率 政府投资 楼继伟,周小川,易纲.
油蔴菜籽 指導老師:陳瑜霞 學生: 商設一甲 謝旻璇 車輛三乙 許勝傑 工管四甲 彭凱雲. 作者介紹: 廖輝英( 1948 年生)臺大中文系畢業。 從初三開始寫作,早期作品多以散文為主,大四 畢業時才暫時封筆。畢業後進了廣告界,成為廣 告文案好手,後為企畫主管,在廣告界縱橫十餘 年,也曾任職於建設公司,辦過社區報高雄一周。
蘭嶼情人洞傳說 林庭羽製 林庭羽製. 台灣的蘭花特別多,台灣有個蘭 嶼島,島上面的蘭花更多.所以 叫蘭嶼.這裡留下了動人的傳說。
職業訪談報告. 成員 : 鐘怡君 劉沛君 謝明達 賴映辰.
第四章 教育制度.
MATLAB 程式設計 時間量測 清大資工系 多媒體資訊檢索實驗室.
日期: 六 福 村.
何谓学龄期 学龄期是指6~7岁入小学起至12~14岁进入青春期为止的一个年龄段。期小儿体格生长仍稳步增长,除生殖系统外其他器官的发育到本期末已接近成人水平。 这个时期发病率较前为低,但要注意预防近视眼和龋齿,矫治慢性病灶,端正坐、立、行姿势,安排有规律的生活、学习和锻炼,保证充足的营养和休息,注意情绪和行为变化,避免思想过度紧张。
天 狗 郭沫若.
爱的表达方式.
?????? ?????? ?????? 他是我生的 我愛怎樣就怎樣 這樣對嗎? 影片欣賞.
第六章 社会主义初级阶段理论 第一节 社会主义初级阶段是我国最大的实际 第二节 社会主初级阶段的基本路线和基本纲领
大肚宮廟巡禮 下一頁.
班級:2年2班 座號:33 姓名:羅子惠 指導老師:黃源弘 資料來源:
大嶼山 香港國際機場 及 寶蓮寺.
翰林自然 六年級上學期 第二單元 聲音與樂器.
放大器-頻率響應實驗 科系:通訊工程學系 執導老師:王志湖 學號:B 姓名:何信賢.
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
青蛙物種聲紋辨識系統 參賽學生:李建德、陳家正 指導教授:陳文平 教授 農委會林業試驗所六龜研究中心 高雄應用科技大學電機工程系
點狀圖 (Dot Plot).
邏輯迴歸 Logistic Regression
在NS-2上模擬多個FTP連線,觀察頻寬的變化
視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生:顏羽君
Network Application Laboratory
Definition of Trace Function
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
學習內容 概說 損失函數 雜音:造成品質變異的原因 訊號雜音比 直交表 回應表與回應圖 田口方法.
田口方法應用於語音辨識 報告者:李建德.
最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究
以能量為基礎之語音正規化方法研究及其於語音端點偵測之應用 On the Study of Energy-Based Approaches for Speech Feature Normalization and Apply to Voice Active Detection 指導教授:陳柏琳 博士.
The Flow of PMOS’s Mobility (Part2)
指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08
HelloPurr_Extend 靜宜大學資管系 楊子青
端點偵測介紹.
國立台灣師範大學資訊工程研究所 語音實驗室研究簡介
林業試驗所六龜研究中心 國立高雄應用科技大學網路應用實驗室
第九章 布林代數與邏輯設計.
國立台灣大學 關懷弱勢族群電腦課程 By 資訊工程 黃振修
創造不一樣的人生 -如何與身心障礙者接觸 新竹教育大學 薛明里.
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
端點偵測介紹.
第一章 直角坐標系 1-3 函數及其圖形.
安裝JDK 配置windows win7 環境變數
非負矩陣分解法介紹 報告者:李建德.
一 可靠度問題.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
青 蛙 物 種 辨識系統 聲紋 行政院農業委員會林業試驗所-六龜研究中心 國立高雄應用科技大學 指導教授:陳文平 教授
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
Develop and Build Drives by Visual C++ IDE
醫療影像圖檔處理與投影顯示 Project L 指導教授: 東吳大學資訊科學系副教授 鄭為民老師 組員 Java 3D組 - 郭慈芬、李亭瑩
Presentation transcript:

對數能量特徵正規化於語音辨識之進一步研究 陳鴻彬、林士翔、陳柏琳 國立台灣師範大學資工所

綱要 研究動機 研究方法 對數能量特徵正規化實驗環境 對數能量特徵正規化實驗結果 結論

研究動機 現今自動語音辨識系統,不受噪音干擾的語音訓練語料,往往會因為環境中複雜因素的影響,造成訓練環境與測試環境存在環境不匹配的差異,使得系統辨識效能大幅度降低。 希望藉由對語音對數能量特徵參數做適當的處理與調整,以減緩雜訊干擾的影響、降低訓練環境與測試環境不匹配的情形、提升語音特徵參數本身的強健性。

對數能量特徵現象 無雜訊干擾情況下 有雜訊干擾情況下 通常一段無雜訊的語句中,有語音的段落其對數能量特徵值會較高;反之若無語音出現的段落其對數能量特徵值則會接近於零 有雜訊干擾情況下 當受到雜訊影響時將會使得對數能量產生非線性的失真 觀測後發現在對數能量較高的音框僅有輕微的影響;相反地,在對數能量較低的音框則會有嚴重的影響 log energy frame

對數能量特徵 針對語句的對數能量特徵值觀察,我們將乾淨語句與受雜訊環境干擾的語句對數能量特徵值經過排序處理 原本對數能量值較低的部分會有明顯的提升,產生非線性的失真 log energy 噪音對語音特徵參數的影響 log energy

研究方法 基於上述的觀察,本論文提出對數能量尺度重刻法 方法 使用對數轉換函數方式來對語音對數能量作正規化 目的 使原來對數能量值較低的語音音框之對數能量值降低 對數能量值較高的語音音框之對數能量值維持不變 將特徵能量值乘上其所處分位差(Quantile)區間對應的對數轉換函數值

對數能量尺度重刻法 具體作法 每一語句的所有音框中找出最大對數能量值以及最小對數能量值 根據最大對數能量值以及最小對數能量值決定值域範圍,將此範圍等份成M個分位差,取得分位差寬度 根據分位差寬度,找出每音框的對數能量所對應的分位差索引值 最後將每一音框索引值經過對數轉換函數得到正規化對數能量

對數能量尺度重刻法 對數轉換函數 論文中我們設定對數轉換函數分位差個數(M)為100 此對數轉換函數與每個分位差值所對應曲線值的如下

(1)在5db的噪音下能有效逼近clean的曲線 對數能量尺度重刻法 對數能量尺度重刻法處理前與處理後示意圖 (語音內容為:139O) (1)在5db的噪音下能有效逼近clean的曲線 (2)在5db的噪音下能有效降低噪音值 原始曲線(a) 對數能量尺度重刻法處理(b)

實驗設定 本論文實驗所使用的訓練語料和測試語料是由歐洲電信標準協會所發行的Aurora-2語料庫 訓練語料分為乾淨語料與複合情境語料(含雜訊干擾語料) 測試語料分為三組Set A、Set B和Set C Set A:乾淨語料中分別加入地下鐵、人聲、汽車和展覽會館雜訊 Set B:乾淨語料中分別加入機場、餐廳、街道和火車站雜訊 Set C:乾淨語料中分別加入二種不同特性的通道效應 前端處理(Front-End processing) 採用梅爾倒頻譜係數作為語音特徵參數,其中包含12維的梅爾倒頻譜係數以及一維的對數能量(Log Energy),同時取其一階差量係數和二階差量係數 後端辨識(Back-end recognizer) 使用HTK工具訓練與辨識聲學模型

實驗結果 實驗一 針對對數轉換函數分位差個數(M)分別設定50、100、500與1000四種尺度測試 Scale 平均字精確率 ACC(%) Set A Set B Set C 平均 乾淨語料訓練模式 50 74.10 76.71 63.08 71.30 100 74.35 76.72 63.84 71.64 500 73.49 75.32 63.77 70.86 1000 72.93 74.68 63.58 70.39 複合情境訓練模式 86.33 86.25 81.04 84.54 86.31 86.27 81.22 84.60 86.51 85.98 81.66 84.71 85.90 81.59 84.67

實驗結果 實驗二 比較對數能量尺度重刻法與幾種近年被提出用於重建乾淨語音對數能量的方法(包含:音框能量消去法,FES;對數能量動態範圍接近法,LERN;3.4 靜音音框對數能量正規化法,SLEN;動態音框能量搜尋法,ESVFR) 方法 平均字精確率 ACC(%) Set A Set B Set C 平均 乾淨語料訓練模式 MFCC 58.94 58.48 59.97 59.13 FES 70.60 71.20 60.90 67.57 LERN1 73.08 75.83 59.85 69.59 LERN2 69.93 69.87 66.55 SLEN1 63.97 68.45 50.48 60.97 SLEN2 74.59 55.85 66.79 ESVFR 68.52 69.65 61.61 66.59 LER 74.35 76.72 63.84 71.64

結論 藉由觀察語句的語音對數能量特徵在不同雜訊環境下的變化,我們提出以「對數能量尺度重刻法」來減緩噪音的影響,有效地對付不同的環境雜訊干擾 雖然目前這一個方法只適用於音框能量來處理,未來我們將嘗試將我們所提出的對數能量調整作法應用到不同的語音特徵植上。

實驗結果 實驗三 比較對數能量尺度重刻法結合倒頻譜正規化法(CMVN)與多項式擬合統計圖等化法(PHEQ)結果 方法 平均字精確率 ACC(%) Set A Set B Set C 平均 乾淨語料訓練模式 PHEQ 79.08 81.88 74.32 78.43 CMN 77.27 80.40 72.83 76.84 LER+PHEQ 79.39 81.59 74.85 78.61 LER+CMN 80.41 82.98 76.63 80.01 複合情境訓練模式 90.09 90.59 86.86 89.18 90.30 90.50 88.48 89.76 89.70 90.20 86.66 88.85 LER+CVN 90.46 90.42 88.33 89.73