指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08

Slides:



Advertisements
Similar presentations
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
Advertisements

變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
MATLAB 程式設計 時間量測 清大資工系 多媒體資訊檢索實驗室.
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
行銷研究 單元三 次級資料的蒐集.
中二數學 第五章 : 二元一次方程 二元一次方程的圖像.
資料探勘(Data Mining)及其應用之介紹
陳維魁 博士 儒林圖書公司 第九章 資料抽象化 陳維魁 博士 儒林圖書公司.
Views ,Stored Procedures, User-defined Function, Triggers
放大器-頻率響應實驗 科系:通訊工程學系 執導老師:王志湖 學號:B 姓名:何信賢.
Signal and Systems 教師:潘欣泰.
Project 2 JMVC code tracing
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
主題五 CPU Learning Lab.
Excel資料庫分析 台灣微軟資深講師 王作桓.
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2014 Fall 1.
Chapter 4 Spanning Trees
梅爾倒頻譜係數 (Mel-frequency cepstral coefficients)
第6章組合邏輯應用實驗 6-1 編碼∕解碼器實驗 6-2 多工∕解多工器實驗 6-3 七段顯示解碼器.
SQL Stored Procedure SQL 預存程序.
信號處理.
Inverter.
Wavelet transform 指導教授:鄭仁亮 學生:曹雅婷.
視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生:顏羽君
Network Application Laboratory
TTS (文字轉語音) Roger Jang (張智星)
垃圾郵件過濾之初步研究 邱炫盛 2019/1/15.
CH03 資訊管理的智慧觀點:技術篇.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化 圖像壓縮法
TA教育訓練 微處理機系統實習.
Definition of Trace Function
虛擬傢俱館 指導老師: 高玉芬 老師 組員: B 黃琪芳 B 蔡宜眞 B 林政緯
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
小學四年級數學科 8.最大公因數.
第一次Labview就上手 參考書籍: LabVIEW for Everyone (Jeffrey Travis/Jim Kring)
工程數學 Chapter 10 Fourier Series , Integrals , and Transforms 楊學成 老師.
數位學習社群講座 工設系講師:洪漢森 老師 漫談創意與電腦繪圖 軟體學習.
田口方法應用於語音辨識 報告者:李建德.
挑戰C++程式語言 ──第8章 進一步談字元與字串
最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究
以能量為基礎之語音正規化方法研究及其於語音端點偵測之應用 On the Study of Energy-Based Approaches for Speech Feature Normalization and Apply to Voice Active Detection 指導教授:陳柏琳 博士.
共源極頻率響應 科系:通訊工程學系 執導老師:王志湖 學號:B 姓名:何信賢.
對數能量特徵正規化於語音辨識之進一步研究
以四元樹為基礎抽取圖片物件特徵 之 影像檢索
一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化 圖像壓縮法
國立台灣師範大學資訊工程研究所 語音實驗室研究簡介
計算機概論 Introduction to Computer Science
電子學實驗(三) --非反相運算放大器電路
稀疏雙反旋積非負矩陣分解法結合遮罩應用於蛙類盲訊號分離之研究
二項分配-Binomial 伯努利試驗(Bernoulli Trial) 每一次試驗皆僅有兩種可能結果,不是成功(S),就是失敗(F)。
影響計算準確度的關鍵因素 基底函數.
AM &FM simulation 通訊四甲 B 蕭惟尹.
第十二章 離散小波轉換之相關浮水印技術.
6.1 動畫檔案的格式 6.2 建立合適的動畫元素.
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
資料擷取與監控應用實務.
第一章 直角坐標系 1-3 函數及其圖形.
6-1線性轉換 6-2核心與值域 6-3轉換矩陣 6-4特徵值與特徵向量 6-5矩陣對角化
非負矩陣分解法介紹 報告者:李建德.
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化 圖像壓縮法
一 可靠度問題.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
Chapter 4 Multi-Threads (多執行緒).
11621 : Small Factors ★★☆☆☆ 題組:Problem Set Archive with Online Judge
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
指導教授:陳柏琳 博士 研究生:張志豪 報告人:陳鴻彬
醫療影像圖檔處理與投影顯示 Project L 指導教授: 東吳大學資訊科學系副教授 鄭為民老師 組員 Java 3D組 - 郭慈芬、李亭瑩
Presentation transcript:

指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08 調變頻譜特徵正規化於強健語音辨識之研究 Exploring Modulation Spectrum Normalization for Robust Speech Recognition 指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08

以機率式潛藏語意分析為基礎之調變頻譜正規化法 大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望

緒論 ASR 雜訊干擾語音訊號示意圖 語音強健技術的目標為,減緩雜訊干擾所造成的環境不匹配問 題,進而提高辨識系統的辨識效能

緒論 環境不匹配問題的解決方法: 以聲學模型為基礎(Model Based Techniques) 藉由調適語料來轉換聲學模型中的機率分布參數,以獲得和輸入的雜訊語音向量相似的分布 適用:規模較小 有彈性,但缺乏延展性 以語音特徵為基礎(Feature Based Techniques) 調整輸入的語音訊號、語音特徵向量 依對象分為 語音訊號增益法 考量人類聽覺,假設雜訊和語音訊號在統計上是不相關的 特徵向量補償法 考量提升自動語音辨識效能,補償語音特徵參數 低複雜度,只需短暫額外計算時間

緒論 綜合式(Joint Techniques) 使用Time-Frequency Mask辨別哪些為Reliable 以估測出的訊噪比程度為基準 執行方式 辨識器可容納不完整的資料 辨識前,重建遺失的區域,將頻譜圖完整化

緒論 獲取特徵時間序列與調變頻譜之示意圖 當語音訊號受到噪音干擾時,不僅會使其特徵時間序列產生失 真, 同時也會引發其時空結構(Temporal Structure)扭曲,特徵時 間序列之調變頻譜(Modulation Spectrum)為一有效描繪時空結構 之媒介。 特徵時間序列 調變頻譜 功率頻譜密度 (PSD)估算 特徵參數擷取

緒論 強健性語音特徵技術 語音特徵參數轉換法 資料相關線性語音特徵空間轉換 語音參數正規化法 昔:在時間序列域處理,目標正規化特徵值、統計分布 特徵參數時間序列之調變頻譜: 有效描繪時空結構之媒介 同時考慮語音特徵隨時變化的性質

緒論 語音特徵參數補償法 語音特徵參數重建法 調變頻譜域(SHE、SMN、SMVN) 把調變頻譜強度值,視為同一隨變數的樣本,一起正規化 時間序列域 資料相關線性語音特徵轉換 把語音特徵參數轉換到另一種語音特徵向量空間,有鑑別的鑑別資訊 語音參數正規化(CMS、MVN、RASTA、HEQ) 從測試語音特徵本身的特徵值或統計分布中消除雜訊干擾 線性正規化語音特徵值 非線性式正規化語音特徵分布 語音特徵參數重建法

緒論 綜觀大多數調變頻譜域之正規化法,皆是針對調變頻譜之統計特 性進行 本論文嘗試以一個嶄新的觀點切入,以對語音特徵之調變頻譜進 行分解與成分分析為目標,提出兩種正規化法: 以非負矩陣分解(Nonnegative Matrix Factorization, NMF)為基礎之調變頻譜正規化法 以機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)為基礎之調變頻譜正規化

以機率式潛藏語意分析為基礎之調變頻譜正規化法 大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望

調變頻譜特徵受雜訊干擾之影響情形 對於一語音特徵時間序列 而言,其調變頻譜定義如下 對於一語音特徵時間序列 而言,其調變頻譜定義如下 其中DFT為離散傅立葉轉換(Discrete Fourier Transform) 調變頻譜特性: 低頻成分(約1 Hz至16 Hz)對於與語音辨識精確度有顯著的關連 以4Hz的成分最為重要

以機率式潛藏語意分析為基礎之調變頻譜正規化法 大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望

以非負矩陣分解(NMF)為基礎 之調變頻譜正規化法 非負矩陣分解過去被廣泛運用於影像處理的人臉辨識之研究 藉由非負矩陣分解學習以部分為基礎(Parts-Based)之表示法,進行 描述語音特徵之調變頻譜強度。 非負矩陣分解企圖找尋一個線性且非消減之組合模式,並同時擷 取原始資料中較為重要之成分。 給定一個非負矩陣 ,非負矩陣分解計算另外兩個非負矩 陣 與 ,兩者關係如下式表示: 其中矩陣W所包含的r行即為基底向量, 矩陣H中的每一行則通常稱為編碼

以非負矩陣分解為基礎之調變頻譜正規化法 減損函數定義如下 為獲得上式之區域最小值,本論文採用以下之更新法則 (Multiplicative updating Rule):

以非負矩陣分解為基礎之調變頻譜正規化法 利用NMF重建語音特徵之調變頻譜強度 步驟一 使用乾淨訓練語句估算基底矩陣W 步驟二 估算任一訓練與測試強度頻譜v之 編碼向量h 步驟三 結合更新之強度頻譜 與原始相位頻譜, 進行反傅立葉轉換得到更新之特徵序列

以非負矩陣分解為基礎之調變頻譜正規化法 NMF之基底頻譜強度圖 基底頻譜表現據有區域化且稀疏之特性 基底頻譜主要分布在低於10 Hz 之頻率範圍內 經MVN處理之基底無低通基底頻譜 

以機率式潛藏語意分析為基礎之調變頻譜正規化法 大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望

以機率式潛藏語意分析(PLSA)為基礎 之調變頻譜正規化法 機率式潛藏語意分析過去是運用於資訊檢索以及語音辨識之語言 模型上 利用機率式潛藏語意分析來觀察語音特徵的時空結構,可視為一 種對於調變頻譜以機率式分解並同時進行成分分析的方法 機率式潛藏語意分析應用於調變頻譜處理,是一種使用機率模型 的方式,找出調變頻譜強度與不同語音特徵序列之間的主題資訊 透過一組潛藏的主題機率分布,描述調變頻率與調變頻譜強度之間的關係

以機率式潛藏語意分析為基礎 之調變頻譜正規化法 藉由乾淨語音特徵序列之調變頻譜強度,求取其對應 的PLSA生成模型 使用訓練語句之調變頻譜強度建立一關係矩陣 其中G與HT分別為 與 的矩陣,而K即為PLSA中預設 的潛藏主題個數 關係矩陣V中的每一個元素 被近似為: 兩大參數經由最大化訓練語句中每一個調變頻譜之對數相似度, 並以期望值最大化法(Expectation-Maximization, EM)求得

以機率式潛藏語意分析為基礎 之調變頻譜正規化法 PLSA法之程序 藉由乾淨語音特徵序列之 調變頻譜強度,求取其對 應的PLSA生成模型 利用PLSA生成模型參數,重建調變頻譜強度

以機率式潛藏語意分析為基礎 之調變頻譜正規化法 利用PLSA生成模型參數,重建調變頻譜強度 步驟一:估算任一訓練與測試強度頻譜v之主題機率分布  ,其中 步驟二:估算初步更新之調變頻譜                         ,其中 步驟三:使用模型插補法與背景模型u相結合

以機率式潛藏語意分析為基礎之調變頻譜正規化法 大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望

實驗設定 實驗之語料庫 聲學模型 語音特徵參數 每個數字以一個隱藏式馬可夫模型(Hidden Markov Model, HMM)表示 13維梅爾倒頻譜係數(MFCC),加上第一階與第二階差量係數 Aurora2.0 語音內容 英文數字單詞:One、Two、…、Nine、Zero、Oh 訓練語料 語句數:8,400 通道效應:G.712 測試語料 測試集 語句數 加成性噪音 通道效應 A 28,028 地下鐵、人聲、汽車、展覽館 G.712 B 餐廳、街道、機場、火車 C 14,014 地下鐵、街道 MIRS 訊噪比 乾淨、-5dB、0dB、5dB、10dB、15dB、20dB

NMF法與PLSA法 作用於MFCC特徵之實驗結果 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 -- NMF r=5 99.59 83.80 85.66 84.36 84.65 45.04 r=10 99.67 83.26 85.26 83.52 84.11 43.11 r=15 99.70 83.07 85.01 83.19 83.87 42.25 r=20 99.71 82.30 84.04 82.49 83.04 39.24 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 ─ ─ PLSA K=5 99.56 89.20 90.20 89.41 89.62 62.84 K=10 99.59 89.05 90.25 89.25 89.57 62.66 K=15 99.61 88.81 90.15 88.87 89.36 61.90 K=20 88.78 90.18 88.69 89.32 61.76

NMF法結合其他強健性特徵演算法 之實驗結果 80.69 88.82 89.00

PLSA法結合其他強健性特徵演算法 之實驗結果

NMF法於不同特徵參數之實驗結果

使用不同分解法之實驗結果

NMF法及PLSA法與其他強健技術之效能比較 這些技術都直接或間接地更新特徵之調變頻譜,進而強化雜訊強 健性 雖然NMF法與PLSA法之辨識效能略低於TSN,但也可使總平均辨 識率提升至90.60%與90.57% ,此顯示NMF法與PLSA法足以與現 今有名的調變頻譜更新技術在效能上並駕齊驅

PLSA法與NMF法 降低調變頻譜強度失真的效能 經過各種處理方法後之MFCC c1之功率頻譜密度(PSD)

以機率式潛藏語意分析為基礎之調變頻譜正規化法 大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望

結論與未來展望 結論 本論文以一個嶄新的觀點切入調變頻譜正規化之研究,以對調變 頻譜進行分解與成分分析為目標,提出兩種變頻譜正規化法 實驗顯示NMF法與PLSA法,皆能有效減緩雜訊所引發的失真問 題,並且顯著提昇系統之辨識率 兩種方法跟一些知名的特徵強健技術做結合,皆可進一步提升辨 識率,代表所提之新方法與許多特徵強健技術有良好的加成性

結論與未來展望 未來展望 目前非負矩陣分解之基底矩陣與編碼矩陣之初始值是由隨機產生 的,未來欲找尋其它給定初始值的方法 未來期望能嘗試將其他資料分解(Data Factorization)技術運用於調 變頻譜的分析上,進而探討其特性與優缺點 目前提出的兩種分解與分析的方法皆是以調變頻譜為處理目標, 未來欲拓展此兩項技術進行探索語音訊號其它特徵域的特性 嘗試將本論文所提出的方法,應用至不同語音辨識任務上,例如 大詞彙連續語音辨識系統(LVCSR)

謝謝

NMF法結合背景模型 作用於MFCC特徵之實驗結果 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 -- NMF r=5 99.58 89.14 90.25 89.16 89.59 62.72 r=10 99.61 90.33 89.62 62.83 r=15 88.88 90.22 88.78 89.39 61.97 r=20 88.85 90.27 88.64 89.37 61.96 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 ─ ─ PLSA K=5 99.56 89.20 90.20 89.41 89.62 62.84 K=10 99.59 89.05 90.25 89.25 89.57 62.66 K=15 99.61 88.81 90.15 88.87 89.36 61.90 K=20 88.78 90.18 88.69 89.32 61.76