指導教授陳柏琳博士研究生朱紋儀報告者汪逸婷 Lab meeting 2012/02/08

指導教授陳柏琳博士研究生朱紋儀報告者汪逸婷 Lab meeting 2012/02/08
調變頻譜特徵正規化於強健語音辨識之研究 Exploring Modulation Spectrum Normalization for Robust Speech Recognition 指導教授陳柏琳博士研究生朱紋儀報告者汪逸婷 Lab meeting 2012/02/08

以機率式潛藏語意分析為基礎之調變頻譜正規化法
大綱緒論調變頻譜特徵受雜訊干擾之影響情形以非負矩陣分解為基礎之調變頻譜正規化法以機率式潛藏語意分析為基礎之調變頻譜正規化法實驗結果與討論結論與未來展望

緒論 ASR 雜訊干擾語音訊號示意圖語音強健技術的目標為，減緩雜訊干擾所造成的環境不匹配問題，進而提高辨識系統的辨識效能

緒論環境不匹配問題的解決方法：以聲學模型為基礎(Model Based Techniques)
藉由調適語料來轉換聲學模型中的機率分布參數，以獲得和輸入的雜訊語音向量相似的分布適用：規模較小有彈性，但缺乏延展性以語音特徵為基礎(Feature Based Techniques) 調整輸入的語音訊號、語音特徵向量依對象分為語音訊號增益法考量人類聽覺，假設雜訊和語音訊號在統計上是不相關的特徵向量補償法考量提升自動語音辨識效能，補償語音特徵參數低複雜度，只需短暫額外計算時間

緒論綜合式(Joint Techniques) 使用Time-Frequency Mask辨別哪些為Reliable
以估測出的訊噪比程度為基準執行方式辨識器可容納不完整的資料辨識前，重建遺失的區域，將頻譜圖完整化

緒論獲取特徵時間序列與調變頻譜之示意圖當語音訊號受到噪音干擾時，不僅會使其特徵時間序列產生失真，同時也會引發其時空結構(Temporal Structure)扭曲，特徵時間序列之調變頻譜(Modulation Spectrum)為一有效描繪時空結構之媒介。特徵時間序列調變頻譜功率頻譜密度 (PSD)估算特徵參數擷取

緒論強健性語音特徵技術語音特徵參數轉換法資料相關線性語音特徵空間轉換語音參數正規化法
昔：在時間序列域處理，目標正規化特徵值、統計分布特徵參數時間序列之調變頻譜：有效描繪時空結構之媒介同時考慮語音特徵隨時變化的性質

緒論語音特徵參數補償法語音特徵參數重建法調變頻譜域(SHE、SMN、SMVN) 把調變頻譜強度值，視為同一隨變數的樣本，一起正規化
時間序列域資料相關線性語音特徵轉換把語音特徵參數轉換到另一種語音特徵向量空間，有鑑別的鑑別資訊語音參數正規化(CMS、MVN、RASTA、HEQ) 從測試語音特徵本身的特徵值或統計分布中消除雜訊干擾線性正規化語音特徵值非線性式正規化語音特徵分布語音特徵參數重建法

緒論綜觀大多數調變頻譜域之正規化法，皆是針對調變頻譜之統計特性進行
本論文嘗試以一個嶄新的觀點切入，以對語音特徵之調變頻譜進行分解與成分分析為目標，提出兩種正規化法：以非負矩陣分解(Nonnegative Matrix Factorization, NMF)為基礎之調變頻譜正規化法以機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)為基礎之調變頻譜正規化

調變頻譜特徵受雜訊干擾之影響情形對於一語音特徵時間序列而言，其調變頻譜定義如下
對於一語音特徵時間序列而言，其調變頻譜定義如下其中DFT為離散傅立葉轉換(Discrete Fourier Transform) 調變頻譜特性: 低頻成分(約1 Hz至16 Hz)對於與語音辨識精確度有顯著的關連以4Hz的成分最為重要

以非負矩陣分解(NMF)為基礎之調變頻譜正規化法
非負矩陣分解過去被廣泛運用於影像處理的人臉辨識之研究藉由非負矩陣分解學習以部分為基礎(Parts-Based)之表示法，進行描述語音特徵之調變頻譜強度。非負矩陣分解企圖找尋一個線性且非消減之組合模式，並同時擷取原始資料中較為重要之成分。給定一個非負矩陣，非負矩陣分解計算另外兩個非負矩陣與，兩者關係如下式表示：其中矩陣W所包含的r行即為基底向量，矩陣H中的每一行則通常稱為編碼

以非負矩陣分解為基礎之調變頻譜正規化法減損函數定義如下
為獲得上式之區域最小值，本論文採用以下之更新法則 (Multiplicative updating Rule)：

以非負矩陣分解為基礎之調變頻譜正規化法利用NMF重建語音特徵之調變頻譜強度步驟一使用乾淨訓練語句估算基底矩陣W 步驟二
估算任一訓練與測試強度頻譜v之編碼向量h 步驟三結合更新之強度頻譜與原始相位頻譜，進行反傅立葉轉換得到更新之特徵序列

以非負矩陣分解為基礎之調變頻譜正規化法 NMF之基底頻譜強度圖基底頻譜表現據有區域化且稀疏之特性
基底頻譜主要分布在低於10 Hz 之頻率範圍內經MVN處理之基底無低通基底頻譜　

以機率式潛藏語意分析(PLSA)為基礎之調變頻譜正規化法
機率式潛藏語意分析過去是運用於資訊檢索以及語音辨識之語言模型上利用機率式潛藏語意分析來觀察語音特徵的時空結構，可視為一種對於調變頻譜以機率式分解並同時進行成分分析的方法機率式潛藏語意分析應用於調變頻譜處理，是一種使用機率模型的方式，找出調變頻譜強度與不同語音特徵序列之間的主題資訊透過一組潛藏的主題機率分布，描述調變頻率與調變頻譜強度之間的關係

藉由乾淨語音特徵序列之調變頻譜強度，求取其對應的PLSA生成模型使用訓練語句之調變頻譜強度建立一關係矩陣其中G與HT分別為與的矩陣，而K即為PLSA中預設的潛藏主題個數關係矩陣V中的每一個元素被近似為：兩大參數經由最大化訓練語句中每一個調變頻譜之對數相似度，並以期望值最大化法(Expectation-Maximization, EM)求得

PLSA法之程序藉由乾淨語音特徵序列之調變頻譜強度，求取其對應的PLSA生成模型利用PLSA生成模型參數，重建調變頻譜強度

利用PLSA生成模型參數，重建調變頻譜強度步驟一：估算任一訓練與測試強度頻譜v之主題機率分布　，其中步驟二：估算初步更新之調變頻譜　　　　　　　　　　　　　　　　　　　　　　，其中步驟三：使用模型插補法與背景模型u相結合

實驗設定實驗之語料庫聲學模型語音特徵參數每個數字以一個隱藏式馬可夫模型(Hidden Markov Model, HMM)表示
13維梅爾倒頻譜係數(MFCC)，加上第一階與第二階差量係數 Aurora2.0 語音內容英文數字單詞：One、Two、…、Nine、Zero、Oh 訓練語料語句數：8, 通道效應：G.712 測試語料測試集語句數加成性噪音通道效應 A 28,028 地下鐵、人聲、汽車、展覽館 G.712 B 餐廳、街道、機場、火車 C 14,014 地下鐵、街道 MIRS 訊噪比乾淨、-5dB、0dB、5dB、10dB、15dB、20dB

NMF法與PLSA法作用於MFCC特徵之實驗結果
平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 －－ NMF r=5 99.59 83.80 85.66 84.36 84.65 45.04 r=10 99.67 83.26 85.26 83.52 84.11 43.11 r=15 99.70 83.07 85.01 83.19 83.87 42.25 r=20 99.71 82.30 84.04 82.49 83.04 39.24 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 ─ ─ PLSA K=5 99.56 89.20 90.20 89.41 89.62 62.84 K=10 99.59 89.05 90.25 89.25 89.57 62.66 K=15 99.61 88.81 90.15 88.87 89.36 61.90 K=20 88.78 90.18 88.69 89.32 61.76

NMF法結合其他強健性特徵演算法之實驗結果
80.69 88.82 89.00

PLSA法結合其他強健性特徵演算法之實驗結果

NMF法於不同特徵參數之實驗結果

使用不同分解法之實驗結果

NMF法及PLSA法與其他強健技術之效能比較
這些技術都直接或間接地更新特徵之調變頻譜，進而強化雜訊強健性雖然NMF法與PLSA法之辨識效能略低於TSN，但也可使總平均辨識率提升至90.60%與90.57% ，此顯示NMF法與PLSA法足以與現今有名的調變頻譜更新技術在效能上並駕齊驅

PLSA法與NMF法降低調變頻譜強度失真的效能
經過各種處理方法後之MFCC c1之功率頻譜密度(PSD)

結論與未來展望結論本論文以一個嶄新的觀點切入調變頻譜正規化之研究，以對調變頻譜進行分解與成分分析為目標，提出兩種變頻譜正規化法
實驗顯示NMF法與PLSA法，皆能有效減緩雜訊所引發的失真問題，並且顯著提昇系統之辨識率兩種方法跟一些知名的特徵強健技術做結合，皆可進一步提升辨識率，代表所提之新方法與許多特徵強健技術有良好的加成性

結論與未來展望未來展望目前非負矩陣分解之基底矩陣與編碼矩陣之初始值是由隨機產生的，未來欲找尋其它給定初始值的方法
未來期望能嘗試將其他資料分解(Data Factorization)技術運用於調變頻譜的分析上，進而探討其特性與優缺點目前提出的兩種分解與分析的方法皆是以調變頻譜為處理目標，未來欲拓展此兩項技術進行探索語音訊號其它特徵域的特性嘗試將本論文所提出的方法，應用至不同語音辨識任務上，例如大詞彙連續語音辨識系統(LVCSR)

謝謝

NMF法結合背景模型作用於MFCC特徵之實驗結果
平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 －－ NMF r=5 99.58 89.14 90.25 89.16 89.59 62.72 r=10 99.61 90.33 89.62 62.83 r=15 88.88 90.22 88.78 89.39 61.97 r=20 88.85 90.27 88.64 89.37 61.96 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 ─ ─ PLSA K=5 99.56 89.20 90.20 89.41 89.62 62.84 K=10 99.59 89.05 90.25 89.25 89.57 62.66 K=15 99.61 88.81 90.15 88.87 89.36 61.90 K=20 88.78 90.18 88.69 89.32 61.76

指導教授陳柏琳博士研究生朱紋儀報告者汪逸婷 Lab meeting 2012/02/08

Similar presentations

Presentation on theme: "指導教授陳柏琳博士研究生朱紋儀報告者汪逸婷 Lab meeting 2012/02/08"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08

Similar presentations

Presentation on theme: "指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08"— Presentation transcript:

Similar presentations

About project

反馈

指導教授陳柏琳博士研究生朱紋儀報告者汪逸婷 Lab meeting 2012/02/08

Presentation on theme: "指導教授陳柏琳博士研究生朱紋儀報告者汪逸婷 Lab meeting 2012/02/08"— Presentation transcript: