Download presentation
Presentation is loading. Please wait.
1
指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08
調變頻譜特徵正規化於強健語音辨識之研究 Exploring Modulation Spectrum Normalization for Robust Speech Recognition 指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08
2
以機率式潛藏語意分析為基礎之調變頻譜正規化法
大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望
3
緒論 ASR 雜訊干擾語音訊號示意圖 語音強健技術的目標為,減緩雜訊干擾所造成的環境不匹配問 題,進而提高辨識系統的辨識效能
4
緒論 環境不匹配問題的解決方法: 以聲學模型為基礎(Model Based Techniques)
藉由調適語料來轉換聲學模型中的機率分布參數,以獲得和輸入的雜訊語音向量相似的分布 適用:規模較小 有彈性,但缺乏延展性 以語音特徵為基礎(Feature Based Techniques) 調整輸入的語音訊號、語音特徵向量 依對象分為 語音訊號增益法 考量人類聽覺,假設雜訊和語音訊號在統計上是不相關的 特徵向量補償法 考量提升自動語音辨識效能,補償語音特徵參數 低複雜度,只需短暫額外計算時間
5
緒論 綜合式(Joint Techniques) 使用Time-Frequency Mask辨別哪些為Reliable
以估測出的訊噪比程度為基準 執行方式 辨識器可容納不完整的資料 辨識前,重建遺失的區域,將頻譜圖完整化
6
緒論 獲取特徵時間序列與調變頻譜之示意圖 當語音訊號受到噪音干擾時,不僅會使其特徵時間序列產生失 真, 同時也會引發其時空結構(Temporal Structure)扭曲,特徵時 間序列之調變頻譜(Modulation Spectrum)為一有效描繪時空結構 之媒介。 特徵時間序列 調變頻譜 功率頻譜密度 (PSD)估算 特徵參數擷取
7
緒論 強健性語音特徵技術 語音特徵參數轉換法 資料相關線性語音特徵空間轉換 語音參數正規化法
昔:在時間序列域處理,目標正規化特徵值、統計分布 特徵參數時間序列之調變頻譜: 有效描繪時空結構之媒介 同時考慮語音特徵隨時變化的性質
8
緒論 語音特徵參數補償法 語音特徵參數重建法 調變頻譜域(SHE、SMN、SMVN) 把調變頻譜強度值,視為同一隨變數的樣本,一起正規化
時間序列域 資料相關線性語音特徵轉換 把語音特徵參數轉換到另一種語音特徵向量空間,有鑑別的鑑別資訊 語音參數正規化(CMS、MVN、RASTA、HEQ) 從測試語音特徵本身的特徵值或統計分布中消除雜訊干擾 線性正規化語音特徵值 非線性式正規化語音特徵分布 語音特徵參數重建法
9
緒論 綜觀大多數調變頻譜域之正規化法,皆是針對調變頻譜之統計特 性進行
本論文嘗試以一個嶄新的觀點切入,以對語音特徵之調變頻譜進 行分解與成分分析為目標,提出兩種正規化法: 以非負矩陣分解(Nonnegative Matrix Factorization, NMF)為基礎之調變頻譜正規化法 以機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)為基礎之調變頻譜正規化
10
以機率式潛藏語意分析為基礎之調變頻譜正規化法
大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望
11
調變頻譜特徵受雜訊干擾之影響情形 對於一語音特徵時間序列 而言,其調變頻譜定義如下
對於一語音特徵時間序列 而言,其調變頻譜定義如下 其中DFT為離散傅立葉轉換(Discrete Fourier Transform) 調變頻譜特性: 低頻成分(約1 Hz至16 Hz)對於與語音辨識精確度有顯著的關連 以4Hz的成分最為重要
12
以機率式潛藏語意分析為基礎之調變頻譜正規化法
大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望
13
以非負矩陣分解(NMF)為基礎 之調變頻譜正規化法
非負矩陣分解過去被廣泛運用於影像處理的人臉辨識之研究 藉由非負矩陣分解學習以部分為基礎(Parts-Based)之表示法,進行 描述語音特徵之調變頻譜強度。 非負矩陣分解企圖找尋一個線性且非消減之組合模式,並同時擷 取原始資料中較為重要之成分。 給定一個非負矩陣 ,非負矩陣分解計算另外兩個非負矩 陣 與 ,兩者關係如下式表示: 其中矩陣W所包含的r行即為基底向量, 矩陣H中的每一行則通常稱為編碼
14
以非負矩陣分解為基礎之調變頻譜正規化法 減損函數定義如下
為獲得上式之區域最小值,本論文採用以下之更新法則 (Multiplicative updating Rule):
15
以非負矩陣分解為基礎之調變頻譜正規化法 利用NMF重建語音特徵之調變頻譜強度 步驟一 使用乾淨訓練語句估算基底矩陣W 步驟二
估算任一訓練與測試強度頻譜v之 編碼向量h 步驟三 結合更新之強度頻譜 與原始相位頻譜, 進行反傅立葉轉換得到更新之特徵序列
16
以非負矩陣分解為基礎之調變頻譜正規化法 NMF之基底頻譜強度圖 基底頻譜表現據有區域化且稀疏之特性
基底頻譜主要分布在低於10 Hz 之頻率範圍內 經MVN處理之基底無低通基底頻譜
17
以機率式潛藏語意分析為基礎之調變頻譜正規化法
大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望
18
以機率式潛藏語意分析(PLSA)為基礎 之調變頻譜正規化法
機率式潛藏語意分析過去是運用於資訊檢索以及語音辨識之語言 模型上 利用機率式潛藏語意分析來觀察語音特徵的時空結構,可視為一 種對於調變頻譜以機率式分解並同時進行成分分析的方法 機率式潛藏語意分析應用於調變頻譜處理,是一種使用機率模型 的方式,找出調變頻譜強度與不同語音特徵序列之間的主題資訊 透過一組潛藏的主題機率分布,描述調變頻率與調變頻譜強度之間的關係
19
以機率式潛藏語意分析為基礎 之調變頻譜正規化法
藉由乾淨語音特徵序列之調變頻譜強度,求取其對應 的PLSA生成模型 使用訓練語句之調變頻譜強度建立一關係矩陣 其中G與HT分別為 與 的矩陣,而K即為PLSA中預設 的潛藏主題個數 關係矩陣V中的每一個元素 被近似為: 兩大參數經由最大化訓練語句中每一個調變頻譜之對數相似度, 並以期望值最大化法(Expectation-Maximization, EM)求得
20
以機率式潛藏語意分析為基礎 之調變頻譜正規化法
PLSA法之程序 藉由乾淨語音特徵序列之 調變頻譜強度,求取其對 應的PLSA生成模型 利用PLSA生成模型參數,重建調變頻譜強度
21
以機率式潛藏語意分析為基礎 之調變頻譜正規化法
利用PLSA生成模型參數,重建調變頻譜強度 步驟一:估算任一訓練與測試強度頻譜v之主題機率分布 ,其中 步驟二:估算初步更新之調變頻譜 ,其中 步驟三:使用模型插補法與背景模型u相結合
22
以機率式潛藏語意分析為基礎之調變頻譜正規化法
大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望
23
實驗設定 實驗之語料庫 聲學模型 語音特徵參數 每個數字以一個隱藏式馬可夫模型(Hidden Markov Model, HMM)表示
13維梅爾倒頻譜係數(MFCC),加上第一階與第二階差量係數 Aurora2.0 語音內容 英文數字單詞:One、Two、…、Nine、Zero、Oh 訓練語料 語句數:8, 通道效應:G.712 測試語料 測試集 語句數 加成性噪音 通道效應 A 28,028 地下鐵、人聲、汽車、展覽館 G.712 B 餐廳、街道、機場、火車 C 14,014 地下鐵、街道 MIRS 訊噪比 乾淨、-5dB、0dB、5dB、10dB、15dB、20dB
24
NMF法與PLSA法 作用於MFCC特徵之實驗結果
平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 -- NMF r=5 99.59 83.80 85.66 84.36 84.65 45.04 r=10 99.67 83.26 85.26 83.52 84.11 43.11 r=15 99.70 83.07 85.01 83.19 83.87 42.25 r=20 99.71 82.30 84.04 82.49 83.04 39.24 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 ─ ─ PLSA K=5 99.56 89.20 90.20 89.41 89.62 62.84 K=10 99.59 89.05 90.25 89.25 89.57 62.66 K=15 99.61 88.81 90.15 88.87 89.36 61.90 K=20 88.78 90.18 88.69 89.32 61.76
25
NMF法結合其他強健性特徵演算法 之實驗結果
80.69 88.82 89.00
26
PLSA法結合其他強健性特徵演算法 之實驗結果
27
NMF法於不同特徵參數之實驗結果
28
使用不同分解法之實驗結果
29
NMF法及PLSA法與其他強健技術之效能比較
這些技術都直接或間接地更新特徵之調變頻譜,進而強化雜訊強 健性 雖然NMF法與PLSA法之辨識效能略低於TSN,但也可使總平均辨 識率提升至90.60%與90.57% ,此顯示NMF法與PLSA法足以與現 今有名的調變頻譜更新技術在效能上並駕齊驅
30
PLSA法與NMF法 降低調變頻譜強度失真的效能
經過各種處理方法後之MFCC c1之功率頻譜密度(PSD)
31
以機率式潛藏語意分析為基礎之調變頻譜正規化法
大綱 緒論 調變頻譜特徵受雜訊干擾之影響情形 以非負矩陣分解為基礎之調變頻譜正規化法 以機率式潛藏語意分析為基礎之調變頻譜正規化法 實驗結果與討論 結論與未來展望
32
結論與未來展望 結論 本論文以一個嶄新的觀點切入調變頻譜正規化之研究,以對調變 頻譜進行分解與成分分析為目標,提出兩種變頻譜正規化法
實驗顯示NMF法與PLSA法,皆能有效減緩雜訊所引發的失真問 題,並且顯著提昇系統之辨識率 兩種方法跟一些知名的特徵強健技術做結合,皆可進一步提升辨 識率,代表所提之新方法與許多特徵強健技術有良好的加成性
33
結論與未來展望 未來展望 目前非負矩陣分解之基底矩陣與編碼矩陣之初始值是由隨機產生 的,未來欲找尋其它給定初始值的方法
未來期望能嘗試將其他資料分解(Data Factorization)技術運用於調 變頻譜的分析上,進而探討其特性與優缺點 目前提出的兩種分解與分析的方法皆是以調變頻譜為處理目標, 未來欲拓展此兩項技術進行探索語音訊號其它特徵域的特性 嘗試將本論文所提出的方法,應用至不同語音辨識任務上,例如 大詞彙連續語音辨識系統(LVCSR)
34
謝謝
35
NMF法結合背景模型 作用於MFCC特徵之實驗結果
平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 -- NMF r=5 99.58 89.14 90.25 89.16 89.59 62.72 r=10 99.61 90.33 89.62 62.83 r=15 88.88 90.22 88.78 89.39 61.97 r=20 88.85 90.27 88.64 89.37 61.96 平均詞正確率(%) Clean Set A Set B Set C Avg. RR MFCC baseline 99.79 72.46 68.31 78.82 72.07 ─ ─ PLSA K=5 99.56 89.20 90.20 89.41 89.62 62.84 K=10 99.59 89.05 90.25 89.25 89.57 62.66 K=15 99.61 88.81 90.15 88.87 89.36 61.90 K=20 88.78 90.18 88.69 89.32 61.76
Similar presentations