Presentation is loading. Please wait.

Presentation is loading. Please wait.

基於聯合因子分析與麥克風陣列之強健性語音辨認

Similar presentations


Presentation on theme: "基於聯合因子分析與麥克風陣列之強健性語音辨認"— Presentation transcript:

1 基於聯合因子分析與麥克風陣列之強健性語音辨認
Speaker: Wei-Te Fang & Hao-Cheng Chiang National Taipei University of Technology Professor: Yuan-Fu Liao

2 Overview Joint Factor Analysis (JFA) for Robust Speech Recognition
Advanced Microphone Array and ASR Integration Noise - Phase Error Filtering Reverberation - Subband Filtering-and-Sum

3 Joint Factor Analysis (JFA) for Robust Speech Recognition
National Taipei University of Technology Professor: Yuan-Fu Liao

4 Overview 1.Introduction 2. Joint Factor Analysis (JFA)
雜訊因素 傳統解決方法 2. Joint Factor Analysis (JFA) 數學模型 3.JFA for robust speech recognition Case1:環境,語者 Case2:環境,語者,說話內容 Case3:環境,語者,說話內容,語音屬性 4.Summary

5 Introduction 語音辨認系統干擾因素 強健性語音參數求取 先驗知識的調適語音模型 語者特性 雜訊環境 通道效應
測試環境和訓練環境不匹配 強健性語音參數求取 Mean subtraction, Variance normalization, ARMA filtering (MVA) Histogram Equalization (HEQ) 先驗知識的調適語音模型 Reference Model Weighting (RMW) Eigen-Maximum Likelihood Linear Regression (EMLLR) Reference Eigen-Environment and Speaker Weighting (RESW) Probabilistic principal component analysis-Maximun Likelihood Linear Regresstion (PMLLR)

6 JFA for Speaker Verification
常用的方法: UBM + GMM 古典MAP Eigen-voice Eigen-channel 語者空間 通道空間 語者相依 通道相依

7 JFA系統流程 Speaker model UBM model

8 Case1 :考慮環境,語者影響 JFA model表示: 語者空間 環境空間 語者相依 環境相依

9 JFA系統流程

10 實驗一 實驗設定 語料庫:Aurora2 語音內容: 加成性雜訊:
one, two, three, four, five, six, seven, eight, nine, zero, oh 加成性雜訊: 地下鐵雜訊、人聲雜訊、汽車雜訊、展覽會館雜訊、餐廳雜訊、街道雜訊、機場雜訊及火車站雜訊 clean、SNR20 ~ -5 dB

11 JFA實驗設定 語者110人 雜訊28種 實驗維度設定 男生55、女生55 雜訊類型(N1~N4)*SNR(clean~ -5 dB)
語者55維、雜訊14維 語者55維、雜訊20維 語者55維、雜訊24維 語者60維、雜訊20維 語者70維、雜訊20維

12 JFA語者特徵空間投影圖 語者空間前置分析

13 JFA之雜訊特徵空間投影圖 雜訊空間前置分析

14 測試環境之綜合比較 測試環境效能比較

15 Case2 :考慮環境,語者,說話內容影響 環境空間 語者空間 說話內容空間
JFA model表示:(假設說話內容特徵空間為g,隱藏變數r(s)) 語者空間 環境空間 語者相依 環境相依 說話內容相依 說話內容空間

16 JFA系統流程 Estimate g

17 加入說話內容之概念 說話內容: oh,zero,one,two,three,four,five,six,seven,eight,nine
以oh ,zero ~ nine共11個音當作一個model 假設說話內容特徵空間為g,隱藏變數r(s),則 M (s)= m+ux (s)+vy(s)+gr(s)+dz(s) 加入特徵空間g變數估算方法同v,u,d算法

18 JFA之語音內容特徵空間投影圖 語音內容特徵空間投影圖之分析

19 實驗二之實驗結果 實驗設定 固定語者(S) 55維,語音內容(T) 6維,雜訊(N)14維、20維、24維 S 55、T 6、N 14
MVA 錯誤率 4.54 % 4.43 % 4.61 % 4.99%

20 Case3 :考慮環境,語者,說話內容,語音 屬性影響
以語音屬性內容為model做attribute detectors JFA model 表示:(假設語音屬性特徵空間為a,隱藏變數q(s)) 語者相依 環境相依 說話內容相依 語音屬性相依 語者空間 環境空間 說話內容空間 語音屬性空間

21 JFA系統流程 Estimate g Estimate a

22 加入語音屬性之概念 以語音屬性為單位當作一個model 加入特徵空間a變數估算方法同v,u,d,g算法

23 Automatic Speech Attribute Transcription (ASAT)
N-Best Rescoring

24 Summary 實驗結果顯示,JFA方法優於其他系統。 可知正確考慮雜訊空間,即越接近實際雜訊情形,即可得到更正確之辨認結果。
未來JFA加入語音屬性之後,就可以實現robust speech attribute-based speech recognition。


Download ppt "基於聯合因子分析與麥克風陣列之強健性語音辨認"

Similar presentations


Ads by Google