基於聯合因子分析與麥克風陣列之強健性語音辨認 Speaker: Wei-Te Fang & Hao-Cheng Chiang National Taipei University of Technology Professor: Yuan-Fu Liao
Overview Joint Factor Analysis (JFA) for Robust Speech Recognition Advanced Microphone Array and ASR Integration Noise - Phase Error Filtering Reverberation - Subband Filtering-and-Sum
Joint Factor Analysis (JFA) for Robust Speech Recognition National Taipei University of Technology Professor: Yuan-Fu Liao
Overview 1.Introduction 2. Joint Factor Analysis (JFA) 雜訊因素 傳統解決方法 2. Joint Factor Analysis (JFA) 數學模型 3.JFA for robust speech recognition Case1:環境,語者 Case2:環境,語者,說話內容 Case3:環境,語者,說話內容,語音屬性 4.Summary
Introduction 語音辨認系統干擾因素 強健性語音參數求取 先驗知識的調適語音模型 語者特性 雜訊環境 通道效應 測試環境和訓練環境不匹配 強健性語音參數求取 Mean subtraction, Variance normalization, ARMA filtering (MVA) Histogram Equalization (HEQ) 先驗知識的調適語音模型 Reference Model Weighting (RMW) Eigen-Maximum Likelihood Linear Regression (EMLLR) Reference Eigen-Environment and Speaker Weighting (RESW) Probabilistic principal component analysis-Maximun Likelihood Linear Regresstion (PMLLR)
JFA for Speaker Verification 常用的方法: UBM + GMM 古典MAP Eigen-voice Eigen-channel 語者空間 通道空間 語者相依 通道相依
JFA系統流程 Speaker model UBM model
Case1 :考慮環境,語者影響 JFA model表示: 語者空間 環境空間 語者相依 環境相依
JFA系統流程
實驗一 實驗設定 語料庫:Aurora2 語音內容: 加成性雜訊: one, two, three, four, five, six, seven, eight, nine, zero, oh 加成性雜訊: 地下鐵雜訊、人聲雜訊、汽車雜訊、展覽會館雜訊、餐廳雜訊、街道雜訊、機場雜訊及火車站雜訊 clean、SNR20 ~ -5 dB
JFA實驗設定 語者110人 雜訊28種 實驗維度設定 男生55、女生55 雜訊類型(N1~N4)*SNR(clean~ -5 dB) 語者55維、雜訊14維 語者55維、雜訊20維 語者55維、雜訊24維 語者60維、雜訊20維 語者70維、雜訊20維
JFA語者特徵空間投影圖 語者空間前置分析
JFA之雜訊特徵空間投影圖 雜訊空間前置分析
測試環境之綜合比較 測試環境效能比較
Case2 :考慮環境,語者,說話內容影響 環境空間 語者空間 說話內容空間 JFA model表示:(假設說話內容特徵空間為g,隱藏變數r(s)) 語者空間 環境空間 語者相依 環境相依 說話內容相依 說話內容空間
JFA系統流程 Estimate g
加入說話內容之概念 說話內容: oh,zero,one,two,three,four,five,six,seven,eight,nine 以oh ,zero ~ nine共11個音當作一個model 假設說話內容特徵空間為g,隱藏變數r(s),則 M (s)= m+ux (s)+vy(s)+gr(s)+dz(s) 加入特徵空間g變數估算方法同v,u,d算法
JFA之語音內容特徵空間投影圖 語音內容特徵空間投影圖之分析
實驗二之實驗結果 實驗設定 固定語者(S) 55維,語音內容(T) 6維,雜訊(N)14維、20維、24維 S 55、T 6、N 14 MVA 錯誤率 4.54 % 4.43 % 4.61 % 4.99%
Case3 :考慮環境,語者,說話內容,語音 屬性影響 以語音屬性內容為model做attribute detectors JFA model 表示:(假設語音屬性特徵空間為a,隱藏變數q(s)) 語者相依 環境相依 說話內容相依 語音屬性相依 語者空間 環境空間 說話內容空間 語音屬性空間
JFA系統流程 Estimate g Estimate a
加入語音屬性之概念 以語音屬性為單位當作一個model 加入特徵空間a變數估算方法同v,u,d,g算法
Automatic Speech Attribute Transcription (ASAT) N-Best Rescoring
Summary 實驗結果顯示,JFA方法優於其他系統。 可知正確考慮雜訊空間,即越接近實際雜訊情形,即可得到更正確之辨認結果。 未來JFA加入語音屬性之後,就可以實現robust speech attribute-based speech recognition。