基於聯合因子分析與麥克風陣列之強健性語音辨認

基於聯合因子分析與麥克風陣列之強健性語音辨認
Speaker: Wei-Te Fang & Hao-Cheng Chiang National Taipei University of Technology Professor: Yuan-Fu Liao

Overview Joint Factor Analysis (JFA) for Robust Speech Recognition
Advanced Microphone Array and ASR Integration Noise - Phase Error Filtering Reverberation - Subband Filtering-and-Sum

Joint Factor Analysis (JFA) for Robust Speech Recognition
National Taipei University of Technology Professor: Yuan-Fu Liao

Overview 1.Introduction 2. Joint Factor Analysis (JFA)
雜訊因素傳統解決方法 2. Joint Factor Analysis (JFA) 數學模型 3.JFA for robust speech recognition Case1:環境，語者 Case2:環境，語者，說話內容 Case3:環境，語者，說話內容，語音屬性 4.Summary

Introduction 語音辨認系統干擾因素強健性語音參數求取先驗知識的調適語音模型語者特性雜訊環境通道效應
測試環境和訓練環境不匹配強健性語音參數求取 Mean subtraction, Variance normalization, ARMA filtering (MVA) Histogram Equalization (HEQ) 先驗知識的調適語音模型 Reference Model Weighting (RMW) Eigen-Maximum Likelihood Linear Regression (EMLLR) Reference Eigen-Environment and Speaker Weighting (RESW) Probabilistic principal component analysis-Maximun Likelihood Linear Regresstion (PMLLR)

JFA for Speaker Verification
常用的方法: UBM + GMM 古典MAP Eigen-voice Eigen-channel 語者空間通道空間語者相依通道相依

JFA系統流程 Speaker model UBM model

Case1 :考慮環境，語者影響 JFA model表示: 語者空間環境空間語者相依環境相依

JFA系統流程

實驗一實驗設定語料庫:Aurora2 語音內容：加成性雜訊：
one, two, three, four, five, six, seven, eight, nine, zero, oh 加成性雜訊：地下鐵雜訊、人聲雜訊、汽車雜訊、展覽會館雜訊、餐廳雜訊、街道雜訊、機場雜訊及火車站雜訊 clean、SNR20 ～ -5 dB

JFA實驗設定語者110人雜訊28種實驗維度設定男生55、女生55 雜訊類型（N1~N4）*SNR（clean~ -5 dB）
語者55維、雜訊14維語者55維、雜訊20維語者55維、雜訊24維語者60維、雜訊20維語者70維、雜訊20維

JFA語者特徵空間投影圖語者空間前置分析

JFA之雜訊特徵空間投影圖雜訊空間前置分析

測試環境之綜合比較測試環境效能比較

Case2 :考慮環境，語者，說話內容影響環境空間語者空間說話內容空間
JFA model表示:(假設說話內容特徵空間為g,隱藏變數r(s)) 語者空間環境空間語者相依環境相依說話內容相依說話內容空間

JFA系統流程 Estimate g

加入說話內容之概念說話內容: oh,zero,one,two,three,four,five,six,seven,eight,nine
以oh ,zero ~ nine共11個音當作一個model 假設說話內容特徵空間為g,隱藏變數r(s),則 M (s)= m+ux (s)+vy(s)+gr(s)+dz(s) 加入特徵空間g變數估算方法同v,u,d算法

JFA之語音內容特徵空間投影圖語音內容特徵空間投影圖之分析

實驗二之實驗結果實驗設定固定語者(S) 55維，語音內容(T) 6維，雜訊(N)14維、20維、24維 S 55、T 6、N 14
MVA 錯誤率 4.54 % 4.43 % 4.61 % 4.99%

Case3 :考慮環境，語者，說話內容，語音屬性影響
以語音屬性內容為model做attribute detectors JFA model 表示:(假設語音屬性特徵空間為a,隱藏變數q(s)) 語者相依環境相依說話內容相依語音屬性相依語者空間環境空間說話內容空間語音屬性空間

JFA系統流程 Estimate g Estimate a

加入語音屬性之概念以語音屬性為單位當作一個model 加入特徵空間a變數估算方法同v,u,d,g算法

Automatic Speech Attribute Transcription (ASAT)
N-Best Rescoring

Summary 實驗結果顯示，JFA方法優於其他系統。可知正確考慮雜訊空間，即越接近實際雜訊情形，即可得到更正確之辨認結果。
未來JFA加入語音屬性之後，就可以實現robust speech attribute-based speech recognition。

基於聯合因子分析與麥克風陣列之強健性語音辨認

Similar presentations

Presentation on theme: "基於聯合因子分析與麥克風陣列之強健性語音辨認"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

基於聯合因子分析與麥克風陣列之強健性語音辨認

Similar presentations

Presentation on theme: "基於聯合因子分析與麥克風陣列之強健性語音辨認"— Presentation transcript:

Similar presentations

About project

反馈