指導教授:陳柏琳 博士 研究生:張志豪 報告人:陳鴻彬 強健性和鑑別力語音特徵擷取技術 於大詞彙連續語音辨識之研究 Robust And Discriminative Feature Extraction Techniques For Large Vocabulary Continuous Speech Recognition 指導教授:陳柏琳 博士 研究生:張志豪 報告人:陳鴻彬 多酌墨在數學式的物理意義及精神。 老師、各位口試委員、各位同學大家好。 學生是張志豪,指導教授為陳柏琳博士。 今天要報告的是畢業論文,題目為強健性和鑑別力語音特徵擷取技術於大詞彙連續語音辨識之研究。
綱要 簡介-研究動機 研究內容 實驗環境 實驗結果 結論 多種資料相關線性轉換求取不同的語音特徵 比較不同的語音特徵在自由音節辨識及中文大詞彙連續語音辨識中的效果 實驗結果 結論
簡介-研究動機 辨識鑑別力 資料量降維 語音辨識系統基本上可看作分類(Classification)問題。 如果特徵擷取出的特徵向量可以帶有很高的鑑別力,分類的結果必然比較精準 資料量降維 語音辨識中,後端分類器常使用隱藏式馬可夫模型(HMM),其中特徵向量一般設定為39維,則原本一個高斯分佈需儲存39+39X39個值 若假設隱藏式馬可夫模型共變異矩陣為對角化,最後只需要儲存39+39個值,既可達到增加辨識速度及減少記憶體需求 本論文中皆假設HMM內高斯分佈的共變異矩陣為對角化
研究內容 資料相關線性轉換的研究 主成份分析 Principal Component Analysis, PCA 線性鑑別分析 Linear Discriminant Analysis, LDA 異質性線性鑑別分析 Heteroscedastic Linear Discriminant Analysis, HLDA 最大相似度線性轉換 Maximum Likelihood Linear Transform, MLLT 最小分類錯誤對角化異質性線性鑑別分析 Minimum Classification Error Diagonal Heteroscedastic Linear Discriminant Analysis, MCE-DHLDA 最大交互訊息對角化異質性線性鑑別分析 Maximum Mutual Information Diagonal Heteroscedastic Linear Discriminant Analysis, MMI-DHLDA 非監督式(unsupervise),不需要類別的標記資訊,容易實作。 監督式(supervise),需要使用類別的標記資訊。來統計類別的分佈。不同類別單位影響很大。實驗以HMM的狀態為類別單位。
研究內容 cont. 應用不同方法的資料相關線性轉換來擷取不同的語音特徵,或與不同的語音特徵作結合 實作資料相關線性轉換於中文 自由音節辨識(Free Syllable Decoding) 中文為一字一音節 音節可以隨意串接 也沒有考慮文法 大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR) 音節需依循詞的結構 使用語言模型 試驗前端語音特徵擷取對於大詞彙連續語音辨識的影響 ㄏㄠ ㄏㄣ ㄑ一 ㄒㄧㄢ ㄊㄧㄢ ㄐㄧㄣ 今天_天氣_很好 今天_仙氣_很好
研究內容-主成份分析(PCA) 利用線性轉換將維度間為相關(Correlated)的一群特徵向量用較少維度來表示,且使得維度間變成彼此無關(Uncorrelated),同時仍能盡量保有特徵向量的變異量(Variation) 對 T 求特徵向量分解(Eigenvector Decomposition),以特徵值(Eigenvalue)最大的前p個特徵向量 (Eigenvector)當成轉換矩陣 首先針對資料相關線性轉換作介紹。 第一個介紹的為主成份分析,簡稱為PCA。PCA在圖樣識別中為很常見的技術, 其主要精神為藉由線性轉換來作降維,並且盡量保留資料群的變異量,且轉換後維度間變成彼此無關。 作法為對所有特徵向量來統計整體共變異矩陣T,對T求特徵向量分解,以特徵值最大的前p個特徵向量當成轉換矩陣。 最後,新的特徵向量就由轉換矩陣和原本特徵向量作線性轉換而得。 只有在T會滿足維度間彼此無關。各個類別內,維度間還是為相關。 不滿足HMM共變異矩陣對角化的假設。
研究內容-主成份分析(PCA) cont. 主成份分析示意圖 投影在第一主成份基底向量的資料擁有最大的變異量,投影在第二主成份基底擁有次大的變異量,且基底向量間各自為單位正交(Orthonormal) X軸 Y軸 第一主成份基底 第二主成份基底 資料群 變異量方向
研究內容-線性鑑別分析(LDA) 目標 事前假設 經線性轉換後特徵之間可以保有最大的分類鑑別資訊。所以希望轉換後類別內的分佈越凝聚越好,而類別間的分佈距離越遠越好。 事前假設 每個類別都是高斯分佈。 所有類別分佈有不同的平均值但變異量都相同。 線性轉換後,所有鑑別資訊都包含在前(p)維子空間,而後(n-p)維子空間不帶有鑑別資訊。
研究內容-線性鑑別分析(LDA) cont. 類別內分佈-越凝聚越好 類別間分佈-相距越遠越好 資 料 群 (2) 資料群(1)
研究內容-線性鑑別分析(LDA) cont. 線性鑑別分析示意圖 資料群投影到第一基底後可以有較大的鑑別力。也就是分類錯誤較小。 X軸 Y軸 第一基底 第二基底 資料群 (1) (2) 分類錯誤 圖為LDA的示意圖,可以看出兩個資料群投影到第一基底可能會分類錯誤的地方為,而投影到第二基底可能會分類錯誤的地方為。 所以可以知道當兩個資料群投影到第一基底,有較高的鑑別力。
研究內容-線性鑑別分析(LDA) (cont.) 當資料以向量方式呈現時,希望類別間(Between)共變異矩陣 B 轉換後的行列式值越大越好,且類別內(Within)共變異矩陣 W 轉換後的行列式值越小越好。求取一個轉換矩陣 使得兩者比值最大: 等同對 求特徵向量分解(Eigenvector Decomposition),以特徵值(Eigenvalue)最大的前p個特徵向量 (Eigenvector) 當成轉換矩陣 det()的概念,為何要在共變異矩陣外在包上一層det()。 LDA的作法為統計類別間的共變異矩陣B,和類別內的共變異矩陣W。 希望線性轉換後前者的行列式值越大越好,後者的行列式值越小越好。 這就像前面所說一樣,希望類別間的分佈距離越遠越好,而類別內的分佈越凝聚越好。 也就是要求取一個轉換矩陣使得式子有極大值。 文獻中證明這個作法等同於對W的inver乘上B求特徵向量分解,以特徵值最大的前p個特徵向量當成轉換矩陣。 如同PCA一般,新的特徵向量是由轉換矩陣與原特徵向量線性轉換而得。 在PCA中,只要統計整體共變異矩陣,並不需要使用特徵向量所屬的類別資訊,所以類別的單位不同並不會對PCA造成影響。 而我們看到LDA的B和W的計算中,都必須使用到特徵向量所屬的類別資訊,所以類別的單位不同會對LDA造成很大的影響。 在我們的初始實驗中,有嘗試三種不同的類別單位,類別粗細分別為隱藏式馬可夫模型的模組、狀態或高斯分佈。 其中以狀態為類別單位的辨識率是最高的,所以我們統一都以隱藏式馬可夫模型的狀態為類別單位。
研究內容-異質性線性鑑別分析(HLDA) 目標 經線性轉換後特徵之間可以保有最大的分類鑑別資訊。所以希望轉換後類別內的分佈越凝聚越好,而類別間的分佈距離越遠越好。 事前假設 每個類別都是高斯分佈。 所有類別分佈有不同的平均值但變異量都相同。 線性轉換後,所有鑑別資訊都包含在前(p)維子空間,而後(n-p)維子空間不帶有鑑別資訊。
研究內容-異質性線性鑑別分析(HLDA) cont. Campbell[Campbell 1984]提出線性鑑別分析起源於最大相似度 (Maximum-likelihood )估測法,其中特徵向量的各類別有不同的平均值向量(Mean Vectors)但共變異矩陣 (Covariance Matrice)相同 Kumar[Kumar 1997; Kumar and Andreou 1998]在博士論文中提出現實中特徵的分佈之變異可為異質性(Heteroscedastic),針對此假設來一般化線性鑑別分析。也就是去除各類別分佈變異量為相同的要求,同樣再以最大相似度估測為目標函式,進一步推導出異質性線性鑑別分析 Gaussian機率式 Kumar使用美國的JHU學者來稱呼。 (美國約翰霍普金斯大學) 這邊介紹異質性線性鑑別分析,簡稱HLDA。 這位學者在1984就已提出LDA是起源於最大相似度估測法,其中假設各類別有不同的平均值向量,但共變異矩陣都是相同。 而美國約翰霍普金斯大學的這位學者在其1997年的博士論文提出,現實中特徵分佈的變異可以為異質性,所以針對此點來一般化LDA。 也就是去除各類別分佈變異量為相同的要求,在以最大相似度估測為目標函式,進一步推導HLDA。
研究內容-異質性線性鑑別分析(HLDA) cont. 異質性線性鑑別分析與線性鑑別分析的比較 線性鑑別分析的投影跟異質性線性鑑別分析比較後有較高的分類錯誤 類別A 類別B 線性鑑別分析的投影 不帶有鑑別資訊的投影 分類錯誤 異質性線性鑑別分析的投影
研究內容-異質性線性鑑別分析(HLDA) cont. 所有鑑別資訊都包含在前(p)維子空間,而後(n-p)維子空間不帶有鑑別資訊。對於高斯分佈來說,後(n-p)維不帶有分類資訊即同等於後(n-p)維在所有類別中分佈相同 因此可以假設特徵向量的前(p)維和後(n-p)維彼此獨立
研究內容-異質性線性鑑別分析(HLDA) cont. 當特徵向量xi為高斯分佈時,其線性轉換yi亦為高斯分佈。所以xi在所屬類別的相似度可以表示成: 其中
研究內容-異質性線性鑑別分析(HLDA) cont. 其中
研究內容-異質性線性鑑別分析(HLDA) cont. 全體特徵向量在其所屬類別的對數相似度 後(n-p)維不帶有分類資訊即同等於後(n-p)維在所有類別中分佈相同。 假設此分佈為整體的平均值向量和共變異矩陣。
研究內容-異質性線性鑑別分析(HLDA) cont. 其中化簡線性代數運用兩個定理
研究內容-異質性線性鑑別分析(HLDA) cont. 數值方法: (JHU Kumar方法) 異質性線性鑑別分析(HLDA) 對角化異質性線性鑑別分析(DHLDA(1)) 假設轉換後類別分佈的共變異矩陣為對角化 計算量小,速度快。滿足HMM對於共變異矩陣的假設 但可能會造成轉換矩陣無法最佳化
研究內容-異質性線性鑑別分析(HLDA) cont. 固定解方法:(Cambridge Gales方法) 只能求解對角化異質性線性鑑別分析(DHLDA(2))。 假設轉換後的共變異矩陣為對角化。 分解成 , ai為基底向量,ci為ai對應的餘因子(Cofactors)。
研究內容-異質性線性鑑別分析(HLDA) cont. 全體特徵向量在其所屬類別的對數相似度 整理後為 transformation matrix
研究內容-異質性線性鑑別分析(HLDA) cont. 代數轉換後 對 微分,並令式子為零。最後可求得
最大相似度線性轉換(MLLT) 目標 事前假設 希望原本類別的共變異矩陣為全秩,經線性轉換後類別的共變異矩陣為對角化,但整體相似度不變或變化最小 增加辨識速度及減少記憶體需求 事前假設 假設維度間為彼此無關(Uncorrelated),如此共變異矩陣只需保留對角線上的值 對角化
最大相似度線性轉換(MLLT) 特性 整體對數相似度可簡化成 當轉換基底 為非奇異矩陣,且轉換後保留所有的維度 ,轉換基底並不會對相似度造成任何的影響 所以在主成份分析、線性鑑別分析或異質性線性鑑別分析之後再加上最大相似度線性轉換並不會對於相似度造成影響 整體對數相似度可簡化成
最大相似度線性轉換(MLLT)count. 對整體對數相似度差求解
實驗語料庫 公視新聞語料庫 各別加入 AURORA 2.0 所提供的噪音源 語音辨識 訓練語料 (25.5hrs): 外場記者男女各767min. (12.78 hrs) 測試語料 (1.45hrs): 外場記者男22min.,女65min. 各別加入 AURORA 2.0 所提供的噪音源 地下鐵、人聲、汽車、展覽館、餐廳、街道、機場、火車站 -5dB~20dB,間格5dB,共6種不同訊噪比 語音辨識 自由音節辨識 大詞彙連續語音辨識 (72,000詞) 詞彙樹複製搜尋(TC) : 使用Bigram 語言模型 詞圖搜尋(WG) : 使用Trigram 語言模型
資料相關線性轉換在 頻域-時域特徵擷取的應用 頻域-時域特徵擷取示意圖 特徵向量可以為各種語音特徵 梅爾率波器組輸出 Mel Filter Banks, MFB 梅爾倒頻譜係數 Mel-frequency Cepstral Coefficients, MFCC 感知線性預測係數 Perceptual Linear Prediction Coefficients, PLPC 參數 本身加上前後各取4個音框 最後輸出39維特徵向量 轉換矩陣 特徵向量 超級特徵向量
結合不同語音特徵 對於頻域-時域特徵擷取的影響 實驗初步只選用主成份分析與與線性鑑別分析 以主成份分析來看,結合梅爾濾波器組輸出辨識率最好。但以線性鑑別分析來看,結合梅爾倒頻譜係數辨識率最高 因為梅爾倒頻譜係數需多經過餘弦轉換,節省計算量起見,以下實驗皆以梅爾濾波器組輸出為輸入 Method Baseline CMS CN MLLT MLLT+CMS MLLT+CN MFB PCA 45.4 39.82 38.89 41.98 37.53 37.03 LDA 43.17 38.8 38.3 40.78 37.06 36.47 MFCC 46.42 41.13 40.53 43.53 38.79 38.27 42.74 38.72 38.22 40.15 36.64 36.19 PLP 45.28 40.31 39.48 42.14 37.98 47.34 42.32 45.25 41.14 40.84 音節錯誤率
資料導向線性特徵轉換與強健性技術結合 Method Baseline +CMS +CN MFCC 44.97 41.68 41.06 PLP 46.46 42.50 41.82 PCA 45.40 39.82 38.89 LDA 43.17 38.80 38.30 HLDA 47.10 40.08 39.22 DHLDA-I 數值方法 40.90 37.41 36.80 DHLDA-II 固定解方法 40.50 37.05 36.45 音節錯誤率
資料導向線性特徵轉換與最大相似度線性轉換及強健性技術結合 Method Baseline +CMS +CN MFCC 44.67 40.67 40.10 PLP 46.92 42.36 41.94 PCA 41.98 37.53 37.03 LDA 40.78 37.06 36.47 HLDA 39.70 36.57 36.12 音節錯誤率
資料導向線性特徵轉換技術的強健性實驗 +CN With MLLT Without MLLT MFCC PLP PCA LDA HLDA DHLDA-II Clean 40.10 41.94 37.03 36.47 36.12 36.45 20dB 41.43 42.96 38.31 37.78 37.34 38.08 15dB 44.11 45.59 40.83 40.53 39.88 40.87 10dB 50.01 51.50 46.63 46.56 45.89 46.96 5dB 62.26 63.45 58.67 58.60 58.35 59.47 0dB 82.20 83.09 78.26 78.64 77.73 77.79 -5dB 103.94 104.33 98.41 98.79 96.66 94.18 Average 63.99 65.15 60.19 60.15 59.31 59.56 音節錯誤率
特徵擷取在大詞彙連續語音辨識的音節(S)、字(C)、詞(W)錯誤率(%) +CN Method TC (S) TC (C) TC (W) WG WG (C) WG (W) With MLLT MFCC 19.64 27.95 37.78 19.52 26.76 35.55 PLP 23.80 32.40 42.36 23.63 31.19 40.05 PCA 18.32 26.85 36.87 18.03 25.20 34.06 LDA 18.00 26.47 36.45 17.52 24.59 33.27 HLDA 17.40 25.79 35.66 17.04 24.21 32.80 Without MLLT DHLDA-I 18.09 26.56 36.61 17.67 24.88 33.79 DHLDA-II 17.97 26.40 36.04 17.49 24.77 33.53 音節錯誤率
結論 最小分類錯誤估測、最大交互訊息估測對角化異質性線性鑑別分析的辨識效果並不理想。學生推測應該是對角化的假設,使得最佳化轉換矩陣的過程產生誤差。 最大相似度線性轉換(MLLT)的效果卓越。 以異質性線性線性鑑別分析(HLDA)結合最大相似度線性轉換(MLLT)和倒頻譜正規化法(CN)後效果最好。