Download presentation
Presentation is loading. Please wait.
Published byMalcolm Jones Modified 5年之前
1
語音特徵擷取之 資料相關線性特徵轉換 研究生:張志豪 多酌墨在數學式的物理意義及精神。 老師、各位口試委員、各位同學大家好。
學生是張志豪,指導教授為陳柏琳博士。 今天要報告的是畢業論文,題目為強健性和鑑別力語音特徵擷取技術於大詞彙連續語音辨識之研究。
2
研究動機 基於圖樣辨識的語音辨識系統 … HMM GMM
3
研究動機 (cont.) 鑑別力及降維 鑑別力 降維
語音辨識系統可看作一種圖樣辨識(Pattern Recognition)系統,屬於分類(Classification)問題。如果特徵擷取出的特徵向量可以帶有很高的鑑別力,分類的結果會比較精準。 降維 當特徵的維度增加時,代表著後端分類器的參數或複雜度自然會跟著增加,可是訓練資料是有限的,如此必然會造成分類器參數估測的不精準,進而降低辨識的效能。 學生主要針對語音辨識中的特徵擷取部分做研究。 語音辨識可以看成一種圖樣辨識系統,屬於分類的問題。 如果擷取出的特徵向量有較高的鑑別力,那相對於分類的結果就會比較精準。 另外,當特徵向量的維度增加時,代表後端分類器的參數量或複雜度會跟著增加。 可是我們知道訓練資料是有限的,所以會造成分類器參數估測不精準,進而降低辨識率。 由以上兩點可以看出,若特徵向量的維度中不帶有鑑別資訊的話,是可以省略的。
4
研究動機 (cont.) … HMM GMM 類別分佈的共變異矩陣
隱藏示馬可夫模型(HMM)中每個狀態都是高斯混合模型(GMM)。而每個高斯分佈是由平均值向量(Mean Vector)及共變異矩陣(Covariance Matrix)來估測。 為了增加辨識速度及減少記憶體需求。 通常都假設維度間為彼此無關(Uncorrelated),如此共變異矩陣只需保留對角線上的值 對角化。 E.g. 若特徵維度為39維,原本一個高斯分佈需儲存39+39x19個值。若假設共變異矩陣為對角化,則僅需存39+39個值。 擷取出的特徵向量需滿足維度間彼此無關的條件,否則會造成相似度估測失真。 實驗中皆假設HMM內高斯分佈的共變異矩陣為對角化。 在語音辨識中,後端的分類器常使用隱藏式馬可夫模型,其中的每個狀態都是混合高斯分佈,而高斯分佈是由平均值向量及共變異矩陣來估測。 舉例來說,若特徵向量為39維,原本一個高斯分佈需儲存39+39X39個值。如果假設共變異矩陣為對角化,那麼只需要儲存39+39個值。 這可以大幅度的提昇辨識速度,也可以減少記憶體的需求。在本論文中,隱藏式馬可夫模型分佈的共變異矩陣都假設為對角化。 可是原本共變異矩陣為full,那強制只保留對角線上的值,會造成估測相似度時產生誤差。我們希望也可以解決這個問題。
5
語音特徵擷取技術之三步驟 依志豪觀點分類 模擬人耳聽覺感知特性 資料相關線性特徵轉換 強健性技術 降維、增強語音訊號和壓抑非語音訊號
例:梅爾倒頻譜係數(MFCC)、感知線性預測係數(PLPC) 資料相關線性特徵轉換 進一步降低維度並找出較具代表性或鑑別力的特徵 例:主成份分析(PCA)、線性鑑別分析(LDA)、異質性線性鑑別分析(HLDA)、最大相似度線性轉換(MLLT) 強健性技術 增強語音特性並減少噪音的干擾 例:倒頻譜平均消去法 (CMS) 、倒頻譜正規化法(CN)
6
模擬人耳聽覺感知特性 梅爾倒頻譜係數
7
資料相關線性特徵轉換 Exposition 先統計labeled資料間class的分佈
在feature space中, class的分佈有所重疊, 所以利用feature space transformation來改變feature space 利用某種criterion來找出最合適的轉換基底 當有新pattern進來後, 可利用統計到(轉換後)的分佈來做predictor feature space transformation 以LDA為例
8
資料相關線性特徵轉換(cont.) 利用訓練資料來求取一個轉換矩陣(基底矩陣) ,不論訓練資料或測試資料都投影到同一個基底,希望轉換後可以對於辨識率有所幫助。 原始訓練資料 ,轉換後新的訓練資料 原始測試資料 ,轉換後新的測試資料 為 維向量, 為 維向量,其中
9
資料相關線性特徵轉換(cont.) 資料相關線性轉換的研究 主成份分析 線性鑑別分析 異質性線性鑑別分析 最大相似度線性轉換
非監督式(unsupervise),不需要類別的標記資訊,容易實作。 監督式(supervise),需要使用類別的標記資訊。來統計類別的分佈。不同類別單位影響很大。實驗以HMM的狀態為類別單位。 研究內容如下。 首先針對資料相關線性轉換做研究,包含下面幾種方法。
10
主成份分析(PCA) 利用線性轉換將維度間為相關(Correlated)的一群特徵向量用較少維度來表示,且使得維度間變成彼此無關(Uncorrelated),同時仍能盡量保有特徵向量的變異量(Variation)。 對 T 求特徵向量分解(Eigenvector Decomposition),以特徵值(Eigenvalue)最大的前p個特徵向量 (Eigenvector)當成轉換矩陣 。 首先針對資料相關線性轉換作介紹。 第一個介紹的為主成份分析,簡稱為PCA。PCA在圖樣識別中為很常見的技術, 其主要精神為藉由線性轉換來作降維,並且盡量保留資料群的變異量,且轉換後維度間變成彼此無關。 作法為對所有特徵向量來統計整體共變異矩陣T,對T求特徵向量分解,以特徵值最大的前p個特徵向量當成轉換矩陣。 最後,新的特徵向量就由轉換矩陣和原本特徵向量作線性轉換而得。 只有在T會滿足維度間彼此無關。各個類別內,維度間還是為相關。 不滿足HMM共變異矩陣對角化的假設。
11
主成份分析(PCA) (cont.) 主成份分析示意圖
投影在第一主成份基底向量的資料擁有最大的變異量,投影在第二主成份基底擁有次大的變異量,且基底向量間各自為單位正交(Orthonormal)。 X軸 Y軸 第一主成份基底 第二主成份基底 資料群 圖為PCA的示意圖,可以看出當資料群投影在第一主成份基底可以保有最大的變異量,而投影在第二主成份基底則次之。
12
線性鑑別分析(LDA) 經線性轉換後特徵之間可以保有最大的分類鑑別資訊。所以希望轉換後類別內的分佈越凝聚越好,而類別間的分佈距離越遠越好。
先前假設 每個類別都是高斯分佈。 所有類別分佈有不同的平均值但變異量都相同。 線性轉換後,所有鑑別資訊都包含在前(p)維子空間,而後(n-p)維子空間不帶有鑑別資訊。 PCA只考慮盡量保留資料群最大的變異量,可是並沒有考慮到特徵向量之間的鑑別力,這可能會不利於分類辨識。 線性鑑別分析簡稱LDA,它希望經線性轉換後,特徵之間可以保有最大的分類鑑別資訊。也就是類別內的分佈越凝聚越好,而類別間的分佈距離越遠越好。 LDA有三個先前假設。 第一,每個類別都是高斯分佈,可以為單一高斯分佈,也可以為混合高斯分佈。 第二,所有類別分佈有不同的平均值但變異量都相同。 第三,線性轉換後所有鑑別資訊都包含在前p維子空間中,後n-p維子空間則不帶有鑑別資訊。
13
線性鑑別分析(LDA) (cont.) 線性鑑別分析示意圖 資料群投影到第一基底後可以有較大的鑑別力。也就是分類錯誤較小。 第二基底 Y軸
X軸 Y軸 第一基底 第二基底 資料群 (1) (2) 分類錯誤 圖為LDA的示意圖,可以看出兩個資料群投影到第一基底可能會分類錯誤的地方為,而投影到第二基底可能會分類錯誤的地方為。 所以可以知道當兩個資料群投影到第一基底,有較高的鑑別力。
14
線性鑑別分析(LDA) (cont.) 當資料以向量方式呈現時,希望類別間(Between)共變異矩陣 B 轉換後的行列式值越大越好,且類別內(Within)共變異矩陣 W 轉換後的行列式值越小越好。求取一個轉換矩陣 使得兩者比值最大: 等同對 求特徵向量分解(Eigenvector Decomposition),以特徵值(Eigenvalue)最大的前p個特徵向量 (Eigenvector)當成轉換矩陣 。 det()的概念,為何要在共變異矩陣外在包上一層det()。 LDA的作法為統計類別間的共變異矩陣B,和類別內的共變異矩陣W。 希望線性轉換後前者的行列式值越大越好,後者的行列式值越小越好。 這就像前面所說一樣,希望類別間的分佈距離越遠越好,而類別內的分佈越凝聚越好。 也就是要求取一個轉換矩陣使得式子有極大值。 文獻中證明這個作法等同於對W的inver乘上B求特徵向量分解,以特徵值最大的前p個特徵向量當成轉換矩陣。 如同PCA一般,新的特徵向量是由轉換矩陣與原特徵向量線性轉換而得。 在PCA中,只要統計整體共變異矩陣,並不需要使用特徵向量所屬的類別資訊,所以類別的單位不同並不會對PCA造成影響。 而我們看到LDA的B和W的計算中,都必須使用到特徵向量所屬的類別資訊,所以類別的單位不同會對LDA造成很大的影響。 在我們的初始實驗中,有嘗試三種不同的類別單位,類別粗細分別為隱藏式馬可夫模型的模組、狀態或高斯分佈。 其中以狀態為類別單位的辨識率是最高的,所以我們統一都以隱藏式馬可夫模型的狀態為類別單位。
15
異質性線性鑑別分析(HLDA) Campbell[Campbell 1984]提出線性鑑別分析起源於最大相似度 (Maximum-likelihood )估測法,其中特徵向量的各類別有不同的平均值向量(Mean Vectors)但共變異矩陣 (Covariance Matrice)卻是相同。 Kumar[Kumar 1997; Kumar and Andreou 1998]在博士論文中提出現實中特徵的分佈之變異可為異質性(Heteroscedastic),針對此假設來一般化線性鑑別分析。也就是去除各類別分佈變異量為相同的要求,同樣再以最大相似度估測為目標函式,進一步推導出異質性線性鑑別分析。 Gaussian機率式 Kumar使用美國的JHU學者來稱呼。 (美國約翰霍普金斯大學) 這邊介紹異質性線性鑑別分析,簡稱HLDA。 這位學者在1984就已提出LDA是起源於最大相似度估測法,其中假設各類別有不同的平均值向量,但共變異矩陣都是相同。 而美國約翰霍普金斯大學的這位學者在其1997年的博士論文提出,現實中特徵分佈的變異可以為異質性,所以針對此點來一般化LDA。 也就是去除各類別分佈變異量為相同的要求,在以最大相似度估測為目標函式,進一步推導HLDA。
16
異質性線性鑑別分析(HLDA) (cont.)
Classification In comparing two classes k and l, it is sufficient to look at the log-ratio Assumption : Common covariance Intuition : Classify Two class
17
異質性線性鑑別分析(HLDA) (cont.)
Differentiation LDA HLDA
18
異質性線性鑑別分析(HLDA) (cont.)
異質性線性鑑別分析與線性鑑別分析的比較 線性鑑別分析的投影跟異質性線性鑑別分析比較有較高的分類錯誤 類別A 類別B 線性鑑別分析的投影 不帶有鑑別資訊的投影 分類錯誤 異質性線性鑑別分析的投影 圖為HLDA與LDA的比較。 可以看到LDA的投影中類別的分佈的變異為相同,而HLDA的投影中類別的分佈變異可以為不同, 在這個例子中可以看出HLDA的投影比LDA的投影有更高的鑑別力。
19
異質性線性鑑別分析(HLDA) (cont.)
所有鑑別資訊都包含在前(p)維子空間,而後(n-p)維子空間不帶有鑑別資訊。對於高斯分佈來說,後(n-p)維不帶有分類資訊即同等於後(n-p)維在所有類別中分佈相同。因此可以假設特徵向量的前(p)維和後(n-p)維彼此獨立。 HLDA與LDA有一樣的假設。 線性轉換後所有鑑別資訊都包含於前p維子空間中,後n-p維子空間是不帶有鑑別資訊。 在高斯分佈來說,後n-p維子空間不帶有鑑別資訊,等同於此n-p維子空間類別分佈的平均值和變異量是相同的。 因此可以假設特徵向量的前p維和後n-p維彼此獨立。 如下面兩個式子,轉換後的共變異矩陣由於是彼此獨立,所以這兩塊為零。
20
異質性線性鑑別分析(HLDA) (cont.)
當xi為高斯分佈時,其線性轉換yi亦為高斯分佈。所以xi在所屬類別的相似度可以表示成: 其中 當xi為高斯分佈時,經線性轉換後yi亦為高斯分佈。所以xi在所屬類別的相似度可以表示成這個式子。P(xi)與p(yi)只差在轉換矩陣的det上。
21
異質性線性鑑別分析(HLDA) (cont.)
全體特徵向量在其所屬類別的對數相似度 HLDA的目標函式為整體特徵相量在所屬類別的對數相似度和最大,如下面的式子。 原本是對p(xi)作sum,可以用p(yi)來取代,其中又可以分成帶有鑑別資訊的前p維與不帶有鑑別資訊的後n-p維。 後面這兩行(原本相似度的指數項)可以推導出是為常數項。 後(n-p)維不帶有分類資訊即同等於後(n-p)維在所有類別中分佈相同。 假設此分佈為整體的平均值向量和共變異矩陣。
22
異質性線性鑑別分析(HLDA) (cont.)
JHU方法: 異質性線性鑑別分析(HLDA) 對角化異質性線性鑑別分析(DHLDA(1)) 假設轉換後類別分佈的共變異矩陣為對角化。 計算量小,速度快。滿足HMM對於共變異矩陣的假設。 但可能會造成轉換矩陣無法最佳化。 所以簡化後HDLA的目標函式如下,可以看出它希望轉換後前p維,各類別分佈越凝聚越好;同時後n-p維越不帶有鑑別資訊越好。 且與LDA不同,類別的變異是不同的,並且沒有考慮類別間的分佈距離越遠越好。 在式子推導的過程中,可以假設轉換後的共變異矩陣為對角化,簡稱DHLDA(1)。 式子如下,可以看出與HLDA的差別在於對角的這個部分。 這兩各式子都沒有close-from,只能以數值方法迭代更新轉換矩陣。
23
異質性線性鑑別分析(HLDA) (cont.)
Cambridge方法[Gales 1999]: 只能求解對角化異質性線性鑑別分析(DHLDA(2))。 假設轉換後的共變異矩陣為對角化。 分解成 , ai為基底向量,ci為ai對應的餘因子(Cofactors)。 英國Cambridge有針對對角化異質性線性鑑別分析求解,簡稱DHLDA(2)。 Cambridge希望求得close-from solution,以快速取得轉換矩陣。 首先假設轉換後的共變異矩陣維對角化,在把轉換矩陣的det用aici來取代,其中ai為轉換矩陣的基底向量,ci為ai的餘因子。 表示如下,這個為轉換矩陣,這一列為a1基底向量,c11到c13為a1基底向量對應的餘因子。 轉換矩陣的det可以表示成這樣,可以簡化以向量的方式來表示。
24
異質性線性鑑別分析(HLDA) (cont.)
全體特徵向量在其所屬類別的對數相似度 整理後為 transformation matrix old transformation matrix 目標函式同樣為全體特徵向量在所屬類別的對數相似度和最大。 在式子中與轉換矩陣有關的有轉換後的特徵向量、平均值向量及共變異矩陣。 JHU認為三者都是使用未知的轉換矩陣求得,所以這一項可以視為常數項。 而Cambridge認為轉換後共變異矩陣是使用舊有的轉換矩陣求得,所以在式子的推導過程中, 轉換後共變異矩陣不用展開,所以這一項可以保留。藉由求得close-form solution。 由於假設轉換後共變異矩陣為對角化,所以原相似度的指數項可以用row by row的方式表達。 而轉換矩陣的det用aici取代。
25
異質性線性鑑別分析(HLDA) (cont.)
代數轉換後 對 微分,並令式子為零。最後可求得 代數轉換後如下,其中WJ為第j個類別的共變異矩陣,而這個為第j個類別共變異矩陣對角線上的值。 最後對ai微分,並令為零,可以求得ai的close-form。 Cambridge式一次對轉換矩陣的一個基底向量求解,而基底向量間是藉由ci來關聯彼此的關係。
26
最大相似度線性轉換(MLLT) 希望原本類別的共變異矩陣為全秩,經線性轉換後類別的共變異矩陣為對角化,但整體相似度不變或變化最小[Gopinath 1998; Saon et al. 2000]。 整體對數相似度可簡化成 整體對數相似度差 最大相似度線性轉換簡稱MLLT。 它與上述的資料相關線性轉換不同,它並不要求降維, 它希望轉換後的共變異矩陣可以只保留對角線的值,可是整體相似度可不變或變化最少。 首先假設每個類別為高斯分佈,且為full的共變異矩陣。經線性轉換後整體相似度可以簡化成這樣。 MLLT希望共變異矩陣可以只保留對角線的值,可是整體相似度可不變或變化最少。所以等同下面式子, 對角化求得的相似度與full求得的相似度差要最小,這裡多一個負號,所以式求最大。 這個式子與DHLDA(1)很相似,當DHLDA(1)保留所有的維度時,兩個式子就一模一樣,所以可以把MLLT看成是DHLDA(1)的特例。
27
資料相關線性轉換在頻域-時域特徵擷取的應用
特徵向量 頻域-時域特徵擷取示意圖 特徵向量可以為各種語音特徵 梅爾率波器組輸出 Mel Filter Banks, MFB 梅爾倒頻譜係數 Mel-frequency Cepstral Coefficients, MFCC 感知線性預測係數 Perceptual Linear Prediction Coefficients, PLPC 參數 本身加上前後各取4個音框 最後輸出39維特徵向量 轉換矩陣 超級特徵向量 這是資料相關線性轉換的第二個應用,應用在頻域-時域特徵擷取。 圖的上方為特徵向量,特徵向量可以為各種語音特徵,像是梅耳濾波器組輸出、梅爾倒頻譜係數或感知線性預測係數。 取音框本身加上前後個k個音框,串成超級特徵向量,經資料相關縣性轉換求取轉換矩陣,最後新的特徵向量可以由轉換矩陣與原特徵向量的線性轉換取得。 實驗中前後個取四個音框,最後輸出39維特徵向量。 梅爾濾波器組為基於人耳聽覺感知所求取的濾波器組,與梅爾倒頻譜係數相比,少了一個餘弦轉換。
28
自由音節辨識(FSD) 公視新聞測試語料 強健性技術中,結合CN有最好的辨識率。 Method Baseline CMS CN
Without MLLT MFCC 55.03 58.32 58.94 PLP 53.54 57.50 58.18 PCA 54.60 60.18 61.11 LDA 56.83 61.20 61.70 HLDA 52.90 59.92 60.78 DHLDA(1) 59.10 62.59 63.20 DHLDA(2) 59.50 62.95 63.55 MCE-DHLDA 59.37 62.75 63.51 MMI-DHLDA 59.41 59.01 With MLLT 55.33 59.33 59.90 53.08 57.64 58.06 58.02 62.47 62.97 59.22 62.94 63.53 60.30 63.43 63.88 1.PCA,LDA在沒有結合MLLT前,辨識率並沒有很高,PCA甚至還比MFCC低。 可是一但結合MLLT後,滿足後端隱藏式馬可夫模型共變異矩陣維對角化的假設後,辨識率就大幅度的提昇。 2.DHLDA(1)、DHLDA(2)的辨識率在伯仲之間,這是因為從同一個目標函式推導而來 3.DHLDA(2)辨識率比LDA好,但相比於LDA+MLLT則差不多。 HLDA+MLLT就比LDA+MLLT好,有1%之多。 4.HLDA+MLLT比DHLDA(2)好的原因,對角化的假設造成最佳化轉換矩陣的時候產生誤差。 5.MCE-DHLDA(2)與MMI-DHLDA(2)的辨識率都比DHLDA(2)差,這可能也是因為它們都是從對角化異質性線性鑑別分析延伸。
29
Thanks
Similar presentations