指導教授:陳柏琳 博士 研究生:張志豪 報告人:陳鴻彬

Slides:



Advertisements
Similar presentations
第十八章 判别分析 Discriminant Analysis. Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant.
Advertisements

大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.
—— 海淀区高三化学《考试说明》解读 2015 年 1 月 29 日 学习《考试说明》 备考理综化学.
單元九:單因子變異數分析.
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
探析台灣地區醫師繼續教育提供者之意見與態度
第 9 章 線性微分方程組.
陳維魁 博士 儒林圖書公司 第九章 資料抽象化 陳維魁 博士 儒林圖書公司.
Strain Variation for B-Mode Image
Signal and Systems 教師:潘欣泰.
Project 2 JMVC code tracing
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
Linear Programming: Introduction and Duality
六入處誦(II).
12.4 切線向量和法向量 Tangent Vectors and Normal Vectors
簡易C++除錯技巧 長庚大學機械系
青蛙物種聲紋辨識系統 參賽學生:李建德、陳家正 指導教授:陳文平 教授 農委會林業試驗所六龜研究中心 高雄應用科技大學電機工程系
邏輯迴歸 Logistic Regression
類別(class) 類別class與物件object.
SQL Stored Procedure SQL 預存程序.
Methods 靜宜大學資工系 蔡奇偉副教授 ©2011.
VI. Brief Introduction for Acoustics
第二章 SPSS的使用 2.1 啟動SPSS系統 2.2 結束SPSS系統 2.3 資料分析之相關檔案 2.4 如何使用SPSS軟體.
視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生:顏羽君
Network Application Laboratory
垃圾郵件過濾之初步研究 邱炫盛 2019/1/15.
CH03 資訊管理的智慧觀點:技術篇.
1.3 在整除性問題之應用 附加例題 3 © 文達出版 (香港 )有限公司.
Chap3 Linked List 鏈結串列.
TB-054A  周天穎 編著 儒林圖書公司 發行.
第 19 章 XML記憶體執行模式.
一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化 圖像壓縮法
授課老師:楊維邦教授 組長:劉秋良 成員:李政均、郭瀚文、鄒震耀
Introduction to C Programming
Definition of Trace Function
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.
指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日
田口方法應用於語音辨識 報告者:李建德.
挑戰C++程式語言 ──第8章 進一步談字元與字串
最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究
10-6 CONTROL CHARTS FOR MONITORING VARIABLITY
實用數學 長度單位的認識與換算.
對數能量特徵正規化於語音辨識之進一步研究
指導教授 陳柏琳 博士 研究生 朱紋儀 報告者 汪逸婷 Lab meeting 2012/02/08
Text To Speech (TTS, 文字轉 語音)、讀簡訊 靜宜大學資管系 楊子青
一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化 圖像壓縮法
反矩陣與行列式 東海大學物理系‧數值分析.
國立台灣師範大學資訊工程研究所 語音實驗室研究簡介
陣列與結構.
林業試驗所六龜研究中心 國立高雄應用科技大學網路應用實驗室
使用VHDL設計-8x3編碼電路 通訊一甲 B 楊穎穆.
第十二章 離散小波轉換之相關浮水印技術.
6.1 動畫檔案的格式 6.2 建立合適的動畫元素.
3.1 矩陣的行列式 3.2 使用基本運算求行列式 3.3 行列式的性質 3.4 特徵值介紹 3.5 行列式的應用
資料表示方法 資料儲存單位.
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
資料擷取與監控應用實務.
程式語言與邏輯:主題示範 報告人:國立台灣師大附中 李啟龍 老師 學年度資訊科技概論研習.
6-1線性轉換 6-2核心與值域 6-3轉換矩陣 6-4特徵值與特徵向量 6-5矩陣對角化
非負矩陣分解法介紹 報告者:李建德.
補充 數值方法 數值方法.
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化 圖像壓縮法
青 蛙 物 種 辨識系統 聲紋 行政院農業委員會林業試驗所-六龜研究中心 國立高雄應用科技大學 指導教授:陳文平 教授
鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition
Chapter 4 Multi-Threads (多執行緒).
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
語音特徵擷取之 資料相關線性特徵轉換 研究生:張志豪 多酌墨在數學式的物理意義及精神。 老師、各位口試委員、各位同學大家好。
醫療影像圖檔處理與投影顯示 Project L 指導教授: 東吳大學資訊科學系副教授 鄭為民老師 組員 Java 3D組 - 郭慈芬、李亭瑩
Presentation transcript:

指導教授:陳柏琳 博士 研究生:張志豪 報告人:陳鴻彬 強健性和鑑別力語音特徵擷取技術 於大詞彙連續語音辨識之研究 Robust And Discriminative Feature Extraction Techniques For Large Vocabulary Continuous Speech Recognition 指導教授:陳柏琳 博士 研究生:張志豪 報告人:陳鴻彬 多酌墨在數學式的物理意義及精神。 老師、各位口試委員、各位同學大家好。 學生是張志豪,指導教授為陳柏琳博士。 今天要報告的是畢業論文,題目為強健性和鑑別力語音特徵擷取技術於大詞彙連續語音辨識之研究。

綱要 簡介-研究動機 研究內容 實驗環境 實驗結果 結論 多種資料相關線性轉換求取不同的語音特徵 比較不同的語音特徵在自由音節辨識及中文大詞彙連續語音辨識中的效果 實驗結果 結論

簡介-研究動機 辨識鑑別力 資料量降維 語音辨識系統基本上可看作分類(Classification)問題。 如果特徵擷取出的特徵向量可以帶有很高的鑑別力,分類的結果必然比較精準 資料量降維 語音辨識中,後端分類器常使用隱藏式馬可夫模型(HMM),其中特徵向量一般設定為39維,則原本一個高斯分佈需儲存39+39X39個值 若假設隱藏式馬可夫模型共變異矩陣為對角化,最後只需要儲存39+39個值,既可達到增加辨識速度及減少記憶體需求 本論文中皆假設HMM內高斯分佈的共變異矩陣為對角化

研究內容 資料相關線性轉換的研究 主成份分析 Principal Component Analysis, PCA 線性鑑別分析 Linear Discriminant Analysis, LDA 異質性線性鑑別分析 Heteroscedastic Linear Discriminant Analysis, HLDA 最大相似度線性轉換 Maximum Likelihood Linear Transform, MLLT 最小分類錯誤對角化異質性線性鑑別分析 Minimum Classification Error Diagonal Heteroscedastic Linear Discriminant Analysis, MCE-DHLDA 最大交互訊息對角化異質性線性鑑別分析 Maximum Mutual Information Diagonal Heteroscedastic Linear Discriminant Analysis, MMI-DHLDA 非監督式(unsupervise),不需要類別的標記資訊,容易實作。 監督式(supervise),需要使用類別的標記資訊。來統計類別的分佈。不同類別單位影響很大。實驗以HMM的狀態為類別單位。

研究內容 cont. 應用不同方法的資料相關線性轉換來擷取不同的語音特徵,或與不同的語音特徵作結合 實作資料相關線性轉換於中文 自由音節辨識(Free Syllable Decoding) 中文為一字一音節 音節可以隨意串接 也沒有考慮文法 大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR) 音節需依循詞的結構 使用語言模型 試驗前端語音特徵擷取對於大詞彙連續語音辨識的影響 ㄏㄠ ㄏㄣ ㄑ一 ㄒㄧㄢ ㄊㄧㄢ ㄐㄧㄣ 今天_天氣_很好 今天_仙氣_很好

研究內容-主成份分析(PCA) 利用線性轉換將維度間為相關(Correlated)的一群特徵向量用較少維度來表示,且使得維度間變成彼此無關(Uncorrelated),同時仍能盡量保有特徵向量的變異量(Variation) 對 T 求特徵向量分解(Eigenvector Decomposition),以特徵值(Eigenvalue)最大的前p個特徵向量 (Eigenvector)當成轉換矩陣 首先針對資料相關線性轉換作介紹。 第一個介紹的為主成份分析,簡稱為PCA。PCA在圖樣識別中為很常見的技術, 其主要精神為藉由線性轉換來作降維,並且盡量保留資料群的變異量,且轉換後維度間變成彼此無關。 作法為對所有特徵向量來統計整體共變異矩陣T,對T求特徵向量分解,以特徵值最大的前p個特徵向量當成轉換矩陣。 最後,新的特徵向量就由轉換矩陣和原本特徵向量作線性轉換而得。 只有在T會滿足維度間彼此無關。各個類別內,維度間還是為相關。 不滿足HMM共變異矩陣對角化的假設。

研究內容-主成份分析(PCA) cont. 主成份分析示意圖 投影在第一主成份基底向量的資料擁有最大的變異量,投影在第二主成份基底擁有次大的變異量,且基底向量間各自為單位正交(Orthonormal) X軸 Y軸 第一主成份基底 第二主成份基底 資料群 變異量方向

研究內容-線性鑑別分析(LDA) 目標 事前假設 經線性轉換後特徵之間可以保有最大的分類鑑別資訊。所以希望轉換後類別內的分佈越凝聚越好,而類別間的分佈距離越遠越好。 事前假設 每個類別都是高斯分佈。 所有類別分佈有不同的平均值但變異量都相同。 線性轉換後,所有鑑別資訊都包含在前(p)維子空間,而後(n-p)維子空間不帶有鑑別資訊。

研究內容-線性鑑別分析(LDA) cont. 類別內分佈-越凝聚越好 類別間分佈-相距越遠越好 資 料 群 (2) 資料群(1)

研究內容-線性鑑別分析(LDA) cont. 線性鑑別分析示意圖 資料群投影到第一基底後可以有較大的鑑別力。也就是分類錯誤較小。 X軸 Y軸 第一基底 第二基底 資料群 (1) (2) 分類錯誤 圖為LDA的示意圖,可以看出兩個資料群投影到第一基底可能會分類錯誤的地方為,而投影到第二基底可能會分類錯誤的地方為。 所以可以知道當兩個資料群投影到第一基底,有較高的鑑別力。

研究內容-線性鑑別分析(LDA) (cont.) 當資料以向量方式呈現時,希望類別間(Between)共變異矩陣 B 轉換後的行列式值越大越好,且類別內(Within)共變異矩陣 W 轉換後的行列式值越小越好。求取一個轉換矩陣 使得兩者比值最大: 等同對 求特徵向量分解(Eigenvector Decomposition),以特徵值(Eigenvalue)最大的前p個特徵向量 (Eigenvector) 當成轉換矩陣 det()的概念,為何要在共變異矩陣外在包上一層det()。 LDA的作法為統計類別間的共變異矩陣B,和類別內的共變異矩陣W。 希望線性轉換後前者的行列式值越大越好,後者的行列式值越小越好。 這就像前面所說一樣,希望類別間的分佈距離越遠越好,而類別內的分佈越凝聚越好。 也就是要求取一個轉換矩陣使得式子有極大值。 文獻中證明這個作法等同於對W的inver乘上B求特徵向量分解,以特徵值最大的前p個特徵向量當成轉換矩陣。 如同PCA一般,新的特徵向量是由轉換矩陣與原特徵向量線性轉換而得。 在PCA中,只要統計整體共變異矩陣,並不需要使用特徵向量所屬的類別資訊,所以類別的單位不同並不會對PCA造成影響。 而我們看到LDA的B和W的計算中,都必須使用到特徵向量所屬的類別資訊,所以類別的單位不同會對LDA造成很大的影響。 在我們的初始實驗中,有嘗試三種不同的類別單位,類別粗細分別為隱藏式馬可夫模型的模組、狀態或高斯分佈。 其中以狀態為類別單位的辨識率是最高的,所以我們統一都以隱藏式馬可夫模型的狀態為類別單位。

研究內容-異質性線性鑑別分析(HLDA) 目標 經線性轉換後特徵之間可以保有最大的分類鑑別資訊。所以希望轉換後類別內的分佈越凝聚越好,而類別間的分佈距離越遠越好。 事前假設 每個類別都是高斯分佈。 所有類別分佈有不同的平均值但變異量都相同。 線性轉換後,所有鑑別資訊都包含在前(p)維子空間,而後(n-p)維子空間不帶有鑑別資訊。

研究內容-異質性線性鑑別分析(HLDA) cont. Campbell[Campbell 1984]提出線性鑑別分析起源於最大相似度 (Maximum-likelihood )估測法,其中特徵向量的各類別有不同的平均值向量(Mean Vectors)但共變異矩陣 (Covariance Matrice)相同 Kumar[Kumar 1997; Kumar and Andreou 1998]在博士論文中提出現實中特徵的分佈之變異可為異質性(Heteroscedastic),針對此假設來一般化線性鑑別分析。也就是去除各類別分佈變異量為相同的要求,同樣再以最大相似度估測為目標函式,進一步推導出異質性線性鑑別分析 Gaussian機率式 Kumar使用美國的JHU學者來稱呼。 (美國約翰霍普金斯大學) 這邊介紹異質性線性鑑別分析,簡稱HLDA。 這位學者在1984就已提出LDA是起源於最大相似度估測法,其中假設各類別有不同的平均值向量,但共變異矩陣都是相同。 而美國約翰霍普金斯大學的這位學者在其1997年的博士論文提出,現實中特徵分佈的變異可以為異質性,所以針對此點來一般化LDA。 也就是去除各類別分佈變異量為相同的要求,在以最大相似度估測為目標函式,進一步推導HLDA。

研究內容-異質性線性鑑別分析(HLDA) cont. 異質性線性鑑別分析與線性鑑別分析的比較 線性鑑別分析的投影跟異質性線性鑑別分析比較後有較高的分類錯誤 類別A 類別B 線性鑑別分析的投影 不帶有鑑別資訊的投影 分類錯誤 異質性線性鑑別分析的投影

研究內容-異質性線性鑑別分析(HLDA) cont. 所有鑑別資訊都包含在前(p)維子空間,而後(n-p)維子空間不帶有鑑別資訊。對於高斯分佈來說,後(n-p)維不帶有分類資訊即同等於後(n-p)維在所有類別中分佈相同 因此可以假設特徵向量的前(p)維和後(n-p)維彼此獨立

研究內容-異質性線性鑑別分析(HLDA) cont. 當特徵向量xi為高斯分佈時,其線性轉換yi亦為高斯分佈。所以xi在所屬類別的相似度可以表示成: 其中

研究內容-異質性線性鑑別分析(HLDA) cont. 其中

研究內容-異質性線性鑑別分析(HLDA) cont. 全體特徵向量在其所屬類別的對數相似度 後(n-p)維不帶有分類資訊即同等於後(n-p)維在所有類別中分佈相同。 假設此分佈為整體的平均值向量和共變異矩陣。

研究內容-異質性線性鑑別分析(HLDA) cont. 其中化簡線性代數運用兩個定理

研究內容-異質性線性鑑別分析(HLDA) cont. 數值方法: (JHU Kumar方法) 異質性線性鑑別分析(HLDA) 對角化異質性線性鑑別分析(DHLDA(1)) 假設轉換後類別分佈的共變異矩陣為對角化 計算量小,速度快。滿足HMM對於共變異矩陣的假設 但可能會造成轉換矩陣無法最佳化

研究內容-異質性線性鑑別分析(HLDA) cont. 固定解方法:(Cambridge Gales方法) 只能求解對角化異質性線性鑑別分析(DHLDA(2))。 假設轉換後的共變異矩陣為對角化。 分解成 , ai為基底向量,ci為ai對應的餘因子(Cofactors)。

研究內容-異質性線性鑑別分析(HLDA) cont. 全體特徵向量在其所屬類別的對數相似度 整理後為 transformation matrix

研究內容-異質性線性鑑別分析(HLDA) cont. 代數轉換後 對 微分,並令式子為零。最後可求得

最大相似度線性轉換(MLLT) 目標 事前假設 希望原本類別的共變異矩陣為全秩,經線性轉換後類別的共變異矩陣為對角化,但整體相似度不變或變化最小 增加辨識速度及減少記憶體需求 事前假設 假設維度間為彼此無關(Uncorrelated),如此共變異矩陣只需保留對角線上的值 對角化

最大相似度線性轉換(MLLT) 特性 整體對數相似度可簡化成 當轉換基底 為非奇異矩陣,且轉換後保留所有的維度 ,轉換基底並不會對相似度造成任何的影響 所以在主成份分析、線性鑑別分析或異質性線性鑑別分析之後再加上最大相似度線性轉換並不會對於相似度造成影響 整體對數相似度可簡化成

最大相似度線性轉換(MLLT)count. 對整體對數相似度差求解

實驗語料庫 公視新聞語料庫 各別加入 AURORA 2.0 所提供的噪音源 語音辨識 訓練語料 (25.5hrs): 外場記者男女各767min. (12.78 hrs) 測試語料 (1.45hrs): 外場記者男22min.,女65min. 各別加入 AURORA 2.0 所提供的噪音源 地下鐵、人聲、汽車、展覽館、餐廳、街道、機場、火車站 -5dB~20dB,間格5dB,共6種不同訊噪比 語音辨識 自由音節辨識 大詞彙連續語音辨識 (72,000詞) 詞彙樹複製搜尋(TC) : 使用Bigram 語言模型 詞圖搜尋(WG) : 使用Trigram 語言模型

資料相關線性轉換在 頻域-時域特徵擷取的應用 頻域-時域特徵擷取示意圖 特徵向量可以為各種語音特徵 梅爾率波器組輸出 Mel Filter Banks, MFB 梅爾倒頻譜係數 Mel-frequency Cepstral Coefficients, MFCC 感知線性預測係數 Perceptual Linear Prediction Coefficients, PLPC 參數 本身加上前後各取4個音框 最後輸出39維特徵向量 轉換矩陣 特徵向量 超級特徵向量

結合不同語音特徵 對於頻域-時域特徵擷取的影響 實驗初步只選用主成份分析與與線性鑑別分析 以主成份分析來看,結合梅爾濾波器組輸出辨識率最好。但以線性鑑別分析來看,結合梅爾倒頻譜係數辨識率最高 因為梅爾倒頻譜係數需多經過餘弦轉換,節省計算量起見,以下實驗皆以梅爾濾波器組輸出為輸入 Method Baseline CMS CN MLLT MLLT+CMS MLLT+CN MFB PCA 45.4 39.82 38.89 41.98 37.53 37.03 LDA 43.17 38.8 38.3 40.78 37.06 36.47 MFCC 46.42 41.13 40.53 43.53 38.79 38.27 42.74 38.72 38.22 40.15 36.64 36.19 PLP 45.28 40.31 39.48 42.14 37.98 47.34 42.32 45.25 41.14 40.84 音節錯誤率

資料導向線性特徵轉換與強健性技術結合 Method Baseline +CMS +CN MFCC 44.97 41.68 41.06 PLP 46.46 42.50 41.82 PCA 45.40 39.82 38.89 LDA 43.17 38.80 38.30 HLDA 47.10 40.08 39.22 DHLDA-I 數值方法 40.90 37.41 36.80 DHLDA-II 固定解方法 40.50 37.05 36.45 音節錯誤率

資料導向線性特徵轉換與最大相似度線性轉換及強健性技術結合 Method Baseline +CMS +CN MFCC 44.67 40.67 40.10 PLP 46.92 42.36 41.94 PCA 41.98 37.53 37.03 LDA 40.78 37.06 36.47 HLDA 39.70 36.57 36.12 音節錯誤率

資料導向線性特徵轉換技術的強健性實驗 +CN With MLLT Without MLLT MFCC PLP PCA LDA HLDA DHLDA-II Clean 40.10 41.94 37.03 36.47 36.12 36.45 20dB 41.43 42.96 38.31 37.78 37.34 38.08 15dB 44.11 45.59 40.83 40.53 39.88 40.87 10dB 50.01 51.50 46.63 46.56 45.89 46.96 5dB 62.26 63.45 58.67 58.60 58.35 59.47 0dB 82.20 83.09 78.26 78.64 77.73 77.79 -5dB 103.94 104.33 98.41 98.79 96.66 94.18 Average 63.99 65.15 60.19 60.15 59.31 59.56 音節錯誤率

特徵擷取在大詞彙連續語音辨識的音節(S)、字(C)、詞(W)錯誤率(%) +CN Method TC (S) TC (C) TC (W) WG WG (C) WG (W) With MLLT MFCC 19.64 27.95 37.78 19.52 26.76 35.55 PLP 23.80 32.40 42.36 23.63 31.19 40.05 PCA 18.32 26.85 36.87 18.03 25.20 34.06 LDA 18.00 26.47 36.45 17.52 24.59 33.27 HLDA 17.40 25.79 35.66 17.04 24.21 32.80 Without MLLT DHLDA-I 18.09 26.56 36.61 17.67 24.88 33.79 DHLDA-II 17.97 26.40 36.04 17.49 24.77 33.53 音節錯誤率

結論 最小分類錯誤估測、最大交互訊息估測對角化異質性線性鑑別分析的辨識效果並不理想。學生推測應該是對角化的假設,使得最佳化轉換矩陣的過程產生誤差。 最大相似度線性轉換(MLLT)的效果卓越。 以異質性線性線性鑑別分析(HLDA)結合最大相似度線性轉換(MLLT)和倒頻譜正規化法(CN)後效果最好。