指導教授：陳柏琳博士研究生：張志豪報告人：陳鴻彬

Slides:

Advertisements

Similar presentations

第十八章判别分析 Discriminant Analysis. Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant.

Advertisements

大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.

—— 海淀区高三化学《考试说明》解读 2015 年 1 月 29 日学习《考试说明》备考理综化学.

單元九：單因子變異數分析.

樞紐分析與資料庫蕭世斌 Nov 20, 2010.

探析台灣地區醫師繼續教育提供者之意見與態度

第 9 章線性微分方程組.

陳維魁博士儒林圖書公司第九章資料抽象化陳維魁博士儒林圖書公司.

Strain Variation for B-Mode Image

Signal and Systems 教師：潘欣泰.

Project 2 JMVC code tracing

實驗計畫資料分析作業解答何正斌國立屏東科技大學工業管理系.

Linear Programming: Introduction and Duality

六入處誦(II).

12.4 切線向量和法向量 Tangent Vectors and Normal Vectors

簡易C++除錯技巧長庚大學機械系

青蛙物種聲紋辨識系統參賽學生:李建德、陳家正指導教授:陳文平教授農委會林業試驗所六龜研究中心高雄應用科技大學電機工程系

邏輯迴歸 Logistic Regression

類別(class) 類別class與物件object.

SQL Stored Procedure SQL 預存程序.

Methods 靜宜大學資工系蔡奇偉副教授 ©2011.

VI. Brief Introduction for Acoustics

第二章 SPSS的使用 2.1 啟動SPSS系統 2.2 結束SPSS系統 2.3 資料分析之相關檔案 2.4 如何使用SPSS軟體.

視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生：顏羽君

Network Application Laboratory

垃圾郵件過濾之初步研究邱炫盛 2019/1/15.

CH03　資訊管理的智慧觀點：技術篇.

1.3 在整除性問題之應用附加例題 3 © 文達出版 (香港 )有限公司.

Chap3 Linked List 鏈結串列.

TB-054A  周天穎編著儒林圖書公司　發行.

第 19 章 XML記憶體執行模式.

一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化圖像壓縮法

授課老師：楊維邦教授組長：劉秋良成員：李政均、郭瀚文、鄒震耀

Introduction to C Programming

Definition of Trace Function

有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析

信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.

指導教授：陳柏琳博士研究生：許庭瑋陳冠宇中華民國九十六年七月十三日

田口方法應用於語音辨識報告者:李建德.

挑戰C++程式語言 ──第8章進一步談字元與字串

最小化音素錯誤鑑別式聲學模型學習於中文大詞彙連續語音辨識之初步研究

10-6 CONTROL CHARTS FOR MONITORING VARIABLITY

實用數學長度單位的認識與換算.

對數能量特徵正規化於語音辨識之進一步研究

指導教授陳柏琳博士研究生朱紋儀報告者汪逸婷 Lab meeting 2012/02/08

Text To Speech (TTS, 文字轉語音)、讀簡訊靜宜大學資管系楊子青

一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化圖像壓縮法

反矩陣與行列式東海大學物理系‧數值分析.

國立台灣師範大學資訊工程研究所語音實驗室研究簡介

陣列與結構.

林業試驗所六龜研究中心國立高雄應用科技大學網路應用實驗室

使用VHDL設計-8x3編碼電路通訊一甲 B 楊穎穆.

第十二章離散小波轉換之相關浮水印技術.

6.1 動畫檔案的格式 6.2 建立合適的動畫元素.

3.1 矩陣的行列式 3.2 使用基本運算求行列式 3.3 行列式的性質 3.4 特徵值介紹 3.5 行列式的應用

資料表示方法資料儲存單位.

語音訊號的特徵向量張智星多媒體資訊檢索實驗室清華大學資訊工程系.

資料擷取與監控應用實務.

程式語言與邏輯：主題示範報告人：國立台灣師大附中李啟龍老師學年度資訊科技概論研習.

6-1線性轉換 6-2核心與值域 6-3轉換矩陣 6-4特徵值與特徵向量 6-5矩陣對角化

非負矩陣分解法介紹報告者:李建德.

補充數值方法數值方法.

第三章音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)

一個基于相鄰區塊相似性和動態次編碼簿的低位元率向量量化圖像壓縮法

青蛙物種辨識系統聲紋行政院農業委員會林業試驗所-六龜研究中心國立高雄應用科技大學指導教授:陳文平教授

鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition

Chapter 4 Multi-Threads (多執行緒).

17.1 相關係數判定係數：迴歸平方和除以總平方和相關係數判定係數：迴歸平方和除以總平方和.

語音特徵擷取之資料相關線性特徵轉換研究生：張志豪多酌墨在數學式的物理意義及精神。老師、各位口試委員、各位同學大家好。

醫療影像圖檔處理與投影顯示 Project L 指導教授：東吳大學資訊科學系副教授鄭為民老師組員 Java 3D組 - 郭慈芬、李亭瑩

Presentation transcript:

指導教授：陳柏琳博士研究生：張志豪報告人：陳鴻彬強健性和鑑別力語音特徵擷取技術於大詞彙連續語音辨識之研究 Robust And Discriminative Feature Extraction Techniques For Large Vocabulary Continuous Speech Recognition 指導教授：陳柏琳博士研究生：張志豪報告人：陳鴻彬多酌墨在數學式的物理意義及精神。老師、各位口試委員、各位同學大家好。學生是張志豪，指導教授為陳柏琳博士。今天要報告的是畢業論文，題目為強健性和鑑別力語音特徵擷取技術於大詞彙連續語音辨識之研究。

綱要簡介－研究動機研究內容實驗環境實驗結果結論多種資料相關線性轉換求取不同的語音特徵比較不同的語音特徵在自由音節辨識及中文大詞彙連續語音辨識中的效果實驗結果結論

簡介－研究動機辨識鑑別力資料量降維語音辨識系統基本上可看作分類(Classification)問題。如果特徵擷取出的特徵向量可以帶有很高的鑑別力，分類的結果必然比較精準資料量降維語音辨識中，後端分類器常使用隱藏式馬可夫模型(HMM)，其中特徵向量一般設定為39維，則原本一個高斯分佈需儲存39+39X39個值若假設隱藏式馬可夫模型共變異矩陣為對角化，最後只需要儲存39+39個值，既可達到增加辨識速度及減少記憶體需求本論文中皆假設HMM內高斯分佈的共變異矩陣為對角化

研究內容資料相關線性轉換的研究主成份分析 Principal Component Analysis, PCA 線性鑑別分析 Linear Discriminant Analysis, LDA 異質性線性鑑別分析 Heteroscedastic Linear Discriminant Analysis, HLDA 最大相似度線性轉換 Maximum Likelihood Linear Transform, MLLT 最小分類錯誤對角化異質性線性鑑別分析 Minimum Classification Error Diagonal Heteroscedastic Linear Discriminant Analysis, MCE-DHLDA 最大交互訊息對角化異質性線性鑑別分析 Maximum Mutual Information Diagonal Heteroscedastic Linear Discriminant Analysis, MMI-DHLDA 非監督式(unsupervise)，不需要類別的標記資訊，容易實作。監督式(supervise)，需要使用類別的標記資訊。來統計類別的分佈。不同類別單位影響很大。實驗以HMM的狀態為類別單位。

研究內容 cont. 應用不同方法的資料相關線性轉換來擷取不同的語音特徵，或與不同的語音特徵作結合實作資料相關線性轉換於中文自由音節辨識(Free Syllable Decoding) 中文為一字一音節音節可以隨意串接也沒有考慮文法大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR) 音節需依循詞的結構使用語言模型試驗前端語音特徵擷取對於大詞彙連續語音辨識的影響ㄏㄠㄏㄣㄑ一ㄒㄧㄢㄊㄧㄢㄐㄧㄣ今天_天氣_很好今天_仙氣_很好

研究內容－主成份分析(PCA) 利用線性轉換將維度間為相關(Correlated)的一群特徵向量用較少維度來表示，且使得維度間變成彼此無關(Uncorrelated)，同時仍能盡量保有特徵向量的變異量(Variation) 對 T 求特徵向量分解(Eigenvector Decomposition)，以特徵值(Eigenvalue)最大的前p個特徵向量 (Eigenvector)當成轉換矩陣首先針對資料相關線性轉換作介紹。第一個介紹的為主成份分析，簡稱為PCA。PCA在圖樣識別中為很常見的技術，其主要精神為藉由線性轉換來作降維，並且盡量保留資料群的變異量，且轉換後維度間變成彼此無關。作法為對所有特徵向量來統計整體共變異矩陣T，對T求特徵向量分解，以特徵值最大的前p個特徵向量當成轉換矩陣。最後，新的特徵向量就由轉換矩陣和原本特徵向量作線性轉換而得。只有在T會滿足維度間彼此無關。各個類別內，維度間還是為相關。不滿足HMM共變異矩陣對角化的假設。

研究內容－主成份分析(PCA) cont. 主成份分析示意圖投影在第一主成份基底向量的資料擁有最大的變異量，投影在第二主成份基底擁有次大的變異量，且基底向量間各自為單位正交(Orthonormal) X軸 Y軸第一主成份基底第二主成份基底資料群變異量方向

研究內容－線性鑑別分析(LDA) 目標事前假設經線性轉換後特徵之間可以保有最大的分類鑑別資訊。所以希望轉換後類別內的分佈越凝聚越好，而類別間的分佈距離越遠越好。事前假設每個類別都是高斯分佈。所有類別分佈有不同的平均值但變異量都相同。線性轉換後，所有鑑別資訊都包含在前(p)維子空間，而後(n-p)維子空間不帶有鑑別資訊。

研究內容－線性鑑別分析(LDA) cont. 類別內分佈－越凝聚越好類別間分佈－相距越遠越好資料群 (2) 資料群(1)

研究內容－線性鑑別分析(LDA) cont. 線性鑑別分析示意圖資料群投影到第一基底後可以有較大的鑑別力。也就是分類錯誤較小。 X軸 Y軸第一基底第二基底資料群 (1) (2) 分類錯誤圖為LDA的示意圖，可以看出兩個資料群投影到第一基底可能會分類錯誤的地方為，而投影到第二基底可能會分類錯誤的地方為。所以可以知道當兩個資料群投影到第一基底，有較高的鑑別力。

研究內容－線性鑑別分析(LDA) (cont.) 當資料以向量方式呈現時，希望類別間(Between)共變異矩陣 B 轉換後的行列式值越大越好，且類別內(Within)共變異矩陣 W 轉換後的行列式值越小越好。求取一個轉換矩陣使得兩者比值最大：等同對求特徵向量分解(Eigenvector Decomposition)，以特徵值(Eigenvalue)最大的前p個特徵向量 (Eigenvector) 當成轉換矩陣 det()的概念，為何要在共變異矩陣外在包上一層det()。 LDA的作法為統計類別間的共變異矩陣B，和類別內的共變異矩陣W。希望線性轉換後前者的行列式值越大越好，後者的行列式值越小越好。這就像前面所說一樣，希望類別間的分佈距離越遠越好，而類別內的分佈越凝聚越好。也就是要求取一個轉換矩陣使得式子有極大值。文獻中證明這個作法等同於對W的inver乘上B求特徵向量分解，以特徵值最大的前p個特徵向量當成轉換矩陣。如同PCA一般，新的特徵向量是由轉換矩陣與原特徵向量線性轉換而得。在PCA中，只要統計整體共變異矩陣，並不需要使用特徵向量所屬的類別資訊，所以類別的單位不同並不會對PCA造成影響。而我們看到LDA的B和W的計算中，都必須使用到特徵向量所屬的類別資訊，所以類別的單位不同會對LDA造成很大的影響。在我們的初始實驗中，有嘗試三種不同的類別單位，類別粗細分別為隱藏式馬可夫模型的模組、狀態或高斯分佈。其中以狀態為類別單位的辨識率是最高的，所以我們統一都以隱藏式馬可夫模型的狀態為類別單位。

研究內容－異質性線性鑑別分析(HLDA) 目標經線性轉換後特徵之間可以保有最大的分類鑑別資訊。所以希望轉換後類別內的分佈越凝聚越好，而類別間的分佈距離越遠越好。事前假設每個類別都是高斯分佈。所有類別分佈有不同的平均值但變異量都相同。線性轉換後，所有鑑別資訊都包含在前(p)維子空間，而後(n-p)維子空間不帶有鑑別資訊。

研究內容－異質性線性鑑別分析(HLDA) cont. Campbell[Campbell 1984]提出線性鑑別分析起源於最大相似度 (Maximum-likelihood )估測法，其中特徵向量的各類別有不同的平均值向量(Mean Vectors)但共變異矩陣 (Covariance Matrice)相同 Kumar[Kumar 1997; Kumar and Andreou 1998]在博士論文中提出現實中特徵的分佈之變異可為異質性(Heteroscedastic)，針對此假設來一般化線性鑑別分析。也就是去除各類別分佈變異量為相同的要求，同樣再以最大相似度估測為目標函式，進一步推導出異質性線性鑑別分析 Gaussian機率式 Kumar使用美國的JHU學者來稱呼。 (美國約翰霍普金斯大學) 這邊介紹異質性線性鑑別分析，簡稱HLDA。這位學者在1984就已提出LDA是起源於最大相似度估測法，其中假設各類別有不同的平均值向量，但共變異矩陣都是相同。而美國約翰霍普金斯大學的這位學者在其1997年的博士論文提出，現實中特徵分佈的變異可以為異質性，所以針對此點來一般化LDA。也就是去除各類別分佈變異量為相同的要求，在以最大相似度估測為目標函式，進一步推導HLDA。

研究內容－異質性線性鑑別分析(HLDA) cont. 異質性線性鑑別分析與線性鑑別分析的比較線性鑑別分析的投影跟異質性線性鑑別分析比較後有較高的分類錯誤類別A 類別B 線性鑑別分析的投影不帶有鑑別資訊的投影分類錯誤異質性線性鑑別分析的投影

研究內容－異質性線性鑑別分析(HLDA) cont. 所有鑑別資訊都包含在前(p)維子空間，而後(n-p)維子空間不帶有鑑別資訊。對於高斯分佈來說，後(n-p)維不帶有分類資訊即同等於後(n-p)維在所有類別中分佈相同因此可以假設特徵向量的前(p)維和後(n-p)維彼此獨立

研究內容－異質性線性鑑別分析(HLDA) cont. 當特徵向量xi為高斯分佈時，其線性轉換yi亦為高斯分佈。所以xi在所屬類別的相似度可以表示成：其中

研究內容－異質性線性鑑別分析(HLDA) cont. 其中

研究內容－異質性線性鑑別分析(HLDA) cont. 全體特徵向量在其所屬類別的對數相似度後(n-p)維不帶有分類資訊即同等於後(n-p)維在所有類別中分佈相同。假設此分佈為整體的平均值向量和共變異矩陣。

研究內容－異質性線性鑑別分析(HLDA) cont. 其中化簡線性代數運用兩個定理

研究內容－異質性線性鑑別分析(HLDA) cont. 數值方法： (JHU Kumar方法) 異質性線性鑑別分析(HLDA) 對角化異質性線性鑑別分析(DHLDA(1)) 假設轉換後類別分佈的共變異矩陣為對角化計算量小，速度快。滿足HMM對於共變異矩陣的假設但可能會造成轉換矩陣無法最佳化

研究內容－異質性線性鑑別分析(HLDA) cont. 固定解方法：(Cambridge Gales方法) 只能求解對角化異質性線性鑑別分析(DHLDA(2))。假設轉換後的共變異矩陣為對角化。分解成 , ai為基底向量，ci為ai對應的餘因子(Cofactors)。

研究內容－異質性線性鑑別分析(HLDA) cont. 全體特徵向量在其所屬類別的對數相似度整理後為 transformation matrix

研究內容－異質性線性鑑別分析(HLDA) cont. 代數轉換後對微分，並令式子為零。最後可求得

最大相似度線性轉換(MLLT) 目標事前假設希望原本類別的共變異矩陣為全秩，經線性轉換後類別的共變異矩陣為對角化，但整體相似度不變或變化最小增加辨識速度及減少記憶體需求事前假設假設維度間為彼此無關(Uncorrelated)，如此共變異矩陣只需保留對角線上的值對角化

最大相似度線性轉換(MLLT) 特性整體對數相似度可簡化成當轉換基底為非奇異矩陣，且轉換後保留所有的維度，轉換基底並不會對相似度造成任何的影響所以在主成份分析、線性鑑別分析或異質性線性鑑別分析之後再加上最大相似度線性轉換並不會對於相似度造成影響整體對數相似度可簡化成

最大相似度線性轉換(MLLT)count. 對整體對數相似度差求解

實驗語料庫公視新聞語料庫各別加入 AURORA 2.0 所提供的噪音源語音辨識訓練語料 (25.5hrs): 外場記者男女各767min. (12.78 hrs) 測試語料 (1.45hrs): 外場記者男22min.，女65min. 各別加入 AURORA 2.0 所提供的噪音源地下鐵、人聲、汽車、展覽館、餐廳、街道、機場、火車站 -5dB~20dB，間格5dB，共6種不同訊噪比語音辨識自由音節辨識大詞彙連續語音辨識 (72,000詞) 詞彙樹複製搜尋(TC) : 使用Bigram 語言模型詞圖搜尋(WG) : 使用Trigram 語言模型

資料相關線性轉換在頻域－時域特徵擷取的應用頻域-時域特徵擷取示意圖特徵向量可以為各種語音特徵梅爾率波器組輸出 Mel Filter Banks, MFB 梅爾倒頻譜係數 Mel-frequency Cepstral Coefficients, MFCC 感知線性預測係數 Perceptual Linear Prediction Coefficients, PLPC 參數本身加上前後各取4個音框最後輸出39維特徵向量轉換矩陣特徵向量超級特徵向量

結合不同語音特徵對於頻域-時域特徵擷取的影響實驗初步只選用主成份分析與與線性鑑別分析以主成份分析來看，結合梅爾濾波器組輸出辨識率最好。但以線性鑑別分析來看，結合梅爾倒頻譜係數辨識率最高因為梅爾倒頻譜係數需多經過餘弦轉換，節省計算量起見，以下實驗皆以梅爾濾波器組輸出為輸入 Method Baseline CMS CN MLLT MLLT+CMS MLLT+CN MFB PCA 45.4 39.82 38.89 41.98 37.53 37.03 LDA 43.17 38.8 38.3 40.78 37.06 36.47 MFCC 46.42 41.13 40.53 43.53 38.79 38.27 42.74 38.72 38.22 40.15 36.64 36.19 PLP 45.28 40.31 39.48 42.14 37.98 47.34 42.32 45.25 41.14 40.84 音節錯誤率

資料導向線性特徵轉換與強健性技術結合 Method Baseline +CMS +CN MFCC 44.97 41.68 41.06 PLP 46.46 42.50 41.82 PCA 45.40 39.82 38.89 LDA 43.17 38.80 38.30 HLDA 47.10 40.08 39.22 DHLDA-I 數值方法 40.90 37.41 36.80 DHLDA-II 固定解方法 40.50 37.05 36.45 音節錯誤率

資料導向線性特徵轉換與最大相似度線性轉換及強健性技術結合 Method Baseline +CMS +CN MFCC 44.67 40.67 40.10 PLP 46.92 42.36 41.94 PCA 41.98 37.53 37.03 LDA 40.78 37.06 36.47 HLDA 39.70 36.57 36.12 音節錯誤率

資料導向線性特徵轉換技術的強健性實驗 +CN With MLLT Without MLLT MFCC PLP PCA LDA HLDA DHLDA-II Clean 40.10 41.94 37.03 36.47 36.12 36.45 20dB 41.43 42.96 38.31 37.78 37.34 38.08 15dB 44.11 45.59 40.83 40.53 39.88 40.87 10dB 50.01 51.50 46.63 46.56 45.89 46.96 5dB 62.26 63.45 58.67 58.60 58.35 59.47 0dB 82.20 83.09 78.26 78.64 77.73 77.79 -5dB 103.94 104.33 98.41 98.79 96.66 94.18 Average 63.99 65.15 60.19 60.15 59.31 59.56 音節錯誤率

特徵擷取在大詞彙連續語音辨識的音節(S)、字(C)、詞(W)錯誤率(%) +CN Method TC (S) TC (C) TC (W) WG WG (C) WG (W) With MLLT MFCC 19.64 27.95 37.78 19.52 26.76 35.55 PLP 23.80 32.40 42.36 23.63 31.19 40.05 PCA 18.32 26.85 36.87 18.03 25.20 34.06 LDA 18.00 26.47 36.45 17.52 24.59 33.27 HLDA 17.40 25.79 35.66 17.04 24.21 32.80 Without MLLT DHLDA-I 18.09 26.56 36.61 17.67 24.88 33.79 DHLDA-II 17.97 26.40 36.04 17.49 24.77 33.53 音節錯誤率

結論最小分類錯誤估測、最大交互訊息估測對角化異質性線性鑑別分析的辨識效果並不理想。學生推測應該是對角化的假設，使得最佳化轉換矩陣的過程產生誤差。最大相似度線性轉換(MLLT)的效果卓越。以異質性線性線性鑑別分析(HLDA)結合最大相似度線性轉換(MLLT)和倒頻譜正規化法(CN)後效果最好。