A Study on the Next Generation Automatic Speech Recognition -- Phase 2 國科會整合型計畫 總計畫報告 新世代自動語音辨識技術之研究 — 第二階段 A Study on the Next Generation Automatic Speech Recognition -- Phase 2 主持人 王小川 2011//7/12 NGASR-II
研究計劃之背景及目的 研究計劃之背景及目的 NGASR-II
自動語音辨識(automatic speech recognition, ASR)技術的發展已經超過四十多年,多數的做法是針對一個語言發展一套語音辨識系統,但不一定需要懂得該語言,只要對這個語言收集夠多的語音與文本資料,由資料產生聲學模型與語言模型,就可以建構一個自動語音辨識系統。常用的隱藏式馬可夫模型(hidden Markov model)與人工神經網路(artificial neural network),就是這種做法,而且這些演算方法都有公開的軟體可以使用。 以資料庫為基礎的(corpus-based)做法,可以說是用了一個忽略知識的模型(knowledge- ignorant modeling),能再改進之處有限。 應該回頭將語音學與語言學的知識帶進來,建立一個以知識為基礎(knowledge-based)加上資料驅動(data-driven)的模式,從語音屬性與語音事件偵測著手,將自動語音辨認推向下一個新世代。 NGASR-II
第一階段整合型計畫所做的研究,重點在聲學模型與語音特徵參數的研究,以及語料庫的標音與建立。 根據美國喬治亞理工學院李錦輝教授的建議,我們於2005年提出一個整合型計畫「新世代自動語音辨識技術之研究」,建立共享平台,進行合作研究,所規劃的系統架構如下; 第一階段整合型計畫所做的研究,重點在聲學模型與語音特徵參數的研究,以及語料庫的標音與建立。 NGASR-II
2008年提出後續的三年整合型計畫「新世代自動語音辨識技術之研究-第二階段」,擴大參與人員與研究範圍,所規劃的語音辨識系統架構如圖二所示; NGASR-II
研究方法與進行步驟 研究方法與進行步驟 NGASR-II
整個系統架構是由上而下的規劃,各子計畫分別對於前述之研究項目作分工的研究,將來各個子計畫所完成的知識庫、語料庫、模型、以及工具,將落實在共享平台上,開放大家使用。 NGASR-II
自動標音及語音資料庫確認 (王新民) --- 功能方塊(三) 自動標音及語音資料庫確認 (王新民) --- 功能方塊(三) 本子計畫將進行的主要工作包括: (1)語音資料庫標記。 (2)語音特徵係數測試。 (3)音訊分段(Audio Segmentation)技術開發。 (4)自動音素分段(Automatic Phoneme Segmentation)技術開發。 (5)分類器及特徵選取(Feature Selection)技術開發。 (6)自動限制網路抽取技術開發。 NGASR-II
語音屬性與事件之辨識模型研究 (王小川) --- 功能方塊(二) 語音屬性與事件之辨識模型研究 (王小川) --- 功能方塊(二) 本子計畫預定以機率圖模型的架構,針對以音框單位與跨音框單位的語音參數,建構其合適的辨識模型。研究的重點包括; (1) 機率圖模型的基本原理探討。 (2) 語音屬性與語音事件序列的機率圖模型描述方式。 (3) 適合語音辨識之機率圖模型及其強健性設計。 (4) 語音辨識單位的探討及機率圖模型在詞彙辨識的應用。 NGASR-II
語音事件整合、證據確認,與後處理 (李琳山) --- 功能方塊(二)、功能方塊(四) 語音事件整合、證據確認,與後處理 (李琳山) --- 功能方塊(二)、功能方塊(四) 本子計畫的核心工作是功能方塊(二)與功能方塊(四)。 功能方塊(二)將包含三個層次; (1)同一語音事件之不同訊息來源之整合及進一步確認。 (2)將不同語音事件之知識整合成一較高層次的事件及進一步確認。 (3)將不同時間上的語音事件整合成一較長時間的假設及進一步確認。 功能方塊(四)的工作包括;類似維特比解碼(Viterbi Decoding)的程序,及若干可用的模型,例如隱藏式馬可夫模型(Hidden Markov Model)、圖式模型(Graphical Model)、條件隨機域(Conditional Random Field)、最高熵模型(Maximum Entropy Model)、決策樹(Decision Tree)、支撐向量機(Support Vector Machine)等。 NGASR-II
韻律屬性與語音事件偵測之研究 (鄭秋豫) --- 功能方塊(一)、功能方塊(五) 韻律屬性與語音事件偵測之研究 (鄭秋豫) --- 功能方塊(一)、功能方塊(五) 本子計畫擬在總計畫加入韻律屬性與語音事件的偵測,即語音信號中的超音段成分,並階段性的語音段屬性整合,以建立語音辨識模型。 研究課題包括以下三個方向: (1)偵測語流韻律邊界特性,以提供辨識韻律單位所需資訊。 (2)比較自發性口語料和朗讀語料的語篇規劃範圍與韻律邊界聲學參數區辨力。 (3)進行口語篇章中焦點成分的語句重音及語意重音的聽感聲學研究。 NGASR-II
國語及方言之音節階層事件偵測及其相關研究 (王逸如) --- 功能方塊(一) 國語及方言之音節階層事件偵測及其相關研究 (王逸如) --- 功能方塊(一) 本子計畫中要進行的項目為; (1) 以HMM辨識方法做自動音節之標音。 (2) 音節邊界界標(syllable boundary landmark)之偵測。 (3) 音節階層發音特徵之研究。 (4) 音節邊界界標與音節階層發音特徵之應用。 NGASR-II
跨環境之強健性語音屬性與事件偵測器研究 (廖元甫) --- 功能方塊(一)) 跨環境之強健性語音屬性與事件偵測器研究 (廖元甫) --- 功能方塊(一)) 本子計畫的重點在功能方塊(一),希望在不同語言,語者,通道與雜訊環境下,仍能量測適當的local time-frequency cues,根據語言學的locus,contrast與supra-segment觀念,只結合適當之time-frequency cues,而忽略與語音辨認無關之聲學環境細節變化之干擾,從而能擷取出environment-invariant features以製作具強健性之語音屬性與事件偵測器。 研究項目包含; (1) 語音屬性與事件特徵參數擷取。 (2) 語音屬性與事件定義集。 (3) 強健式語音屬性與事件偵測器,Universal phone detector與Robust word detector 。 (4) 離線(Offline)與及時(real-time)偵測器。 NGASR-II
合作研究之共享平台 建立共享平台讓參與計畫的研究人員可以在此平台上分享程式與語料庫,同時也公開研究成果。 (1) 語音技術資料交流 (2) 語音技術效能測試 (3) 語料蒐集、標記、彙整 (4) 技術成果蒐集彙整 http://diana.ee.nthu.edu.tw/NGASR/ NGASR-II
完成之工作項目及具體成果 完成之工作項目 NGASR-II
功能方塊(一) 以語音屬性偵測作音素辨識 (王新民) 不知語言內容的自動音素分段(王小川) 取樣點層次的音素邊界偵測(王逸如) 以麥克風陣列作強健性語音辨認(廖元甫) NGASR-II
以條件隨機場(conditional random field)模型作中文語音屬性的辨認 (王小川) 功能方塊(二) 以條件隨機場(conditional random field)模型作中文語音屬性的辨認 (王小川) 以隨機森林(random forest)模型作爆發音事件偵測(王小川) 濁音起始時間(voice onset time)之估測(王小川) 詳細分析Gabor Feature在中文語音各種音素辨識上的效果(李琳山) NGASR-II
以HMM強迫對齊加上自動邊界細調與人工校正的音素標記(王新民) 完成軟體工具庫(Toolkit)供研究用(李琳山) 功能方塊(三) 國語語音資料庫的人工標記(王新民) 以HMM強迫對齊加上自動邊界細調與人工校正的音素標記(王新民) 完成軟體工具庫(Toolkit)供研究用(李琳山) 完成課程講演語料(Course Lecture Corpus)供研究用(李琳山) TCC300語音資料庫之校正與標記(王逸如) NGASR-II
使用階層式架構(Hierarchical Structure)提昇辨識效果(李琳山) 功能方塊(四) 使用階層式架構(Hierarchical Structure)提昇辨識效果(李琳山) 整合Gabor Feature和MFCC,並充分運用多層感知器(MLP)建構串接 式系統(Tandem System),獲得辨識效果之提昇(李琳山) NGASR-II
韻律邊界與相鄰韻律單位的系統性關係之研究(鄭秋豫) 語篇韻律語境(discourse Prosody Context)的新角度(鄭秋豫) 功能方塊(五) 韻律邊界與相鄰韻律單位的系統性關係之研究(鄭秋豫) 語篇韻律語境(discourse Prosody Context)的新角度(鄭秋豫) 自發性課程口語語料(NTU Lecture corpus)的語篇規劃分析(鄭秋豫) 自發性課程口語語料與朗讀敘事語料的口語語篇中資訊結構組型分佈 (鄭秋豫) NGASR-II
代表性成果 NGASR-II
Automatic Phone Alignment and Recognition Detection of Burst Onset Using Random Forest Technique and Its Application to Voice Onset Time Estimation Speech Recognition Integrating Gabor Features with a Hierarchical structure Discourse Prosodic Attributes, Boundary Information and Prosodic Highlight High-Resolution Phone Boundary Detection Using Sample- Based Acoustic Parameters 基於聯合因子分析與麥克風陣列之強健性語音辨認 NGASR-II