關鍵詞辨認 (Keyword Spotting) 張智星 Jang@cs.nthu.edu.tw http://www.cs.nthu.edu.tw/~jang
自我介紹 學歷 研究重點 經歷 1980-84: 台大電機系 1992-93:研究員,電機電腦系、加州大學柏克萊分校 1987-92:電機電腦(EECS)博士、美國加州大學柏克萊分校(指導教授:Prof. Lotfi Zadeh, Father of Fuzzy Logic) 研究重點 Speech/Melody Recognition, Neural Networks, Fuzzy Logic 經歷 1992-93:研究員,電機電腦系、加州大學柏克萊分校 1993-95:應用工程師,美國麻州 MathWorks 公司(MATLAB總公司),完成 Fuzzy Logic Toolbox 1995-至今:副教授,清華大學資訊系
大綱 何謂「關鍵詞辨認」? 「關鍵詞辨認」的應用面 「關鍵詞辨認」的方法 展示與結論 輸入的前處理(Query processing) 語料的斷句(Sentence segmentation) 自由音節解碼(Free syllable decoding) 相似度比對(Similarity computation) 展示與結論
何謂「關鍵詞辨認」? 關鍵詞辨認:從大量的錄音資料中,以電腦自動搜尋含有某個特定關鍵詞的語音資料 類別 關鍵詞範圍 輸入模式 固定(Fixed set) 不固定(Open set) 輸入模式 文字輸入(Text query) 語音輸入(Speech query)
「關鍵詞辨認」的應用面 語音資料的自動檢索(例如新聞廣播、運動轉播、錄影帶搜尋) 電話自動監聽系統 電話總機語音轉接系統
1. 輸入的前處理 文字輸入 語音輸入 範例 標注音(Syllable labeling) 自由音節解碼(Free syllable decoding) 音節擴展(Syllable expansion) 範例 奧斯卡 au-sii-ka ou-sii-ka au-shii-ka au-sii-da
2. 語料的斷句 Silence-detection-based segmentation Uniform segmentation with overlap
3. 自由音節解碼 目的 使用 Viterbi decoding 將語音輸入轉換成最可能的國語音節(若不包含聲調,國語共約有408個不同音節) 特性 辨識率不高(大約 50~60%) 錯誤類別:Substitution, insertion and deletion.
3. 自由音節解碼(cont.) 範例: 一般民眾都關切宋楚瑜的下一步會怎麼走 pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chu-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cng-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chun-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chu-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cng-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cu-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chun-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cun-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cu-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cun-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chu-mu-cor
4. 相似度比對 音節字串的各種比對方法 Longest common subsequence Longest consecutive common subsequence Weighted sum between initials and finals Confusion table based weighting
效能評估 兩種評估方式 特性:兩者不可得兼! 錯誤的接受(False acceptance):錯誤地接受不含關鍵詞的語音資料 錯誤的拒絕(False rejection):錯誤地拒絕含有關鍵詞的語音資料 特性:兩者不可得兼!
測試資料與相關效能 測試語音資料 效能(score threshold=5) 17人(14男3女),每人錄音75句新聞標題,共有 1275句子 實驗室錄音環境,以 PC 麥克風錄音(16KHz, 8-bit resolution) 效能(score threshold=5) False acceptance: 10% (90% true acceptance) False rejection: 27% (73% true rejection)
預期的速度改進 自由音節解碼 60分鐘的語料,只需要6分鐘來解碼 相似度比對 60分鐘的語料,轉換成音節字串後,只需要1秒來計算相似度
電話語音的效能考量 針對電話語音的效能提升 預期效能 Channel compensation 使用電話語料所訓練出來的 HMM 參數 Cepstral mean normalization Signal bias removal Stochastic matching 使用電話語料所訓練出來的 HMM 參數 預期效能 10% false acceptance (90% true acceptance) 20% false rejection (80% true rejection)
系統展示 展示一: 唐詩三百首的語音辨識 人名的語音辨識 展示二:關鍵詞辨認 非固定關鍵詞 文字輸入