Presentation is loading. Please wait.

Presentation is loading. Please wait.

關鍵詞辨認 (Keyword Spotting)

Similar presentations


Presentation on theme: "關鍵詞辨認 (Keyword Spotting)"— Presentation transcript:

1 關鍵詞辨認 (Keyword Spotting)
張智星

2 自我介紹 學歷 研究重點 經歷 1980-84: 台大電機系 1992-93:研究員,電機電腦系、加州大學柏克萊分校
:電機電腦(EECS)博士、美國加州大學柏克萊分校(指導教授:Prof. Lotfi Zadeh, Father of Fuzzy Logic) 研究重點 Speech/Melody Recognition, Neural Networks, Fuzzy Logic 經歷 :研究員,電機電腦系、加州大學柏克萊分校 :應用工程師,美國麻州 MathWorks 公司(MATLAB總公司),完成 Fuzzy Logic Toolbox 1995-至今:副教授,清華大學資訊系

3 大綱 何謂「關鍵詞辨認」? 「關鍵詞辨認」的應用面 「關鍵詞辨認」的方法 展示與結論 輸入的前處理(Query processing)
語料的斷句(Sentence segmentation) 自由音節解碼(Free syllable decoding) 相似度比對(Similarity computation) 展示與結論

4 何謂「關鍵詞辨認」? 關鍵詞辨認:從大量的錄音資料中,以電腦自動搜尋含有某個特定關鍵詞的語音資料 類別 關鍵詞範圍 輸入模式
固定(Fixed set) 不固定(Open set) 輸入模式 文字輸入(Text query) 語音輸入(Speech query)

5 「關鍵詞辨認」的應用面 語音資料的自動檢索(例如新聞廣播、運動轉播、錄影帶搜尋) 電話自動監聽系統 電話總機語音轉接系統

6 1. 輸入的前處理 文字輸入 語音輸入 範例 標注音(Syllable labeling)
自由音節解碼(Free syllable decoding) 音節擴展(Syllable expansion) 範例 奧斯卡  au-sii-ka  ou-sii-ka au-shii-ka au-sii-da

7 2. 語料的斷句 Silence-detection-based segmentation
Uniform segmentation with overlap

8 3. 自由音節解碼 目的 使用 Viterbi decoding 將語音輸入轉換成最可能的國語音節(若不包含聲調,國語共約有408個不同音節) 特性 辨識率不高(大約 50~60%) 錯誤類別:Substitution, insertion and deletion.

9 3. 自由音節解碼(cont.) 範例: 一般民眾都關切宋楚瑜的下一步會怎麼走
pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chu-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cng-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chun-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chu-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cng-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cu-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chun-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cun-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cu-mu-chng ti-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-cun-mu-chng pi-ban-ni-ciong-dor-guan-ti-song-tun-di-ciang-bu-huei-chu-mu-cor

10 4. 相似度比對 音節字串的各種比對方法 Longest common subsequence
Longest consecutive common subsequence Weighted sum between initials and finals Confusion table based weighting

11 效能評估 兩種評估方式 特性:兩者不可得兼! 錯誤的接受(False acceptance):錯誤地接受不含關鍵詞的語音資料
錯誤的拒絕(False rejection):錯誤地拒絕含有關鍵詞的語音資料 特性:兩者不可得兼!

12 測試資料與相關效能 測試語音資料 效能(score threshold=5)
17人(14男3女),每人錄音75句新聞標題,共有 1275句子 實驗室錄音環境,以 PC 麥克風錄音(16KHz, 8-bit resolution) 效能(score threshold=5) False acceptance: 10% (90% true acceptance) False rejection: 27% (73% true rejection)

13 預期的速度改進 自由音節解碼 60分鐘的語料,只需要6分鐘來解碼 相似度比對 60分鐘的語料,轉換成音節字串後,只需要1秒來計算相似度

14 電話語音的效能考量 針對電話語音的效能提升 預期效能 Channel compensation 使用電話語料所訓練出來的 HMM 參數
Cepstral mean normalization Signal bias removal Stochastic matching 使用電話語料所訓練出來的 HMM 參數 預期效能 10% false acceptance (90% true acceptance) 20% false rejection (80% true rejection)

15 系統展示 展示一: 唐詩三百首的語音辨識 人名的語音辨識 展示二:關鍵詞辨認 非固定關鍵詞 文字輸入


Download ppt "關鍵詞辨認 (Keyword Spotting)"

Similar presentations


Ads by Google