Presentation is loading. Please wait.

Presentation is loading. Please wait.

The First Course in Speech Lab

Similar presentations


Presentation on theme: "The First Course in Speech Lab"— Presentation transcript:

1 The First Course in Speech Lab
Presented by Jen-Wei Kuo 

2 研究領域 語音辨識 (Automatic Speech Recognition, ASR)
語句(聲波) 文字 蔡文鴻(語言模型參數估測)、郭人瑋(聲學模型參數估測) 劉成韋(聲學特徵正規化) 、張志豪(聲學特徵轉換) 資訊檢索 (Information Retrieval, IR) 查詢相關文章(文章排名) 黃耀民(語音文件自動摘要) 朱惠銘(語音文件自動分段) 自然語言處理 (Natural Language Processing, NLP) 文字抽象概念 2019/2/24 Speech Lab. NTNU

3 語音辨識 語音辨識可視為一個函數 我們的工作 輸入: 語句(聲波) 輸出: 文字 建造此一函數 2019/2/24
Speech Lab. NTNU

4 語音辨識 建造函數的過程中… 如何評估函數的優劣? 測試看看,看辨識的效果如何  需要建立一個標準的測試集 測試集(測試語料) 如何比較?
一些語句 這些語句所對應的轉譯文字 如何比較? 看對幾個字 看錯幾個字 編輯距離(大家統一使用的比較方式) 2019/2/24 Speech Lab. NTNU

5 語音辨識 如何建造此函數? 此函數相當複雜,必定由許多複雜的小函數所組成 1.利用人工的方式將這些函數一一完成 (很難、費時!!!)
2.利用自動學習的方式來建構此函數 供學習的資料訓練集(訓練語料) 一些語句 這些語句所對應的轉譯文字 許多的文字語料 2019/2/24 Speech Lab. NTNU

6 統計式(機率式)語音辨識 最直覺的作法判斷「哪個句子聽起來最像、最有可能」 從所有文句中找出機率最大的文句
將”像”、”可能”加以量化 以機率表示 「找出聽起來最像、最有可能的句子」「找出機率最大的句子」 從所有文句中找出機率最大的文句 聲學機率 聲學相似度 聲學分數 語言機率 語言分數 2019/2/24 Speech Lab. NTNU

7 統計式語音辨識基本架構圖 辨識(測試)階段 學習(訓練)階段 志豪 成韋 老師、士弘、燦輝 人瑋 文鴻 炫盛 語音訊號輸入 梅爾倒頻譜特徵
聲學比對與語言解碼 辨識文字 前端處理 訓練語句 文字訓練語料 聲學模型 訓練 聲學模型 語言模型 語言模型 訓練 人瑋 文鴻 炫盛 學習(訓練)階段 2019/2/24 Speech Lab. NTNU

8 前端處理(Front-End Processing)
切音框(Frame) 每個音框長20ms (0.02秒) 每個音框重疊10ms(0.01秒) 若語音長13秒,請問可切幾個音框? 1299個 2019/2/24 Speech Lab. NTNU

9 前端處理(Front-End Processing)
特徵值抽取(Feature Extraction) 主要在找出音框中對語音辨識有幫助的特徵(Feature) 一般使用梅爾倒頻譜特徵向量(MFCC) 39維的向量 若語音長為15秒,請問有幾個39維的向量? 每個向量為用 ot 表示 o : observation vector, t : time index, O : observation sequence (語音段落) 15秒的語音o1 ~ o1499 1499個 2019/2/24 Speech Lab. NTNU

10 聲學模型(Acoustic Model) – 與聲學有關的機率模型
只與聲音(發音)有關 所以 P(O|天天星期天) == P(O|添添興其添) 語言中的單位 句 (Sentence) 如:今天天氣很好 詞 (Word) 如: 星期天, 大學聯考 字 (Character) 如: 星, 期, 天 音節 (Syllable) 如:ㄅㄠˇ, ㄉㄚ 聲母(Consonant )+韻母(Vowel )+聲調(Tone) 音素 (Phoneme) 如:ㄅ, ㄠ 包含聲母及韻母 2019/2/24 Speech Lab. NTNU

11 聲學模型(Acoustic Model) – 與聲學有關的機率模型
聲母(子音)的代號 2019/2/24 Speech Lab. NTNU

12 聲學模型(Acoustic Model) – 與聲學有關的機率模型
韻母(母音)的代號 2019/2/24 Speech Lab. NTNU

13 聲學模型(Acoustic Model) – 與聲學有關的機率模型
P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) shi ing chi i 2019/2/24 Speech Lab. NTNU

14 聲學模型(Acoustic Model) – 與聲學有關的機率模型
P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) shi ing chi i 2019/2/24 Speech Lab. NTNU

15 聲學模型(Acoustic Model) – 與聲學有關的機率模型
P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) shi ing chi i 2019/2/24 Speech Lab. NTNU

16 聲學模型(Acoustic Model) – 與聲學有關的機率模型
P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) shi ing chi i 2019/2/24 Speech Lab. NTNU

17 聲學模型(Acoustic Model) – 與聲學有關的機率模型
P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) 不同的切法  不同的機率 怎麼決定P(O| shi,ing,chi,i) ? 每種切法又如何算機率? 2019/2/24 Speech Lab. NTNU

18 聲學模型(Acoustic Model) – 與聲學有關的機率模型
shi ing chi i P(O| shi,ing,chi) =P(O1, O2, O3, O4| shi,ing,chi,i) =P(O1| shi,ing,chi,i) × P(O2|O1, shi,ing,chi,i) × P(O3|O1,O2, shi,ing,chi,i) × P(O4|O1,O2, O3, shi,ing,chi,i) P(O1|shi)× P(O2| ing) ×P(O3| chi)× P(O4|i) O o1 o2 o3 o4 2019/2/24 Speech Lab. NTNU

19 聲學模型(Acoustic Model) – 與聲學有關的機率模型
P(O1| shi) 每個音素產生語音段落的機率 為每個音素建立各自的聲學模型 最簡單的Case 使用一個高斯分佈來估測此機率 mean vector (平均值向量) covariance matrix (共變異矩陣) 2019/2/24 Speech Lab. NTNU

20 聲學模型(Acoustic Model) – 與聲學有關的機率模型
為每個音素建立聲學模型 聲母 (INITIAL) 22個 韻母 (FINAL) 38個 靜音 (SIL) 1個 聲母再細分成 112個 因為聲母(子母)容易受韻母(母音)影響 如: ‘抱’中的ㄅ 與 ‘必’中的ㄅ 發音就不太一樣 ㄅ_ㄠ ㄅ_一 ㄅ_ㄢ 2019/2/24 Speech Lab. NTNU

21 聲學模型(Acoustic Model) – 與聲學有關的機率模型
用單一高斯分佈是不夠的!! 發音的變化  用HMM 如:ㄠ (ou) 一開始是o, 最後變成u  一開始時o音的機率要較大,最後u音的機率要較大 希望時間不同,高斯分佈也能跟著改變 不同語者,發音也不盡相同  用GMM 性別的差異,使得先天上發音就不同 HMM (hidden Markov model) + GMM (Gaussian mixture model) = CDHMM (continue density hidden Markov model) 2019/2/24 Speech Lab. NTNU

22 聲學模型(Acoustic Model) – 與聲學有關的機率模型
隱藏式馬可夫模型(HMM) 用狀態(State)來區分發音的時期 狀態與狀態之間有轉移機率(Transition Probabilities) 2019/2/24 Speech Lab. NTNU

23 聲學模型(Acoustic Model) – 與聲學有關的機率模型
高斯混合模型(GMM) 使用更多的高斯分佈 2~128個 每個高斯分佈都有權重(mixture weight) wk 2019/2/24 Speech Lab. NTNU

24 語言模型(Language Model) – 和語言有關的機率模型
一句話的機率 P(今天 你 來 我家 吃飯) = ? 無法對每句話都存一個機率(無法直接處理) 參數量無敵大 第一步:利用貝氏定理展開 P(今天 你 來 我家 吃飯) = P(今天)×P(你|今天) ×P(來|你 今天) ×P(我家|你 今天 來) ×P(吃飯|你 今天 來 我家) 第二步:假設只和前兩個詞有關  三連語言模型(Trigram) P(今天 你 來 我家 吃飯) = P(今天)×P(你|今天) ×P(來|你 今天) ×P(我家|今天 來) ×P(吃飯|來 我家) 參數量縮減至V3 (V是詞典內詞的總數) 2019/2/24 Speech Lab. NTNU

25 主要的Paper來源 Journal Conference ICASSP (每年一次) ICSLP與Eurospeech (兩年一次)
IEEE Transactions on Speech and Audio Processing (SAP) Computer Speech and Language (CSL) Speech Communication (SC) Conference ICASSP (每年一次) ICSLP與Eurospeech (兩年一次) ISCSLP與ASRU (兩年一次) ROCLING(國內, 每年一次) 2019/2/24 Speech Lab. NTNU

26 國內其他研究單位 台大 (李琳山、 陳信希教授) 清大 (王小川、 張智星教授) 交大 (王逸如、 陳信宏、 張文輝教授)
成大 (王駿發、 吳宗憲、 簡仁宗教授) 中研院 (陳克健、簡立峰、王新民、黃居仁、魏培泉、許文聞研究員) 2019/2/24 Speech Lab. NTNU

27 國外學校研究單位 Cambridge RWTH Aachen - University of Technology CMU MIT
York University University of Hong Kong Tokyo Institute of Technology 2019/2/24 Speech Lab. NTNU

28 國外研究單位 IBM Watson Research Center Microsoft Research
Lucent Technologies Bell Labs BBN Systems and Technologies ATR Interpreting Telecommunications Research Laboratories LIMSI/CNRS Panasonic Speech Technology Laboratory 2019/2/24 Speech Lab. NTNU

29 下次上課日期 7/13 (三) 上午9:00 2F會議室   講題:語言模型  講者:文鴻 2019/2/24 Speech Lab. NTNU


Download ppt "The First Course in Speech Lab"

Similar presentations


Ads by Google