The First Course in Speech Lab

The First Course in Speech Lab
Presented by Jen-Wei Kuo　

研究領域語音辨識 (Automatic Speech Recognition, ASR)
語句(聲波) 文字蔡文鴻(語言模型參數估測)、郭人瑋(聲學模型參數估測) 劉成韋(聲學特徵正規化) 、張志豪(聲學特徵轉換) 資訊檢索 (Information Retrieval, IR) 查詢相關文章(文章排名) 黃耀民(語音文件自動摘要) 朱惠銘(語音文件自動分段) 自然語言處理 (Natural Language Processing, NLP) 文字抽象概念 2019/2/24 Speech Lab. NTNU

語音辨識語音辨識可視為一個函數我們的工作輸入：語句(聲波) 輸出：文字建造此一函數 2019/2/24
Speech Lab. NTNU

語音辨識建造函數的過程中… 如何評估函數的優劣？測試看看，看辨識的效果如何  需要建立一個標準的測試集測試集(測試語料) 如何比較？
一些語句這些語句所對應的轉譯文字如何比較？看對幾個字看錯幾個字編輯距離(大家統一使用的比較方式) 2019/2/24 Speech Lab. NTNU

語音辨識如何建造此函數？此函數相當複雜，必定由許多複雜的小函數所組成 1.利用人工的方式將這些函數一一完成 (很難、費時!!!)
2.利用自動學習的方式來建構此函數供學習的資料訓練集(訓練語料) 一些語句這些語句所對應的轉譯文字許多的文字語料 2019/2/24 Speech Lab. NTNU

統計式(機率式)語音辨識最直覺的作法判斷「哪個句子聽起來最像、最有可能」從所有文句中找出機率最大的文句
將”像”、”可能”加以量化 以機率表示「找出聽起來最像、最有可能的句子」「找出機率最大的句子」從所有文句中找出機率最大的文句聲學機率聲學相似度聲學分數語言機率語言分數 2019/2/24 Speech Lab. NTNU

統計式語音辨識基本架構圖辨識(測試)階段學習(訓練)階段志豪成韋老師、士弘、燦輝人瑋文鴻炫盛語音訊號輸入梅爾倒頻譜特徵
聲學比對與語言解碼辨識文字前端處理訓練語句文字訓練語料聲學模型訓練聲學模型語言模型語言模型訓練人瑋文鴻炫盛學習(訓練)階段 2019/2/24 Speech Lab. NTNU

前端處理(Front-End Processing)
切音框(Frame) 每個音框長20ms (0.02秒) 每個音框重疊10ms(0.01秒) 若語音長13秒，請問可切幾個音框？ 1299個 2019/2/24 Speech Lab. NTNU

前端處理(Front-End Processing)
特徵值抽取(Feature Extraction) 主要在找出音框中對語音辨識有幫助的特徵(Feature) 一般使用梅爾倒頻譜特徵向量(MFCC) 39維的向量若語音長為15秒，請問有幾個39維的向量？每個向量為用 ot 表示 o : observation vector, t : time index, O : observation sequence (語音段落) 15秒的語音o1 ~ o1499 1499個 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型
只與聲音(發音)有關所以 P(O|天天星期天) == P(O|添添興其添) 語言中的單位句 (Sentence) 如：今天天氣很好詞 (Word) 如：星期天, 大學聯考字 (Character) 如：星, 期, 天音節 (Syllable) 如：ㄅㄠˇ, ㄉㄚ聲母(Consonant )+韻母(Vowel )+聲調(Tone) 音素 (Phoneme) 如：ㄅ, ㄠ包含聲母及韻母 2019/2/24 Speech Lab. NTNU

聲母(子音)的代號 2019/2/24 Speech Lab. NTNU

韻母(母音)的代號 2019/2/24 Speech Lab. NTNU

P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) shi ing chi i 2019/2/24 Speech Lab. NTNU

P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) 不同的切法  不同的機率怎麼決定P(O| shi,ing,chi,i) ？每種切法又如何算機率？ 2019/2/24 Speech Lab. NTNU

P(O1| shi) 每個音素產生語音段落的機率 為每個音素建立各自的聲學模型最簡單的Case 使用一個高斯分佈來估測此機率 mean vector (平均值向量) covariance matrix (共變異矩陣) 2019/2/24 Speech Lab. NTNU

為每個音素建立聲學模型聲母 (INITIAL) 22個韻母 (FINAL) 38個靜音 (SIL) 1個聲母再細分成 112個因為聲母(子母)容易受韻母(母音)影響如： ‘抱’中的ㄅ與 ‘必’中的ㄅ發音就不太一樣ㄅ_ㄠㄅㄅ_一ㄅ_ㄢ 2019/2/24 Speech Lab. NTNU

用單一高斯分佈是不夠的!! 發音的變化  用HMM 如：ㄠ (ou) 一開始是o, 最後變成u  一開始時o音的機率要較大，最後u音的機率要較大希望時間不同，高斯分佈也能跟著改變不同語者，發音也不盡相同  用GMM 性別的差異，使得先天上發音就不同 HMM (hidden Markov model) + GMM (Gaussian mixture model) = CDHMM (continue density hidden Markov model) 2019/2/24 Speech Lab. NTNU

隱藏式馬可夫模型(HMM) 用狀態(State)來區分發音的時期狀態與狀態之間有轉移機率(Transition Probabilities) 2019/2/24 Speech Lab. NTNU

高斯混合模型(GMM) 使用更多的高斯分佈 2~128個每個高斯分佈都有權重(mixture weight) wk 2019/2/24 Speech Lab. NTNU

主要的Paper來源 Journal Conference ICASSP (每年一次) ICSLP與Eurospeech (兩年一次)
IEEE Transactions on Speech and Audio Processing (SAP) Computer Speech and Language (CSL) Speech Communication (SC) Conference ICASSP (每年一次) ICSLP與Eurospeech (兩年一次) ISCSLP與ASRU (兩年一次) ROCLING(國內, 每年一次) 2019/2/24 Speech Lab. NTNU

國內其他研究單位台大 (李琳山、陳信希教授) 清大 (王小川、張智星教授) 交大 (王逸如、陳信宏、張文輝教授)
成大 (王駿發、吳宗憲、簡仁宗教授) 中研院 (陳克健、簡立峰、王新民、黃居仁、魏培泉、許文聞研究員) 2019/2/24 Speech Lab. NTNU

國外學校研究單位 Cambridge RWTH Aachen - University of Technology CMU MIT
York University University of Hong Kong Tokyo Institute of Technology 2019/2/24 Speech Lab. NTNU

國外研究單位 IBM Watson Research Center Microsoft Research
Lucent Technologies Bell Labs BBN Systems and Technologies ATR Interpreting Telecommunications Research Laboratories LIMSI/CNRS Panasonic Speech Technology Laboratory 2019/2/24 Speech Lab. NTNU

下次上課日期 7/13 (三) 上午9:00 2F會議室講題：語言模型講者：文鴻 2019/2/24 Speech Lab. NTNU

The First Course in Speech Lab

Similar presentations

Presentation on theme: "The First Course in Speech Lab"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

The First Course in Speech Lab

Similar presentations

Presentation on theme: "The First Course in Speech Lab"— Presentation transcript:

Similar presentations

About project

反馈