The First Course in Speech Lab

Slides:



Advertisements
Similar presentations
1 第一章:绪论 什么是信源编码? 为什么要信源编码 / 数据压缩? 为什么可以信源编码 / 数据压缩? 怎样进行信源编码?
Advertisements

戴 万 阳 ( 教 授 ) 南京大学 数 学 系 2015 年 5 月 13 日
聚焦全球领先科技资源——IEL数据库让您的科研生活更高效
耶穌 (願主賜他平安) 在伊斯蘭教的地位.
第二讲 物联网工程的技术架构.
組別:第五組 組員:蔡承原、黃彥鈞、王竣緯 指導老師:林甘敏 老師
第八章 组织文化的整合 ——并购中的文化整合(二) 小组成员:浦若蓉、朱谷一、贾彦彦.
第三組做的報告 . 組長:紀美朱 組員:謝寶岳 羅芳婷 李依芳 李銘賢 還有內容.
???.
Tibetan language layout requirements
陳浩然 國立台灣師範大學英語系 網路與英語學習: 口語,閱讀,及寫作 陳浩然 國立台灣師範大學英語系
Word2010的使用 讲解人:常蕊.
信息技术与旅游的交叉研究进展 北京联合大学旅游学院 黎巎 张凌云 2012年4月21日.
外科部-特殊病例討論會(Case Conference)
Word高级应用——制作毕业论文 Word高级应用——制作毕业论文 6..
王晨 指导教师:张军平副教授 复旦大学计算机科学技术学院 上海市智能信息处理重点实验室
正修科技大學典範人物專訪 寫作徵文比賽實施要點
報告大綱 系務發展 學生來源 師資陣容 研發資源與成果 課程規劃 學生成就與發展 2. 報告大綱 系務發展 學生來源 師資陣容 研發資源與成果 課程規劃 學生成就與發展 2.
汇报人:李臻 中国海洋大学信息科学与工程学院 计算机科学与技术系
新竹縣政府警察局新埔分局偵查隊 姚乃文 何怡慧 富光國中
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
西安电子科技大学 Xidian University (陕西) 云南省凤庆县第一中学 石凤海 2015年1月28日.
國立勤益科技大學 電資學院 院長候選人 蕭鳳翔 2010年4月29日.
性別平權教育的實施 輔一乙 第一組 謝筱柔-上台報告 李竹萱-上台報告 張瓊心- ppt製作
郑钦明 200分的人生.
他是一位叱咤风云的人物,一位毁誉参半的领袖。
課程:高等微處理機設計專題(0309) 授課老師:陳友倫 老師 連絡信箱:
第八章 金融投资-股票投资.
幼儿园教学工作会议精神执行 ING…… 虹 口.
美国物理教师学会年会 参会介绍 乐永康
Title Layout.
報告人:丁英智 資策會 網路多媒體研究所 11/3/2006
陋室铭 作者:刘禹锡.
研究、論文、計畫與生活之平衡 演講人:謝君偉 元智大學電機系 2018年11月22日.
隐马尔可夫模型 Hidden Markov model
32位元處理器之定點數MFCC演算法的改進與探討 Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors 學生:陳奕宏 指導教授:張智星.
实验二 等离子体增强化学气相沉积方法制备类金刚石薄膜实验.
1 Introduction Prof. Lin-Shan Lee TA: Chun-Hsuan Wang.
1 Introduction Prof. Lin-Shan Lee.
基於聯合因子分析與麥克風陣列之強健性語音辨認
现代信息检索 Modern Information Retrieval
信息的加工之字处理复习.
Chp9:参数推断 本节课内容:计算似然的极大值 牛顿法 EM算法.
金融行銷溝通技巧- 溝通的藝術 南山人壽洪全銘經理
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
1 Introduction Prof. Lin-Shan Lee.
语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
學生事務處 學生諮詢及簡介會 年2月1日.
暑期活动见闻 程龚.
耶穌 (願主賜他平安) 在伊斯蘭教的地位.
清華大學 青少年科技文化夏令營 迎生聚會 2006年7月7日 香港教育工作者聯會會所.
指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日
Dual-Doppler radar analysis of a near-shore line-shaped convective system on 27 July 2011, Korea: a case study J-T. Lee et al. (2014) Tellus Paper Review.
中州校園資訊入口 人事總務會計整合系統.
隐马尔可夫模型简介 X1 X2 XT ………… O1 O2 OT 刘群
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
設計新銳能量輔導- 實習期中 感想 實習生:安若靜.
隐马尔可夫模型 Hidden Markov model
高级大数据人才培养丛书之一,大数据挖掘技术与应用
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
工程寫作與報告 開放大陸生來台 指導老師:王順生 老師 范書豪.
生 活 與 社 會 單元四:廉潔選舉.
学术报告 文献检索与论文写作的几点体会 生态环境系.
語音特徵擷取之 資料相關線性特徵轉換 研究生:張志豪 多酌墨在數學式的物理意義及精神。 老師、各位口試委員、各位同學大家好。
1 Introduction Prof. Lin-Shan Lee TA: Chung-Ming Chien.
Gaussian Process Ruohua Shi Meeting
Google Voice Search: Faster and More Accurate
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Presentation transcript:

The First Course in Speech Lab Presented by Jen-Wei Kuo 

研究領域 語音辨識 (Automatic Speech Recognition, ASR) 語句(聲波) 文字 蔡文鴻(語言模型參數估測)、郭人瑋(聲學模型參數估測) 劉成韋(聲學特徵正規化) 、張志豪(聲學特徵轉換) 資訊檢索 (Information Retrieval, IR) 查詢相關文章(文章排名) 黃耀民(語音文件自動摘要) 朱惠銘(語音文件自動分段) 自然語言處理 (Natural Language Processing, NLP) 文字抽象概念 2019/2/24 Speech Lab. NTNU

語音辨識 語音辨識可視為一個函數 我們的工作 輸入: 語句(聲波) 輸出: 文字 建造此一函數 2019/2/24 Speech Lab. NTNU

語音辨識 建造函數的過程中… 如何評估函數的優劣? 測試看看,看辨識的效果如何  需要建立一個標準的測試集 測試集(測試語料) 如何比較? 一些語句 這些語句所對應的轉譯文字 如何比較? 看對幾個字 看錯幾個字 編輯距離(大家統一使用的比較方式) 2019/2/24 Speech Lab. NTNU

語音辨識 如何建造此函數? 此函數相當複雜,必定由許多複雜的小函數所組成 1.利用人工的方式將這些函數一一完成 (很難、費時!!!) 2.利用自動學習的方式來建構此函數 供學習的資料訓練集(訓練語料) 一些語句 這些語句所對應的轉譯文字 許多的文字語料 2019/2/24 Speech Lab. NTNU

統計式(機率式)語音辨識 最直覺的作法判斷「哪個句子聽起來最像、最有可能」 從所有文句中找出機率最大的文句 將”像”、”可能”加以量化 以機率表示 「找出聽起來最像、最有可能的句子」「找出機率最大的句子」 從所有文句中找出機率最大的文句 聲學機率 聲學相似度 聲學分數 語言機率 語言分數 2019/2/24 Speech Lab. NTNU

統計式語音辨識基本架構圖 辨識(測試)階段 學習(訓練)階段 志豪 成韋 老師、士弘、燦輝 人瑋 文鴻 炫盛 語音訊號輸入 梅爾倒頻譜特徵 聲學比對與語言解碼 辨識文字 前端處理 訓練語句 文字訓練語料 聲學模型 訓練 聲學模型 語言模型 語言模型 訓練 人瑋 文鴻 炫盛 學習(訓練)階段 2019/2/24 Speech Lab. NTNU

前端處理(Front-End Processing) 切音框(Frame) 每個音框長20ms (0.02秒) 每個音框重疊10ms(0.01秒) 若語音長13秒,請問可切幾個音框? 1299個 2019/2/24 Speech Lab. NTNU

前端處理(Front-End Processing) 特徵值抽取(Feature Extraction) 主要在找出音框中對語音辨識有幫助的特徵(Feature) 一般使用梅爾倒頻譜特徵向量(MFCC) 39維的向量 若語音長為15秒,請問有幾個39維的向量? 每個向量為用 ot 表示 o : observation vector, t : time index, O : observation sequence (語音段落) 15秒的語音o1 ~ o1499 1499個 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 只與聲音(發音)有關 所以 P(O|天天星期天) == P(O|添添興其添) 語言中的單位 句 (Sentence) 如:今天天氣很好 詞 (Word) 如: 星期天, 大學聯考 字 (Character) 如: 星, 期, 天 音節 (Syllable) 如:ㄅㄠˇ, ㄉㄚ 聲母(Consonant )+韻母(Vowel )+聲調(Tone) 音素 (Phoneme) 如:ㄅ, ㄠ 包含聲母及韻母 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 聲母(子音)的代號 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 韻母(母音)的代號 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) shi ing chi i 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) shi ing chi i 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) shi ing chi i 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) shi ing chi i 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 P(O|星期) = P(O|興其) =P(O| shi,ing,chi,i) 不同的切法  不同的機率 怎麼決定P(O| shi,ing,chi,i) ? 每種切法又如何算機率? 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 shi ing chi i P(O| shi,ing,chi) =P(O1, O2, O3, O4| shi,ing,chi,i) =P(O1| shi,ing,chi,i) × P(O2|O1, shi,ing,chi,i) × P(O3|O1,O2, shi,ing,chi,i) × P(O4|O1,O2, O3, shi,ing,chi,i) P(O1|shi)× P(O2| ing) ×P(O3| chi)× P(O4|i) O o1 o2 o3 o4 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 P(O1| shi) 每個音素產生語音段落的機率 為每個音素建立各自的聲學模型 最簡單的Case 使用一個高斯分佈來估測此機率 mean vector (平均值向量) covariance matrix (共變異矩陣) 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 為每個音素建立聲學模型 聲母 (INITIAL) 22個 韻母 (FINAL) 38個 靜音 (SIL) 1個 聲母再細分成 112個 因為聲母(子母)容易受韻母(母音)影響 如: ‘抱’中的ㄅ 與 ‘必’中的ㄅ 發音就不太一樣 ㄅ_ㄠ ㄅ ㄅ_一 ㄅ_ㄢ 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 用單一高斯分佈是不夠的!! 發音的變化  用HMM 如:ㄠ (ou) 一開始是o, 最後變成u  一開始時o音的機率要較大,最後u音的機率要較大 希望時間不同,高斯分佈也能跟著改變 不同語者,發音也不盡相同  用GMM 性別的差異,使得先天上發音就不同 HMM (hidden Markov model) + GMM (Gaussian mixture model) = CDHMM (continue density hidden Markov model) 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 隱藏式馬可夫模型(HMM) 用狀態(State)來區分發音的時期 狀態與狀態之間有轉移機率(Transition Probabilities) 2019/2/24 Speech Lab. NTNU

聲學模型(Acoustic Model) – 與聲學有關的機率模型 高斯混合模型(GMM) 使用更多的高斯分佈 2~128個 每個高斯分佈都有權重(mixture weight) wk 2019/2/24 Speech Lab. NTNU

語言模型(Language Model) – 和語言有關的機率模型 一句話的機率 P(今天 你 來 我家 吃飯) = ? 無法對每句話都存一個機率(無法直接處理) 參數量無敵大 第一步:利用貝氏定理展開 P(今天 你 來 我家 吃飯) = P(今天)×P(你|今天) ×P(來|你 今天) ×P(我家|你 今天 來) ×P(吃飯|你 今天 來 我家) 第二步:假設只和前兩個詞有關  三連語言模型(Trigram) P(今天 你 來 我家 吃飯) = P(今天)×P(你|今天) ×P(來|你 今天) ×P(我家|今天 來) ×P(吃飯|來 我家) 參數量縮減至V3 (V是詞典內詞的總數) 2019/2/24 Speech Lab. NTNU

主要的Paper來源 Journal Conference ICASSP (每年一次) ICSLP與Eurospeech (兩年一次) IEEE Transactions on Speech and Audio Processing (SAP) Computer Speech and Language (CSL) Speech Communication (SC) Conference ICASSP (每年一次) ICSLP與Eurospeech (兩年一次) ISCSLP與ASRU (兩年一次) ROCLING(國內, 每年一次) 2019/2/24 Speech Lab. NTNU

國內其他研究單位 台大 (李琳山、 陳信希教授) 清大 (王小川、 張智星教授) 交大 (王逸如、 陳信宏、 張文輝教授) 成大 (王駿發、 吳宗憲、 簡仁宗教授) 中研院 (陳克健、簡立峰、王新民、黃居仁、魏培泉、許文聞研究員) 2019/2/24 Speech Lab. NTNU

國外學校研究單位 Cambridge RWTH Aachen - University of Technology CMU MIT York University University of Hong Kong Tokyo Institute of Technology 2019/2/24 Speech Lab. NTNU

國外研究單位 IBM Watson Research Center Microsoft Research Lucent Technologies Bell Labs BBN Systems and Technologies ATR Interpreting Telecommunications Research Laboratories LIMSI/CNRS Panasonic Speech Technology Laboratory 2019/2/24 Speech Lab. NTNU

下次上課日期 7/13 (三) 上午9:00 2F會議室   講題:語言模型  講者:文鴻 2019/2/24 Speech Lab. NTNU