國語語音屬性偵測器 之初步經驗 交通大學電信系 王逸如 2005/12/17.

Slides:



Advertisements
Similar presentations
语言训练 深圳市特殊需要儿童早期干预中心 黄彬. 什么是语言  语言:它是一种符号,用来表达人类思想和 感情,做为人类交谈或相互传递信息的沟通 工具。是人类的思维工具和最重要的交际工 具。  广义:口头语言、书面语言、表情、手势、 信号、标志、音乐、图画、雕刻等  狭义:口头语言.
Advertisements

只有今天的课堂上勇于动脑思考、通过自己的发现获得知识奥秘的小朋友才有资格进去!而且还要通过智慧公主的种种挑战,你们有信心吗?
語言測驗與評量教學.
大学英语四六级考试改革介绍.
牙齒共振頻率之臨床探討 論 文 摘 要 論文名稱:牙齒共振頻率之臨床探討 私立台北醫學院口腔復健醫學研究所 研究生姓名:王茂生 畢業時間:八十八學年度第二學期 指導教授:李勝揚 博士 林哲堂 博士 在口腔醫學的臨床診斷上,到目前為止仍缺乏有效的設備或方法可以評估或檢測牙周之邊界狀態。臨床上有關牙周病的檢查及其病變之診斷工具,
小学语文毕业总复习 ( 基础知识部分) 牡丹区实验小学侯宪梅.
2.2.1 等比数列的概念和通项公式.
一寸光阴一寸金 寸金难买寸光阴 时间.
Classification of Web Query Intent Using Encyclopedia 基于百科知识的查询意图获取
我们会赞叹生命之花的绚丽和多姿,也会歌颂生命之树的烂漫和青翠,但是生命是如此脆弱……
黎耀基教授 大葉大學生物科技暨資源學院院長 李文獻教授 國立中央大學物理學系 2007 年 10 月 20 日
如何在Elsevier期刊上发表文章 china.elsevier.com
手持裝置應用系統之設計 與未來發展 黃有評 大同大學 資訊工程系.
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
Yongyi Min Environment Statistics Section UN Statistics Division
你今天電磁波了沒 第一組 s10118黃靖庭 S10128余長祐 工作分配:黃靖庭:整理資料,做檔案 余長佑:蒐集資料,實驗.
Relation Detection And Recognition
分析抗焦慮劑/安眠劑之使用的影響因子在重度憂鬱症及廣泛性焦慮症病人和一般大眾的處方形態
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
Operating System CPU Scheduing - 3 Monday, August 11, 2008.
Yow-Bang Wang Lin-shan Lee
深層學習 暑期訓練 (2017).
MovieBot: Booking Tickets Easily
Thinking of Instrumentation Survivability Under Severe Accident
Population proportion and sample proportion
報告人:丁英智 資策會 網路多媒體研究所 11/3/2006
学练优英语教学课件 八年级(上) it! for Go
Source: IEEE Access, vol. 5, pp , October 2017
第 1 章 ERP的演变.
資料庫安全 (Database Security)
Dì 十四kè 我家的 hòu biān 有一個很piàoliàng 的公園/ 我家的 hòu biān 有一个很piàoliàng 的公园
Guide to Freshman Life Prepared by Sam Wu.
1 Introduction Prof. Lin-Shan Lee.
Location Identification and Vehicle Tracking using VANET(VETRAC)
学习报告 —语音转换(voice conversion)
客户服务 询盘惯例.
The Nature and Scope of Econometrics
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
Unit 1.
基于类关联规则的分类 Classification Based on Class-Association Rules
The First Course in Speech Lab
—— 周小多.
Machine Translation for Conversational Texts
1 Introduction Prof. Lin-Shan Lee.
VIDEO COMPRESSION & MPEG
Idioms about money.
Mobile Project C.E.O. Project B 賈乃輝 B 黃昱翔.
10/29 今天的学习目标 (Today’s Learning Objectives)
Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.
從 ER 到 Logical Schema ──兼談Schema Integration
以時間序列分析法偵測 台灣一等一級水準網之殘留系統誤差 Detecting Remained Systematic Errors In The First-Order ClassⅠLeveling Network of Taiwan By Using Time series 指導教授:許榮欣 學生:林曾進.
李宏毅專題 Track A, B, C 的時間、地點開學前通知
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
Unit 1 How do you study for a test?
Introduction of this course
An Quick Introduction to R and its Application for Bioinformatics
More About Auto-encoder
Speaker : YI-CHENG HUNG
Chapter 9 Validation Prof. Dehan Luo
Class imbalance in Classification
以碎形正交基底和時間情境圖為基礎進行之視訊檢索 Video retrieval based on fractal orthogonal bases and temporal graph 阿凡達 研究生:張敏倫 指導教授:蔣依吾博士 國立中山大學資訊工程學系.
复习四 拼音宝宝的聚会.
如何在Elsevier期刊上发表文章 china.elsevier.com
第一届中国无线射频识别基准测试论坛 暨 备忘录签订仪式 2008年3月1日, 香港科技大学 无线射频识别(RFID)基准测试的挑战
WiFi is a powerful sensing medium
Gaussian Process Ruohua Shi Meeting
A o e i u ü 单韵母 ei ai ui 复韵母 ao ou iu ie üe er 特殊韵母.
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
BESIII MDC 模拟与调试 袁野 年粒子物理实验计算软件与技术研讨会 威海.
Presentation transcript:

國語語音屬性偵測器 之初步經驗 交通大學電信系 王逸如 2005/12/17

Outline 前言 用 TIMIT 製作之英語語音屬性偵測器 使用國語語音屬性偵測器來偵測國語/英語語音屬性 國語數字串適合做國語語音屬性偵測器效能評估語料嗎? 2005/12/17

前言 New generation ASR 2005/12/17 語音事件及相關知識之整合 語音屬性與事件之偵測 語音證據之確認 語音訊號 語音屬性與事件之偵測 語音事件及相關知識之整合 語音證據之確認 供決策用之證據序列 知識、模型、資料庫、以及工具設計 2005/12/17

Detectors in New-generation ASR Issues of detectors in new-generation ASR What kinds of attributes, events can/need to detect? What kinds of acoustic features can be used in the detectors? The architectures of detectors. Detectors using Statistical methods Labeled training data were needed. 2005/12/17

Labeled speech data in Mandarin? Auto-labeling Mandarin speech data using HMM in order to get training data for detectors The labeling accuracy of phones with short duration such as stops, are poor. Are detectors cross-language? The attributes and events in speech are language independent? 2005/12/17

用 TIMIT 製作之英語語音屬性偵測器 TIMIT database Train : 3.8 hrs, 140,000 phones Test : 1.4 hrs, 50,000 phones Manner: Vowel, Fricative, Stop, Nasal, Glide, Affricate Position: Bilabial, Lab-dent, Dental, Alveolar, Velar, Glottal, Rhotic, Front, Central, Back 2005/12/17

Some statistics of TIMIT TIMIT Training Data TIMIT Testing Data total frames : 1,416,713 total frames : 513,526 Manner count Frame number Min (10ms/ frame) Average frame Vowel 57463 549896 <1 9.57 20911 202289 1 9.67 Fricative 21424 195416 9.12 7724 71036 9.20 Stop 25871 106575 4.12 9176 37755 4.11 Nasal 14157 80454 5.68 5104 29043 5.69 Glide 20257 129666 6.40 7822 51199 6.55 Silence 35877 340525 9.48 12777 117734 Affricate 2031 14181 2 6.98 631 4470 7.08 2005/12/17

Architectures of base detector GMM based Bayesian detector 2005/12/17

Segment-based detector Performance of pronunciation manner detections Frame-based detector Segment-based detector EER(%) Bayesian ANN HMM SEG_MCE Vowel 12.3 9.0 1.7 1.8 Fricative 10.0 11.3 6.4 3.6 Stop 16.7 14.5 9.9 5.4 Nasal 8.7 12.2 11.2 Glide 16.3 15.9 8.0 6.1 Silence 9.7 3.7 2.1 0.8 Affricate 7.2 2005/12/17

Performance of pronunciation position detectors EER(%) GMM-based Bayesian detector Bilabial 12.2 Lab-dent 11.0 Dental 12.7 Alveolar 12.0 Velar 12.4 Glottal 18.3 Rhotic 9.4 Front 13.5 Central 17.7 Back 17.8 2005/12/17

Do we need Manner-position joint detectors? Combine the results of manner and position detectors /n/, /en/, /nx/ /m/, /em/ 2005/12/17

使用國語語音屬性偵測器 來偵測國語/英語語音屬性 Without labeled Mandarin speech database Use phone-level auto-alignment result to train the Mandarin manner detectors The performance of Mandarin manner detectors for English speech data The performance of Mandarin manner detectors for Mandarin speech data 2005/12/17

Force aligned the training data using 3-state CI phone-level HMMs Mandarin training set TCC-300 Mandarin speech database Train : 23.9 hrs, 300,000 syllables Test : 2.4 hrs, 34,000 syllables Force aligned the training data using 3-state CI phone-level HMMs Train the GMM-based Bayesian Mandarin manner detectors 2005/12/17

Performance of pronunciation manner detections of Mandarin speech Frame-based Bayesian detector EER(%) English Mandarin Vowel 12.3 10.70 Fricative 10.0 15.7 Stop 16.7 11.5 Nasal 8.7 Glide/Liquid 16.3 9.2 Silence 9.7 8.0 Affricate 7.2 2005/12/17

Compare the detecting results of TIMIT speech data using detectors trained from English/Mandarin Labeling errors in Mandarin training data environment miss-match Test data : TIMIT Frame-based detector EER(%) detector trained from English from Mandarin Vowel 12.3 21.3 Fricative 10.0 26.1 Stop 16.7 31.0 Nasal 8.7 15.6 Glide (Liquid) 16.3 44.5 /l/ Silence 9.7 24.0 Affricate 7.2 18.5 2005/12/17

HMM force-alignment result is poor Examples of the detection results of TIMIT-trained and TCC-trained manner detectors. HMM force-alignment result is poor Could not find Inter-syllable silence The training data of Stop, fricative, affricate, silence were poor 2005/12/17

Treat the GMM models in manner detectors as a 1-state HMM, they can used to force align the TCC-300 database Manner-based 1-state HMM HMM manners count min frame Average Frame Vowel 418337 1 8.80 3 9.77 Fricative 74276 8.71 11.17 Stop 76291 4.31 8.30 Nasal 119535 7.26 5.80 Liquid 14653 8.18 6.83 Silence 350316 7.53 4.16 Affricate 75889 3.88 10.30 2005/12/17

Segmentation position difference of stops, liquid, affricates 2005/12/17

國語數字串適合做國語語音屬性偵測器效能評估語料嗎? Evaluation and Test set To test the performance of new generation ASR? Attribute-dependent test sets are needed Labeled and attribute-rich database 2005/12/17

The manner/position attributes of Mandarin digits Bilabial Lab-dent Dental Alveolar Velar Palatal Front Central back Vowel yi, a_n a, er, e_ng, e_n wu, ou Fricative s Stop b Nasal n_n ng Affricate q, j Liquid l g, k, h 2005/12/17