A Study on the Next Generation Automatic Speech Recognition -- Phase 2

Slides:



Advertisements
Similar presentations
1. 甚麼是人工智能 ? 甚麼是人工智能 ? 2. 強人工智能 - 弱人工智能 強人工智能 - 弱人工智能 3. 實現人工智能的必要條件 實現人工智能的必要條件 4. 人工智能的例子 人工智能的例子 5. 虛擬真實 虛擬真實 6. 感想 感想.
Advertisements

常見之視力保健錯誤觀念 林隆光醫師 主講. 正 確 觀 念 : E 字視力表是英、美國家用的 ,他們一向不流行世界其他國 共同的「公制」。雖然學校一 般採用 E 字表,但 C 字表才是所 謂「萬國式」視力表。 錯誤觀念一:測視力,祗能採用 E 字檢查表 才正確。
103上語音專題第二階段題目.
第一章 会计信息系统 第一节 计算机会计概述.
Basic concepts of structural equation modeling
姚天顺 自然语言处理实验室 东北大学 关于统计机器翻译的思考 姚天顺 自然语言处理实验室 东北大学
老子的素朴 厦门大学计算机科学系 庄朝晖.
鹽寮灣是世界最早工業區遺址.
無線感測網路監控應用  無線感測器網路覆蓋問題  無線感測器網路資料傳輸協定  無線感測器網路中路由機制之安全與防禦
汇报人:李臻 中国海洋大学信息科学与工程学院 计算机科学与技术系
資料探勘(Data Mining)及其應用之介紹
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
你今天電磁波了沒 第一組 s10118黃靖庭 S10128余長祐 工作分配:黃靖庭:整理資料,做檔案 余長佑:蒐集資料,實驗.
邹 权 (博士、副教授) 厦门大学数据挖掘实验室
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
数据库技术及应用 华中科技大学管理学院 课程网址:
人脸识别--LBP 周稻祥.
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
Yow-Bang Wang Lin-shan Lee
深層學習 暑期訓練 (2017).
Applications of Digital Signal Processing
報告人:丁英智 資策會 網路多媒體研究所 11/3/2006
报告人:张婧 导师:黄德根教授 学校:大连理工大学 研究领域:自然语言处理
Joint Training Of Convolutional And Non-Convolutional Neural Networks
15 人力資源管理之未來發展. 15 人力資源管理之未來發展 人力資源管理的e化議題 國際人力資源管理的內涵 知識管理的議題 資源基礎論之人力資本議題 人力資源彈性化運用與非典型雇用的議題 人力資源管理:基礎與應用 ch15 人力資源管理之未來發展.
文本分类综述 王 斌 中国科学院计算技术研究所 2002年12月.
關鍵詞辨認 (Keyword Spotting)
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
研究、論文、計畫與生活之平衡 演講人:謝君偉 元智大學電機系 2018年11月22日.
隐马尔可夫模型 Hidden Markov model
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
ZZX_MT系统评测报告 巢文涵 李舟军 北航计算机学院
32位元處理器之定點數MFCC演算法的改進與探討 Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors 學生:陳奕宏 指導教授:張智星.
CS 網路安全 Network Security
1 Introduction Prof. Lin-Shan Lee TA: Chun-Hsuan Wang.
1 Introduction Prof. Lin-Shan Lee.
InterSpeech 2013 Investigation of Recurrent-Neural-Network Architectures and Learning Methods for Spoken Language Understanding University of Rouen(France)
基於聯合因子分析與麥克風陣列之強健性語音辨認
9.4 基于纹理的深度图重建.
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
人機介面 Pen-Based Interface 筆跡介面
学习报告 —语音转换(voice conversion)
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
本章內容 資訊與資訊科技 資訊科技的內部應用 資訊科技的外部應用 資訊科技對組織設計的影響 組織控制與資訊科技 Chapter 9
The First Course in Speech Lab
1 Introduction Prof. Lin-Shan Lee.
语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
Advanced word vector representations
資訊科技與組織管理. 資訊科技與組織管理 瞭解資訊與資訊科技的基本概念 瞭解資訊科技在組織內部的主要應用 瞭解資訊科技在組織外部的主要應用 瞭解資訊科技的應用對組織結構設計的影響 瞭解組織控制與資訊科技間的關係 組織理論與管理 Chapter 5 資訊科技與組織管理.
決策支援系統導論 資訊管理系 王淑卿.
本 章 重 點 13-1 資訊系統簡介 13-2 企業內部常用資訊系統簡介.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
國語語音屬性偵測器 之初步經驗 交通大學電信系 王逸如 2005/12/17.
指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日
李宏毅專題 Track A, B, C 的時間、地點開學前通知
Introduction of this course
序贯监督学习框架下的 耀斑短期预报 哈尔滨工业大学 黄鑫.
隐马尔可夫模型简介 X1 X2 XT ………… O1 O2 OT 刘群
More About Auto-encoder
參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
模式模擬資訊共通平台發展研究 張誠博士 中山科學研究院 系統發展中心.
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition
阶段性词汇训练3 上海海事大学信息工程学院.
WiFi is a powerful sensing medium
1 Introduction Prof. Lin-Shan Lee TA: Chung-Ming Chien.
Google Voice Search: Faster and More Accurate
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Presentation transcript:

A Study on the Next Generation Automatic Speech Recognition -- Phase 2 國科會整合型計畫 總計畫報告 新世代自動語音辨識技術之研究 — 第二階段 A Study on the Next Generation Automatic Speech Recognition -- Phase 2 主持人 王小川 2011//7/12 NGASR-II

研究計劃之背景及目的 研究計劃之背景及目的 NGASR-II

自動語音辨識(automatic speech recognition, ASR)技術的發展已經超過四十多年,多數的做法是針對一個語言發展一套語音辨識系統,但不一定需要懂得該語言,只要對這個語言收集夠多的語音與文本資料,由資料產生聲學模型與語言模型,就可以建構一個自動語音辨識系統。常用的隱藏式馬可夫模型(hidden Markov model)與人工神經網路(artificial neural network),就是這種做法,而且這些演算方法都有公開的軟體可以使用。 以資料庫為基礎的(corpus-based)做法,可以說是用了一個忽略知識的模型(knowledge- ignorant modeling),能再改進之處有限。 應該回頭將語音學與語言學的知識帶進來,建立一個以知識為基礎(knowledge-based)加上資料驅動(data-driven)的模式,從語音屬性與語音事件偵測著手,將自動語音辨認推向下一個新世代。 NGASR-II

第一階段整合型計畫所做的研究,重點在聲學模型與語音特徵參數的研究,以及語料庫的標音與建立。 根據美國喬治亞理工學院李錦輝教授的建議,我們於2005年提出一個整合型計畫「新世代自動語音辨識技術之研究」,建立共享平台,進行合作研究,所規劃的系統架構如下; 第一階段整合型計畫所做的研究,重點在聲學模型與語音特徵參數的研究,以及語料庫的標音與建立。 NGASR-II

2008年提出後續的三年整合型計畫「新世代自動語音辨識技術之研究-第二階段」,擴大參與人員與研究範圍,所規劃的語音辨識系統架構如圖二所示; NGASR-II

研究方法與進行步驟 研究方法與進行步驟 NGASR-II

整個系統架構是由上而下的規劃,各子計畫分別對於前述之研究項目作分工的研究,將來各個子計畫所完成的知識庫、語料庫、模型、以及工具,將落實在共享平台上,開放大家使用。 NGASR-II

自動標音及語音資料庫確認 (王新民) --- 功能方塊(三) 自動標音及語音資料庫確認 (王新民) --- 功能方塊(三) 本子計畫將進行的主要工作包括: (1)語音資料庫標記。 (2)語音特徵係數測試。 (3)音訊分段(Audio Segmentation)技術開發。 (4)自動音素分段(Automatic Phoneme Segmentation)技術開發。 (5)分類器及特徵選取(Feature Selection)技術開發。 (6)自動限制網路抽取技術開發。 NGASR-II

語音屬性與事件之辨識模型研究 (王小川) --- 功能方塊(二) 語音屬性與事件之辨識模型研究 (王小川) --- 功能方塊(二) 本子計畫預定以機率圖模型的架構,針對以音框單位與跨音框單位的語音參數,建構其合適的辨識模型。研究的重點包括; (1) 機率圖模型的基本原理探討。 (2) 語音屬性與語音事件序列的機率圖模型描述方式。 (3) 適合語音辨識之機率圖模型及其強健性設計。 (4) 語音辨識單位的探討及機率圖模型在詞彙辨識的應用。 NGASR-II

語音事件整合、證據確認,與後處理 (李琳山) --- 功能方塊(二)、功能方塊(四) 語音事件整合、證據確認,與後處理 (李琳山) --- 功能方塊(二)、功能方塊(四) 本子計畫的核心工作是功能方塊(二)與功能方塊(四)。 功能方塊(二)將包含三個層次; (1)同一語音事件之不同訊息來源之整合及進一步確認。 (2)將不同語音事件之知識整合成一較高層次的事件及進一步確認。 (3)將不同時間上的語音事件整合成一較長時間的假設及進一步確認。 功能方塊(四)的工作包括;類似維特比解碼(Viterbi Decoding)的程序,及若干可用的模型,例如隱藏式馬可夫模型(Hidden Markov Model)、圖式模型(Graphical Model)、條件隨機域(Conditional Random Field)、最高熵模型(Maximum Entropy Model)、決策樹(Decision Tree)、支撐向量機(Support Vector Machine)等。 NGASR-II

韻律屬性與語音事件偵測之研究 (鄭秋豫) --- 功能方塊(一)、功能方塊(五) 韻律屬性與語音事件偵測之研究 (鄭秋豫) --- 功能方塊(一)、功能方塊(五) 本子計畫擬在總計畫加入韻律屬性與語音事件的偵測,即語音信號中的超音段成分,並階段性的語音段屬性整合,以建立語音辨識模型。 研究課題包括以下三個方向: (1)偵測語流韻律邊界特性,以提供辨識韻律單位所需資訊。 (2)比較自發性口語料和朗讀語料的語篇規劃範圍與韻律邊界聲學參數區辨力。 (3)進行口語篇章中焦點成分的語句重音及語意重音的聽感聲學研究。 NGASR-II

國語及方言之音節階層事件偵測及其相關研究 (王逸如) --- 功能方塊(一) 國語及方言之音節階層事件偵測及其相關研究 (王逸如) --- 功能方塊(一) 本子計畫中要進行的項目為; (1) 以HMM辨識方法做自動音節之標音。 (2) 音節邊界界標(syllable boundary landmark)之偵測。 (3) 音節階層發音特徵之研究。 (4) 音節邊界界標與音節階層發音特徵之應用。 NGASR-II

跨環境之強健性語音屬性與事件偵測器研究 (廖元甫) --- 功能方塊(一)) 跨環境之強健性語音屬性與事件偵測器研究 (廖元甫) --- 功能方塊(一)) 本子計畫的重點在功能方塊(一),希望在不同語言,語者,通道與雜訊環境下,仍能量測適當的local time-frequency cues,根據語言學的locus,contrast與supra-segment觀念,只結合適當之time-frequency cues,而忽略與語音辨認無關之聲學環境細節變化之干擾,從而能擷取出environment-invariant features以製作具強健性之語音屬性與事件偵測器。 研究項目包含; (1) 語音屬性與事件特徵參數擷取。 (2) 語音屬性與事件定義集。 (3) 強健式語音屬性與事件偵測器,Universal phone detector與Robust word detector 。 (4) 離線(Offline)與及時(real-time)偵測器。 NGASR-II

合作研究之共享平台 建立共享平台讓參與計畫的研究人員可以在此平台上分享程式與語料庫,同時也公開研究成果。 (1) 語音技術資料交流 (2) 語音技術效能測試 (3) 語料蒐集、標記、彙整 (4) 技術成果蒐集彙整 http://diana.ee.nthu.edu.tw/NGASR/ NGASR-II

完成之工作項目及具體成果 完成之工作項目 NGASR-II

功能方塊(一) 以語音屬性偵測作音素辨識 (王新民) 不知語言內容的自動音素分段(王小川) 取樣點層次的音素邊界偵測(王逸如) 以麥克風陣列作強健性語音辨認(廖元甫) NGASR-II

以條件隨機場(conditional random field)模型作中文語音屬性的辨認 (王小川) 功能方塊(二) 以條件隨機場(conditional random field)模型作中文語音屬性的辨認 (王小川) 以隨機森林(random forest)模型作爆發音事件偵測(王小川) 濁音起始時間(voice onset time)之估測(王小川) 詳細分析Gabor Feature在中文語音各種音素辨識上的效果(李琳山) NGASR-II

以HMM強迫對齊加上自動邊界細調與人工校正的音素標記(王新民) 完成軟體工具庫(Toolkit)供研究用(李琳山) 功能方塊(三) 國語語音資料庫的人工標記(王新民) 以HMM強迫對齊加上自動邊界細調與人工校正的音素標記(王新民) 完成軟體工具庫(Toolkit)供研究用(李琳山) 完成課程講演語料(Course Lecture Corpus)供研究用(李琳山) TCC300語音資料庫之校正與標記(王逸如) NGASR-II

使用階層式架構(Hierarchical Structure)提昇辨識效果(李琳山) 功能方塊(四) 使用階層式架構(Hierarchical Structure)提昇辨識效果(李琳山) 整合Gabor Feature和MFCC,並充分運用多層感知器(MLP)建構串接 式系統(Tandem System),獲得辨識效果之提昇(李琳山) NGASR-II

韻律邊界與相鄰韻律單位的系統性關係之研究(鄭秋豫) 語篇韻律語境(discourse Prosody Context)的新角度(鄭秋豫) 功能方塊(五) 韻律邊界與相鄰韻律單位的系統性關係之研究(鄭秋豫) 語篇韻律語境(discourse Prosody Context)的新角度(鄭秋豫) 自發性課程口語語料(NTU Lecture corpus)的語篇規劃分析(鄭秋豫) 自發性課程口語語料與朗讀敘事語料的口語語篇中資訊結構組型分佈 (鄭秋豫) NGASR-II

代表性成果 NGASR-II

Automatic Phone Alignment and Recognition Detection of Burst Onset Using Random Forest Technique and Its Application to Voice Onset Time Estimation Speech Recognition Integrating Gabor Features with a Hierarchical structure Discourse Prosodic Attributes, Boundary Information and Prosodic Highlight High-Resolution Phone Boundary Detection Using Sample- Based Acoustic Parameters 基於聯合因子分析與麥克風陣列之強健性語音辨認 NGASR-II