1 Introduction Prof. Lin-Shan Lee.

Slides:



Advertisements
Similar presentations
FREE-TYPE POEM GENERATION QIXIN WANG, TIANYI LUO, DONG WANG, CHAO XING AAAI & IJCAI 2016.
Advertisements

完美履歷表撰寫技巧 樹德科技大學 課程:國文寫作技巧 教師:黃湃翔老師.
遊程規劃實務 中華民國遊程規劃設計協會.
上課教材 Database Slide Windows筆電 (32 bit)
香港扶貧計劃 關愛基金 Group 5 組員 馬曉真 余葆 董賽騫 蕭雪兒.
自 我 介 紹 班級:運促一乙 姓名:林以權 學號:D
2011年10月31日是一个令人警醒的日子,世界在10月31日迎来第70亿人口。当日凌晨,成为象征性的全球第70亿名成员之一的婴儿在菲律宾降生。 ?
初级会计实务 第八章 产品成本核算 主讲人:杨菠.
用“自言自语法”提高学生 英语口头表达能力 李奉栖.
中考阅读 复习备考交流 西安铁一中分校 向连吾.
单片机应用技术 项目一 循环彩灯装置 第7讲 Keil软件的使用 《单片机应用技术》精品课程组 湖北职业技术学院机电工程系.
交通事故處置 當事人責任與損害賠償 屏東縣政府警察局交通隊.
工程项目管理 Construction Project management 6 质量和安全管理 主讲: 黄湘红 TEL: 副教授、高级经济师、 国家注册房地产估价师、房地产经纪人、 柳州市拆迁评估技术委员会专家
103年老人健康促進實證與實務論壇引言 報告人:張正二 站長
中央广播电视大学开放教育 成本会计(补修)期末复习
人教版义务教育课程标准实验教科书 小学数学四年级上册第七单元《数学广角》 合理安排时间 248.
Effective Writing read to learn and write to EXpress not to IMpress
生活課程教科書轉化教學實例分享 生活課程輔導團 蕉埔國小王美娟.
宁夏正阳社会工作服务中心 服务成果汇报材料.
你 今 天 累 吗 ? 坪山高级中学心理教师 张婧乔.
UNIX系統與資料庫安裝 Why UNIX 常用的工具程式介紹 資料庫的安裝.
对外汉语写作课教学.
中考语文积累 永宁县教研室 步正军 2015.9.
任务2: 通报的写作.
佛山科学技术学院电子信息工程学院 林秋明 信息楼 年3月
小学数学知识讲座 应用题.
倒装句之其他句式.
你的潜能是无限的 ——高三心理辅导.
深層學習 暑期訓練 (2017).
MovieBot: Booking Tickets Easily
2018/9/19.
報告人:丁英智 資策會 網路多媒體研究所 11/3/2006
講座異業合作提案.
Source: IEEE Access, vol. 5, pp , October 2017
梅爾倒頻譜係數 (Mel-frequency cepstral coefficients)
32位元處理器之定點數MFCC演算法的改進與探討 Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors 學生:陳奕宏 指導教授:張智星.
1 Introduction Prof. Lin-Shan Lee TA: Chun-Hsuan Wang.
黃印良 本教材引用自 作者:Edward Lee
Introduction to Multimedia Coding
SPSS-概述與資料處理 輔大統計資訊系 黃孝雲.
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
The First Course in Speech Lab
1 Introduction Prof. Lin-Shan Lee.
语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
大綱 *專題演講介紹 *大陸醫療的改革與發展 *海報發表文章分享 2012海峽兩岸醫院院長論壇行後報告 ‧台北
1 Introduction Prof. Lin-Shan Lee.
本 章 重 點 13-1 資訊系統簡介 13-2 企業內部常用資訊系統簡介.
MATLAB 程式設計入門篇 初探MATLAB
指導教授:陳柏琳博士 研究生:許庭瑋 陳冠宇 中華民國 九十六 年 七 月 十三 日
杨振伟 清华大学 第一讲:Linux环境下编程(1)
爬蟲類動物2 Random Slide Show Menu
北投溫泉博物館 建築特色 ★小組成員:高103林孟璇、林念儀、施妤柔★.
李宏毅專題 Track A, B, C 的時間、地點開學前通知
More About Auto-encoder
1753: Need for Speed ★★☆☆☆ 題組:Problem Set Archive with Online Judge
粒子物理与核物理实验中的数据分析 杨振伟 清华大学 第1讲:Linux环境下的编程.
Arguments to the main Function and Final Project
手机淘宝“变形”产品—微淘 操作流程指南 (内测版).
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
杨振伟 清华大学 第一讲:Linux环境下编程(1)
10107: What is the Median? ★★☆☆☆
畢氏定理(百牛大祭)的故事 張美玲 製作 資料來源:探索數學的故事(凡異出版社).
鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition
Usage Eclipse 敏捷方法工具介紹 實驗室網站:
語音特徵擷取之 資料相關線性特徵轉換 研究生:張志豪 多酌墨在數學式的物理意義及精神。 老師、各位口試委員、各位同學大家好。
1 Introduction Prof. Lin-Shan Lee TA: Chung-Ming Chien.
Gaussian Process Ruohua Shi Meeting
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
102年人事預算編列說明 邁向頂尖大學辦公室製作.
Presentation transcript:

1 Introduction Prof. Lin-Shan Lee

Introduction of the Project 2 Speech Recognition by Kaldi toolkit

第一階段專題 目的:透過建立一個基本的大字彙語音辨識系統,讓同學對語音辨識有具體的了解,並且以此作為進一步研究各項進階技術的基礎。 3 目的:透過建立一個基本的大字彙語音辨識系統,讓同學對語音辨識有具體的了解,並且以此作為進一步研究各項進階技術的基礎。 Recognition System Input Speech Output Sentence

How to do recognition? How to map speech O to a word sequence W ? 4 How to map speech O to a word sequence W ? P(O|W): acoustic model P(W): language model

Language model P(W) 5 W = w1, w2, w3, …, wn

Language model examples 6 Probability in log scale

Acoustic Model P(O|W) Model of a phone Markov Model 7 Model of a phone Markov Model Gaussian Mixture Model

Feature Extraction 8 Feature Extraction

MFCC (Mel-frequency cepstral coefficients) 9 13 dimensions vector

Lexicon 10

語音辨識系統 Use Kaldi as tool Feature Vectors Output Sentence 11 Use Kaldi as tool Input Speech Feature Vectors Output Sentence Linguistic Decoding and Search Algorithm Front-end Signal Processing Speech Corpora Acoustic Model Training Acoustic Models Language Model Language Model Construction Text Corpora Lexicon Lexical Knowledge-base Grammar

Linux Introduction 12

Vim 如何建立文件: vim hello.txt 進去後,輸入”i”即可進入編輯模式 此時,按下ESC即可回復一般模式,此時可以: 13 如何建立文件: vim hello.txt 進去後,輸入”i”即可進入編輯模式 此時,輸入任何你想要打的 此時,按下ESC即可回復一般模式,此時可以: 輸入”/你要搜尋的文字” 輸入”:w”即可存檔 輸入”:wq”即可存檔+離開

Screen 簡單講一下,避免因為斷線而程式跑到一半就失敗了, 大家可以使用screen,簡單使用法如下: 14 簡單講一下,避免因為斷線而程式跑到一半就失敗了, 大家可以使用screen,簡單使用法如下: 1) 一登入後打"screen",就進入了screen使用模式,用法都相同 2) 如果想要關掉此screen也是用"exit" 3) 如果還有程式在跑沒有想關掉他,但是想要跳出, 按"Ctrl + a" + "d"離開screen模式(此時登出並關機程式也不會斷掉) 4) 下次登入時,打"screen -r"就可以跳回之前沒關掉的screen唷~ 5) 打”screen -r” 也許會有很多個未關的screen,輸入你要的 screen id 即可(越大的越新) 這樣就算關掉電腦,工作仍可以進行!!!

Linux Shell Script Basics 15 echo “Hello” (print “hello” on the screen) a=ABC (assign ABC to a) echo $a (will print ABC on the screen) b=$a.log (assign ABC.log to b) cat $b > testfile (write “ABC.log” to testfile) 指令 -h (will output the help information)

Feature Extraction 16 02.extract.feat.sh

Feature Extraction - MFCC 17

Extract Feature (02.extract.feat.sh) 18 Training Set Input Output Archive 目錄 Development Set Testing Set

Kaldi rspecifier & wspecifier format 19 ark:<ark file> 眾多小檔案的檔案庫,可能是wav檔、mfcc檔、statistics的集合 scp:<scp file> 一群檔案的位置表,可能指向個別檔案(如我們的material/train.wav.scp),也可以指向ark檔中的位置 ark,t:<ark file> 輸出文字檔案的ark,當輸入時,t無作用;不加,t,預設輸出二進位格式 ark,scp:<ark file>,<scp file> 同時輸出ark檔和scp檔

Extract Feature (extract.feat.sh) 20 add-deltas compute-cmvn-stats apply-cmvn

MFCC – Add delta add-deltas Deltas and Delta-Deltas 21 add-deltas Deltas and Delta-Deltas 將MFCC的Δ以及ΔΔ (意近一次微分與二次微分) 加入參數中,使得總維度變成39維 Usage:

MFCC – CMVN 22 CMVN: Cepstral Mean and Variance Normalization

MFCC – CMVN 23 compute-cmvn-stats Usage: apply-cmvn

Hint (Important!!) 24

Homework Linux, background knowledge 01.format.sh, 02.extract.feat.sh 25 Linux, background knowledge 01.format.sh, 02.extract.feat.sh

Homework 如果你沒有操作 Linux 系統的經驗,請事先預習 Linux 系統的指令。 鳥哥的Linux 私房菜 26 如果你沒有操作 Linux 系統的經驗,請事先預習 Linux 系統的指令。 鳥哥的Linux 私房菜 第七章Linux 檔案與目錄管理 http://linux.vbird.org/linux_basic/0220filemanager.php 第十章vim 程式編輯器 http://linux.vbird.org/linux_basic/0310vi.php

Homework (optional) 閱讀: 使用加權有限狀態轉換器的基於混合詞與次詞以文字及語音指令偵測口語詞彙” – 第三章 27 閱讀: 使用加權有限狀態轉換器的基於混合詞與次詞以文字及語音指令偵測口語詞彙” – 第三章 https://www.dropbox.com/s/dsaqh6xa9dp3dzw/wfst_thesis.pdf

Data 登入工作站 pietty/putty/Xshell ssh 140.112.41.90 port 22 複製壓縮檔到自己的子資料夾 28 登入工作站 pietty/putty/Xshell ssh 140.112.41.90 port 22 複製壓縮檔到自己的子資料夾 cp /share/proj1.ASTMIC.subset.tar.gz 解壓縮 tar –zxvf proj1.ASTMIC.subset.tar.gz

To Do Step 1: Execute the following command: Step 2: 29 Step 1: Execute the following command: script/01.format.sh | tee log/01.format.log script/02.extract.feat.sh | tee log/02.extract.feat.sh.log Step 2: Add-delta CMVN Observe the output and report

Schedule Week Progress Group 1 Introduction 30 Week Progress Group 1 Introduction Linux入門 + Feature extraction 2 Acoustic model training: monophone & triphone 3 Language model training + Decoding A 4 Progress Report B 5 6

注意事項 If you have any problem …… 留下要開的專題工作站帳號和e-mail與FB 帳號 31 If you have any problem …… Facebook Group:數位語音專題 Lecture system:http://speech.ee.ntu.edu.tw/courses.html 陳仰德:r04942038@ntu.edu.tw 留下要開的專題工作站帳號和e-mail與FB 帳號 請各位今晚前寄一封信到 r04942038@ntu.edu.tw, 說明組員,組別(A/B),要開的專題工作站帳號及你們的emails,此外提供FB帳號,才能將你們加入語音專題社團,Thanks