語音訊號的特徵向量 張智星 jang@cs.nthu.edu.tw http://www.cs.nthu.edu.tw/~jang 多媒體資訊檢索實驗室 清華大學 資訊工程系
語音訊號的辨識流程 基本流程 擷取語音訊號 消除雜訊 音框化 音框轉成特徵向量 以特徵向量進行辨識
語音訊號的特徵向量 旋律辨識 音高(Pitch) 一般音訊分類 音高 過零率 音量 明亮度
語音訊號的特徵向量 語者辨識 MFCC(Mel-frequency cepstral coefficients,包含一階導數,對數能量值) Normalized MFCC (採取 Cepstrum Mean Subtraction 法) Real cepstrum LPC (Linear Predictive Coding)係數 Real cepstrum參數 LSP (Line Spectrum Pair)參數 PARCOR參數
語音訊號的特徵向量 語音辨識 MFCC(Mel-frequency cepstral coefficients,包含一階導數,對數能量值) Normalized MFCC (採取 Cepstrum Mean Subtraction 法)
人聲的發聲機制及其數學模型 Source-filter model: Speech is split into a rapidly varying excitation signal and a slowly varying filter. The envelope of the power spectra contains the vocal tract info. Two important characteristics of the model are fundamental (pitch) frequency (f0) and formants (F1, F2, F3, …)
聲音的基本特質 音量:音波的震幅大小 音高:音波的基本頻率高低 內容或音色:每一個波形在一個週期的變化
Pitch and Formants Pitch and formants can be defined visually: Pitch period = 1/f0 First formant F1 Second formant F2
Real-time Spectrogram Try “dspstfft_nt”: Spectrum: Spectrogram:
Physical Meanings of Cepstrum