Presentation is loading. Please wait.

Presentation is loading. Please wait.

語音處理簡介.

Similar presentations


Presentation on theme: "語音處理簡介."— Presentation transcript:

1 語音處理簡介

2 語音處理簡介 聲音訊號(Audio Signals):泛指由人耳聽到的各種聲音的訊 號
聲音代表了空氣的密度隨時間的變化,是一個連續的函數, 將聲音儲存到電腦時,必須先將訊號數位化,其中有幾個 參數需要考慮: 取樣頻率(sample Rate),常用的取樣頻率如下: (1) 8 kHz (2) 16 KHz (3)22.05 KHz (4)44.1 KHz 取樣解析度(Bit Resolution):每個聲音資料點所用的位 元數,常用的數值如下: (1) 8-bit (2) 16-bit 聲道:一般只分單聲道(Mono)或立體聲(Stereo),立體 音即是雙聲道

3 辨識流程 預處理 特徵擷取 訓練 辨識 物種結果

4 語音預處理 預強調 取音框 窗函數

5 預強調 為了補償語音在空氣傳送中,所衰減的高頻訊號,故將語音訊號 s(n) 通過一個高通濾波器,其公式為:
舉例來說,某一訊號前三個取樣值如下所示: 其中a為一個0.9 ~ 1.0之間的值,一般都取0.95 Value 1200 1100 1300 Index x(0) x(1) x(2)

6 預強調 經由預強調的值s為: s(0): s(0) = x(0) = 1200 s(1): x(1)-0.95*x(0) s(2):
= *1200 = - 40 x(2)-0.95*x(1) = *1100 = 255

7 音框化 在分析聲音時,通常以「短時距分析」(Short-term Analysis)為主,因為音訊在短時間內是相對穩定的。
一般音框長度範圍為10ms至40ms之間,且為防止前後音 框變化劇烈,因此允許音框之間有重疊,重疊部分可以是 音框長度的 1/2 到 2/3 不等 切音框示意圖

8 音框化 假設取樣頻率為16kHz,音框長度取25ms,音框重疊部分為15ms,則: 音框點數:
取樣點數(fs)*時間長度= 16kHz * 25ms =400點 音框重疊點數: 取樣點數(fs)*重疊時間長度= 16kHz * 15ms =240點 音框前進點數: 音框點數-音框重疊點數= = 160點

9 音框化 總音框數: 一個長度1秒,取樣頻率16kHz的語音,總音框數為: (訊號總取樣點– 音框點數)/音框前進點數+1
=( )/160+1 =98.5 出現小數點,取無條件進入法,最終總音框數為99

10 音框示意 以上是音框示意圖, 音框點數(音框的長度): 4點 音框重疊部分: 1/2 音框重疊點數: 2點
總音框數: (16-4)/2+1=7

11 窗函數 為了消除視窗兩邊的訊號的不連續,通常會加上漢明窗(Hamming Window),其公式為: otherwise 其中 N為音框點數

12 窗函數 漢明窗 漢明窗頻率響應

13 窗函數


Download ppt "語音處理簡介."

Similar presentations


Ads by Google