語音處理簡介.

語音處理簡介

語音處理簡介聲音訊號(Audio Signals):泛指由人耳聽到的各種聲音的訊號
聲音代表了空氣的密度隨時間的變化，是一個連續的函數，將聲音儲存到電腦時，必須先將訊號數位化，其中有幾個參數需要考慮：取樣頻率（sample Rate），常用的取樣頻率如下: (1) 8 kHz (2) 16 KHz (3)22.05 KHz (4)44.1 KHz 取樣解析度（Bit Resolution）：每個聲音資料點所用的位元數，常用的數值如下: (1) 8-bit (2) 16-bit 聲道:一般只分單聲道（Mono）或立體聲（Stereo），立體音即是雙聲道

辨識流程預處理特徵擷取訓練辨識物種結果

語音預處理預強調取音框窗函數

預強調為了補償語音在空氣傳送中，所衰減的高頻訊號，故將語音訊號 s(n) 通過一個高通濾波器，其公式為:
舉例來說，某一訊號前三個取樣值如下所示: 其中a為一個0.9 ~ 1.0之間的值，一般都取0.95 Value … 1200 1100 1300 Index x(0) x(1) x(2) …

預強調經由預強調的值s為: s(0): s(0) = x(0) = 1200 s(1): x(1)-0.95*x(0) s(2):
= *1200 = - 40 x(2)-0.95*x(1) = *1100 = 255

音框化在分析聲音時，通常以「短時距分析」（Short-term Analysis）為主，因為音訊在短時間內是相對穩定的。
一般音框長度範圍為10ms至40ms之間，且為防止前後音框變化劇烈，因此允許音框之間有重疊，重疊部分可以是音框長度的 1/2 到 2/3 不等切音框示意圖

音框化假設取樣頻率為16kHz，音框長度取25ms，音框重疊部分為15ms，則: 音框點數:
取樣點數(fs)*時間長度= 16kHz * 25ms =400點音框重疊點數: 取樣點數(fs)*重疊時間長度= 16kHz * 15ms =240點音框前進點數: 音框點數-音框重疊點數= = 160點

音框化總音框數: 一個長度1秒，取樣頻率16kHz的語音，總音框數為: (訊號總取樣點– 音框點數)/音框前進點數+1
=( )/160+1 =98.5 出現小數點，取無條件進入法，最終總音框數為99

音框示意以上是音框示意圖，音框點數(音框的長度): 4點音框重疊部分: 1/2 音框重疊點數: 2點
總音框數: (16-4)/2+1=7

窗函數為了消除視窗兩邊的訊號的不連續，通常會加上漢明窗(Hamming Window)，其公式為: otherwise 其中 N為音框點數

窗函數漢明窗漢明窗頻率響應

窗函數

語音處理簡介.

Similar presentations

Presentation on theme: "語音處理簡介."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

語音處理簡介.

Similar presentations

Presentation on theme: "語音處理簡介."— Presentation transcript:

Similar presentations

About project

反馈