張智星 (Roger Jang) jang@mirlab.org http://mirlab.org/jang 清大資工系 多媒體檢索實驗室 音訊讀寫、錄製與播放 張智星 (Roger Jang) jang@mirlab.org http://mirlab.org/jang 清大資工系 多媒體檢索實驗室
20-1 音訊的基本介紹 聲音訊號(Audio Signal)簡稱音訊,泛指由人耳聽到的各種聲音的訊號。音訊有些基本的特質,可說明如下: 20-1 音訊的基本介紹 聲音訊號(Audio Signal)簡稱音訊,泛指由人耳聽到的各種聲音的訊號。音訊有些基本的特質,可說明如下: 音量(Volume):聲音的大小稱為音量,又稱為力度、強度(Intensity)或是能量(Energy)。音量越大,代表音訊波形的震幅越大。 音高(Pitch):聲音的基本頻率(Fundamental Frequency)越高,代表音高越高(例如女高音的歌聲);反之,聲音的基本頻率越低,代表音高越低(例如男低音的歌聲)。(有關基本頻率的說明,將在本章其後各小節說明。) 音色(Timber):音訊波形在每個週期內的變化,就形成了此音訊的音色。不同的音色即代表不同的音訊內容,例如不同的字有不同的發音,或是不同的歌手有不同的特色,這些都是由於音色不同而產生。
20-2 WAV檔案的讀取範例之一 例如,若要讀取光碟中的檔案 welcome.wav,畫出音訊的波形並播放出此音訊,可使用下列程式: 範例20-1: readWave01.m [y, fs]=wavread('welcome.wav'); sound(y, fs); % 播放此音訊 time=(1:length(y))/fs; % 時間軸的向量 plot(time, y); % 畫出時間軸上的波形
20-2 WAV檔案的讀取範例之一 執行結果:歡迎光臨波形圖
20-2 WAV檔案的讀取範例之二 若要知道 welcome.wav 的取樣點是由多少個位元來表示,可使用 [y, fs, nbits] = wavread(‘welcome.wav’)。若要知道音訊長度,則可使用 length(y)/fs。以下範例可以印出音訊檔 welcome.wav 的各種相關資訊: 範例20-2: readWave02.m fileName='welcome.wav'; [y, fs, nbits]=wavread(fileName); fprintf('音訊檔案 "%s" 的資訊:\n', fileName); fprintf('音訊長度 = %g 秒\n', length(y)/fs); fprintf('取樣頻率 = %g 取樣點/秒\n', fs); fprintf('解析度 = %g 位元/取樣點\n', nbits);
20-2 WAV檔案的讀取範例之二 範例20-2執行結果: 音訊檔案 "welcome.wav" 的資訊: 音訊長度 = 1.45134 秒 取樣頻率 = 11025 取樣點/秒 解析度 = 8 位元/取樣點
20-2 WAV檔案的讀取範例之三 wav 檔案的 8 位元是以 unsigned integer的方式來儲存,因此所能表示的數值是介於 0 和 255 之間,MATLAB 再將此值設定至變數 y 時,會自動將其數值調整至介於 –1 和 1 之間,因此若要將 MATLAB 讀出之數值轉回原先 8 位元所表示之數值,只要將變數 y 乘以 128,再加上 128,就可以得到原先的整數值,例如: 範例20-3: readWave03.m difference = 0 fileName='welcome.wav'; [y, fs, nbits]=wavread(fileName); y0=y*(2^nbits/2)+(2^nbits/2); % y0 是原先儲存在音訊檔案中的值 difference=sum(abs(y0-round(y0)))
20-2 WAV檔案的讀取範例之四 wavread 也可以讀取雙聲道或立體聲(Stereo)的音訊檔案,此時傳回的變數為具有兩直行的陣列,每一直行代表一個聲道的音訊,例如: 範例20-4: readWave04.m fileName='flanger.wav'; [y, fs]=wavread(fileName); % 讀取音訊檔 sound(y, fs); % 播放音訊 left=y(:,1); % 左聲道音訊 right=y(:,2); % 右聲道音訊 subplot(2,1,1), plot((1:length(left))/fs, left); subplot(2,1,2), plot((1:length(right))/fs, right);
20-2 WAV檔案的讀取範例之四 此範例會讀取雙聲道的音訊檔 flanger.wav,播放此雙聲道的音訊,並畫出兩個聲道的音訊波形如下:
20-2 WAV檔案的讀取範例之五 如果音訊檔案很大,無法一次讀入記憶體,我們也可以使用 wavread 來讀出音訊檔的其中一部份,例如: 範例20-5: readWave05.m [y,fs]=wavread('welcome.wav', [4001 5000]); % 讀取第4001至5000點 figure; plot(y)
20-2 WAV檔案的讀取範例之五 畫出之圖形如下:
20-2 WAV檔案的讀取範例之六 若要取得 wav 檔案的更多資訊,可由 wavread 的第四個輸出變數得到,例如: 範例20-6: readWave06.m ans = wFormatTag: 1 nChannels: 2 nSamplesPerSec: 22050 nAvgBytesPerSec: 88200 nBlockAlign: 4 nBitsPerSample: 16 [y, fs, nbits, opts]=wavread('flanger.wav'); opts.fmt
20-3 聲音訊號的播放 一旦我們可以讀入 wav 檔案,就可以對聲音訊號進行各種處理,例如增大或減小音量、提高或降低音高、消除雜訊等。要確認處理後的聲音訊號是否符合所需,就要能夠把音訊直接透過 PC 喇叭播放出來,本節就是要介紹如何使用 MATLAB 來進行音訊的播放。
20-3 WAV檔案的播放範例之一 在前一節中,我們已經知道如何讀 wav 檔案,一旦 MATLAB 讀入音訊資料,並將之設定成工作空間中的變數後,我們就可以使用 wavplay 指令來直接播放此變數。例如: 範例20-7: wavPlay01.m load handel.mat % 載入儲存於 handel.mat 的音訊 wavplay(y, Fs); % 播放此音訊
20-3 WAV檔案的播放範例之二 我們在第一節提到過,聲音的音量是由聲波的震幅來決定,因此我們可藉由震幅的大小來改變音量,例如: 範例20-8: playVolume01.m [y, fs]=wavread('welcome.wav'); wavplay(1*y, fs, 'sync'); % 播放1倍震幅的音訊 wavplay(3*y, fs, 'sync'); % 播放2倍震幅的音訊 wavplay(5*y, fs, 'sync'); % 播放3倍震幅的音訊
20-3 WAV檔案的播放範例之三 如果在播放時,改變取樣頻率,就會改變整個音訊的時間長度,進而影響到音高。在下例中,我們漸漸提高播放時的取樣頻率,聽到的聲音就會越來越快、越來越高,最後出現像唐老鴨的聲音: 範例20-9: playFs01.m [y, fs]=wavread('welcome.wav'); wavplay(y, 1.0*fs, 'sync'); % 播放 1.0 倍速度的音訊 wavplay(y, 1.2*fs, 'sync'); % 播放 1.2 倍速度的音訊 wavplay(y, 1.5*fs, 'sync'); % 播放 1.5 倍速度的音訊 wavplay(y, 2.0*fs, 'sync'); % 播放 2.0 倍速度的音訊
20-3 WAV檔案的播放範例之四 反之,如果漸漸降低播放的頻率,聽到的聲音就會越來越慢、越來越低,最後出現像牛叫的聲音: 範例20-10: playFs02.m [y, fs]=wavread('welcome.wav'); wavplay(y, 1.0*fs, 'sync'); % 播放 1.0 倍速度的音訊 wavplay(y, 0.9*fs, 'sync'); % 播放 0.9 倍速度的音訊 wavplay(y, 0.8*fs, 'sync'); % 播放 0.8 倍速度的音訊 wavplay(y, 0.6*fs, 'sync'); % 播放 0.6 倍速度的音訊
20-3 WAV檔案的播放範例之五 如果我們將聲波訊號上下顛倒,聽到的聲音基本上是一樣的,但是如果前後顛倒,聽到的聲音就如同錄音帶「倒放」的聲音,聽起來很像是某種外國語音,請試試下列範例: 範例20-11: playReverse01.m [y, fs]=wavread('welcome.wav'); wavplay(y, fs, 'sync'); % 播放正常的音訊波形 wavplay(-y, fs, 'sync'); % 播放上下顛倒的音訊波形 wavplay(flipud(y), fs, 'sync'); % 播放前後顛倒的音訊波形
20-3 WAV檔案的播放範例之六 通常在使用 wavplay 播放音訊時,MATLAB 會停止進行其他動作,直到音訊播放完畢後,才會再進行其他指令的運算,此種運作方式稱為「同步式」(Synchronous)。若需要一邊播放、一邊進行其他運算,就必須使用「非同步式」(Asynchronous)的播放方式。 提醒:wavplay指令只適用於32-bit Windows平台。若在64-bit Windows平台,請改用audioplayer指令。 範例20-12: playSync01.m [y, fs]=wavread('welcome.wav'); wavplay(y, 1.0*fs, 'sync'); % 同步播放 1.0 倍速度的音訊 wavplay(y, 0.8*fs, 'async'); % 非同步播放 0.8 倍速度的音訊 wavplay(y, 0.6*fs, 'async'); % 非同步播放 0.6 倍速度的音訊
20-3 WAV檔案的播放範例之七 wavplay 只能用在微軟的視窗平台,而且若在 MATLAB 5.x, 你還必須要有訊號處理工具箱,才能使用這個指令。若要使用適用於一般平台的播放功能,就要改用 sound 指令。 在此例中,我們會聽到類似男女兩部合唱,一快一慢,這是因為 sound 指令的預設播放方式就是「非同步」。 提醒:wavplay指令只適用於32-bit Windows平台。若在64-bit Windows平台,請改用audioplayer指令。 範例20-13: playSync02.m load handel.mat sound(y, Fs); sound(y, 1.2*Fs);
20-3 WAV檔案的播放範例之八 另一個類似的指令是 soundsc,此指令可針對音訊變數的數值先進行正規化(介於 –1 和 1 中間)後,再送到喇叭播放,以達到最好的播放效果。例如: 範例20-14: soundsc01.m [y, fs]=wavread('welcome.wav'); sound(y, fs); fprintf('Press any key to continue...\n'); pause soundsc(y, fs);
20-4 聲音訊號的錄製 我們在第一節已經說明了如何讀取 wav 檔案,並在第二節說明如何播放。MATLAB 也支援直接由麥克風讀取訊號,因此可以直接進行聲音的錄製,所使用的指令是 wavrecord,其基本格式為: y=wavrecord(n, fs)
20-4 WAV檔案的錄製範例之一 y=wavrecord(n, fs)代表由微軟視窗系統的音訊輸入裝置(即麥克風)讀入 n 點資料,取樣頻率是 fs,並將此音訊資料儲存於變數 y。舉例來說: 範例20-15: wavRecord01.m fs=11025; % 取樣頻率 duration=2; % 錄音時間 fprintf('按任意鍵後開始 %g 秒錄音:', duration); pause fprintf('錄音中...'); y=wavrecord(duration*fs, fs); % duration*fs 是錄音資料點數 fprintf('錄音結束\n'); fprintf('按任意鍵後開始播放:'); pause wavplay(y,fs);
20-4 WAV檔案的錄製範例之二 在前一個範例中,wavrecord 預設的錄音聲道數為 1(即單聲道),音訊資料型態為 double,若要改變這兩種預設值,可在 wavrecord 加入其他引數,其完整的格式為y=wavrecord(n, fs, channel, dataType)其中channel(通常是 1 或 2)代表聲道數,dataType 則代表音訊變數 y 的資料型態可以是下列幾種:double、single、int16、uint8。不同的資料型態,影響音訊資料的精準度,所佔掉的儲存空間大小也不同。例如: 範例20-16: wavRecord02.m fs=11025; % 取樣頻率 duration=2; % 錄音時間 channel=1; % 單聲道 fprintf('按任意鍵後開始 %g 秒錄音:', duration); pause fprintf('錄音中...'); y=wavrecord(duration*fs, fs, channel, 'uint8'); % duration*fs 是錄音資料點數 fprintf('錄音結束\n'); fprintf('按任意鍵後開始播放:'); pause wavplay(y,fs);
20-5 聲音訊號的寫檔 我們也可以經由 MATLAB 將音訊資料直接儲存為 wav 檔案,以便日後直接在微軟視窗下播放,而不需每次都經由 MATLAB 播放。寫入 wav 檔案的指令是 wavwrite,其格式為: wavwrite(y, fs, nbits, waveFile)
20-5 WAV檔案的寫檔範例 wavwrite(y, fs, nbits, waveFile)其中 y 是音訊變數,fs 是取樣頻率,nbits 是資料解析度,waveFile 則是欲寫入資料的檔案名稱。例如,若要將我們的錄音存入 test.wav,可用下列程式碼: 範例20-17: wavWrite01.m fs=11025; % 取樣頻率 duration=2; % 錄音時間 waveFile='test.wav'; % 欲儲存的 wav 檔案 fprintf('按任意鍵後開始 %g 秒錄音:', duration); pause fprintf('錄音中...'); y=wavrecord(duration*fs, fs); fprintf('錄音結束\n'); fprintf('按任意鍵後開始儲存音訊至 %s 檔案...', waveFile); pause nbits=8; % 每點的解析度為 8-bit wavwrite(y, fs, nbits, waveFile); fprintf('存檔結束\n'); fprintf('按任意鍵後開始播放 %s...\n', waveFile); dos(['start ', waveFile]); % 開啟與 wav 檔案對應的應用程式