認識聲音的原理 認識聲音的形式 認識聲音的儲存格式 學習聲音的處理工具 建立聲音處理的能力 CH14 多媒體:聲音 認識聲音的原理 認識聲音的形式 認識聲音的儲存格式 學習聲音的處理工具 建立聲音處理的能力
14.1 聲音的原理
14.1.1 聲音的形式
多媒體的重要性 人們靠耳朵聽到外在聲音
聲音的形式 聲音是如何產生的? 聲音是如何傳到我們耳朵裡? 人耳如何聽到聲音?
聲音是如何產生的? 聲音的產生起因於物體振動。 鼓聲由鼓面振動 人聲是聲帶振動 如果一切都是靜止的,就不會有聲音了
聲音是如何傳到我們耳朵裡? 空氣 需要介質
甚麼可以當作介質? 甚麼可以當作介質? 空氣 液體 水 固體 木材 鋼鐵 密度越高,傳遞速度越快 用鐵軌聽火車 快過 用聲音聽火車
人耳如何聽到聲音? 放大聲音震動 聽覺神經解讀 傳遞到耳膜 收集聲波 傳到大腦 資料來源:Simens
14.1.2 電腦聲音的定義
電腦聲音的定義 聲音的基本樣式 一段時間內, 聲波的形式 聲波樣式圖
聲音如何儲存在電腦裡? 由於聲音屬於連續類比訊號,而電腦只能接受0與1的數位訊號,因此聲音必須經過數位化才能儲存於電腦。 聲音數位化的過程
聲音如何儲存在電腦裡? 取樣(sampling) 取樣頻率(Sampling Rate) 連續的音響訊號(聲波) 數位的音訊 取樣頻率的設定 取樣頻率(Sampling Rate) 一秒取多少個聲音資料,才不會失真
奈奎斯定理 取樣時的頻率要求? 奈奎斯定理(Nyquist sampling theorem) 一秒取多少個聲音資料,才不會失真 取樣頻率大於原始訊號頻率的兩倍以上,即可達到和原始聲音極為類似的音訊
奈奎斯定理 人類聽覺頻率範圍大約是20KHz 需要40KHz以上的取樣頻率來對聲音作取樣 聲音通常使用44.1KHz/s為取樣頻率 最近的趨勢是使用更高的取樣頻率(大約是基本需求的兩倍或四倍) 尚未有理論支持 在吹毛求疵的聆聽環境下,也難以聽到聲音的差異
聲音如何儲存在電腦裡? 量化(Quantization) 量化誤差(Quantization Error) 在每個x軸的取樣點下,將其y軸的高度以一個最接近的量化數字表示 量化誤差(Quantization Error) 在每個x軸的取樣點下,其y軸的量化數字高度與真正數值的差
聲音如何儲存在電腦裡? (a) 線性量化法 (b) 對數量化法 線性與對數量化的對應圖示
常見的音訊格式列表 CD audio DAT 取樣頻率(KHz) 44.1 48 取樣量化大小(bits) 16 量化方式 線性量化法 聲道數目 2
聲音儲存在電腦的格式 一般CD的音樂品質 CD audio 規格 44100Hz 16bits量化 左右聲道的取樣頻率 一分鐘的聲音容量大小 =44100(44.1KHz)2(16 bits)2(左右聲道)60(秒) =10584000(Bytes)10MB
不同樂器的音色差異 音色的差別在不同的樂器上很明顯 以A(La)這個音為例 小提琴拉奏、鋼琴彈奏 相似之處(週期相近) 明顯的差別(週期內的波形不同)
單聲道(Mono) 立體聲(Stereo) 5.1聲道 14.1.3 數位聲音的種類 單聲道(Mono) 立體聲(Stereo) 5.1聲道
單聲道(Mono) 一個麥克風錄製 一個喇叭發聲 單聲道在娛樂上 單聲道使用價值 僅能錄製單一聲音資訊 即使使用多個喇叭,因聲音來源僅有一個,仍只有一個訊號,無法感受聲音左右移動的特性 單聲道在娛樂上 已被立體聲或更多的聲道取代 單聲道使用價值 在不須強調立體聲效果,又要降低頻寬的系統上 無線電系統、電話
立體聲(Stereo) 利用二支麥克風收音 比起單聲道而言 1950年代末期,研發立體聲錄音方式 立體聲比起單聲道 有兩個聲道 資訊量多一倍 多了一個聲道以營造出左右音效不同 可以產生動態變化的立體音效 比起單聲道而言 有兩個聲道 資訊量多一倍 檔案大小也多一倍
單聲道能否經由處理轉成立體道? 利用音頻分離技術 此技術能增加單聲道的位置立體感 從單聲道中取出不同的音頻,再依立體聲的產生方式,獲得模擬立體聲的效果 用在古典音樂上 可增加1950年代以前錄音的立體感 此技術能增加單聲道的位置立體感 但比起直接採立體聲錄製的技術,仍有一段差距
5.1聲道 立體聲可以增加聲音的動態表現 立體聲的缺點 多媒體業者致力於以更多的聲道來提高聽者的音響視聽效果 真實世界的聲音來自前後左右上下 立體聲仍少了一些真實性 多媒體業者致力於以更多的聲道來提高聽者的音響視聽效果 產生5.1聲道 資料來源:http://shopping.udn.com
5.1聲道 運用於各類家庭影院中 常見的聲音錄製壓縮格式 5 聲道 .1 聲道 AC-3(Dolby Digital) DTS 左、右、後左、後右、中置聲道 中置聲道負責傳送低於80Hz的聲音信號,提供在欣賞影片時,優良的人聲效果,並可以把對話集中在整個聲場的中間 .1 聲道 專門設計的超低音聲道 產生頻率範圍在20~120Hz的超低音 資料來源:http://hardware.mydrivers.com
5.1聲道是環繞身歷聲的最高規格嗎? 比5.1聲道更強大的7.1系統已經出現 在5.1聲道上,增加中左和中右兩個發聲位置 缺點 成本比較高 比5.1聲道增加的效果又很有限 目前並沒有廣泛的應用 資料來源:http://premiersupport.dell.com/support/edocs/systems/xlob/mmd/ct/setup_7_1audio.htm
14.1.4 數位聲音的格式
Wave、MIDI、與MP3的格式差異 Wave 微軟公司所制定的聲音規格 電腦的標準聲音格式之一 進入Windows 離開Windows 以取樣及量化的方式記錄 未經壓縮處理,音質方面保留最詳細的數位音效 檔案體積大
Wave、MIDI、與MP3的格式差異 MIDI Musical Instrument Digital Interface 的縮寫 不是直接記錄聲音取樣資料 記錄發聲樂器的種類與樂曲等音符資訊 通常為純音樂 檔案非常小 檔案副檔名為 .mid 藉由專門彈奏MIDI的電子琴,透過連接線與介面卡,可直接將彈奏的內容記錄到電腦內變成MIDI檔案 資料來源:http://iwritethemusic.com/midi.html
Wave、MIDI、與MP3的格式差異 MP3 MPEG Audio Layer 3的壓縮技術 MPEG I(VCD規格)格式中,用來壓縮聲音的技術 利用破壞性壓縮技術,壓縮Wave檔案 還原成Wave檔案與原始的檔案略有不同,但人耳聽起來卻沒有什麼差別 壓縮率為十倍左右 一首五分鐘的歌曲 Wave檔約50MB左右 MP3檔只要5MB
無失真聲音格式 MP3是有失真的聲音壓縮格式 無失真的聲音壓縮格式 APE FLAC 常見於大陸 縮寫為Free Lossless Audio Codec 無失真音頻壓縮編碼 常見於歐美
其他常見的數位聲音格式 AU RA RealNetworks公司的音訊壓縮格式 Unix系統上所採用的一種聲音格式 副檔名為 .au 網路上撥放即時聲音檔 RealNetworks公司發展的格式之一 副檔名為 .ra RealNetworks公司的音訊壓縮格式 rm 或 rmvb 資料來源:RealNetworks.com
其他常見的數位聲音格式 AIFF 麥金塔電腦自訂格式 Audio Interchange File Format的縮寫 經由取樣與量化方式 與Wave的檔案格式類似 資料來源:www.apple.com
14.1.5 數位聲音的頻率、頻道與深度
數位聲音的頻率、頻道與深度 聲音檔案大小參數 頻率 頻道 深度 44.1KHz、22.05KHz、11.025KHz、8KHz 立體聲(兩個頻道)與單聲道(一個頻道) 深度 每個聲音的量化參數(16bits 或 8bits)
數位聲音的頻率、頻道與深度 最常見的規格,一分鐘為10.6MB左右 採用單聲道因頻道數目減半 以低品質的11KHz單聲道音訊 44.1KHz、16bits、立體聲 採用單聲道因頻道數目減半 只有一半大小的5.29MB左右 以低品質的11KHz單聲道音訊 一分鐘只要0.66MB 經過Mp3壓縮,容量會縮小成十分之一左右 一分鐘Wave格式檔案大小 量化參數(8 bits) 量化參數(16 bits) 取樣頻率 單聲道 立體聲 11.025 KHz 0.66MB 1.32MB 2.65MB 22.05 KHz 5.29MB 44.1KHz 10.6MB
14.2 聲音的處理
聲音的處理(使用GoldWave) 使用GoldWave 開啟狀態
聲音的編輯 編輯 剪輯一段聲音
聲音的處理:平滑處理(Smooth) 平滑處理後聲音形式 原聲音形式 參數設定
聲音的處理:回音處理(Echo) 回音處理後聲音形式 原聲音形式 參數設定