淺談音樂訊號與音訊設備 大家好,今天主要跟大家分享的題目是關於音樂訊號和音訊設備相關的知識。 不過雖然說是音訊設備,但由於個人平常主要是以耳機主,因此本次報告的音訊設備會以耳機為主。 主講人:徐嘉駿
動機 在日常生活中,無時無刻都在接觸聲音與音樂 相對於影像處理的市場,音樂訊號較少人關注 (影像: FULL HD, 4K ) (音樂: Hi-Res Audio) 以個人經驗分享給大家,希望讓大家對音樂訊號與音訊設備有更 進一步認識 會想報告這項題目其實是因為,個人在日常生活中發現大部分的人都有聽音樂的習慣,用喇叭也好 耳機也好 音響也好,其實聽音樂的人不在少數。 但是如果試著去問那些人,你知道最近音樂和音訊設備有甚麼變動嗎?(不是誰誰誰出了甚麼新歌,哪一家公司出了甚麼耳機或音響) CD的規格在1974年就已經被制定 而近期大概大家也有聽說關於CD與唱片市場的萎縮,難道那些音樂公司沒有開拓其他路嗎? 此外,如果跟大家說FULL HD 藍光 4K 有蠻大一部分的人都知道,音樂訊號呢? 44.1kHz 可能蠻多人有聽過 , 事實上更早以前 96 khz 192khz已經有了,這兩個的概念其實跟FULL HD 和 4K很像, 但直到近期才有96 khz和 192khz的商用標準出來,而且蠻大比例的人可能也沒聽過。 所以,大部分人其實對於這方面的概念還是較缺乏。 個人雖然開始研究這方面的領域也沒有很久,但因為覺得這領域不是向大家說的只有耳朵好的人才能體會,只要大家喜歡聽音樂的,能夠更注意到這一塊領域,久而久之音樂訊號的領域也可以像影像那樣為人所知。 因此,本次報告希望將個人的經驗分享給大家,如果有興趣,本投影片的附件也提供了一些個人認為好用的工具跟大家分享。
大綱 數位音訊概論 數位音訊壓縮 音訊設備概要 總結 附件
大綱 數位音訊概論 數位音訊壓縮 音訊設備概要 總結 附件
數位音訊 數位音訊(Digital Audio) : 將一連續的音訊經採樣後的振幅大小轉 換為0與1的表示法後,所得到的一連串0與1的串流即為數位音 訊。 取樣率(Sampling rate) : 每一秒鐘所取樣的數目,單位為赫茲 (Hz)。 常見之取樣率: CD : 44.1 KHz Hi-res audio(High resolution audio): 48/96/192KHz SACD(Super Audio Compact Disc ) : 2.8224 MHz(Standard) 提到數位應該蠻多人知道就是 0 1 0 1 0 1 , 嘛…. 如果簡單來說也差不多確實是這樣XD 後面會跟大家提什麼是SACD 和 hi-res audio。 如果已經有這些概念的暫時跟大家解釋一下,SACD所採用的DSD訊號其實也可以歸類在Hi-res audio。但因為後面為了方便講解,我在這邊將SACD獨立出來,但事實上SACD和hi-res本來也就是不同的東西,所以我將它分了開來;希望不要造成誤會。
數位音訊(Cont.) 量化深度(Resolution) : 每次取樣所採用的位元數(Bits),採用的位 元數越多,能記錄更精確地聲波振福。 一般CD : 16bits/44.1KHz Hi-res audio : 24bits/48 or 96 or 192 KHz SACD : 1 bits / 2.8224MHz 因為數位系統沒辦法紀錄連續的值,所以我們只能靠數位裡面能表示的值來表達一個訊號的振幅,所以就會產生量化誤差。
數位音訊編碼 脈衝編碼調變(Pulse-Code Modulation, PCM) : 最傳統直接的編 碼方法,主要分為下列2個步驟: (1) 取樣 : 依照取樣率取出聲音訊號(ex: 44.1KHz) (2) 量化 : 將取出來的聲音強度依照某種運算映射成整數,並用二進位來記 錄。
數位音訊編碼(Cont.) Audio-CD 最早於1974年由荷蘭的Philips與日本的Sony合作發 表,其中制定的音訊規格16bits/44.1KHz即是以PCM編碼作為標 準。 位元率: 取樣頻率 x 取樣深度 x 通道數(stereo 為雙通道) CD音訊: 44100(Hz) x 16 bits x 2 (stereo)= 1411200 ≒1411Kbps 所以大家常看到的pcm 1411 就是這麼來的
數位音訊編碼(Cont.) 脈衝密度調變(Pulse-Density Modulation, PDM) : 透過脈衝的密 度來描述訊號的大小,每一次取樣會與前面的差值和做比較,若取 樣值較大則為1,反之則為-1(or 0)。 所以,數值越大的 1 的脈衝會越密集 ,反之數值越小 -1 或0的會越密集
Super Audio Compact Disc SACD (Super Audio Compact Disc) 也是由Philips與Sony 合作於 1999年發表的新音源儲存媒體。其錄音方式摒除了傳統的PCM編 碼,而是採用了DSD (Direct Stream Digital)編碼技術。 DSD編碼原理即是採用了調變過後的PDM編碼形式儲存,其取樣 頻率為2.8224MHz,也因為PDM僅需記錄目前的取樣值與先前的 差值和的相對大小(1 or 0),也因此每次取樣僅需1bit,使得量化誤 差縮小到1 bit。(因為DSD藉著高取樣頻率,所以僅需1bit儲存每 個取樣) 由於在推出期間Apple的ipod掀起了線上數位音樂下載市場,導致 SACD銷售不佳,並且因為SACD需要專門的撥放器,製作成本與 販售價格相當高(當年約5000美金),因此SACD後續只剩少部分音 樂愛好者使用。但近期由於Hi-res話題崛起,DSD編碼的音樂又開 始被拿出來討論。
High Resolution Audio Hi-Res Audio (High resolution audio,高解析度音樂) : 近期在音樂 市場上崛起的一個術語,主要是由日本公司Sony大力推行,並訂 定Hi-Res標準。(類似電視的FULL HD標準) 並沒有非常標準的定義,一般專指超越CD 16 bits/44.1kHz的音樂檔,以及可 以再生相當高頻率聲音的音訊設備。 常見的音樂檔規格為 24bits/48kHz, 24bits / 96kHz, 24bits / 192kHz (另外也 有24 bits /44.1kHz ),包含DSD壓縮格式的音樂檔案。原本這些規格常被用 於錄音室錄音,要放入CD時再轉成16bits / 44.1 kHz 的PCM編碼。先今由於 網路音樂平台的發達,錄音室等級的音樂檔可以直接在網路上販售,便掀起了 高解析音樂的熱潮。 由於這些檔案無法從傳統PCM編碼的CD當中擷取,一般 都是在網路音樂平台上購買。
High Resolution Audio(Cont.) Hi-Res 音源 無損壓縮格式 取樣頻率/量化深度 9253/24(bits)/2(stereo) ≒192 kHz Hi-res 認證
High Resolution Audio(Cont.) Hi-Res 認證音訊設備
High Resolution Audio(Cont.) High Resolution Audio其實並不是一個新的檔案格式或產品,比 較偏向商業化的認證。也就是說,只要你的儀器設備或是音源有達 到Hi-res audio所敘述的標準,儘管沒有Hi-res的認證商標,還是 能夠體驗到高解析度音樂。 現今的音訊晶片與手機等硬體也大多都有支援高解析度音樂的解碼 (事實上更早以前就已經有了,只是較少人去注意)。
High Resolution Audio(Cont.) 一般主機板內建音效晶片 :
數位音訊概論 音訊檔壓縮格式 : FLAC ALAC PCM MP3 Vorbis AAC LC
數位音訊概論 線上音樂購買平台 : FLAC與AAC LC 是什麼? 兩者的差距在哪裡呢?
大綱 數位音訊概論 數位音訊壓縮 音訊設備概要 總結 附件
數位音訊壓縮 數位音訊壓縮 無損壓縮 (Lossy Compression) 有損壓縮 (Lossless Compression) E.g. .wav, .flac, .ape, .m4a(ALAC), etc. 有損壓縮 (Lossless Compression) E.g. .mp3, .ogg, .wma, .m4a(AAC), etc.
有損壓縮 MPEG-I audio Layer 3 (MP3) : 目前最廣為使用的數位音樂訊號的 編碼與壓縮格式。 MPEG (Moving Picture Experts Group) : 一個研究影片與音訊壓 縮編碼標準的組織。目前常用的DVD與VCD,以及HDTV的標準皆 由此研究組織所訂定。其中MP3便是從MPEG第一個訂定的視訊音 訊的壓縮標準中,音訊壓縮的第三層而來。
有損壓縮(Cont.) 一首4分鐘的音樂以PCM編碼來錄製,一共需要約(1411 kbps / 8 x240 sec = 42.33MB) 若改以MP3 128Kbps壓縮,則壓縮後容量為(128 kbps / 8 x 240 sec=3.84 MB),可壓縮將近10倍以上,卻仍然可以保有不錯的音 質。 MP3 的位元率最高音質可以達到320Kbps.
MPEG-I Layer 3 MPEG MPEG 1 MPEG 2 MPEG 4 MPEG 7 Compliance Testing Software Simulation System Video Audio Layer 1 Layer 2 Layer 3
MPEG-I Audio MPEG-I Layer I (MP1) : 編碼簡單,壓縮後音質可達384kbps。壓縮率是MPEG-I三層 當中最低的,約為4:1。 Layer II (MP2) : 演算複雜度中等,壓縮率可達8:1~6:1,在上述的壓縮率下音 質可達192kbps-256kbps,最高音質為384kbps。 Layer III (MP3): 以當時的硬體來說,第三層的運算與模型最為複雜,但是其壓 縮率是三層當中最高,壓縮率可達 12:1~10:1 ,在上述壓縮率下音質可達 112-128 kbps。 最高音質為320 kbps。
MPEG-I Audio MPEG-I Layer I (MP1) : 編碼簡單,壓縮後音質可達384kbps。壓縮率是MPEG-I三層 當中最低的,約為4:1。 Layer II (MP2) : 演算複雜度中等,壓縮率可達8:1~6:1,在上述的壓縮率下音 質可達192kbps-256kbps,最高音質為384kbps。 Layer III (MP3): 以當時的硬體來說,第三層的運算與模型最為複雜,但是其壓 縮率是三層當中最高,壓縮率可達 12:1~10:1 ,在上述壓縮率下音質可達 112-128 kbps。 最高音質為320 kbps。
Psychoacoustic Model II MP3壓縮原理 MP3 壓縮流程圖 PCM signal 32-Channel Polyphase Analysis Filterbank Bit Allocation Loop MDCT Quantization Huffman coding Window Switching Bitstream Formatting Coded Audio Data SMR Psychoacoustic Model II Coding of Side-Information FFT
MP3壓縮原理 在MP3的標準當中,首先會將輸入訊號分成32個子頻帶,並且對 每個子頻帶的訊號作Modified DCT。 Modified DCT (MDCT) 即是將輸入訊號先乘上不同的window, 以提高時域或頻域上的解析度。 不同的window選擇則是靠著第二聲學心理模型來做為參考依據。 MP3中結合心理模型定義了一個Perceptual Entropy(PE),不同的 PE值反映了目前的子頻帶訊號變動的程度。 此外,不同的子頻帶的量化位元也是根據到心理模型和靜音門檻曲 線來作位元分配。 最後再利用Huffman編碼更進一步減少使用位元。 比較詳細的敘述可以參考附件。
第二聲響心理模型(Cont.) 靜音門檻曲線 (The Threshold in Quiet) : 若聲音強度低於靜音門檻曲 線,則代表人耳聽不見該頻率的聲音。
MP3壓縮原理 參考靜音門檻曲線可以發現到人耳對於高頻訊號的敏感度較差;因 此,粗略來說,MP3就是將這些一般比較不會注意到的高頻一刀切 掉,位元率越低,消去的高頻成分越多。 320 kbps 192 kbps 128 kbps PCM
MP3 音質比較 PCM 42.3 MB
MP3 音質比較 CBR 320 kbps CBR 192 kbps CBR 128 kbps 9.71 MB 5.88 MB
其他有損壓縮 .ogg : 全名為 Ogg Vorbis ,相當類似於MP3的音樂壓縮格式。特點在 於此音樂格式為免費,開放並且無專利限制。並且在同樣的Bitrate下可 以提供比MP3更好的音質,最高可以提供500 Kbps的音質。所以有很 多自行開發的應用程式或遊戲音效都會採用此格式。但由於播放軟體的 支援度限制,此種音樂格式並不普及。(不過目前已有許多行動裝置接 支援此格式,除了apple系列的產品以外)
其他有損壓縮 Ogg 68kbps 2.63MB MP3 69kbps 2.61MB
其他有損壓縮 .wma : Windows Media Audio的縮寫,是微軟公司針對網路需求所開 發的音訊壓縮格式,其最大特色在於在64 Kbps位元率下可以達到MP3 128 Kbps的音質,壓縮率極高。因為位元率小,所以可以在網路上邊 下載邊撥放。此外,wma檔支援數位版權機制,可以限制檔案的撥放 時間、次數及拷貝,目前常用於線上音樂販售業者KKBOX等所使用。 缺點在於有版權限制,支援的裝置若沒購買該版權則不能撥放。
WMA VS MP3 WMA 96kbps 3.89MB MP3 135kbps 4.92MB FLAC 1148kbps 40.7MB
其他有損壓縮 .aac : Advanced Audio Coding(進階音訊編碼) 的縮寫,由美國杜比實驗 室開發,採用的是MPEG-2 Layer7的演算法。可以提供5.1多聲道,最高 採樣頻率為96KHz、(8 16 24 32bits)的位元深度,同時具有比MP3更高的 壓縮比與解碼效率。比較大的缺點在於,acc的規格相當複雜,一般舊版 MPEG-2編碼的副檔名為.acc。由於公元2000年後,acc又整合了MPEG- 4的標準,有些.mp4檔會是簡化後的MPEG-4封裝ACC編碼檔,此外還 有 .m4a 用來封裝純音樂的MP4檔案,然而Apple 音樂無損檔的檔名也 為.m4a,使用上很容易混亂。
AAC規格 MPEG 2 AAC-LC(Low Complexity) : 低複雜度規格 MPEG 2 AAC Main : 主規格 MPEG 2 AAC SSR (Scalable Sample Rate) : 可變取樣頻率規格 MPEG 4 AAC-LC : 現在目前常見的MP4音訊檔(.m4a or .mp4) 都是採用此規 格,youtube上的音源(比較高音質的) 也通常是採用這個規格。 MPEG 4 AAC Main : 主規格 MPEG 4 AAC SSR (Scalable Sample Rate) : 可變取樣頻率規格 MPEG 4 AAC LTP (Long Term Prediction) :長時期預測規格 MPEG 4 AAC LD (Low Delay) : 低延遲規格 MPEG4 AAC HE (High Efficiency) : 高效率規格
Youtube M4A音樂格式(高音質)
MP3 VS AAC MP3 133kbps 4.45MB AAC 137kbps 4.64MB
無損壓縮 WAV : 嚴格來說並不是壓縮檔,因為WAV儲存時未經過任何壓縮, 即是標準的PCM編碼,由微軟開發的一種文件格式。在所有音樂檔 案中容量通常為最大者,一般從CD直接擷取的檔案皆為WAV檔。 WAV在音質上毫無損失,為許多音樂愛好者喜愛使用的檔案。缺 點在於CD的其他資訊(歌手、專輯名稱以及專輯封面等)無法tag在 音樂檔裡,只能透過撥放軟體支援,將其他資訊附上去。(近期wav 有支援部分資訊能附屬上去,但針對一些非英文字體容易形成亂碼)
無損壓縮 FLAC : Free Lossless Audio Codec的縮寫,如同其名,此中無損 壓縮是免費且無專利問題了壓縮格式。其壓縮方式可以想像成電腦 文件常常使用的Zip壓縮,資料上不會有損失,壓縮後還能還原回 原本的檔案。當下許多硬體與撥放器接以支援此格式,可以算是無 損壓縮中最熱門的格式。缺點在於,無法在Apple的相關產品上撥 放以及壓縮比率較低。 HR FLAC 4616 kbps FLAC 1148 kbps
WAV VS FLAC WAV 53.3MB FLAC 46.5MB
無損壓縮 .ape : Monkeys’Audio公司開發的無損壓縮格式,此種格式具有 比flac更高的壓縮比,但能達到無損失壓縮。缺點在於此種格式目 前尚有專利上的問題,在硬體與軟體支援上尚未普及,並且因為壓 縮比高,編碼與解壓縮速度較慢。 ALAC : 全名為Apple Lossless Audio Codec 是蘋果的無損音訊壓 縮編碼格式,可以壓縮至原本檔案的40~60%,並且編解碼速度很 快,目前在各平台流通性也相當不錯,副檔名為.m4a(與AAC的 m4a有區別)。
大綱 數位音訊概論 數位音訊壓縮 音訊設備概要 總結 附件
音訊設備概要 通常提到有在研究音訊設備的,可能都會直接聯想到很多高額的線 材、音響與播放機,也讓許多人聞之卻步。確實,如果是相當熱衷 與此領域的人,昂貴的器材是不可或缺的 然而,許多人都有在日常生活中聽音樂的習慣,此時,耳機便是個 相當不錯的選擇。以目前來說,約莫台幣千元左右就能擁有不錯的 耳機;比起音響設備,耳機占的體積小並且若無特殊需求也不需要 相當高端的前端設備就能享受音樂。因此,本章節會簡單介紹關於 耳機的基本規格、耳機前端的一些設備和傳輸介面。
音訊設備概要(Cont.) 耳機的常見規格: 感度(sensitivity) (dB/mW) : 耳機的感度標示了這隻耳機在相同輸入功率下能 產生的聲音大小,通常感度越高也就代表這隻耳機較容易被驅動,即使使用隨 身的小撥放器,僅需要調整一些音量便可以產生足夠的音量聲響。 頻率響應(Frequency response) : 這隻耳機能夠再生的頻率範圍,例如: 20~20000Hz就代表這隻耳機最大能產生出20KHz的聲音,最低能產生20Hz 的聲音。 阻抗(Impedence) : 簡單來說就是訊號再傳輸到耳機前會受到的阻力,阻抗越 高的耳機會越難驅動,撥放器音量通常要調整到很高聲音才會出得來。一般與 耳機靈敏度成反比。阻抗過大的耳機甚至需要耳機擴大器協助驅動。 接頭 (Connector) : 一般常見為3.5mm插頭,另外還有6.3mm的規格,通常在 需要接上家用設備的耳機才會使用6.3mm的插頭。另外也有以USB為接頭的耳 機,此種耳機通常內建自己的數位類比轉換晶片。
音訊設備概要(Cont.) 耳機形式(開放程度): 開放式 : 一般開放式耳機透過柔軟的海綿狀微孔發泡塑料作為透聲耳墊,配戴 舒適。由於耳機聲音可以洩漏,左右兩邊的聲音可以互相迴授,產生較自然的 聽感,但低頻部分會遺失;此外,也由於聲音可以洩漏,外界的聲音也會進 來,適合在安靜的環境內配戴。
音訊設備概要(Cont.) 耳機形式(開放程度): 密閉式 : 封閉式耳機完全包覆整個耳朵,聲音不會向外洩漏,也因此音樂當中 的低頻部分可以留在耳罩內不流失。缺點在於對耳朵的壓迫感較大,配戴一段 時間需要休息。
音訊設備概要(Cont.) 耳機形式(本報告以耳罩式耳機和開放程度來討論): 半開放式 : 介於開放式與密閉式中間。漏音比開放式少,但聲音開闊度會比封 閉式耳機來得大。
音訊設備概要(Cont.) 擴大機 (Amplifier) : 當耳機的阻抗較高時,需要以擴大機來協助驅 動耳機。需要注意一點的是,在不需要擴大機情況下可以產生正常 聲量的耳機不一定代表不需要擴大機協助。因為一般的耳機輸出口 並不確保在每個頻率上都有穩定的驅動能力,若在某些特定頻帶上 衰減,音量即使有出來,聲音還是會處於失真的狀況。 數位類比轉換器 (Digital Analog Converter, DAC) : 一般目前常見 的撥放器都有內建數位類比轉換晶片,因此上面直接為3.5mm插 槽。但若以USB作為訊號源輸出,此訊號為數位訊號,要送到耳機 之前須要將此訊號還原成類比訊號耳機才能夠撥放。因此,數位類 比轉換器還原類比訊號的品質會嚴重影響到撥放的音質,所以,許 多音樂愛好者會額外添購獨立的DAC來確保訊號還原的品質。
音訊設備概要(Cont.) 常見音訊傳輸介面: TRS端子(3.5 mm, 6.3mm) : 一般的耳機3.5mm插孔,以及行動裝置和電腦的 輸入與輸出都是採用此端子。 1.藍色(Line in輸入) 可以接混音器、CD撥放器輸出到電腦。 2.綠色(Line out輸出) 音源輸出,可以接一般阻抗低的設備。 1.Sleeve (套筒) : 通常是接地。 2.Ring(接環): 立體聲信號中的 右聲道。 3.Tip(尖端) : 立體聲信號中的 左聲道。 http://wellswoo.pixnet.net/blog/post/199905042-cannon-xlr-%E8%88%87-trs-%E8%81%B2%E9%9F%B3%E6%8E%A5%E9%A0%AD%E4%BB%8B%E7%B4%B9 3.粉色(麥克風) 麥克風輸入。 4.橙色(麥克風) 5.1聲道重低音輸出。 1 2 3 5.白/黑色(麥克風) 5.1聲道側/後置環繞聲道輸出。
音訊設備概要(Cont.) 常見音訊傳輸介面: USB介面 : 相當常用的數位音訊介面之一,透過USB口輸出數位訊號,此中輸 出訊號無法直接給予耳機,需要透過數位類比轉換器做轉換後才能給予後續的 耳機或音響做撥放。由於傳輸介面都是電傳輸,所以儀器上的電干擾容易影響 到傳輸的訊號。
音訊設備概要(Cont.) 常見音訊傳輸介面: S/PDIF : 全名為Sony/Philips Digital Interface Format,是一種數位傳輸介 面,可以利用光纖或同軸電纜輸出,將音訊輸出到數位類比轉換器上。傳輸過 程中較不易受到干擾以及衰減,因此具有高度保真的輸出結果。對於多聲道音 訊處理較弱,需要透過壓縮以及其他方法才能實現多聲道(例如:5.1 或 7.1聲 道)。 S/PDIF 光纖輸入口
大綱 數位音訊概論 數位音訊壓縮 音訊設備概要 總結 附件
結論 隨著儲存元件與通訊技術的進步,目前音樂市場也似乎漸漸捨棄傳 統的CD以及舊有的框架;例如 : 網路音樂平台的興盛。 MP3目前仍然為熱門的音樂壓縮格式,但在未來硬體技術更成熟以 及人們的生活品質持續提高,只能儲存雙聲道的MP3可能也會面臨 挑戰。 目前現有的壓縮格式相當多,對於不同需求,分別被運用在不同的 地方。 平常有聽音樂習慣的人不妨有空可以試著去新訊設備的專門店試 聽,說不定會有意外的發現。
參考資料 MP3 wiki (https://zh.wikipedia.org/wiki/MP3 ) 揭開 DSD 的神秘面紗:數位音訊編碼之爭 DSD vs. PCM (http://www.techbang.com/posts/22079-unlocking-the-mystery-of- dsd-the-dsd-digital-audio-coding-vs-pcm ) MP3 不是最好的聲音壓縮格式!有損、無損數位音訊檔案格式大閱兵 (http://www.techbang.com/posts/21959-you-should-know-digital- audio-file-audio-format-the-storage-disc-case-parade ) 鐵三角官方網站 (http://www.audio- technica.com.tw/shop_index.php ) 電腦音訊孔位 (http://www.synnex.com.tw/asp/fae_qaDetail.asp?topic=FAE&grou p=&parent=&classifyid=01464&seqno=19922&vendor= )
參考資料 DSD、DTS、DXD 編碼的技術原理 (http://blog.xuite.net/auster.lai/twblog/400901993- DSD%E3%80%81DTS%E3%80%81DXD+%E7%B7%A8%E7%A2%BC%E 7%9A%84%E6%8A%80%E8%A1%93%E5%8E%9F%E7%90%86 ) Pulse-density modulation wiki (https://en.wikipedia.org/wiki/Pulse- density_modulation ) MPEG wiki(https://zh.wikipedia.org/wiki/MPEG ) SPDIF wiki (https://zh.wikipedia.org/wiki/S/PDIF ) Hi-Res 到底是什麼?七個你該知道的重點 -eprice新聞 (http://www.eprice.com.tw/tech/talk/1183/4911365/1/ )
參考資料 台灣索尼(https://www.sony.com.tw/zh ) 台灣索尼(https://www.sony.com.tw/zh ) 音楽ダウンロード・音楽配信サイト mora (http://mora.jp/index_hires ) 耳機 (https://zh.wikipedia.org/wiki/%E8%80%B3%E6%A9%9F ) MPEG 4 wiki (https://zh.wikipedia.org/wiki/MPEG-4 ) 進階音訊編碼 (https://zh.wikipedia.org/wiki/%E9%80%B2%E9%9A%8E%E9%9F%B3 %E8%A8%8A%E7%B7%A8%E7%A2%BC ) 國立交通大學電機與控制工程系, MP3 編碼法之研究與實現, 碩士論文, 張芷 燕,吳炳飛, 2002.
感謝聆聽!!
大綱 數位音訊概論 數位音訊壓縮 音訊設備概要 總結 附件
附件 MP3壓縮原理(Detail) 音樂撥放器foobar 2000 基本設定教學 音樂撥放器foobar 2000 進階設定教學 5.1 聲道
附件 MP3壓縮原理(Detail) 音樂撥放器foobar 2000 基本設定教學 音樂撥放器foobar 2000 進階設定教學 5.1 聲道
Psychoacoustic Model II MP3壓縮原理(Cont.) MP3 壓縮流程圖 PCM signal 32-Channel Polyphase Analysis Filterbank Bit Allocation Loop MDCT Quantization Huffman coding Window Switching Bitstream Formatting Coded Audio Data SMR Psychoacoustic Model II Coding of Side-Information FFT
子頻帶分析 32-Channel Polyphase Analysis Filterbank (32通道多重相位濾波 器) : 聲音訊號輸入多重相位濾波器後會被轉成32個頻寬的子頻帶訊 號。(類似離散小波轉換的概念)
子頻帶分析(Cont.) Polyphase filterbank(多重相位濾波器排) : 其中C[n]是根據 ISO/IEC JTCI/SC29, “Information Technology – coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mpbs – IS 11172 (Part 3, Audio),” 1992. 所給定的係數作為標準。
子頻帶分析(Cont.) h[n] C[n]
子頻帶分析(Cont.) 32 個 等寬的子頻帶
Psychoacoustic Model II MP3壓縮原理(Cont.) MP3 壓縮流程圖 PCM signal 32-Channel Polyphase Analysis Filterbank Bit Allocation Loop MDCT Quantization Huffman coding Window Switching Bitstream Formatting Coded Audio Data SMR Psychoacoustic Model II Coding of Side-Information FFT
改良式離散餘弦轉換 Modified Discrete Cosine Transform(改良式離散餘旋轉換,MDCT) : 原始訊號經過Filterbank被分成32個等寬子頻帶以後,為了能更進一 步提升頻譜的解析度,將每個要做DCT的子頻帶訊號,都先乘上一個 window,其window的種類有如下四種。
改良式離散餘弦轉換(Cont.) Normal Window(長窗框) : 當子頻帶訊號的訊號穩定時,會採用此 window已提供精細的頻譜解析度。 Short Window(短窗框) : 當子頻帶訊號較不穩定時,會採用此window 以提供較精確的時間解析度。 Start Window(長短窗框) : 用於長窗框要轉換到短窗框時的過渡窗框。 Stop Window(短長窗框) : 用於短窗框要轉換到長窗框時的過渡窗框。
改良式離散餘弦轉換(Cont.) Note: 使用short time Fourier/ Cosine transform時,所選的window越窄其時域解析度 會越高,頻域解析度越低;相反,使用window越寬其頻域解析度越高,時域解析 度越低。 MDCT的window選擇是根據第二聲響心理模型來選定。
Psychoacoustic Model II MP3壓縮原理(Cont.) MP3 壓縮流程圖 PCM signal 32-Channel Polyphase Analysis Filterbank Bit Allocation Loop MDCT Quantization Huffman coding Window Switching Bitstream Formatting Coded Audio Data SMR Psychoacoustic Model II Coding of Side-Information FFT
第二聲響心理模型(Cont.) 靜音門檻曲線 (The Threshold in Quiet) : 若聲音強度低於靜音門檻曲 線,則代表人耳聽不見該頻率的聲音。
第二聲響心理模型(Cont.) 臨界頻帶 (Critical Bands) : 人耳對於不同頻率的解析度不同,頻率在同 一個臨界頻帶變化的信號,人耳會難以分辨。
第二聲響心理模型(Cont.) 頻域遮蔽效應 (Frequency masking) : 在頻域上,強度較大的訊號會對 鄰近的頻率產生遮蔽效應。
第二聲響心理模型(Cont.) 時域遮蔽效應 (Temporal masking) : 在時域上,若在一個很短的時間 內出現了兩個聲音,強度較大的聲音會遮蔽強度較小的聲音。
第二聲響心理模型(Cont.) Perceptual Entropy (PE) : PE值結合了心理模型的遮蔽效應與量化的概 念,可以用來評估音樂中所包含與感知特性有關的訊息。同時,PE值 的大小也能夠來做為MDCT當中的窗框挑選的標準。 當PE值越高,代表此子頻帶的訊號變動較大,需要使用短窗框。 當PE值越小,代表此子頻帶內的訊號變動較小,需要使用長窗框。
Psychoacoustic Model II MP3壓縮原理(Cont.) MP3 壓縮流程圖 PCM signal 32-Channel Polyphase Analysis Filterbank Bit Allocation Loop MDCT Quantization Huffman coding Window Switching Bitstream Formatting Coded Audio Data SMR Psychoacoustic Model II Coding of Side-Information FFT
位元分配、量化與編碼 位元分配(Bit allocation) : 位元分配的目的在於使每個子頻帶的遮噪訊 雜比(Mask-to-Noise Ratio, MNR)達到最大,每次找出最小的MNR的 子頻帶,並分配為元給此頻帶,直到沒有位元可以被調整為止;其中 MNR與SNR會隨著使用的位元數改變。
位元分配、量化與編碼(Cont.) 非線性量化 (Non-uniform quantization) : 此處採用非線性量化的目的 在於更進一步的降低量化誤差,並且在此處可以調整量化的輸出值,以 防量化數值超過後面霍夫曼編碼所能表示的最大值。 霍夫曼編碼(Huffman Encoding) : 為了進一步提高壓縮率,MP3的標 準當中,最後使用了霍夫曼編碼來處理量化後的頻譜。此外,在編碼以 前還將各個子頻帶按照頻率來排序,如此可以使大部分的值集中在低 頻,在高頻時會有一連串的0。 Huffman 編碼會給予出現機率高的數 值以較少的位元來編碼,出現機率較低數值的則以較多的位元做編碼。 也就是,Huffman編碼會根據各個區間的統計特性來建立Huffman table,每個table會對應到不同區間,每個不同區間的表也是看各個區 間的數值而定。
位元分配、量化與編碼(Cont.) 霍夫曼編碼示意圖:
MP3壓縮原理(Cont.) MP3壓縮原理總結: 1. 將輸入PCM訊號分成32個子頻帶作分析,並將這些子頻帶對應到第 二聲響模型中的臨界頻帶。 2. 對各個以頻帶訊號做改良式DCT,也就是將訊號乘上一個窗框,以調 整頻譜與時間解析度。其中窗框的選擇是根據該頻帶訊號的變動的程 度,變動程度越大則用短窗框,變動程度越小則用長窗框。 3.訊號變動程度可以由Perceptual Entropy 值的大小來判斷。 4.位元分配是根據第二聲響模型的遮蔽效應,分配給每個子頻帶最佳的 位元數使得所有頻帶的MNR值達到最高。 5. 最後使用非線性量化降低訊雜比,以及無失真的Huffman編碼提高 壓縮率。
附件 MP3壓縮原理(Detail) 音樂撥放器foobar 2000 基本設定教學 音樂撥放器foobar 2000 進階設定教學 5.1 聲道
Foobar 2000 Foobar 2000 是一個在windows底下的音樂播放軟體,對於很多 音樂壓縮格式都可以支援。而這播放軟體也是許多音樂愛好者推 薦的優質撥放器之一。事實上,不同的音樂播放器根據其內部使 用的解碼演算法,會對音樂的音質有著很大的影響。而foobar 2000是許多人公認音質優良的撥放器之一,此外,此撥放器的另 外一個強項便是可以自行加裝其他外掛元件,例如: 升降調、等化 器、音樂轉檔甚至讀取youtube都可以辦到。簡而言之,這個撥 放器像是樂高積木一樣可以不斷不斷的往上堆,最後變成功能強 大的軟體。 上面所提到的應用將在本投影片的進階設定當中提到,本章節將 會先介紹foobar2000的基本設定。
Foobar 2000 1. 下載foobar 2000 (網址 : http://www.foobar2000.org/ ) 點選Download
Foobar 2000 2.點選剛剛的下載檔 3. 點選Next > I Agree
Foobar 2000 4. 選擇Portable版 (上面的也可以,但是如果想要能有進階應用那 些功能就要選Portable版)
Foobar 2000 5. 接下來一樣一直按下一步 跟 Install …
Foobar 2000 5. 接下來一樣一直按下一步 跟 Install … (安裝完先不要亂按,等 一下)
Foobar 2000 6. 若有興趣要安裝進階功能的先把Run的打勾取消掉;若沒有要 用進階功能的,可以直接按finish。
Foobar 2000 6. 若有興趣要安裝進階功能的先把Run的打勾取消掉,並且在看 完後面章節前都先不要執行foobar 2000;若沒有要用進階功能 的,可以直接按finish。
Foobar 2000 7. 這邊是基本版foobar 2000 (沒有安裝進階UI的),若單純只想 撥放音樂的到這邊就可以用了。
附件 MP3壓縮原理(Detail) 音樂撥放器foobar 2000 基本設定教學 音樂撥放器foobar 2000 進階設定教學 5.1 聲道
Foobar 2000進階 剛剛有提到,foobar2000可以像樂高積木一樣包入很多額外的功 能,以我們一般使用者來說是不會主動去撰寫這些功能的程式。 但是網路上有相當多高手將他們所寫的程式提供出來給大家,讓 我們也能夠享有這些方便的功能。 外插元件
Foobar 2000進階 1. 先下載這個壓縮檔 (載點 : https://mega.nz/#!8tlTXQZL!Yo- Zf6jUUZnTqVqcWXiPsNKC40DCbbDCtRYRN-GJFd0 ) 註:感謝巴哈姆特erictfkc1220 不吝提供了這個UI和Skin,免費給大家下載,本投影片純粹作為交流推廣使用,不可有任何商業行為。 原文網址 : http://home.gamer.com.tw/creationDetail.php?sn=2722138
Foobar 2000進階 2. 回到剛才這個步驟,按下Finish以後,去找剛才安裝的 foobar2000的資料夾。
Foobar 2000進階 3. 把壓縮檔的東西拉到foobar2000的資料夾內
Foobar 2000進階 4. 選取Columns UI 接著開啟foobar2000
Foobar 2000進階 5.進入介面後點選齒輪→File→Preferences左邊樹狀結構的地方 選擇Visualisations→Shpeck
Foobar 2000進階 6.進到介面後使用第一項的瀏覽功能去選擇安裝的資料夾即可
Foobar 2000進階 7. foobar 2000自動建立library : 一樣齒輪→File→Preferences
Foobar 2000進階 8. 元件添加 : 先找到foobar 2000的資料夾 > 再找到 Components 一些好用的元件 : 1. Youtube : http://fy.3dyd.com/download/ (兩個都下載下來) 2. DSP Effect : 相當多功能可以使用 (http://www.foobar2000.org/components/view/foo_dsp_effect ) 3. WASAPI (可以繞調系統處理音效以最原始的foobar 2000音質輸出) : http://www.foobar2000.org/components/view/foo_out_wasapi
Foobar 2000進階 8. 元件添加 : 先找到foobar 2000的資料夾 > 再找到 Components 把剛才下載的都貼進來
Foobar 2000進階 8. 元件添加 :接著一樣齒輪→File→Preferences 點install
Foobar 2000進階 9. 更換背景:安裝資料夾中的skins\Zetro\backgrounds\ 替換你想要 的背景圖片(檔名記得要取1.jpg 2.jpg 3.jpg…以此類推)
Foobar 2000進階 10. 音樂檔轉檔 (1)先下載這個編碼器包 (http://www.foobar2000.org/encoderpack )
Foobar 2000進階 10. 音樂檔轉檔 (2)點開剛剛下載的.exe 安裝路徑選在foobar 2000的資料夾
Foobar 2000進階 10. 音樂檔轉檔 (3)安裝完後,執行foobar 2000,將想要轉檔的音樂檔讀入>右鍵 > convert > …
Foobar 2000進階 10. 音樂檔轉檔 (4) 選 Output format >選擇自己要轉檔的格式 > back
Foobar 2000進階 10. 音樂檔轉檔 (5) 接下來選 Destination>選擇輸出路徑 > back 這邊可以檢查自己要輸出的檔名對不對
Foobar 2000進階 10. 音樂檔轉檔 (6) 點convert即可
Foobar 2000進階 11. 升降調聲音檔輸出 要做這個必須要先下載 DSP EFFECT (投影片第101頁有提供網址和安裝方法) 安裝完後> 齒輪 > file > preference > DSP Manager 2. 點這個 1.選這個!!
Foobar 2000進階 11. 升降調聲音檔輸出 點完箭頭後會發現pitch shift跑到左邊了,接下來案apply就設定完成。
Foobar 2000進階 11. 升降調聲音檔輸出 同步降調: 可以邊聽音樂邊調整pitch,喜歡唱歌的人可以在這撥放器上直接做降 key 或升 key ,且音質還不錯。
Foobar 2000進階 11. 升降調聲音檔輸出 同步降調: 可以邊聽音樂邊調整pitch,喜歡唱歌的人可以在這撥放器上直接做降 key 或升 key ,且音質還不錯。 可以自行調整key。
Foobar 2000進階 11. 升降調聲音檔輸出 輸出升降調聲音檔 : 如果今天不只希望只有聽的時候升降調,甚至希望做一個聲音 檔本身就是原曲升key或降key的音樂檔。 一樣
Foobar 2000進階 11. 升降調聲音檔輸出 選擇完輸出的音樂格式和輸出路徑以後,點選processing。
Foobar 2000進階 11. 升降調聲音檔輸出 2. 點下去 1.先在右邊找到 pitch shift
Foobar 2000進階 11. 升降調聲音檔輸出 2. 調整自己要的pitch> OK > back >convert 1.按下箭頭後,選Configuration selected
Foobar 2000進階 11. Youtube撥放 1.先複製好你要看的youtube網址 複製好網址後點這個
Foobar 2000進階 11. Youtube撥放 網址貼到這,然後enter
Foobar 2000進階 11. Youtube撥放 跑出來後,點兩下就可以播放聲音,但你會發現 咦! 完全沒有畫面OAO
Foobar 2000進階 11. Youtube撥放 點下這個後畫面就會出來了。 Note: youtube音源一樣可以透過前面的升降調調整聲音。
附件 MP3壓縮原理(Detail) 音樂撥放器foobar 2000 基本設定教學 音樂撥放器foobar 2000 進階設定教學 5.1 聲道
5.1 聲道 5.1聲道是一種的六聲道環繞聲系統,廣泛用於電影院及家庭影院。它 包含兩個前置喇叭、兩個後置喇叭、一個中央聲道及一個重低音喇 叭。 其中 5 是指五個3-20,000Hz的全域喇叭,.1 是指3-120Hz的重低音喇 叭。