數位訊號處理概論 [ 音樂情感 Music Emotion ] 資工三甲 4A1G0030 李裕家 1
目錄 引言 陳述情緒 音樂情緒模型 架構圖 機器學習 音樂特徵 預測的離散樣本感知音樂情感的分佈 結論和未來發展
引言 (INTRODUCTION) 傳統上利用歌曲名稱、歌手名字、或歌 詞等詮釋資料 (metadata) 的搜尋方式只能找到特 定的歌曲。當使用者只是想聽某種類型的音樂, 這種傳統的搜尋方式就不敷使用。於是,新興 的「以內容檢索音樂 (content-based music retrieval) 」為音樂檢索提供了一套新的思維。 3
引言 (INTRODUCTION) - 2 音樂具有複雜的聲學 (acoustic) 與時間 (temporal) 的結構。面對數以千萬計的數位音樂 資料,以有限的人力處理是不可行的。換言之, 如何自動化地辨識音樂情緒將會是亟待解決的 重要問題。此類的研究稱為 music emotion recognition (MER) 。 4
陳述情緒 CONCLUSION AND FUTURE DEVELOPMENT 在討論如何具體的表示出音樂的情緒之前,我們 必須區別音樂所表現 (expressed) 的情緒和音樂所引導出 (induced) 的情緒之間的差別,看下圖。 5
常見的音樂情緒模型有兩種 分類法 (categorical approach) 和座標法 (dimensional approach) 。分類法是將音樂情緒 分門別類,並給予每個類別一個情緒的形容詞, 例如:高興、生氣、悲傷、平靜。可惜地是, MER 領域尚未制定出一套公定的分類,導致各 個研究學者選擇的情緒類別及數量上都有所出 入。 6
明確的標籤 Categorical representations 將一些對情緒的標籤或是形容詞加以整理歸類之後把音樂所表 現出的情緒對應到其中一個類別。 MIREX 的 Automatic Music Mood Classification Task 就是把音樂的情緒分成下列五個類別: 7
常見的音樂情緒模型有兩種 -2 座標法是採用幾個心理學上的維度 ( 例如:正向 度及激昂度 ) ,建立出一個情緒空間,並將音樂 的情緒以空間中的一點表示。雖然採用的維度 仍然沒有統一的標準,但多數的研究皆採用泰 爾 (Thayer) 平面,也就是以正向度 (valence) 及 激昂度 (arousal) 為兩軸的二維平面。 8
參數模組 Parametric models 另一種情緒的表示法是將情緒用 scalable 和 continuous 的 metric 表示,期中應用最廣泛的是 Valance-Arousal space (V-A 空間 ) 9
10 人力註解標籤 HUMAN ANNOTATION Turnbull 等人建立了 CAL500 dataset ,總共有五百首歌,每一首 歌至少有三位非音樂專長的聽者標上情緒的標籤,總共有十八種 情緒相關的標籤。 Trohidis 等人則是公開一個包含五百九十三首歌 的 dataset ,每一首歌都有三名有音樂專長的聽者標上總共六種情 緒標籤。了取得大量且高品質的標籤,並且解決上述的問題,一 些研究人員設計了一些簡單的協同線上遊戲 (Games With a Purpose)
11 Herd it 的遊戲畫面
分類法兩個重大的問題 粒子性 (granularity) 和模糊性 (ambiguity) 。粒 子性指的是類別的數量,若類別過多則容易導 致類別彼此之間過於相像,若類別過少則無法 有效分辨不同的情緒;模糊性指的是情緒類別 所使用的形容詞是否明確,或是難以與其他類 別有所區分。座標法雖然可解決以上兩個問題, 但是將音樂的情緒以空間中的「一點」表示, 會引入主觀性 (subjectivity) 的問題。 12
操作概念 (Operational Concepts) 常見機器學習架構圖 13
14 訓練資料 預處理 (preprocessing) 受測者標定 (subjective test) 特徵抽取 (feature extraction) SVR 激昂度 模型 正向度 模型 測試資料 預處理 (preprocessing) 特徵抽取 (feature extraction) 激昂度模型 激昂度正向度 正向度模型 SVM -> SVR 的架構圖
常用的音樂特徵 (music feature) 節奏 (tempo) 快慢、音調 (pitch) 高低、能量 (energy) 大小、音色 (timbre) 明亮與否有關;音樂的正向度 與調性 (tonality) 、和聲 (harmony) 是否協調有關圖如 下。 15
1. 能量 (energy) 能量與音樂的激昂度息息相關。 Dynamic loudness 是由 Chalupper 和 Fastl 提出,他們利用電腦模擬人耳對能量 (perceived loudness) 的感受; Audio power (AP) 是聲音 的能量; total loudness 和 specific loudness sensation coefficients 是利用人耳模型 (outer-ear model , Figure 2) 以及心理聲學 (psychoacoustics) 所提出來的特徵。 16
2. 節奏 (rhythmic) 快速節奏的音樂通常代表激昂的情緒,流暢的節奏會帶 給聽眾正面的感受。節奏是音樂學上的概念,也就是音 符 (notes) 的模式。以訊號的角度出發,就是脈波 (pulse) 的模式,通常是用 beat histogram 表示。 Beat histogram 是將訊號的包絡 (envelope) 做自相關 (autocorrelation) , 而自相關函數的峰值就是訊號包絡的周期。有了 Beat histogram 後,即可進一步地定義 beat strength 、 amplitude and period of the first and second peaks of the histogram 、 ratio of the strength of the two peaks in beat-per-minute 。 17
3. 時間特徵 (temporal) Zero-crossing rate 是信號通過零點時的速率,可用以評 估信號的雜訊度; Temporal centroid 是能量包絡的平均 值; Log attack time 是量測訊號「從產生到穩定」的時 間長度 ( 再取對數 ) 18
4. 頻譜特徵 (spectral) 19
4. 頻譜特徵 (spectral)-2 20
4. 頻譜特徵 (spectral)-3 21
其屬於黑點或是白 點的類別。 機器學習 support vector machine 演算法 SVM 是一種找尋最佳分界平面 (separation hyperplane) 的演算法。 舉例來說, Figure 4 是一個二維平面,平面上有兩組 ( 黑點與白 點 ) 的訓練資料, SVM 的目的是找出最佳的超平面 (optimal hyperplane) 將這兩組資料分開。當輸入新的測試資料進來後, 便可以利用這個平面辨別其屬於黑點或是白點的類別。
其屬於黑點或是白 點的類別。 機器學習 support vector machine 演算法 -2 23
其屬於黑點或是白 點的類別。 機器學習 support vector machine 演算法 -3 24
25 預測的離散樣本感知音樂情感的分佈 PREDICTING THE DISTRIBUTION OF PERCEIVED MUSIC EMOTIONS USING DISCRETE SAMPLES
26 A. 制定問題 Problem formulation
27 B. 收集資料 Ground truth collection
28 C. 回歸訓練 Regressor training
29 D. 回歸融合 Regressior fusion
30 D. 回歸融合 Regressior fusion-2
31 E. 輸出情感分佈 Output of emotion distribution
32 F. 實驗 Experiments
33 F. 實驗 Experiments-2 。
34 G. 結論和討論 Conclusion & discussion 在證明這個方法的準確度後,我們可以重新回頭討論音樂的情緒。是 60 首歌的情緒 ground truth 。我們可以發現,白色部分的縱向延展較 橫向延展較小,這是因為激昂度是一個比較客觀的感覺,而正向度是 比較主觀的感覺。尤其當白色部分主要落於下半平面時,常可看到糊 成一片的情況,這是因為平靜 ( 第四象限 ) 與悲傷 ( 第三象限 ) 通常是主觀 的判定,所以容易莫衷一是。 (b) 是本篇提出的方法,我們可以觀察 到激昂度的預測較正向度的預測為佳,這一樣是因為正向度比較主觀, 所以受測者的感覺容易莫衷一是,導致難以訓練出一個好的模型。
35 G. 結論和討論 Conclusion & discussion-2 圖A圖A 圖B圖B
結論和未來發展 讓機器人學習分辨音樂的情感,能應用到的像是「音樂 治療 (music therapy) 」。在生理層面部份,音樂可以調 節人體的心跳、呼吸速率、和血壓。科學家發現平靜的 音樂會使大腦中的血液循環減慢,讓人感覺放鬆,把音 樂結合到治療上面。 36
心得 37 最近看的一部電影,就是大英雄天團, 裡面的醫療機器人杯麵,就有這個很重 要的這個功能,可是可以一步一步慢慢 實現,電影裡杯麵透過掃描以及分析主 人的聲音心跳電波,就可以做出相對應 的分析,做出適當的治療,來照顧牠的 主人,波放出他想看的音樂、影片、動 作、醫療等等,可是雖然距離那個還有 很大的距離,但能感覺得出來會越來越 接近,真的好讓人期待喔。