數位訊號處理概論 [ 音樂情感 Music Emotion ] 資工三甲 4A1G0030 李裕家 1.

Slides:

Advertisements

Similar presentations

文学灵感论蓦然回首，那人却在灯火阑珊处 ……. 生活中、科学中的灵感运动鞋电梯阿基米德与皇冠牛顿的三大定律.

Advertisements

動動腦時間 — 腦筋急轉彎 —. 1. 有三個小朋友在猜拳，一個出石頭，一個出布，一個出剪刀，請問三個人共有幾根指頭？答案： 60 根.

少年儿童营养配餐与饮食安全科学饮食为孩子的未来积攒本钱.

肺癌放疗新概念：瘤根靶向放疗北京大学临床肿瘤学院北京肿瘤医院放疗科.

企业涉税业务基本知识宣传郑州航空港区国家税务局机场税务分局王磊.

How to Use SPSS in Biomedical Data analysis

王晨指导教师：张军平副教授复旦大学计算机科学技术学院上海市智能信息处理重点实验室

第1章第3节量化研究与质化研究案例1：关于中学思想政治教师专业发展现状和需求的调查研究

99年成語200題庫(21-40).

天狗郭沫若.

手巾比紙巾環保但不衛生.

資料探勘(Data Mining)及其應用之介紹

华东师范大学软件学院王科强 (第一作者), 王晓玲

第七章紋理描述與分類.

说一说,看谁说的多: 金色的（）金色的…… 阳光麦浪童年沙滩.

实践课题周围环境对当代大学生成长的影响指导老师：王永章小组成员：陈荣、刘若楠、张红艳、吕雪丹、樊金芳、李惠芬、黄婧

基礎樂理 Class 2.

騎乘單車如何配速桃園縣攝影藝術協會鐵馬車隊鄭育宏製作 1/12.

libD3C: 一种免参数的、支持不平衡分类的二类分类器

A TIME-FREQUENCY ADAPTIVE SIGNAL MODEL-BASED APPROACH FOR PARAMETRIC ECG COMPRESSION 14th European Signal Processing Conference (EUSIPCO 2006), Florence,

The Construction of a Chinese Named Entity Tagged Corpus: CNEC1.0

A Question Answering Approach to Emotion Cause Extraction

Some Effective Techniques for Naive Bayes Text Classification

NLP Group, Dept. of CS&T, Tsinghua University

汇报人：王晓东单位：信息科学与工程学院日期：2016年9月

文本分类综述王斌中国科学院计算技术研究所 2002年12月.

100學年度土木工程系專題研究成果展題目：指導老師：3223 專題學生：2132、2313 前言：成果：圖1 圖2 方法與流程：

Source: IEEE Access, vol. 5, pp , October 2017

1 Introduction Prof. Lin-Shan Lee.

統計基本觀念壹、資料資料來源：實驗之量測結果，抽樣調查結果，公告資料。一、資料類型

Word-Entity Duet Representations for Document Ranking

9.4 基于纹理的深度图重建.

VI. Brief Introduction for Acoustics

Source: IEEE Transactions on Image Processing, Vol. 25, pp ,

A Study on the Next Generation Automatic Speech Recognition -- Phase 2

音樂欣賞 Music Appreciation

指導教授：黃三益教授學生洪瑞麟 m 蔡育洲 m 陳怡綾 m

The First Course in Speech Lab

1 Introduction Prof. Lin-Shan Lee.

语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES

VIDEO COMPRESSION & MPEG

模式识别与智能系统研究中心介绍 2017年8月.

表情识别研究 Sources of facial expressions

Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.

Representation Learning of Knowledge Graphs with Hierarchical Types

兒童與青少年發展概述.

以四元樹為基礎抽取圖片物件特徵之影像檢索

红利、年金、满期金自动转入聚宝盆，收益有保底，升值空间更大

求職防騙面面觀不累生活文化有限公司行政總監賴永洲.

聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種：隱沒帶、島弧例子：臺灣東方的琉球海溝、南美洲智利海溝.

保险法案例分析小组成员宫明霞赵云凤许金哲陈莹胡睿轩.

Music: Somewhere In Time

Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval Xiaodong Liu, Jianfeng Gao, Xiaodong.

大度讀人摘選自《作家文摘》.

More About Auto-encoder

藝術與人文之靈感的探索.

Speaker : YI-CHENG HUNG

古佳怡 AI 人工智慧.

國立苑裡高中基礎物理講義聲音(週期波)三要素噪音

第三章音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)

数据挖掘导论福建医科大学郑伟成.

鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition

Unemployment: Issues, Dimensions, and Analysis 第六講：勞動力與失業問題

Gyrophone: Recognizing Speech From Gyroscope Signals

WiFi is a powerful sensing medium

Gaussian Process Ruohua Shi Meeting

適用於數位典藏多媒體內容之複合式多媒體檢索技術

Presentation transcript:

數位訊號處理概論 [ 音樂情感 Music Emotion ] 資工三甲 4A1G0030 李裕家 1

目錄引言陳述情緒音樂情緒模型架構圖機器學習音樂特徵預測的離散樣本感知音樂情感的分佈結論和未來發展

引言 (INTRODUCTION) 傳統上利用歌曲名稱、歌手名字、或歌詞等詮釋資料 (metadata) 的搜尋方式只能找到特定的歌曲。當使用者只是想聽某種類型的音樂，這種傳統的搜尋方式就不敷使用。於是，新興的「以內容檢索音樂 (content-based music retrieval) 」為音樂檢索提供了一套新的思維。 3

引言 (INTRODUCTION) - 2 音樂具有複雜的聲學 (acoustic) 與時間 (temporal) 的結構。面對數以千萬計的數位音樂資料，以有限的人力處理是不可行的。換言之，如何自動化地辨識音樂情緒將會是亟待解決的重要問題。此類的研究稱為 music emotion recognition (MER) 。 4

陳述情緒 CONCLUSION AND FUTURE DEVELOPMENT 在討論如何具體的表示出音樂的情緒之前，我們必須區別音樂所表現 (expressed) 的情緒和音樂所引導出 (induced) 的情緒之間的差別，看下圖。 5

常見的音樂情緒模型有兩種分類法 (categorical approach) 和座標法 (dimensional approach) 。分類法是將音樂情緒分門別類，並給予每個類別一個情緒的形容詞，例如：高興、生氣、悲傷、平靜。可惜地是， MER 領域尚未制定出一套公定的分類，導致各個研究學者選擇的情緒類別及數量上都有所出入。 6

明確的標籤 Categorical representations 將一些對情緒的標籤或是形容詞加以整理歸類之後把音樂所表現出的情緒對應到其中一個類別。 MIREX 的 Automatic Music Mood Classification Task 就是把音樂的情緒分成下列五個類別： 7

常見的音樂情緒模型有兩種 -2 座標法是採用幾個心理學上的維度 ( 例如：正向度及激昂度 ) ，建立出一個情緒空間，並將音樂的情緒以空間中的一點表示。雖然採用的維度仍然沒有統一的標準，但多數的研究皆採用泰爾 (Thayer) 平面，也就是以正向度 (valence) 及激昂度 (arousal) 為兩軸的二維平面。 8

參數模組 Parametric models 另一種情緒的表示法是將情緒用 scalable 和 continuous 的 metric 表示，期中應用最廣泛的是 Valance-Arousal space (V-A 空間 ) 9

10 人力註解標籤 HUMAN ANNOTATION Turnbull 等人建立了 CAL500 dataset ，總共有五百首歌，每一首歌至少有三位非音樂專長的聽者標上情緒的標籤，總共有十八種情緒相關的標籤。 Trohidis 等人則是公開一個包含五百九十三首歌的 dataset ，每一首歌都有三名有音樂專長的聽者標上總共六種情緒標籤。了取得大量且高品質的標籤，並且解決上述的問題，一些研究人員設計了一些簡單的協同線上遊戲 (Games With a Purpose)

11 Herd it 的遊戲畫面

分類法兩個重大的問題粒子性 (granularity) 和模糊性 (ambiguity) 。粒子性指的是類別的數量，若類別過多則容易導致類別彼此之間過於相像，若類別過少則無法有效分辨不同的情緒；模糊性指的是情緒類別所使用的形容詞是否明確，或是難以與其他類別有所區分。座標法雖然可解決以上兩個問題，但是將音樂的情緒以空間中的「一點」表示，會引入主觀性 (subjectivity) 的問題。 12

操作概念 (Operational Concepts) 常見機器學習架構圖 13

14 訓練資料預處理 (preprocessing) 受測者標定 (subjective test) 特徵抽取 (feature extraction) SVR 激昂度模型正向度模型測試資料預處理 (preprocessing) 特徵抽取 (feature extraction) 激昂度模型激昂度正向度正向度模型 SVM -> SVR 的架構圖

常用的音樂特徵 (music feature) 節奏 (tempo) 快慢、音調 (pitch) 高低、能量 (energy) 大小、音色 (timbre) 明亮與否有關；音樂的正向度與調性 (tonality) 、和聲 (harmony) 是否協調有關圖如下。 15

1. 能量 (energy) 能量與音樂的激昂度息息相關。 Dynamic loudness 是由 Chalupper 和 Fastl 提出，他們利用電腦模擬人耳對能量 (perceived loudness) 的感受； Audio power (AP) 是聲音的能量； total loudness 和 specific loudness sensation coefficients 是利用人耳模型 (outer-ear model ， Figure 2) 以及心理聲學 (psychoacoustics) 所提出來的特徵。 16

2. 節奏 (rhythmic) 快速節奏的音樂通常代表激昂的情緒，流暢的節奏會帶給聽眾正面的感受。節奏是音樂學上的概念，也就是音符 (notes) 的模式。以訊號的角度出發，就是脈波 (pulse) 的模式，通常是用 beat histogram 表示。 Beat histogram 是將訊號的包絡 (envelope) 做自相關 (autocorrelation) ，而自相關函數的峰值就是訊號包絡的周期。有了 Beat histogram 後，即可進一步地定義 beat strength 、 amplitude and period of the first and second peaks of the histogram 、 ratio of the strength of the two peaks in beat-per-minute 。 17

3. 時間特徵 (temporal) Zero-crossing rate 是信號通過零點時的速率，可用以評估信號的雜訊度； Temporal centroid 是能量包絡的平均值； Log attack time 是量測訊號「從產生到穩定」的時間長度 ( 再取對數 ) 18

4. 頻譜特徵 (spectral) 19

4. 頻譜特徵 (spectral)-2 20

4. 頻譜特徵 (spectral)-3 21

其屬於黑點或是白點的類別。機器學習 support vector machine 演算法 SVM 是一種找尋最佳分界平面 (separation hyperplane) 的演算法。舉例來說， Figure 4 是一個二維平面，平面上有兩組 ( 黑點與白點 ) 的訓練資料， SVM 的目的是找出最佳的超平面 (optimal hyperplane) 將這兩組資料分開。當輸入新的測試資料進來後，便可以利用這個平面辨別其屬於黑點或是白點的類別。

其屬於黑點或是白點的類別。機器學習 support vector machine 演算法 -2 23

其屬於黑點或是白點的類別。機器學習 support vector machine 演算法 -3 24

25 預測的離散樣本感知音樂情感的分佈 PREDICTING THE DISTRIBUTION OF PERCEIVED MUSIC EMOTIONS USING DISCRETE SAMPLES

26 A. 制定問題 Problem formulation

27 B. 收集資料 Ground truth collection

28 C. 回歸訓練 Regressor training

29 D. 回歸融合 Regressior fusion

30 D. 回歸融合 Regressior fusion-2

31 E. 輸出情感分佈 Output of emotion distribution

32 F. 實驗 Experiments

33 F. 實驗 Experiments-2 。

34 G. 結論和討論 Conclusion & discussion 在證明這個方法的準確度後，我們可以重新回頭討論音樂的情緒。是 60 首歌的情緒 ground truth 。我們可以發現，白色部分的縱向延展較橫向延展較小，這是因為激昂度是一個比較客觀的感覺，而正向度是比較主觀的感覺。尤其當白色部分主要落於下半平面時，常可看到糊成一片的情況，這是因為平靜 ( 第四象限 ) 與悲傷 ( 第三象限 ) 通常是主觀的判定，所以容易莫衷一是。 (b) 是本篇提出的方法，我們可以觀察到激昂度的預測較正向度的預測為佳，這一樣是因為正向度比較主觀，所以受測者的感覺容易莫衷一是，導致難以訓練出一個好的模型。

35 G. 結論和討論 Conclusion & discussion-2 圖A圖A 圖B圖B

結論和未來發展讓機器人學習分辨音樂的情感，能應用到的像是「音樂治療 (music therapy) 」。在生理層面部份，音樂可以調節人體的心跳、呼吸速率、和血壓。科學家發現平靜的音樂會使大腦中的血液循環減慢，讓人感覺放鬆，把音樂結合到治療上面。 36

心得 37 最近看的一部電影，就是大英雄天團，裡面的醫療機器人杯麵，就有這個很重要的這個功能，可是可以一步一步慢慢實現，電影裡杯麵透過掃描以及分析主人的聲音心跳電波，就可以做出相對應的分析，做出適當的治療，來照顧牠的主人，波放出他想看的音樂、影片、動作、醫療等等，可是雖然距離那個還有很大的距離，但能感覺得出來會越來越接近，真的好讓人期待喔。