數位訊號處理概論 [ 音樂情感 Music Emotion ] 資工三甲 4A1G0030 李裕家 1.

Slides:



Advertisements
Similar presentations
文学灵感论 蓦然回首,那人却在灯火阑珊处 ……. 生活中、科学中的灵感 运动鞋 电梯 阿基米德与皇冠 牛顿的三大定律.
Advertisements

動動腦時間 — 腦筋急轉彎 —. 1. 有三個小朋友在猜 拳,一個出石頭,一 個出布,一個出剪刀, 請問三個人共有幾根 指頭? 答案: 60 根.
少年儿童营养配餐与饮食安全 科学饮食为孩子的未来积攒本钱.
肺癌放疗新概念: 瘤根靶向放疗 北京大学临床肿瘤学院 北京肿瘤医院放疗科.
大家好.
企业涉税业务基本知识宣传 郑州航空港区国家税务局机场税务分局 王 磊.
How to Use SPSS in Biomedical Data analysis
王晨 指导教师:张军平副教授 复旦大学计算机科学技术学院 上海市智能信息处理重点实验室
第1章第3节 量化研究与质化研究 案例1:关于中学思想政治教师专业发展现状和需求的调查研究
99年成語200題庫(21-40).
天 狗 郭沫若.
手巾比紙巾環保 但不衛生.
資料探勘(Data Mining)及其應用之介紹
华东师范大学软件学院 王科强 (第一作者), 王晓玲
第七章 紋理描述與分類.
说一说,看谁说的多: 金色的( ) 金色的…… 阳光 麦浪 童年 沙滩.
实践 课题 周围环境对当代大学生成长的影响 指导老师:王永章 小组成员:陈荣、刘若楠、张红艳、吕雪丹、樊金芳、李惠芬、黄婧
基礎樂理 Class 2.
騎乘單車如何配速 桃園縣攝影藝術協會 鐵馬車隊 鄭育宏 製作 1/12.
libD3C: 一种免参数的、支持不平衡分类的二类分类器
A TIME-FREQUENCY ADAPTIVE SIGNAL MODEL-BASED APPROACH FOR PARAMETRIC ECG COMPRESSION 14th European Signal Processing Conference (EUSIPCO 2006), Florence,
The Construction of a Chinese Named Entity Tagged Corpus: CNEC1.0
A Question Answering Approach to Emotion Cause Extraction
Some Effective Techniques for Naive Bayes Text Classification
NLP Group, Dept. of CS&T, Tsinghua University
汇报人:王晓东 单 位:信息科学与工程学院 日 期:2016年9月
文本分类综述 王 斌 中国科学院计算技术研究所 2002年12月.
100學年度土木工程系專題研究成果展 題目: 指導老師:3223 專題學生:2132、2313 前言: 成果: 圖1 圖2 方法與流程:
Source: IEEE Access, vol. 5, pp , October 2017
1 Introduction Prof. Lin-Shan Lee.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
Word-Entity Duet Representations for Document Ranking
9.4 基于纹理的深度图重建.
VI. Brief Introduction for Acoustics
Source: IEEE Transactions on Image Processing, Vol. 25, pp ,
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
音樂欣賞 Music Appreciation
指導教授:黃三益 教授 學生 洪瑞麟 m 蔡育洲 m 陳怡綾 m
The First Course in Speech Lab
1 Introduction Prof. Lin-Shan Lee.
语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
VIDEO COMPRESSION & MPEG
模式识别与智能系统研究中心介绍 2017年8月.
表情识别研究 Sources of facial expressions
Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.
Representation Learning of Knowledge Graphs with Hierarchical Types
兒童與青少年發展概述.
以四元樹為基礎抽取圖片物件特徵 之 影像檢索
動量.
红利、年金、满期金自动转入聚宝盆,收益有保底,升值空间更大
求職防騙面面觀 不累生活文化有限公司 行政總監 賴永洲.
聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝. 聚合型第一種:隱沒帶、島弧 例子:臺灣東方的琉球海溝、南美洲智利海溝.
保险法案例分析 小组成员 宫明霞 赵云凤 许金哲 陈莹 胡睿轩.
Music: Somewhere In Time
Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval Xiaodong Liu, Jianfeng Gao, Xiaodong.
大度讀人 摘選自《作家文摘》.
More About Auto-encoder
藝 術 與 人 文 之 靈感的探索.
Speaker : YI-CHENG HUNG
古佳怡 AI 人工智慧.
國立苑裡高中 基礎物理講義 聲音(週期波)三要素 噪音
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
数据挖掘导论 福建医科大学 郑伟成.
鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition
Unemployment: Issues, Dimensions, and Analysis 第六講:勞動力與失業問題
Gyrophone: Recognizing Speech From Gyroscope Signals
WiFi is a powerful sensing medium
Gaussian Process Ruohua Shi Meeting
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Presentation transcript:

數位訊號處理概論 [ 音樂情感 Music Emotion ] 資工三甲 4A1G0030 李裕家 1

目錄 引言 陳述情緒 音樂情緒模型 架構圖 機器學習 音樂特徵 預測的離散樣本感知音樂情感的分佈 結論和未來發展

引言 (INTRODUCTION) 傳統上利用歌曲名稱、歌手名字、或歌 詞等詮釋資料 (metadata) 的搜尋方式只能找到特 定的歌曲。當使用者只是想聽某種類型的音樂, 這種傳統的搜尋方式就不敷使用。於是,新興 的「以內容檢索音樂 (content-based music retrieval) 」為音樂檢索提供了一套新的思維。 3

引言 (INTRODUCTION) - 2 音樂具有複雜的聲學 (acoustic) 與時間 (temporal) 的結構。面對數以千萬計的數位音樂 資料,以有限的人力處理是不可行的。換言之, 如何自動化地辨識音樂情緒將會是亟待解決的 重要問題。此類的研究稱為 music emotion recognition (MER) 。 4

陳述情緒 CONCLUSION AND FUTURE DEVELOPMENT 在討論如何具體的表示出音樂的情緒之前,我們 必須區別音樂所表現 (expressed) 的情緒和音樂所引導出 (induced) 的情緒之間的差別,看下圖。 5

常見的音樂情緒模型有兩種 分類法 (categorical approach) 和座標法 (dimensional approach) 。分類法是將音樂情緒 分門別類,並給予每個類別一個情緒的形容詞, 例如:高興、生氣、悲傷、平靜。可惜地是, MER 領域尚未制定出一套公定的分類,導致各 個研究學者選擇的情緒類別及數量上都有所出 入。 6

明確的標籤 Categorical representations 將一些對情緒的標籤或是形容詞加以整理歸類之後把音樂所表 現出的情緒對應到其中一個類別。 MIREX 的 Automatic Music Mood Classification Task 就是把音樂的情緒分成下列五個類別: 7

常見的音樂情緒模型有兩種 -2 座標法是採用幾個心理學上的維度 ( 例如:正向 度及激昂度 ) ,建立出一個情緒空間,並將音樂 的情緒以空間中的一點表示。雖然採用的維度 仍然沒有統一的標準,但多數的研究皆採用泰 爾 (Thayer) 平面,也就是以正向度 (valence) 及 激昂度 (arousal) 為兩軸的二維平面。 8

參數模組 Parametric models 另一種情緒的表示法是將情緒用 scalable 和 continuous 的 metric 表示,期中應用最廣泛的是 Valance-Arousal space (V-A 空間 ) 9

10 人力註解標籤 HUMAN ANNOTATION Turnbull 等人建立了 CAL500 dataset ,總共有五百首歌,每一首 歌至少有三位非音樂專長的聽者標上情緒的標籤,總共有十八種 情緒相關的標籤。 Trohidis 等人則是公開一個包含五百九十三首歌 的 dataset ,每一首歌都有三名有音樂專長的聽者標上總共六種情 緒標籤。了取得大量且高品質的標籤,並且解決上述的問題,一 些研究人員設計了一些簡單的協同線上遊戲 (Games With a Purpose)

11 Herd it 的遊戲畫面

分類法兩個重大的問題 粒子性 (granularity) 和模糊性 (ambiguity) 。粒 子性指的是類別的數量,若類別過多則容易導 致類別彼此之間過於相像,若類別過少則無法 有效分辨不同的情緒;模糊性指的是情緒類別 所使用的形容詞是否明確,或是難以與其他類 別有所區分。座標法雖然可解決以上兩個問題, 但是將音樂的情緒以空間中的「一點」表示, 會引入主觀性 (subjectivity) 的問題。 12

操作概念 (Operational Concepts) 常見機器學習架構圖 13

14 訓練資料 預處理 (preprocessing) 受測者標定 (subjective test) 特徵抽取 (feature extraction) SVR 激昂度 模型 正向度 模型 測試資料 預處理 (preprocessing) 特徵抽取 (feature extraction) 激昂度模型 激昂度正向度 正向度模型 SVM -> SVR 的架構圖

常用的音樂特徵 (music feature) 節奏 (tempo) 快慢、音調 (pitch) 高低、能量 (energy) 大小、音色 (timbre) 明亮與否有關;音樂的正向度 與調性 (tonality) 、和聲 (harmony) 是否協調有關圖如 下。 15

1. 能量 (energy) 能量與音樂的激昂度息息相關。 Dynamic loudness 是由 Chalupper 和 Fastl 提出,他們利用電腦模擬人耳對能量 (perceived loudness) 的感受; Audio power (AP) 是聲音 的能量; total loudness 和 specific loudness sensation coefficients 是利用人耳模型 (outer-ear model , Figure 2) 以及心理聲學 (psychoacoustics) 所提出來的特徵。 16

2. 節奏 (rhythmic) 快速節奏的音樂通常代表激昂的情緒,流暢的節奏會帶 給聽眾正面的感受。節奏是音樂學上的概念,也就是音 符 (notes) 的模式。以訊號的角度出發,就是脈波 (pulse) 的模式,通常是用 beat histogram 表示。 Beat histogram 是將訊號的包絡 (envelope) 做自相關 (autocorrelation) , 而自相關函數的峰值就是訊號包絡的周期。有了 Beat histogram 後,即可進一步地定義 beat strength 、 amplitude and period of the first and second peaks of the histogram 、 ratio of the strength of the two peaks in beat-per-minute 。 17

3. 時間特徵 (temporal) Zero-crossing rate 是信號通過零點時的速率,可用以評 估信號的雜訊度; Temporal centroid 是能量包絡的平均 值; Log attack time 是量測訊號「從產生到穩定」的時 間長度 ( 再取對數 ) 18

4. 頻譜特徵 (spectral) 19

4. 頻譜特徵 (spectral)-2 20

4. 頻譜特徵 (spectral)-3 21

其屬於黑點或是白 點的類別。 機器學習 support vector machine 演算法 SVM 是一種找尋最佳分界平面 (separation hyperplane) 的演算法。 舉例來說, Figure 4 是一個二維平面,平面上有兩組 ( 黑點與白 點 ) 的訓練資料, SVM 的目的是找出最佳的超平面 (optimal hyperplane) 將這兩組資料分開。當輸入新的測試資料進來後, 便可以利用這個平面辨別其屬於黑點或是白點的類別。

其屬於黑點或是白 點的類別。 機器學習 support vector machine 演算法 -2 23

其屬於黑點或是白 點的類別。 機器學習 support vector machine 演算法 -3 24

25 預測的離散樣本感知音樂情感的分佈 PREDICTING THE DISTRIBUTION OF PERCEIVED MUSIC EMOTIONS USING DISCRETE SAMPLES

26 A. 制定問題 Problem formulation

27 B. 收集資料 Ground truth collection

28 C. 回歸訓練 Regressor training

29 D. 回歸融合 Regressior fusion

30 D. 回歸融合 Regressior fusion-2

31 E. 輸出情感分佈 Output of emotion distribution

32 F. 實驗 Experiments

33 F. 實驗 Experiments-2 。

34 G. 結論和討論 Conclusion & discussion 在證明這個方法的準確度後,我們可以重新回頭討論音樂的情緒。是 60 首歌的情緒 ground truth 。我們可以發現,白色部分的縱向延展較 橫向延展較小,這是因為激昂度是一個比較客觀的感覺,而正向度是 比較主觀的感覺。尤其當白色部分主要落於下半平面時,常可看到糊 成一片的情況,這是因為平靜 ( 第四象限 ) 與悲傷 ( 第三象限 ) 通常是主觀 的判定,所以容易莫衷一是。 (b) 是本篇提出的方法,我們可以觀察 到激昂度的預測較正向度的預測為佳,這一樣是因為正向度比較主觀, 所以受測者的感覺容易莫衷一是,導致難以訓練出一個好的模型。

35 G. 結論和討論 Conclusion & discussion-2 圖A圖A 圖B圖B

結論和未來發展 讓機器人學習分辨音樂的情感,能應用到的像是「音樂 治療 (music therapy) 」。在生理層面部份,音樂可以調 節人體的心跳、呼吸速率、和血壓。科學家發現平靜的 音樂會使大腦中的血液循環減慢,讓人感覺放鬆,把音 樂結合到治療上面。 36

心得 37 最近看的一部電影,就是大英雄天團, 裡面的醫療機器人杯麵,就有這個很重 要的這個功能,可是可以一步一步慢慢 實現,電影裡杯麵透過掃描以及分析主 人的聲音心跳電波,就可以做出相對應 的分析,做出適當的治療,來照顧牠的 主人,波放出他想看的音樂、影片、動 作、醫療等等,可是雖然距離那個還有 很大的距離,但能感覺得出來會越來越 接近,真的好讓人期待喔。