Music Genre Classification 音樂曲風分類

Slides:



Advertisements
Similar presentations
數位訊號處理概論 [ 音樂情感 Music Emotion ] 資工三甲 4A1G0030 李裕家 1.
Advertisements

2016年9月8日 2016年9月8日 2016年9月8日 1 Semi-supervised Learning by Sparse Representation Shuicheng Yan Huan Wang Lecturer: Yitao Zhai.
易腐性商品三階段最佳補貨策略之研究 黃嘉彥 教授 勤益科技大學 研發科技與資訊管理研究所.
MATLAB 程式設計 時間量測 清大資工系 多媒體資訊檢索實驗室.
Some theoretical notes on boosting
牙齒共振頻率之臨床探討 論 文 摘 要 論文名稱:牙齒共振頻率之臨床探討 私立台北醫學院口腔復健醫學研究所 研究生姓名:王茂生 畢業時間:八十八學年度第二學期 指導教授:李勝揚 博士 林哲堂 博士 在口腔醫學的臨床診斷上,到目前為止仍缺乏有效的設備或方法可以評估或檢測牙周之邊界狀態。臨床上有關牙周病的檢查及其病變之診斷工具,
Classification of Web Query Intent Using Encyclopedia 基于百科知识的查询意图获取
汇报人:李臻 中国海洋大学信息科学与工程学院 计算机科学与技术系
感知学习 ——可视化学习平台.
libD3C: 一种免参数的、支持不平衡分类的二类分类器
A Question Answering Approach to Emotion Cause Extraction
深層學習 暑期訓練 (2017).
An Adaptive Cross-Layer Multi-Path Routing Protocol for Urban VANET
Some Effective Techniques for Naive Bayes Text Classification
Applications of Digital Signal Processing
人機介面 Character Recognition 文字辨識
Population proportion and sample proportion
Descriptive statistics
報告人:丁英智 資策會 網路多媒體研究所 11/3/2006
NLP Group, Dept. of CS&T, Tsinghua University
汇报人:王晓东 单 位:信息科学与工程学院 日 期:2016年9月
文本分类综述 王 斌 中国科学院计算技术研究所 2002年12月.
Manifold Learning Kai Yang
研究、論文、計畫與生活之平衡 演講人:謝君偉 元智大學電機系 2018年11月22日.
K線圖/蠟燭線 Candlestick Charts
China Standardization activities of ITS
基於聯合因子分析與麥克風陣列之強健性語音辨認
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
TTS (文字轉語音) Roger Jang (張智星)
深度学习 (Deep Learning).
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
Closing Remarks on DSA-2018
近期科研汇报 报告人: 纪爱兵.
模糊系统与模糊控制简介 --博士生论坛系列报告.
A high payload data hiding scheme based on modified AMBTC technique
语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
API文档分析 张静宣 大连理工大学 2017年11月3日.
Ericsson Innovation Award 2018 爱立信创新大赛 2018
相關統計觀念復習 Review II.
表情识别研究 Sources of facial expressions
Learn Question Focus and Dependency Relations from Web Search Results for Question Classification 各位老師大家好,這是我今天要報告的論文題目,…… 那在題目上的括號是因為,前陣子我們有投airs的paper,那有reviewer對model的名稱產生意見.
HITSCIR-TM zkli-李泽魁 March. 24, 2015
Vector Quantization(VQ)
NSC D 蔣依吾 中山大學資訊工程系 紅外線點目標的檢知法則 Automatic detection of small targets in infrared image sequences containing evolving cloud clutter NSC D
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
國語語音屬性偵測器 之初步經驗 交通大學電信系 王逸如 2005/12/17.
A Data Mining Algorithm for Generalized Web Prefetching
韓國.
題目:衛星遙測於水質監測之應用 講者:中華大學土木工程學系 陳莉教授 時間:民國101年12月26日 遙測緣起與發展
BiCuts: A fast packet classification algorithm using bit-level cutting
李宏毅專題 Track A, B, C 的時間、地點開學前通知
Introduction of this course
More About Auto-encoder
Speaker : YI-CHENG HUNG
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
古佳怡 AI 人工智慧.
Chapter 9 Validation Prof. Dehan Luo
Speaker : YI-CHENG HUNG
Class imbalance in Classification
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
Term Project : Requirement
Gyrophone: Recognizing Speech From Gyroscope Signals
WiFi is a powerful sensing medium
Gaussian Process Ruohua Shi Meeting
《神经网络与深度学习》 第10章 模型独立的学习方式
SAS 統計程序實作 PROC MEANS (一個母體)
Presentation transcript:

Music Genre Classification 音樂曲風分類 Jyh-Shing Roger Jang (張智星) jang@mirlab.org http://mirlab.org/jang MIR Lab (多媒體資訊檢索實驗室) CSIE Dept, National Taiwan University

Intro. to Music Genre Classification Goal of MGC (music genre classification) Classify an audio music clip into the right genre Approach Typical two stages of training and test Similar applications Mood classification (for playlist generation) Artist/composer identification Music therapy… GTZAN: The files were collected in 2000-2001 from a variety of sources including personal CDs, radio, microphone recordings, in order to represent a variety of recording conditions.

Commonly Used Datasets for MGC George’s dataset 1000 30-second clips 10 genres 100 clips/genre MIREX 2007 genre dataset 7000 30-second clips 700 clips/genre Unique dataset ~3000 30-sec clips More than 10 genres Hainsworth dataset 222 clips 6 genres Million song dataset Many many more… GTZAN: The files were collected in 2000-2001 from a variety of sources including personal CDs, radio, microphone recordings, in order to represent a variety of recording conditions.

10 Genres of George’s Dataset Blue Classic Country Disco Hiphop Jazz Metal Pop Raegae Rock

Features vs. Classifier MFCC Mean, var, min, max, etc Spectrogram Spectral centroid, flux, rolloff, skewness, kurtosis Gabor filters Gaussian super vector Octave-based spectral contrast … Classifiers Support vector machines Nearest-nearest classifiers Gaussian mixture models Naïve Bayes classifiers Quadratic classifiers Decision trees Random forests Deep neural networks …

A Baseline Classifier for MGC Features Mean, variance, min, and max of MFCC  39*4 features for each clip Classifiers SVM, quadratic classifiers, GMM-based classifiers, sparse-representation classifiers… Performance 77.00% via leave-one-out cross-validation of SVM classifier Reference Published document

Combining Acoustic and Multi-level Visual Features for MGC Combine the decisions from acoustic and visual features based on the proposed confidence-based late fusion Status Ranked #1 in MIREX MGC contests of 2011, 2012, and 2013. Published in ACM Trans. Classical Hiphop 音樂曲風分類是要讓電腦學習如何從聲音訊號中辨認一首歌的曲風,如古典樂、嘻哈樂,迪斯可等等。其終極目的是,要能夠辨認電腦沒有聽過的音樂的曲風。我們方法的特點在於我們直接把一個聽覺辨識的問題轉換成視覺辨識的問題,因為我們發現音樂從1D訊號轉換成2D的頻譜圖時有顯著差異,所以我們針對頻譜圖設計了一套視覺特徵,並設計一套信心度的度量,來協助將視覺特徵和傳統的語音特徵進行結合來幫助音樂曲風分類。 Disco

Our Methods for MGC References Ming-Ju Wu and Jyh-Shing Roger Jang, "Combining Acoustic and Multilevel Visual Features for Music Genre Classification", ACM Transactions on Multimedia Computing Communications and Applications, 2015 Ming-Ju Wu and Jyh-Shing Roger Jang, "Combining Visual And Acoustic Features For Music Genre Classification", The Tenth International Conference on Machine Learning and Applications, Honolulu, Hawaii, USA, Dec 2011.

Detailed System Overview Multi-level Visual Features Based on spectrograms segmented by beat tracking Confidence-based Late Fusion Factor 1: The distance between the test instance and the hyperplane in the Hilbert space Factor 2: The distance between the test instance and its nearest neighbor in the Hilbert space Confidence measure = Factor 1/ Factor 2 對於視覺特徵而言,我們可以分成song-level 與beat-level的特徵,beat的資訊來自於我們結合了拍點偵測的技術,電腦可以自動辨認音樂的拍點,我們再進一步對頻譜圖在時間上進行切割。另一方面,我們也會計算beat與beat之間的異質性。對於confidence-based late fusion而言,因為我們的分類器是使用SVM搭配RBF kernel,而RBF kernel會把資料點投影到Hilbert 上,我們假設若測試歌曲在Hilbert space上,距離hyperplane越遠,代表越有信心。而測試歌曲在Hilbert space上,距離training data越近,代表現在測試的資料和過去學習過的資料越像,所以代表信心度越高。因此,就可以透過比較傳統語音特徵(GSV)和我視覺特徵的信心度,來採用最後的預測。

Performance Evaluation MIREX task of music genre classification 10 genres of Blues, Jazz, Country/Western, Baroque, Classical, Romantic, Electronica, Hip-Hop, Rock, HardRock/Metal 7000 songs, with 3-fold cross validation and artist filtering MIREX results Our submission is ranked no. 1 in 2011, 2012, and 2013. Submission Ranking (# of submissions) Year Accuracy Our submission 1 (11) 2013 76.23% 1 (16) 2012 76.13% 1 (15) 2011 75.57% Seyerlehner et al. 1 (24) 2010 73.64% Cao and Li 1 (31) 2009 73.33% MARSYAS 1 (13) 2008 66.41% IMIRSEL M2K 1 (7) 2007 68.29% 我們參加了MIREX競賽裡的音樂曲風分類比賽,MIREX是由伊利諾大學的Stephen Downie教授所舉辦,可以算是音樂資訊檢索屆裡面最重要的比賽。我們和歷年的冠軍相比,我們的方法囊括了三年冠軍,這顯示我們方法的優異性。

Comparison of Audio Features Quiz! Reproducible QBSH Pitch Speech Recognition MFCC: reproducible to some extent Not reproducible Audio fingerprinting Landmarks Music genre/mood classification Statistics over spectrogram, such as spectral centroid, flux, rolloff, skewness, kurtosis, etc. Can be used to reproduce perceptible part of the original audio

Demo of MGC Demo of MGC MIR lab