第三章音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)

Slides:

Advertisements

Similar presentations

663 Chapter 14 Integral Transform Method Integral transform 可以表示成如下的積分式的 transform  kernel Laplace transform is one of the integral transform 本章討論的 integral.

Advertisements

數位訊號處理概論 [ 音樂情感 Music Emotion ] 資工三甲 4A1G0030 李裕家 1.

Final Review Chapter 1 Discrete-time signal and system 1. 模拟信号数字化过程的原理框图使用 ADC 变换器对连续信号进行采样的过程使用 ADC 变换器对连续信号进行采样的过程 x(t) Analog.

王晨指导教师：张军平副教授复旦大学计算机科学技术学院上海市智能信息处理重点实验室

第十章　图像的频域变换.

知识准备-倒排索引文档集索引关键思想：将文档初筛变成O(1)的时间复杂度 D0=``谷歌地图之父跳槽Facebook“

SPSS统计软件的使用方法基础主讲人：宋振世（闵行校区）电话：

資料探勘(Data Mining)及其應用之介紹

手持裝置應用系統之設計與未來發展黃有評大同大學資訊工程系.

模式识别 – 概率密度函数的参数估计第三章概率密度函数的参数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言贝叶斯分类器的学习：类条件概率密度函数的估计。问题的表示：已有 c 个类别的训练样本集合 D 1 ， D 2 ， … ， D c ，求取每个类别的类条件概率密度。

XI. Hilbert Huang Transform (HHT)

3-3 Modeling with Systems of DEs

THE JOURNAL OF CHINA UNIVERSITIES OF POSTS AND TELECOMMUNICATIONS

IV. Implementation IV-A Method 1: Direct Implementation 以 STFT 為例

Some Effective Techniques for Naive Bayes Text Classification

Applications of Digital Signal Processing

袁星谢正辉，梁妙玲中国科学院大气物理研究所

Large-Scale Malware Indexing Using Function-Call Graphs

V. Homomorphic Signal Processing

報告人：丁英智資策會網路多媒體研究所 11/3/2006

Image Retrieval Based on Fractal Signature

模式识别 Pattern Recognition

文本分类综述王斌中国科学院计算技术研究所 2002年12月.

Manifold Learning Kai Yang

Differential Equations (DE)

編碼用於資料傳輸及壓縮漢明碼霍夫曼編碼.

语音编码陈虎.

數位典藏 - 全文檢索系統簡介 Reporter：Chia-Hao Lee

動態時間校正 (Dynamic Time Warping)

一個較受忽略的學習障礙— 數學學習障礙施達明教育學院澳門大學.

關鍵詞辨認（Keyword Spotting）

On Some Fuzzy Optimization Problems

梅爾倒頻譜係數 (Mel-frequency cepstral coefficients)

32位元處理器之定點數MFCC演算法的改進與探討 Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors 學生:陳奕宏指導教授：張智星.

1 Introduction Prof. Lin-Shan Lee TA: Chun-Hsuan Wang.

1 Introduction Prof. Lin-Shan Lee.

Step 1. Semi-supervised Given a region, where a primitive event happens Given the beginning and end time of each instance of the primitive event.

無線通訊系統模擬姓名:顏得洋學號:B

基於聯合因子分析與麥克風陣列之強健性語音辨認

Tel: 第11章 SPSS在时间序列预测中的应用周早弘旅游与城市管理学院

VI. Brief Introduction for Acoustics

多相流搅拌器练习 7.

Chp9：参数推断本节课内容：计算似然的极大值牛顿法 EM算法.

学习报告 —语音转换（voice conversion)

Source: IEEE Transactions on Image Processing, Vol. 25, pp ,

A Study on the Next Generation Automatic Speech Recognition -- Phase 2

The First Course in Speech Lab

最大熵模型简介 A Simple Introduction to the Maximum Entropy Models

1 Introduction Prof. Lin-Shan Lee.

Version Control System Based DSNs

VIDEO COMPRESSION & MPEG

VII. Data Compression (A)

Chapter 04 流程能力與績效分析.

Hashing Michael Tsai 2013/06/04.

自動伴奏產生器.

Distance Vector vs Link State

Hashing Michael Tsai 2017/4/25.

More About Auto-encoder

參考資料：林秋燕曾元顯卜小蝶，Chap. 1、3 Chowdhury，Chap.9

Distance Vector vs Link State Routing Protocols

語音訊號的特徵向量張智星多媒體資訊檢索實驗室清華大學資訊工程系.

鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition

HRNet 保持高分辨率不同分辨率之间进行信息交换（exchange） Exchange Unit HRNet Exchange Block.

Principle and application of optical information technology

阶段性词汇训练3 上海海事大学信息工程学院.

Gyrophone: Recognizing Speech From Gyroscope Signals

語音特徵擷取之資料相關線性特徵轉換研究生：張志豪多酌墨在數學式的物理意義及精神。老師、各位口試委員、各位同學大家好。

1 Introduction Prof. Lin-Shan Lee TA: Chung-Ming Chien.

Gaussian Process Ruohua Shi Meeting

適用於數位典藏多媒體內容之複合式多媒體檢索技術

Presentation transcript:

第三章音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval) 第三章音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval) 2) 音樂檢索 or 語音辨識: 特徵擷取+圖樣辨識 3) 特徵擷取(Feature extraction) 4) 圖樣辨識技術(Pattern recognition) 高斯混合模型 (Gaussian Mixture Model, GMM) 隱藏式馬可夫模型 (Hidden Markov Model, HMM) 動態時間校正 (Dynamic Time Warping, DTW) 5) 應用: 歌手辨識系統(query-by-example) 哼唱式歌曲查詢系統(query-by-humming)

線上音樂服務目前大多數音樂網站僅提供關鍵詞搜尋(keyword spotting) 不知道或忘了歌名、歌手、歌詞等，如何找歌? KKBOX

音樂資訊檢索資訊檢索(Information Retrieval )方式 Metadata-based retrieval(後設資料) Query-by-keyword (歌手,歌名,曲風) Content-based retrieval(音樂內涵) Query-by-humming/singing Query-by-speech Query-by-example Metadata-based e.g. Find me “Revelation”. Content-based e.g., Find me this one.

內涵式音樂檢索策略源自於語音辨識: 特徵擷取 + 圖樣辨識圖片容易看出何者相同聲音波形難以判斷何者相同

特徵擷取(Feature Extraction) 觀察音訊波形，唸同一個字數遍，有不同的波形，但為何仍可以聽出它們是唸相同的字呢? 類似地，唱相同旋律的歌數遍，也有不同的波形，但為何仍可以聽出它們屬相同旋律呢？語音或旋律無法直接從波形中分辨，必須擷取其特徵參數。

能量參數音訊是一種非穩態的隨機過程，但具有短時間穩態(short-time stationary)的特性。所以一般求取特徵參數的方法是先將音訊切成許多「音框」(Frame)，且兩音框間須作適當的重疊，使相鄰音框間的特徵參數不致有太突兀的變化。判斷資料中哪些區段有聲音(active)或安靜(silence)。一般是由一個音框內的訊號振幅來計算對數能量(Log Energy)：其中 s[i+kL]是第k個音框中的第 i 個取樣點，L是每個音框的長度

線性預估編碼係數(Linear Prediction Coding) 聲音的產生可視為一個激發源w [n ]送入一個發聲系統h [n ] 而獲得的輸出x [n ] h [n ]相當於發聲器官，與音色有關 (intelligibility) w [n ]相當於氣流，與音高有關 (speaker recognizability)

將聲音頻譜拆解，其中頻譜輪廓的部分即代表系統h [n ]，而另一部分代表激發源w [n ]。 logX = logW + logH

假設H (z )為一全極點(All-pole)系統，即 x [n ]相當於透過x [n-1]、...、x [n-K ]這些過去的取樣點所預測出，而w [n ]相當於預測誤差. (ex: 看報紙) a1、a2、...、aK 被稱為線性預估編碼(Linear Prediction Coding，LPC)係數，代表發聲器官的特徵參數。

LPC係數可藉由Normal Equation求解: Rx [k ]為x [n ]的自相關函數

音高/基頻激發源w [n ]的週期為音高(pitch)，其倒數為基頻 (fundamental frequency)。計算音高的方式大致可分為兩類時域上進行分析 : 自相關函數法(Autocorrelation Function，ACF) 。頻域上進行分析 : 倒頻譜（Cepstrum）or 次諧波總合法(Sub-Harmonic Summation，SHS)

自相關函數法(Autocorrelation Function，ACF) 根據取樣頻率換算成基頻。例如，i = 63，取樣頻率為22050Hz，則基頻為 22050/63 = 350 Hz

次諧波總合法(Sub-Harmonic Summation，SHS) 次諧波總合法是由Hermes在1988年所提出，其流程如圖2-5。首先，以滑動窗將音訊切成音框，而音框與音框間有若干重疊，並乘上漢明窗(Hamming window)。接著計算每一音框之快速傅立葉轉換(Fast Fourier Transform，FFT)，並分別求出音框內各離散頻率的能量值。理論上，具有最大能量的頻率即為基頻。但因為有時基頻的若干倍諧波能量還比基頻上的能量高，所以為了避免將諧波誤認為基頻，我們計算各離散頻率之諧波能量總和：其中N 表示列入考慮的諧波個數，p (nf )為第n 倍諧波的能量值，而h為一常數（典型上設為0.84），用以逐漸降低愈高倍諧波對該離散頻率的關聯性。最後，找出能產生最大H (f )之頻率f 即為所估算之基頻f0：

xt,j 次諧波總合法(Sub-Harmonic Summation，SHS) 基頻 FFT FFT FFT Sub-Harmonic

倒頻譜(Cepstrum) cepstrum=|IFFT(log(|FFT(frame)|))| 倒頻譜的物理意義，可用右圖說明：因此，只要使用 high-pass filtering，就可以把在 low quefrency部分拿掉，凸顯高點，就可以抓出基頻的位置。

Example

梅爾頻率倒頻譜係數 (Mel Frequency Cepstral Coefficients, MFCCs) 人耳對於低頻區域有較高的敏感度，例如我們很容易分辨100Hz 與103Hz有所不同；但對5000Hz與5100Hz 聽起來像是一樣的聲音。用梅爾刻度(Mel-scale)來劃分頻帶，取代線性刻度

求出如圖2-6所示之B=20組三角帶通濾波器中每一個頻帶k的對數能量Ek。注意圖2-6(a)中的三角頻帶是大小相同且間隔均為150 mel- scale，但由於梅爾刻度與頻率刻度之間的關係為，所以換算為線性頻率刻度為圖2-6(b)

進行餘弦轉換(Discrete cosine transform DCT)求出MFCC係數係數通常取P=12再加上音框的對數能量，產生13 維的特徵向量。若要呈現MFCC係數在時間上的動態變化，可求其差量(Delta) 其中cm[t ]是第t 個音框的MFCC係數，cm[t ]是其差量係數。k一般取2或3。如果加上差量運算，就會產生26 維的特徵向量；如果再加上差差量運算，就會產生 39 維的特徵向量。一般的語音辨識，就是使用 39 維的特徵向量。

高斯混合模型(Gaussian Mixture Model, GMM) 將資料的分佈狀況表示為若干高斯機率密度函式的組合常做為靜態圖樣(Static Patterns)的辨識工具。

模型與資料的關係給定 T 筆D維度向量資料則O是由 = {w (k ), (k ) , (k )| 1  k  K }所產生的機率為

模型參數  = {w (k ), (k ) , (k )| 1  k  K } Weight Mean (Vector) Covariance (Matrix) Number of Mixture Gaussians

模型參數估計(模型訓練) 給定 T 筆資料(如五月天) 則如何求 = {w (k ), (k ) , (k )| 1  k  K }，使得Pr(O| λ)達最大? 利用Expectation-Maximization (EM)演算法，透過疊代的方式來求解(monotonic increase in model’s likelihood) 以一個初始粗估模型（Initial model） 開始，試圖估算出新的模型，使得。然後將視為，再次估算出更新的模型。依此步驟反覆地進行，直到不再增加(收斂)為止

的計算公式

GMM辨識器給定一未知種類的資料，可透過最大事後機率(Maximum A Posteriori, MAP）來判斷其屬於J 個種類中的哪一種，其中j 表示第 j 種類的模型(五月天,蘇打綠,…)。根據貝氏法則（Bayes’ rule），上式可以簡化成因 Pr(X)與種類判斷無關，且若假設Pr(j )=1/J ，則

動態時間校正(Dynamic Time Warping, DTW) GMM與HMM皆屬於統計方式的辨識工具，即當同類資料有某種程度的差異時，利用這些工具的訓練過程，可以凝聚同類資料的共同特性。 DTW則屬於樣版式(Template)的辨識工具，不需要訓練的過程來凝聚同類資料的共同特性，取而代之的是直接比對參考資料與測試資料間的異同。但考慮參考資料與測試資料間可能有時間上的不同步，因此DTW進行時間上的伸縮調整(time normalization)，使得不同長度的資料可以彼此相比對。

概念: 兩人唱同一首歌 Linear time normalization Dynamic time warping

概念 x y Warping Path

Warping Path DTW的目標是求取一條最佳路徑，使兩序列 x(1),x(2),…,x(I ) 與y(1),y(2),…,y(J )的總累加距離D (I,J )最小 Method: Dynamic programming(動態規劃) j y(J ) y( j ) y(j-1) y(1) i x(1) x(i-1) x(i ) x(I )

Time-Normalization Constraints Some constraints on the warping functions: Endpoint constraints: 兩序列的起始點相對應 x(1)=y(1)，且結束點相對應 x(I)=y(J) Monotonicity conditions: 保持時間上的先後次序 Local continuity constraints: 排除極端傾斜的路徑 Global path constraints: 合法的路徑範圍 Path weighting or penalty: 優先選擇的路徑

Distance between Same-length Sequences Alignment

Distance between Different-length Sequences

Alignment Constraints: Type 1 Temporal constraints : Local path constraints One-to-one mapping: k=min(m,n) No consecutive skip-over x1 x2 x3 x4 x5 y1 y2 y3 y4 y5 y6 y7 y8

Type-1 Alignment Path j i Alignment path (mapping path): x1 x2 x3 x4 8 7 y1 y2 y3 y4 y5 y6 y7 y8 6 5 4 3 2 1 i 1 2 3 4 5

Alignment Constraints: Type 2 Temporal constraints : Local path constraints k=max(m,n):1-to-1,1-to-many,many-to-1 mapping No skip-over x1 x2 x3 x4 x5 y1 y2 y3 y4 y5 y6 y7 y8

Type-2 Alignment Path j i Alignment path: x1 x2 x3 x4 x5 y1 y2 y3 y4 8 7 y1 y2 y3 y4 y5 y6 y7 y8 6 5 4 3 2 1 i 1 2 3 4 5

Local Path Constraints Type 1: 27-45-63 local paths Type 2: 0-45-90 local paths

Global Path Constraints 若兩序列起始點相對應，結束點也相對應若兩序列起始點相對應，但結束點可不相對應若兩序列起始點與結束點都可不相對應 (I, jF) (I,J) (I, jF) (1, j1)

Type-1 DTW: Table Fillup x, y: input vector/matrix Local paths: 27-45-63 degrees DTW formulation: j y(j) y(j-1) x(i-1) x(i) i

Type-2 DTW: Table Fillup x, y: input vector/matrix Local paths: 0-45-90 degrees DTW formulation: j y(j) y(j-1) i x(i-1) x(i)

資訊檢索(Information Retrieval) 協助找尋使用者想要的資訊、資料(data)、文件(document)、或物件(object) 運作過程分成兩個階段索引(Indexing): 建立資料的標籤或歸納其特徵，以利搜尋搜尋(Searching): 依使用者需求，從索引中找出匹配的資料依索引方式的不同分為 Metadata-based:人工方式建立的後設資料(data about data), 例如:音樂的曲名、曲風、作曲者、演奏者、發行者 Content-based(內涵式): 利用音樂資料內容的自動分析

音樂檢索之問題型態詢問型態 (query) 欲檢索資料型態 (document) 文字符號式(symbolic) 聲訊(acoustic) 影像單音(monophonic) 複音 (polyphonic) 輸入歌名查詢歌詞及其他音樂訊息輸入歌名查詢MIDI或Humdrum等型態音樂輸入歌名查詢小號樂器演奏曲輸入歌名查詢一般流行歌曲或古典音樂輸入歌名查詢光學掃瞄樂譜以樂譜文字檔或MIDI、Humdrum 等型態音樂輸入查詢歌詞及其他音樂訊息以樂譜文字檔或MIDI、 Humdrum 等型態音樂輸入查詢樂譜文字檔或MIDI、Humdrum等型態音樂以樂譜文字檔或MIDI、 Humdrum等型態音樂輸入查詢小號樂器演奏曲以樂譜文字檔或MIDI、 Humdrum等型態音樂輸入查詢一般流行歌曲或古典音樂以樂譜文字檔或MIDI、 Humdrum等型態音樂輸入查詢光學掃瞄樂譜單音(mono- phonic) 哼唱式輸入查詢歌詞及其他音樂訊息哼唱式輸入查詢樂譜文字檔或MIDI、Humdrum等型態音樂哼唱式輸入查詢小號樂器演奏曲哼唱式輸入查詢一般流行歌曲或古典音樂哼唱式輸入查詢光學掃瞄樂譜複音(poly- phonic) 以歌曲片段查詢其出處(歌名、歌手等資訊) 以歌曲片段查詢樂譜文字檔或MIDI、Humdrum等型態音樂以歌曲片段查詢小號樂器演奏曲的其他版本以歌曲片段查詢一般流行歌曲的翻唱版本以歌曲片段查詢光學掃瞄樂譜光學掃瞄樂譜查詢其出處光學掃瞄樂譜查詢相似樂譜，例如作曲家可藉以檢查光學掃瞄樂譜查詢現有的單音樂器演奏版本光學掃瞄樂譜查詢現有的複音樂器演奏版本光學掃瞄樂譜查詢相似的樂譜影像檔

MFCCs + HMM 使用者說出歌名來查詢想要聽的歌曲(Query-by-speech) 做法語音辨識器的分類: 困難處口說歌曲查詢使用者說出歌名來查詢想要聽的歌曲(Query-by-speech) 做法 MFCCs + HMM 語音辨識器的分類: 字彙: 少量(數百字) 、中量(數千字) 、大量(數萬字) 特定/不特定對象(Speaker Dependent , Speaker Independent) 連續/不連續語音困難處建立大詞彙的聲學模型、發音詞典、語言模型不同語者的發聲特性差異(速度、性別、年紀、口音) 激發源(語者相關)與發聲系統(內容相關)的緊密結合

語音訊號的變異性 / No Rush/ 女聲男聲

語音辨識系統基本方塊圖語言模型辨識模型或樣板前置處理特徵擷取辨識 Grammar (左右相連語法) Syntatics (句法) 辨識結果語音訊號前置處理 (Pre-processing) 特徵擷取 (Feature Extraction) 辨識 (Decoding) Mel Frequency Cepstral Coefficients (MFCC) Pitch Contour Dynamic Time Warping Hidden Markov Models Pre-amplifying Speech/Silence Segmentation

語言模型的用途

... 訓練階段：建立各辨識單元(單音節,字)之統計模型。使用階段：計算由各模型產生輸入語音的機率大小，取其最大者做為辨識結果。隱藏式馬可夫模型(HMM) 訓練階段：建立各辨識單元(單音節,字)之統計模型。使用階段：計算由各模型產生輸入語音的機率大小，取其最大者做為辨識結果。選擇最大值計算由模型#1產生的機率值語音特徵圖樣辨識結果計算由模型#2產生的機率值 ... 計算由模型#M產生的機率值

歌手辨識 (Singer Recognition) 應用 Query-by-example, piracy detection, etc. 做法 MFCCs + GMM 困難處 Popular music contains background accompaniment during most or all vocal passages Infeasible to acquire clean solo voice data to analyze a popular singer’s voice characteristics

Vocal/Non-vocal(純伴奏) Segmentation MFCCs + GMM

Singer Identification Singer Detection 歌手辨識的應用 Singer Identification Singer Detection Singer Clustering Singer Tracking

哼唱式歌曲查詢 (query-by-humming) 難度: 哼唱走音,男女key shift 根據主旋律(main melody)的比對 Note extraction (音高序列)+ DTW

xt,j O = { o , , ..., } 基頻 Note Sequence 83 ,..., 42 41 Î FFT FFT FFT Note Extraction Note Sequence O = { o 1 , 2 , ..., t T } 83 ,..., 42 41 Î Frequency to note number conversion FFT xt,j FFT FFT Sub-Harmonic Summation (SHS) 基頻

Median filtering (short-term error correction): 取三數之中位數 Note Extraction Median filtering (short-term error correction): 取三數之中位數 Example: 62 62 73 62 62 79 79 79 79  62 62 62 62 62 79 79 79 79 Rectification (long-term error correction) The range of sung notes within a verse or chorus section of a song is usually less than 18 semitones 17 Semitones 15

Dynamic Time Warping (DTW) Distance Computation Solving the key shift or transposition (移位) Target document’s note sequence Query’s note sequence compute distance stretch/shrink Target document’s note sequence Query’s note sequence shift The query’s note sequence is shifted with 1,  2,…,  K semitones