聲紋辨識 100%自製指導老師:趙春棠學生:陳保均學號:

聲紋辨識 100%自製指導老師:趙春棠學生:陳保均學號:49422012
數位訊號處理概論聲紋辨識 100%自製指導老師:趙春棠學生:陳保均學號:

大綱 DSP應用生物辨識系統聲紋辨識-處理過程聲紋辨識缺點

DSP應用語音方面：語音分析/合成語音辨識語者辨識噪音消除聲紋辨識加密/解密、T.T.S. (Text to Speech).

DSP應用控制方面：交直流、伺服、步進、線性馬達雕刻機機器人電動車飛機及飛彈導航系統半導體設備
控制方面：交直流馬達、伺服馬達、步進馬達、線性馬達、壓電陶瓷馬達(Piezo)、 CNC、NC、放電加工、雕刻機、機器人、電動車、自動測試系統、 ATE、ICT、儀器量測、半導體設備、X-Y 平台、飛行模擬器、飛機及飛彈導航系統.

DSP應用影像應用方面：影像辨識醫學影像生理影像監測指紋辨識虛擬實境(VR)、D3D、3D 圖型飛行模擬
影像應用方面：影像辨識、影像瑕疵檢測(PCB 板、鋼板、木材、隧道壁)、影像傳送、醫學影像、X 光片儲存、生理影像監測、指紋辨識、虛擬實境(VR)、D3D、3D 圖型、飛行模擬、HDTV、電子地圖、Video Phone

DSP應用通訊方面應用：加密/解密廣播通訊 ADSL、I-Phone、Digital Radio 衛星通訊
視訊會議系統(Video Conference) 雷達/聲納系統電話語音秘書通訊方面應用：加密/解密、T1/E1、ISDN、廣播通訊、蜂巢式電話、TDMA、 CDMA、ADSL、I-Phone、Digital Radio、衛星通訊、Modem、 Set Up Box、視訊會議系統(Video Conference)、電話語音秘書、雷達/聲納系統.

生物辨識（Biometric）系統生理上獨特的行為模式臉形指紋虹膜聲紋簽名密碼
指紋辨識佔技術比率的54％，簽名辨識佔技術比率約21％，臉部辨識則佔技術比率16％，虹膜辨識佔技術比率9％。市面上以「指紋辨識」技術較成熟，市場占有率最高，其次則為成長速度最快的「臉部辨識」技術。「虹膜辨識」的準確度最高，但是由於使用上必需以紅外線掃描眼球，在價格及安全性的考慮下，並不容易發展成為大眾化的產品，相對的市場占有率也就無法迅速拓展。

聲紋辨識語音訊號預強調(Pre-emphasis) 截取音框（Frame blocking）漢明窗(Hamming window)
離散式傅立葉轉換(DFT) 三角濾波器（Triangular Bandpass Filters）對數轉換（Log energy）離散餘弦轉換(Discrete Cosine Transform, DCT) 梅爾倒頻譜係數（ MFCC） Mel-scale Frequency Cepstral Coefficients,MFCC 音色的分析

預強調(Pre-emphasis) 原始訊號預強調後人耳對於高頻的聲音有自動增益的效果，人無法發出高頻的聲音，隨著所發
出頻率越高，則聲音強度隨之減弱，會有高頻部分損失，為了禰補這些損失而需將語音訊號事先做預強調處理，我們將每一個音框乘上一FIR 高通濾波器來增強高頻部預強調後

截取音框先將 N 個取樣點集合成一個觀測單位，稱為音框（Frame），通常 N 的值是 256 或 512，涵蓋的時間約為 20~30 ms 左右。為了避免相鄰兩音框的變化過大，所以我們會讓兩相鄰因框之間有一段重疊區域，此重疊區域包含了 M 個取樣點，通常 M 的值約是 N 的一半或 1/3。通常語音辨識所用的音訊的取樣頻率為 8 KHz或 16 KHz，以 8 KHz 來說，若音框長度為 256 個取樣點，則對應的時間長度是 256/8000*1000 = 32 ms。

漢明窗(Hamming window) 將截取好的音框乘上漢明窗
將每一個音框乘上漢明窗，以增加音框左端和右端的連續性（請見下一個步驟的說明）。假設音框化的訊號為 S(n), n = 0,…N-1。那麼乘上漢明窗後為 S'(n) = S(n)*W(n)，此 W(n) 形式如下： W(n, a) = (1 - a) - a cos(2pn/(N-1))，0≦n≦N-1

在上述範例中，音框中的訊號是一段弦波加上雜訊，若不乘上漢明窗，音框的左端和右端並不連續，因此在頻譜上，代表弦波的高峰比較不明顯。若乘上漢明窗後，雜訊在能量頻譜上面的強度就會比較弱，代表弦波的高峰也相對比較突出。如果我們使用實際的聲音訊號來進行測試，漢明窗的效果就會更明顯：

離散式傅立葉轉換(DFT) 將訊號做傅立葉轉換
乘上漢明窗的主要目的，是要加強音框左端和右端的連續性，這是因為在進行 FFT 時，都是假設一個音框內的訊號是代表一個週期性訊號，如果這個週期性不存在，FFT 會為了要符合左右端不連續的變化，而產生一些不存在原訊號的能量分佈，造成分析上的誤差。當然，如果我們在取音框時，能夠使音框中的訊號就已經包含基本週期的整數倍，這時候的音框左右端就會是連續的，那就可以不需要乘上漢明窗了。但是在實作上，由於基本週期的計算會需要額外的時間，而且也容易算錯，因此我們都用漢明窗來達到類似的效果。語音訊號在時域上變化十分的快速且會隨著時間不斷的改變，使得在時域上沒有辦法作有效的觀察。可是在頻域上短時間內語音訊號是呈現週期性的，所以一般會經由離散傅立葉轉換(Discrete Fourier Transform, DFT)把語音訊號由時域轉成頻域[4]。

三角濾波器 1.對頻譜進行平滑化，並消除諧波的作用，突顯原先語音的共振峰 2.降低資料量三角帶通濾波器有兩個主要目的：
1.對頻譜進行平滑化，並消除諧波的作用，突顯原先語音的共振峰。（因此一段語音的音調或音高，是不會呈現在 MFCC 參數內，換句話說，以 MFCC 為特徵的語音辨識系統，並不會受到輸入語音的音調不同而有所影響。） 2.降低資料量。

梅爾頻率（Mel Frequency） 1kHz以下為等間隔，超過1kHz為對數間隔模擬此人耳聽覺特性

對數轉換將訊號做對數轉換一個音框的音量（即能量），也是語音的重要特徵，而且非常容易計算。因此我們通常再加上一個音框的對數能量（定義為一個音框內訊號的平方和，再取以 10 為底的對數值，再乘以 10），使得每一個音框基本的語音特徵就有 13 維，包含了 1 個對數能量和 12 個倒頻譜參數。（若要加入其他語音特徵以測試辨識率，也可以在此階段加入，這些常用的其他語音特徵，包含音高、過零率、共振峰等。）人耳除了對於頻率的變化會隨著高頻而敏感度遞減，此外對於頻率能量的變化也不敏感，這可以從三小聽骨的機制觀察到。人耳的外耳與中耳都是充滿空氣而內耳卻是充滿液體，振動由空氣傳遞到液體會造成能量的損失，這時後三小聽骨會利用槓桿原理在加上單位面積的不同來增加振動的傳送。此外，三小聽骨上附有身體最小的骨骼肌，當有非常強大的巨響傳入，它會收縮以減低三小聽骨的振動，藉此保護耳朵。因為模擬人耳的特性，所以一般會對梅爾三角濾波器輸出的值作對數轉換[4]。

梅爾倒頻譜係數將對數轉換後的訊號做離散餘弦轉換，就得到MFCC
將上述的 20 個對數能量 Ek帶入離散餘弦轉換，求出 L 階的 Mel- scale Cepstrum 參數，這裡 L 通常取 12。離散餘弦轉換公式如下： Cm=Sk=1Ncos[m*(k-0.5)*p/N]*Ek, m=1,2, ..., L 其中 Ek 是由前一個步驟所算出來的三角濾波器和頻譜能量的內積值，N 是三角濾波器的個數。由於之前作了 FFT，所以採用 DCT 轉換是期望能轉回類似 Time Domain 的情況來看，又稱 Quefrency Domain，其實也就是 Cepstrum。又因為之前採用 Mel- Frequency 來轉換至梅爾頻率，所以才稱之Mel-scale Cepstrum。

聲紋辨識缺點易受使用器材品質背景聲音感冒聲音沙啞混淆影響技術還無法精確分辨錄音的欺騙情形

文獻 http://www.senao.com.tw/proLife_Content.aspx?id=437 史賓納科技股份有限公司

Thanks for listening

聲紋辨識 100%自製指導老師:趙春棠學生:陳保均學號:

Similar presentations

Presentation on theme: "聲紋辨識 100%自製指導老師:趙春棠學生:陳保均學號:"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

聲紋辨識 100%自製 指導老師:趙春棠 學生:陳保均 學號:

Similar presentations

Presentation on theme: "聲紋辨識 100%自製 指導老師:趙春棠 學生:陳保均 學號:"— Presentation transcript:

Similar presentations

About project

反馈

聲紋辨識 100%自製指導老師:趙春棠學生:陳保均學號:

Presentation on theme: "聲紋辨識 100%自製指導老師:趙春棠學生:陳保均學號:"— Presentation transcript: