聲紋辨識 100%自製 指導老師:趙春棠 學生:陳保均 學號:

Slides:



Advertisements
Similar presentations
大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.
Advertisements

你不知道的 3M P 班級 : 創意二甲 指導老師 : 袁又華 組長 : 林毓茹 組員 : 林以軒 林欣汝 陳盈羽 陳怡如 劉玉婷.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
Introduction to C Programming
第十章 图像的频域变换.
課程大綱 衛星通信與導航 96年度第一學期(二技).
5.1 自然對數函數:微分 5.2 自然對數函數:積分 5.3 反函數 5.4 指數函數:微分與積分 5.5 一般底數的指數函數和應用 5.6 反三角函數:微分 5.7 反三角函數:積分 5.8 雙曲函數.
放大器-頻率響應實驗 科系:通訊工程學系 執導老師:王志湖 學號:B 姓名:何信賢.
Strain Variation for B-Mode Image
Signal and Systems 教師:潘欣泰.
課程大綱 衛星通信與導航 96年度第一學期(四技).
The Fourier Transform 第七章 傅利葉轉換
PWM (Pulse width modulation)驅動:脈波寬度調變就是依照控制訊號的大小,調整脈波串列寬度,控制電壓值愈大,脈波寬度就愈寬,利用正弦波做為脈寬調變電路的控制電壓,其頻率為需要的輸出頻率,以脈波控制電晶體ON-OFF動作,以調節馬達線圈電流。 脈波寬度調變技術如圖10-28所示,圖10-28(a)所示為使用電晶體的單相眽寬調變變頻電路,電路中T1、T2島通狀態由兩個比較器控制,如圖10-28(b)所示。
第七章 MSP430時脈計時器A模組.
Information Appliance (IA) 資訊應用系統整合概念
青蛙物種聲紋辨識系統 參賽學生:李建德、陳家正 指導教授:陳文平 教授 農委會林業試驗所六龜研究中心 高雄應用科技大學電機工程系
梅爾倒頻譜係數 (Mel-frequency cepstral coefficients)
梅爾倒頻譜係數 (Mel-frequency cepstral coefficients)
Different Codec Technologies
32位元處理器之定點數MFCC演算法的改進與探討 Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors 學生:陳奕宏 指導教授:張智星.
使用VHDL設計—4位元位移器 通訊一甲 B 楊穎穆.
正弦波產生器 如何產生 sin, cosine 震盪,回授,負反饋 (Barkhousen Criteria)
數位電路的優點 電子電路有數位(digital)電路與類比(analog)電路兩大類,而數位電路較類比電路有以下的優點:
語音處理簡介.
Principle and Application of Digital Television
Wavelet transform 指導教授:鄭仁亮 學生:曹雅婷.
視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生:顏羽君
Network Application Laboratory
指導老師:黃貞芬 老師 專題組員:B 黃育宇 B 魏志軒 B 平震宇
Chap3 Linked List 鏈結串列.
大數據與我 4A 陳駿榜.
網路安全技術 OSI七層 學生:A 郭瀝婷 指導教授:梁明章.
網路程式設計期末project B 張芸菱.
行動科技的應用 行動學習(Mobile Learning) 博物館導覽 視訊會議(Video conference) 健康監控、災害處理
Working Model 2D 朝陽科技大學 工業設計系 邱相文.
数字信号处理基础 第7章 FIR数字滤波器的理论和设计
Introduction to C Programming
Definition of Trace Function
微積分網路教學課程 應用統計學系 周 章.
田口方法應用於語音辨識 報告者:李建德.
共源極頻率響應 科系:通訊工程學系 執導老師:王志湖 學號:B 姓名:何信賢.
對數能量特徵正規化於語音辨識之進一步研究
圖 計時 IC 的詳細圖.
數位音訊 B 翁漢宇.
DRC with Calibre 課程名稱:VLSI 報告人:黃家洋 日期: 改版(蔡秉均) 1.
講師:高宏宣 “景文科技大學應用英語系” 『電腦輔助教學』課程講義 Gold WAVE音訊軟體 講師:高宏宣
MiRanda Java Interface v1.0的使用方法
端點偵測介紹.
電子學實驗(三) --非反相運算放大器電路
林業試驗所六龜研究中心 國立高雄應用科技大學網路應用實驗室
單元 樞密特觸發電路 單元總結.
本講義為使用「訊號與系統,王小川編寫,全華圖書公司出版」之輔助教材
第1章 認識圍繞著我們的鄰居 : 電磁波(electromagnetic wave)
AM &FM simulation 通訊四甲 B 蕭惟尹.
資料表示方法 資料儲存單位.
語音訊號的特徵向量 張智星 多媒體資訊檢索實驗室 清華大學 資訊工程系.
端點偵測介紹.
資料擷取與監控應用實務.
波的振幅與週期量測 通訊一甲 B 楊穎穆.
非負矩陣分解法介紹 報告者:李建德.
銘鴻電子FPGA影像編輯平台.
語音辨識前處理介紹 Jain-De,Lee.
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
第十三章 彩色影像處理.
聲音的產生.
青 蛙 物 種 辨識系統 聲紋 行政院農業委員會林業試驗所-六龜研究中心 國立高雄應用科技大學 指導教授:陳文平 教授
鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition
Chapter 4 Multi-Threads (多執行緒).
11621 : Small Factors ★★☆☆☆ 題組:Problem Set Archive with Online Judge
7. 三角學的應用 正弦公式 餘弦公式 a2 = b2 + c2 - 2bc cos A b2 = a2 + c2 - 2ac cos B
Presentation transcript:

聲紋辨識 100%自製 指導老師:趙春棠 學生:陳保均 學號:49422012 數位訊號處理概論 聲紋辨識 100%自製 指導老師:趙春棠 學生:陳保均 學號:49422012

大綱 DSP應用 生物辨識系統 聲紋辨識-處理過程 聲紋辨識缺點

DSP應用 語音方面: 語音分析/合成 語音辨識 語者辨識 噪音消除 聲紋辨識 加密/解密、T.T.S. (Text to Speech).

DSP應用 控制方面: 交直流、伺服、步進、線性馬達 雕刻機 機器人 電動車 飛機及飛彈導航系統 半導體設備 控制方面:交直流馬達、伺服馬達、步進馬達、線性馬達、壓電陶瓷馬達(Piezo)、 CNC、NC、放電加工、雕刻機、機器人、電動車、自動測試系統、 ATE、ICT、儀器量測、 半導體設備、X-Y 平台、飛行模擬器、 飛機及飛彈導航系統.

DSP應用 影像應用方面: 影像辨識 醫學影像 生理影像監測 指紋辨識 虛擬實境(VR)、D3D、3D 圖型 飛行模擬 影像應用方面:影像辨識、影像瑕疵檢測(PCB 板、鋼板、木材、隧道壁)、 影像傳送、醫學影像、X 光片儲存、生理影像監測、指紋辨識、 虛擬實境(VR)、D3D、3D 圖型、飛行模擬、HDTV、電子地 圖、Video Phone

DSP應用 通訊方面應用: 加密/解密 廣播通訊 ADSL、I-Phone、Digital Radio 衛星通訊 視訊會議系統(Video Conference) 雷達/聲納系統 電話語音秘書 通訊方面應用:加密/解密、T1/E1、ISDN、廣播通訊、蜂巢式電話、TDMA、 CDMA、ADSL、I-Phone、Digital Radio、衛星通訊、Modem、 Set Up Box、視訊會議系統(Video Conference)、電話語音秘書、 雷達/聲納系統.

生物辨識 (Biometric)系統 生理上 獨特的行為模式 臉形 指紋 虹膜 聲紋 簽名 密碼 指紋辨識佔技術比率的54%,簽名辨識佔技術比率約21%,臉部辨識則佔技術比率16%,虹膜辨識佔技術比率9%。市面上以「指紋辨 識」技術較成熟,市場占有率最高,其次則為成長速度最快的「臉部辨識」技術。「虹膜辨識」的準確度最高,但是由於使用上必需以紅外線掃描眼球,在 價格及安全性的考慮下,並不容易發展成為大眾化的產品,相對的市場占有率也就無法迅速拓展。

聲紋辨識 語音訊號 預強調(Pre-emphasis) 截取音框(Frame blocking) 漢明窗(Hamming window) 離散式傅立葉轉換(DFT) 三角濾波器(Triangular Bandpass Filters) 對數轉換(Log energy) 離散餘弦轉換(Discrete Cosine Transform, DCT) 梅爾倒頻譜係數( MFCC) Mel-scale Frequency Cepstral Coefficients,MFCC 音色的分析

預強調(Pre-emphasis) 原始訊號 預強調後 人耳對於高頻的聲音有自動增益的效果,人無法發出高頻的聲音,隨著所發 出頻率越高,則聲音強度隨之減弱,會有高頻部分損失,為了禰補這些損失而需 將語音訊號事先做預強調處理,我們將每一個音框乘上一FIR 高通濾波器來增強 高頻部 預強調後

截取音框 先將 N 個取樣點集合成一個觀測單位,稱為音框(Frame),通常 N 的值是 256 或 512,涵蓋的時間約為 20~30 ms 左右。為了避免相鄰兩音框的變化過大,所以我們會讓兩相鄰因框之間有一段重疊區域,此重疊區域包含了 M 個取樣點,通常 M 的值約是 N 的一半或 1/3。通常語音辨識所用的音訊的取樣頻率為 8 KHz或 16 KHz,以 8 KHz 來說,若音框長度為 256 個取樣點,則對應的時間長度是 256/8000*1000 = 32 ms。

漢明窗(Hamming window) 將截取好的音框乘上漢明窗 將每一個音框乘上漢明窗,以增加音框左端和右端的連續性(請見下一個步驟的說明)。假設音框化的訊號為 S(n), n = 0,…N-1。那麼乘上漢明窗後為 S'(n) = S(n)*W(n),此 W(n) 形式如下: W(n, a) = (1 - a) - a cos(2pn/(N-1)),0≦n≦N-1

在上述範例中,音框中的訊號是一段弦波加上雜訊,若不乘上漢明窗,音框的左端和右端並不連 續,因此在頻譜上,代表弦波的高峰比較不明顯。若乘上漢明窗後,雜訊在能量頻譜上面的強度就會比較弱,代表弦波的高峰也相對比較突出。如果我們使用實際的 聲音訊號來進行測試,漢明窗的效果就會更明顯:

離散式傅立葉轉換(DFT) 將訊號做傅立葉轉換 乘上漢明窗的主要目的,是要加強音框左端和右端的連續性,這是因為在進行 FFT 時,都是假設一個音框內的訊號是代表一個週期性訊號,如果這個週期性不存在,FFT 會為了要符合左右端不連續的變化,而產生一些不存在原訊號的能量分佈,造成分析上的誤差。當然,如果我們在取音框時,能夠使音框中的訊號就已經包含基本週 期的整數倍,這時候的音框左右端就會是連續的,那就可以不需要乘上漢明窗了。但是在實作上,由於基本週期的計算會需要額外的時間,而且也容易算錯,因此我 們都用漢明窗來達到類似的效果。 語音訊號在時域上變化十分的快速且會隨著時間不斷的改變,使得在時域上 沒有辦法作有效的觀察。可是在頻域上短時間內語音訊號是呈現週期性的,所以 一般會經由離散傅立葉轉換(Discrete Fourier Transform, DFT)把語音訊號由 時域轉成頻域[4]。

三角濾波器 1.對頻譜進行平滑化,並消除諧波的作用,突顯原先語音的共振峰 2.降低資料量 三角帶通濾波器有兩個主要目的: 1.對頻譜進行平滑化,並消除諧波的作用,突顯原先語音的共振峰。 (因此一段語音的音調或音高,是不會呈現在 MFCC 參數內,換句話說,以 MFCC 為特徵的語音辨識系統,並不會受到輸入語音的音調不同而有所影響。) 2.降低資料量。

梅爾頻率(Mel Frequency) 1kHz以下為等間隔,超過1kHz為對數間隔 模擬此人耳聽覺特性

對數轉換 將訊號做對數轉換 一個音框的音量(即能量),也是語音的重要特徵,而且非常容易計算。因此我們通常再加上一個 音框的對數能量(定義為一個音框內訊號的平方和,再取以 10 為底的對數值,再乘以 10),使得每一個音框基本的語音特徵就有 13 維,包含了 1 個對數能量和 12 個倒頻譜參數。(若要加入其他語音特徵以測試辨識率,也可以在此階段加入,這些常用的其他語音特徵,包含音高、過零率、共振峰等。) 人耳除了對於頻率的變化會隨著高頻而敏感度遞減,此外對於頻率能量的變 化也不敏感,這可以從三小聽骨的機制觀察到。人耳的外耳與中耳都是充滿空氣 而內耳卻是充滿液體,振動由空氣傳遞到液體會造成能量的損失,這時後三小聽 骨會利用槓桿原理在加上單位面積的不同來增加振動的傳送。此外,三小聽骨上 附有身體最小的骨骼肌,當有非常強大的巨響傳入,它會收縮以減低三小聽骨的 振動,藉此保護耳朵。因為模擬人耳的特性,所以一般會對梅爾三角濾波器輸出 的值作對數轉換[4]。

梅爾倒頻譜係數 將對數轉換後的訊號做離散餘弦轉換,就得到MFCC 將上述的 20 個對數能量 Ek帶入離散餘弦轉換,求出 L 階的 Mel- scale Cepstrum 參數,這裡 L 通常取 12。離散餘弦轉換公式如下: Cm=Sk=1Ncos[m*(k-0.5)*p/N]*Ek, m=1,2, ..., L 其中 Ek 是由前一個步驟所算出來的三角濾波器和頻譜能量的內積值,N 是三角濾波器的個數。由於之前作了 FFT,所以採用 DCT 轉換是期望能轉回類似 Time Domain 的情況來看,又稱 Quefrency Domain,其實也就是 Cepstrum。又因為之前採用 Mel- Frequency 來轉換至梅爾頻率,所以才稱之Mel-scale Cepstrum。

聲紋辨識缺點 易受使用器材品質 背景聲音 感冒聲音沙啞混淆影響 技術還無法精確分辨錄音的欺騙情形

文獻 http://www.senao.com.tw/proLife_Content.aspx?id=437 史賓納科技股份有限公司 http://neural.cs.nthu.edu.tw/jang/books/audiosignalprocessing/speechFeatureMfcc_chinese.asp?title=12-2%20MFCC

Thanks for listening