CH18 多媒體辨識技術 認識多媒體的輸入方式 認識多媒體辨識原理 認識多媒體辨識系統的基本架構 認識辨識技術在多媒體系統上的應用 認識訊號辨識的軟體工具
18-1 語音辨識 CH18 多媒體辨識技術
認識語音訊號 語音訊號的產生與接收: 人 電腦 輸入---語音訊號 語音訊號接收器 語音訊號處理器---語音辨識 CH18 多媒體辨識技術
語音辨識原理 淡 淡 江 臺 語音辨識的基本原理 <語音訊號比對> <最符合的比對結果> 系統輸入---語音訊號 系統輸出---語意 <語音訊號比對> <最符合的比對結果> 淡 江 臺 語音資料庫 CH18 多媒體辨識技術
語音的四個元素 語音波形表示聲音的四個元素: 聲音高度:音高是由聲波每分鐘震動次數多少(頻率)來決定 聲音強度:即是音量也就是聲音的強弱程度。音的強或弱是由聲波震幅(聲音震動的幅度)大小來決定 聲音長度:音長指的是聲音的長短,它是由聲波震動持續的時間長短來決定(波長)。 音色:音色就是指聲音的特色和本質。人類夠透過音色來分辨,讓我們很容易地區別出不同人或樂器所發出來的聲音。 CH18 多媒體辨識技術
語音辨識系統的基本架構 CH18 多媒體辨識技術
語音辨識系統的基本架構 聲音是類比訊號(連續性) 透過數位化取樣的過程將輸入的連續性語音訊號變成不連續訊號以供電腦處理。 CH18 多媒體辨識技術
語音辨識系統的基本架構 當語音輸入時,整段訊號的前後一定會有靜音的部分和語音主體的部分 端點偵測的目的就是用來決定這些靜音片段,以增加辨識率 CH18 多媒體辨識技術
語音辨識系統的基本架構 在語音處理上,一段短時間中的語音訊號被稱為一個音框(frame)。 音框是語音辨識的最基本單位。 CH18 多媒體辨識技術
語音辨識系統的基本架構 聲音經過空氣傳播到容易衰減。 語音辨識常會使用預強調的方式 (漢明窗)做訊號的補償 CH18 多媒體辨識技術
語音辨識系統的基本架構 每個被切出來的音框,都必須求出一組特徵參數以替代原訊號 常用特徵參數擷取方法: 線性預測係數:由人類的發聲原理為基礎的特徵擷取技術 倒頻譜特徵參數:由人類的聽覺系統為基礎的特徵擷取技術 CH18 多媒體辨識技術
語音辨識系統的基本架構 比較輸入語音訊號的特徵值與原先存在資料庫裡所有語音訊號的特徵值 隱藏式馬可夫模型是最常見的一種機率統計的方法來處理語音辨識。 由資料庫的訓練結果, 可提高辨識率, EX 「馬」這個字與「上」這個字常常會一起出現, 而「馬」與「下」這兩個字會相連的機率較低。 CH18 多媒體辨識技術
語音辨識的應用 (1) 語音辨識在智慧型手機上的應用 iPhone 4S聲控助理 Siri http://www.youtube.com/watch?v=PjFP1EQZeEI 行動版Google翻譯軟體 CH18 多媒體辨識技術
語音辨識的應用 (2) Windows 內建的語音辨識功能 Windows 7內建的語音辨識訓練畫面 CH18 多媒體辨識技術
18-2 文字與影像辨識 CH18 多媒體辨識技術
認識文字訊號 文字訊號的產生與接收: 人 光學辨識 (OCR)--- 電腦 印刷文字 手寫辨識--- 手寫文字 電腦 影像訊號處理器---文字辨識 滑鼠或觸控設備 輸入---印刷字或手寫文字 掃瞄機 影像訊號接收器
文字辨識原理 淡 “淡” 淡 江 臺 文字辨識基本原理 “淡” “江” “臺” <影像訊號比對> 系統輸入---影像訊號 系統輸出---語意 <影像訊號比對> <最符合的比對結果> 淡 江 臺 文字影像 “淡” “江” “臺” 文字意義 文字影像資料庫 CH18 多媒體辨識技術
文字在影像上的輸出方式 建 點陣字影像:用數個黑色小方格與數個白色小方格來堆疊出要顯示字的樣貌。字在放大時來看邊框輪廓會有鋸齒狀的情形發生。 描邊字影像:以描邊字來顯示的字,即是用一些數學運算式來表示每個字的輪廓曲線。常見的印表機內建的Postscript 字型式是屬於描邊字。這樣描繪出來的字型通常不會有鋸齒狀發生。 CH18 多媒體辨識技術
文字辨識系統的基本架構 CH18 多媒體辨識技術
文字辨識系統的基本架構 前置處理:統一不同時間點、不同光線或是不同使用者輸入文字的風格以降低文字圖形間的變異度 方法: 去除雜訊:低頻濾波去雜訊 二值化:文字部分表示1,背景為0 切字:擷取文字區域去除背景區域 影像細化與擴張:減少每一筆的筆畫寬度不同的變異,只留下圖形特徵的骨架 CH18 多媒體辨識技術
文字辨識系統的基本架構 特徵擷取:區別字與字之間的差異並提高最終的辨識結果 文字特徵 統計式:描述字元圖形的像素密度、筆劃方向或筆段關係 結構式:描述字元圖形的幾何或拓樸結構 CH18 多媒體辨識技術 文字結構特徵範例
文字辨識系統的基本架構 文字辨識: 比較輸入文字影像與在資料庫裡文字樣本群的特徵值相似度 方法: 最小的距離 相關比對 變形樣板比對 類神經網路 模糊理論 模擬人腦的思考模式— 機器學習 CH18 多媒體辨識技術
文字辨識的應用 (1) Microsoft Office的手寫辨識功能 開啟手寫辨識功能的電腦路徑設定 手寫辨識功能的範例 手寫文字的辨識較印刷文字辨識難,一般系統會加上筆畫順序以提高辨識率 CH18 多媒體辨識技術
文字辨識的應用 (2) 文字辨識在智慧型手機上的應用 行動版Google Goggles的使用範例 行動版Google Docs的使用範例 CH18 多媒體辨識技術
18-3 人臉與影像辨識 CH18 多媒體辨識技術
認識人臉影像訊號 人臉影像訊號的產生與接收: 人 電腦 輸入—人 電腦 影像訊號處理器---人臉辨識 影像訊號的接收器
人臉影像辨識原理 “Ken” 人臉影像辨識基本原理 <影像訊號比對> <最符合的比對結果> 系統輸入---影像訊號 系統輸出---人臉ID <影像訊號比對> <最符合的比對結果> 人臉影像 人臉ID Mary Janet Leo Harry 人臉影像資料庫 CH18 多媒體辨識技術
人臉辨識的關鍵---影像解析度 人臉影像的品質會影響到辨識的正確率,而影像品質是由影像的解析度來決定。 高解析:表示影像可提供的細節就越多 CH18 多媒體辨識技術 高解析 低解析
人臉辨識系統的基本架構 CH18 多媒體辨識技術
人臉辨識系統的基本架構 人臉偵測方法:由膚色、眼睛、鼻子、嘴巴等人臉的特徵去偵測人臉位置。 人臉特徵:有一定的顏色,要判定位置並不困難;舉例來說 人類膚色在色彩空間上的分布上會聚集在某個特定區域 對人類的嘴巴區域而言,色彩空間上紅色的成分較多而藍色的成分較少; 對眼睛區域來說,眼睛是由較暗的眼球和較亮的眼白所組成。 輸入影像 膚色偵測 人臉位置 CH18 多媒體辨識技術
人臉辨識系統的基本架構 幾何正規化:將輸入影像旋轉或縮放 光線正規化:移除光線干擾的因素 CH18 多媒體辨識技術
人臉辨識系統的基本架構 常見的人臉辨識技術: 樣板比對 考慮臉部特徵的幾何關係,(如鼻子的寬高,嘴巴的位置,下巴的形狀,眼睛和嘴巴之間的距離等) 類神經網路 主成分分析 (主流方法) CH18 多媒體辨識技術
人臉辨識系統的應用 (1) 社群網路上人臉辨識的應用 人臉辨識系統於臉書網站的使用範例
人臉辨識系統的應用 (2) 人臉辨識在智慧型手機上的應用 智慧型手機上的人臉辨識應用範例 (圖片取於Apple store)