CH18 多媒體辨識技術 認識多媒體的輸入方式 認識多媒體辨識原理 認識多媒體辨識系統的基本架構 認識辨識技術在多媒體系統上的應用

Slides:



Advertisements
Similar presentations
猜谜语 有个小娃娃,真是没 礼貌。 见到小树摇一摇,吓 得树叶哇哇叫。 见到小花逗一逗,摘 去她的太阳帽。 没人和它交朋友,只 好自已到外处跑。
Advertisements

玩转安卓智能手机 工程师 王东亮 图书馆 手机的发展 手机已经不仅仅是一个通讯设备,在智能系统的潮流之下, 手机已经成了一个多媒体的智能移动终端 有人喜欢用手机上 QQ ,玩微博,看网页;有人喜欢听歌, 拍照,玩游戏;有人利用手机进行日程的安排和办公 ······
职业指导服务系统 欢迎了解职业指导服务系统!
极目古今话短长 ——中国侠的历史文化文化诠释 汪聚应
强力打造湖北农业信息网 全面推进湖北农村信息化
黄金时代 黄金时代:老子,释迦牟尼,苏格拉底,孔子,庄子,耶稣…… 他们是人类智慧的顶峰,他们用人生展示了智慧与慈爱。
黄帝内经 内经教研室 王黎.
推销自己是一种才华,是一种艺术。 有了这种才华, 你就能安身立命, 使自己处于不败之地。 卡耐基.
星空饗宴 劉恬如老師.
臺中市政府警察局 婦幼警察隊 小隊長吳敏男、謝豐昌
定型化契約現況介紹 -遊留學契約評析 報告人:陳星宏 組長 2011年11月15日
研(修)定學校災害防救計畫 李佳昕.
职官与科举 职官:在国家机构中担任一定职务的官吏,这里面有职官的名称、职权范围和品级地位等方面的内容。
第四章 商代之舞蹈 本檔案圖片來源:google圖片.
花开有日 芬芳天下 “国培计划(2012)” ——幼儿园骨干教师远程培训项目 山东幼儿园教师8班第4期简报 主办人:张瑞美     
《卖火柴的小女孩》 《海的女儿》 你 认 识 这 些 图 片 的 故 事 吗 《丑小鸭》 《拇指姑娘》 它们都来自于哪位作家笔下?
嗇色園主辦可立小學 故宮 製作日期:2011年3月21日.
民主國家的政府體制 我國的中央政府體制 我國中央政府的功能 地方政府組織與功能
Word2010的使用 讲解人:常蕊.
狂犬病 保護你我,愛護動物 武漢國中 黃憶暄.
迪士尼動畫 玩具總動員1.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
養生主 莊子.
銷售與顧客關係管理 巫立宇.邱志聖 著.
課程實錄.
提高自身素质做好 新时期班主任工作 北京市广渠门中学 高金英.
20、豆花庄的小家伙们.
校內科學園遊會 製作說明會 教務處設備組
議題(二) 如何強化「創意教學」以提升學生創意思考能力,使得專題製作課程與實務更加契合,達成技職教育適性育才的目標。
普通话模拟测试 与学习平台 使用指南.
CH11 心理疾病 李志鴻.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
動物的繁殖行為.
5,2 新时代的劳动者.
华 夏 之 祖 第 3 课.
法學緒論第六單元:法律適用 設計課程︰ 財經法律系 --楊東連 法學緒論-6.
105年臺北市 優先免試入學 高中職免試入學 五專免試入學 報名方式宣導
網路小說劇情建構與伏線營造 Windows98.
行動報告人:丁俊源 行動參與人和單位: 我們全家人 社區鄰居、管委會 新北市環保局
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
新北市政府第二代公文自動化系統 建置推廣暨維運服務委外案 文書人員-二代公文共同課程
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
劳模的风采.
CH1 . 集 合 与 命 题.
关于整合检验检测认证机构实施意见的通知(国办发〔2014〕8号)
單車失竊記心得.
Ch19 創業精神 管理學:整合觀點與創新思維3/e.中山大學企管系 著.前程文化 出版.
以考试说明带动二轮复习 福州第三中学 张璐.
十四岁,我读《红楼梦》 揽月小队 出品.
跨校選課 說明會 主辦人:[國文系學會學權股] 葉軒如、李美玟.
跨越海峡的生命桥.
App 晶片一甲 4A 林渼茵.
HTC-宏達電 4A2A0029 林佑珊 4A2A0032 陳珮瑩 4A2A0035 鄭喬羽.
《招标管理系统使用说明书》 国采(湖北)技术有限公司 技术支持 联系方式:
靜宜大學專用 PowerPoint 檔案 數位教材
稅知多少.
目的:提升資訊安全的概念,透過課程觀念介紹及實務上的操作,建立病毒處理及保護電腦資料安全。
本課程指定教材為:朱熹,《周易本義》,大安出版社。本講義僅引用部分內容,請讀者自行準備。
水足跡調查報告發表 環境品質文教基金會 董事長 謝英士
稅知多少 國家的重要基礎.
Ch8 顧客關係維繫 與量化滿意度 陳水蓮 林書旭 楊婷媖 編著.
微信商城系统操作说明 色卡会智能门店.
台中市的火車交通 組員 蔡孟娟 陳佳鈺 王靖雯 邱芳婷 鍾孟軒.
105學年第1學期期初校務會議 圖書館工作報告 報告人: 林佩佳主任.
岗位聘任管理系统使用说明 浙江师范大学人事处 咨询电话: 、
全陽圓格局位置最好的A6-2樓 面中庭花園3房2廳2衛三面採光 捷運藍線江子翠捷運站1號出口Google距離210公尺
夏夜 國中國文第一冊第二課 janet製作.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
校內科學園遊會 製作說明會 教務處設備組
本課程指定教材為:朱熹,《周易本義》,大安出版社。本講義僅引用部分內容,請讀者自行準備。
Presentation transcript:

CH18 多媒體辨識技術 認識多媒體的輸入方式 認識多媒體辨識原理 認識多媒體辨識系統的基本架構 認識辨識技術在多媒體系統上的應用 認識訊號辨識的軟體工具

18-1 語音辨識 CH18 多媒體辨識技術

認識語音訊號 語音訊號的產生與接收: 人 電腦 輸入---語音訊號 語音訊號接收器 語音訊號處理器---語音辨識 CH18 多媒體辨識技術

語音辨識原理 淡 淡 江 臺 語音辨識的基本原理 <語音訊號比對> <最符合的比對結果> 系統輸入---語音訊號 系統輸出---語意 <語音訊號比對> <最符合的比對結果> 淡 江 臺 語音資料庫 CH18 多媒體辨識技術

語音的四個元素 語音波形表示聲音的四個元素: 聲音高度:音高是由聲波每分鐘震動次數多少(頻率)來決定 聲音強度:即是音量也就是聲音的強弱程度。音的強或弱是由聲波震幅(聲音震動的幅度)大小來決定 聲音長度:音長指的是聲音的長短,它是由聲波震動持續的時間長短來決定(波長)。 音色:音色就是指聲音的特色和本質。人類夠透過音色來分辨,讓我們很容易地區別出不同人或樂器所發出來的聲音。 CH18 多媒體辨識技術

語音辨識系統的基本架構 CH18 多媒體辨識技術

語音辨識系統的基本架構 聲音是類比訊號(連續性) 透過數位化取樣的過程將輸入的連續性語音訊號變成不連續訊號以供電腦處理。 CH18 多媒體辨識技術

語音辨識系統的基本架構 當語音輸入時,整段訊號的前後一定會有靜音的部分和語音主體的部分 端點偵測的目的就是用來決定這些靜音片段,以增加辨識率 CH18 多媒體辨識技術

語音辨識系統的基本架構 在語音處理上,一段短時間中的語音訊號被稱為一個音框(frame)。 音框是語音辨識的最基本單位。 CH18 多媒體辨識技術

語音辨識系統的基本架構 聲音經過空氣傳播到容易衰減。 語音辨識常會使用預強調的方式 (漢明窗)做訊號的補償 CH18 多媒體辨識技術

語音辨識系統的基本架構 每個被切出來的音框,都必須求出一組特徵參數以替代原訊號 常用特徵參數擷取方法: 線性預測係數:由人類的發聲原理為基礎的特徵擷取技術 倒頻譜特徵參數:由人類的聽覺系統為基礎的特徵擷取技術 CH18 多媒體辨識技術

語音辨識系統的基本架構 比較輸入語音訊號的特徵值與原先存在資料庫裡所有語音訊號的特徵值 隱藏式馬可夫模型是最常見的一種機率統計的方法來處理語音辨識。 由資料庫的訓練結果, 可提高辨識率, EX 「馬」這個字與「上」這個字常常會一起出現, 而「馬」與「下」這兩個字會相連的機率較低。 CH18 多媒體辨識技術

語音辨識的應用 (1) 語音辨識在智慧型手機上的應用 iPhone 4S聲控助理 Siri http://www.youtube.com/watch?v=PjFP1EQZeEI 行動版Google翻譯軟體 CH18 多媒體辨識技術

語音辨識的應用 (2) Windows 內建的語音辨識功能 Windows 7內建的語音辨識訓練畫面 CH18 多媒體辨識技術

18-2 文字與影像辨識 CH18 多媒體辨識技術

認識文字訊號 文字訊號的產生與接收: 人 光學辨識 (OCR)--- 電腦 印刷文字 手寫辨識--- 手寫文字 電腦 影像訊號處理器---文字辨識 滑鼠或觸控設備 輸入---印刷字或手寫文字 掃瞄機 影像訊號接收器

文字辨識原理 淡 “淡” 淡 江 臺 文字辨識基本原理 “淡” “江” “臺” <影像訊號比對> 系統輸入---影像訊號 系統輸出---語意 <影像訊號比對> <最符合的比對結果> 淡 江 臺 文字影像 “淡” “江” “臺” 文字意義 文字影像資料庫 CH18 多媒體辨識技術

文字在影像上的輸出方式 建 點陣字影像:用數個黑色小方格與數個白色小方格來堆疊出要顯示字的樣貌。字在放大時來看邊框輪廓會有鋸齒狀的情形發生。 描邊字影像:以描邊字來顯示的字,即是用一些數學運算式來表示每個字的輪廓曲線。常見的印表機內建的Postscript 字型式是屬於描邊字。這樣描繪出來的字型通常不會有鋸齒狀發生。 CH18 多媒體辨識技術

文字辨識系統的基本架構 CH18 多媒體辨識技術

文字辨識系統的基本架構 前置處理:統一不同時間點、不同光線或是不同使用者輸入文字的風格以降低文字圖形間的變異度 方法: 去除雜訊:低頻濾波去雜訊 二值化:文字部分表示1,背景為0 切字:擷取文字區域去除背景區域 影像細化與擴張:減少每一筆的筆畫寬度不同的變異,只留下圖形特徵的骨架 CH18 多媒體辨識技術

文字辨識系統的基本架構 特徵擷取:區別字與字之間的差異並提高最終的辨識結果 文字特徵 統計式:描述字元圖形的像素密度、筆劃方向或筆段關係 結構式:描述字元圖形的幾何或拓樸結構 CH18 多媒體辨識技術 文字結構特徵範例

文字辨識系統的基本架構 文字辨識: 比較輸入文字影像與在資料庫裡文字樣本群的特徵值相似度 方法: 最小的距離 相關比對 變形樣板比對 類神經網路 模糊理論 模擬人腦的思考模式— 機器學習 CH18 多媒體辨識技術

文字辨識的應用 (1) Microsoft Office的手寫辨識功能 開啟手寫辨識功能的電腦路徑設定 手寫辨識功能的範例 手寫文字的辨識較印刷文字辨識難,一般系統會加上筆畫順序以提高辨識率 CH18 多媒體辨識技術

文字辨識的應用 (2) 文字辨識在智慧型手機上的應用 行動版Google Goggles的使用範例 行動版Google Docs的使用範例 CH18 多媒體辨識技術

18-3 人臉與影像辨識 CH18 多媒體辨識技術

認識人臉影像訊號 人臉影像訊號的產生與接收: 人 電腦 輸入—人 電腦 影像訊號處理器---人臉辨識 影像訊號的接收器

人臉影像辨識原理 “Ken” 人臉影像辨識基本原理 <影像訊號比對> <最符合的比對結果> 系統輸入---影像訊號 系統輸出---人臉ID <影像訊號比對> <最符合的比對結果> 人臉影像 人臉ID Mary Janet Leo Harry 人臉影像資料庫 CH18 多媒體辨識技術

人臉辨識的關鍵---影像解析度 人臉影像的品質會影響到辨識的正確率,而影像品質是由影像的解析度來決定。 高解析:表示影像可提供的細節就越多 CH18 多媒體辨識技術 高解析 低解析

人臉辨識系統的基本架構 CH18 多媒體辨識技術

人臉辨識系統的基本架構 人臉偵測方法:由膚色、眼睛、鼻子、嘴巴等人臉的特徵去偵測人臉位置。 人臉特徵:有一定的顏色,要判定位置並不困難;舉例來說 人類膚色在色彩空間上的分布上會聚集在某個特定區域 對人類的嘴巴區域而言,色彩空間上紅色的成分較多而藍色的成分較少; 對眼睛區域來說,眼睛是由較暗的眼球和較亮的眼白所組成。 輸入影像 膚色偵測 人臉位置 CH18 多媒體辨識技術

人臉辨識系統的基本架構 幾何正規化:將輸入影像旋轉或縮放 光線正規化:移除光線干擾的因素 CH18 多媒體辨識技術

人臉辨識系統的基本架構 常見的人臉辨識技術: 樣板比對 考慮臉部特徵的幾何關係,(如鼻子的寬高,嘴巴的位置,下巴的形狀,眼睛和嘴巴之間的距離等) 類神經網路 主成分分析 (主流方法) CH18 多媒體辨識技術

人臉辨識系統的應用 (1) 社群網路上人臉辨識的應用 人臉辨識系統於臉書網站的使用範例

人臉辨識系統的應用 (2) 人臉辨識在智慧型手機上的應用 智慧型手機上的人臉辨識應用範例 (圖片取於Apple store)