報告人:丁英智 資策會 網路多媒體研究所 11/3/2006

Slides:



Advertisements
Similar presentations
音樂科技導論 音訊錄製入門.
Advertisements

智慧型感測器產業概況.
Basic concepts of structural equation modeling
Building Energy Management System (BEMS)
數位生活科技實務應用探討 瑞帝電通國際有限公司 台北: 電話 : (02) 傳真 : (02)
手持裝置應用系統之設計 與未來發展 黃有評 大同大學 資訊工程系.
模式识别 – 概率密度函数的参数估计 第三章 概率密度函数的参 数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言 贝叶斯分类器的学习:类条件概率密度函数的 估计。 问题的表示:已有 c 个类别的训练样本集合 D 1 , D 2 , … , D c ,求取每个类别的类条件概率密 度 。
GIS期中口頭報告 指導老師:王明志 組別:第二組 組員:陳魁元U 周威宇U 溫俊凱U
第8章 系統架構.
-Artificial Neural Network- Hopfield Neural Network(HNN) 朝陽科技大學 資訊管理系 李麗華 教授.
教會多媒體的使用 音響系統 Sound System 燈光/照明 Lighting 視頻系統 Video
桂小林 西安交通大学电子与信息工程学院 计算机科学与技术系
MovieBot: Booking Tickets Easily
Applications of Digital Signal Processing
袁 星 谢正辉,梁妙玲 中国科学院大气物理研究所
Platypus — Indoor Localization and Identification through Sensing Electric Potential Changes in Human Bodies.
「我國IPv6建置發展計畫」 92年度期中成果報告 應用推廣分項
超高分辨率像素移位技术 1.
軟體原型 (Software Prototyping)
佐登妮斯大樓監控系統簡介 圓 泰 科 技 1.
Acoustic规范和测试 Base Band 瞿雪丽 2002/1/30.
網路技術管理進階班---區域網路的技術發展
Source: IEEE Access, vol. 5, pp , October 2017
(Exec1) GIS 空间分析-使用ArcGIS (Exec1)
On Some Fuzzy Optimization Problems
Factors Impacting on the Interaction of Online Chinese Language Learning 影响网络汉语教学互动的几个因素 Henry Ruan May 15, 2010.
運籌管理 Chapter 12 資訊科技與運籌管理電子化 祝天雄 博士 99年12月 日.
視訊串流\Streaming Video Part-1 Multimedia on Computer Digital
32位元處理器之定點數MFCC演算法的改進與探討 Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors 學生:陳奕宏 指導教授:張智星.
CCTV 自動檢測設備.
1 Introduction Prof. Lin-Shan Lee.
附錄 傳統電信網路的行動管理機制 (Mobility Management)
Step 1. Semi-supervised Given a region, where a primitive event happens Given the beginning and end time of each instance of the primitive event.
無線通訊系統模擬 姓名:顏得洋 學號:B
Proware Technology Corp.
第七章 客服管理中心之系統規劃與建構 -以AvecCRM為例
基於聯合因子分析與麥克風陣列之強健性語音辨認
第三章 基本觀念 電腦繪圖與動畫 (Computer Graphics & Animation) Object Data Image
Programmable Logic Architecture Verilog HDL FPGA Design
「寬頻匯流網路管理」教材 模組四: 第一章 網路管理架構
Location Identification and Vehicle Tracking using VANET(VETRAC)
Probabilistic Neural Network (PNN)
第六章 : 資料模型之繪製 1. 前言 資料流程圖 ( DFD ) 及 處理邏輯工具
学习报告 —语音转换(voice conversion)
关键技术 数据库构建 文本处理 声学建模 最优搜索 波形处理.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
可能受益的商业活动 客户保留 目标营销 欺诈检测 购物篮分析 客户细分 客户忠诚度 信用打分 信用风险评估 营销组合管理和评估 盈利能力分析
指導教授:黃三益 教授 學生 洪瑞麟 m 蔡育洲 m 陳怡綾 m
The First Course in Speech Lab
第三章 基本觀念 電腦繪圖與動畫 (Computer Graphics & Animation) Object Data Image
1 Introduction Prof. Lin-Shan Lee.
语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES
Advisor: Prof. An-Yeu Wu
TinyOS 石万兵 2019/4/6 mice.
VIDEO COMPRESSION & MPEG
Sensor Networks: Applications and Services
Speaker: Wang,Song-Ferng Advisor: Dr. Ho-Ting Wu 2015/7/6
障礙管理 ( Fault Management)
NSC D 蔣依吾 中山大學資訊工程系 紅外線點目標的檢知法則 Automatic detection of small targets in infrared image sequences containing evolving cloud clutter NSC D
多媒体技术 中南大学信息科学与工程学院 黄东军.
More About Auto-encoder
數位家庭中的人機介面研究.
Logistic回归 Logistic regression 研究生《医学统计学》.
第三章 音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)
鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition
Gyrophone: Recognizing Speech From Gyroscope Signals
WiFi is a powerful sensing medium
語音特徵擷取之 資料相關線性特徵轉換 研究生:張志豪 多酌墨在數學式的物理意義及精神。 老師、各位口試委員、各位同學大家好。
Gaussian Process Ruohua Shi Meeting
適用於數位典藏多媒體內容之 複合式多媒體檢索技術
Presentation transcript:

報告人:丁英智 資策會 網路多媒體研究所 11/3/2006 TANET 2006 簡報 在無線感測網路上實現音訊(語音)融合與 事件判斷技術發展之可行性構想研究 報告人:丁英智 資策會 網路多媒體研究所 11/3/2006

感測網路構想 目前監測系統處理模式 : one sensor 、one channel 、one monitor 未來監測系統處理模式 : distributed sensors 、distributed communications medium 、many monitors Communication medium Multiple audio sensors Multiple monitors 構想 :在新舊系統交替之際,如何善用multiple audio sensors之間所提供的更多資訊,以達到更精確的辨識與更聰明的智慧型監控應用服務!

目的 本論文的核心目標為接收環境聲音的資訊以感知目標物位置、特定行為、異常現象、或危險事件的技術,提升感測網路之高附加價值化之應用情境的可行性分析。 由於目前sensor network產業仍在起始階段,其可能帶動的killer application 尚不明確,本論文著重定義具體sensor network之應用情境,並深入探討此情境中可能的使用者的需求、可能的技術需求及相關市場之值與量的分析。 本論文之另一目標在於建構一個可以感知一個家庭中特定聲音的全域性無線感測網路之可行性的分析,藉由感知到的所有各式聲音的資料據以分析並融合判斷是否有異常現象或異常事件的發生。 本論文所欲發展的無線感測網路的功能不像一般監控服務之僅僅是多媒體內容的網路傳輸服務而已,而是一個可以透過多設備合作而具有統合感官能力和有限推理判斷能力的智慧型感測網路。

執行步驟 1. 情境探索 Killer Application 4. 技術與解決 方案分析 2. 市場分析 3. 需求分析 系統發展建置

情境探索 安養中心 安全防護 辦公室安全防護 規畫與建立應用情境 的示範樣本 停車場汽車防盜 土石流狀況監測 家庭安全防護 噪音程度監測

情境探索  市場分析 研擬應用情境示範樣本 及系統初步做法 拜訪學界之領域專家 拜訪學界之領域專家 拜訪業界或政府相關單位 可行? No Yes 進行市場分析

市場分析 市場調查作用:提供全面訊息,其為决策的有力保障! 市場調查可以客觀、全面地收集有關被調查對象的訊息,對收集的訊息進行分類整理,運用一些分析方法和分析軟體對訊息進行總结,形成有說服力、有理論與實現相結合的結論與建議,如此對決策有非常大的輔助作用。 常見市場調查活動,包括:(1)市場潛力及消費特性研究;(2)產品研究;(3)銷售研究;(4)消費者行為研究;(5)廣告及促銷研究;(6)銷售環境研究;(7)銷售預測 …… 。 本論文後緒計畫擬委托市場調查機構(如MIC)搜集相關資料,加以記錄、分析、衡量與評估後,而再依據該調查機構所提供的相關分析結論與建議進行決策的參考。

需求分析 需求分析首在滿足使用者的需求,減少因需求認知差距所產生的衝突,使得所開發出的系統能達到預期的效果。 資訊系統的需求項目可分為下列五類 : 功能需求(Functional Requirements):必須由某些輸入資料製作出某些特定輸出資料之功能; 績效需求(Performance Requirements):系統在執行狀態中必須滿足之績效條件,如執行速率、容量、精確度等; 外部介面需求(External Interface Requirements):系統軟體必須與外部硬體、資料庫、或其他軟體系統銜接之介面限制; 設計限制(Design Constraints):根據系統與應用領域之特性,在設計階段必須滿足之特殊限制條件; 品質屬性(Quality Attributes):系統必須滿足可測量之品質,如可靠性、可維護性、正確性等等。 本論文採用之做法為根據特定情境並配合上述之分類精神界定出滿足使用者之需求評估指標項目並進行二階段式需求評估: 依據界定指標項目,並經由專家檢視各評估項目之適合性後,設計初步的問卷。 系統開發人員及系統使用者進行問卷試測 。

技術與解決方案分析 本論文擬以階層式的技術分層方式來做技術與解決方案分析:

應用情境案例: 在無線感測網路上實現音訊(語音)融合 與事件判斷技術於家庭安全防護

應用情境案例:家庭安全防護 Smart Audio Sensors 佈建於家中! 開/關窗戶聲音! 小孩在“廚房”裏“大哭”! 開/關聲音! Local Server Service Center 開/關窗戶聲音! 小孩在“廚房”裏“大哭”! 開/關聲音! Audio Sensor Net 危險緊急的事件!

競爭利基與優勢

Audio vs. Video Audio Video 傳輸頻寬限制 所需頻寬較小 所需頻寬較大 傳輸方式(以Zigbee為例) 可以直接傳原始的PCM資料 需先在Sensor端轉成Feature後再傳 整合的便利度 Hardware independent Hardware dependent 融合判斷時間 較快(較可實現Real-time回應) 較慢 使用者心理 較有隱私權 較無隱私權 Sensor 價格 較便宜 較昂貴 Sensor 能源消耗 較省電 較耗電

競爭優勢 頻寬需求量低 資料容量少 智慧型判斷 價格低廉 用戶端並不必強制需配有寬頻設備如cable modem、ADSL等等  增加消費族群,帶動家庭保全市場商機 資料容量少 減少用戶端與中央監控端的儲存設備  防制information overflow之現象 降低用戶端或中央監控端之處理器的運算需求  提供特定事件RealTime Response的能力 智慧型判斷 聲音感知器智慧化,降低false alarm機率  感知器 + 辨認能力 = 專人現場判定 價格低廉 相對於CCTV、DVR等設備價格較為低廉  建置成本較低廉,易吸引DIY家庭保全市場的族群

家庭安全防護概念 服務範圍 功能特色 防止或降低偷竊所引起之財產的損失 偵測可能引起火災的原因如鍋爐燃燒聲、電線走火爆炸聲等等以防止 危害人身的安全 偵測孩童是否進入家中潛藏傷害的危險角落以防止孩童於家中之意外 災害的發生 偵測孩童是否有哭鬧之狀態而緊急通知家長以減少家中意外災害之受 創的程度 偵測是否發生家庭暴力事件(丈夫打老婆)亦或是偵測是否發生褓母虐 待孩童的事件以利事後責任的釐清 功能特色 智慧型判斷以減少誤報率 異常事件之訊息即時非常通報

(偵測“開/關門聲”、“開/關窗聲”、“人的聲音”) 系統發展建置 (偵測“開/關門聲”、“開/關窗聲”、“人的聲音”)

系統架構    Device layer A sensor environment is composed of each kind of audio sensors. 2. Cognition layer Audio (speech) signal feature extraction procedure. Intelligent inference engine of specific abnormal events. 3. Message notification layer MMS、SMS、IMPS、SIP

Sensing equipment Two microphone array sets in the ceiling of the living room and the dinning room: Two microphone array sets on the wall near the door and the window: One pre-amplified microphone’s size The microphones are small enough to be mounted in the wall or picture frames. Drive a pan-tilt-zoom camera in the ceiling to focus on locations where sound events are detected.

Sensing environment   y kitchen Living room Dinning room X Door Window y X   Sensing node (microphone array set, a set of four microphones in a square pattern) Unique PTZ camera

Sound event map application Monday AM 9:30 Monday FM 4:30 From “Monday AM 9:30 to Monday FM 4:30”: Voice events happens: people talking = 66; windows opening = 3; doors opening = 5;

Cognition layer Class GMM Scores for <door> class Feature training database Class GMM <normal> class <window> class <people> class Scores for <door> class Feature Extraction Scores for <window> class Audio Frame (20 ms ) Scores for <normal> class A posteriori prob. score for <door> class Input audio stream  Scores for <people> class  Active Voice? A posteriori prob. score for <window> class VAD Decision for one Window (0.5 sec) A posteriori prob. score for <normal> class Scores for <people> class A posteriori prob. score for <normal> class Scores for <door> class Audio Frame (20 ms ) Feature Extraction Scores for <window> class Scores for <normal> class

Training and Detection Components Audio segmentation Feature extraction Kinds(LPC, MFCC,…) Numbers(Feature vector orders) Building up audio event models Single level Hierarchical(Top-down) Audio events modeling Classifiers: Gaussian Mixture Models (GMM) Audio events detection Likelihood computation Audio event (Normal:背景聲音Abnormal:尖叫聲音) Audio segmentation and feature extraction Event models GMM classifiers Offline training of event models Training audio data Testing audio stream Online testing(event detection)

Detection of “normal” and “abnormal” Audio events detection Normal event v.s. Abnormal event Likelihood computation Feature Extraction Scores for <normal> class Audio Frame (20 ms ) A posteriori prob. score for <normal> class Input audio stream  A posteriori prob. score for <scream> class Audio Frame (20 ms ) Feature Extraction Scores for <scream> class Decision for one

Flow charts of audio event detection Start Accumulating each posteriori probability score of two GMM models Observation data input Likelihood comparison of two accumulating scores Feature extraction End Return maximum likelihood one Likelihood scores computation of two GMM models Continue next one? Yes No

Voice Activity Detection Voice/Non-voice Detection 擷取“有意義的聲音”之開始點與結束點。 “有意義的聲音”:環境的異樣聲音或語者發出的聲音。 選擇一個合適的“Silence Detection”方法。 選擇一個合適的“Background Noise(Environment Sound)Removal”方法。 擷取 N1 N2 S S’ Composed model Sound model Noise model silence noise voice + noise voice

Voice Segmentation Speaker change detection Distance 視窗1 視窗2 D(t) D(t+1) D(t+2)    Contiguous window numbers D(1,2) D(3,4) D(5,6) D(i-3, i-2) D(i-2, i-1) D(i-1,i) Distance Change!

特徵參數的選擇 語音訊號的特徵參數擷取 聲音資料庫 Linear Prediction Coefficients (LPC) 參數 Cepstrum Coefficients 參數 Mel-frequency Cepstrum Coefficients (MFCC) 參數 選擇“合適的”特徵參數做為模型訓練或聲音辨認的輸入 聲音資料庫 聲碩科技公司(AST) 提供 ASTTel系列 錄製其它各式聲音或找尋該類資料庫 音框 1 音框 2 音框 n 特徵參數 1 特徵參數 2 特徵參數 n   

聲音模型訓練 訓練各式特定聲音的GMM聲學模型 擬考慮其它可行的聲音模型訓練方式 GMM(Gaussian Mixture Model) 具有Text-Independent的特性 具有多類別的樣本(sample)之 近似能力 模型訓練時間快速 每一類聲音即擁有一個GMM模型 利用EM(Expect Maximization)及 K-means分群法輔以訓練 擬考慮其它可行的聲音模型訓練方式 GMM(K) 特定聲音類別(k) 收斂!

融合判斷 單一感測器聲音事件判斷 多個感測器融合判斷概念 融合多個audio sensor的輸出並融合判斷  增加判斷可靠度 “Early fusion” vs. “Late fusion”  選擇合適的融合方式 input output input 1 input 2 input 3 input n 模型比對 total input  Early fusion output 1 output 2 output 3 output n output Late fusion

陣列訊號處理 利用陣列訊號作人聲的聲源定位與放大聲音的訊號 選擇一個合適的“Beamforming”方法。 Beamforming Microphone Array 室內建置麥克風陣列     d Delay: -(M-1) - X1(t) X2(t) XM(t) Signal Summing! Time Delay of Arrival, TDOA 聲音訊號放大M倍 判定聲音發聲來源 危險區 音源 方向 判定

產業效益 (預期效益)

先期工作效益 本論文所提之以在無線感測網路上實現音訊(語音)融合與事件判斷技術著重於應用情境之應用需求分析、可能的關鍵問題、與技術解決方案分析,分析的結果希望能夠協助國內相關產業的發展,並帶動無線感測領域應用市場之Killer Application的產生,並據以創造商機。 「U-Taiwan」計畫將先在醫療、交通運輸、居家照顧等領域,利用無線感測網路監測、追蹤以及蒐集資料,成熟後進而推廣到其他領域,此論文之可行性分析部份的分析結果可協助政府在此方面的推廣。 本論文在應用情境的可行性分析部份的分析結果可以提供廠商或創投業者在產品研發上的一個重要參考依據,因而在研發產品的投入上不致造成在時間上或金錢上的浪費。

後期工作效益 擬就數種特定的聲音事件:開/關門聲音、開/關窗戶聲音、人的聲音等等聲音事件的偵測進行系統雛形的建置,而預期達到的辨認效果為(以False Rate (FR)做為評估的指標): 註:由於人的聲音,其待測目標物為不固定位置,故由感測裝置較難收到完整的聲音訊號的訊號,因此本論文預估在做事件的判別上將較其餘兩個事件較為困難,故其預期達到的辨認效果的預估較其餘二者較低。 傳統之僅靠獨立Sensor訊號動作時,在當有複雜事件干擾(如颱風、地震)時不易判斷是環境干擾誤報、門窗破損或非法入侵,本論文方式可大量減少因複雜事件造成的錯誤警報率(false alarm)。 本論文之針對偵測人聲的部份,可以做為後緒再做更深入之含語意式之事件判斷(家庭暴力事件、小孩受虐事件)推論的基礎。

附件一: 保全/安全業者的需求與技術挑戰

保全/安全業者需求 現有保全感測系統的問題 智慧無線感測網路解決方案優點 佈線費用與不方便 傳輸線 電源線 不容易增加新功能 沒有感測可移動目標的功能 誤報率高 智慧無線感測網路解決方案優點 以無線方式傳輸減少佈線成本 容易擴展提供多元感測器資訊收集與傳輸 容易提升智慧分析功能

業者需求與技術挑戰 重要事件發生時 資料傳輸低延遲率與 高可靠度傳輸技術 低資料損失率 需求一 電池使用一年情況下 重要事件發生時 能及時回報 兼顧省電之 智慧即時回報技術 需求二 智慧型分析判斷 減少誤報率 需求三 誤報率高

需求三:智慧型分析以減低誤報率 業者需求 問題描述 技術挑戰 解決方案 減少複雜事件造成的錯誤警報率(false alarm),如颱風天造成大量false alarm發生 問題描述 複雜事件干擾(如颱風、地震)時,如僅靠獨立Sensor訊號動作,不易判斷是環境干擾誤報、門窗破損或非法入侵 技術挑戰 多種Sensors的選擇: 針對複雜事件,選用適當的Sensors Learning Model建立:一個有效的演算法,能將保全業者的複雜事件有效分類 Adaptive Modeling機制:依客戶環境的情形,調整自己model係數。(預防有心人士人為干擾的行為) 解決方案 開發智慧型分析運算平台,可以快速整合不同Sensor運作模型 經實驗後建立多樣式不同Sensor運作模型,可視客戶狀況選用合適模型

附件二: 國土安全應用市場分析

國土安全應用市場分析 市場規模 運用與買單意願 傳統解決方案 無線感測的價值 土石流 不適用 政府 以CCTV與地聲感測為主 無法發揮高密度信號收集的優點 坡地社區 衛星影像遙測 可以發揮高密度信號收集的優點 水位監測 以水位顯示器為主 橋樑監測 佈線,以橋樑偵測器、橋樑警報器、橋樑警示燈為主

敬請指導!