報告人：丁英智資策會網路多媒體研究所 11/3/2006

Slides:

Advertisements

Similar presentations

音樂科技導論音訊錄製入門.

Advertisements

智慧型感測器產業概況.

Basic concepts of structural equation modeling

Building Energy Management System (BEMS)

數位生活科技實務應用探討瑞帝電通國際有限公司台北: 電話 : (02) 傳真 : (02)

手持裝置應用系統之設計與未來發展黃有評大同大學資訊工程系.

模式识别 – 概率密度函数的参数估计第三章概率密度函数的参数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言贝叶斯分类器的学习：类条件概率密度函数的估计。问题的表示：已有 c 个类别的训练样本集合 D 1 ， D 2 ， … ， D c ，求取每个类别的类条件概率密度。

GIS期中口頭報告指導老師：王明志組別：第二組組員：陳魁元U 周威宇U 溫俊凱U

第8章系統架構.

-Artificial Neural Network- Hopfield Neural Network(HNN) 朝陽科技大學資訊管理系李麗華教授.

教會多媒體的使用音響系統 Sound System 燈光/照明 Lighting 視頻系統 Video

桂小林西安交通大学电子与信息工程学院计算机科学与技术系

MovieBot: Booking Tickets Easily

Applications of Digital Signal Processing

袁星谢正辉，梁妙玲中国科学院大气物理研究所

Platypus — Indoor Localization and Identification through Sensing Electric Potential Changes in Human Bodies.

「我國IPv6建置發展計畫」 92年度期中成果報告應用推廣分項

超高分辨率像素移位技术 1.

軟體原型 (Software Prototyping)

佐登妮斯大樓監控系統簡介圓泰科技 1.

Acoustic规范和测试 Base Band 瞿雪丽 2002/1/30.

網路技術管理進階班---區域網路的技術發展

Source: IEEE Access, vol. 5, pp , October 2017

(Exec1) GIS 空间分析－使用ArcGIS (Exec1)

On Some Fuzzy Optimization Problems

Factors Impacting on the Interaction of Online Chinese Language Learning 影响网络汉语教学互动的几个因素 Henry Ruan May 15， 2010.

運籌管理 Chapter 12 資訊科技與運籌管理電子化祝天雄博士 99年12月日.

視訊串流\Streaming Video Part-1 Multimedia on Computer Digital

32位元處理器之定點數MFCC演算法的改進與探討 Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors 學生:陳奕宏指導教授：張智星.

CCTV 自動檢測設備.

1 Introduction Prof. Lin-Shan Lee.

附錄傳統電信網路的行動管理機制 (Mobility Management)

Step 1. Semi-supervised Given a region, where a primitive event happens Given the beginning and end time of each instance of the primitive event.

無線通訊系統模擬姓名:顏得洋學號:B

Proware Technology Corp.

第七章客服管理中心之系統規劃與建構 -以AvecCRM為例

基於聯合因子分析與麥克風陣列之強健性語音辨認

第三章基本觀念電腦繪圖與動畫 (Computer Graphics & Animation) Object Data Image

Programmable Logic Architecture Verilog HDL FPGA Design

「寬頻匯流網路管理」教材模組四：第一章網路管理架構

Location Identification and Vehicle Tracking using VANET(VETRAC)

Probabilistic Neural Network (PNN)

第六章 : 資料模型之繪製 1. 前言資料流程圖 ( DFD ) 及處理邏輯工具

学习报告 —语音转换（voice conversion)

关键技术数据库构建文本处理声学建模最优搜索波形处理.

A Study on the Next Generation Automatic Speech Recognition -- Phase 2

可能受益的商业活动客户保留目标营销欺诈检测购物篮分析客户细分客户忠诚度信用打分信用风险评估营销组合管理和评估盈利能力分析

指導教授：黃三益教授學生洪瑞麟 m 蔡育洲 m 陳怡綾 m

The First Course in Speech Lab

第三章基本觀念電腦繪圖與動畫 (Computer Graphics & Animation) Object Data Image

1 Introduction Prof. Lin-Shan Lee.

语音技术的应用及挑战 APPLICATIONS & CHALLENGES OF SPEECH TECHNOLOGIES

Advisor: Prof. An-Yeu Wu

TinyOS 石万兵 2019/4/6 mice.

VIDEO COMPRESSION & MPEG

Sensor Networks: Applications and Services

Speaker: Wang,Song-Ferng Advisor: Dr. Ho-Ting Wu 2015/7/6

障礙管理 ( Fault Management)

NSC D 蔣依吾中山大學資訊工程系紅外線點目標的檢知法則 Automatic detection of small targets in infrared image sequences containing evolving cloud clutter NSC D

多媒体技术中南大学信息科学与工程学院黄东军.

More About Auto-encoder

數位家庭中的人機介面研究.

Logistic回归 Logistic regression 研究生《医学统计学》.

第三章音樂檢索技術 1) 內涵式音樂資訊檢索(content-based music information retrieval)

鳥聲辨識之初步研究與分析 Initial Studies and Analysis of Birdsong Recognition

Gyrophone: Recognizing Speech From Gyroscope Signals

WiFi is a powerful sensing medium

語音特徵擷取之資料相關線性特徵轉換研究生：張志豪多酌墨在數學式的物理意義及精神。老師、各位口試委員、各位同學大家好。

Gaussian Process Ruohua Shi Meeting

適用於數位典藏多媒體內容之複合式多媒體檢索技術

Presentation transcript:

報告人：丁英智資策會網路多媒體研究所 11/3/2006 TANET 2006 簡報在無線感測網路上實現音訊(語音)融合與事件判斷技術發展之可行性構想研究報告人：丁英智資策會網路多媒體研究所 11/3/2006

感測網路構想目前監測系統處理模式 : one sensor 、one channel 、one monitor 未來監測系統處理模式 : distributed sensors 、distributed communications medium 、many monitors Communication medium Multiple audio sensors Multiple monitors 構想 :在新舊系統交替之際，如何善用multiple audio sensors之間所提供的更多資訊，以達到更精確的辨識與更聰明的智慧型監控應用服務!

目的本論文的核心目標為接收環境聲音的資訊以感知目標物位置、特定行為、異常現象、或危險事件的技術，提升感測網路之高附加價值化之應用情境的可行性分析。由於目前sensor network產業仍在起始階段，其可能帶動的killer application 尚不明確，本論文著重定義具體sensor network之應用情境，並深入探討此情境中可能的使用者的需求、可能的技術需求及相關市場之值與量的分析。本論文之另一目標在於建構一個可以感知一個家庭中特定聲音的全域性無線感測網路之可行性的分析，藉由感知到的所有各式聲音的資料據以分析並融合判斷是否有異常現象或異常事件的發生。本論文所欲發展的無線感測網路的功能不像一般監控服務之僅僅是多媒體內容的網路傳輸服務而已，而是一個可以透過多設備合作而具有統合感官能力和有限推理判斷能力的智慧型感測網路。

執行步驟 1. 情境探索 Killer Application 4. 技術與解決方案分析 2. 市場分析 3. 需求分析系統發展建置

情境探索安養中心安全防護辦公室安全防護規畫與建立應用情境的示範樣本停車場汽車防盜土石流狀況監測家庭安全防護噪音程度監測

情境探索  市場分析研擬應用情境示範樣本及系統初步做法拜訪學界之領域專家拜訪學界之領域專家拜訪業界或政府相關單位可行？ No Yes 進行市場分析

市場分析市場調查作用：提供全面訊息，其為决策的有力保障！市場調查可以客觀、全面地收集有關被調查對象的訊息，對收集的訊息進行分類整理，運用一些分析方法和分析軟體對訊息進行總结，形成有說服力、有理論與實現相結合的結論與建議，如此對決策有非常大的輔助作用。常見市場調查活動，包括：（1）市場潛力及消費特性研究；（2）產品研究；（3）銷售研究；（4）消費者行為研究；（5）廣告及促銷研究；（6）銷售環境研究；（7）銷售預測 …… 。本論文後緒計畫擬委托市場調查機構(如MIC)搜集相關資料，加以記錄、分析、衡量與評估後，而再依據該調查機構所提供的相關分析結論與建議進行決策的參考。

需求分析需求分析首在滿足使用者的需求，減少因需求認知差距所產生的衝突，使得所開發出的系統能達到預期的效果。資訊系統的需求項目可分為下列五類：功能需求(Functional Requirements)：必須由某些輸入資料製作出某些特定輸出資料之功能；績效需求(Performance Requirements)：系統在執行狀態中必須滿足之績效條件，如執行速率、容量、精確度等；外部介面需求(External Interface Requirements)：系統軟體必須與外部硬體、資料庫、或其他軟體系統銜接之介面限制；設計限制(Design Constraints)：根據系統與應用領域之特性，在設計階段必須滿足之特殊限制條件；品質屬性(Quality Attributes)：系統必須滿足可測量之品質，如可靠性、可維護性、正確性等等。本論文採用之做法為根據特定情境並配合上述之分類精神界定出滿足使用者之需求評估指標項目並進行二階段式需求評估：依據界定指標項目，並經由專家檢視各評估項目之適合性後，設計初步的問卷。系統開發人員及系統使用者進行問卷試測。

技術與解決方案分析本論文擬以階層式的技術分層方式來做技術與解決方案分析：

應用情境案例：在無線感測網路上實現音訊(語音)融合與事件判斷技術於家庭安全防護

應用情境案例：家庭安全防護 Smart Audio Sensors 佈建於家中! 開/關窗戶聲音！小孩在“廚房”裏“大哭”！開/關聲音！ Local Server Service Center 開/關窗戶聲音！小孩在“廚房”裏“大哭”！開/關聲音！ Audio Sensor Net 危險緊急的事件！

競爭利基與優勢

Audio vs. Video Audio Video 傳輸頻寬限制所需頻寬較小所需頻寬較大傳輸方式(以Zigbee為例) 可以直接傳原始的PCM資料需先在Sensor端轉成Feature後再傳整合的便利度 Hardware independent Hardware dependent 融合判斷時間較快(較可實現Real-time回應) 較慢使用者心理較有隱私權較無隱私權 Sensor 價格較便宜較昂貴 Sensor 能源消耗較省電較耗電

競爭優勢頻寬需求量低資料容量少智慧型判斷價格低廉用戶端並不必強制需配有寬頻設備如cable modem、ADSL等等  增加消費族群，帶動家庭保全市場商機資料容量少減少用戶端與中央監控端的儲存設備  防制information overflow之現象降低用戶端或中央監控端之處理器的運算需求  提供特定事件RealTime Response的能力智慧型判斷聲音感知器智慧化，降低false alarm機率  感知器 + 辨認能力 = 專人現場判定價格低廉相對於CCTV、DVR等設備價格較為低廉  建置成本較低廉，易吸引DIY家庭保全市場的族群

家庭安全防護概念服務範圍功能特色防止或降低偷竊所引起之財產的損失偵測可能引起火災的原因如鍋爐燃燒聲、電線走火爆炸聲等等以防止危害人身的安全偵測孩童是否進入家中潛藏傷害的危險角落以防止孩童於家中之意外災害的發生偵測孩童是否有哭鬧之狀態而緊急通知家長以減少家中意外災害之受創的程度偵測是否發生家庭暴力事件(丈夫打老婆)亦或是偵測是否發生褓母虐待孩童的事件以利事後責任的釐清功能特色智慧型判斷以減少誤報率異常事件之訊息即時非常通報

(偵測“開/關門聲”、“開/關窗聲”、“人的聲音”) 系統發展建置 (偵測“開/關門聲”、“開/關窗聲”、“人的聲音”)

系統架構    Device layer A sensor environment is composed of each kind of audio sensors. 2. Cognition layer Audio (speech) signal feature extraction procedure. Intelligent inference engine of specific abnormal events. 3. Message notification layer MMS、SMS、IMPS、SIP

Sensing equipment Two microphone array sets in the ceiling of the living room and the dinning room： Two microphone array sets on the wall near the door and the window： One pre-amplified microphone’s size The microphones are small enough to be mounted in the wall or picture frames. Drive a pan-tilt-zoom camera in the ceiling to focus on locations where sound events are detected.

Sensing environment   y kitchen Living room Dinning room X Door Window y X   Sensing node (microphone array set, a set of four microphones in a square pattern) Unique PTZ camera

Sound event map application Monday AM 9:30 Monday FM 4:30 From “Monday AM 9:30 to Monday FM 4:30”: Voice events happens: people talking = 66; windows opening = 3; doors opening = 5;

Cognition layer Class GMM Scores for <door> class Feature training database Class GMM <normal> class <window> class <people> class Scores for <door> class Feature Extraction Scores for <window> class Audio Frame (20 ms ) Scores for <normal> class A posteriori prob. score for <door> class Input audio stream  Scores for <people> class  Active Voice？ A posteriori prob. score for <window> class VAD Decision for one Window (0.5 sec) A posteriori prob. score for <normal> class Scores for <people> class A posteriori prob. score for <normal> class Scores for <door> class Audio Frame (20 ms ) Feature Extraction Scores for <window> class Scores for <normal> class

Training and Detection Components Audio segmentation Feature extraction Kinds(LPC, MFCC,…) Numbers(Feature vector orders) Building up audio event models Single level Hierarchical(Top-down) Audio events modeling Classifiers： Gaussian Mixture Models (GMM) Audio events detection Likelihood computation Audio event (Normal：背景聲音Abnormal：尖叫聲音) Audio segmentation and feature extraction Event models GMM classifiers Offline training of event models Training audio data Testing audio stream Online testing(event detection)

Detection of “normal” and “abnormal” Audio events detection Normal event v.s. Abnormal event Likelihood computation Feature Extraction Scores for <normal> class Audio Frame (20 ms ) A posteriori prob. score for <normal> class Input audio stream  A posteriori prob. score for <scream> class Audio Frame (20 ms ) Feature Extraction Scores for <scream> class Decision for one

Flow charts of audio event detection Start Accumulating each posteriori probability score of two GMM models Observation data input Likelihood comparison of two accumulating scores Feature extraction End Return maximum likelihood one Likelihood scores computation of two GMM models Continue next one? Yes No

Voice Activity Detection Voice/Non-voice Detection 擷取“有意義的聲音”之開始點與結束點。 “有意義的聲音”：環境的異樣聲音或語者發出的聲音。選擇一個合適的“Silence Detection”方法。選擇一個合適的“Background Noise(Environment Sound)Removal”方法。擷取 N1 N2 S S’ Composed model Sound model Noise model silence noise voice + noise voice

Voice Segmentation Speaker change detection Distance 視窗1 視窗2 D(t) D(t+1) D(t+2)    Contiguous window numbers D(1,2) D(3,4) D(5,6) D(i-3, i-2) D(i-2, i-1) D(i-1,i) Distance Change！

特徵參數的選擇語音訊號的特徵參數擷取聲音資料庫 Linear Prediction Coefficients (LPC) 參數 Cepstrum Coefficients 參數 Mel-frequency Cepstrum Coefficients (MFCC) 參數選擇“合適的”特徵參數做為模型訓練或聲音辨認的輸入聲音資料庫聲碩科技公司(AST) 提供 ASTTel系列錄製其它各式聲音或找尋該類資料庫音框 1 音框 2 音框 n 特徵參數 1 特徵參數 2 特徵參數 n   

聲音模型訓練訓練各式特定聲音的GMM聲學模型擬考慮其它可行的聲音模型訓練方式 GMM(Gaussian Mixture Model) 具有Text-Independent的特性具有多類別的樣本(sample)之近似能力模型訓練時間快速每一類聲音即擁有一個GMM模型利用EM(Expect Maximization)及 K-means分群法輔以訓練擬考慮其它可行的聲音模型訓練方式 GMM(K) 特定聲音類別(k) 收斂！

融合判斷單一感測器聲音事件判斷多個感測器融合判斷概念融合多個audio sensor的輸出並融合判斷  增加判斷可靠度 “Early fusion” vs. “Late fusion”  選擇合適的融合方式 input output input 1 input 2 input 3 input n 模型比對 total input  Early fusion output 1 output 2 output 3 output n output Late fusion

陣列訊號處理利用陣列訊號作人聲的聲源定位與放大聲音的訊號選擇一個合適的“Beamforming”方法。 Beamforming Microphone Array 室內建置麥克風陣列     d Delay： -(M-1) - X1(t) X2(t) XM(t) Signal Summing！ Time Delay of Arrival, TDOA 聲音訊號放大M倍判定聲音發聲來源危險區音源方向判定

產業效益 (預期效益)

先期工作效益本論文所提之以在無線感測網路上實現音訊(語音)融合與事件判斷技術著重於應用情境之應用需求分析、可能的關鍵問題、與技術解決方案分析，分析的結果希望能夠協助國內相關產業的發展，並帶動無線感測領域應用市場之Killer Application的產生，並據以創造商機。「U-Taiwan」計畫將先在醫療、交通運輸、居家照顧等領域，利用無線感測網路監測、追蹤以及蒐集資料，成熟後進而推廣到其他領域，此論文之可行性分析部份的分析結果可協助政府在此方面的推廣。本論文在應用情境的可行性分析部份的分析結果可以提供廠商或創投業者在產品研發上的一個重要參考依據，因而在研發產品的投入上不致造成在時間上或金錢上的浪費。

後期工作效益擬就數種特定的聲音事件：開/關門聲音、開/關窗戶聲音、人的聲音等等聲音事件的偵測進行系統雛形的建置，而預期達到的辨認效果為(以False Rate (FR)做為評估的指標)：註：由於人的聲音，其待測目標物為不固定位置，故由感測裝置較難收到完整的聲音訊號的訊號，因此本論文預估在做事件的判別上將較其餘兩個事件較為困難，故其預期達到的辨認效果的預估較其餘二者較低。傳統之僅靠獨立Sensor訊號動作時，在當有複雜事件干擾(如颱風、地震)時不易判斷是環境干擾誤報、門窗破損或非法入侵，本論文方式可大量減少因複雜事件造成的錯誤警報率(false alarm)。本論文之針對偵測人聲的部份，可以做為後緒再做更深入之含語意式之事件判斷(家庭暴力事件、小孩受虐事件)推論的基礎。

附件一：保全/安全業者的需求與技術挑戰

保全/安全業者需求現有保全感測系統的問題智慧無線感測網路解決方案優點佈線費用與不方便傳輸線電源線不容易增加新功能沒有感測可移動目標的功能誤報率高智慧無線感測網路解決方案優點以無線方式傳輸減少佈線成本容易擴展提供多元感測器資訊收集與傳輸容易提升智慧分析功能

業者需求與技術挑戰重要事件發生時資料傳輸低延遲率與高可靠度傳輸技術低資料損失率需求一電池使用一年情況下重要事件發生時能及時回報兼顧省電之智慧即時回報技術需求二智慧型分析判斷減少誤報率需求三誤報率高

需求三:智慧型分析以減低誤報率業者需求問題描述技術挑戰解決方案減少複雜事件造成的錯誤警報率(false alarm)，如颱風天造成大量false alarm發生問題描述複雜事件干擾(如颱風、地震)時，如僅靠獨立Sensor訊號動作，不易判斷是環境干擾誤報、門窗破損或非法入侵技術挑戰多種Sensors的選擇: 針對複雜事件，選用適當的Sensors Learning Model建立:一個有效的演算法，能將保全業者的複雜事件有效分類 Adaptive Modeling機制:依客戶環境的情形，調整自己model係數。(預防有心人士人為干擾的行為) 解決方案開發智慧型分析運算平台，可以快速整合不同Sensor運作模型經實驗後建立多樣式不同Sensor運作模型，可視客戶狀況選用合適模型

附件二：國土安全應用市場分析

國土安全應用市場分析市場規模運用與買單意願傳統解決方案無線感測的價值土石流不適用政府以CCTV與地聲感測為主無法發揮高密度信號收集的優點坡地社區衛星影像遙測可以發揮高密度信號收集的優點水位監測以水位顯示器為主橋樑監測佈線，以橋樑偵測器、橋樑警報器、橋樑警示燈為主

敬請指導!