報告人:丁英智 資策會 網路多媒體研究所 11/3/2006 TANET 2006 簡報 在無線感測網路上實現音訊(語音)融合與 事件判斷技術發展之可行性構想研究 報告人:丁英智 資策會 網路多媒體研究所 11/3/2006
感測網路構想 目前監測系統處理模式 : one sensor 、one channel 、one monitor 未來監測系統處理模式 : distributed sensors 、distributed communications medium 、many monitors Communication medium Multiple audio sensors Multiple monitors 構想 :在新舊系統交替之際,如何善用multiple audio sensors之間所提供的更多資訊,以達到更精確的辨識與更聰明的智慧型監控應用服務!
目的 本論文的核心目標為接收環境聲音的資訊以感知目標物位置、特定行為、異常現象、或危險事件的技術,提升感測網路之高附加價值化之應用情境的可行性分析。 由於目前sensor network產業仍在起始階段,其可能帶動的killer application 尚不明確,本論文著重定義具體sensor network之應用情境,並深入探討此情境中可能的使用者的需求、可能的技術需求及相關市場之值與量的分析。 本論文之另一目標在於建構一個可以感知一個家庭中特定聲音的全域性無線感測網路之可行性的分析,藉由感知到的所有各式聲音的資料據以分析並融合判斷是否有異常現象或異常事件的發生。 本論文所欲發展的無線感測網路的功能不像一般監控服務之僅僅是多媒體內容的網路傳輸服務而已,而是一個可以透過多設備合作而具有統合感官能力和有限推理判斷能力的智慧型感測網路。
執行步驟 1. 情境探索 Killer Application 4. 技術與解決 方案分析 2. 市場分析 3. 需求分析 系統發展建置
情境探索 安養中心 安全防護 辦公室安全防護 規畫與建立應用情境 的示範樣本 停車場汽車防盜 土石流狀況監測 家庭安全防護 噪音程度監測
情境探索 市場分析 研擬應用情境示範樣本 及系統初步做法 拜訪學界之領域專家 拜訪學界之領域專家 拜訪業界或政府相關單位 可行? No Yes 進行市場分析
市場分析 市場調查作用:提供全面訊息,其為决策的有力保障! 市場調查可以客觀、全面地收集有關被調查對象的訊息,對收集的訊息進行分類整理,運用一些分析方法和分析軟體對訊息進行總结,形成有說服力、有理論與實現相結合的結論與建議,如此對決策有非常大的輔助作用。 常見市場調查活動,包括:(1)市場潛力及消費特性研究;(2)產品研究;(3)銷售研究;(4)消費者行為研究;(5)廣告及促銷研究;(6)銷售環境研究;(7)銷售預測 …… 。 本論文後緒計畫擬委托市場調查機構(如MIC)搜集相關資料,加以記錄、分析、衡量與評估後,而再依據該調查機構所提供的相關分析結論與建議進行決策的參考。
需求分析 需求分析首在滿足使用者的需求,減少因需求認知差距所產生的衝突,使得所開發出的系統能達到預期的效果。 資訊系統的需求項目可分為下列五類 : 功能需求(Functional Requirements):必須由某些輸入資料製作出某些特定輸出資料之功能; 績效需求(Performance Requirements):系統在執行狀態中必須滿足之績效條件,如執行速率、容量、精確度等; 外部介面需求(External Interface Requirements):系統軟體必須與外部硬體、資料庫、或其他軟體系統銜接之介面限制; 設計限制(Design Constraints):根據系統與應用領域之特性,在設計階段必須滿足之特殊限制條件; 品質屬性(Quality Attributes):系統必須滿足可測量之品質,如可靠性、可維護性、正確性等等。 本論文採用之做法為根據特定情境並配合上述之分類精神界定出滿足使用者之需求評估指標項目並進行二階段式需求評估: 依據界定指標項目,並經由專家檢視各評估項目之適合性後,設計初步的問卷。 系統開發人員及系統使用者進行問卷試測 。
技術與解決方案分析 本論文擬以階層式的技術分層方式來做技術與解決方案分析:
應用情境案例: 在無線感測網路上實現音訊(語音)融合 與事件判斷技術於家庭安全防護
應用情境案例:家庭安全防護 Smart Audio Sensors 佈建於家中! 開/關窗戶聲音! 小孩在“廚房”裏“大哭”! 開/關聲音! Local Server Service Center 開/關窗戶聲音! 小孩在“廚房”裏“大哭”! 開/關聲音! Audio Sensor Net 危險緊急的事件!
競爭利基與優勢
Audio vs. Video Audio Video 傳輸頻寬限制 所需頻寬較小 所需頻寬較大 傳輸方式(以Zigbee為例) 可以直接傳原始的PCM資料 需先在Sensor端轉成Feature後再傳 整合的便利度 Hardware independent Hardware dependent 融合判斷時間 較快(較可實現Real-time回應) 較慢 使用者心理 較有隱私權 較無隱私權 Sensor 價格 較便宜 較昂貴 Sensor 能源消耗 較省電 較耗電
競爭優勢 頻寬需求量低 資料容量少 智慧型判斷 價格低廉 用戶端並不必強制需配有寬頻設備如cable modem、ADSL等等 增加消費族群,帶動家庭保全市場商機 資料容量少 減少用戶端與中央監控端的儲存設備 防制information overflow之現象 降低用戶端或中央監控端之處理器的運算需求 提供特定事件RealTime Response的能力 智慧型判斷 聲音感知器智慧化,降低false alarm機率 感知器 + 辨認能力 = 專人現場判定 價格低廉 相對於CCTV、DVR等設備價格較為低廉 建置成本較低廉,易吸引DIY家庭保全市場的族群
家庭安全防護概念 服務範圍 功能特色 防止或降低偷竊所引起之財產的損失 偵測可能引起火災的原因如鍋爐燃燒聲、電線走火爆炸聲等等以防止 危害人身的安全 偵測孩童是否進入家中潛藏傷害的危險角落以防止孩童於家中之意外 災害的發生 偵測孩童是否有哭鬧之狀態而緊急通知家長以減少家中意外災害之受 創的程度 偵測是否發生家庭暴力事件(丈夫打老婆)亦或是偵測是否發生褓母虐 待孩童的事件以利事後責任的釐清 功能特色 智慧型判斷以減少誤報率 異常事件之訊息即時非常通報
(偵測“開/關門聲”、“開/關窗聲”、“人的聲音”) 系統發展建置 (偵測“開/關門聲”、“開/關窗聲”、“人的聲音”)
系統架構 Device layer A sensor environment is composed of each kind of audio sensors. 2. Cognition layer Audio (speech) signal feature extraction procedure. Intelligent inference engine of specific abnormal events. 3. Message notification layer MMS、SMS、IMPS、SIP
Sensing equipment Two microphone array sets in the ceiling of the living room and the dinning room: Two microphone array sets on the wall near the door and the window: One pre-amplified microphone’s size The microphones are small enough to be mounted in the wall or picture frames. Drive a pan-tilt-zoom camera in the ceiling to focus on locations where sound events are detected.
Sensing environment y kitchen Living room Dinning room X Door Window y X Sensing node (microphone array set, a set of four microphones in a square pattern) Unique PTZ camera
Sound event map application Monday AM 9:30 Monday FM 4:30 From “Monday AM 9:30 to Monday FM 4:30”: Voice events happens: people talking = 66; windows opening = 3; doors opening = 5;
Cognition layer Class GMM Scores for <door> class Feature training database Class GMM <normal> class <window> class <people> class Scores for <door> class Feature Extraction Scores for <window> class Audio Frame (20 ms ) Scores for <normal> class A posteriori prob. score for <door> class Input audio stream Scores for <people> class Active Voice? A posteriori prob. score for <window> class VAD Decision for one Window (0.5 sec) A posteriori prob. score for <normal> class Scores for <people> class A posteriori prob. score for <normal> class Scores for <door> class Audio Frame (20 ms ) Feature Extraction Scores for <window> class Scores for <normal> class
Training and Detection Components Audio segmentation Feature extraction Kinds(LPC, MFCC,…) Numbers(Feature vector orders) Building up audio event models Single level Hierarchical(Top-down) Audio events modeling Classifiers: Gaussian Mixture Models (GMM) Audio events detection Likelihood computation Audio event (Normal:背景聲音Abnormal:尖叫聲音) Audio segmentation and feature extraction Event models GMM classifiers Offline training of event models Training audio data Testing audio stream Online testing(event detection)
Detection of “normal” and “abnormal” Audio events detection Normal event v.s. Abnormal event Likelihood computation Feature Extraction Scores for <normal> class Audio Frame (20 ms ) A posteriori prob. score for <normal> class Input audio stream A posteriori prob. score for <scream> class Audio Frame (20 ms ) Feature Extraction Scores for <scream> class Decision for one
Flow charts of audio event detection Start Accumulating each posteriori probability score of two GMM models Observation data input Likelihood comparison of two accumulating scores Feature extraction End Return maximum likelihood one Likelihood scores computation of two GMM models Continue next one? Yes No
Voice Activity Detection Voice/Non-voice Detection 擷取“有意義的聲音”之開始點與結束點。 “有意義的聲音”:環境的異樣聲音或語者發出的聲音。 選擇一個合適的“Silence Detection”方法。 選擇一個合適的“Background Noise(Environment Sound)Removal”方法。 擷取 N1 N2 S S’ Composed model Sound model Noise model silence noise voice + noise voice
Voice Segmentation Speaker change detection Distance 視窗1 視窗2 D(t) D(t+1) D(t+2) Contiguous window numbers D(1,2) D(3,4) D(5,6) D(i-3, i-2) D(i-2, i-1) D(i-1,i) Distance Change!
特徵參數的選擇 語音訊號的特徵參數擷取 聲音資料庫 Linear Prediction Coefficients (LPC) 參數 Cepstrum Coefficients 參數 Mel-frequency Cepstrum Coefficients (MFCC) 參數 選擇“合適的”特徵參數做為模型訓練或聲音辨認的輸入 聲音資料庫 聲碩科技公司(AST) 提供 ASTTel系列 錄製其它各式聲音或找尋該類資料庫 音框 1 音框 2 音框 n 特徵參數 1 特徵參數 2 特徵參數 n
聲音模型訓練 訓練各式特定聲音的GMM聲學模型 擬考慮其它可行的聲音模型訓練方式 GMM(Gaussian Mixture Model) 具有Text-Independent的特性 具有多類別的樣本(sample)之 近似能力 模型訓練時間快速 每一類聲音即擁有一個GMM模型 利用EM(Expect Maximization)及 K-means分群法輔以訓練 擬考慮其它可行的聲音模型訓練方式 GMM(K) 特定聲音類別(k) 收斂!
融合判斷 單一感測器聲音事件判斷 多個感測器融合判斷概念 融合多個audio sensor的輸出並融合判斷 增加判斷可靠度 “Early fusion” vs. “Late fusion” 選擇合適的融合方式 input output input 1 input 2 input 3 input n 模型比對 total input Early fusion output 1 output 2 output 3 output n output Late fusion
陣列訊號處理 利用陣列訊號作人聲的聲源定位與放大聲音的訊號 選擇一個合適的“Beamforming”方法。 Beamforming Microphone Array 室內建置麥克風陣列 d Delay: -(M-1) - X1(t) X2(t) XM(t) Signal Summing! Time Delay of Arrival, TDOA 聲音訊號放大M倍 判定聲音發聲來源 危險區 音源 方向 判定
產業效益 (預期效益)
先期工作效益 本論文所提之以在無線感測網路上實現音訊(語音)融合與事件判斷技術著重於應用情境之應用需求分析、可能的關鍵問題、與技術解決方案分析,分析的結果希望能夠協助國內相關產業的發展,並帶動無線感測領域應用市場之Killer Application的產生,並據以創造商機。 「U-Taiwan」計畫將先在醫療、交通運輸、居家照顧等領域,利用無線感測網路監測、追蹤以及蒐集資料,成熟後進而推廣到其他領域,此論文之可行性分析部份的分析結果可協助政府在此方面的推廣。 本論文在應用情境的可行性分析部份的分析結果可以提供廠商或創投業者在產品研發上的一個重要參考依據,因而在研發產品的投入上不致造成在時間上或金錢上的浪費。
後期工作效益 擬就數種特定的聲音事件:開/關門聲音、開/關窗戶聲音、人的聲音等等聲音事件的偵測進行系統雛形的建置,而預期達到的辨認效果為(以False Rate (FR)做為評估的指標): 註:由於人的聲音,其待測目標物為不固定位置,故由感測裝置較難收到完整的聲音訊號的訊號,因此本論文預估在做事件的判別上將較其餘兩個事件較為困難,故其預期達到的辨認效果的預估較其餘二者較低。 傳統之僅靠獨立Sensor訊號動作時,在當有複雜事件干擾(如颱風、地震)時不易判斷是環境干擾誤報、門窗破損或非法入侵,本論文方式可大量減少因複雜事件造成的錯誤警報率(false alarm)。 本論文之針對偵測人聲的部份,可以做為後緒再做更深入之含語意式之事件判斷(家庭暴力事件、小孩受虐事件)推論的基礎。
附件一: 保全/安全業者的需求與技術挑戰
保全/安全業者需求 現有保全感測系統的問題 智慧無線感測網路解決方案優點 佈線費用與不方便 傳輸線 電源線 不容易增加新功能 沒有感測可移動目標的功能 誤報率高 智慧無線感測網路解決方案優點 以無線方式傳輸減少佈線成本 容易擴展提供多元感測器資訊收集與傳輸 容易提升智慧分析功能
業者需求與技術挑戰 重要事件發生時 資料傳輸低延遲率與 高可靠度傳輸技術 低資料損失率 需求一 電池使用一年情況下 重要事件發生時 能及時回報 兼顧省電之 智慧即時回報技術 需求二 智慧型分析判斷 減少誤報率 需求三 誤報率高
需求三:智慧型分析以減低誤報率 業者需求 問題描述 技術挑戰 解決方案 減少複雜事件造成的錯誤警報率(false alarm),如颱風天造成大量false alarm發生 問題描述 複雜事件干擾(如颱風、地震)時,如僅靠獨立Sensor訊號動作,不易判斷是環境干擾誤報、門窗破損或非法入侵 技術挑戰 多種Sensors的選擇: 針對複雜事件,選用適當的Sensors Learning Model建立:一個有效的演算法,能將保全業者的複雜事件有效分類 Adaptive Modeling機制:依客戶環境的情形,調整自己model係數。(預防有心人士人為干擾的行為) 解決方案 開發智慧型分析運算平台,可以快速整合不同Sensor運作模型 經實驗後建立多樣式不同Sensor運作模型,可視客戶狀況選用合適模型
附件二: 國土安全應用市場分析
國土安全應用市場分析 市場規模 運用與買單意願 傳統解決方案 無線感測的價值 土石流 不適用 政府 以CCTV與地聲感測為主 無法發揮高密度信號收集的優點 坡地社區 衛星影像遙測 可以發揮高密度信號收集的優點 水位監測 以水位顯示器為主 橋樑監測 佈線,以橋樑偵測器、橋樑警報器、橋樑警示燈為主
敬請指導!