適用於數位典藏多媒體內容之 複合式多媒體檢索技術 陳柏琳 國立台灣師範大學 資訊工程研究所 助理教授 Good morning, Ladies and Gentlemen I’m Berlin Chen, coming from National Taiwan Normal University, Taipei Today, I would like to present our paper, which is entitled “ Voice Access of Mandarin Broadcast News ” 2004/04/26
計畫主旨 建構一個複合式(multimodal)的多元互動檢索系統,包括以文字、語音和圖像內容的輸入方式,透過無線網路環境從事典藏文物之多媒體資訊檢索、瀏覽與服務 發展自動化組織整理與分類多媒體典藏文物的工具程式模組,以降低典藏單位成本與人力
參與單位 國立台灣師範大學資訊工程研究所 國立歷史博物館 新視科技公司
主要核心技術 極大詞彙連續語音辨識 以圖像內涵為基礎之圖像處理與檢索 多模式多媒體整合檢索
計畫現況 已發展出PDA環境下影音、圖像與文字整合瀏覽介面 Web環境下的影音、圖像與文字整合檢索功能亦已完成 語音、文字、手寫輸入 提供目錄結構之瀏覽 Web環境下的影音、圖像與文字整合檢索功能亦已完成 文字輸入 以圖找圖
整體系統流程圖 Image Database Dispatcher Web Preprocessor Content-based Image IR Text Queries Wireless Networking 新視科技公司技術支援 Text/Image /Video Database Content-based Text/Speech IR Speech Recognition Server Spoken Queries
PDA 介面系統流程圖 多尺度索引機制 詞層次 中文極大詞彙 連續語音辨識 索引特徵 伺服器 多尺度索引 反轉檔 建構 資訊檢索 音節層次 Client Server 多尺度索引機制 詞層次 索引特徵 中文極大詞彙 連續語音辨識 伺服器 PDA 介面 反轉檔 多尺度索引 建構 音節層次 索引特徵 資訊檢索 伺服器 影音串流 伺服器 歷史博物館數位典藏文物 (文字、圖片、影音詮釋資料) 無線網路
極大詞彙連續語音辨識 (LVCSR) Linguistic Decoding Front-end Processing Speech Input Word Level Match Sentence Level Search Recognized Sentence Feature Extraction Feature Vectors Word Model Composition HMMs N-grams Speech Corpora Acoustic Modeling Language Modeling Text Corpora Subword Models Lexicon Language Models Front-end Processing (前端處理) is a spectral analysis (頻譜分析) that derives feature vectors to capture salient spectral characteristics of speech input Linguistic decoding (語言解碼) combines word-level matching and sentence-level search to perform an inverse operation to decode the message from the speech waveform
Web環境下的文字、圖像檢索
Web環境下的文字、圖像檢索 新視科技發展之以圖像內涵為基礎之圖片搜尋技術(CBIR: Content-based Image Retrieval) 利用器物之色彩、形狀與紋路等特徵
計畫展望 PDA無線定位 口語對話 電子商務
謝謝!