數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee Computer System and Communication Lab, Academia Sinica Institute of Information Science 2003.09.09
Introduction Knowledge Portal (KP) 可針對網頁、文件或資料庫…等等不同型態之來源進行全文檢索。 功能包含網站目錄管理、搜尋系統、整合式搜尋以及自動分類、自動建構知識網路…等等。
系統架構 Indexer (IE) DB Searcher (ISAPI & ASP) Crawler Media Parser Data Source Modules Language Documents Detector Indexer (IE) Language Fulltext Keyword DB Translator Indexer Indexer Searcher (ISAPI & ASP) This is Language Fulltext Keyword In - Class optional Translator Searcher Searcher Searcher Module
檢索資料來源 Crawler Indexer (IE) Crawler Crawler DB Crawler Indexer HTML HTTP HTML Language Documents Module Parser Detector Office Indexer (IE) Crawler Crawler Documents Media Media Text/Field Text/Field Language Language DB Module Module Parser Parser Detector Detector PS/PDF Documents Crawler Attachment Email Language Email Indexer Module Detector Text/HTML Searcher
Media Parser Crawler MediaParser Scheme classification Objects Retrieval Doc-type classification Text Extraction Indexing Email Database Files BBS/NNTP HTTP Crawler MediaParser
Key Feature I 目錄管理功能 支援Dublin Code與Database搜尋 支援缺字檢索 分類目錄之階層式管理、類別搜尋 自動分類建議 依據XML或Bookmark格式匯入匯出 多重階層目錄切換 支援Dublin Code與Database搜尋 支援缺字檢索
Key Feature II 搜尋繁簡辨別、顯示繁簡互轉 網頁暫存 關鍵詞分析管理 關聯詞、新詞學習、分類知識萃取
階層式管理分類目錄
自動分類建議 未分類之查詢結果會 顯示自動分類之功能 以便使用者快速加入 分類目錄架構
依據Bookmark格式匯入匯出 瀏覽至分類的目錄,點選匯入/匯出
依據Bookmark格式匯入 以點選方式選擇Bookmark內適合的網頁加入本目錄
依據Bookmark格式匯出 匯出至Browser之完成畫面
Dublin Core與Database搜尋 Dublin code一組描述網路資源之簡單欄位, Search Engine沒有結構的關鍵字描述 -> Dublin Core結構化的描述簡單的格式 支援 Dublin Core 欄位搜尋 簡化 Dublin Core欄位以 支援資料庫搜尋
搜尋繁簡辨別、顯示繁簡互轉 原網頁 轉簡體
網頁暫存
以缺字進行檢索 檢索輸入 檢索查詢 檢索顯示 依照缺字字根、部件或筆畫透過缺字查詢系統找出用以檢索輸入之缺字構字式 再以包含此構字式的查詢詞進行檢索 檢索顯示 Server side Client side
Web缺字顯示複合式方案 Server-side Client-side Batch conversion On-the-fly filtering Client-side LiveConverter
Server Side – Batch Conversion 奇王 尔異宀 玉 Web page filter In memory Rendered pages Data with glyph expr. Live Converter Batch Converter 奇珎異宝 Static pages with glyph expr. Web server Web Server Rendered pages Client Browser Content Provider
Server Side – On-the-fly filtering 奇王 尔異宀 玉 Web page filter In memory Rendered pages Data with glyph expr. Live Converter Batch Converter 奇珎異宝 Static pages with glyph expr. Web server Web Server Rendered pages Client Browser Content Provider
Client Side - LiveConverter 奇王 尔異宀 玉 Web page filter In memory Rendered pages Data with glyph expr. Live Converter Batch Converter 奇珎異宝 Static pages with glyph expr. Web server Web Server Rendered pages Client Browser Content Provider
欲檢索之缺字查詢
缺字輸入檢索
檢索結果(轉換前)
檢索結果(轉換後)
Q & A Thank You !