Presentation is loading. Please wait.

Presentation is loading. Please wait.

數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee

Similar presentations


Presentation on theme: "數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee"— Presentation transcript:

1 數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee
Computer System and Communication Lab, Academia Sinica Institute of Information Science

2 Introduction Knowledge Portal (KP) 可針對網頁、文件或資料庫…等等不同型態之來源進行全文檢索。
功能包含網站目錄管理、搜尋系統、整合式搜尋以及自動分類、自動建構知識網路…等等。

3 系統架構 Indexer (IE) DB Searcher (ISAPI & ASP) Crawler Media Parser
Data Source Modules Language Documents Detector Indexer (IE) Language Fulltext Keyword DB Translator Indexer Indexer Searcher (ISAPI & ASP) This is Language Fulltext Keyword In - Class optional Translator Searcher Searcher Searcher Module

4 檢索資料來源 Crawler Indexer (IE) Crawler Crawler DB Crawler Indexer
HTML HTTP HTML Language Documents Module Parser Detector Office Indexer (IE) Crawler Crawler Documents Media Media Text/Field Text/Field Language Language DB Module Module Parser Parser Detector Detector PS/PDF Documents Crawler Attachment Language Indexer Module Detector Text/HTML Searcher

5 Media Parser Crawler MediaParser Scheme classification
Objects Retrieval Doc-type classification Text Extraction Indexing Database Files BBS/NNTP HTTP Crawler MediaParser

6 Key Feature I 目錄管理功能 支援Dublin Code與Database搜尋 支援缺字檢索 分類目錄之階層式管理、類別搜尋
自動分類建議 依據XML或Bookmark格式匯入匯出 多重階層目錄切換 支援Dublin Code與Database搜尋 支援缺字檢索

7 Key Feature II 搜尋繁簡辨別、顯示繁簡互轉 網頁暫存 關鍵詞分析管理 關聯詞、新詞學習、分類知識萃取

8 階層式管理分類目錄

9 自動分類建議 未分類之查詢結果會 顯示自動分類之功能 以便使用者快速加入 分類目錄架構

10 依據Bookmark格式匯入匯出 瀏覽至分類的目錄,點選匯入/匯出

11 依據Bookmark格式匯入 以點選方式選擇Bookmark內適合的網頁加入本目錄

12 依據Bookmark格式匯出 匯出至Browser之完成畫面

13 Dublin Core與Database搜尋
Dublin code一組描述網路資源之簡單欄位, Search Engine沒有結構的關鍵字描述 -> Dublin Core結構化的描述簡單的格式 支援 Dublin Core 欄位搜尋 簡化 Dublin Core欄位以 支援資料庫搜尋

14 搜尋繁簡辨別、顯示繁簡互轉 原網頁 轉簡體

15 網頁暫存

16 以缺字進行檢索 檢索輸入 檢索查詢 檢索顯示 依照缺字字根、部件或筆畫透過缺字查詢系統找出用以檢索輸入之缺字構字式
再以包含此構字式的查詢詞進行檢索 檢索顯示 Server side Client side

17 Web缺字顯示複合式方案 Server-side Client-side Batch conversion
On-the-fly filtering Client-side LiveConverter

18 Server Side – Batch Conversion
奇王 尔異宀 玉 Web page filter In memory Rendered pages Data with glyph expr. Live Converter Batch Converter 奇珎異宝 Static pages with glyph expr. Web server Web Server Rendered pages Client Browser Content Provider

19 Server Side – On-the-fly filtering
奇王 尔異宀 玉 Web page filter In memory Rendered pages Data with glyph expr. Live Converter Batch Converter 奇珎異宝 Static pages with glyph expr. Web server Web Server Rendered pages Client Browser Content Provider

20 Client Side - LiveConverter
奇王 尔異宀 玉 Web page filter In memory Rendered pages Data with glyph expr. Live Converter Batch Converter 奇珎異宝 Static pages with glyph expr. Web server Web Server Rendered pages Client Browser Content Provider

21 欲檢索之缺字查詢

22 缺字輸入檢索

23 檢索結果(轉換前)

24 檢索結果(轉換後)

25 Q & A Thank You !


Download ppt "數位典藏 - 全文檢索系統簡介 Reporter:Chia-Hao Lee"

Similar presentations


Ads by Google