參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9 資訊檢索技術 參考資料: 林秋燕 曾元顯 卜小蝶,Chap. 1、3 Chowdhury,Chap.9
資訊檢索技術簡介 目的 涵蓋各種類型資料之處理 包含所有分類、管理、儲存、搜尋大量電子資訊所需技術,以及對於使用者需求的認知 利用電腦儲存與計算能力,協助使用者從大量缺乏結構化(Non-structural)資料中,快速擷取所需 分析使用者資訊檢索需求意涵,嘗試提供解決方案 涵蓋各種類型資料之處理 文字、表格、圖片、文件 結構化 v.s. 非結構化 包含所有分類、管理、儲存、搜尋大量電子資訊所需技術,以及對於使用者需求的認知
資訊檢索技術的發展—1/2 發展歷程 各種技術標準問世 兩大發展族群 人工分類 關鍵詞技術 全文檢索 高品質全文檢索 MARC SGML KWIC KWOC 全文檢索 索引搜尋 快速比對 高品質全文檢索 各種技術標準問世 MARC SGML HTML Z39.50 XML 兩大發展族群 System-centred models User-centred or cognitive models
資訊檢索技術的發展—2/2 比較重點 早期研究方向 最新研究方向 資訊型態 文字型態為主 擴展至多媒體型式 資料特性 歷史性靜態資料 及時性動態資料 資料庫收錄範圍 學術性,如書目文獻 多元化,如即時新聞、Web Page等 檢索技術 以文字比對為基礎 發展智慧型檢索技術 服務層面 允許有限人次檢索 允許全球每日千萬人次上線檢索 服務範疇 限制在區域網路 幾乎皆以廣域網路為目標 服務型態 以公眾服務為主 開始個人化資訊服務 參與學門 資訊科學、圖書資訊學 大量科際整合,如電腦工程、電機工程、語言學、新聞傳播等
系統導向之資訊檢索技術模組 Boolean model(布林邏輯查詢) Cluster-Based Model(串聯基礎模式) Vector-Space Model(向量模式) Probabilistic Model(機率模式) Best match searching model(最佳化查詢模式) Relevance feedback model(相關回饋模式) Natural language processing model(自然語言處理模式) Hypertext model(超文件模式)
Boolean model 提供檢索詞彙間AND、OR、NOT的組合 製作簡單、檢索速度快 可用不同欄位資料來限定檢索範圍,對主題明確的檢索(如明確的作者名稱、標題名稱)非常有效 但一般使用者比較難以利用此種模式表達較為複雜的查詢
Cluster-Based Model 理論基礎 假設相似的文件,應能符合類似的資訊需求 以串聯技術分析文件中所使用的詞彙(Term),找出文件與文件間的相似性(Similarities),相似性一樣者形成一個串聯(Cluster)。 利用此種自動歸類(Automatic Clustering)方式,便能將內容相近的文件歸成一類,除能藉由此關連找出未包含檢索詞彙的相關文件,更能提供進一步的歸納、摘要,與主題辨識。
Vector-Space Model 將檢索系統所有的文件視為一個文件向量空間 每一篇文件則為這個空間內的一個點(一個向量) 使用者的查詢問句(query)亦視為文件向量空間的一個點 計算代表文件的向量與代表查詢問句的向量的相似性 系統依照文件與查詢問句相似性的大小,排列系統認為相關的文件
Probabilistic Model 以文件(document)機率的大小決定該文件是否與使用者之查詢問句(query)相關 使用者之查詢問句為已知條件,依據該查詢問句計算文件之機率 P(d|q)=P(d,q)/P(q) 超過一定機率的文件則被檢索系統認為符合使用者的檢索需求 機率的大小則為文件排序的依據
Best match searching model 採用Ranking理念 (重要性排序) 檢索結果按符合程度排序,以加快檢索結果的檢視整理與利用,此為布林邏輯模式難以達到的重要功能 排序方式 Term weighting 將查詢字串或文獻內的索引詞彙,依重要性分別給予加權比數。呈現檢索結果時,權重高的詞彙排序在前面。 Document Ranking 利用詞彙權重評比,來判斷文獻和檢索詞彙的相似度,可節省瀏覽無關資料的時間
Relevance feedback model 使用者根據系統對檢索條件的回應,將相關資料或條件回饋給系統,以導引系統搜尋的方向,逐步獲取自己所要的資料 執行初次檢索後,使用者根據系統回應,指出哪些文件或相關詞跟他的檢索主題相關或完全不相關,並將此訊息回饋給系統,系統便據此訊息,再作進一步的搜尋 相關回饋表現出來的檢索方式,常成為漸進式查詢(progressive query)或範例查詢(query by example)的模式。
Natural language processing model 允許使用者以不限定的自然詞語、句法與系統溝通,因此使用者的負擔更輕,但系統的介面部份必須具備相當程度的人工智慧能力,以瞭解自然語言的意義。 三種處理層次 Syntactic analysis(語句結構分析) Semantic analysis(語意分析) Pragmatic analysis(實際意涵分析)
Hypertext model 採用互動導覽方式,允許使用者瀏覽文件中個別不同內容,或同一文獻集中的不同文件。 跳脫原有線性循序閱讀方式 惟仍受限於設計者的思維模式
改善檢索品質的使用者查詢模式 Information filtering Personalized service Query by voice Query by dialog Fuzzy search Intelligent search agent Information Mining
Information filtering (資訊過濾) 此種模式與使用者主動查詢資料而系統被動反應相反。 使用者向系統登錄自己的資訊需求、興趣或檢索條件後,由系統主動、持續的為使用者蒐集相關的資料,再定時或不定時傳給使用者,使用者只需被動接受檢索與過濾後的結果即可。因此,在一段期間內,使用者只需做一次檢索,即可獲得持續的檢索結果。
Personalized service (個人化服務) Adaptive Information Retrieval 檢索系統記錄個別使用者的資訊需求,或是把相同需求的使用者的記錄組合運用,讓使用者彼此的需求和興趣交互推薦,使得使用者查詢時,系統提供較符合個人興趣的回應,做到個別化的服務
Query by voice (語音檢索) Conversational Information Retrieval 由文字介面轉變為較為自然的口語語音介面,減低文字打字輸入的困難度,可以配合其他檢索模式運用。 Speech recognition voice-to-text Speech synthesis text-to-voice
Query by dialog (對話式查詢) 系統以文字或語音為介面同使用者對話,從對話中透露使用者的資訊需求與意圖,系統再據以檢索。 此種模式強調的是使用者端運用較為精緻的人機介面技術,因此與檢索技術的實際運作原理可以較無關係。
Fuzzy search (模糊搜尋) 即容錯式、全文式、非控制字彙、近似字串 (proximity)、允許利用近似自然語言的方式表達檢索字串與條件的檢索模式。 此種模式大大降低資訊檢索的複雜度,對不明確自己檢索主題的使用者幫助尤其顯著。 尋易(CSmart)智慧型中文文件檢索系統 http://www.sinica.edu.tw/csmart/index.html
Intelligent search agent (智慧型檢索精靈) 使用者將自己的資訊需求交代檢索精靈程式,由此精靈代替使用者到各個相關資料庫檢索資料,再回報回使用者。 此種模式是以上各種模式與人機介面技術的綜合運用,使得資訊檢索可以達到時空無礙、虛擬實境的境界。
Information Mining(資訊探勘) 發掘隱沒在大量文件內的訊息,協助使用者發現知識、蒐集情報。 Data Mining(資料探勘) 從結構化資料中,找出資料的相關性 Document Mining(文本探勘) 從非結構化的資料中,找出資料的相關性
使用者導向資訊檢索模式 Ingwersen’s model Belkin’s model Saracevic’s model 使用者的認知因其工作或興趣而不同,也造成其資訊需求和資訊行為的差異 社會和組織環境也會影響之 Belkin’s model Scanning to searching、Goal of interaction、Mode of retrieval、Resource condisered Saracevic’s model Cognitive、Affective、Situational