索引典與資訊檢索 參考資料: 黃慕萱,Chap.8 蔡明月,Chap. 10 黃惠株 。「淺談索引典」。佛教圖書館館訊第五期(民85年 3月)<http://www.gaya.org.tw/journal/m5/5-main1.htm>(2004年5月10日) 。 張嘉彬。 「索引典及其於資訊檢索上之探討」。書苑季刊36期( 民87年4月)<http://public1.ntl.gov.tw/publish/suyan/36/text_46.html>(2005年5月23日) 。
簡介 分類法v.s.索引典 Thesaurus其希臘與拉丁的字源本義為「寶典」( A treasury) 1947年到1950年間 Mooers提出描述語、資訊檢索與資訊檢索系統等專門術語 1957年 Brownson第一次正式使用索引典這個術語,他認為解決資訊檢索問題的最佳答案,是應用機械化的索引典
國際標準的定義 國際標準組織(ISO 2788) 美國國家標準(ANSI Z39.19-1980) 一種受控標引語言詞彙,從編製形式上明確顯示概念間的先顯關係(如:廣義和狹義關係)。 美國國家標準(ANSI Z39.19-1980) 索引典就是將詞與詞組依照同義關係、層級關係及其他關係與附註規定編輯起來,其功能是提供一部標準化的詞彙,供資訊貯存與檢索之用。 聯合國科教文組織全球科技資訊系統(UNISIST, UNESCO) 索引典可以其功能或結構定義之。 就功能而言,索引典是一種控制詞彙的工具,其用途是將文獻、標引人員或系統使用者所用的自然語言,轉譯成更為規範的「系統語言」(文獻工作語言,資訊語言)。 就結構而言,索引典是一部含有特定知識領域的詞彙,詞彙間有語義或從屬上的關係,且詞彙是控制的、動態的。
學術界不同階段的定義 索引典的主要功能是將詞彙依字母順序排列 索引典編纂詞彙並顯示詞彙間之同義關係、階層關係或其他關係,藉以提供資訊儲存與檢索一套標準詞彙。 索引典應該依據詞彙的意義排列,而不是像字典一樣依據字母順序排列‧‧‧索引典的主要功能是列舉可表達同一概念所有詞彙,藉以協助使用者找出最適合貼切的詞彙來表達他們心中的概念。 索引典可以當成人類思路歷程的類比‧‧‧索引典的構造最好和人類大腦的構造一樣,當有一概念產生時,人們可以在自己的思路中尋找最適合的詞彙來表達。
綜合各家定義 收集足以表示知識概念的字或詞,以特定結構加以排列 控制同義詞,區別同形異義詞,顯現各相關詞彙間階層及語意互屬上的各種關係 做為索引者在分析處理資料及讀者在檢索資料時能選用一致的、經過控制的詞彙 提供資訊儲存與檢索標準化的用語
索引典之目的 在特定的知識領域,提供概念之間的關係指引,幫助標引人員(indexer)及檢索人員(searcher)了解該學科的知識架構。使用者並可藉著詞間關係,由已了解的知識概念來了解新概念的涵義。 在特定的知識領域,提供標引人員一套標準化詞彙,確保資料標引的一致性。 為了確保資料處理的一致性,索引典為一概念一詞,而其他同義詞則以用代關係指 引。 詞與詞之間有明確的詞間關係存在,這些關係能區分各詞在語義網架構中的功能,可作為使用者選擇正確詞彙的指引。 當查出的資料太多或太少時,索引典的層級結構可幫助使用者擴大或縮小檢索主題的詞彙範圍。 最好能成為該學科的標準用語。
索引典之功能 資訊的儲存與檢索提供標準化的語彙,以確保對同一主題,分析及檢索資料時所用的語彙一致 Dagobert Soergel認為: 索引典的概念結構(conceptual structure)在標引及檢索時能將主題概念表現的恰到好處 索引典將同義詞聚集亦有詞彙控制(terminological control)的功能
索引典編製基本程序 準備工作 詞彙蒐集 定詞 建立詞間關係 編排與展示 測試與修正 維護與更新
準備工作 學科範圍確定 資料量及類型 詳盡性(exhaustivity)與專指性(speci-ficity) 作業表格內容設計
詞彙蒐集 經驗法(empirical approach) 小組匯編法(committee approach) 蒐集該學科的百科全書、字(辭)典、刊物及其他權威性出版品,將出現的詞記錄於作業表格,而後再進行屬性劃分。 亦稱"石筍式法"(stalagmitic) 小組匯編法(committee approach) 匯編法則是聚集一群學科專家,進行腦力激盪,列出相關詞彙,確定族首詞(top term),再行分族編排。 又稱為“鐘乳石法”(stalactitic)
定詞—1/2 按字面排列,將重複詞的所有資料合併於一張卡片,刪除字面重複的詞;但同形異義詞要保留並需以限定語加以說明。 採用組面分析方法,將同一概念的詞聚在一起,選出一個常用或正式用法的詞當作選用詞(preferred term),亦稱描述語(descriptor),其他同義詞或類同義詞則當非選用詞(non-preferred term),亦稱非描述語(non-descriptor),以此法消除概念重複的詞,完成定詞工作
定詞—2/2 選擇直接款目或間接款目 統一特殊符號 控制敘述語的縮寫或頭字語 釐定敘述語的不同拼法 選詞原則 採用名詞 複合名詞 形容詞 名詞的單數與複數 單數特定過程、特性及唯一或不可數的事與物,如painting 、conductivity、earth、water 複數具實體可數的事與物,如starts、teeth、records 若單複數意義不同又必須同時存在,則於其後加上限定語(qualifiers) ,如painting (entity) 、 painting (process) 選擇直接款目或間接款目 Radar antenna v.s. antenna, radar 統一特殊符號 Gamma rays v.s. r rays. 控制敘述語的縮寫或頭字語 COM v.s Computer Output Microform 釐定敘述語的不同拼法 Theater v.s. theatre
建立詞間關係—1/3 等同關係 又稱用代關係,參照符號是「USE」及「UF」 同義(synonyms)指意義完全相同,可互相取代的詞 準同義(near-synonyms)指意義相近 意義不同但為了標引目的視為同義的詞 組代關係標引時以數詞組合代表另一概念 描述詞 V.S.非描述詞 範圍註與解說註 例如 Storage batteries UF Secondary batteries Secondary batteries USE Storage batteries
建立詞間關係—2/3 層級關係 判定公式 又稱屬分、上下或等級關係,參照符號是「BT」及「NT」 類別 屬種關係 屬種(genus-species) 集元(set-element) 整部(whole-part) 多層級(polyhierarchical) 判定公式 屬種關係 "一些(鳥類)是(鸚鵡)","所有(鸚鵡)全都是(鳥類)" 整部關係 (台灣)的一部分是(台北)","(台北)是(台灣)的一部分" 集元關係 "有的(河流)是(長江、黃河…)","(長江、黃河 …)一定是(河流)
建立詞間關係—3/3 聯想關係 又稱親緣、類緣或相關關係,參照符號是「RT」 判定參考原則 同一範疇:屬性涵義有部分重疊但非同義的詞可互為「RT」,如「ships」和「boats」 。 不同範疇:兩詞雖分屬不同的概念體系,但彼此間卻有強烈的提示關係,如學科及對象(林學和森林) 。
編排與展示 依字順排序 依分類排序 依層級排序 依敘述語交替式排序 依圖形排序
測試與修正 從最近出版的相關刊物上隨機取樣 列一雙欄平行的標引工作單,一欄列由隨機取樣文獻中取出之主題詞,另一欄則是由主題詞轉為索引典中最貼切的描述詞 標引人員和編製人員根據前述工作單的資料,評斷索引典的詳盡度及專指度,並依此修正 檢測詞群架構及詞間關係
維護與更新 索引及檢索人員須記錄詞彙使用頻率,利用作業表格記錄新詞彙或舊詞的詞間結構變動情形,然後定期討論,依記錄的資料增(刪)詞或修改詞間關係
利用索引典檢索資料之過程-- 1/2 檢索晤談 提問主題分析 將概念轉換成索引典中的描述語進行檢索 對提問進行分析,確定讀者的真正需求 分析的結果轉成索引典詞彙 提問主題分析 將概念轉換成索引典中的描述語進行檢索 組配 廣義詞檢索 狹義詞檢索 近義詞檢索
利用索引典檢索資料之過程-- 2/2 目的recall ratio v.s. precision ratio 利用索引典的詞間關係檢索 擴檢(Broader Term Search,即廣義詞檢索) 縮檢(Narrower Term Search,即狹義詞檢索) 聯檢(Related Term Search,即關係詞檢索) 族檢(Term Family Search) 群檢(Narrower Block Search) 邏輯運算
索引典應用於資訊檢索上之優點 使用標準的控制詞彙,可以解決同義詞、類同義詞及同形異義詞的問題。 促成索引用語與檢索用語的一致性,使得索引作業及檢索作業能以標準詞彙代表各同義詞,避免資料分散與不易查詢。 採用前組合的方式編製索引,解決概念錯誤的連結的問題。 控制詞彙有良好的結構,使用時可選擇最適當的用語,以提高檢索求全率(recall ratio)與求準率(precision ratio)。 容易從事有階層附屬關係的檢索。 用語明確一致、清楚固定。 可利用參互見結構,得知相關的詞彙。 採用控制詞彙方式編製索引,款目較自然語言索引法來得少,故具有高度密集的特性。 檢索者負擔輕,不必研究作者可能使用的詞彙,尤其是同義詞的使用。
索引典應用於資訊檢索上之缺點 必須由專業人員製作索引,花費較大。 必須隨時檢查索引的品質及錯誤。 索引人員可能因誤解而導致錯誤的索引,且易因索引者的不一致性產生問題。 使用的標準詞彙易於過時,必須隨時更新,維護經費較高。 無法隨時增添新的或複雜的概念,更新較困難。 索引人員須具備相當的學科背景與訓練,故製作速度較慢。 使用者亦必須經過訓練,方會使用。 用語受限於索引典,有時稍嫌僵化,不具彈性。 用語的表示受到極大的限制。 較不具詳盡性。
利用索引典檢索資料之評估 結構評價 詞彙評價 使用上的評價 詞彙涵蓋的範圍、顯示方式、易用性、結構的設計、整體結構的嚴密性、功能的成本效益等 詞量多寡、詞組規模(Size of term groups)、等同率(Equivalence ratio)等 使用上的評價 求全率與求準率
以索引典為主的系統設計考慮要素 主題範圍 資料類型 資料量 資訊系統類型 誰是系統使用者 系統使用人數及頻率 問題類型 詞彙組合方式 資訊系統的資源 考慮資訊檢索效率
應用於資訊檢索上之發展趨勢—1/2 索引典編製標準化 分類主題一體化語言 Hyper-thesaurus 第一個具有權威性的標準 中國大陸 1970年UNESCO編製<單語科技索引典編製與發展準則> ISO 2788:1974<單語索引典編製和發展準則的基礎> ISO 2788:1986 Documentation -- Guidelines for the establishment and development of monolingual thesauri 中國大陸 1979年<漢語主題詞表> GB13190-91<漢語敘詞表編製規則> GB/T3680-1995<漢語敘詞標引規則> 台灣 82年6月25日公布<西文單一語文索引典編製標準>(CNS 13224) 分類主題一體化語言 Hyper-thesaurus
應用於資訊檢索上之發展趨勢—2/2 個人化之索引典(personalized thesaurus)=讀者自建索引典(user-constructed thesaurus) 將Fuzzy的觀念加入索引典的檢索中 Relevance Feedback Ranking 將人工智慧概念應用於索引典的檢索中
中文索引典實例 立法資訊系統主題索引典 農委會農業科學資訊服務中心農業科技術語資料庫 慈濟文化中心新聞全文資料庫索引典 心經索引典 http://lis.ly.gov.tw/lghtml/alldbhelp/ttsthes.htm 農委會農業科學資訊服務中心農業科技術語資料庫 http://www.asic.gov.tw/index/index.htm 慈濟文化中心新聞全文資料庫索引典 http://taipei.tzuchi.org.tw/databank/rule/rule.htm 心經索引典 http://www.gaya.org.tw/indexbook/index.asp 淡新檔案索引典 http://lips.lis.ntu.edu.tw/ross/danhsin/
西文索引典 LC Thesaurus for Graphic Materials I: Subject Terms (TGM I) MeSH http://www.loc.gov/rr/print/tgm1/ MeSH http://www.nlm.nih.gov/mesh/meshhome.html NAL Agricultural Thesaurus http://agclass.nal.usda.gov/agt/agt.htm The Astronomy Thesaurus http://msowww.anu.edu.au/library/thesaurus/ ERIC Thesaurus 從輔大所訂閱的資料庫進入